C
OS X ve Windows işletim sistemleri üzerinde çoğu işlemci mimarisi üzerinde Fortran,C
++,C
programlama dillerinde çoklu platform paylaşımlı bellek çoklu işlemeyi destekleyen bir uygulama geliştirme arayüzüdür, yani bir API'dir. OpenMP derleyici yönergelerinin kütüphane rutinlerini ve ortam değişkenlerinin çalışma zamanı davranışını etkileyen bir kümesini içerir. OpenMP kar amacı gütmeyen, OpenMp Archtecture Review Board(OpenMP ARB) isimli uluslar arası bir birlik tarafından yönetilir. Bu birliğin çoğunluğu yazılım satıcıları AMD, IBM, Intel,C
ray, HP, Fujitsu, Nvidia, NEC
, Microsoft, Texas Intstruments, OracleC
orporation şirketlerinden ve bilgisayar donanım grupları tarafından oluşur. OpenMP standart masaüstü bilgisayarlarda süper bilgisayarlara varana kadar paralel uygulamaları geliştirmek için programcılara basit ve uygun bir arayüz veren ölçeklenebilir ve taşınabilir bir model kullanır. Paralel programlamanın melez bir modeliyle oluşturulmuş bir uygulama hem OpenMP hemde MPI kullanarak bir bilgisayar üzerinde çalışabilir ya da paylaşımsız bellek sistemleri için OpenMP'nin gelişmiş sürümlerini kullanarak kullanıcıdan dahada bağımsız çalışabilir.Giriş
OpenMP çoklu iş parçacığı gerçekleştirimidir. Çoklu iş parçacığı ana iş parçacığının(sırasıyla yürütülen komutların bir dizisi) belirli bir sayıda yardımcı iş parçacıklarını durdurması ve bir görev onlar arasında paylaştırması olan paralelleştirme metodudur. İş parçacıkları birbiri ardında paralel şekilde çalışırlar. Farklı işlemcilerin iş parçacıkları farklı çalışma zamanı ortamlarını kendilerine tahsis ederler. Paralel çalışacak olan kodun bir bölümü sırasıyla işaretlenir. Bu işaretleme kod bölümünün yürütülmesinden önce iş parçacıklarının o kod bölümüne girmelerine sebep olacak ön işlemci direktifleridir. Her bir iş parçacığı onlara bağlı bir ID'ye sahiptir. omp_get_thread_num()fonksiyonu ile bu ID elde edilir.İş parçacığı ID'si bir tam sayıdır ve ana iş parçacığının ID'si sıfırdır. Paralelleştirilmiş kodun yürütülmesinden sonra iş parçacıkları ana iş parçacığına tekrar geri katılırlar. Programın sonuna kadar bu böyle devam eder. Varsayılan olarak her bir iş parçacığı kodun paralelleştirilmiş bölümünü birbirinden bağımsız şekilde yürütür. İş paylaşımı yapıları iş parçacıkları arasında bir görevi paylaştırmak için kullanılabilir, böylece her bir iş parçacığı kodun kendisine ayrılan bölümünde çalışır. Hem görev paralelleştirme hem de veri paralelleştirme OpenMP kullanarak bu yöntemle yapılır. Çalışma zamanı ortamı kullanıma bağlı olarak işlemcilere iş parçacığı tahsis eder, makine yükleme ve diğer faktörler gibi. İş parçacıklarının sayısı ortam değişkenleri veya kod içerisinde kullanılan fonksiyonlara bağlı olarak çalışma zamanı ortamı tarafından atanır. OpenMP fonksiyonları omp.h etiketliC
/C
++ header dosyaları ile programa dahil edilir.Tarihçe
OpenMP ARB ilk arayüz programını Fortran 1.0 için Ekim 1997 OpenMP ile yayınladı. Bir sonraki yılC
/C
++ standartını piyasaya sürdüler. Fortran veC
/C
++ 2.0 versiyonları ile birlikte 2002 yılında piyasaya sürüldü. 2.5 versiyonuC
/C
++ Fortranın bir kombinasyonu olarak 2005 yılında piyasaya sürüldü. Mayıs 2008'de 3.0 versiyonu piyasaya sürüldü. Yeni özellikler görevler ve görev yapıları kavramları versiyonu 3.0'a dahil edildi. Versiyon 3.1 9 Temmuz 2011'de piyasaya sürüldü. Versiyon 4.0'ın 2013 Haziran veya Temmuz aylarında sunulması bekleniyor. Aşağıdaki özellikleri geliştirmiş ve kendisine eklemiştir. Hızlandırıcılar içi destek, atomikler, hata yönetimi,işparçacığı ilişkisi, görev geliştirimi, kullanıcı tanımlı arttırma, SIMD desteği, Fortran 2003 desteği.Temel elemanlar
OpenMP temel elemanları iş parçacığı oluşturma iş yükü dağıtımı(iş paylaşımı), veri ortam yönetimi, iş parçacığı senkronizasyonu, kullanıcı seviyeli çalışma zamanı rutinleri ve ortam değişkenleri için yapılardır.C
/C
++' ta OpenMP #pragma etiketi kullanılır. OpenMP özel pragmalar aşağıda listelenmiştir.İş Parçacığı Oluşturma
omp parallel pragma paralelleştirilmiş yapı içerisinde kapanmış işi gerçekleştirmek için ek iş parçacıklarını çapraz dağıtmak için kullanılır. Orjinal iş parçacığı ID=0 olan ana iş parçacığı olarak gösterilir. Örnek (C
program): Çoklu iş parçacığı kullanarak "Merhaba Dünya
" yazdırmak. GC
C
kullanarak derlemek için -fopenmp bayrağı kullanılır: ' iş parçacıklı ve 2 çekirdekli bilgisayar üzerindeki çıktı. Bununla birlikte çıktı yarış durumları sebebiyle 2 iş parçacığının standart çıktıyı paylaşmasından dolayı bozulmuş bir şekilde alınabilir.İş Paylaşma Yapıları
İş parçacıklarının birinin veya tamamına birbirinden bağımsız iş atamak için aşağıdakiler kullanılır. * omp for veya omp do: iş parçacıkları arasında döngü iterasyonlarını paylaştırmak için kullanılır.Döngü yapıları olarakta adlandırılır. * sections: sıralı atama yapılır fakat farklı iş parçacıklarına bağımsız kod blokları atanır * single: sadece bir iş parçcağının yürüttüğü bir kod bloğu belirlenir, programın sonunda bir bitiş yeri gösterir * master: single gibidir, ama kod bloğu ana işparçacığı tarafından yürütülür ve program sonunda bir bitiş yeri gösterilmez. Örnek: paralel olarak büyük bir diziye iş parçacıkları kullanarak ilk değerleri vermekOpenMP C
ümlecikleri
OpenMP paylaşımlı bellek programlama modeli olduğu için OpenMP kodu içerisindeki çoğu değişken varsayılan olarak tüm iş parçacıklarına görünür, ama bazen özel değişkenlerin yarış durumlarından kaçınması gereklidir ve seri bölge ile paralel bölge arasındaki değerlerin işlenebilmesi için veri ortam yönetimi veri paylaşım özellik cümlecikleri olarak tanıtılmıştır. Bu cümlecikler OpenMP direktiflerine eklenir Veri paylaşımı özelliği cümlecikleri
* shared: paralel bölge ile birlikte veri paylaşılır. Paylaşımın anlamı tüm işparçacıkları tarafından erişilebilir ve görülebilirdir. Varsayılan olarak iş paylaşım bölgesindeki tüm değişkenlerin döngü iterasyon sayacı dışında hepsi paylaşılır * private: paralel bölge ile birlikte veri her bir iş parçacığına özeldir. Bunun anlamı her bir iş parçacığının yerel bir kopyaya sahip olacağı ve o değişkeni geçici olarak kullanacağıdır. Bir özel değişken ilklendirilmez ve değeri paralel bölge dışında kullanılmaz. Varsayılan olarak döngü iterasyon sayacı özeldir. * default: programcıya Fortran için none,C
/C
++ için none,firstprivate, private, shared paralel bölgeleri için veri alanına müdahele etmesine izin verir. none seçeneği programcının veri paylaşımlı özellik cümleciğini kullanarak paralel bölge içersindeki her bir değişkeni tanımlamasına zorlar. * firstprivate: orjinal değeri ilklendirme haricindeprivate gibidir. . * lastprivate: yapıdan sonra güncellenen orjinal değer haricinde private gibidir. * reduction: yapıdan sonra tüm iş parçacıklarının işe katılmasının güvenli bir yöntemidir.Senkronizasyon cümlecikleri
* critical: seçili kod bloğu bir kerede sadece bir iş parçacığı tarafından yürütülecektir ve çoklu iş parçacıkları tarafından eş zamanlı yürütlmez. Bu genelde yarış durumlarından veri paylaşımını korumak için kullanılır * atomic: Bellek güncellenmesi otomatik olarak işletilir. Tüm ifadeyi atomic yapmaz, sadece bellek güncellenmesi atomiktir. Bir derleyici daha iyi performans için critical kullanmak yerine özel bir donanım komutu kullanabilir. * ordered: Yapı bloğu bir sıra içerisinde yürütülür. Bu sıra seri döngü içerisinde yürütülen iterasyonlar ile yapılır. * barrier: her bir iş parçacığı bir takımın diğer iş parçacıklarının tümü bu noktaya ulaşıncaya kadar beklerler. İş paylaşımı yapısı, yapını sonunda örtülü bir bariyer senkronizasyonuna sahiptir. *nowait: Takım içerisindeki tüm iş parçacıklarının bitirmesini beklemeden işleyebilirler. Bu cümleciğin yokluğunda iş parçacıkları iş paylaşım yapısının sonunda bir bariyer senkronizasyonu ile karşılaşır.Zamanlama cümlecikleri
*schedule(type, chunk): iş paylaşımlı yapı do-loop veya for-loop ise bu kullanışlıdır. İşpaylaşımı içerisindeki iterasyonlar bu cümlecik kullanılarak tanımlanan zamanlama metoduna göre iş parçacıklarına atanır. Zamanlamanın 3 tipi: #static: Burada tüm iş parçacıkları döngü iterasyonlarını yürütmeden önce iterasyonlara tahsis edilirler. Iterasyonlar varsayılan olarak eşit bir şekilde iş parçacıkları arasında paylaştırılır. Bununla birlikte bir chunk parametresi için bir tamsayı belirlemek özel bir iş parçacığına bitişik iterasyonlar tahsis edecektir. #dynamic: Burada, iterasyonların bazıları daha az sayıda iş parçacıklarına tahsis edilir. İlk kez özel bir iş parçacığı tahsis edildiği iterasyonu tamamlarsa iş parçacığı kalan iterasyonlardan 1 değerini elde etmek için geri döner. chunk parametresi bir kerede bir iş parçacığına tahsis edilecek bitişik iterasyonların sayısını tanımlar. #guided: Çok sayıda bitişik iterasyon parçaları dinamik olarak her bir iş parçacığına tahsis edilir. Parça boyutu chunk parametresi içinde belirlenen minimum boyuta başarılı bir şekilde tahsis edilmesiyle üssel olarak azalır.IF Kontrol
*if: Ancak ve ancak bir durum bir görevi paralelleştirmek için iş parçacığı ile karşılaşılmasına sebep oluyorsa görev paralelleştirilir. Diğer durumda kod bloğu seri olarak yürütülür.İlklendirme
* firstprivate: Veri her bir iş parçacığına özeldir ama değişkenin değerini kullanan ilklendirme ana iş parçacığından aynı isim kullanılarak yapılır. * lastprivate: Veri her bir iş parçacığına özeldir. Bu özel verinin değeri paralelleştirilmiş döngüdeki iterasyon son iterasyon ise paralel bölgenin dışındada aynı ismi kullanarak global değişkene kopyalanacaktır. Değişken hem firstprivate hemde lastprivate olabilir. * threadprivate: Veri global bir veridir ama çalışma zamanında her bir paralel bölge içersinde özeldir. threadprivate ve private arasındaki fark threadprivate ile ilişkilendirilmiş global alandır ve paralel bölgeler içerisinde korunmuş değerdir.Veri kopyalama
* copyin: private değişkenler içinfirstprivate gibidir , threadprivate değişkenleri ilklendirilmez. Taki karşılık gelen global değişkenlerden değerler geçirilmek için copyin kullanılana kadar.copyout gereksizdir çünkü threadprivate değişkeninin değeri tüm programın yürütümü boyunca korunur. * copyprivate: bir iş parçacığı üzerindeki özel nesnelerden takım içerisindeki diğer iş parçacıkları üzerinde karşılık gelen nesnelere veri değerlerinin kopyalanmasını desteklemek için single ile birlikte kullanılır.indirgeme
* reduction(operator | intrinsic : list): değişken her bir iş parçacığı içerisinde yerel bir kopyaya sahiptir, fakat yerel kopyaların değerleri global paylaşımlı değişken içerisine indirgenmiş olacaktır. Bu eğer özel bir işlem(özel bir cümlecik için operatördeki belirlenmiş) iteratif olarak veritipi üzerindeyse kullanışlı olacaktır. Böylece özel iterasyondaki değeri onun önceki iterasyondaki değerine bağlıdır. Temel olarak operasyonel arttırma paralelleştirmeye yol açan adımlardır. Fakat iş parçacıkları toplanır ve veritipi güncellenmeden önce beklerler. Ardından sırasıyla veritiplerindeki artırımlar yarış durumlarından kaçınmak için gerçekleştirilir. Bu paralelleştirme içerisindeki fonksiyonların sayısal birleştirmelerini ve diferansiyel denklemlerini gerektirecektir.Diğerleri
* flush: Bu değişkenin değeri paralel bölümün dışarısındaki bu değeri kullanmak için belleğe, bellekteki yazmaçtan sağlanır * master: Sadece ana iş parçacığı tarafından yürütülür hiçbir örtülü bariyer yoktur. Diğer takım üyelerinin erişmesi gerekmez.Kullanıcı seviyesi çalışma rutinleri
İş parçacıklarının sayısını değiştirmek ve kontrol etmek, eğer yürütüm paralel bölge içerisinde ise tespit etmek ve o an sistemde kaç tane işlemcinin çalıştığını belirlemek için kullanılır.Ortam Değişkenleri
OpenMP uygulamalarının yürütme özelliklerini değiştirmek için kullanılan bir metottur. Kontrol döngü iterasyonlarını zamanlamak, iş parçacıklarının sayılarını varsayılan yapmak için kullanılır. Mesela OMP_NUM_THREADS bir uygulama için işparçacıklarının sayılarını belirlemede kullanılır. Örnek programlar Bu bölümde bazı örnek programlar üstte açıklanan kavramları göstermek için verilmiştir.Merhaba Dünya
parallel, private ve barrier direktiflerini örnekleyen temel bir program veomp_get_thread_num
ve omp_get_num_threads
fonksiyonlarını kullanır.