Zipf Yasası

Kısaca: Zipf yasası matematiksel istatistik bilimi kullanilarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930'da Amerika'da Harvard Üniversitesi'nde dilbilim profesörü olan George Kingsley Zipf tarafından yayımlanması üzerine, onun adı verilmiştir. Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkindadır. ...devamı ☟

Zipf yasası matematiksel istatistik bilimi kullanilarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930'da Amerika'da Harvard Üniversitesi'nde dilbilim profesörü olan George Kingsley Zipf tarafından yayımlanması üzerine, onun adı verilmiştir. Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkindadır. Bu yasa daha once de Alman Felix Auerbach tarafından 1913'de yayımlanmıştır. Ama bu yayımda yapılan sıralama dünya șehirlerinin nüfus itibariyle sıralanmasi idi. Fransiz stenografi uzmani Jean-Baptiste Estoup (1868-1950) de metinlerde bulunan sözcüklerinin sistemik sıklılikları hakkında Zipf'den önce yayım yapmıştır. Bu sıralamalar şirket büyüklükleri sıralamaları, gelir sıralamaları vb için de uygulanmıştır. Benoit Mandelbrot bu yasayı genelleştirmiştir. Zipf yasasının niçin insan dillerinin çoğunda uygulanabileceği bilinmemektedir. Basit tanımlama ve örnekler Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklılığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesindeki tek bir sözcüğün sıra numarası ile o sözcüğün sıklilık sayısı her zaman sabit bir sayı olur. Bu daha kolayca olarak, sıra numarası N olan bir sözcük için sıklilığın 1/N olduğu şeklinde ifade edilebilir. Böylece en fazla sıklilıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla vb. kullanılır. Bir diğer örnek olarak 10 sözcükten oluşan bir metin dili ele alındığı kabul edilsin ve bu metin dilinde hazırlanan tüm metinlerde en fazla sayida kullanılan sözcük 100 defa kullanıldığı kabul edilsin; bu halde yapılan en sık kullanılandan an az sık kullanılan sözcügğe göre yapılan sözcük sıralaması (Zipf yasası'na göre) şöyle olacaktır: 1. sözcūk => 100/1 = 100
2. sözcūk => 100/2 = 50
3. sözcūk => 100/3 = 33,3
4. sözcūk => 100/4 = 25
5. sözcūk => 100/5 = 20
6. sözcūk => 100/6 = 16,6
7. sözcūk => 100/7 = 14,3
8. sözcūk => 100/8 = 12,5
9. sözcūk => 100/9 = 11,1
10.sözcūk => 100/10= 10
Bu örnekde görüldüğü gibi sözcük sıklıliğı sıralamadaki ilk sözcukler diğerlerine göre çok daha fazla olarak gözümlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda olarak gözümlenmektedir. George Kingsley Zipf, İrlandalı yazar James Joyce'un 2 Şubat 1922'de yayınlanan Ulysses adlı romanını ayrıntılı incelemiş ve bu romanda bulunan sözcuklaerin sıklilığını ve bu sıklıliğı sıralanmasını bulmuştur. Bu araştırmaya göre * en fazla sıklılıkla kullanılan sözcük 8.000 defa kullanılmış; * sıklılık sıralamasında 10. olan sözcük 800 defa kullanılmış; * sıklılık sıralamasında 100. olan sözcük 80 defa kullanılmış; * sıklılık sıralamasında 1000. olan sözcük 8 defa kullanılmıştır. Günümüzde kompüterler kullanarak eldeki en büyük yazılı metinlerde bile sözcük sıralama araştırması birkaç saniyeyeyi aşmamaktadır ve bunlardan genelleştirilirme yapılırsa herhangi bir yazılı metinde gözümlenmektedir ki sırası N olan bir sözcük için sıralama fonksiyonu f(N) şu Zipf yasasına uymaktadır:
f(n)=\frac burada K bir sabittir. Zipf yasasının uygulanması en kolay bir şekilde sıralama sıklıklıklar verisinin bir log-log eksenli grafikte gösterilmesi ve bu verilere doğrusal regresyon tatbiki olmaktadır. Herhangi değişken bir sıralama verişi için; R=sıralama sayıları; N: sıralama sıklilığı ve a ve b doğrusal regresyon katsayıları olup
log R = a - b log N
Regresyon doğrusu uygulanırsa ve eğer b=1 bulunursa, verilerin Zipf yasasına uygunluğu kabul edilmesi gerekir. 2004'de yapılan ve dünya şehrilerinin nüfusları sıralamasına uygulanan bir araştırmada genel olarak b = 1.07 bulunmuştur. Tüm dağılımın log-normal dağılımın uygunluğu ve üst kuyruk verilerinin ise Zıpf yasasına uyduğu görülmüştür. Bu çalışmaya göre "the" sözcüğü için
x = log(1) ve y = log(69971). Teorik gelişme Bu yasaya göre fizksel bilimler ve sosyal bilimlerde incelene verilerin çoğunluğu ayrık üstel yasa olasılık dağılımı'na ilişkili olan bir Zipf dağılımı yaklaşık olarak ifade edilir. Formel olarak; şu ifadeleri kullanalım: * N elamanlar sayısı; * k elemanların sıralaması; * s dağılımı karakterize eden üssel değer Zıpf yasası N sayıda elemeni bulunan bir anakitle için, k sıralama numarası gösteren elemanların dağılımının yanı f(k;s,N) fonksiyonu şöyle ifade eder: :f(k;s,N)=\frac^N (1/n^s)}. Eğer her eleamnin ortaya çıkma sıklılığı dsayıları birbirinden bağımsız ve bir üstel yasa dağılımı, yani
p(f) \alpha f^.
, gösteren birbiryle tüm olarak aynı olan dağılım gösteren rassal değişkenler ise Zipf yasası geçerlidir. İngilizce dilinde bulunan sözcükler örneğine göre N İngilizce dilinde bulunan sözcük sayısı olursa ve klasik Zıpf yasası kullanılırsa s in ussel değeri 1 olur. O zaman f(k;s,N) en çok kullanılan sözcüğün kullanılma kesirsel saysısını ifade eder. Zipf yasası şu şekilde de ifade edilebilir: :f(k;s,N)=\frac} burada HN,s Ninci genelleştirilmiş harmonik sayı olur. İstatistiksel açıklama Wentian Lı bu yasanın rassal olarak yaratılmış olan metinlerin istatistiksel analizi ile de kısmen açıklanabileceğini iddia etmektedir. Bir ayrık tekdüze dağılım gösteren alfabede bulunan her harfi (ve boşluk ifade eden karakteri) kapsayan bir kütleden rassal olarak seçilen her bir karakteri ihtiva eden bir metinde bulunan "sözcükler"in (yaklaşık olarak log-log eksenli bir grafikte yaklaşık olarak doğrusal görünerek) Zıpf yasasına uygunluklarini göstermiştir. Vitold Belevitch ıse çok sayıda iyice belirtilebilen ististiksel dağılımı (sadece normal dağılımı değil) ele alıp bunlarin bir sıralamsini yapmıştır. Sonra her bir ifadeyi bir Taylor serisi olarak genişletmiştir. Çok dikkat çekici bir sonuç olarak incelediği her halde elde edilen Taylor serisinin birinci-sıra kesimi Zipf Yasasina ve ikinci-sıra kesimini ise Zipf-Mandelbrot Yasası'na uygun oldukları görülmsktedir. Zipf'in şahsi açıklaması belirlenmiş bir insan dilini konuşanların ve bu dille yazarların ifade ettiklerinin anlaşılabilmesi için yaklaşık olarak eşit dağılımlı efor sarfetmekten fazla uğraşmaktan sakınmaktadirlar. Bu gereken efordan fazlasindan kacinmak davranisi Zıpf yasası'nın gözümlenmesine neden olmaktadir. Ayrica bakiniz * Bradford yasayi * Demographic gravitation * Siklilik listedi * Heaps yasasi * Lorenz egrisi * Lotka yasasi * Pareto dagilimi * Pareto prensibi, yani, "80-20 kurali" * Siralama buyuklugu dagilimi Notlar

Dış bağlantılar

* Zipf, George K. (1949) Human Behavior and the Principle of Least Effort. Cambridge, Mass.:Addison-Wesley. * Zipf, George K. (1935) The Psychobiology of Language. Houghton-Mifflin. * Gutenberg projesi için İngilizce, Fransizca, İspanyolca, İtalyanca, Isveçce, Izlandaca, Latince, Portekizce ve Fince dilleri için Zipf semantik derinlik listesi. Herhangi bir yazılı metin için "online" hesaplama programı * Zipf yasası için kapsamlı bibliyografya * Zipf yasası için PlanetMath maddesi * Fransizca sözcūkler için Zipf Listesi * Wolfram Projesi için A.B.D. şehirleri için Zipf Yasası. Hazırlayan: Fiona Maclachlan

Kaynaklar

Vikipedi

Bu konuda henüz görüş yok.
Görüş/mesaj gerekli.
Markdown kullanılabilir.

Matematiksel ekonomi
3 yıl önce

Matematiksel finans Rassal değişkenler Pareto dağılımı Olasılık teorisi Zipf yasası Extreme value theory Fraktal Sistem teorisi Self-organization Kendine-benzerlik...

Matematiksel ekonomi, Arbitraj, Ekonometri, Ekonomi, Finans, Fraktal, John Nash, Kenneth Arrow, Matematiksel, Oyun Kuramı, Paul Samuelson
Lorenz Eğrisi
3 yıl önce

dağılımı Gini katsayısı Pareto dağılımı Refah ekonomisi ROC analizi Zipf yasası ^ Eğilmez, Mahfi. "Gelir Dağılımı Ölçüsü olarak Gini Katsayısı". Ekonomi...

Lorenz Eğrisi, 1905, Ekonomi, Finans, Gelir dağılımı, Matematik, Taslak, Ülke, Max Otto Lorenz, Hane halkı
Pareto İlkesi
3 yıl önce

Benford'un savı Matematiksel ekonomi Sturgeon yasası Uzun kuyruk Yaşam gücü eğrisi Zenginlik yoğunluğu Zipf yasası En az çaba ilkesi Richard Koch Doksan-doksan...

Pareto Dağılımı
3 yıl önce

Pareto dağılım gösterir. Pareto dağılımı sürekli olasılık dağılımdır. Zipf'in yasası veya diğer adı ile zeta dağılımı sürekli Pareto dağılımının araklıklı...

Benford'un savı
6 yıl önce

Benford alt grupları üreten bir komputer yazılımı [5] Benford'un savı ve Zipf'in savı:cut-the-knot sitesinde. [6] Benford'un savına bakış veya Sayi 1'in...

Benford`un savı, Olasılık Dağılımları, Citation, MathWorld, Refend, Refbegin, 2007, Bernoulli dağılımı, Beta dağılımı, Binom dağılımı, Bozulmuş dağılım
İstatistiksel terimler, kavramlar ve konular listesi
3 yıl önce

binom modeli zincirleme ikiterimli modeli zincirleme oran zincirleme Zipf yasası zirve z-sınaması z-skoru z-testi ISI Glossary of Statistical Terms (çok...

Cauchy dağılımı
3 yıl önce

kuramında ortaya çıkarılan çeşitli sonuçlar (örneğin güçlü büyük sayılar yasası), beklenen değeri bulunmayan Cauchy dağılımı için uygun olmamaktadır. Ortalama...