Deniz Yuret's Homepage: November 2006

November 18, 2006

Termodinamiğin ikinci kanunu üzerine

Evrenin temel kanunlarını anlamak için önce küçük evrenler
tasarlayıp çalışma prensiplerini orada gözlemek Drescher'den
öğrendiğim çok etkili bir yöntem. Termodinamiğin ikinci kanunu
derslerde zaman ilerledikçe entropinin artması olarak tanıtılır, ve
dolayısıyla kimse birşey anlamaz. Size Drescher'in Good and Real kitabindaki kibrit kutusu evrenlerinden bir örnek:

Çarpışan küçük golf toplarıyla dolu Newton fiziği ile çalışan bir
evren düşünelim. Bunlara başlangıçta rastgele pozisyon ve hızlar
verip evrenimizi izlemeye başlayalım. Birbiriyle çarpışıp oraya
buraya giden bir sürü top göreceğiz. Şimdi filmi geriye doğru
izleyelim. Yine çarpışan bir sürü top. Hatta sadece izleyerek zaman
ileriye doğru mu gidiyor geriye doğru mu gidiyor anlamamız prensipte
mümkün değil (burada topların esnek çarpıştığını varsayıyor ve hız
dağılımıyla ilgili teknik bir ayrıntıyı Boltzmann amcamızdan özür
dileyerek atlıyorum). Newton kanunları zaman içinde simetrik,
ileriye doğru da geriye doğru da toplar bu kanunlara uyan esnek
çarpışmalar yapıyorlar. Kozmologların evrenimizin sonu olarak
öngördükleri heat death (ısı ölümü) böyle bir maksimum entropi
durumu.

İkinci evrenimiz biraz daha ilginç olsun: küçük topların aralarında
rastgele pozisyonlara, daha hızlı hareket eden büyük bowling topları
yerleştirelim. Bu evrenin ilerleyişini izlediğimizde ilginç bir
durum göreceğiz: küçük topları hızla yararak geçen büyük bowling
topları arkalarında birer boşluk iz bırakacaklar. Dolayısıyla bu
filmi geriye doğru izlediğimizde zamanın geriye doğru işlediğini
hemen anlayabiliriz: küçük toplar büyükler gelmeden önlerinden
kaçışıyor gibi gözükürler.

Bizim evrenimizde fotoğraf filminde oluşan bir resmi, ya da
hafızamızda iz bırakan bir olayı, geçen büyük topların arkalarında
bıraktıkları birer iz gibi düşünebiliriz. Dolayısıyla geçmişi
hatırlayabiliyor ama geleceği göremiyoruz.

İşin ilginç tarafı Newton kanunları hala simetrik: geriye doğru
izlediğimiz filmde bu kanunları çiğneyen herhangi birşey yok. Hatta
filmi geri sarmak yerine bir noktada evreni durdurup tüm hızları
ters çevirsek, normal fizik kanunları normal esnek çarpışmalarla
aynen geriye doğru izlediğimiz filmi takip edecek. Yani Newton
kanunları ile de büyük topların önünden kaçışıyormuş gibi görünen
küçük toplar görmek mümkün. Ama ancak çok özel bir başlangıç
noktasından yola çıkarsak.

Peki simetrik olan Newton kanunları nasıl asimetrik bir zaman
kavramına yol açabiliyor? Bunun anlayabilmek için hızları ters
çevirdiğimiz simülasyonu izlemeye devam edelim. Bir süre sonra
toplar başlangıç pozisyonlarına geri dönerler. Peki simülasyona
devam edersek ne olur? Bu sefer büyük toplar yine arkalarında bir iz
bırakarak ilerlemeye başlarlar. Yani geriye doğru giden simülasyonda
aslında zaman ileriye akıyormuş gibi görünmeye başlar!

Dolayısıyla zaman kavramında aslında asimetrik iki yön yok. Sadece
başlangıç noktasından uzaklaşan yön ile başlangıç noktasına doğru
giden yön var. O zaman başlangıç noktasının özelliği ne? Topların
henüz birbirleriyle etkileşmemiş olmaları. Simülasyonu başlattığımız
anda (ileriye ya da geriye doğru), toplar birbirleriyle etkileşmeye,
dolayısıyla küçük toplar aralarında kalan boşluklarla büyük topların
geçişini "hatırlamaya" başlıyorlar.

Peki bu evrenimizde yaşayan yaratıklar olsa bizim simülasyonu
ileriye doğru mu geriye doğru mu izlediğimizi nasıl
anlayabilirlerdi? Cevap: anlayamazlardı. Biz filmi ne yöne doğru
seyredersek seyredelim onlar topların arkalarında iz bırakarak
ilerledikleri yönü zamanın ilerlemesi olarak algılayacaklar. Peki
simülasyonu bir CD'ye kaydedip rafa kaldırsak bu yaratıklar için
zaman durur mu? Cevap: hayır, onların zaman kavramı simülasyonun her
anında bilinç ve hafızalarına geçen büyük topların bırakmış
oldukları izlerden ibaret, birilerinin filmi seyredip seyretmediği
önemli değil. Örneğin simülasyonu ortasından başlatıp yoldan geçen
bir yaratığa sorsak bize 10 sene önce başından geçenleri uzun uzun
anlatabilir.

Umarım ikinci kanunun derinliği hakkında bir fikir verebilmişimdir.
Gördüğünüz gibi zaman ilerledikçe entropinin artması yanıltıcı bir
ifade. Bizim zamanı algılayışımız entropinin arttığı yönde
gerçekleşiyor. Aslında zamanın herhangi bir yöne ilerlediği yok.

Kuantum konusuna da girecektim ama sizi daha fazla yormayayım. İyisi
mi kitabı alıp okuyun (Good and Real). Drescher kuantum kuramının
yol açtığı indeterminacy, gözlemcilerin özel statüsü, mekanik evren
kuramının yıkılması gibi düşüncelerin tamamiyle yanlış
anlaşılmalardan kaynaklandığını kibrit kutusu evrenleri ile
anlatıyor. Evren hala mekanik kurallara göre işlemekte Allah'a şükür
:) Sadece evrenin state description'ı, Newton'un sandığından biraz
daha karışık (gerçeklik kompleks dalgalardan oluşuyor,
point-particle'lardan değil, ama bu kompleks dalgalar tamamiyle
mekanik kurallara göre ilerliyorlar).

Aslında tüm kitabın konusu 20. yüzyıl başında büyük darbe yiyen
mekanik evren kuramının hala sağ ve sağlıklı olduğu, ve buna karşı
olduğu düşünülen zaman paradoksu, kuantum belirsizlik, insan
bilinci, özgür irade, ahlaki değerler gibi problemlerin aslında
mekanik evren modeli içinde nasıl tutarlı olarak çözülebileceği
üzerine.

Son olarak bir hikaye ile bitireyim. Birgün Wittgenstein arkadaşına
sormuş: "İnsanlar eskiden doğal olarak dünyanın döndüğünü değil,
güneşin dünya etrafında döndüğünü düşünmüş derler, neden?" Arkadaşı
"Tabi ki buradan baktığımızda güneş dünyanın etrafında dönüyormuş
gibi gözüküyor da ondan." diye cevap verince Wittgenstein şöyle
demiş: "Peki, buradan baktığımızda dünya dönüyormuş gibi gözüküyor
olsaydı nasıl gözükecekti o zaman?"

Full post... Related link

November 17, 2006

The Tao is Silent - Raymond Smullyan

At all costs, the Christian must convince the heathen and the
atheist that God exists, in order to save his soul. At all costs,
the atheist must convince the Christian that the belief in God is
but a childish and primitive superstition, doing enormous harm to
the cause of true social progress. And so they battle and storm and
bang away at each other. Meanwhile the Taoist Sage sits quietly by
the stream, perhaps with a book of poems, a cup of wine, and some
painting materials, enjoying the Tao to his hearts content, without
ever worrying whether or not the Tao exists. The Sage has no need to
affirm the Tao; he is far too busy enjoying it!

-– Raymond Smullyan, the Tao is Silent
Full post... Related link

Doğal dil işleme üzerine

Doğal dil işleme (NLP)'nin bugün geldiği yer üzerine:

Son birkaç yıldır word sense disambiguation (kelime anlamlarını
ayırdetme) işine bakıyorum. Örneğin ingilizce'de tipik bir "account"
kelimesinin sözlükte 14, "stock" kelimesinin 27 anlamı var.
Kullanılan cümleye göre insanlar bu anlamların hangisinin
kastedildiğini genelde sorunsuz anlıyorlar. Bilgisayarların dili
anlamasını istiyorsak bir gün bu problemi çözmenin önemi
malum. Basit bir programla hep en sık kullanılan anlamı seçen bir
metod uygulasak, bir yazıda geçen kelimelerin yaklaşık 60-65%'ini
doğru çözümleyebiliyoruz. Bugün en gelişmiş WSD programları bu
performansı 69%'a çıkarabiliyorlar ancak.

Diğer bir temel problem örneği cümle çözümleme - yani bir cümlenin
öznesi yüklemi ne, hangi kelime hangi kelimeyi tamlıyor vs. bilgisi.
Şu an en iyi programlar Wall Street Journal'da yazılı cümlelerin
yarısından azını doğru bir şekilde çözümleyebiliyor.

Yaklaşık 50 yıldır uğraşmamıza rağmen (otomatik çeviri programları
1960'larda yazılmaya başladı) geldiğimiz nokta bu.
Full post... Related link

November 12, 2006

Din eğitimi

Dennett'in TED'deki konuşmasını izlerken yine eğitimle ilgili yaptığı
bir gözlem dikkatimi çekti. Breaking the Spell kitabını Dennett
(sanırım 9/11'den sonra) dini bilimsel bir mikroskop altına yatırıp
incelememiz gerektiğine karar verip yazmış, ve sonunda çıkardığı öneri
ilginç: dini ortadan kaldırmaya çalışmayı teklif etmiyor (Rusya'nın
deneyimi bu çözümün çok mümkün olmadığının bir örneği). Aksine
okullarda din dersinin mecbur olması gerektiğini, fakat tüm dinlerin
tarafsız olarak bu derslerde sunulması gerektiğini iddia ediyor.
Böylece insanlar diğer düşüncelerle de tanıştırılıp fanatizmin önüne
geçilecek.

Türkiye'de bu konu ikide bir gündeme geldiğinden ilginç buldum. Bizim
lisede aldığımız dersin adı "Din Kültürü ve Ahlak Bilgisi" idi. Şimdi
nedir durum bilmiyorum. Birileri Dennett ile aynı sonuca varmış olmalı
ki en azından teoride onun teklifine uygun bir ders geliştirmeye
çalışmışlar. Fakat pratikte tabi bizim din hocaları "Siz kendi
dininizi doğru dürüst bilmiyorsunuz, başkalarının dinini ne
yapacaksınız" deyip bize dua namaz cennet cehennem öğrettiler.
Dennett'in teklifini ciddiye almak gerektiğini düşünüyorum.
Full post... Related link

November 10, 2006

Peki yazarlar nereden para kazanacak?

Geçen bir arkadaş toplantısında otomatik tercüme projemiz için Türkçe İngilizce data toplamada uğradığımız güçlükten bahsediyordum. Konu döndü dolaştı ve iTunes'a, fikri mülkiyet haklarına, bilgiye serbest ulaşımın önüne çıkarılan tüm engellere karşı duyulan antipatiye geldi. "Peki yazarlar nasıl para kazanacak?" sorusu soruldu buna karşı. O günden beri bu soru kafamın içinde dönüp duruyor.

Bugüne kadar bu konuda sadece fanatik bir taraftar olduğumu farkettim.
GNU projesine, wikipedia'ya hep hayranlık duydum. Google tüm kitapları
ınternet'te aranır hale getirme projesini başlattığından beri
tartışmasız çocukluk rüyamı gerçekleştiren favori şirketim haline
geldi, neredeyse işimi gücümü bırakıp onlar için çalışacağım. Tabi
onlara karşı gelen tüm yayınevleri vs de baş düşmanım. Türkiye'ye
geldiğimden beri istediğim bilimsel makalelere ulaşamıyorum -
Türkiye'deki üniversiteler pek çok önemli journal'ın son on senelik
sayılarına ulaşabiliyorlar sadece (on-line olarak). Bilim adamlarının
yazdıklarını toplayıp sonra onlardan saklayan bu kişiler de düşmanım.
iTunes'dan albümler alıyor ama bir yandan da onları MP3 çalarımda
çalamadığım için küfrediyorum.

Gelgelelim bu grubun bir üyesi olarak fanatikliği bırakıp, sezgimin
doğru olduğunu fısıldadığı tarafın aklımı kullanarak pratikte de
uygulanabilir olduğunu göstermem lazım. Bu noktada da cevap vermem
gereken temel soru "Peki yazarlar nasıl para kazanacak?"

Konuyu genişletelim, sadece yazarlar değil düşünülmesi gereken: Fikir
ürünleri (kitap, müzik, sinema, TV, yazılım, karikatür, vs.) derken
düşünülmesi gereken üç grup insan var: yaratıcılar, aracılar, ve
tüketiciler. Teknolojik gelişme yaratıcıların eserlerini sunması ve
tüketicilerin eserlere ulaşması için gereken minimum masrafı gittikçe
düşürüyor, aracılar hayatta kalmak için formül üzerine yapay formül
icat ediyorlar, yaratıcılar ise kiminle taraf olacağını şaşırmış
durumda - bir yandan eserlerinin olabildiğince çok insan tarafından
tüketilmesi çekiciyken bir yandan da kirayı ödemek zorundalar.

Çözüm ararken gözden kaçırılmaması gereken bir faktör, fikri ürünlerin
yavaş yavaş "push" modunda değil "pull" modunda tüketilmesi. Bunun
tipik örneği TV kanallarının belli programları bir araya koyarak
sunduğu "push" tipi sunum ile, iTunes'dan istediğiniz film ve dizileri
indirerek sadece kendi istediğiniz programları seyredebilmenizi
sağladığı "pull" tipi sunum. Teknolojinin tüm TV'leri ön-demand
programlara ulaşabilir hale getirmesine az kaldı, yakında herşey
"pull" tipi olacak.

Geçenlerde BBC'nin Bilgi Üniversitesinde verdiği panele gittim.
Onların sabit vergi toplayarak gelirlerini toplama fikri ilgimi çekti.
Acaba insanlardan bir vergi toplanarak onların özgürce bilgiye ulaşımı
sağlanabilir mi diye düşünmeye başladım. Oturup tek tek DRM vs ile
şarkıları kitapları korumaya çalışmanın uzun vadede çalışmayacak kadar
kırılgan olduğunu düşünüyorum. Eğer insanlar verdikleri vergiyle
istedikleri bilgiye ulaşabilirlerse korsanlık yapmanın bir çekiciliği
kalmayacak ve su an sürmekte olan korsanlık - anti-korsanlık teknoloji
savaşı da kendi kendine ortadan kaybolacak.

Yaratıcı ve aracılara geliri adil dağıtabilmek için hangi ürünlerin ne
kadar tüketildiğini tespit edebilmek lazım. Örneğin bir şarkıyı kaç
kişi kaç saat boyunca dinlemiş. Bir kitabı kaç kişi okumuş. Bir web
sayfasına kaç kişi göz atmış. Bu bilgilere ihtiyaç var. Şu an modası
geçmiş teknolojilerle (kağıt kitap ve gazeteleri saymak, tek tek
paketlenmiş software ya da müzik CD'si almak) yapılmaya çalışılan bu.
Kağıdın ya da CD'nin şu an gördüğü en önemli fonksiyon bu sayıyı
sayabilmek. Ben korsan kitapçı ya da DVD'cıden birşey aldığımda bu
sayı net sayılamamış oluyor ve benden çıkan para yaratıcının cebine
girmiyor. Belki ileride evimizin ınternet girişinde şimdiki elektrik
ya da şu sayaçları gibi bir sayaç hangi bilgiye ne kadar ulaştığımızı
tespit edecek. Buna gelen itirazları şimdiden duyuyor gibiyim.

1. Big brother korkusu. Kimsenin hangi bilgiye ne kadar ulaştığımızı
(özellikle porn siteleri söz konusuysa :) bilmesini istemeyiz. Bu
problem teknolojik olarak çözülebilir. Sayaçlar topladıkları bilgide
"kim" bilgisiyle "hangi ürün" bilgisini debundle edebilirler.

2. Simültane kullanım. Örneğin ben bir yandan arka planda müzik
dinlerken bir yandan kitap okuyabilirim, müziği A yazılımı ya da B
yazılımı ile çalıyor olabilirim vs. Bu durumda kullanılan saat bazında
mı, kullanım sayısı bazında mı, sadece ilk kullanım için mi yoksa
başka bir temele göre mi ücretlendirme yapacağımız sorusu gündeme
geliyor. Bunu her medium için (yazılım, müzik, kitap) ayrı ayrı
düşünmek gerekebilir. Ben şu an için bir ürün ile kişinin hoşça vakit
geçirdiği zamanın temel alınmasını ilginç buluyorum (tabi
karikatürcüler alınmasın, softwarecilere de haksız avantaj sağladık).

3. Tespit edilemeyen kullanım. Örnek: kitabı rahat okumak için print
ettim, sonra da arkadaşıma verdim. Dolayısıyla ınternet sayaçları
artık bu kitap üzerinde harcanan vakti ya da kaç kişinin okuduğunu tam
olarak sayamıyorlar. Bu problem yakında kağıt alternatifi e-ink
benzeri teknolojilerle ortadan kalkabilir. Öyle olmasa bile eğer
korsanlığı yeterince gereksiz hale getirebilirsek büyük ihtimal bu tip
kullanımların toplamdaki oranı düşük olur.

4. Yanlış tespit: Örnek: aynı şarkıyı tekrara koyup evden çıktım, 8
saat sonra geldim. Verdiğim bilgi vergisi sabit olduğundan benim
ödememi etkilemiyor bu davranış. Ama eğer zamana göre ya da bir
şarkıyı çalma sayısına göre yaratıcılara ödeme yapıyorsak burada da
yanlış bilgi toplanma olasılığı var. İlk planda bu tip hatalar noise
içinde kaybolup gider, ileride de akıllı browser ve player'lar sizin
onlara dikkat verip vermediğinizi tespit ederek daha hassas sayım
yapabilirler diye düşünüyorum.

5. Aracılar: Tabi burada aracılara haksızlık etmeyelim. Teknoloji ne
kadar yaratıcıyı tüketiciye yaklaştırsa da aracıların temel
fonksiyonlarını ortadan kaldırması zor: paketleme (örneğin bir gazete,
haber ajansı, ya da TV kanalının belli kalitede eserleri paketleyip
sunması), filtreleme (örneğin güvendiğiniz bir yayınevinin saçma sapan
kitaplar basmaması), güvenilirlik sağlama (örneğin Britannica
ansiklopedisinde okuduklarınıza güvenebilmeniz). Bunlar yaratıcılık
gerektiren (dolayısıyla yaratıcı aracı ayrımını bulandıran) ve
otomasyonu şu an için kolay olmayan fonksiyonlar. Mühim olan bu
fonksiyonları daha geleneksel fonksiyonlardan (örneğin aynı esere
başka yollardan ulaşmama engel olma) ayırmak. Ve aracılara pozitif
fonksiyonları ölçüsünde gelirden pay sağlamak. Özetle ben bir esere,
bir aracının filtresini kullanarak ulaşıyorsam, bu da tespit edilip
aracıya gereken pay verilmeli.

Son olarak vergi ve fiyatların tespitinden biraz bahsetmek istiyorum:
vergiyi kullanım miktarına göre tespit edersek korsanlığı yine çekici
hale getirmiş oluyoruz. Şu an aynı sorun kaçak elektrik vs ile de
yaşanıyor. Dolayısıyla sabit bir miktar ya da gelirle orantılı bir
vergi daha cazip olabilir. Bu da dağda yaşayıp hiçbir eserle
ilgilenmeyen insanlara haksızlık diye düşünülebilir. Fakat (1) dağda
televizyonsuz ev kalmadı, (2) dağdaki insanlarımızdan zaten pek bir
vergi toplayabildiğimiz yok, (3) aynı eleştiri bugün eğitim, sağlık vs
için toplanan vergiler için de geçerli.

Fiyat tespitinde ise iTunes'dan örnek vereyim yine. Şu an her şarkı 99
cent, her televizyon programı 1.99 dolar. Tabi buna karşı
yayıncılardan büyük protesto var. Popüler şarkıların ya da
programların daha yüksek fiyatla satılmasını istiyorlar. Acaba
iTunes'ün yaptığı işte bir mantık var mı? Yukarıda dile getirdiğim
sistemde bir yazar, benim kitabımı bir okuyan senin kitabını bir
okuyandan 10 kat fazla para versin diyebilecek mi? Bence her yaratıcı
kaç insana kaç dakika hoşça vakit geçirttiği ile orantılı bir ücret
almalı ama eleştiri ve alternatif tekliflerinize açığım.

Özetlersek: insanların bilgiye özgürce ulaşımı, yaratıcıların ve
aracıların ürünlerinden doğru payı alabilmesi ve korsanlığın önüne
(yasaklarla değil çekiciliğini ortadan kaldırarak) geçilebilmesi için
gelişen teknolojilere paralel yeni bir sistem teklif ediyorum: bilgi
eserleri endüstriyel ürünler (araba, çamaşır makinesi) gibi düşünülüp
tek tek paket bazında fiyatlandırılmamalı, bilgi eserlerine ulaşım şu,
elektrik gibi düşünülmeli. Korsanlığı ortadan kaldırmanın tek yolu
insanların uygun bir ücret ile dünyadaki tüm kitap, gazete, film,
müzik, yazılım, bilimsel eser etc.'ye ulaşabilmesi. Bu ücretin sabit
oluşu insanları tespit edilemeyen kullanımlara özendirmemesi açısından
önemli. Toplanan gelirin dağılımı ise hangi eserin kaç kişi
tarafından, kaç defa, ne kadar zaman boyunca kullanıldığının bir
fonksiyonu olarak belirlenebilir.

Full post... Related link

November 01, 2006

The Greedy Prepend Algorithm for Decision List Induction

Deniz Yuret and Michael de la Maza. In Proceedings of the 21st International Symposium on Computer and Information Sciences (ISCIS 2006). LNCS 4263, Springer-Verlag
Download a C implementation of the GPA algorithm with a Weka interface here, presentation slides are here, the paper is here.

Abstract: We describe a new decision list induction algorithm called the Greedy Prepend Algorithm (GPA). GPA improves on other decision list algorithms by introducing a new objective function for rule selection and a set of novel search algorithms that allow application to large scale real world problems. GPA achieves state-of-the-art classification accuracy on the protein secondary structure prediction problem in bioinformatics and the English part of speech tagging problem in computational linguistics. For both domains GPA produces a rule set that human experts find easy to interpret, a marked advantage in decision support environments. In addition, we compare GPA to other decision list induction algorithms as well as support vector machines, C4.5, naive Bayes, and a nearest neighbor method on a number of standard data sets from the UCI machine learning repository.

Full post... Related link

Deniz Yuret's Homepage