Türkçe'nin olasılık tabanlı bağlılık ayrıştırması
Özet
Bu çalışma, Türkçe için geliştirilmiş ilk istatistiksel bağlılık ayrıştırıcısının sonuçlarını sunmaktadır. Türkçe, tümce içi öğe dizilişleri serbest, karmaşık bir çekimsel ve türetimsel biçimbirime sahip olan bitişken bir dildir ve bu özellikleri ile istatistiksel ayrıştırma konusunda ilginç sorunlar ortaya koymaktadır. Türkçe’de, bağlılık ilişkileri “çekim kümesi” adı verilen sözcük parçacıkları arasında kurulmaktadır. Bu bağlılıkların bulunması amacı ile Türkçe’nin karmaşık yapısının ayrıştırma sırasında nasıl modelleneceğinin irdelenmesi gerekmektedir. Bu çalışmada, ayrıştırma için farklı gösterim birimleri kullanan olasılık tabanlı modeller incelenmiştir. Başlangıç olarak biri kural tabanlı bir ayrıştırıcı olmak üzere üç dayanak model geliştirilmiştir. Gerçekleştirilen üç olasılık tabanlı modelin, dayanak modellere ve birbirlerine oranla başarımları değerlendirilmiştir. Ayrıştırıcının eğitimi ve sınaması için Odtü Sabancı Türkçe ağaç yapılı derlemi kullanılmıştır. Çalışma ayrıca bu derlem üzerinde sınanmış ve sonuçlaı raporlanmış ilk çalışmadır. Bu ilk incelemede, derlemin sadece sağa bağımlı (iye sözcüklerin uydu sözcüklerin sağ taraflarında yer aldığı) türde ve kesişmeyen bağlılıklar içeren bir alt kümesini ayrıştırmaya odaklanılmıştır. Eldeki derlemin boyutu nedeni ile görünüm bilgisi (sözcüğün tümünün veya gövdesinin ayrıştırma birimi gösterimlerinde bir özellik olarak kullanılması) kullanmayan ve sadece birimler arası etiketsiz bağlılıkları bulmaya yönelik incelemeler yapılmıştır. Sonuçlarımız, çekim kümeleri arasındaki doğru bağlıkların bulunma başarımı gözönüne alındığında, ayrıştırma birimi olarak çekim kümelerinin kullanıldığı ve bağlam bilgisinden yararlanan modelin en yüksek başarımı sağladığını göstermektedir.
Anahtar Kelimeler: Bağlılık ayrıştırması, doğal dil işleme, ayrıştırma, sentaks analizi.
Tam Metin: PDF