Forum: Projeler KelimeMatik RSS
Çeviri Mekanizmaları
Google Translate ve olası alternatifler...
Avatar
Salih Dinçer #1
Üye Ock 2012 tarihinden beri · 1913 mesaj · Konum: İstanbul
Grup üyelikleri: Üyeler
Profili göster · Bu konuya bağlantı
Konu adı: Çeviri Mekanizmaları
Merhaba,

Dün itibariyle (Türkiye'de okulların açıldığı tarih), en/tr çeviri yazılımı geliştirmeye başladım. Aslında kararını veya ön çalışmalarını çok önceden yapmaya başlamıştım. Hatta nihayete ermesi muhtemelen çok sonraya (uzun zamana) yayılacak. Çünkü kolay bir şey olmadığının farkındayım.

Aslında tekerleği tekrar icat etmeye gerek yok. Bu konuda Google Translate dahil çok güzel yazılımlar yapıldı. Ancak aradığım şey, bulanık mantık ve/veya yapay zeka kullanılarak çok daha iyi çevirilerin mümkün olup olmadığı hakkında. Yoksa bir iddiam yok, aksine bir şey yapamasam bile çok şey öğreneceğimden eminim...:)

Bu haberi verdikten sonra, az önce yazdığım (henüz Facebook'da bile paylaşmadım ama yakındır!) bir inceleme yazısını paylaşmak istiyorum. Eğer sorunu düzgün bir şekilde anlatabildiysem, yazılımların ne kadar basit hatalara düşebildiğine şahit olacaksınız. Aynı zamanda da bir Türkçe özeleştirisi yaptım:


İngilizce'de standart I, You, S/He, It... harici bir de adıllar var, yani ad gibi davranan zamir dediğimiz şeyler. Hiç sıkıcı değil, çok eğlenceli bir olayımız var!

Şimdi çok çok basit iki örnek vereceğim, akıllı bir yazılım bile (Google Translate) solundaki ait olacağı nesneye rağmen tongaya düşüyor...:)

S: Ali will call Ayşe. (Ali, Ayşe'yi arayacak.)
O: Ali will call her. (Ali, O'nu arayacak.)

S: Ali will call Ayşe's office. (Ali, Ayşe'nin ofisini arayacak.)
P: Ali will call her office. (Ali, O'nun ofisini arayacak.)

Baştaki harfler dikkatinizi çekmiştir; açıklayacağım ama önce son cümleyi Google Translate: "Ali onu ofis arayacak." şeklinde çevirmektedir. Oysa o bir Possesive Adjective (My, your, his, her, its...) yani aitlik bildirir, "benim param", "senin araban" vb. gibi...

Şimdi dikkat, bir de Object Pronoun'lar (Me, you, him, her, it...) var ki, onlar bayanlar için kullanılan her iki sözcük de aynı: her

Ama bu durum, dili İngilizce olanlar için bir çıkmaz veya büyük bir karışıklık değil. Çünkü sağındaki nesneden çıkarabiliyorsunuz ama Google Translate çuvallıyor. Emin olmak için, bu sefer Ayşe'nin bir erkek olduğunu farz ederek his (object pronoun) koyduğum da:

"Ali ofisinde arayacak." şeklinde çevirmektedir...

Ehh, biraz normalleşti çünkü kendisine yardım ettik. Ama Türkçe açısında büyük bir çıkmaz ve anlatım bozukluğuna düşürüyor bizi. Yani bu ofis kimin...:)

1. anlam: Ali, birini kendi ofisinde mi arayacak?
2. anlam: Ali, aradığı kişiyi ofisinde yakalamak ümidiyle mi arayacak?

Tabi burada özeleştiri yapmalıyız çünkü Türkçe'nin dişil/erkil eksikliğini görmekteyiz. Ama İngilizce'de kurallar kesin olduğundan şöyle bir çeviri yapabilirdi:

"Ali onun ofisini arayacak."

Dikkat, -nde gibi bir ek getirmedik ki Google Translate bunu neresinden uydurdu acaba! Sözcük üzerine tıklayıp seçeneklere baktığımızda ise bunu düzeltmeyeceğimizi görüyoruz. Çünkü sadece şu 4+1 seçenek var:

ofisinde, ofisine, makamında, ofisinin, ofisinden

Kısaltmalar:
S: Subject Pronouns
O: Object Pronouns
P: Possessive Adjectives


Sevgiler, saygılar...
Bilgi paylaştıkça bir bakmışız; kar topu olmuş ve çığ gibi üzerimize geliyor...:)
agora #2
Üye Tem 2013 tarihinden beri · 221 mesaj
Grup üyelikleri: Üyeler
Profili göster · Bu konuya bağlantı
NLP kavramı var sanırım hocam bu konuda. Dogal Dil Isleme yani. Burada aslinda tek acidan yaklasmak bu tezleri zayiflatabiliyor. Bulanik mantik vs. gibi kavramlarda

İnsani bilimler önemli oldugu gibi dilsel modeller ve bu kurgulanan yöntemlerin manipulasyonu gibi konular da var. Mevcut bilginin keşfedilmesi anlamında ise veri madenciliği, veri modelleme ve doğal dil analizi gibi olaylar var.

Bunlar da mühendislik bilimleri kapsamında değerlendiriliyor. Bunların genel kapsamı ise

Dil Analizi oluyor.

Dil teknolojileri kapsami var bir de

Dil'in belirgin görevlerini gerçekleştirmesi için yüksek teknolojiler, bunlar için de güçlü sistemler olmalı. Bu yine insani bilimler'i kapsayan bir konu oluyor.

Bir de bilim ve mühendislik kapsamında olan

veri yapıları, gelişmiş dil algoritmaları konusundaki hakimiyetler onemli hocam. Dil işleme yazılımlarının da sağlamlığı dediğiniz gibi artık özden kopma noktalarına gelmemeleri gerekiyor. Translate'in buradaki eksik noktasi ise belirttiğim 2 kategori

İnsani Bilimler ve Bilim ve Muhendislik Bilimleri konularının henüz Türkçe için uygulanmamış olması bence.

Dilbilim: Dilbilim konusunda anahtar kavramı var bu anahtar kavram üzerinden dil tanımlama gerekiyor. Ve tabii son olarak da bunların analiz edilmesi işlemi nasıl olabilir?

Bir de veri yapıları ve algoritmalar dedik fakat NLP kavramında bunların nasıl kullanılacağı önemli bi konu.

Dil verileri standart formatlarda saklanmalı mesela dil işleme tekniklerinde dilin performansı, verilerin dildeki performansları saklanan verilerin bunların nasıl kullanılacağı da önemli konulardan..

Programcının avantajı da var.

Büyük miktarlarda metinleri ki bu Türkçe olacak varsayıyorum bu metinleri basit tekniklerle birleştirmek gerekebilir. Bunların saklanması, analiz edilmesi gerekir tabi. Saklanan her verinin analizi, işlenen her verinin işlendikten sonra analizi gerekiyor. Anahtar kelimeler, otomatik şekilde üretilen deyimler, sözler de bu kategoride işlenip analize uğramalı.

Şöyle düşünebiliriz ham veri bizim için işlenmesi gereken veri. Bu veri'yi nasıl bizim en doğal halimizle işletebiliriz? Bunun en basit cevabı gündelik konuşma ve yazı tarzımızdan geçiyor. Fakat yine bunun da analiz işlemleri var.

Dilin Turkce tarafindaki analizler disinda bir de diger dil analizi var. Onun da dogru cevirilmesi gerekir.

Google Translate icin ayni tarz 2 ornek:

I love you Fenerbahce
Fenerbahce, I love you

ilk ceviride: Seni Fenerbahce seviyorum
ikinci ceviride: Fenerbahce, seni seviyorum.

Bu gibi yanlis anlamlari da cevirebilirlik acisindan dogru sekillerde gostermek, analizlemek gerekebilir.

Eger dogru konuyu anlayip dogru konuda yazdiysam fikirlerim bunlar hocam :) Tabii ki sizlerin bilgileri benim icin cok onemli :)

Tesekkurler guzel konu olacaga benziyor.
Bu mesaj agora tarafından değiştirildi; zaman: 2013-09-17, 10:43.
Avatar
Salih Dinçer #3
Üye Ock 2012 tarihinden beri · 1913 mesaj · Konum: İstanbul
Grup üyelikleri: Üyeler
Profili göster · Bu konuya bağlantı
Fikirlerin teşekkürler hocam...

Aslında dilimiz (aşağılık kompleksinden kurtulabilirsek!), müthiş derecede kuvvetli bir dil. Bence çok da öz Türkçeci gibi davranmaya gerek yok, yarı muhafazakar yeterlidir dilimizi korumaya. Herhalde İngilizce'de bu kadar çok sözcüğün olmasının bir sebebi de bir çok dünya dilinden beslenmesi. Tabi gelenek olarak yeni sözcükler üretme gayretlerini de tebrik etmek gerekiyor...:)

Hoş bizde de yeni sözcükler üretilir ama nedense kullanmakta pek aceleci davranmayız. Varsa, yoksa hazır olan ve dünyada kullanılanı devam ettirmeye karar veririz. Gerçi İngilizce'nin dünya dili olmasının yegane sebebi ise bu olsa gerek...

Bence her millet İngilizce için kendi yazılımlarını geliştirmeli. Hem de bir çok yazılım ve/veya sunucular olmalı. Çünkü bu dilde o kadar çok üretim yapılıyor ki herhalde nüfus olarak tüm çevirmenler buna yetişemez. Kaldı ki herkes İngilizce bilmek zorunda değil veya o uzmanlık konusu kadar İngilizce bilemeyebilir. İşte burada imdadımıza yazılımlar yetişiyor diye düşünüyorum.

Zorluklar çok; en basiti İngilizce'de olmayan ama Türkçe'de olan şeyler ve/veya tam tersi. İşte en yakın örneğini yukarıda verdim. Türkçe'de de dişil/erkil özneler yok işte...:)

Ama şu var, sondan eklemeli dile sahip olmamız hasebiyle küçük heceler büyük işler başarabiliyor. Hoş İngilizce'de de öyle ama onlar başa ekledikleri (a, de, re, mis, un vb.) sözcükler de sanırım azımsanamayacak derecede fazla. Şu örneğe bakar mısınız...:)

Are you one of those whom we unsuccessfuly tried to make resemble the citizens of Afyonkarahisar?
Türkçesi: Afyonkarahisarlılaştıramadıklarımızdan mısınız?
Are you:
mısınız?
one of those whom: -larımızdan
we unsuccessfuly tried: -amadık
to make resemble: -laştır
the citizens of Afyonkarahisar?: Afyonkarahisarlı

Süper değil mi?
Bilgi paylaştıkça bir bakmışız; kar topu olmuş ve çığ gibi üzerimize geliyor...:)
Avatar
Salih Dinçer #4
Üye Ock 2012 tarihinden beri · 1913 mesaj · Konum: İstanbul
Grup üyelikleri: Üyeler
Profili göster · Bu konuya bağlantı
Google Translate hocamıza "Onun sesi çıkmıyor." diye yazıyorum. O da bana:

"His voice is coming from."

Sesi geliyor gibi bir şeyler sayıklıyor. Ne "not", ne de "out" var. Bu kadar basit çeviriyi yapamaz mı yahu:

"His voice isn't coming out."

Hoş yukarıdaki de benim gibi bir tecrübesiz ürünü olduğundan (sözlüğe bakarak kurduğumdan) yanlış da olabilir ama Google bizim amcamız yahu...:)
Bilgi paylaştıkça bir bakmışız; kar topu olmuş ve çığ gibi üzerimize geliyor...:)
Doğrulama Kodu: VeriCode Lütfen resimde gördüğünüz doğrulama kodunu girin:
İfadeler: :-) ;-) :-D :-p :blush: :cool: :rolleyes: :huh: :-/ <_< :-( :'( :#: :scared: 8-( :nuts: :-O
Özel Karakterler:
Forum: Projeler KelimeMatik RSS
Bağlı değilsiniz. · Şifremi unuttum · ÜYELİK
This board is powered by the Unclassified NewsBoard software, 20100516-dev, © 2003-10 by Yves Goergen
Şu an: 2017-12-10, 20:09:44 (UTC -08:00)