Osmanlı arşiv ve kaynaklarına yapay zeka destekli çözüm geliştirildi

Sosyal bilimlerde en büyük problemlerden biri olan Osmanlı arşiv ve kaynaklarının günümüz Türkçesine aktarılmasına ülkemiz akademisyenlerinden yapay zeka destekli çözüm geliyor. İstanbul Üniversitesi-Cerrahpaşa doktora öğrencisi İshak Dölek’in danışmanıyla birlikte geliştirdiği proje, TÜBİTAK 1512 destekleme programına kabul edildi. KOSGEB’ten de destek alan proje, tamamlanan OCR uygulamasıyla birlikte girişime dönüştürüldü.

Yayınlama: 05.12.2022
A+
A-

İstanbul Üniversitesi-Cerrahpaşa Bilgisayar Mühendisliği Bölümü’nden Doç. Dr. Atakan Kurt’un danışmanlığında Dr. İshak Dölek tarafından bir doktora tezi projesi olarak başlayan yerli girişim Osmanlica.com Osmanlıca kaynakların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96’lık bir başarı elde etti.

Osmanlı arşiv ve kaynaklarına yapay zeka destekli çözüm geliştirildi

OSMANLICA-TÜRKÇE AKTARIMI 3 ADIMDA ÇÖZÜYORLAR: 1- OCR 2- ALFABE ÇEVİRİSİ 3- DİL ÇEVİRİSİ 

Osmanlı arşiv ve kütüphanelerindeki her türlü kaynağı Osmanlıca OCR, Osmanlıca-Türkçe Alfabe Çevirisi ve Osmanlıca-Türkçe Dil Çevirisi olmak üzere üç adımda günümüz Türkçesine aktarmak amacıyla bir doktora tezi olarak başlayan “Osmanlica.com: Yapay Zeka Destekli Osmanlıca-Türkçe Uçtan-Uca Aktarım” projesi, sonrasında Avcılar Kampüsündeki Entertech Teknokent A.Ş. aracılığı ile TÜBİTAK 1512 girişim destekleme programına kabul edildi. Girişimciler Mina ARGE Bilişim Ltd. Şti. adı altında şirketleşerek projenin ilk adımı olan OCR projesini geliştirdiler. OCR projesini başarıyla tamamlayan Mina ARGE, halen bu projenin devam niteliğindeki Osmanlıca-Türkçe Alfabe Çevirisi projesini KOSGEB ve TÜBİTAK’tan aldığı destekle geliştiriyor. Alfabe çevirisi projesinde halihazırda yüzde 75 doğruluk oranına erişen şirket, bu uygulamada yüzde 95’lik bir doğruluk oranı elde etmek için ARGE faaliyetlerine bilgisayar, dil, edebiyat ve tarihçilerden oluşan bir grup ile devam ediyor.

OSMANLICA OCR’DA YÜZDE 96 ORANINDA BAŞARI ELDE EDİLDİ

Osmanlıca dokümanların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96 doğruluk oranına ulaştıklarını belirten Doç. Dr. Atakan Kurt şu açıklamalarda bulundu:

“Yurt içi ve dışındaki devlet arşivleri, kütüphane ve özel koleksiyonlarda yüzbinlerce Osmanlıca kitap, gazete, dergi ve belge bulunuyor. Bu kadar belgenin insan eliyle manuel olarak Türkçeye çevrilmesi pratik olarak mümkün değil. Bilgi teknolojilerinde ve yapay zekada son zamanlarda büyük ilerlemeler oldu. Bu sayede daha önce çözülmesi mümkün olmayan problemler yeni gelişmeler ışığında çözülebiliyor. Biz bu yeni teknolojileri Osmanlı arşiv ve kütüphanelerindeki belgelerin günümüz Türkçesine aktarılması için adapte ediyoruz. OCR ve alfabe çevirisi aşamalarında gözle görülür önemli başarılar elde ettik. Batı ülkelerinde büyük oranda çözülmüş olan bu problem ülkemizde henüz çözülemedi. Amacımız Osmanlıca kitap, dergi, gazete ve arşiv belgelerinin günümüz Türkçesine çevrilerek sıradan insanlar ve özellikle yeni nesil tarafından okunabilmesi ve anlaşılabilmesini sağlamak ve şimdiye kadar belki de hiç incelenmemiş veya okunmamış belgeleri gün yüzüne çıkararak tarihe ışık tutulması için gerekli yazılımları geliştirmektir. Bize göre bu proje Türkiye’nin sosyal bilimlerde vizyon projesi olmaya aday bir projedir. Bu proje ile yüzbinlerce kitap, dergi, gazete ve milyonlarca arşiv belgesi günümüz Türkçesine hızlı bir şekilde aktarılabilecektir.”

OSMANLICA-TÜRKÇE ALFABE ÇEVİRİSİNDE YÜZDE 75 DOĞRULUK ORANINA ERİŞTİLER

Osmanlıca belgelerin günümüz Türkçesine çevrilmesi için birden fazla çalışma yürüttüklerini söyleyen Dr. İshak Dölek ise “Osmanlıca OCR işleminin yanı sıra Osmanlıca-Türkçe alfabe çevirisi, Osmanlıcadan günümüz Türkçesine dil çevirisi, rika OCR yani Osmanlıca el yazısının OCR ile resimden metne dönüştürülmesi gibi diğer projelerde de çalışmaların devam ettiğini” söyledi ve “Örneğin Arapça tabanlı Osmanlı alfabesindeki Osmanlıca bir metni Latin tabanlı Türk alfabesine dönüştüren alfabe çevirisinde yüzde 75’lik bir doğruluk oranına eriştik. Alfabe çevirisi uygulamamız halen internette hizmet veren tek uygulamadır” dedi.

ALFABE ÇEVİRİSİNİ 3 BİN KELİME VE 23 BİN HARFTEN OLUŞAN VERİ KÜMESİYLE TEST ETTİLER

Dölek açıklamasının devamında, “Osmanlıca nesih hattında yazılmış 21 sayfa 3 bin kelime ve 23 bin harften oluşan orijinal bir Osmanlıca veri seti ile test edilen OCR uygulamasında yüzde 96 başarı elde ettik. Yani her 100 adet harfin 96 tanesi uygulama tarafından doğru olarak tanındı ki bu şimdiye kadar elde edilmiş en yüksek doğruluk oranı oldu. Bu testlerde uygulamamızı dördü yurt dışından birisi yurt içinden olmak üzere beş farklı OCR uygulamasıyla karşılaştırdık ve sonuçları uluslararası bir konferansta bildiri ve dergide makale şeklinde yayınladık. Ar-Ge faaliyetlerine devam ettiğimiz uygulamamızın sosyal bilimlerde yapacağı katkıdan dolayı mutluyuz. Şu ana kadar Osmanlica.com adresindeki OCR uygulamamızı 20 binden fazla, alfabe çevirisi uygulamamızı da 100 binden fazla kullanıcı denedi. Bu sayılar her gün artmaya devam ediyor. Bu durum bizi daha da motive ediyor” ifadelerini kullandı.

 

www.eskisehirmanset.com

Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.