Maori dilini kurtarmak
Toplum/Yaşam Haberleri —

Maori çocuklar
- Maori çocukları okullarda ana dillerini konuştuklarında utandırılıyor veya dayakla cezalandırılıyordu. Bu zulüm nedeniyle aileler dillerini çocuklarına öğretmediler. Şimdi, küçük bir radyo istasyonu olan Te Hiku Media Maori dilini hem kayıt altına alıyor hem de teknoloji şirketlerinin elinden kurtarmaya çalışıyor.
Yeni Zelanda'nın en kuzey ucunun hemen altında kurulmuş küçük bir radyo istasyonu olan Te Hiku Media'da çalışan personel şaşkınlık içindeydi. On gün içinde, radyonun başlattığı yarışma sayesinde Māori dilini konuşan insanlar anadillerinde 300 saatten fazla açıklamalı ses kaydetti. Otomatik konuşma tanıma ve konuşmayı metne çevirme araçları dahil olmak üzere, Māori dili olan te reo Māori’ye yönelik dil teknolojileri oluşturmak için yeterli bir havuzdu bu.
Maori dili yayıncılarının az sayıdaki personeli ile birlikte bir mühendis, yerli konuşma tanıma teknolojisinde öncü olmak üzereydi. Ancak bu araçları yapmak mücadelenin sadece yarısıydı. Te Hiku kısa sürede içinde karşısında, kendi yerel veri setlerini geliştirmeye çalışan şirketleri ve veri paylaşımına yönelik zararlı Batılı yaklaşımları buldu. Verilerini korumak öncelik haline gelmişti. Çünkü Maori dilini yeniden canlandırmakla gerçekten ilgilenen tek kişi Maori halkıydı.
Donavyn Coffey’nin wired.com sitesindeki yazısına göre daha 20. yüzyıla kadar, Maori çocukları okullarda ana dillerini konuştuklarında genellikle utandırılıyor veya dayakla cezalandırılıyorlardı. Sonuç olarak, o kuşak yetişkinliğe ulaştığında, birçok kişi, bu zulümden onları korumak için dillerini çocuklarına aktarmamayı seçti. 1920 ile 1960 arasında Maori dilindeki düşüşün başlıca nedeni buydu. Şimdi, birçok yerli grupta dili akıcı konuşan kişi sayısı hem azalıyor hem de yaşlanıyor. Dil ve taşıdığı geleneksel bilgiler yok olma riski altında.
Dillerini kurtarmak için…
Te Hiku'nun teknoloji sorumlusu Keoni Mahelona, Te Hiku'nun 30 yılı aşkın radyo yayıncılığı sırasında biriktirdiği devasa ses koleksiyonunu dijitalleştirdikten sonra, konuşma tanıma konusunda bir ihtiyaç olduğunu gördü. Jones, "Tüm bu deyimsel ifadeleri, konuşma dilini ve benzersiz cümleleri kayda almıştık" diyor. Bu, onların dilinin yerel sesiydi - İngilizceyle ve zamanla bozulmamış bir dil. Ancak bu kaynağı ülke ve dünya genelinde yaşayan Maori halkı için yararlı hale getirmek için, Te Hiku'nun sesi yazıya dökmesi gerekecek. Binlerce saatlik Maori sesini yazıya dökmek için, bilgisayara kendi dillerini konuşmayı öğretmeleri gerekiyordu.
Konuşmayı metne çeviren ve böylece Te Hiku'nun radyo içeriklerini yazıya dönüştürmesine olanak tanıyan araçlar ve Mozilla'nın açık kaynak aracı Deep Speech gibi diğer konuşma tanıma teknolojileri oldukça erişilebilir. Yerli toplulukları için asıl zorluk, bu teknolojileri üzerine inşa edecekleri açıklamalı verilerin eksikliği. Coqui'nin kurucu ortağı Kelly Davis'e göre, daha önce bir veri olmasına gerek kalmaksızın, sıfırdan konuşma tanıma araçları oluşturmak için, 10.000 saatlik açıklamalı sesten oluşan bir havuz gerekiyor. Çok az dokümantasyona sahip küçük yerli dilleri için bu, imkansız olmasa da, son derece göz korkutucu bir gereklilik.
Ancak Mahelona'ya göre, sadece 320 saatlik başlangıç verisiyle Te Hiku, başlangıçtaki kelime hatası oranı yüzde 14 olan bir konuşmayı metne dönüştürme motoru oluşturabildi. Davis, "Daha önce konuşma tanıma özelliği olmayan bir dil için 300 saatten biraz fazla bir sürede bu kadar düşük kelime hata oranı elde etmeleri çok etkileyici" diyor.
Sonra Mahelona ve Peter-Lucas Jones, başarılarını konferanslarda sunmaya başladı. Yerel bir dil için ASR araçlarını ilk geliştirenlerin onlar olması önemli değil, diyor Mahelona "ancak bunun mümkün olduğunu kanıtladık." Güneydoğu Kanada'daki Mohawk ve Hawaii yerli halkı da dahil olmak üzere diğer yerli topluluklardan dil canlandırma uzmanları, Te Hiku'ya kodunu kullanma ve stratejisini taklit etme konusunda tekliflerle geldi. Kanada Queen's Üniversitesi'nde Mohawk profesörü olan Nathan Brinklow, “Teknoloji bir kuvvet çarpanıdır” diyor. “Onlar öncülük ediyor. Ama bu, sıradan insanların da yapabileceği bir şey."
‘Dilimizi satmayacağız’
2018 yazına gelindiğinde, Te Hiku kelime hata oranını halihazırda yüzde 10’a düşürmüştü bile. Ve bu sırada, web sitesine göre "küresel şirketler için çeviri ve yerelleştirme çözümleri" konusunda uzmanlaşmış bir Amerikan şirketi olan Lion Bridge'den bir talep aldı.
Mahelona, "Temelde küreselleşmeyi bir hizmet olarak satıyorlar" diyor. Bir müşteri adına temasa geçen Lion Bridge'in, Maori dilinde konuşma kaydı sağlayacak herkese saat başı 45 ABD doları teklifiyle birkaç Maori akademisyeni ve radyo grubuyla iletişime geçtiğini söyledi. Mahelona, yapmaları gereken tek şeyin telefonlarında Maori dilinde konuşmak olduğunu hatırlattı. Mahelona, "Topluluğumuzun bazı üyelerine 45 doların çok fazla görünebileceğini fark ettik" diyor. Lion Bridge, bu makale için yorum talebine yanıt vermedi.
Te Hiku, Lion Bridge'in teklifini reddettikten sonra Mahelona ve Jones, dillerini bir Amerikan şirketine satmanın içerdiği riskleri açıklayan bir video ile retlerinin sebebini anlattılar. Te Hiku ekibi, ellerindeki bu dil verilerini sömürgeciliğe karşı son cephe olarak görüyor. Jones, "Dillerimizi bastırdılar, büyükanne ve büyükbabalarımızı döve döve dili unutturdular. Ve şimdi dilimizi bir hizmet olarak bize geri satmak istiyorlar."
Te Hiku, Maori dilinden kazanç elde etmesi gereken tek kişinin Māori halkı olduğu konusunda kararlı. Ve Te Hiku, 30 yıldan fazla bir süredir topladığı Maori dili verileri üzerindeki egemenliğini koruyarak, bu hakkı şiddetle savunuyor. Mahelona, "Değerlerimizi hiçbir şeyle takas etmiyoruz. Verileri satmayacağız veya araştırma için de vermeyeceğiz" diyor.
Jones’un aktardığına göre, verileri satmak veya bedelsiz vermek, batılı şirketleri ticari fırsat için kendi dillerini ve bu alandaki binlerce yıllık geleneksel bilgiyi kurcalamaya davet ediyor. Bu, dilin geleceğini şekillendirecek araçları geliştirme işini dille hiçbir bağlantısı olmayan veri bilimcilere emanet etmek anlamına gelir. Ve en kötüsü, bu, Maori toplumunun kendilerine ait olan toprağın ekonomik faydalarını görmedikleri gibi, kendilerine ait olan dil kullanılarak yaratılan ekonomik fırsatları da kaçıracağı anlamına geliyordu. Jones, "Tarihin tekerrür etmesine karşı önlem alıyoruz" diyor. Verilerini korumak, Maori halkının kendi kaderini tayin hakkını korumasını sağlayacak.
Neden verileri istiyorlar?
Te Hiku, o zamandan bu yana verilerine veya ASR modeline yönelik bir düzine kadar talep aldı. 2018'in sonlarında Davis, hala Mozilla'daki açık kaynak konuşma teknolojisi ile çalışıyordu. Bir yılı aşkın süredir birlikte çalıştığı Te Hiku'daki ekibe, verilerini Mozilla'nın açık kaynak veri tabanı Common Voice'a ekleme talebiyle gitti. Ekip bir kez daha hızlı bir şekilde reddetti.
Jones, "Açık kaynağın değerini kabul etsek de, insanlarımızın çoğunun bundan yararlanacak kaynaklara sahip olmadığının da farkındayız" diyor. Maori halkı, düzenli olarak açık kaynak veri tabanlarından yararlanan birçok insanla aynı eğitim ve ilerleme fırsatlarına sahip olmadığından, verilerini açık kaynak yapmanın halkının yararına olmadığını söylüyor. Te Hiku'nun açıklamasını duyduktan sonra Davis, "bir ampul yandı" diyor. Neden verileri üzerindeki kontrolü elinde tutmak istedikleri "çok net anlaşılıyor.”
Te Hiku'nun üniversitelerle ortaklık kurduğu durumlarda, şartlar Te Hiku'nun veri lisansına göre titizlikle düzenleniyor. Lisansa göre, proje doğrudan Maori halkına fayda sağlamalı ve Maori verileri kullanılarak oluşturulan herhangi bir proje Maori halkına ait olmalı. Bu, gelecekteki ekonomik fırsatların her zaman verilerin toplandığı topluluklara ait olmasını sağlayacak.
Dilimizin geleceği
2019'da 13 milyon dolarlık hibe sayesinde, Te Hiku ekibi beş ek veri bilimcisi ve beş yeni Maori dili uzmanı ile büyümüş. Şimdi sadece dili korumakla kalmayıp, aynı zamanda orijinal sesin bütünlüğünü geri kazandıran dil araçları da geliştiriyorlar. Demo aşamasına henüz ulaşan en yeni dil uygulaması, mevcut konuşmacıların telaffuzlarını iyileştirmelerine ve İngilizcenin bazı etkilerini ortadan kaldırmalarına yardımcı olmayı amaçlıyor. Jones, "Dilimizi sömürge etkisinden çıkarıyoruz" diyor. "Dilimizin geleceğine yerel sesi yerleştirmek istiyoruz."
Hız kilit önemde. Mehelona, yarı denetimli öğrenme gibi, çok az etiketli veri gerektiren ve sonunda teknoloji şirketlerinin kültürel bilgi aramadan dil hizmetleri geliştirmelerine izin verebilecek teknolojilerin var olduğunu söylüyor. Bu arada, Te Hiku'daki ekip öncelikle gerekli araçları geliştirme konusunda acele ediyor: Yazım denetimi, dil bilgisi asistanları, sanal dil öğretmenleri. Mahelona, her ne olursa olsun, "daha iyi alternatifler yaratmamız gerekiyor" diyor. "Tüm yerli halk için [çevrimiçi] daha iyi bir alan sağlamak istiyoruz." HABER MERKEZİ