Ses Neleri Değiştirecek?

Serhat Görgün / GVZ Genel Müdürü “Bilgisayar dünyasının geleceğinde konuşan, dinleyen ve anlayan bilgisayarlar olacak” diyor Bill Gates...Hepimizin hayallerini süsleyen bu akıllı teknoloji üzerin...

1.06.2001 03:00:000
Paylaş Tweet Paylaş

Serhat Görgün / GVZ Genel Müdürü

“Bilgisayar dünyasının geleceğinde konuşan, dinleyen ve anlayan bilgisayarlar olacak” diyor Bill Gates...Hepimizin hayallerini süsleyen bu akıllı teknoloji üzerinde Türkiye’de çalışan bir şirket var. “Girişim ve Zeka” veya kısa adıyla GVZ...Türkçe ses tanıma ve metine dönüştürme konusunda çalışıyor. Üstelik bu ABD ve Avrupalı teknoloji devlerinin egemen olduğu bir alana iddialı projeyle giriyor. Genel müdürü Serhat Görgün, “İki yıl içinde hayaller gerçek olacak” müjdesini veriyor...

Zaman geçiyor, her şey hızla değişiyor, ama ömrümüzün neleri görmeye yeteceğini bilmiyoruz. Cep telefonları ve internete bağlı mobil cihazlarla donatıldığımız şu günlerde, çocuk yaşlarındayken arkadaşlarımla yaptığım bir tartışma aklıma geldi... Acaba ileride, kolumuzdaki saatleri görüntülü telefon gibi kullanabilecek miydik? On yaşında bana çok uzak görünen, “saatle iletişim” hayali, teknolojisi biraz farklı bir formatta da olsa gerçekleşti. Peki yaptığım röportajları doğrudan yazıya çevirip kağıda dökecek bir sistemi görebilecek miyim? Sanırım çok az kaldı...

GVZ, yani Girişim ve Zeka, Ağustos 2000’de, Koç Holding’in bünyesinde kurulmuş bir şirket. Türkiye’de ses teknolojileri alanında faaliyet göstermeye başlayan ilk kuruluş olan GVZ, kurulduktan çok kısa bir süre sonra “Yılın Bilişim Ürünü Ödülü’nü kazandı. Projenin adı Ses Tanıma ve Ses Sentezi Teknolojileri... Sesin bilgisayarlı ortamlarca yazıya dönüştürülmesini sağlayan bu projenin en önemli özelliği tamamen Türk diline dayanıyor olması. Bu da şirketin ses teknolojileriyle ilgili çalışmalarını, lokal anlamda çok önemli  kılan bir özellik.

GVZ’nin Genel Müdürü Serhat Görgün ile, ses tanıma ve ses sentezi teknolojileri üzerine konuştuk:

Yarışmaya hangi projelerle katıldınız?

Yarışmaya iki projeyle başvurduk. Konuşma sentezi ve konuşma tanıma. “Text to speech” dediğimiz konuşma sentezi, bilgisayarlı ortamlardaki metinlerin herhangi bir kişinin sesiyle konuşmaya çevrilmesini sağlayan bir işlem. Konuşma tanıma, yani “speech recognition” ise herhangi bir kişinin konuşmasının bilgisayar ortamı tarafından algılanabilir formata, yazıya dönüştürülmesi işlemi.

Bu teknoloji nerelerde kullanılabilir?

Telefon üzerinden gerçekleştirilen her uygulamada kullanılabilir. Bugün telefon açarak tuşlarla ya da canlı bir operatörle bir sürü bilgiye ulaşabiliyorsunuz. Bizim en önemli katma değerimiz, talebinizi sisteme sözle anlatabiliyor olmanız. On tuşla sınırlı kalmadan, en doğal iletişim yolu olan konuşmayla istediğiniz bilgiye ulaşabileceğiniz bir sistem bu.

Bir başka kullanım alanı da sesli yanıt sistemleri. Kişinin sistemle karşılıklı bilgi alışverişinde bulunması gerektiğinde, ses teknolojileri devreye giriyor. Kişi hesap numarasını, havale yapmak istediğini söylüyor ve sistem bunu otomatik olarak gerçekleştiriyor, insan faktörü olmadan.
Borsa da bu sistemin kullanılması için ideal bir sektör. Şu anda borsada işlem gören bir hisse senedine ulaşmak için ya interneti kullanıyoruz ya birine telefon açıp ondan bilgi alıyoruz ya da borsada bulunmamız gerekiyor. Ama biz, telefonu açıp hisse senedinin ismini söylediğinizde, “Koç Holding” dediğinizde, kağıtla ilgili bütün bilgilere ulaşabileceğiniz bir sistemden bahsediyoruz

Bu teknolojinin en çok kullanılacağı sektörler ve uygulama alanları ile ilgili daha somut örnekler verebilir misiniz?

Sektör olarak ilk sırada GSM operatörleri ve Telecom geliyor. ASP, yani uygulama sağlayıcıları için de önemli bir teknoloji. Tamamen bilgisayarlı ortamda, insan faktörünü minimum kılarak istediğiniz rezervasyonu yaptırabileceğiniz bir sistem. “Şu anda İstanbul’dayım şu tarihte ve saatte Ankara’da olmak istiyorum. Şu otelde uygun bir oda var mı?” diyorsunuz ve rezervasyonunuz yapılıyor.

En büyük hedeflerimizden biri de finans kuruluşları. Görüşmelerimize Koç Bank’la başladık. Şubelerdeki zaman kaybını engelleyecek bir sistem olduğunu düşünüyoruz. Şubedeki görevliler zamanlarının önemli bir kısmını, asıl yapmaları gereken işler yerine, hesap bilgisi, faiz, repo oranı, borsa durumu, döviz gibi bilgileri toplamak ve onları aktarmakla geçiriyorlar. Dolayısıyla verim azalıyor. Amacımız, bilgi isteyen kişilerin doğru ve hızlı bir şekilde bilgiye ulaşması.

Peki nasıl işliyor bu sistem?

Sistem önce duyduğu sesi yazıya çeviriyor. Daha sonra veri tabanına giriyor, istenilen bilginin yanındaki yazılı bilgiyi de sese çevirerek arayan kişiye aktarıyor.

Şu anda Koç Sistem’de test edilen bir sistemden örnek vermek istiyorum. Koç Sistemi arayıp, Ahmet Yılmaz’la görüşmek istiyorsunuz. Sistemi “sen birazdan Koç Sistem’de çalışan 300 kişiden birinin adını duyacaksın” diyerek konfigüre ediyoruz. Veri tabanımızdaki 300 isimden birini bekliyoruz yani. Kişi Ahmet Yılmaz diyor, sistem bakıyor, Ali mi değil, Mehmet mi değil... Sıra söylenen isme gelince sistem “evet, phonemleri, yani en küçük ses parçacıkları Ahmet Yılmaz’a benziyor” diyor. Bunu yazıya çeviriyor.

“Ben Ahmet Yılmaz olarak anlayayım, gerekirse Ahmet Yılmaz anladım doğru mu diye arayana sorarım veya direk Ahmet Yılmaz’ın telefon numarasını çeviririm”. Dahili numarayı veri tabanından buluyor, numarayı çeviriyor ve çağrıyı Ahmet Yılmaz’a aktarıyor.

Algoritmanın yaptığı bu. Bu noktada 300 kişilik telefon listesi bizim için önemli bir kriter. Liste 6 bin kelimeden oluşsaydı, sistemin cevap verme süresi uzardı.

Tabii Ahmet Yılmaz ismini nasıl söylediğim de önemli. Yuvarlayarak söylersem, sesin yazıya çevrilmesi uzun zaman alabilir, ya da gürültülü bir ortamdan arıyorsam ses benzerliği olan başka bir isimle karışabilir. 

Ekibinizde kaç kişi çalışıyor?

Levent Arslan ve ben de dahil 9 kişilik bir ekibimiz var. Ayrıca, Levent Arslan’ın Boğaziçi Üniversitesi’ndeki öğrencileri arasından bizimle çalışan, staj yapan bir sürü öğrenci var. Levent Arslan’ın şirketle ilgili tezlerini Boğaziçi Üniversitesi ile yapılan anlaşma paralelinde, bu öğrenciler yapıyor ve böylece bilgi akışı sağlanıyor.

Ankara Üniversitesi Dil Tarih Coğrafya Fakültesi Türk Dili Bölüm Başkanı Prof. İclal Ergenç başkanlığında bir ekiple de Türk dili ile ilgili çalışmalarımız var. Bugüne kadar hiç yapılmamış ama bizim çok ihtiyacımız olan bir çalışma, Türkçe’nin analizi. Türkçe’yi bizim istediğimiz paralelde analiz ediyorlar. Türkçe’deki isimleri, günlük konuşma dilindeki cümlelerin yapılarını, vurgu ve ezgileri inceliyorlar. Burada amaçlardan biri de bilgisayarın konuşmasını mümkün olduğunca insan konuşmasına çevirmek.

Diğer yandan, İstanbul Teknik Üniversitesi, Levent Arslan’ın patent konusu olan üç boyutlu görüntü ve ses animasyonu konusunda bir araştırma yapıyor. Ekrandaki üç boyutlu bir görüntüye metin okutuyorsunuz ve görüntü metine göre şekil alıyor. Metinden çıkan anlama göre yüz ifadesi değişen bir görüntü bu.

Bu teknoloji şu anda Türkiye’de kullanılıyor mu?

Henüz Türkiye’de bunu kullanan bir kurum yok. Bugüne kadar olmamasının en önemli sebebi, bu teknolojinin ihtiyaç duyduğu donanımın Türkiye’de olamaması. İşlemci ve donanım gücünün belli seviyelere ulaşamamış ve pahalı olması, altyapı eksikliği gibi sorunlar bu teknolojinin yayılmasını engelledi. Biz bu açıdan türümüzün ilk ve tek örneğiyiz. Yurtdışında kullanılan benzer çözümler var. Bizim yapmamız gereken, pazarı bu teknolojiden haberdar etmek ve daha sonra pazara girmek.

Türkiye’de kullanılmamasının bir sebebi de, bu tür teknolojilere bugüne kadar, “olsa hoş olur” şeklinde bakılması. Biz de sağladığımız faydaları daha somut hale getirip net bir şekilde ifade ederek bu algılamayı “olmalı”ya çevirmek istiyoruz. İnsanlar bu teknolojinin sahip olunması gereken bir teknoloji olduğuna ikna olmalı.

Türkçe çok aksan farklılıkları olan bir dil. Bunu nasıl yeneceksiniz?

Her şeyden önce insanların bir bilgisayarla konuştuklarının bilincinde olmaları gerekiyor. Ama sistemi aksanlara göre eğitmek bizim elimizde.

Peki bu teknolojiyle şu andaki konuşmamızı yazıya çevirebilmemiz mümkün mü?

Bu Türkçe’de şu an için imkansız. İddiamız bunu 2 yıl sonra yapabiliyor olmak. Sorun Türkçe’nin çok ekli bir dil olmasıyla ilgili. Örneğin, sisteme Türkçe’de birinci kelime olabilecek kelimeleri yüklüyoruz. Sistem ilk sessizliğe kadar duyduğu kelimeyi o veri tabanından bulmak zorunda. 

Ses teknolojisinin kullanımının yaygınlaşması ne kadar sürede olur?

Çok uzun sürmez. Bu olgunluğu kaldırabilecek donanımlar artık ucuz üretiliyor. Dolayısıyla iyi bir noktadayız. Dünyada yukarıya doğru yükselen inanılmaz bir ivme söz konusu. Ama şu anda pazar büyüklükleri Amerika ve Avrupa’da ayrı ayrı milyar doların altında. 2003 yılında dünya çapında 24 milyar dolarlık bir pazar büyüklüğü bekleniyor. Aynı şey bilgisayar, televizyon ve araba üretildiğinde de geçerliydi.

Peki rakipleriniz var mı?

ABD ve Avrupa’da farklı dillerdeki teknolojilerde var. Ama Türkçe ses teknolojilerinin araştırılıp geliştirilmesi, pazara sunulması için kurulmuş bir şirket yok. Diğer yandan Türkiye o kadar güzel bir pazar ki, insanlar ellerindeki ses teknolojilerini Türkçeleştirip pazara girmeye hazırlanıyorlar. Konuşmayı yazıya çevirme anlamında 3 rakibimiz var diyebiliriz. Ama onların eksileri, başka bir dilde var olan bir sistemi Türkçeleştiriyor olmaları. Bu performans açısından bir kayıp.

Bizim artılarımıza gelince. Koç Holding’in bünyesinde lokal bir şirket olmamız bir avantaj. Türk kültürü ve dil karakteristiklerini bilip, kaynak kodlarının 100de yüzünün sahibi olmak başka bir avantaj. Müşteri bize gelip özel isteğini söylediğinde biz en ayrıntılı koda girip isteği gerçekleştirme olanağına sahibiz. Bu Microsoft’a gidip exceldeki bu özelliği beğenmiyorum demek gibi bir şey.

GVZ’NİN FİKİR BABASI: LEVENT ARSLAN

Şu anda GVZ yönetim kurulu üyesi olan ve GVZ’nin danışmanlığını yapan Levent Arslan, bu teknolojiyi geliştiren ekibin lideri. Aynı zamanda şirketin yüzde 15 ortağı. Boğaziçi Üniversitesi Elektronik Bölümü’nden mezun. Daha sonra Amerika’da ses teknolojileri üzerine master yapıyor. Stajlarını Texas Instruments’da yaparken iki patent başvurusu yapıyor ve bu patentler TI tarafından ödüllendirilip kullanılmaya başlanıyor. Bu iki yıldan sonra ses teknolojileri üstünde çözüm üreten Entropik adında bir şirketinin kurucu ortaklarından oluyor.

Daha sonraki ki patentinden biri Intel, diğeri TI tarafından kullanılıyor. toplamda beş patent başvurusu var. Entropik’de çalışırken teknolojilerin Türkçesini geliştirmeye başlıyor. Sıfırdan başlayarak 6 ay içinde tamamlıyor.

İki yıl sonra BÜ’ye dönüyor, öğretim görevlisiyken Ali Koç’la görüşmeye başlıyor, sunum yapıyor. Ali Koç’un aklına yatan bu fikirden sonra, Ağustos 2000’de GVZ kuruluyor. Amerika’daki birikimlerinin Türkçeleştirilmesi arzusu ve çalışmalar Koç Holding’in desteğiyle. haftanın 2 günü şirkette, 3 gün BÜ’de dersleri var.

İŞADAMLARI GAZETELERİNİ DİNLEYEBİLECEK

Bir iş adamının günlük hayatına ne gibi katkıları olabilir?

Ses  teknolojisinin kullanım alanı insan yaratıcılığıyla doğru orantılı, ben bazen gece uyanıp burada da kullanılabilir diye not ediyorum. Şu an için testleri devam eden bir kaç örnek verebilirim. Diyelim ki Hürriyet Gazetesi’nin günlük haberlerin dinlemek istiyorsunuz. Telefon açıyorsunuz, hoş geldiniz mesajından sonra dinlemek istediğiniz yazarın ismini söylüyorsunuz. Ve yazıyı dinliyorsunuz, bunu internetteki her hangi bir sayfa için de yapabilirsiniz. Konu araştırabilir, adres bilgisi sorabilir, herhangi bir son dakika haberini duyabilirsiniz. Argümanımız, internetteki inanılmaz birikimi, 35 milyon telefon abonesine ulaştırmak.

Başka bir örnek de mesaj sistemleriyle ilgili. Bir sürü mail hesabı olan, fax ve telefon trafiği olan mobil bir işadamı için önemli bir adım. Bütün mesajlarınız bir kutuda toplanıyor. Telefon açtığınızda kaç mailiniz, kaç telefon mesajınız, kaç faxınız olduğunu, mesajların kimden geldiğini ve içeriklerini dinleyebiliyorsunuz. ve bütün bu işlemleri tuşlar yerine konuşarak yapıyorsunuz.

GÖRME ÖZÜRLÜLERE NE GİBİ FAYDALAR SAĞLAYACAK?

GVZ’nin ses teknolojisini kullanarak uyguladığı bir proje de görme özürlüleri ilgilendiriyor. Şu an Boğaziçi Üniversitesi Kütüphanesinde yürürlükte olan bir proje var. Üniversitedeki görme özürlü öğrenciler bilgisayar ortamındaki metinleri dinleyerek kütüphaneden yararlanabiliyorlar. Ayrıca İstanbul Belediyesi’nde çalışan iki görme özürlü avukat Koç Sisteme danışmanlık veren bir başka kişi bu sistemi kullanıyor. Bunlar ticari uygulamalar değil. Serhat Görgün “Bu da işin toplumsal ve sosyal kısmı” diyor. “800 bin görme özürlü ve 35 milyon telefon abonesine internete telefon yoluyla ulaşma fırsatını veriyoruz. Bence topluma hizmet ödülünü de biz almalıydık.”

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

Türkiye ve dünya ekonomisine yön veren gelişmeleri yorulmadan takip edebilmek için her yeni güne haber bültenimiz “Sabah Kahvesi” ile başlamak ister misiniz?


İLGİNİZİ ÇEKEBİLİR

Yorum Yaz