İşitsel Verilere İçerik Tabanlı Erişim

Bilgisayar Mühendisliği Lisans eğitimimin son yılında (2004) bitirme projesi olarak iki dönemi de kapsayacak şekilde İşitsel Verilere İçerik Tabanlı Erişim isimli bir proje gerçekleştirdim. Projenin amacı arşivlenmiş ses dosyalarının bulunması için kullanılabilecek yöntemlerin geliştirilmesi ve karmaşık sorgu cümlecikleri veya araçları kullanılarak hedeflenen dosyalara ulaşılması idi …

Örnek vererek konuyu özelleştirecek olursak; mevcut durum da dahil olmak üzere, rastgele sıralanmış veya isimlendirmesi yetersiz bir ses dosyası arşivi içerisinde; içinde patlama, araba veya sevdiğimiz bir sanatçı içeren bir dosyayı bulmamız oldukça zor. Bunun nedeni dosyanın isimlendirmesi ile dosya içerisinde bulunan tüm özelliklerin karşılanamaması. Günümüzün baskın arama motorları ve kullandığımız işletim sistemleri arama işlemini metin bazlı olarak yapmaktadır. Arama kutucuklarına yazdığımız anahtar kelimeler metin dosyalarının içerisinde, e-posta mesajlarında veya internet sitelerinde rahatlıkla aranabilmektedir. Ancak ses dosyası içerik olarak yorumlanmadan ve bu yorumlanan içerik kapsamlı veritabanı veya veritabanlarında saklanmadan hedefli arama yapmak mümkün değil.

İşte bu noktadan yola çıkarak 2003-2004 yıllarında işitsel veriler içerisinde arama yapmaya imkan veren bir sistem oluşturmak üzere iki kişilik bir ekiple çalışmalara başladık. Gerçekleştirdiğimiz yapı içerisinde iki adet sistem oluşturulmuştur. Bunlardan ilki özelliklerin işlenmesi, yorumlanması ve ayırt edilerek veritabanına işlenmesini sağlayan işleyici sistemidir. Bu sistem proje ortağım Murat tarafından geliştirilmiştir. İşleyici kullanılarak bir ses dosyası içerisinde yer alan sinyal özellikleri ve içerik özellikleri gibi detaylar veritabanına işlenebilmektedir. Ayrıca ses dosyası ile çeşitli metin bilgileri ilişkilendirilebilmektedir. Geliştirilen ikinci sistem ise arama motorudur. Arama motoru, işleyici ile benzer yorumlayıcı rutinlerini içermekle birlikte sorgu yapılmasına olanak verecek arayüzleri aracılığı ile ses özellikleri, metin sorguları veya örnek ses dosyası gibi kriterleri barındırmaktadır. İşitsel Verilere İçerik Tabanlı Erişim isimli projemizin arama motoru bölümü tarafımdan geliştirilmiştir.

Sinyal işleme tekniklerinin yoğun bir şekilde kullanıldığı bu projede ses dosyası üzerinden çıkarılabilecek özelliklerden ve önceden saklanmış değerlerden yararlanılarak eşleşen dosyalara ulaşılması hedeflenmiştir. Çok basit bir şekilde örneklendirecek olursak; hedef elimizde örnek bir şarkısı veya sesi bulunan sanatçıya ait diğer mp3’lerin, mp3 arşivimiz içerisinden bulunması hedeflenmiştir. 😄

Günümüzde bilgiye ulaşmak kolaylaşmıştır, youtube veya vimeo veya fizy gibi kaynaklardan (eğer kapanmazlar ise 😄 ) rahatlıkla istediğimiz kayıtlara ulaşmamız mümkündür. Ancak bu projenin amacı sadece ünlü sanatçı mp3’lerine ulaşmak değil aynı zamanda da “içinde patlama sesi olan kayıtlar” gibi karmaşık sorgulamaların yapılabilmesidir. Özellikle son örnek üzerinden yola çıkıldığında yapılabileceklerin sınırı yoktur …

Sonuçta gerçekleştirdiğimiz proje ile temel-alt/orta düzey işleme/sorgulama işlemleri yapılabilir duruma gelmiştir. Projeyi ileriye götürebilmek için gereken sinyal işleme gücü ve bilgisi alanımız dışına çıktığından gerçek dünya kullanımına alınamamıştır … Buna rağmen üniversite bitimini takip eden 2004 yılı yaz aylarında proje geliştirilmeye devam edilmiş ve Başkent Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümünü temsilen CeBiT 2004 içerisinde sergilenmiştir. CeBiT için yapılan geliştirmelerde internet uygulaması olarak hazırlanan arama motorunun Windows uygulaması olan versiyonu hazırlanmıştır.

Proje tanıtımımı aşağıda paylaştığım sunum raporu özeti ve örnek görseller ile sonlandırıyorum;

Özet

Zamanın başlangıcından bu yana ses en önemli iletişim yollarından biridir. Amaç veya kaynak ne olursa olsun ses verisi içerisinde çok önemli bilgiler barındırır. Bir iletişim aracı olarak veya bir kaynaktan üretilmiş veri olarak, durum, pozisyon vb bilgileri sağlayabilir.

İnsanoğlu ile birlikte ses, çok farklı boyutları ile değerlendirilmeye başlanmış ve kullanılmıştır. Doğada bulunan canlıların ürettiği veya cansız nesnelerin birbirleri ile etkileşimi sonucu oluşan sesin insan eli değmesi sonucu çok daha çekici ve anlamlı gelmiştir. Bu her alanda olduğu gibi insanoğlunun üretimlerinde veya buluşlarında veya taklit etme yeteğeni doğayı simüle etmesi gerçeğinin bir sonucudur. Başlangıçta ses, canlıların, etkileşen cisimlerin ürettikleri bir tepki olarak kabul edilmiş olsada daha sonraki zamanlarda bu kabule sesin çok büyük bir kaynak olduğu eklenmiştir. Bu kaynak yaklaşımı insanları sesleri kaydetmeye ve saklamaya yöneltmiştir. Bunun için kullanılan ilk teknikler plaklar ve kasetler olsada bilgisayar teknolojisinin insan hayatında büyük bir yer kaplamaya başlaması ile popüler arşivleme ortamı olarak bilgisayarlar seçilmiştir.

Normal işitme duyu sistemine sahip bir insan için muhteşem ses tanıma sistemi ile donatılmış diyebiliriz. Bu hernekadar ilk bakışta bir şey ifade etmesede, örnek olarak bir insanın bir sesi; tipine, kaynağına, duygusal açıdan özelliklerine, gücüne, diğer seslere benzerliğine vb özelliklerine göre saniyeler içinde sınıflandırması gösterilebilir. Bu sistem o kadar gelişmiştir ki insanın bu işlemleri yapmak için herhangi bir hazırlık yapmasına veya kendini ayarlamasına gerek yoktur. Her şey otomatik olarak olmakta ve insan beyni yine otomatik olarak bu etkiye bir tepki üretmektedir. Fakat bilgisayarlar için aynı yaklaşımı yapmak mümkün değildir. İşitsel verilerin bilgisayar sisteminden saklanma şekilleri ve özellikleri nedeni ile bir bilgisayarın bir işitsel veriyi insanoğlu gibi sınıflandırması mümkün değildir. Evet bilgisayarlar dosya saklamak ve bu dosyalar üzerinde basit aramalar yapmak için çok uygundur fakat bir işitsel veriyi sorgulamak için uygun değildir. Buna çözüm insanoğlunun ses işleme becerisi ile bilgisayarların dosya saklama özelliğinin birleştirilmesi olacaktır.

Peki bu nasıl yapılabilir? Bunun yapılabilmesi için işitsel verilere içeriksel tabanlı erişim metotlarının uygulanması gerekir. İşitsel verilere içerik tabanlı erişimin amacı işitsel verilerden anlamlı verilerin elde edilmesidir. İşitsel verilerin özelliklerinin tutulduğu ve mantıksal bir şekilde ilişkilendiriği bir veritabanı oluşturulmalıdır. Bu veritabanı oluşturulurken ayırt edici özellik olarak kullanılabilecek özellik topluluklarının seçilmesine dikkat edilmelidir. Bu özellikler işitsel verinin kategorileri (müzik, konuşma, ses, vb) veya basit matematiksel işlemler sonucu hesaplanabilecek özellikler olabilir.

Bu projenin amacı; bir işitsel verinin örnek olarak girilmesi sonucu en uygun benzer özelliklere sahip işitsel verinin döndürülmesidir. Bu, girilen işitsel veriden özelliklerin çıkarılması ve çıkarılan özelliklerin veritabanında bulunan veriler ile karşılaştırılması sonucu sağlanacaktır. Proje en uygun sonuçları sağlamak için işitsel veri üzerinden özellik çıkarmaya ve bu özellikleri veritabanında bulunanlar ile ilişkilendirmeye yoğunlaşmıştır. Proje, proje için tanımlanmış özelliklere göre işlenmiş bir veritabanına ihtiyaç duyar.

Örnek Görseller

comments powered by Disqus
Hugo ile oluşturuldu.
Stack teması Jimmy tarafından tasarlandı