Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini simüle edebilen VALL-E adlı yeni bir yapay zeka modeli geliştirdi. Geliştirilen yapay zeka yalnızca üç saniyelik bir ses alıntısı ile harikalar yaratabiliyor, uzun soluklu metinler aynı kişiye aitmiş gibi seslendirilebiliyor.
VALL-E, kişiden alınan sesi sentezleyebiliyor ve bunu duygusal tonu koruyacak şekilde yapabiliyor. Yazılım şirketi VALL-E’yi bir “nöral kodek dil modeli” olarak adlandırmış. Bu zamana kadar geliştirilen metinden-konuşmaya yapay zeka çözümleri, dalga biçimlerini işleyerek konuşmayı standart bir şekilde sentezliyordu. VALL-E ise metin ve akustik ile ayrı ses kodek kodları üretebiliyor. Temel olarak bir kişinin nasıl ses çıkardığını analiz ediyor, EnCodec sayesinde tüm verileri ayrıştırıyor ve yapay zeka eğitim modeli sayesinde verilen örnek dışındaki söylem şeklini tahmin edebiliyor. Microsoft’un tanımlaması ise şu şekilde:
“VALL-E, kişiselleştirilmiş konuşma sentezleme için konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtla bile akustik verileri ve ses bilgilerine bağlık olarak akustik örnekler üretir. Son olarak, üretilen akustik örnekler ilgili nöral kod çözücü ile nihai dalga biçimini sentezlemek için kullanılır.”
Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir araya getirilen LibriLight adlı bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu halka açık LibriVox sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin iyi bir sonuç üretebilmesi için üç saniyelik örnekteki sesin eğitim verilerindeki bir sesle yakından eşleşmesi gerekiyor.
Bir konuşmacının vokal tınısını ve duygusal tonunu korumanın yanı sıra, Microsoft’un çözümü örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin mevcut ses bir telefon görüşmesinden alındı diyelim. Ses çıkışı, bir telefon görüşmesinin akustik ve frekans özellikleri sentezlenmiş çıktısında simüle ediliyor.