Meta, ChatGPT ve Dall-E’nin metin ve görüntü üretimi için yaptıklarını sözlü kelimeler için yapacak sese çevirme modeli Voicebox’ı tanıttı.
Esasen, tıpkı GPT veya Dall-E gibi bir metinden çıktı üretme aracı, sadece yazı veya güzel resimler oluşturmak yerine, ses klipleri çıkarıyor. Meta, sistemi “ses bağlamı ve metin verildiğinde konuşmayı doldurmak için eğitilmiş otoregresif olmayan bir akış eşleştirme modeli” olarak tanımlıyor. Sistem 50.000 saatten fazla filtrelenmemiş ses üzerinde eğitilmiş. Özellikle; İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce yazılmış bir grup kamuya açık sesli kitaptan kaydedilmiş konuşma ve transkriptleri kullanıldı.
Araştırmacılara göre bu çeşitli veri seti, sistemin her iki tarafın konuştuğu dillerden bağımsız olarak daha fazla konuşma üretmesini sağlıyor. Sonuçlar Voicebox tarafından üretilen konuşma tanıma modellerinin neredeyse gerçek konuşma üzerinde eğitilen modeller kadar iyi performans gösterdiğini ortaya koyuyor.
Yapay zekaya ilk öğretilen şey, konuşma segmentlerini çevresindeki segmentlere ve transkripte dayanarak tahmin etmesi. Meta araştırmacıları, “Bağlamdan konuşmayı doldurmayı öğrenen model, daha sonra bunu, tüm girdiyi yeniden oluşturmak zorunda kalmadan bir ses kaydının ortasında bölümler oluşturmak da dahil olmak üzere konuşma oluşturma görevleri boyunca uygulayabilir” dedi.