İçerik: NVIDIA, Sesleri Daha Anlamlı Ve Gerçekçi Hale Getiriyor
NVIDIA, Sesleri Daha Anlamlı Ve Gerçekçi Hale Getiriyor:
Amazon’un Alexa, Google Asistan ve diğer AI asistanlarındaki sesler, eski tarz GPS cihazlarının çok ilerisindedir, ancak yine de, konuşmayı insani yapan ritimler, tonlamalar ve diğer niteliklerden yoksundurlar. NVIDIA, Interspeech 2021 konferansında AI sistemini kendi sesinizle eğitmenize izin vererek bu doğal konuşma niteliklerini yakalayabilen yeni araştırma ve araçları duyurdu.
AI ses sentezini geliştirmek için NVIDIA’nın metinden konuşmaya araştırma ekibi, en gerçekçi avatarı geliştirmek için bir NAB yayın kongresi yarışmasında kazanan bir giriş olan RAD-TTS adlı bir model geliştirdi. Sistem, bireyin ilerleme hızı, tonalite, tını ve daha fazlası dahil olmak üzere kendi sesiyle bir metin-konuşma modelini eğitmesine olanak tanır.
Başka bir RAD-TTS özelliği, kullanıcının bir konuşmacının sözlerini başka bir kişinin sesini kullanarak iletmesine olanak tanıyan ses dönüştürme özelliğidir. Bu arayüz, sentezlenmiş bir sesin perdesi, süresi ve enerjisi üzerinde ince, çerçeve düzeyinde kontrol sağlar.
NVIDIA’nın araştırmacıları, bu teknolojiyi kullanarak, kendi I Am AI video serisi için insan seslerinden ziyade sentezlenmiş sesler kullanarak daha çok konuşma sesine sahip sesli anlatım oluşturdu. Amaç, anlatımın videoların tonuna ve tarzına uymasını sağlamaktı; bu, bugüne kadar birçok AI anlatımlı videoda iyi yapılmamış bir şey. Sonuçlar hala biraz robotik ama şimdiye kadar duyduğum tüm yapay zeka anlatımlarından daha iyi.
“Bu arayüzle, video yapımcımız video senaryosunu okurken kendini kaydedebilir ve ardından konuşmasını kadın anlatıcının sesine dönüştürmek için AI modelini kullanabilir. Bu temel anlatımı kullanarak, yapımcı daha sonra AI’yı bir seslendirme sanatçısı gibi yönlendirebilir – ince ayar yapabilir NVIDIA, belirli kelimeleri vurgulamak için sentezlenmiş konuşma ve videonun tonunu daha iyi ifade etmek için anlatımın ilerleme hızını değiştirme.
NVIDIA, elbette NVIDIA GPU’larında verimli bir şekilde çalışacak şekilde optimize edilmiş bu araştırmanın bir kısmını, şirketin NGC kapsayıcı merkezinde bulunan GPU hızlandırmalı konuşma yapay zekası için NVIDIA NeMo Python araç seti aracılığıyla açık kaynak yoluyla denemek isteyen herkese dağıtıyor. ve diğer yazılımlar.
Şirket, “Modellerin birçoğu, NVIDIA DGX sistemlerinde on binlerce saatlik ses verileriyle eğitildi. Geliştiriciler, kullanım durumları için herhangi bir modelde ince ayar yapabilir ve NVIDIA Tensor Core GPU’larda karma hassas bilgi işlem kullanarak eğitimi hızlandırabilir” dedi. .