Seed-TTS: Семейство высококачественных универсальных моделей генерации речиSeed-TTS: A Family of High-Quality Versatile Speech Generation Models
Мы представляем Seed-TTS, семейство масштабных авторегрессивных моделей текст в речь (TTS), способных генерировать речь, практически неотличимую от человеческой речи. Seed-TTS служит в качестве базовой модели для генерации речи и выделяется в обучении речи в контексте, достигая производительности в сходстве диктора и естественности, соответствующей действительной человеческой речи как в объективных, так и в субъективных оценках. Проводя тонкую настройку, мы достигаем еще более высоких субъективных оценок по этим метрикам. Seed-TTS обладает превосходным контролем над различными атрибутами речи, такими как эмоция, и способен генерировать выразительную и разнообразную речь для дикторов в естественной среде. Более того, мы предлагаем метод самодистилляции для факторизации речи, а также подход на основе обучения с подкреплением для улучшения устойчивости модели, сходства диктора и контролируемости. Мы также представляем неавторегрессивный (NAR) вариант модели Seed-TTS, названный Seed-TTS_DiT, который использует полностью диффузионную архитектуру. В отличие от предыдущих систем TTS на основе NAR, Seed-TTS_DiT не зависит от предварительно оцененных длительностей фонем и выполняет генерацию речи через обработку от начала до конца. Мы демонстрируем, что этот вариант достигает сопоставимой производительности с вариантом на основе языковой модели и демонстрируем его эффективность в редактировании речи. Мы призываем читателей прослушать демонстрации по ссылке https://bytedancespeech.github.io/seedtts_tech_report.