PicoAudio: Обеспечение точного управления временем и частотой аудио-событий в генерации речи из текста
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Авторы: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Аннотация
В последнее время задачи генерации звука привлекли значительный интерес исследователей. Точное управление временем является важным аспектом интеграции генерации звука с реальными приложениями. В данной работе мы предлагаем фреймворк генерации звука с контролем времени, PicoAudio. PicoAudio интегрирует временную информацию для направления генерации звука через специально разработанные модели. Он использует сбор данных, их сегментацию, фильтрацию и моделирование детализированных временно-выровненных аудио-текстовых данных. Как субъективные, так и объективные оценки показывают, что PicoAudio значительно превосходит текущие передовые модели генерации по контролю временных меток и частоте появления. Сгенерированные образцы доступны на демонстрационном веб-сайте https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.Summary
AI-Generated Summary