ChatPaper.aiChatPaper

Воош: Фундаментальная модель для создания звуковых эффектов

Woosh: A Sound Effects Foundation Model

April 2, 2026
Авторы: Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji
cs.AI

Аннотация

Сообщество исследований в области аудио зависит от открытых генеративных моделей как от базовых инструментов для создания новых подходов и установления ориентиров. В данном отчете мы представляем Woosh — публично выпущенную фоновую модель для создания звуковых эффектов от Sony AI, подробно описывая ее архитектуру, процесс обучения и сравнительную оценку с другими популярными открытыми моделями. Будучи оптимизированной для работы со звуковыми эффектами, мы предоставляем (1) высококачественную модель кодировщика/декодера аудио и (2) модель выравнивания текст-аудио для conditioning, а также (3) генеративные модели для преобразования текст-в-аудио и (4) видео-в-аудио. В выпуск также включены дистиллированные модели для текст-в-аудио и видео-в-аудио, что позволяет работать с ограниченными ресурсами и обеспечивает быстрое вывод. Наша оценка на общедоступных и частных данных показывает конкурентоспособную или лучшую производительность для каждого модуля по сравнению с существующими открытыми альтернативами, такими как StableAudio-Open и TangoFlux. Код для вывода и веса моделей доступны по адресу https://github.com/SonyResearch/Woosh. Демонстрационные примеры можно найти на https://sonyresearch.github.io/Woosh/.
English
The audio research community depends on open generative models as foundational tools for building novel approaches and establishing baselines. In this report, we present Woosh, Sony AI's publicly released sound effect foundation model, detailing its architecture, training process, and an evaluation against other popular open models. Being optimized for sound effects, we provide (1) a high-quality audio encoder/decoder model and (2) a text-audio alignment model for conditioning, together with (3) text-to-audio and (4) video-to-audio generative models. Distilled text-to-audio and video-to-audio models are also included in the release, allowing for low-resource operation and fast inference. Our evaluation on both public and private data shows competitive or better performance for each module when compared to existing open alternatives like StableAudio-Open and TangoFlux. Inference code and model weights are available at https://github.com/SonyResearch/Woosh. Demo samples can be found at https://sonyresearch.github.io/Woosh/.
PDF21April 4, 2026