ChatPaper.aiChatPaper

Woosh: Un modelo fundacional para efectos de sonido

Woosh: A Sound Effects Foundation Model

April 2, 2026
Autores: Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji
cs.AI

Resumen

La comunidad de investigación en audio depende de modelos generativos abiertos como herramientas fundamentales para desarrollar enfoques novedosos y establecer puntos de referencia. En este informe, presentamos Woosh, el modelo de base para efectos de sonido de Sony AI de acceso público, detallando su arquitectura, proceso de entrenamiento y una evaluación comparativa con otros modelos abiertos populares. Optimizado para efectos de sonido, proporcionamos (1) un modelo codificador/decodificador de audio de alta calidad y (2) un modelo de alineación texto-audio para el condicionamiento, junto con (3) modelos generativos de texto-audio y (4) video-audio. El lanzamiento también incluye modelos destilados de texto-audio y video-audio, que permiten un funcionamiento con recursos limitados y una inferencia rápida. Nuestra evaluación, realizada tanto con datos públicos como privados, muestra un rendimiento competitivo o superior para cada módulo en comparación con alternativas abiertas existentes como StableAudio-Open y TangoFlux. El código de inferencia y los pesos del modelo están disponibles en https://github.com/SonyResearch/Woosh. Las muestras de demostración se pueden encontrar en https://sonyresearch.github.io/Woosh/.
English
The audio research community depends on open generative models as foundational tools for building novel approaches and establishing baselines. In this report, we present Woosh, Sony AI's publicly released sound effect foundation model, detailing its architecture, training process, and an evaluation against other popular open models. Being optimized for sound effects, we provide (1) a high-quality audio encoder/decoder model and (2) a text-audio alignment model for conditioning, together with (3) text-to-audio and (4) video-to-audio generative models. Distilled text-to-audio and video-to-audio models are also included in the release, allowing for low-resource operation and fast inference. Our evaluation on both public and private data shows competitive or better performance for each module when compared to existing open alternatives like StableAudio-Open and TangoFlux. Inference code and model weights are available at https://github.com/SonyResearch/Woosh. Demo samples can be found at https://sonyresearch.github.io/Woosh/.
PDF21April 4, 2026