ChatPaper.aiChatPaper

Woosh : un modèle de base pour les effets sonores

Woosh: A Sound Effects Foundation Model

April 2, 2026
Auteurs: Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji
cs.AI

Résumé

La communauté de recherche audio s'appuie sur des modèles génératifs ouverts comme outils fondamentaux pour développer de nouvelles approches et établir des références. Dans ce rapport, nous présentons Woosh, le modèle fondation pour effets sonores publié publiquement par Sony AI, en détaillant son architecture, son processus d'entraînement et une évaluation comparative avec d'autres modèles ouverts populaires. Optimisé pour les effets sonores, nous fournissons (1) un modèle encodeur/décodeur audio de haute qualité et (2) un modèle d'alignement texte-audio pour le conditionnement, ainsi que (3) des modèles génératifs texte-vers-audio et (4) vidéo-vers-audio. Des modèles distillés texte-vers-audio et vidéo-vers-audio sont également inclus dans la publication, permettant un fonctionnement avec peu de ressources et une inférence rapide. Notre évaluation sur des données publiques et privées montre des performances compétitives ou supérieures pour chaque module par rapport aux alternatives ouvertes existantes comme StableAudio-Open et TangoFlux. Le code d'inférence et les poids des modèles sont disponibles à l'adresse https://github.com/SonyResearch/Woosh. Des échantillons de démonstration peuvent être consultés sur https://sonyresearch.github.io/Woosh/.
English
The audio research community depends on open generative models as foundational tools for building novel approaches and establishing baselines. In this report, we present Woosh, Sony AI's publicly released sound effect foundation model, detailing its architecture, training process, and an evaluation against other popular open models. Being optimized for sound effects, we provide (1) a high-quality audio encoder/decoder model and (2) a text-audio alignment model for conditioning, together with (3) text-to-audio and (4) video-to-audio generative models. Distilled text-to-audio and video-to-audio models are also included in the release, allowing for low-resource operation and fast inference. Our evaluation on both public and private data shows competitive or better performance for each module when compared to existing open alternatives like StableAudio-Open and TangoFlux. Inference code and model weights are available at https://github.com/SonyResearch/Woosh. Demo samples can be found at https://sonyresearch.github.io/Woosh/.
PDF21April 4, 2026