ThinkSound : Raisonnement en chaîne de pensée dans les modèles de langage multimodaux de grande taille pour la génération et l'édition audio
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
June 26, 2025
Auteurs: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI
Résumé
Bien que la génération audio à partir de vidéo de bout en bout ait considérablement progressé, produire un audio haute fidélité qui capture authentiquement les nuances du contenu visuel reste un défi. À l'instar des professionnels des industries créatives, une telle génération nécessite un raisonnement sophistiqué sur des éléments tels que les dynamiques visuelles, les environnements acoustiques et les relations temporelles. Nous présentons ThinkSound, un cadre novateur qui exploite le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) pour permettre une génération et un édition audio interactifs et progressifs pour les vidéos. Notre approche décompose le processus en trois étapes complémentaires : la génération de bruitage de base qui crée des paysages sonores sémantiquement cohérents, le raffinement interactif centré sur les objets grâce à des interactions utilisateur précises, et l'édition ciblée guidée par des instructions en langage naturel. À chaque étape, un modèle de langage multimodal génère un raisonnement CoT aligné contextuellement qui guide un modèle audio unifié. De plus, nous introduisons AudioCoT, un ensemble de données complet avec des annotations de raisonnement structuré qui établit des liens entre le contenu visuel, les descriptions textuelles et la synthèse sonore. Les expériences démontrent que ThinkSound atteint des performances de pointe en génération audio à partir de vidéo, tant en termes de métriques audio que de métriques CoT, et excelle dans le benchmark Movie Gen Audio hors distribution. La page de démonstration est disponible à l'adresse https://ThinkSound-Project.github.io.
English
While end-to-end video-to-audio generation has greatly improved, producing
high-fidelity audio that authentically captures the nuances of visual content
remains challenging. Like professionals in the creative industries, such
generation requires sophisticated reasoning about items such as visual
dynamics, acoustic environments, and temporal relationships. We present
ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning
to enable stepwise, interactive audio generation and editing for videos. Our
approach decomposes the process into three complementary stages: foundational
foley generation that creates semantically coherent soundscapes, interactive
object-centric refinement through precise user interactions, and targeted
editing guided by natural language instructions. At each stage, a multimodal
large language model generates contextually aligned CoT reasoning that guides a
unified audio foundation model. Furthermore, we introduce AudioCoT, a
comprehensive dataset with structured reasoning annotations that establishes
connections between visual content, textual descriptions, and sound synthesis.
Experiments demonstrate that ThinkSound achieves state-of-the-art performance
in video-to-audio generation across both audio metrics and CoT metrics and
excels in out-of-distribution Movie Gen Audio benchmark. The demo page is
available at https://ThinkSound-Project.github.io.