ChatPaper.aiChatPaper

ThinkSound: Ragionamento a Catena di Pensiero nei Modelli Linguistici Multimodali di Grande Scala per la Generazione e Modifica Audio

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

June 26, 2025
Autori: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI

Abstract

Sebbene la generazione end-to-end da video ad audio abbia fatto notevoli progressi, produrre audio ad alta fedeltà che catturi autenticamente le sfumature del contenuto visivo rimane una sfida. Come i professionisti del settore creativo, tale generazione richiede un ragionamento sofisticato su elementi come le dinamiche visive, gli ambienti acustici e le relazioni temporali. Presentiamo ThinkSound, un nuovo framework che sfrutta il ragionamento a catena del pensiero (Chain-of-Thought, CoT) per abilitare la generazione e la modifica interattiva e graduale dell'audio per i video. Il nostro approccio scompone il processo in tre fasi complementari: generazione di foley di base che crea paesaggi sonori semanticamente coerenti, raffinamento interattivo centrato sugli oggetti attraverso interazioni precise dell'utente, e modifica mirata guidata da istruzioni in linguaggio naturale. In ogni fase, un modello linguistico multimodale di grandi dimensioni genera un ragionamento CoT allineato contestualmente che guida un modello audio unificato di base. Inoltre, introduciamo AudioCoT, un dataset completo con annotazioni strutturate di ragionamento che stabilisce connessioni tra contenuto visivo, descrizioni testuali e sintesi del suono. Gli esperimenti dimostrano che ThinkSound raggiunge prestazioni all'avanguardia nella generazione da video ad audio sia nelle metriche audio che in quelle CoT e si distingue nel benchmark Movie Gen Audio fuori distribuzione. La pagina demo è disponibile all'indirizzo https://ThinkSound-Project.github.io.
English
While end-to-end video-to-audio generation has greatly improved, producing high-fidelity audio that authentically captures the nuances of visual content remains challenging. Like professionals in the creative industries, such generation requires sophisticated reasoning about items such as visual dynamics, acoustic environments, and temporal relationships. We present ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning to enable stepwise, interactive audio generation and editing for videos. Our approach decomposes the process into three complementary stages: foundational foley generation that creates semantically coherent soundscapes, interactive object-centric refinement through precise user interactions, and targeted editing guided by natural language instructions. At each stage, a multimodal large language model generates contextually aligned CoT reasoning that guides a unified audio foundation model. Furthermore, we introduce AudioCoT, a comprehensive dataset with structured reasoning annotations that establishes connections between visual content, textual descriptions, and sound synthesis. Experiments demonstrate that ThinkSound achieves state-of-the-art performance in video-to-audio generation across both audio metrics and CoT metrics and excels in out-of-distribution Movie Gen Audio benchmark. The demo page is available at https://ThinkSound-Project.github.io.
PDF61July 1, 2025