ChatPaper.aiChatPaper

ThinkSound: Raciocínio em Cadeia de Pensamentos em Modelos de Linguagem Multimodais de Grande Escala para Geração e Edição de Áudio

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

June 26, 2025
Autores: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI

Resumo

Embora a geração de áudio a partir de vídeo de ponta a ponta tenha avançado significativamente, produzir áudio de alta fidelidade que capture autenticamente as nuances do conteúdo visual continua sendo um desafio. Assim como profissionais da indústria criativa, essa geração requer raciocínio sofisticado sobre elementos como dinâmicas visuais, ambientes acústicos e relações temporais. Apresentamos o ThinkSound, uma nova estrutura que aproveita o raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) para permitir a geração e edição de áudio interativa e passo a passo para vídeos. Nossa abordagem decompõe o processo em três estágios complementares: geração de foley básica que cria paisagens sonoras semanticamente coerentes, refinamento interativo centrado em objetos por meio de interações precisas do usuário, e edição direcionada guiada por instruções em linguagem natural. Em cada estágio, um modelo de linguagem multimodal gera raciocínio CoT contextualmente alinhado que orienta um modelo unificado de base de áudio. Além disso, introduzimos o AudioCoT, um conjunto de dados abrangente com anotações estruturadas de raciocínio que estabelece conexões entre conteúdo visual, descrições textuais e síntese de som. Experimentos demonstram que o ThinkSound alcança desempenho de ponta na geração de áudio a partir de vídeo, tanto em métricas de áudio quanto em métricas de CoT, e se destaca no benchmark Movie Gen Audio fora da distribuição. A página de demonstração está disponível em https://ThinkSound-Project.github.io.
English
While end-to-end video-to-audio generation has greatly improved, producing high-fidelity audio that authentically captures the nuances of visual content remains challenging. Like professionals in the creative industries, such generation requires sophisticated reasoning about items such as visual dynamics, acoustic environments, and temporal relationships. We present ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning to enable stepwise, interactive audio generation and editing for videos. Our approach decomposes the process into three complementary stages: foundational foley generation that creates semantically coherent soundscapes, interactive object-centric refinement through precise user interactions, and targeted editing guided by natural language instructions. At each stage, a multimodal large language model generates contextually aligned CoT reasoning that guides a unified audio foundation model. Furthermore, we introduce AudioCoT, a comprehensive dataset with structured reasoning annotations that establishes connections between visual content, textual descriptions, and sound synthesis. Experiments demonstrate that ThinkSound achieves state-of-the-art performance in video-to-audio generation across both audio metrics and CoT metrics and excels in out-of-distribution Movie Gen Audio benchmark. The demo page is available at https://ThinkSound-Project.github.io.
PDF71July 1, 2025