ChatPaper.aiChatPaper

ThinkSound: Razonamiento en Cadena de Pensamiento en Modelos de Lenguaje Multimodales de Gran Escala para la Generación y Edición de Audio

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

June 26, 2025
Autores: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI

Resumen

Aunque la generación de audio a partir de video de extremo a extremo ha mejorado significativamente, producir audio de alta fidelidad que capture auténticamente los matices del contenido visual sigue siendo un desafío. Al igual que los profesionales de las industrias creativas, esta generación requiere un razonamiento sofisticado sobre aspectos como la dinámica visual, los entornos acústicos y las relaciones temporales. Presentamos ThinkSound, un marco novedoso que aprovecha el razonamiento en cadena de pensamiento (Chain-of-Thought, CoT) para permitir la generación y edición de audio interactiva y paso a paso para videos. Nuestro enfoque descompone el proceso en tres etapas complementarias: generación de foley básico que crea paisajes sonoros semánticamente coherentes, refinamiento interactivo centrado en objetos mediante interacciones precisas del usuario, y edición dirigida guiada por instrucciones en lenguaje natural. En cada etapa, un modelo de lenguaje multimodal genera un razonamiento CoT contextualmente alineado que guía a un modelo unificado de base de audio. Además, presentamos AudioCoT, un conjunto de datos integral con anotaciones estructuradas de razonamiento que establece conexiones entre el contenido visual, las descripciones textuales y la síntesis de sonido. Los experimentos demuestran que ThinkSound logra un rendimiento de vanguardia en la generación de audio a partir de video, tanto en métricas de audio como en métricas de CoT, y destaca en el benchmark de Movie Gen Audio fuera de distribución. La página de demostración está disponible en https://ThinkSound-Project.github.io.
English
While end-to-end video-to-audio generation has greatly improved, producing high-fidelity audio that authentically captures the nuances of visual content remains challenging. Like professionals in the creative industries, such generation requires sophisticated reasoning about items such as visual dynamics, acoustic environments, and temporal relationships. We present ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning to enable stepwise, interactive audio generation and editing for videos. Our approach decomposes the process into three complementary stages: foundational foley generation that creates semantically coherent soundscapes, interactive object-centric refinement through precise user interactions, and targeted editing guided by natural language instructions. At each stage, a multimodal large language model generates contextually aligned CoT reasoning that guides a unified audio foundation model. Furthermore, we introduce AudioCoT, a comprehensive dataset with structured reasoning annotations that establishes connections between visual content, textual descriptions, and sound synthesis. Experiments demonstrate that ThinkSound achieves state-of-the-art performance in video-to-audio generation across both audio metrics and CoT metrics and excels in out-of-distribution Movie Gen Audio benchmark. The demo page is available at https://ThinkSound-Project.github.io.
PDF41July 1, 2025