ThinkSound: Цепочка рассуждений в мультимодальных больших языковых моделях для генерации и редактирования аудио
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
June 26, 2025
Авторы: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI
Аннотация
Хотя сквозная генерация аудио по видео значительно улучшилась, создание высококачественного звука, который достоверно передает нюансы визуального контента, остается сложной задачей. Как и профессионалам в творческих индустриях, такой генерации требуется сложное рассуждение о таких аспектах, как визуальная динамика, акустическая среда и временные взаимосвязи. Мы представляем ThinkSound, инновационный фреймворк, который использует рассуждения по цепочке мыслей (Chain-of-Thought, CoT) для пошаговой интерактивной генерации и редактирования аудио для видео. Наш подход разбивает процесс на три взаимодополняющих этапа: базовая генерация фоновых звуков, создающая семантически согласованные звуковые ландшафты, интерактивное уточнение с фокусом на объектах через точные взаимодействия с пользователем и целевое редактирование, управляемое инструкциями на естественном языке. На каждом этапе мультимодальная большая языковая модель генерирует контекстуально согласованные рассуждения CoT, которые направляют унифицированную модель аудио. Кроме того, мы представляем AudioCoT, всеобъемлющий набор данных с структурированными аннотациями рассуждений, устанавливающими связи между визуальным контентом, текстовыми описаниями и синтезом звука. Эксперименты показывают, что ThinkSound достигает передовых результатов в генерации аудио по видео как по аудиометрическим, так и по CoT-метрикам и превосходит в тестах на распределении вне выборки Movie Gen Audio. Демонстрационная страница доступна по адресу https://ThinkSound-Project.github.io.
English
While end-to-end video-to-audio generation has greatly improved, producing
high-fidelity audio that authentically captures the nuances of visual content
remains challenging. Like professionals in the creative industries, such
generation requires sophisticated reasoning about items such as visual
dynamics, acoustic environments, and temporal relationships. We present
ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning
to enable stepwise, interactive audio generation and editing for videos. Our
approach decomposes the process into three complementary stages: foundational
foley generation that creates semantically coherent soundscapes, interactive
object-centric refinement through precise user interactions, and targeted
editing guided by natural language instructions. At each stage, a multimodal
large language model generates contextually aligned CoT reasoning that guides a
unified audio foundation model. Furthermore, we introduce AudioCoT, a
comprehensive dataset with structured reasoning annotations that establishes
connections between visual content, textual descriptions, and sound synthesis.
Experiments demonstrate that ThinkSound achieves state-of-the-art performance
in video-to-audio generation across both audio metrics and CoT metrics and
excels in out-of-distribution Movie Gen Audio benchmark. The demo page is
available at https://ThinkSound-Project.github.io.