ThinkSound: Цепочка рассуждений в мультимодальных больших языковых моделях для генерации и редактирования аудио

Аннотация

Хотя сквозная генерация аудио по видео значительно улучшилась, создание высококачественного звука, который достоверно передает нюансы визуального контента, остается сложной задачей. Как и профессионалам в творческих индустриях, такой генерации требуется сложное рассуждение о таких аспектах, как визуальная динамика, акустическая среда и временные взаимосвязи. Мы представляем ThinkSound, инновационный фреймворк, который использует рассуждения по цепочке мыслей (Chain-of-Thought, CoT) для пошаговой интерактивной генерации и редактирования аудио для видео. Наш подход разбивает процесс на три взаимодополняющих этапа: базовая генерация фоновых звуков, создающая семантически согласованные звуковые ландшафты, интерактивное уточнение с фокусом на объектах через точные взаимодействия с пользователем и целевое редактирование, управляемое инструкциями на естественном языке. На каждом этапе мультимодальная большая языковая модель генерирует контекстуально согласованные рассуждения CoT, которые направляют унифицированную модель аудио. Кроме того, мы представляем AudioCoT, всеобъемлющий набор данных с структурированными аннотациями рассуждений, устанавливающими связи между визуальным контентом, текстовыми описаниями и синтезом звука. Эксперименты показывают, что ThinkSound достигает передовых результатов в генерации аудио по видео как по аудиометрическим, так и по CoT-метрикам и превосходит в тестах на распределении вне выборки Movie Gen Audio. Демонстрационная страница доступна по адресу https://ThinkSound-Project.github.io.

English

While end-to-end video-to-audio generation has greatly improved, producing high-fidelity audio that authentically captures the nuances of visual content remains challenging. Like professionals in the creative industries, such generation requires sophisticated reasoning about items such as visual dynamics, acoustic environments, and temporal relationships. We present ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning to enable stepwise, interactive audio generation and editing for videos. Our approach decomposes the process into three complementary stages: foundational foley generation that creates semantically coherent soundscapes, interactive object-centric refinement through precise user interactions, and targeted editing guided by natural language instructions. At each stage, a multimodal large language model generates contextually aligned CoT reasoning that guides a unified audio foundation model. Furthermore, we introduce AudioCoT, a comprehensive dataset with structured reasoning annotations that establishes connections between visual content, textual descriptions, and sound synthesis. Experiments demonstrate that ThinkSound achieves state-of-the-art performance in video-to-audio generation across both audio metrics and CoT metrics and excels in out-of-distribution Movie Gen Audio benchmark. The demo page is available at https://ThinkSound-Project.github.io.

ThinkSound: Цепочка рассуждений в мультимодальных больших языковых моделях для генерации и редактирования аудио

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

Аннотация

Support