ThinkSound: Kettenfolge-Denken in multimodalen großen Sprachmodellen für Audioerzeugung und -bearbeitung
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
June 26, 2025
Autoren: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI
Zusammenfassung
Während die end-to-end Video-zu-Audio-Generierung erhebliche Fortschritte gemacht hat, bleibt die Erzeugung von hochwertigem Audio, das die Nuancen visueller Inhalte authentisch einfängt, eine Herausforderung. Ähnlich wie bei Fachleuten in der Kreativbranche erfordert eine solche Generierung ein ausgeklügeltes Verständnis von Aspekten wie visueller Dynamik, akustischen Umgebungen und zeitlichen Zusammenhängen. Wir präsentieren ThinkSound, ein neuartiges Framework, das Chain-of-Thought (CoT)-Reasoning nutzt, um eine schrittweise, interaktive Audioerzeugung und -bearbeitung für Videos zu ermöglichen. Unser Ansatz zerlegt den Prozess in drei komplementäre Phasen: grundlegende Foley-Generierung, die semantisch kohärente Klanglandschaften erzeugt, interaktive objektzentrierte Verfeinerung durch präzise Benutzerinteraktionen und zielgerichtete Bearbeitung, die durch natürliche Sprachbefehle gesteuert wird. In jeder Phase generiert ein multimodales großes Sprachmodell kontextbezogenes CoT-Reasoning, das ein einheitliches Audio-Grundmodell anleitet. Darüber hinaus führen wir AudioCoT ein, einen umfassenden Datensatz mit strukturierten Reasoning-Annotationen, der Verbindungen zwischen visuellen Inhalten, textuellen Beschreibungen und Klangsynthese herstellt. Experimente zeigen, dass ThinkSound sowohl in Bezug auf Audio-Metriken als auch auf CoT-Metriken Spitzenleistungen in der Video-zu-Audio-Generierung erzielt und im out-of-distribution Movie Gen Audio Benchmark hervorragend abschneidet. Die Demoseite ist unter https://ThinkSound-Project.github.io verfügbar.
English
While end-to-end video-to-audio generation has greatly improved, producing
high-fidelity audio that authentically captures the nuances of visual content
remains challenging. Like professionals in the creative industries, such
generation requires sophisticated reasoning about items such as visual
dynamics, acoustic environments, and temporal relationships. We present
ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning
to enable stepwise, interactive audio generation and editing for videos. Our
approach decomposes the process into three complementary stages: foundational
foley generation that creates semantically coherent soundscapes, interactive
object-centric refinement through precise user interactions, and targeted
editing guided by natural language instructions. At each stage, a multimodal
large language model generates contextually aligned CoT reasoning that guides a
unified audio foundation model. Furthermore, we introduce AudioCoT, a
comprehensive dataset with structured reasoning annotations that establishes
connections between visual content, textual descriptions, and sound synthesis.
Experiments demonstrate that ThinkSound achieves state-of-the-art performance
in video-to-audio generation across both audio metrics and CoT metrics and
excels in out-of-distribution Movie Gen Audio benchmark. The demo page is
available at https://ThinkSound-Project.github.io.