ThinkSound: 오디오 생성 및 편집을 위한 다중 모달 대형 언어 모델의 사고 사슬 추론
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
June 26, 2025
저자: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
cs.AI
초록
엔드투엔드 비디오-투-오디오 생성 기술이 크게 개선되었음에도 불구하고, 시각적 콘텐츠의 미묘한 뉘앙스를 진정성 있게 담아내는 고품질 오디오를 생성하는 것은 여전히 어려운 과제로 남아 있다. 창작 산업의 전문가들과 마찬가지로, 이러한 생성 과정은 시각적 역학, 음향 환경, 시간적 관계와 같은 요소에 대한 정교한 추론을 요구한다. 본 연구에서는 체인-오브-생각(Chain-of-Thought, CoT) 추론을 활용하여 단계적이고 상호작용적인 비디오 오디오 생성 및 편집을 가능하게 하는 새로운 프레임워크인 ThinkSound를 제안한다. 우리의 접근 방식은 이 과정을 세 가지 상호 보완적인 단계로 분해한다: 의미론적으로 일관된 사운드스케이프를 생성하는 기초 폴리(foley) 생성, 정밀한 사용자 상호작용을 통한 객체 중심의 상호작용적 정제, 그리고 자연어 지시에 따라 이루어지는 타겟팅 편집. 각 단계에서 멀티모달 대형 언어 모델은 통합 오디오 기반 모델을 안내하는 맥락에 맞는 CoT 추론을 생성한다. 또한, 우리는 시각적 콘텐츠, 텍스트 설명, 사운드 합성 간의 연결을 설정하는 구조화된 추론 주석을 포함한 포괄적인 데이터셋인 AudioCoT를 소개한다. 실험 결과, ThinkSound는 오디오 메트릭과 CoT 메트릭 모두에서 비디오-투-오디오 생성 분야에서 최첨단 성능을 달성하며, 분포 외(out-of-distribution) Movie Gen Audio 벤치마크에서도 우수한 성과를 보인다. 데모 페이지는 https://ThinkSound-Project.github.io에서 확인할 수 있다.
English
While end-to-end video-to-audio generation has greatly improved, producing
high-fidelity audio that authentically captures the nuances of visual content
remains challenging. Like professionals in the creative industries, such
generation requires sophisticated reasoning about items such as visual
dynamics, acoustic environments, and temporal relationships. We present
ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning
to enable stepwise, interactive audio generation and editing for videos. Our
approach decomposes the process into three complementary stages: foundational
foley generation that creates semantically coherent soundscapes, interactive
object-centric refinement through precise user interactions, and targeted
editing guided by natural language instructions. At each stage, a multimodal
large language model generates contextually aligned CoT reasoning that guides a
unified audio foundation model. Furthermore, we introduce AudioCoT, a
comprehensive dataset with structured reasoning annotations that establishes
connections between visual content, textual descriptions, and sound synthesis.
Experiments demonstrate that ThinkSound achieves state-of-the-art performance
in video-to-audio generation across both audio metrics and CoT metrics and
excels in out-of-distribution Movie Gen Audio benchmark. The demo page is
available at https://ThinkSound-Project.github.io.