Any2Caption: 어떤 조건이라도 캡션으로 해석하여 제어 가능한 비디오 생성
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
저자: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
초록
현재 비디오 생성 커뮤니티 내에서 정확한 사용자 의도 해석의 병목 현상을 해결하기 위해, 우리는 어떤 조건에서도 제어 가능한 비디오 생성을 위한 새로운 프레임워크인 Any2Caption을 제안합니다. 핵심 아이디어는 다양한 조건 해석 단계를 비디오 합성 단계에서 분리하는 것입니다. 최신 멀티모달 대형 언어 모델(MLLMs)을 활용하여, Any2Caption은 텍스트, 이미지, 비디오, 그리고 영역, 움직임, 카메라 포즈와 같은 특수한 신호를 포함한 다양한 입력을 밀도 높고 구조화된 캡션으로 해석합니다. 이는 백본 비디오 생성기에 더 나은 지침을 제공합니다. 또한, 우리는 337K 인스턴스와 407K 조건을 포함한 대규모 데이터셋인 Any2CapIns를 소개합니다. 이 데이터셋은 어떤 조건에서 캡션으로의 명령 튜닝을 위해 설계되었습니다. 포괄적인 평가를 통해, 우리 시스템이 기존 비디오 생성 모델의 다양한 측면에서 제어 가능성과 비디오 품질에서 상당한 개선을 보여줌을 입증합니다. 프로젝트 페이지: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary