Any2Caption: Interpretation beliebiger Bedingungen zu Beschriftungen für kontrollierbare Videogenerierung
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Autoren: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Zusammenfassung
Um den Engpass bei der präzisen Interpretation von Benutzerabsichten in der aktuellen Videogenerierungs-Community zu beheben, präsentieren wir Any2Caption, ein neuartiges Framework für kontrollierbare Videogenerierung unter beliebigen Bedingungen. Der Kernansatz besteht darin, verschiedene Schritte der Bedingungsinterpretation vom Schritt der Videosynthese zu entkoppeln. Durch die Nutzung moderner multimodaler großer Sprachmodelle (MLLMs) interpretiert Any2Caption diverse Eingaben – Text, Bilder, Videos und spezialisierte Hinweise wie Regionen, Bewegungen und Kameraposen – in dichte, strukturierte Beschreibungen, die den zugrunde liegenden Videogeneratoren eine bessere Anleitung bieten. Wir stellen auch Any2CapIns vor, einen umfangreichen Datensatz mit 337.000 Instanzen und 407.000 Bedingungen für die Feinabstimmung von Anweisungen zur Beschreibung unter beliebigen Bedingungen. Umfassende Evaluierungen zeigen signifikante Verbesserungen unseres Systems in Bezug auf Kontrollierbarkeit und Videoqualität in verschiedenen Aspekten bestehender Videogenerierungsmodelle. Projektseite: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary