VChain: Ketting-van-Visueel-Denken voor Redeneren in Videogeneratie
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
Auteurs: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
Samenvatting
Recente videogeneratiemodellen kunnen vloeiende en visueel aantrekkelijke clips produceren, maar hebben vaak moeite met het synthetiseren van complexe dynamiek met een samenhangende keten van gevolgen. Het nauwkeurig modelleren van visuele uitkomsten en staatsovergangen in de tijd blijft een kernuitdaging. Daarentegen vertonen grote taal- en multimodale modellen (bijv. GPT-4o) sterke visuele staatredenering en toekomstvoorspellingscapaciteiten. Om deze sterke punten te combineren, introduceren we VChain, een nieuw inferentietijd keten-van-visuele-gedachten raamwerk dat visuele redeneersignalen van multimodale modellen injecteert in videogeneratie. Specifiek bevat VChain een toegewijd pipeline dat grote multimodale modellen benut om een beperkte set kritieke keyframes als momentopnamen te genereren, die vervolgens worden gebruikt om de spaarzame inferentietijd afstemming van een vooraf getrainde videogenerator alleen op deze sleutelmomenten te begeleiden. Onze aanpak is afstemmingsefficiënt, introduceert minimale overhead en vermijdt dichte supervisie. Uitgebreide experimenten op complexe, meerstaps scenario's tonen aan dat VChain de kwaliteit van gegenereerde video's aanzienlijk verbetert.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.