VChain: Ketting-van-Visueel-Denken voor Redeneren in Videogeneratie

Samenvatting

Recente videogeneratiemodellen kunnen vloeiende en visueel aantrekkelijke clips produceren, maar hebben vaak moeite met het synthetiseren van complexe dynamiek met een samenhangende keten van gevolgen. Het nauwkeurig modelleren van visuele uitkomsten en staatsovergangen in de tijd blijft een kernuitdaging. Daarentegen vertonen grote taal- en multimodale modellen (bijv. GPT-4o) sterke visuele staatredenering en toekomstvoorspellingscapaciteiten. Om deze sterke punten te combineren, introduceren we VChain, een nieuw inferentietijd keten-van-visuele-gedachten raamwerk dat visuele redeneersignalen van multimodale modellen injecteert in videogeneratie. Specifiek bevat VChain een toegewijd pipeline dat grote multimodale modellen benut om een beperkte set kritieke keyframes als momentopnamen te genereren, die vervolgens worden gebruikt om de spaarzame inferentietijd afstemming van een vooraf getrainde videogenerator alleen op deze sleutelmomenten te begeleiden. Onze aanpak is afstemmingsefficiënt, introduceert minimale overhead en vermijdt dichte supervisie. Uitgebreide experimenten op complexe, meerstaps scenario's tonen aan dat VChain de kwaliteit van gegenereerde video's aanzienlijk verbetert.

English

Recent video generation models can produce smooth and visually appealing clips, but they often struggle to synthesize complex dynamics with a coherent chain of consequences. Accurately modeling visual outcomes and state transitions over time remains a core challenge. In contrast, large language and multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and future prediction capabilities. To bridge these strengths, we introduce VChain, a novel inference-time chain-of-visual-thought framework that injects visual reasoning signals from multimodal models into video generation. Specifically, VChain contains a dedicated pipeline that leverages large multimodal models to generate a sparse set of critical keyframes as snapshots, which are then used to guide the sparse inference-time tuning of a pre-trained video generator only at these key moments. Our approach is tuning-efficient, introduces minimal overhead and avoids dense supervision. Extensive experiments on complex, multi-step scenarios show that VChain significantly enhances the quality of generated videos.

VChain: Ketting-van-Visueel-Denken voor Redeneren in Videogeneratie

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Samenvatting

Support