VChain : Chaîne de Pensée Visuelle pour le Raisonnement dans la Génération de Vidéos
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
papers.authors: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
papers.abstract
Les modèles récents de génération vidéo peuvent produire des clips fluides et visuellement attrayants, mais ils ont souvent du mal à synthétiser des dynamiques complexes avec une chaîne cohérente de conséquences. La modélisation précise des résultats visuels et des transitions d'état au fil du temps reste un défi central. En revanche, les grands modèles de langage et multimodaux (par exemple, GPT-4o) montrent de solides capacités de raisonnement sur les états visuels et de prédiction future. Pour combler ces forces, nous introduisons VChain, un nouveau cadre de chaîne de pensée visuelle au moment de l'inférence qui injecte des signaux de raisonnement visuel issus de modèles multimodaux dans la génération vidéo. Plus précisément, VChain contient un pipeline dédié qui exploite les grands modèles multimodaux pour générer un ensemble clairsemé de keyframes critiques sous forme d'instantanés, qui sont ensuite utilisés pour guider le réglage clairsemé au moment de l'inférence d'un générateur vidéo pré-entraîné uniquement à ces moments clés. Notre approche est efficace en termes de réglage, introduit une surcharge minimale et évite une supervision dense. Des expériences approfondies sur des scénarios complexes à plusieurs étapes montrent que VChain améliore significativement la qualité des vidéos générées.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.