VChain: Catena di Pensiero Visivo per il Ragionamento nella Generazione di Video
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
Autori: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
Abstract
I recenti modelli di generazione video sono in grado di produrre clip fluide e visivamente accattivanti, ma spesso incontrano difficoltà nel sintetizzare dinamiche complesse con una catena coerente di conseguenze. Modellare accuratamente gli esiti visivi e le transizioni di stato nel tempo rimane una sfida fondamentale. Al contrario, i grandi modelli linguistici e multimodali (ad esempio, GPT-4o) dimostrano forti capacità di ragionamento sullo stato visivo e di previsione futura. Per unire questi punti di forza, introduciamo VChain, un innovativo framework di catena del pensiero visivo (chain-of-visual-thought) al momento dell'inferenza, che inietta segnali di ragionamento visivo da modelli multimodali nella generazione video. Nello specifico, VChain include una pipeline dedicata che sfrutta grandi modelli multimodali per generare un insieme sparso di fotogrammi chiave critici come istantanee, che vengono poi utilizzati per guidare la regolazione sparsa al momento dell'inferenza di un generatore video pre-addestrato solo in questi momenti chiave. Il nostro approccio è efficiente in termini di regolazione, introduce un sovraccarico minimo ed evita una supervisione densa. Esperimenti estesi su scenari complessi e multi-step dimostrano che VChain migliora significativamente la qualità dei video generati.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.