VChain: Cadena de Pensamiento Visual para el Razonamiento en la Generación de Videos
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
Autores: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
Resumen
Los modelos recientes de generación de video pueden producir clips fluidos y visualmente atractivos, pero a menudo tienen dificultades para sintetizar dinámicas complejas con una cadena coherente de consecuencias. Modelar con precisión los resultados visuales y las transiciones de estado a lo largo del tiempo sigue siendo un desafío fundamental. En contraste, los modelos de lenguaje y multimodales de gran escala (por ejemplo, GPT-4o) exhiben capacidades sólidas de razonamiento sobre estados visuales y predicción futura. Para aprovechar estas fortalezas, presentamos VChain, un novedoso marco de cadena de pensamiento visual en tiempo de inferencia que inyecta señales de razonamiento visual de modelos multimodales en la generación de video. Específicamente, VChain contiene una canalización dedicada que aprovecha los modelos multimodales de gran escala para generar un conjunto disperso de fotogramas clave críticos como instantáneas, que luego se utilizan para guiar el ajuste disperso en tiempo de inferencia de un generador de video preentrenado solo en estos momentos clave. Nuestro enfoque es eficiente en ajustes, introduce una sobrecarga mínima y evita la supervisión densa. Experimentos extensos en escenarios complejos y de múltiples pasos muestran que VChain mejora significativamente la calidad de los videos generados.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.