VChain: Chain-of-Visual-Thought für das logische Denken in der Videogenerierung
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
papers.authors: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
papers.abstract
Aktuelle Modelle zur Videogenerierung können flüssige und visuell ansprechende Clips erzeugen, haben jedoch oft Schwierigkeiten, komplexe Dynamiken mit einer kohärenten Kette von Konsequenzen zu synthetisieren. Die präzise Modellierung visueller Ergebnisse und Zustandsübergänge über die Zeit bleibt eine zentrale Herausforderung. Im Gegensatz dazu zeigen große Sprach- und Multimodale Modelle (z. B. GPT-4o) starke Fähigkeiten in der visuellen Zustandslogik und Zukunftsprognose. Um diese Stärken zu vereinen, führen wir VChain ein, ein neuartiges Inferenzzeit-Framework der „Chain-of-Visual-Thought“, das visuelle Logiksignale aus multimodalen Modellen in die Videogenerierung einbringt. Konkret umfasst VChain eine spezialisierte Pipeline, die große multimodale Modelle nutzt, um eine spärliche Menge kritischer Keyframes als Momentaufnahmen zu generieren. Diese werden dann verwendet, um die spärliche Inferenzzeit-Anpassung eines vortrainierten Videogenerators nur an diesen Schlüsselmomenten zu steuern. Unser Ansatz ist anpassungseffizient, führt zu minimalem Overhead und vermeidet eine dichte Überwachung. Umfangreiche Experimente in komplexen, mehrstufigen Szenarien zeigen, dass VChain die Qualität der generierten Videos signifikant verbessert.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.