VChain: Цепочка визуальных рассуждений для логического вывода в генерации видео
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
October 6, 2025
Авторы: Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
cs.AI
Аннотация
Современные модели генерации видео способны создавать плавные и визуально привлекательные ролики, но часто испытывают трудности с синтезом сложной динамики, включающей последовательную цепочку последствий. Точное моделирование визуальных результатов и переходов состояний во времени остается ключевой задачей. В отличие от этого, крупные языковые и мультимодальные модели (например, GPT-4o) демонстрируют мощные способности к рассуждению о визуальных состояниях и предсказанию будущего. Чтобы объединить эти преимущества, мы представляем VChain — новую структуру цепочки визуальных рассуждений на этапе вывода, которая внедряет сигналы визуального анализа из мультимодальных моделей в процесс генерации видео. В частности, VChain включает специализированный конвейер, который использует крупные мультимодальные модели для создания разреженного набора ключевых кадров, которые затем применяются для управления разреженной настройкой предварительно обученного генератора видео только в эти ключевые моменты. Наш подход эффективен в плане настройки, вносит минимальные накладные расходы и избегает плотного контроля. Многочисленные эксперименты на сложных многошаговых сценариях показывают, что VChain значительно повышает качество генерируемых видео.
English
Recent video generation models can produce smooth and visually appealing
clips, but they often struggle to synthesize complex dynamics with a coherent
chain of consequences. Accurately modeling visual outcomes and state
transitions over time remains a core challenge. In contrast, large language and
multimodal models (e.g., GPT-4o) exhibit strong visual state reasoning and
future prediction capabilities. To bridge these strengths, we introduce VChain,
a novel inference-time chain-of-visual-thought framework that injects visual
reasoning signals from multimodal models into video generation. Specifically,
VChain contains a dedicated pipeline that leverages large multimodal models to
generate a sparse set of critical keyframes as snapshots, which are then used
to guide the sparse inference-time tuning of a pre-trained video generator only
at these key moments. Our approach is tuning-efficient, introduces minimal
overhead and avoids dense supervision. Extensive experiments on complex,
multi-step scenarios show that VChain significantly enhances the quality of
generated videos.