ChatPaper.aiChatPaper

TiViBench: Бенчмарк для оценки способности к рассуждению в контексте видео у генеративных моделей

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

November 17, 2025
Авторы: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI

Аннотация

Быстрая эволюция моделей генерации видео сместила фокус с создания визуально правдоподобных результатов на решение задач, требующих физической достоверности и логической согласованности. Однако, несмотря на недавние прорывы, такие как цепочечное рассуждение по кадрам в Veo 3, до сих пор неясно, могут ли эти модели демонстрировать способности к рассуждению, аналогичные большим языковым моделям (LLM). Существующие бенчмарки в основном оценивают визуальное качество и временную согласованность, не затрагивая способности к рассуждениям высшего порядка. Чтобы заполнить этот пробел, мы предлагаем TiViBench — иерархический бенчмарк, специально разработанный для оценки способностей к рассуждению у моделей генерации видео по изображению (I2V). TiViBench систематически оценивает рассуждения по четырем измерениям: i) структурные рассуждения и поиск, ii) пространственные и визуальные паттерны рассуждений, iii) символические и логические рассуждения и iv) планирование действий и выполнение задач, охватывая 24 разнообразных сценария задач across 3 уровнях сложности. В результате масштабных оценок мы показываем, что коммерческие модели (например, Sora 2, Veo 3.1) демонстрируют более сильный потенциал к рассуждениям, в то время как модели с открытым исходным кодом раскрывают нереализованный потенциал, который по-прежнему ограничен небольшим масштабом обучения и недостаточным разнообразием данных. Чтобы раскрыть этот потенциал, мы представляем VideoTPO — простую, но эффективную стратегию тестирования, вдохновленную оптимизацией предпочтений. Путем выполнения LLM самоанализа сгенерированных кандидатов для выявления сильных и слабых сторон, VideoTPO значительно улучшает производительность рассуждений без необходимости дополнительного обучения, данных или моделей вознаграждения. Вместе TiViBench и VideoTPO прокладывают путь для оценки и развития способностей к рассуждению в моделях генерации видео, закладывая основу для будущих исследований в этой новой области.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.
PDF424December 1, 2025