TiViBench: 비디오 생성 모델의 영상 내 사고 추론 벤치마크
TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
November 17, 2025
저자: Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
cs.AI
초록
비디오 생성 모델의 급속한 진화는 시각적으로 그럴듯한 결과물 생산에서 물리적 타당성과 논리적 일관성을 요구하는 과제 해결로 초점을 이동시켰습니다. 그러나 Veo 3의 프레임 연쇄 추론과 같은 최근의 돌파구에도 불구하고, 이러한 모델이 대규모 언어 모델(LLM)과 유사한 추론 능력을 보일 수 있는지는 여전히 불분명합니다. 기존 벤치마크는 주로 시각적 정확도와 시간적 일관성을 평가하여 고차원적인 추론 능력을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 이미지-투-비디오(I2V) 생성 모델의 추론 능력을 평가하기 위해 특별히 설계된 계층적 벤치마크인 TiViBench를 제안합니다. TiViBench는 i) 구조적 추론 및 탐색, ii) 공간적 및 시각적 패턴 추론, iii) 상징적 및 논리적 추론, iv) 행동 계획 및 과제 실행이라는 네 가지 차원에 걸쳐 추론을 체계적으로 평가하며, 3가지 난이도에 분포된 24가지 다양한 과제 시나리오를 포함합니다. 광범위한 평가를 통해 상용 모델(예: Sora 2, Veo 3.1)이 더 강력한 추론 잠재력을 보여주는 반면, 오픈소스 모델은 제한된 훈련 규모와 데이터 다양성으로 인해 여전히 억제된 미개발 잠재력을 보여줌을 확인했습니다. 이러한 잠재력을 더욱 개방하기 위해, 우리는 선호도 최적화에서 영감을 받은 간단하면서 효과적인 테스트 타임 전략인 VideoTPO를 도입합니다. VideoTPO는 생성된 후보들에 대해 LLM 자기 분석을 수행하여 강점과 약점을 식별함으로써, 추가적인 훈련, 데이터 또는 보상 모델 없이도 추론 성능을 크게 향상시킵니다. TiViBench와 VideoTPO는 함께 비디오 생성 모델의 추론 능력을 평가하고 발전시키는 길을 열며, 이 신흥 분야의 미래 연구를 위한 기반을 마련합니다.
English
The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.