TiViBench: Avaliação Comparativa do Raciocínio Pensar-em-Vídeo para Modelos Gerativos de Vídeo

Resumo

A rápida evolução dos modelos generativos de vídeo deslocou seu foco da produção de resultados visualmente plausíveis para o enfrentamento de tarefas que exigem plausibilidade física e consistência lógica. No entanto, apesar de avanços recentes, como o raciocínio de cadeia de quadros do Veo 3, ainda não está claro se esses modelos podem exibir capacidades de raciocínio semelhantes aos grandes modelos de linguagem (LLMs). Os benchmarks existentes avaliam predominantemente a fidelidade visual e a coerência temporal, falhando em capturar habilidades de raciocínio de ordem superior. Para preencher essa lacuna, propomos o TiViBench, um benchmark hierárquico especificamente concebido para avaliar as capacidades de raciocínio de modelos de geração de imagem para vídeo (I2V). O TiViBench avalia sistematicamente o raciocínio em quatro dimensões: i) Raciocínio Estrutural e Busca, ii) Raciocínio de Padrões Espaciais e Visuais, iii) Raciocínio Simbólico e Lógico, e iv) Planeamento de Ações e Execução de Tarefas, abrangendo 24 cenários de tarefas diversos em 3 níveis de dificuldade. Através de avaliações extensivas, demonstramos que os modelos comerciais (por exemplo, Sora 2, Veo 3.1) exibem um potencial de raciocínio mais forte, enquanto os modelos de código aberto revelam um potencial inexplorado que permanece limitado pela escala de treino e diversidade de dados insuficientes. Para liberar ainda mais este potencial, introduzimos o VideoTPO, uma estratégia de teste simples mas eficaz, inspirada na otimização de preferências. Ao realizar uma autoanálise por um LLM sobre candidatos gerados para identificar pontos fortes e fracos, o VideoTPO melhora significativamente o desempenho do raciocínio sem exigir treino adicional, dados ou modelos de recompensa. Juntos, o TiViBench e o VideoTPO abrem caminho para avaliar e avançar o raciocínio em modelos de geração de vídeo, estabelecendo uma base para pesquisas futuras nesta área emergente.

English

The rapid evolution of video generative models has shifted their focus from producing visually plausible outputs to tackling tasks requiring physical plausibility and logical consistency. However, despite recent breakthroughs such as Veo 3's chain-of-frames reasoning, it remains unclear whether these models can exhibit reasoning capabilities similar to large language models (LLMs). Existing benchmarks predominantly evaluate visual fidelity and temporal coherence, failing to capture higher-order reasoning abilities. To bridge this gap, we propose TiViBench, a hierarchical benchmark specifically designed to evaluate the reasoning capabilities of image-to-video (I2V) generation models. TiViBench systematically assesses reasoning across four dimensions: i) Structural Reasoning & Search, ii) Spatial & Visual Pattern Reasoning, iii) Symbolic & Logical Reasoning, and iv) Action Planning & Task Execution, spanning 24 diverse task scenarios across 3 difficulty levels. Through extensive evaluations, we show that commercial models (e.g., Sora 2, Veo 3.1) demonstrate stronger reasoning potential, while open-source models reveal untapped potential that remains hindered by limited training scale and data diversity. To further unlock this potential, we introduce VideoTPO, a simple yet effective test-time strategy inspired by preference optimization. By performing LLM self-analysis on generated candidates to identify strengths and weaknesses, VideoTPO significantly enhances reasoning performance without requiring additional training, data, or reward models. Together, TiViBench and VideoTPO pave the way for evaluating and advancing reasoning in video generation models, setting a foundation for future research in this emerging field.

TiViBench: Avaliação Comparativa do Raciocínio Pensar-em-Vídeo para Modelos Gerativos de Vídeo

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Resumo

Support