Os Fluxos de Pensamento Importam? Avaliando o Raciocínio em Modelos de Linguagem Visual Gemini para a Compreensão de Cenas em Vídeo
Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
April 13, 2026
Autores: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi
cs.AI
Resumo
Avaliamos como os rastros internos de raciocínio, que denominamos fluxos de pensamento, afetam a compreensão de cenas em vídeo em modelos de visão e linguagem. Utilizando quatro configurações do Gemini 2.5 Flash e Flash Lite da Google em cenas extraídas de 100 horas de vídeo, formulamos três perguntas: pensar mais leva a melhores resultados, onde os ganhos se estabilizam e sobre o que estes modelos realmente pensam? Introduzimos três métricas de avaliação. A *Conteudismo* mede quanto do fluxo de pensamento é conteúdo útil da cena versus metacomentário. A *Cobertura Pensamento-Final* mede a fidelidade com que o fluxo de pensamento é traduzido na saída final. A *Análise de Entidade Dominante* identifica em quais sujeitos, ações e cenários o modelo se concentra. O GPT-5 atua como um juiz independente. Constatamos que os ganhos de qualidade com raciocínio adicional atingem um platô rapidamente, com a maior parte da melhoria ocorrendo nos primeiras centenas de *tokens*. O Flash Lite oferece o melhor equilíbrio entre qualidade e uso de *tokens*. Orçamentos de raciocínio restritos levam o modelo a adicionar conteúdo na saída final sobre o qual nunca raciocinou, uma forma de alucinação na etapa de compressão. Apesar de serem modelos de categorias diferentes, o Flash e o Flash Lite produzem fluxos de pensamento semelhantes, embora difiram no estilo: o Flash discute seu processo de raciocínio, enquanto o Lite foca em descrever a cena.
English
We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.