¿Importan las Corrientes de Pensamiento? Evaluación del Razonamiento en Modelos de Lenguaje Visual Gemini para la Comprensión de Escenas en Video
Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
April 13, 2026
Autores: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi
cs.AI
Resumen
Evaluamos cómo las trazas de razonamiento interno, que denominamos flujos de pensamiento, afectan la comprensión de escenas en vídeo en modelos de visión y lenguaje. Utilizando cuatro configuraciones de Gemini 2.5 Flash y Flash Lite de Google sobre escenas extraídas de 100 horas de vídeo, planteamos tres preguntas: ¿conducen más pensamientos a mejores resultados?, ¿dónde se detienen las mejoras? y ¿sobre qué piensan realmente estos modelos? Introducimos tres métricas de evaluación. La *riqueza de contenido* mide cuánto del flujo de pensamiento es contenido útil de la escena frente a meta-comentarios. La *cobertura pensamiento-final* mide la fidelidad con la que el flujo de pensamiento se traduce en la salida final. El *análisis de entidades dominantes* identifica en qué sujetos, acciones y escenarios se centra el modelo. GPT-5 actúa como juez independiente. Descubrimos que las mejoras de calidad por pensar más se estancan rápidamente, produciéndose la mayor parte de la mejora en los primeros cientos de tokens. Flash Lite ofrece el mejor equilibrio entre calidad y uso de tokens. Los presupuestos de razonamiento muy ajustados provocan que el modelo añada contenido en la salida final sobre el que nunca razonó, una forma de alucinación en el paso de compresión. A pesar de ser modelos de diferente nivel, Flash y Flash Lite producen flujos de pensamiento similares, aunque difieren en estilo: Flash discute su proceso de razonamiento, mientras que Lite se centra en describir la escena.
English
We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.