Les flux de pensée ont-ils une importance ? Évaluer le raisonnement dans les modèles de vision et langage Gemini pour la compréhension de scènes vidéo
Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
April 13, 2026
Auteurs: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi
cs.AI
Résumé
Nous évaluons l'impact des traces de raisonnement interne, que nous appelons flux de pensée, sur la compréhension de scènes vidéo par les modèles vision-langage. En utilisant quatre configurations de Gemini 2.5 Flash et Flash Lite de Google sur des scènes extraites de 100 heures de vidéo, nous posons trois questions : une réflexion plus poussée améliore-t-elle les résultats, où les gains s'arrêtent-ils, et sur quoi ces modèles raisonnent-ils réellement ? Nous introduisons trois métriques d'évaluation. La richesse de contenu mesure la proportion du flux de pensée consacrée au contenu utile de la scène par rapport aux métacommentaires. La couverture pensée-final mesure la fidélité avec laquelle le flux de pensée se traduit dans la sortie finale. L'analyse des entités dominantes identifie les sujets, actions et contextes sur lesquels le modèle se concentre. GPT-5 sert d'évaluateur indépendant. Nous constatons que les gains de qualité dus à un raisonnement supplémentaire plafonnent rapidement, la majeure partie de l'amélioration survenant dans les premières centaines de tokens. Flash Lite offre le meilleur équilibre entre qualité et utilisation de tokens. Des budgets de raisonnement serrés amènent le modèle à ajouter dans la sortie finale du contenu qu'il n'a jamais raisonné, une forme d'hallucination par étape de compression. Bien que de niveaux différents, Flash et Flash Lite produisent des flux de pensée similaires, bien que de style différent : Flash discute de son processus de raisonnement, tandis que Lite se concentre sur la description de la scène.
English
We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.