I Flussi di Pensiero Contano? Valutazione del Ragionamento nei Modelli Linguaggio-Visione Gemini per la Comprensione di Scene Video
Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
April 13, 2026
Autori: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi
cs.AI
Abstract
Analizziamo come le tracce di ragionamento interno, che definiamo flussi di pensiero, influenzino la comprensione di scene video nei modelli visione-linguaggio. Utilizzando quattro configurazioni di Gemini 2.5 Flash e Flash Lite di Google su scene estratte da 100 ore di video, ci poniamo tre domande: un ragionamento più approfondito produce risultati migliori, dove si arrestano i miglioramenti e su cosa ragionano effettivamente questi modelli? Introduciamo tre metriche di valutazione. La *Contentfulness* misura quanto del flusso di pensiero è contenuto utile della scena rispetto a meta-commenti. La *Copertura Pensiero-Finale* misura quanto fedelmente il flusso di pensiero si traduce nell'output finale. L'*Analisi delle Entità Dominanti* identifica i soggetti, le azioni e gli ambienti su cui il modello si concentra. GPT-5 funge da giudice indipendente. Rileviamo che i miglioramenti qualitativi dovuti a ragionamenti aggiuntivi raggiungono un plateau rapidamente, con la maggior parte del progresso che si verifica nei primi centinaia di token. Flash Lite offre il miglior bilanciamento tra qualità e utilizzo di token. Budget di ragionamento troppo ristretti inducono il modello ad aggiungere contenuti nell'output finale su cui non ha mai ragionato, una forma di allucinazione da compressione. Nonostante siano tier di modelli diversi, Flash e Flash Lite producono flussi di pensiero simili, sebbene differiscano nello stile: Flash discute il suo processo di ragionamento, mentre Lite si concentra sulla descrizione della scena.
English
We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.