Spielen Gedankenströme eine Rolle? Bewertung der Argumentationsfähigkeit von Gemini-Vision-Language-Modellen für das Verständnis von Videoszenen.

Zusammenfassung

Wir evaluieren, wie interne Denkprozesse, die wir als Gedankenströme bezeichnen, das Videoverständnis von Sprach-Bild-Modellen beeinflussen. Mit vier Konfigurationen von Googles Gemini 2.5 Flash und Flash Lite anhand von Szenen aus 100 Stunden Videomaterial stellen wir drei Fragen: Führt mehr Nachdenken zu besseren Ergebnissen, wo hören die Verbesserungen auf und worüber denken diese Modelle tatsächlich nach? Wir führen drei Bewertungsmetriken ein. *Inhaltsreichheit* misst, wie viel des Gedankenstroms nützliche Szeneninhalte im Vergleich zu Metakommentaren darstellt. *Abdeckung Gedanke-Ergebnis* misst, wie genau der Gedankenstrom in die endgültige Ausgabe übertragen wird. Die *Analyse dominanter Entitäten* identifiziert, auf welche Subjekte, Handlungen und Schauplätze sich das Modell konzentriert. GPT-5 dient als unabhängiger Bewerter. Wir stellen fest, dass Qualitätsverbesserungen durch zusätzliches Nachdenken schnell ein Plateau erreichen, wobei der größte Zuwachs in den ersten paar hundert Tokens erfolgt. Flash Lite bietet die beste Balance zwischen Qualität und Token-Verbrauch. Enge Denkbudgets führen dazu, dass das Modell im Endergebnis Inhalte hinzufügt, über die es nie nachgedacht hat – eine Form von Halluzination im Komprimierungsschritt. Obwohl es sich um verschiedene Modellstufen handelt, produzieren Flash und Flash Lite ähnliche Gedankenströme, unterscheiden sich jedoch im Stil: Flash erörtert seinen Denkprozess, während Lite sich auf die Beschreibung der Szene konzentriert.

English

We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.

Spielen Gedankenströme eine Rolle? Bewertung der Argumentationsfähigkeit von Gemini-Vision-Language-Modellen für das Verständnis von Videoszenen.

Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding

Zusammenfassung

Support