Имеют ли значение потоки мыслей? Оценка способности к рассуждению в мультимодальных моделях Gemini для понимания видеосцен
Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
April 13, 2026
Авторы: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi
cs.AI
Аннотация
Мы оцениваем, как внутренние рассуждения моделей, которые мы называем потоками мышления, влияют на понимание видеосцен в моделях "визуальный язык". Используя четыре конфигурации Google Gemini 2.5 Flash и Flash Lite на сценах, извлеченных из 100 часов видео, мы задаем три вопроса: приводит ли большее количество размышлений к лучшим результатам, где прекращается прирост качества и о чем на самом деле "думают" эти модели? Мы вводим три метрики оценки. *Содержательность* измеряет, какая часть потока мышления представляет собой полезное содержание сцены, а какая — мета-комментарии. *Покрытие "Мысль-Финальный вывод"* измеряет, насколько точно поток мышления преобразуется в конечный результат. *Анализ доминирующих сущностей* определяет, на каких субъектах, действиях и обстановке фокусируется модель. В качестве независимого судьи выступает GPT-5. Мы обнаружили, что улучшение качества за счет дополнительных размышлений быстро выходит на плато, причем основной прирост происходит в первые несколько сотен токенов. Flash Lite предлагает наилучший баланс между качеством и использованием токенов. Жесткие лимиты на рассуждения заставляют модель добавлять в конечный вывод контент, о котором она никогда не рассуждала, — это форма галлюцинации на этапе компрессии. Несмотря на принадлежность к разным уровням моделей, Flash и Flash Lite генерируют схожие потоки мышления, хотя и различаются по стилю: Flash обсуждает свой процесс рассуждений, в то время как Lite сосредотачивается на описании сцены.
English
We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.