Видеоанализ без обучения
Video Reasoning without Training
October 19, 2025
Авторы: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI
Аннотация
Видео-рассуждение с использованием крупных мультимодальных моделей (LMM) опирается на дорогостоящее обучение с подкреплением (RL) и многословные цепочки рассуждений, что приводит к значительным вычислительным затратам как на этапе обучения, так и на этапе вывода. Более того, механизмы, управляющие процессом мышления в этих моделях рассуждений, весьма ограничены. В данной работе, используя энтропию выхода модели в качестве сигнала, мы обнаруживаем, что высококачественные модели проходят через серию микро-исследований и микро-эксплуатаций, которые удерживают процесс рассуждения на земле (т.е. избегают избыточной случайности, пока модель исследует или обдумывает ответ). Мы также наблюдаем, что как только этот процесс "мышления" завершается, более точные модели демонстрируют лучшее сходимость, значительно снижая энтропию на этапе финальной эксплуатации (т.е. более уверенно сходятся к траектории решения). Затем мы используем эти новые, теоретически обоснованные инсайты для настройки поведения модели непосредственно на этапе вывода, без использования RL или обучения с учителем. В частности, во время вывода наш предложенный подход, называемый V-Reason (Video-Reason), адаптирует кэш значений LMM с помощью нескольких шагов оптимизации на небольшом обучаемом контроллере, используя энтропийный целевой показатель, т.е. без необходимости в данных для обучения или RL. Эта настройка улучшает поведение модели в отношении микро-исследований и эксплуатации во время вывода. Наши эксперименты показывают, что предложенный метод достигает значительных улучшений по сравнению с базовыми моделями, настроенными на инструкции, на нескольких наборах данных для видео-рассуждений, сокращая разрыв с моделями, обученными с RL, до 0.6% средней точности без какого-либо обучения, при этом предлагая значительные преимущества в эффективности: количество выходных токенов сокращается на 58.6% по сравнению с RL-моделью.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly
reinforcement learning (RL) and verbose chain-of-thought, resulting in
substantial computational overhead during both training and inference.
Moreover, the mechanisms that control the thinking process in these reasoning
models are very limited. In this paper, using entropy of the model's output as
a signal, we discover that the high-quality models go through a series of
micro-explorations and micro-exploitations which keep the reasoning process
grounded (i.e., avoid excessive randomness while the model is exploring or
thinking through an answer). We further observe that once this "thinking"
process is over, more accurate models demonstrate a better convergence by
reducing the entropy significantly via a final exploitation phase (i.e., a more
certain convergence towards a solution trajectory). We then use these novel,
theoretically-grounded insights to tune the model's behavior directly at
inference, without using any RL or supervised fine-tuning. Specifically, during
inference, our proposed approach called V-Reason (Video-Reason) adapts the
value cache of the LMM via a few optimization steps on a small, trainable
controller using an entropy-based objective, i.e., no supervision from any
dataset or RL is necessary. This tuning improves the model's micro-exploration
and exploitation behavior during inference. Our experiments show that our
proposed method achieves significant improvements over the base
instruction-tuned models across several video reasoning datasets, narrowing the
gap with RL-trained models to within 0.6% average accuracy without any
training, while offering massive efficiency benefits: output tokens are reduced
by 58.6% compared to the RL model.