Raisonnement vidéo sans entraînement
Video Reasoning without Training
October 19, 2025
papers.authors: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI
papers.abstract
Le raisonnement vidéo utilisant des modèles multimodaux de grande taille (LMMs) repose sur un apprentissage par renforcement (RL) coûteux et une chaîne de pensée verbeuse, entraînant une surcharge computationnelle importante lors de l'entraînement et de l'inférence. De plus, les mécanismes qui contrôlent le processus de pensée dans ces modèles de raisonnement sont très limités. Dans cet article, en utilisant l'entropie de la sortie du modèle comme signal, nous découvrons que les modèles de haute qualité passent par une série de micro-explorations et micro-exploitations qui maintiennent le processus de raisonnement ancré (c'est-à-dire évitent une randomisation excessive pendant que le modèle explore ou réfléchit à une réponse). Nous observons en outre qu'une fois ce processus de "pensée" terminé, les modèles plus précis démontrent une meilleure convergence en réduisant significativement l'entropie via une phase d'exploitation finale (c'est-à-dire une convergence plus certaine vers une trajectoire de solution). Nous utilisons ensuite ces nouvelles perspectives théoriquement fondées pour ajuster directement le comportement du modèle lors de l'inférence, sans recourir à l'apprentissage par renforcement ou à un réglage supervisé. Plus précisément, lors de l'inférence, notre approche proposée, appelée V-Reason (Video-Reason), adapte le cache de valeur du LMM via quelques étapes d'optimisation sur un petit contrôleur entraînable en utilisant un objectif basé sur l'entropie, c'est-à-dire sans supervision à partir d'un ensemble de données ou de RL. Ce réglage améliore le comportement de micro-exploration et d'exploitation du modèle pendant l'inférence. Nos expériences montrent que notre méthode proposée obtient des améliorations significatives par rapport aux modèles de base réglés par instruction sur plusieurs ensembles de données de raisonnement vidéo, réduisant l'écart avec les modèles entraînés par RL à moins de 0,6 % de précision moyenne sans aucun entraînement, tout en offrant des avantages massifs en termes d'efficacité : les tokens de sortie sont réduits de 58,6 % par rapport au modèle RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly
reinforcement learning (RL) and verbose chain-of-thought, resulting in
substantial computational overhead during both training and inference.
Moreover, the mechanisms that control the thinking process in these reasoning
models are very limited. In this paper, using entropy of the model's output as
a signal, we discover that the high-quality models go through a series of
micro-explorations and micro-exploitations which keep the reasoning process
grounded (i.e., avoid excessive randomness while the model is exploring or
thinking through an answer). We further observe that once this "thinking"
process is over, more accurate models demonstrate a better convergence by
reducing the entropy significantly via a final exploitation phase (i.e., a more
certain convergence towards a solution trajectory). We then use these novel,
theoretically-grounded insights to tune the model's behavior directly at
inference, without using any RL or supervised fine-tuning. Specifically, during
inference, our proposed approach called V-Reason (Video-Reason) adapts the
value cache of the LMM via a few optimization steps on a small, trainable
controller using an entropy-based objective, i.e., no supervision from any
dataset or RL is necessary. This tuning improves the model's micro-exploration
and exploitation behavior during inference. Our experiments show that our
proposed method achieves significant improvements over the base
instruction-tuned models across several video reasoning datasets, narrowing the
gap with RL-trained models to within 0.6% average accuracy without any
training, while offering massive efficiency benefits: output tokens are reduced
by 58.6% compared to the RL model.