ChatPaper.aiChatPaper

Raisonnement vidéo sans entraînement

Video Reasoning without Training

October 19, 2025
papers.authors: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

papers.abstract

Le raisonnement vidéo utilisant des modèles multimodaux de grande taille (LMMs) repose sur un apprentissage par renforcement (RL) coûteux et une chaîne de pensée verbeuse, entraînant une surcharge computationnelle importante lors de l'entraînement et de l'inférence. De plus, les mécanismes qui contrôlent le processus de pensée dans ces modèles de raisonnement sont très limités. Dans cet article, en utilisant l'entropie de la sortie du modèle comme signal, nous découvrons que les modèles de haute qualité passent par une série de micro-explorations et micro-exploitations qui maintiennent le processus de raisonnement ancré (c'est-à-dire évitent une randomisation excessive pendant que le modèle explore ou réfléchit à une réponse). Nous observons en outre qu'une fois ce processus de "pensée" terminé, les modèles plus précis démontrent une meilleure convergence en réduisant significativement l'entropie via une phase d'exploitation finale (c'est-à-dire une convergence plus certaine vers une trajectoire de solution). Nous utilisons ensuite ces nouvelles perspectives théoriquement fondées pour ajuster directement le comportement du modèle lors de l'inférence, sans recourir à l'apprentissage par renforcement ou à un réglage supervisé. Plus précisément, lors de l'inférence, notre approche proposée, appelée V-Reason (Video-Reason), adapte le cache de valeur du LMM via quelques étapes d'optimisation sur un petit contrôleur entraînable en utilisant un objectif basé sur l'entropie, c'est-à-dire sans supervision à partir d'un ensemble de données ou de RL. Ce réglage améliore le comportement de micro-exploration et d'exploitation du modèle pendant l'inférence. Nos expériences montrent que notre méthode proposée obtient des améliorations significatives par rapport aux modèles de base réglés par instruction sur plusieurs ensembles de données de raisonnement vidéo, réduisant l'écart avec les modèles entraînés par RL à moins de 0,6 % de précision moyenne sans aucun entraînement, tout en offrant des avantages massifs en termes d'efficacité : les tokens de sortie sont réduits de 58,6 % par rapport au modèle RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025