ChatPaper.aiChatPaper

Video-redeneren zonder training

Video Reasoning without Training

October 19, 2025
Auteurs: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

Samenvatting

Video reasoning met behulp van Large Multimodal Models (LMMs) is afhankelijk van kostbare reinforcement learning (RL) en uitgebreide chain-of-thought, wat resulteert in aanzienlijke rekenkundige overhead tijdens zowel training als inferentie. Bovendien zijn de mechanismen die het denkproces in deze redeneermodellen sturen zeer beperkt. In dit artikel ontdekken we, door de entropie van de modeloutput als signaal te gebruiken, dat hoogwaardige modellen een reeks micro-exploraties en micro-exploitaties doorlopen die het redeneerproces gefundeerd houden (d.w.z., overmatige willekeur vermijden terwijl het model een antwoord verkent of overdenkt). We observeren verder dat, zodra dit "denkproces" is afgerond, nauwkeurigere modellen een betere convergentie vertonen door de entropie aanzienlijk te verminderen via een finale exploitatie-fase (d.w.z., een zekerder convergentie naar een oplossingspad). We gebruiken deze nieuwe, theoretisch onderbouwde inzichten vervolgens om het gedrag van het model direct tijdens inferentie af te stemmen, zonder gebruik te maken van RL of supervised fine-tuning. Specifiek past onze voorgestelde aanpak, genaamd V-Reason (Video-Reason), tijdens inferentie de waarden-cache van de LMM aan via een paar optimalisatiestappen op een kleine, trainbare controller met behulp van een entropie-gebaseerd doel, d.w.z., er is geen supervisie van een dataset of RL nodig. Deze afstemming verbetert het micro-exploratie- en exploitatiegedrag van het model tijdens inferentie. Onze experimenten tonen aan dat onze voorgestelde methode significante verbeteringen behaalt ten opzichte van de basisinstructie-afgestemde modellen over verschillende video-redeneerdatasets, waarbij de kloof met RL-getrainde modellen wordt verkleind tot binnen 0,6% gemiddelde nauwkeurigheid zonder enige training, terwijl enorme efficiëntievoordelen worden geboden: output-tokens worden met 58,6% verminderd vergeleken met het RL-model.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025