Ragionamento video senza addestramento
Video Reasoning without Training
October 19, 2025
Autori: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI
Abstract
Il ragionamento video utilizzando Large Multimodal Models (LMM) si basa su costosi processi di reinforcement learning (RL) e su verbose catene di pensiero, risultando in un notevole sovraccarico computazionale sia durante l'addestramento che durante l'inferenza. Inoltre, i meccanismi che controllano il processo di pensiero in questi modelli di ragionamento sono molto limitati. In questo articolo, utilizzando l'entropia dell'output del modello come segnale, scopriamo che i modelli di alta qualità attraversano una serie di micro-esplorazioni e micro-sfruttamenti che mantengono il processo di ragionamento ancorato (ovvero, evitano un'eccessiva casualità mentre il modello esplora o riflette su una risposta). Osserviamo inoltre che, una volta terminato questo processo di "pensiero", i modelli più accurati dimostrano una migliore convergenza riducendo significativamente l'entropia attraverso una fase finale di sfruttamento (ovvero, una convergenza più certa verso una traiettoria di soluzione). Utilizziamo quindi queste nuove intuizioni teoricamente fondate per regolare direttamente il comportamento del modello durante l'inferenza, senza ricorrere a RL o fine-tuning supervisionato. Nello specifico, durante l'inferenza, il nostro approccio proposto, chiamato V-Reason (Video-Reason), adatta la cache dei valori dell'LMM attraverso pochi passi di ottimizzazione su un piccolo controller addestrabile utilizzando un obiettivo basato sull'entropia, ovvero senza necessità di supervisione da alcun dataset o RL. Questa regolazione migliora il comportamento di micro-esplorazione e sfruttamento del modello durante l'inferenza. I nostri esperimenti dimostrano che il metodo proposto ottiene miglioramenti significativi rispetto ai modelli base con istruzioni su diversi dataset di ragionamento video, riducendo il divario con i modelli addestrati con RL a meno dello 0,6% di accuratezza media senza alcun addestramento, offrendo al contempo notevoli vantaggi in termini di efficienza: i token di output sono ridotti del 58,6% rispetto al modello RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly
reinforcement learning (RL) and verbose chain-of-thought, resulting in
substantial computational overhead during both training and inference.
Moreover, the mechanisms that control the thinking process in these reasoning
models are very limited. In this paper, using entropy of the model's output as
a signal, we discover that the high-quality models go through a series of
micro-explorations and micro-exploitations which keep the reasoning process
grounded (i.e., avoid excessive randomness while the model is exploring or
thinking through an answer). We further observe that once this "thinking"
process is over, more accurate models demonstrate a better convergence by
reducing the entropy significantly via a final exploitation phase (i.e., a more
certain convergence towards a solution trajectory). We then use these novel,
theoretically-grounded insights to tune the model's behavior directly at
inference, without using any RL or supervised fine-tuning. Specifically, during
inference, our proposed approach called V-Reason (Video-Reason) adapts the
value cache of the LMM via a few optimization steps on a small, trainable
controller using an entropy-based objective, i.e., no supervision from any
dataset or RL is necessary. This tuning improves the model's micro-exploration
and exploitation behavior during inference. Our experiments show that our
proposed method achieves significant improvements over the base
instruction-tuned models across several video reasoning datasets, narrowing the
gap with RL-trained models to within 0.6% average accuracy without any
training, while offering massive efficiency benefits: output tokens are reduced
by 58.6% compared to the RL model.