ChatPaper.aiChatPaper

Ragionamento video senza addestramento

Video Reasoning without Training

October 19, 2025
Autori: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

Abstract

Il ragionamento video utilizzando Large Multimodal Models (LMM) si basa su costosi processi di reinforcement learning (RL) e su verbose catene di pensiero, risultando in un notevole sovraccarico computazionale sia durante l'addestramento che durante l'inferenza. Inoltre, i meccanismi che controllano il processo di pensiero in questi modelli di ragionamento sono molto limitati. In questo articolo, utilizzando l'entropia dell'output del modello come segnale, scopriamo che i modelli di alta qualità attraversano una serie di micro-esplorazioni e micro-sfruttamenti che mantengono il processo di ragionamento ancorato (ovvero, evitano un'eccessiva casualità mentre il modello esplora o riflette su una risposta). Osserviamo inoltre che, una volta terminato questo processo di "pensiero", i modelli più accurati dimostrano una migliore convergenza riducendo significativamente l'entropia attraverso una fase finale di sfruttamento (ovvero, una convergenza più certa verso una traiettoria di soluzione). Utilizziamo quindi queste nuove intuizioni teoricamente fondate per regolare direttamente il comportamento del modello durante l'inferenza, senza ricorrere a RL o fine-tuning supervisionato. Nello specifico, durante l'inferenza, il nostro approccio proposto, chiamato V-Reason (Video-Reason), adatta la cache dei valori dell'LMM attraverso pochi passi di ottimizzazione su un piccolo controller addestrabile utilizzando un obiettivo basato sull'entropia, ovvero senza necessità di supervisione da alcun dataset o RL. Questa regolazione migliora il comportamento di micro-esplorazione e sfruttamento del modello durante l'inferenza. I nostri esperimenti dimostrano che il metodo proposto ottiene miglioramenti significativi rispetto ai modelli base con istruzioni su diversi dataset di ragionamento video, riducendo il divario con i modelli addestrati con RL a meno dello 0,6% di accuratezza media senza alcun addestramento, offrendo al contempo notevoli vantaggi in termini di efficienza: i token di output sono ridotti del 58,6% rispetto al modello RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025