ChatPaper.aiChatPaper

Video Reasoning ohne Training

Video Reasoning without Training

October 19, 2025
papers.authors: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

papers.abstract

Die Videoreasoning mit Large Multimodal Models (LMMs) basiert auf kostspieligem Reinforcement Learning (RL) und ausführlichen Chain-of-Thought-Prozessen, was zu erheblichem Rechenaufwand sowohl während des Trainings als auch der Inferenz führt. Darüber hinaus sind die Mechanismen, die den Denkprozess in diesen Reasoning-Modellen steuern, sehr begrenzt. In diesem Artikel entdecken wir mithilfe der Entropie der Modellausgabe als Signal, dass hochqualitative Modelle eine Reihe von Mikro-Explorationen und Mikro-Exploitationen durchlaufen, die den Reasoning-Prozess verankern (d.h. übermäßige Zufälligkeit vermeiden, während das Modell eine Antwort erkundet oder durchdenkt). Wir beobachten weiterhin, dass nach Abschluss dieses „Denkprozesses“ präzisere Modelle eine bessere Konvergenz zeigen, indem sie die Entropie signifikant durch eine finale Exploitationsphase reduzieren (d.h. eine sicherere Konvergenz hin zu einer Lösungstrajektorie). Diese neuartigen, theoretisch fundierten Erkenntnisse nutzen wir, um das Verhalten des Modells direkt während der Inferenz zu optimieren, ohne RL oder überwachtes Fine-Tuning einzusetzen. Konkret passt unser vorgeschlagener Ansatz, genannt V-Reason (Video-Reason), den Wertcache des LMM während der Inferenz durch einige Optimierungsschritte eines kleinen, trainierbaren Controllers an, der ein entropiebasiertes Ziel verfolgt – d.h. es ist keine Überwachung durch Datensätze oder RL erforderlich. Diese Anpassung verbessert das Mikro-Explorations- und Exploitationsverhalten des Modells während der Inferenz. Unsere Experimente zeigen, dass unser vorgeschlagener Ansatz signifikante Verbesserungen gegenüber den Basis-Instruktionsmodellen über mehrere Videoreasoning-Datensätze hinweg erzielt und die Lücke zu RL-trainierten Modellen auf durchschnittlich 0,6 % Genauigkeit reduziert, ohne jegliches Training. Gleichzeitig bietet er erhebliche Effizienzvorteile: Die Ausgabetokens werden im Vergleich zum RL-Modell um 58,6 % reduziert.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025