ChatPaper.aiChatPaper

トレーニングなしのビデオ推論

Video Reasoning without Training

October 19, 2025
著者: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

要旨

大規模マルチモーダルモデル(LMM)を用いたビデオ推論は、高コストな強化学習(RL)と冗長な連鎖思考(chain-of-thought)に依存しており、トレーニングと推論の両方において大幅な計算オーバーヘッドを引き起こします。さらに、これらの推論モデルにおける思考プロセスを制御するメカニズムは非常に限られています。本論文では、モデルの出力のエントロピーを信号として用いることで、高品質なモデルが一連のマイクロ探索とマイクロ活用を経て、推論プロセスを確実に基盤づける(つまり、モデルが探索や回答を考えている際に過度のランダム性を避ける)ことを発見しました。さらに、この「思考」プロセスが終了すると、より正確なモデルは最終的な活用フェーズを通じてエントロピーを大幅に減少させ、より確実な解の軌道への収束を示すことを観察しました。これらの理論的に基づいた新たな知見を活用し、RLや教師ありファインチューニングを使用せずに、推論時に直接モデルの動作を調整します。具体的には、推論中に提案するアプローチ「V-Reason(Video-Reason)」は、エントロピーベースの目的関数を用いて、小さなトレーニング可能なコントローラーで数回の最適化ステップを実行し、LMMの値キャッシュを適応させます。つまり、データセットやRLからの監督は必要ありません。この調整により、推論中のモデルのマイクロ探索と活用の動作が改善されます。実験結果は、提案手法がベースの指示チューニングモデルを大幅に上回り、RLトレーニングモデルとの平均精度の差を0.6%以内に縮め、トレーニングなしで効率性の大幅な向上をもたらすことを示しています。具体的には、RLモデルと比較して出力トークンが58.6%削減されます。
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025