ChatPaper.aiChatPaper

훈련 없이 비디오 추론하기

Video Reasoning without Training

October 19, 2025
저자: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

초록

대규모 멀티모달 모델(LMMs)을 사용한 비디오 추론은 비용이 많이 드는 강화 학습(RL)과 장황한 사고의 연쇄(chain-of-thought)에 의존하기 때문에 학습과 추론 과정에서 상당한 계산 오버헤드가 발생합니다. 또한, 이러한 추론 모델에서 사고 과정을 제어하는 메커니즘은 매우 제한적입니다. 본 논문에서는 모델 출력의 엔트로피를 신호로 사용하여 고품질 모델이 일련의 미세 탐색(micro-exploration)과 미세 활용(micro-exploitation)을 거치며 추론 과정을 기반으로 유지한다는 것을 발견했습니다(즉, 모델이 답을 탐색하거나 사고하는 동안 과도한 무작위성을 피함). 또한, 이러한 "사고" 과정이 끝나면 더 정확한 모델은 최종 활용 단계를 통해 엔트로피를 크게 줄이며 더 나은 수렴을 보여준다는 것을 관찰했습니다(즉, 해결 경로에 대한 더 확실한 수렴). 이러한 이론적으로 근거를 둔 새로운 통찰을 활용하여, 우리는 RL이나 지도 미세 조정 없이 추론 단계에서 직접 모델의 행동을 조정합니다. 구체적으로, 추론 중에 제안된 접근 방식인 V-Reason(Video-Reason)은 엔트로피 기반 목적 함수를 사용하여 작은 학습 가능한 컨트롤러에서 몇 번의 최적화 단계를 통해 LMM의 값 캐시(value cache)를 조정합니다. 즉, 데이터셋이나 RL로부터의 감독이 필요하지 않습니다. 이 조정은 추론 중 모델의 미세 탐색과 활용 행동을 개선합니다. 실험 결과, 제안된 방법은 여러 비디오 추론 데이터셋에서 기본 지시 미세 조정(instruction-tuned) 모델 대비 상당한 개선을 달성하며, RL로 학습된 모델과의 평균 정확도 차이를 0.6% 이내로 좁히면서도 학습 없이도 대규모 효율성 이점을 제공합니다: 출력 토큰이 RL 모델 대비 58.6% 감소합니다.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025