ChatPaper.aiChatPaper

Razonamiento en video sin entrenamiento

Video Reasoning without Training

October 19, 2025
Autores: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

Resumen

El razonamiento en video utilizando Modelos Multimodales de Gran Escala (LMMs) depende de costosos procesos de aprendizaje por refuerzo (RL) y cadenas de pensamiento extensas, lo que resulta en una sobrecarga computacional significativa tanto durante el entrenamiento como en la inferencia. Además, los mecanismos que controlan el proceso de pensamiento en estos modelos de razonamiento son muy limitados. En este artículo, utilizando la entropía de la salida del modelo como señal, descubrimos que los modelos de alta calidad atraviesan una serie de micro-exploraciones y micro-explotaciones que mantienen el proceso de razonamiento fundamentado (es decir, evitan un exceso de aleatoriedad mientras el modelo explora o piensa una respuesta). Observamos además que, una vez que este proceso de "pensamiento" concluye, los modelos más precisos demuestran una mejor convergencia al reducir significativamente la entropía mediante una fase final de explotación (es decir, una convergencia más segura hacia una trayectoria de solución). Luego, utilizamos estas nuevas ideas teóricamente fundamentadas para ajustar el comportamiento del modelo directamente durante la inferencia, sin emplear RL ni ajuste supervisado. Específicamente, durante la inferencia, nuestro enfoque propuesto, denominado V-Reason (Video-Reason), adapta la caché de valores del LMM mediante unos pocos pasos de optimización en un controlador pequeño y entrenable utilizando un objetivo basado en la entropía, es decir, no se requiere supervisión de ningún conjunto de datos ni RL. Este ajuste mejora el comportamiento de micro-exploración y explotación del modelo durante la inferencia. Nuestros experimentos muestran que nuestro método propuesto logra mejoras significativas sobre los modelos base ajustados por instrucción en varios conjuntos de datos de razonamiento en video, reduciendo la brecha con los modelos entrenados con RL a un 0.6% de precisión promedio sin ningún entrenamiento, mientras ofrece beneficios masivos en eficiencia: los tokens de salida se reducen en un 58.6% en comparación con el modelo RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025