ChatPaper.aiChatPaper

Raciocínio em Vídeo sem Treinamento

Video Reasoning without Training

October 19, 2025
Autores: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague
cs.AI

Resumo

O raciocínio em vídeo utilizando Modelos Multimodais de Grande Escala (LMMs) depende de caro aprendizado por reforço (RL) e de cadeias de pensamento verbosas, resultando em um custo computacional substancial tanto durante o treinamento quanto na inferência. Além disso, os mecanismos que controlam o processo de pensamento nesses modelos de raciocínio são muito limitados. Neste artigo, utilizando a entropia da saída do modelo como um sinal, descobrimos que modelos de alta qualidade passam por uma série de micro-explorações e micro-explorações que mantêm o processo de raciocínio fundamentado (ou seja, evitam excesso de aleatoriedade enquanto o modelo está explorando ou pensando em uma resposta). Observamos ainda que, uma vez que esse processo de "pensamento" é concluído, modelos mais precisos demonstram uma melhor convergência ao reduzir significativamente a entropia por meio de uma fase final de exploração (ou seja, uma convergência mais certa em direção a uma trajetória de solução). Em seguida, utilizamos essas novas percepções teoricamente fundamentadas para ajustar o comportamento do modelo diretamente durante a inferência, sem usar qualquer RL ou ajuste fino supervisionado. Especificamente, durante a inferência, nossa abordagem proposta, chamada V-Reason (Video-Reason), adapta o cache de valor do LMM por meio de alguns passos de otimização em um pequeno controlador treinável utilizando um objetivo baseado em entropia, ou seja, nenhuma supervisão de qualquer conjunto de dados ou RL é necessária. Esse ajuste melhora o comportamento de micro-exploração e exploração do modelo durante a inferência. Nossos experimentos mostram que nosso método proposto alcança melhorias significativas em relação aos modelos base ajustados por instrução em vários conjuntos de dados de raciocínio em vídeo, reduzindo a lacuna com modelos treinados por RL para dentro de 0,6% de precisão média sem qualquer treinamento, enquanto oferece benefícios massivos de eficiência: os tokens de saída são reduzidos em 58,6% em comparação com o modelo RL.
English
Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
PDF52October 22, 2025