ReFoCUS : Optimisation de cadres guidée par renforcement pour la compréhension contextuelle

papers.abstract

Les récents progrès des modèles multi-modaux de grande taille (LMMs) ont permis un raisonnement efficace entre vision et langage, mais la capacité à comprendre le contenu vidéo reste limitée par des stratégies de sélection d'images sous-optimales. Les approches existantes reposent souvent sur des heuristiques statiques ou des modules de récupération externes pour fournir des informations sur les images aux modèles de langage vidéo (video-LLMs), ce qui peut échouer à fournir des informations pertinentes pour la requête. Dans ce travail, nous introduisons ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), un nouveau cadre d'optimisation au niveau des images qui déplace la cible d'optimisation des réponses textuelles vers la sélection des entrées visuelles. ReFoCUS apprend une politique de sélection d'images via l'apprentissage par renforcement, en utilisant des signaux de récompense dérivés d'un LMM de référence pour refléter les préférences intrinsèques du modèle pour les images qui soutiennent le mieux les réponses temporellement ancrées. Pour explorer efficacement le vaste espace combinatoire des images, nous employons une architecture de sélection conditionnelle et autorégressive qui assure la cohérence temporelle tout en réduisant la complexité. Notre approche ne nécessite pas de supervision explicite au niveau des images et améliore de manière constante les performances de raisonnement sur plusieurs benchmarks de questions-réponses vidéo, mettant en évidence les avantages de l'alignement de la sélection d'images avec l'utilité interne du modèle.

English

Recent progress in Large Multi-modal Models (LMMs) has enabled effective vision-language reasoning, yet the ability to understand video content remains constrained by suboptimal frame selection strategies. Existing approaches often rely on static heuristics or external retrieval modules to feed frame information into video-LLMs, which may fail to provide the query-relevant information. In this work, we introduce ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), a novel frame-level policy optimization framework that shifts the optimization target from textual responses to visual input selection. ReFoCUS learns a frame selection policy via reinforcement learning, using reward signals derived from a reference LMM to reflect the model's intrinsic preferences for frames that best support temporally grounded responses. To efficiently explore the large combinatorial frame space, we employ an autoregressive, conditional selection architecture that ensures temporal coherence while reducing complexity. Our approach does not require explicit supervision at the frame-level and consistently improves reasoning performance across multiple video QA benchmarks, highlighting the benefits of aligning frame selection with model-internal utility.

ReFoCUS : Optimisation de cadres guidée par renforcement pour la compréhension contextuelle

ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

papers.abstract

Support