ReFoCUS : Optimisation de cadres guidée par renforcement pour la compréhension contextuelle
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding
June 2, 2025
Auteurs: Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
cs.AI
Résumé
Les récents progrès des modèles multi-modaux de grande taille (LMMs) ont permis un raisonnement efficace entre vision et langage, mais la capacité à comprendre le contenu vidéo reste limitée par des stratégies de sélection d'images sous-optimales. Les approches existantes reposent souvent sur des heuristiques statiques ou des modules de récupération externes pour fournir des informations sur les images aux modèles de langage vidéo (video-LLMs), ce qui peut échouer à fournir des informations pertinentes pour la requête. Dans ce travail, nous introduisons ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), un nouveau cadre d'optimisation au niveau des images qui déplace la cible d'optimisation des réponses textuelles vers la sélection des entrées visuelles. ReFoCUS apprend une politique de sélection d'images via l'apprentissage par renforcement, en utilisant des signaux de récompense dérivés d'un LMM de référence pour refléter les préférences intrinsèques du modèle pour les images qui soutiennent le mieux les réponses temporellement ancrées. Pour explorer efficacement le vaste espace combinatoire des images, nous employons une architecture de sélection conditionnelle et autorégressive qui assure la cohérence temporelle tout en réduisant la complexité. Notre approche ne nécessite pas de supervision explicite au niveau des images et améliore de manière constante les performances de raisonnement sur plusieurs benchmarks de questions-réponses vidéo, mettant en évidence les avantages de l'alignement de la sélection d'images avec l'utilité interne du modèle.
English
Recent progress in Large Multi-modal Models (LMMs) has enabled effective
vision-language reasoning, yet the ability to understand video content remains
constrained by suboptimal frame selection strategies. Existing approaches often
rely on static heuristics or external retrieval modules to feed frame
information into video-LLMs, which may fail to provide the query-relevant
information. In this work, we introduce ReFoCUS (Reinforcement-guided Frame
Optimization for Contextual UnderStanding), a novel frame-level policy
optimization framework that shifts the optimization target from textual
responses to visual input selection. ReFoCUS learns a frame selection policy
via reinforcement learning, using reward signals derived from a reference LMM
to reflect the model's intrinsic preferences for frames that best support
temporally grounded responses. To efficiently explore the large combinatorial
frame space, we employ an autoregressive, conditional selection architecture
that ensures temporal coherence while reducing complexity. Our approach does
not require explicit supervision at the frame-level and consistently improves
reasoning performance across multiple video QA benchmarks, highlighting the
benefits of aligning frame selection with model-internal utility.