ChatPaper.aiChatPaper

Contrôle des LLMs Multimodaux via un Décodage Guidé par Récompense

Controlling Multimodal LLMs via Reward-guided Decoding

August 15, 2025
papers.authors: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal
cs.AI

papers.abstract

Alors que les Modèles de Langage Multimodaux de Grande Tchelle (MLLMs) gagnent en applicabilité généralisée, il devient de plus en plus souhaitable de les adapter aux besoins divers des utilisateurs. Dans cet article, nous étudions l'adaptation des MLLMs par le biais du décodage contrôlé. Pour y parvenir, nous introduisons la première méthode de décodage guidé par récompense pour les MLLMs et démontrons son application pour améliorer leur ancrage visuel. Notre méthode implique la construction de modèles de récompense pour l'ancrage visuel et leur utilisation pour guider le processus de décodage du MLLM. Concrètement, nous construisons deux modèles de récompense distincts pour contrôler indépendamment le degré de précision et de rappel des objets dans la sortie du modèle. Notre approche permet une contrôlabilité en temps réel du processus d'inférence d'un MLLM de deux manières : premièrement, en offrant un contrôle sur l'importance relative de chaque fonction de récompense pendant le décodage, permettant à l'utilisateur de faire un compromis dynamique entre la précision et le rappel des objets dans les tâches de légendage d'images ; deuxièmement, en offrant un contrôle sur l'étendue de la recherche pendant le décodage, permettant à l'utilisateur de contrôler le compromis entre la quantité de calcul au moment du test et le degré d'ancrage visuel. Nous évaluons notre méthode sur des benchmarks standard de hallucination d'objets, montrant qu'elle offre une contrôlabilité significative sur l'inférence des MLLMs, tout en surpassant systématiquement les méthodes existantes de mitigation des hallucinations.
English
As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model's output. Our approach enables on-the-fly controllability of an MLLM's inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.
PDF52August 18, 2025