ChatPaper.aiChatPaper

Steuerung multimodaler LLMs durch belohnungsgesteuerte Dekodierung

Controlling Multimodal LLMs via Reward-guided Decoding

August 15, 2025
papers.authors: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal
cs.AI

papers.abstract

Da Multimodale Große Sprachmodelle (MLLMs) zunehmend breite Anwendbarkeit finden, wird es immer wünschenswerter, sie an verschiedene Benutzerbedürfnisse anzupassen. In dieser Arbeit untersuchen wir die Anpassung von MLLMs durch kontrolliertes Decodieren. Um dies zu erreichen, führen wir die erste Methode für belohnungsgeführtes Decodieren von MLLMs ein und demonstrieren ihre Anwendung zur Verbesserung ihrer visuellen Verankerung. Unsere Methode umfasst den Aufbau von Belohnungsmodellen für die visuelle Verankerung und deren Nutzung zur Steuerung des Decodierungsprozesses des MLLMs. Konkret bauen wir zwei separate Belohnungsmodelle auf, um den Grad der Objektpräzision und der Objekterkennung in der Ausgabe des Modells unabhängig zu kontrollieren. Unser Ansatz ermöglicht eine Echtzeit-Kontrollierbarkeit des Inferenzprozesses eines MLLMs auf zwei Arten: erstens durch die Kontrolle über die relative Bedeutung jeder Belohnungsfunktion während des Decodierens, was es einem Benutzer ermöglicht, dynamisch zwischen Objektpräzision und Objekterkennung in Bildbeschreibungsaufgaben abzuwägen; zweitens durch die Kontrolle über die Breite der Suche während des Decodierens, was es dem Benutzer ermöglicht, den Kompromiss zwischen dem Rechenaufwand zur Testzeit und dem Grad der visuellen Verankerung zu steuern. Wir evaluieren unsere Methode anhand standardisierter Benchmarks zur Objekthalluzination und zeigen, dass sie eine signifikante Kontrollierbarkeit über die MLLM-Inferenz bietet, während sie bestehende Methoden zur Halluzinationsminderung konsequent übertrifft.
English
As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model's output. Our approach enables on-the-fly controllability of an MLLM's inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.
PDF52August 18, 2025