Steuerung multimodaler LLMs durch belohnungsgesteuerte Dekodierung
Controlling Multimodal LLMs via Reward-guided Decoding
August 15, 2025
papers.authors: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal
cs.AI
papers.abstract
Da Multimodale Große Sprachmodelle (MLLMs) zunehmend breite Anwendbarkeit finden, wird es immer wünschenswerter, sie an verschiedene Benutzerbedürfnisse anzupassen. In dieser Arbeit untersuchen wir die Anpassung von MLLMs durch kontrolliertes Decodieren. Um dies zu erreichen, führen wir die erste Methode für belohnungsgeführtes Decodieren von MLLMs ein und demonstrieren ihre Anwendung zur Verbesserung ihrer visuellen Verankerung. Unsere Methode umfasst den Aufbau von Belohnungsmodellen für die visuelle Verankerung und deren Nutzung zur Steuerung des Decodierungsprozesses des MLLMs. Konkret bauen wir zwei separate Belohnungsmodelle auf, um den Grad der Objektpräzision und der Objekterkennung in der Ausgabe des Modells unabhängig zu kontrollieren. Unser Ansatz ermöglicht eine Echtzeit-Kontrollierbarkeit des Inferenzprozesses eines MLLMs auf zwei Arten: erstens durch die Kontrolle über die relative Bedeutung jeder Belohnungsfunktion während des Decodierens, was es einem Benutzer ermöglicht, dynamisch zwischen Objektpräzision und Objekterkennung in Bildbeschreibungsaufgaben abzuwägen; zweitens durch die Kontrolle über die Breite der Suche während des Decodierens, was es dem Benutzer ermöglicht, den Kompromiss zwischen dem Rechenaufwand zur Testzeit und dem Grad der visuellen Verankerung zu steuern. Wir evaluieren unsere Methode anhand standardisierter Benchmarks zur Objekthalluzination und zeigen, dass sie eine signifikante Kontrollierbarkeit über die MLLM-Inferenz bietet, während sie bestehende Methoden zur Halluzinationsminderung konsequent übertrifft.
English
As Multimodal Large Language Models (MLLMs) gain widespread applicability, it
is becoming increasingly desirable to adapt them for diverse user needs. In
this paper, we study the adaptation of MLLMs through controlled decoding. To
achieve this, we introduce the first method for reward-guided decoding of MLLMs
and demonstrate its application in improving their visual grounding. Our method
involves building reward models for visual grounding and using them to guide
the MLLM's decoding process. Concretely, we build two separate reward models to
independently control the degree of object precision and recall in the model's
output. Our approach enables on-the-fly controllability of an MLLM's inference
process in two ways: first, by giving control over the relative importance of
each reward function during decoding, allowing a user to dynamically trade off
object precision for recall in image captioning tasks; second, by giving
control over the breadth of the search during decoding, allowing the user to
control the trade-off between the amount of test-time compute and the degree of
visual grounding. We evaluate our method on standard object hallucination
benchmarks, showing that it provides significant controllability over MLLM
inference, while consistently outperforming existing hallucination mitigation
methods.