Multimodale LLM's besturen via beloningsgestuurde decodering
Controlling Multimodal LLMs via Reward-guided Decoding
August 15, 2025
Auteurs: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal
cs.AI
Samenvatting
Naarmate Multimodale Grote Taalmodellen (MLLMs) steeds breder toepasbaar worden, wordt het steeds wenselijker om ze aan te passen aan diverse gebruikersbehoeften. In dit artikel bestuderen we de aanpassing van MLLMs via gecontroleerde decodering. Hiervoor introduceren we de eerste methode voor beloningsgestuurde decodering van MLLMs en demonstreren we de toepassing ervan in het verbeteren van hun visuele verankering. Onze methode omvat het bouwen van beloningsmodellen voor visuele verankering en het gebruiken ervan om het decoderingproces van het MLLM te sturen. Concreet bouwen we twee afzonderlijke beloningsmodellen om onafhankelijk de mate van objectprecisie en -recall in de uitvoer van het model te beheersen. Onze aanpak maakt realtime beheersbaarheid van het inferentieproces van een MLLM mogelijk op twee manieren: ten eerste door controle te geven over het relatieve belang van elke beloningsfunctie tijdens het decoderen, waardoor een gebruiker dynamisch objectprecisie kan inruilen voor recall in beeldbeschrijvingstaken; ten tweede door controle te geven over de breedte van de zoekactie tijdens het decoderen, waardoor de gebruiker de afweging kan beheersen tussen de hoeveelheid rekentijd tijdens het testen en de mate van visuele verankering. We evalueren onze methode op standaard benchmarks voor objecthallucinatie en tonen aan dat deze aanzienlijke beheersbaarheid biedt over MLLM-inferentie, terwijl hij consistent beter presteert dan bestaande methoden voor het beperken van hallucinaties.
English
As Multimodal Large Language Models (MLLMs) gain widespread applicability, it
is becoming increasingly desirable to adapt them for diverse user needs. In
this paper, we study the adaptation of MLLMs through controlled decoding. To
achieve this, we introduce the first method for reward-guided decoding of MLLMs
and demonstrate its application in improving their visual grounding. Our method
involves building reward models for visual grounding and using them to guide
the MLLM's decoding process. Concretely, we build two separate reward models to
independently control the degree of object precision and recall in the model's
output. Our approach enables on-the-fly controllability of an MLLM's inference
process in two ways: first, by giving control over the relative importance of
each reward function during decoding, allowing a user to dynamically trade off
object precision for recall in image captioning tasks; second, by giving
control over the breadth of the search during decoding, allowing the user to
control the trade-off between the amount of test-time compute and the degree of
visual grounding. We evaluate our method on standard object hallucination
benchmarks, showing that it provides significant controllability over MLLM
inference, while consistently outperforming existing hallucination mitigation
methods.