Multimodale LLM's besturen via beloningsgestuurde decodering

Samenvatting

Naarmate Multimodale Grote Taalmodellen (MLLMs) steeds breder toepasbaar worden, wordt het steeds wenselijker om ze aan te passen aan diverse gebruikersbehoeften. In dit artikel bestuderen we de aanpassing van MLLMs via gecontroleerde decodering. Hiervoor introduceren we de eerste methode voor beloningsgestuurde decodering van MLLMs en demonstreren we de toepassing ervan in het verbeteren van hun visuele verankering. Onze methode omvat het bouwen van beloningsmodellen voor visuele verankering en het gebruiken ervan om het decoderingproces van het MLLM te sturen. Concreet bouwen we twee afzonderlijke beloningsmodellen om onafhankelijk de mate van objectprecisie en -recall in de uitvoer van het model te beheersen. Onze aanpak maakt realtime beheersbaarheid van het inferentieproces van een MLLM mogelijk op twee manieren: ten eerste door controle te geven over het relatieve belang van elke beloningsfunctie tijdens het decoderen, waardoor een gebruiker dynamisch objectprecisie kan inruilen voor recall in beeldbeschrijvingstaken; ten tweede door controle te geven over de breedte van de zoekactie tijdens het decoderen, waardoor de gebruiker de afweging kan beheersen tussen de hoeveelheid rekentijd tijdens het testen en de mate van visuele verankering. We evalueren onze methode op standaard benchmarks voor objecthallucinatie en tonen aan dat deze aanzienlijke beheersbaarheid biedt over MLLM-inferentie, terwijl hij consistent beter presteert dan bestaande methoden voor het beperken van hallucinaties.

English

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model's output. Our approach enables on-the-fly controllability of an MLLM's inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.

Multimodale LLM's besturen via beloningsgestuurde decodering

Controlling Multimodal LLMs via Reward-guided Decoding

Samenvatting

Support