Sommario: Modello di Ricompensa del Detective a Livello di Token per Grandi Modelli di Visione Linguistica
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Autori: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Abstract
Sebbene i modelli di ricompensa abbiano avuto successo nel migliorare i modelli di linguaggio multimodali di grandi dimensioni, i modelli di ricompensa stessi rimangono rudimentali e contengono informazioni minime. In particolare, i modelli di ricompensa esistenti si limitano a imitare le annotazioni umane assegnando un unico feedback binario a qualsiasi testo, indipendentemente dalla lunghezza del testo. Nel campo dei modelli di linguaggio multimodali, dove i modelli devono elaborare sia immagini che testi, un modello di ricompensa ingenuo potrebbe apprendere dei bias impliciti verso i testi e distaccarsi dalle immagini. In questo articolo, proponiamo un Modello di Ricompensa Detective a Livello di Token (TLDR) per fornire annotazioni dettagliate a livello di token per ciascun testo. Introduciamo innanzitutto un metodo basato su perturbazioni per generare negativi sintetici difficili e le relative etichette a livello di token per addestrare i modelli TLDR. Successivamente mostriamo la grande utilità dei modelli TLDR sia nell'assistere i modelli pronti all'uso a correggere autonomamente le loro generazioni, sia nel servire come strumento di valutazione delle allucinazioni. Infine, dimostriamo che i modelli TLDR possono accelerare significativamente l'annotazione umana di 3 volte per acquisire una gamma più ampia di dati di linguaggio visivo di alta qualità.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.