Resumo: Modelo de Recompensa do Detetive em Nível de Token para Modelos de Grande Escala de Visão e Linguagem
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Autores: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Resumo
Embora os modelos de recompensa tenham sido bem-sucedidos na melhoria de modelos de linguagem multimodais de grande escala, os próprios modelos de recompensa permanecem brutos e contêm informações mínimas. Notavelmente, os modelos de recompensa existentes apenas imitam as anotações humanas atribuindo apenas um feedback binário a qualquer texto, não importa o quão longo seja o texto. No âmbito dos modelos de linguagem multimodais, onde os modelos precisam processar tanto imagens quanto textos, um modelo de recompensa ingênuo pode aprender vieses implícitos em relação aos textos e se tornar menos fundamentado em imagens. Neste artigo, propomos um Modelo de Recompensa de Detetive em Nível de Token (TLDR) para fornecer anotações detalhadas a cada token de texto. Primeiramente, introduzimos um método baseado em perturbação para gerar negativos sintéticos difíceis e seus rótulos em nível de token para treinar modelos TLDR. Em seguida, demonstramos a grande utilidade dos modelos TLDR tanto em auxiliar modelos prontos a se autocorrigirem em suas gerações, quanto em servir como uma ferramenta de avaliação de alucinação. Por fim, mostramos que os modelos TLDR podem acelerar significativamente a anotação humana em 3 vezes para adquirir uma gama mais ampla de dados de linguagem visual de alta qualidade.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary