En résumé : Modèle de récompense du détective au niveau du jeton pour les grands modèles de vision par ordinateur et de langage.
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Auteurs: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Résumé
Bien que les modèles de récompense aient été efficaces pour améliorer les grands modèles de langage multimodaux, les modèles de récompense eux-mêmes restent rudimentaires et contiennent un minimum d'informations. Notamment, les modèles de récompense existants se contentent de reproduire les annotations humaines en attribuant un seul retour binaire à n'importe quel texte, quelle que soit sa longueur. Dans le domaine des modèles de langage multimodaux, où les modèles doivent traiter à la fois des images et des textes, un modèle de récompense naïf peut apprendre des biais implicites envers les textes et devenir moins ancré dans les images. Dans cet article, nous proposons un modèle de récompense détective au niveau du token (TLDR) pour fournir des annotations détaillées à chaque token de texte. Nous introduisons d'abord une méthode basée sur la perturbation pour générer des faux négatifs synthétiques et leurs étiquettes au niveau des tokens pour entraîner les modèles TLDR. Ensuite, nous montrons l'utilité riche des modèles TLDR à la fois pour aider les modèles prêts à l'emploi à s'auto-corriger dans leurs générations, et pour servir d'outil d'évaluation des hallucinations. Enfin, nous montrons que les modèles TLDR peuvent accélérer de manière significative l'annotation humaine de 3 fois pour acquérir une gamme plus large de données de langage visuel de haute qualité.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary