Zusammenfassung: Token-Level-Detektiv-Belohnungsmodell für große Vision-Sprach-Modelle
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Autoren: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Zusammenfassung
Obwohl Belohnungsmodelle erfolgreich waren, um multimodale große Sprachmodelle zu verbessern, bleiben die Belohnungsmodelle selbst grob und enthalten minimale Informationen. Insbesondere imitieren bestehende Belohnungsmodelle lediglich menschliche Annotationen, indem sie nur ein binäres Feedback für jeden Text zuweisen, unabhängig von der Textlänge. Im Bereich der multimodalen Sprachmodelle, in dem Modelle sowohl Bilder als auch Texte verarbeiten müssen, könnte ein naives Belohnungsmodell implizite Voreingenommenheiten gegenüber Texten erlernen und weniger in Bildern verankert sein. In diesem Papier schlagen wir ein Token-Level Detective Belohnungsmodell (TLDR) vor, um feingliedrige Annotationen für jedes Text-Token bereitzustellen. Zunächst führen wir eine störungsbasierte Methode ein, um synthetische harte Negativbeispiele und deren Token-Level-Labels zu generieren, um TLDR-Modelle zu trainieren. Anschließend zeigen wir die vielfältige Nützlichkeit von TLDR-Modellen sowohl bei der Unterstützung von Out-of-the-Box-Modellen bei der Selbstkorrektur ihrer Generierungen als auch als Werkzeug zur Bewertung von Halluzinationen. Schließlich zeigen wir, dass TLDR-Modelle die menschliche Annotation signifikant um das 3-fache beschleunigen können, um einen breiteren Bereich hochwertiger visueller Sprachdaten zu erhalten.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary