En resumen: Modelo de Recompensa del Detective a Nivel de Token para Modelos de Gran Visión y Lenguaje.
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Autores: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Resumen
Aunque los modelos de recompensa han tenido éxito en mejorar los modelos de lenguaje multimodales a gran escala, los propios modelos de recompensa siguen siendo rudimentarios y contienen información mínima. Es importante destacar que los modelos de recompensa existentes solo imitan las anotaciones humanas asignando solo un feedback binario a cualquier texto, sin importar su longitud. En el ámbito de los modelos de lenguaje multimodales, donde se requiere que los modelos procesen tanto imágenes como textos, un modelo de recompensa ingenuo puede aprender sesgos implícitos hacia los textos y volverse menos fundamentado en las imágenes. En este documento, proponemos un Modelo de Recompensa Detectivo a Nivel de Token (TLDR, por sus siglas en inglés) para proporcionar anotaciones detalladas a cada token de texto. Primero introducimos un método basado en perturbaciones para generar negativos sintéticos difíciles y sus etiquetas a nivel de token para entrenar los modelos TLDR. Luego mostramos la gran utilidad de los modelos TLDR tanto para ayudar a los modelos listos para usar a corregir sus generaciones, como para servir como una herramienta de evaluación de alucinaciones. Finalmente, demostramos que los modelos TLDR pueden acelerar significativamente la anotación humana en 3 veces para adquirir un rango más amplio de datos de lenguaje visual de alta calidad.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary