ChatPaper.aiChatPaper

Краткое изложение: Модель вознаграждения детектива на уровне токенов для крупных моделей видео-языка.

TLDR: Token-Level Detective Reward Model for Large Vision Language Models

October 7, 2024
Авторы: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI

Аннотация

Хотя модели вознаграждения были успешны в улучшении мультимодальных больших языковых моделей, сами модели вознаграждения остаются грубыми и содержат минимум информации. Особенно следует отметить, что существующие модели вознаграждения лишь имитируют аннотации человека, присваивая только одну бинарную обратную связь любому тексту, независимо от его длины. В области мультимодальных языковых моделей, где модели должны обрабатывать как изображения, так и тексты, наивная модель вознаграждения может учиться неявным предвзятостям к текстам и терять связь с изображениями. В данной статье мы предлагаем модель вознаграждения детектива на уровне токенов (TLDR), чтобы предоставлять детализированные аннотации для каждого токена текста. Сначала мы представляем метод на основе возмущений для генерации синтетических трудных негативов и их меток на уровне токенов для обучения моделей TLDR. Затем мы показываем богатую полезность моделей TLDR как в помощи моделям "из коробки" самокорректировать свои генерации, так и в служении в качестве инструмента оценки галлюцинаций. Наконец, мы показываем, что модели TLDR могут значительно ускорить человеческую аннотацию в 3 раза для получения более широкого спектра высококачественных данных по видеоизображениям и языку.
English
Although reward models have been successful in improving multimodal large language models, the reward models themselves remain brutal and contain minimal information. Notably, existing reward models only mimic human annotations by assigning only one binary feedback to any text, no matter how long the text is. In the realm of multimodal language models, where models are required to process both images and texts, a naive reward model may learn implicit biases toward texts and become less grounded in images. In this paper, we propose a Token-Level Detective Reward Model (TLDR) to provide fine-grained annotations to each text token. We first introduce a perturbation-based method to generate synthetic hard negatives and their token-level labels to train TLDR models. Then we show the rich usefulness of TLDR models both in assisting off-the-shelf models to self-correct their generations, and in serving as a hallucination evaluation tool. Finally, we show that TLDR models can significantly speed up human annotation by 3 times to acquire a broader range of high-quality vision language data.

Summary

AI-Generated Summary

PDF172November 16, 2024