要約: 大規模ビジョン言語モデル向けのトークンレベルのディテクティブ報酬モデル
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
著者: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
要旨
報酬モデルは、多様な大規模言語モデルの改善に成功してきましたが、報酬モデル自体は厳格で情報が最小限です。特筆すべきは、既存の報酬モデルが、テキストの長さに関係なく、テキストに対して1つのバイナリフィードバックのみを割り当てることで、人間の注釈を単なる模倣している点です。画像とテキストの両方を処理する必要がある多様な言語モデルの領域では、単純な報酬モデルはテキストに対する暗黙のバイアスを学習し、画像に根ざした性質を失いがちです。本論文では、各テキストトークンに細かい注釈を提供するToken-Level Detective Reward Model(TLDR)を提案します。TLDRモデルを訓練するために、合成された難解なネガティブとそれらのトークンレベルのラベルを生成する摂動ベースの手法をまず導入します。その後、TLDRモデルがオフザシェルフモデルが自己修正するのを支援するだけでなく、幻覚評価ツールとして役立つ豊かな有用性を示します。最後に、TLDRモデルが、高品質なビジョン言語データの幅広い範囲を取得するために、人間の注釈を3倍高速化できることを示します。
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary