Samenvatting: Token-Niveau Detective Beloningsmodel voor Grote Visie-Taalmodellen
TLDR: Token-Level Detective Reward Model for Large Vision Language Models
October 7, 2024
Auteurs: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
cs.AI
Samenvatting
Hoewel beloningsmodellen succesvol zijn geweest in het verbeteren van multimodale grote taalmodellen, blijven de beloningsmodellen zelf beperkt en bevatten ze minimale informatie. Opmerkelijk is dat bestaande beloningsmodellen alleen menselijke annotaties nabootsen door slechts één binaire feedback aan elk stuk tekst toe te wijzen, ongeacht de lengte van de tekst. In het domein van multimodale taalmodellen, waar modellen zowel afbeeldingen als tekst moeten verwerken, kan een naïef beloningsmodel impliciete vooroordelen tegen teksten leren en minder verankerd raken in afbeeldingen. In dit artikel stellen we een Token-Level Detective Reward Model (TLDR) voor om gedetailleerde annotaties te verstrekken aan elk teksttoken. We introduceren eerst een op verstoringen gebaseerde methode om synthetische harde negatieven en hun token-level labels te genereren om TLDR-modellen te trainen. Vervolgens tonen we de rijke bruikbaarheid van TLDR-modellen zowel bij het helpen van kant-en-klare modellen om hun generaties zelf te corrigeren, als bij het dienen als een hallucinatie-evaluatietool. Ten slotte laten we zien dat TLDR-modellen de menselijke annotatie aanzienlijk kunnen versnellen met een factor 3 om een breder scala aan hoogwaardige visuele taalgegevens te verkrijgen.
English
Although reward models have been successful in improving multimodal large
language models, the reward models themselves remain brutal and contain minimal
information. Notably, existing reward models only mimic human annotations by
assigning only one binary feedback to any text, no matter how long the text is.
In the realm of multimodal language models, where models are required to
process both images and texts, a naive reward model may learn implicit biases
toward texts and become less grounded in images. In this paper, we propose a
Token-Level Detective Reward Model
(TLDR) to provide fine-grained annotations to each text token. We
first introduce a perturbation-based method to generate synthetic hard
negatives and their token-level labels to train TLDR models. Then we show the
rich usefulness of TLDR models both in assisting off-the-shelf models to
self-correct their generations, and in serving as a hallucination evaluation
tool. Finally, we show that TLDR models can significantly speed up human
annotation by 3 times to acquire a broader range of high-quality vision
language data.Summary
AI-Generated Summary