Eenvoudig vertrouwen op tokenniveau verbetert de correctheid van bijschriften.

Samenvatting

Het vermogen om te beoordelen of een bijschrift een afbeelding correct beschrijft, is een cruciaal onderdeel van visueel-taalkundig begrip. State-of-the-art modellen interpreteren echter vaak de correctheid van fijnmazige details verkeerd, wat leidt tot fouten in uitvoeren, zoals het hallucineren van objecten in gegenereerde bijschriften of slecht compositioneel redeneren. In dit werk onderzoeken we Token-Level Confidence, of TLC, als een eenvoudige maar verrassend effectieve methode om de correctheid van bijschriften te beoordelen. Specifiek fine-tunen we een visueel-taalkundig model op beeldbeschrijving, voeren een afbeelding en een voorgesteld bijschrift in het model in, en aggregeren algebraïsche of geleerde token-vertrouwenswaarden over woorden of sequenties om de consistentie tussen afbeelding en bijschrift te schatten. Vergeleken met sequentieniveau-scores van vooraf getrainde modellen, behaalt TLC met algebraïsche vertrouwensmaten een relatieve verbetering in nauwkeurigheid van 10% op werkwoordbegrip in SVO-Probes en overtreft het eerdere state-of-the-art in beeld- en groepsscores voor compositioneel redeneren in Winoground met respectievelijk 37% en 9%. Wanneer trainingsdata beschikbaar zijn, biedt een geleerde vertrouwensschatter een verdere verbeterde prestatie, waardoor de hallucinatiefrequentie van objecten in MS COCO Captions met een relatieve 30% wordt verminderd ten opzichte van het originele model en een nieuwe state-of-the-art wordt gevestigd.

English

The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.

Eenvoudig vertrouwen op tokenniveau verbetert de correctheid van bijschriften.

Simple Token-Level Confidence Improves Caption Correctness

Samenvatting

Support