Allucinazione Multi-Oggetto nei Modelli Visione-Linguaggio
Multi-Object Hallucination in Vision-Language Models
July 8, 2024
Autori: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai
cs.AI
Abstract
I grandi modelli linguistici visivi (LVLM) spesso soffrono di allucinazioni oggettuali, producendo oggetti non presenti nelle immagini fornite. Mentre gli attuali benchmark per le allucinazioni oggettuali si concentrano principalmente sulla presenza di una singola classe di oggetti piuttosto che su entità individuali, questo lavoro indaga sistematicamente le allucinazioni multi-oggetto, esaminando come i modelli percepiscono erroneamente (ad esempio, inventano oggetti inesistenti o si distraggono) quando sono chiamati a concentrarsi su più oggetti contemporaneamente. Introduciamo la Valutazione basata su Riconoscimento Oggettuale (ROPE), un protocollo di valutazione automatizzato che considera la distribuzione delle classi di oggetti all'interno di una singola immagine durante il test e utilizza prompt visivi di riferimento per eliminare ambiguità. Con studi empirici completi e analisi dei potenziali fattori che portano alle allucinazioni multi-oggetto, abbiamo scoperto che (1) i LVLM soffrono di più allucinazioni quando si concentrano su più oggetti rispetto a un singolo oggetto. (2) La distribuzione delle classi di oggetti testate influisce sui comportamenti di allucinazione, indicando che i LVLM potrebbero seguire scorciatoie e correlazioni spurie. (3) I comportamenti allucinatori sono influenzati da fattori specifici dei dati, salienza e frequenza, e da comportamenti intrinseci del modello. Speriamo di permettere ai LVLM di riconoscere e ragionare su più oggetti che spesso si presentano in scene visive realistiche, fornire intuizioni e quantificare i progressi verso la mitigazione di questi problemi.
English
Large vision language models (LVLMs) often suffer from object hallucination,
producing objects not present in the given images. While current benchmarks for
object hallucination primarily concentrate on the presence of a single object
class rather than individual entities, this work systematically investigates
multi-object hallucination, examining how models misperceive (e.g., invent
nonexistent objects or become distracted) when tasked with focusing on multiple
objects simultaneously. We introduce Recognition-based Object Probing
Evaluation (ROPE), an automated evaluation protocol that considers the
distribution of object classes within a single image during testing and uses
visual referring prompts to eliminate ambiguity. With comprehensive empirical
studies and analysis of potential factors leading to multi-object
hallucination, we found that (1) LVLMs suffer more hallucinations when focusing
on multiple objects compared to a single object. (2) The tested object class
distribution affects hallucination behaviors, indicating that LVLMs may follow
shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced
by data-specific factors, salience and frequency, and model intrinsic
behaviors. We hope to enable LVLMs to recognize and reason about multiple
objects that often occur in realistic visual scenes, provide insights, and
quantify our progress towards mitigating the issues.