Allucinazione Multi-Oggetto nei Modelli Visione-Linguaggio

Abstract

I grandi modelli linguistici visivi (LVLM) spesso soffrono di allucinazioni oggettuali, producendo oggetti non presenti nelle immagini fornite. Mentre gli attuali benchmark per le allucinazioni oggettuali si concentrano principalmente sulla presenza di una singola classe di oggetti piuttosto che su entità individuali, questo lavoro indaga sistematicamente le allucinazioni multi-oggetto, esaminando come i modelli percepiscono erroneamente (ad esempio, inventano oggetti inesistenti o si distraggono) quando sono chiamati a concentrarsi su più oggetti contemporaneamente. Introduciamo la Valutazione basata su Riconoscimento Oggettuale (ROPE), un protocollo di valutazione automatizzato che considera la distribuzione delle classi di oggetti all'interno di una singola immagine durante il test e utilizza prompt visivi di riferimento per eliminare ambiguità. Con studi empirici completi e analisi dei potenziali fattori che portano alle allucinazioni multi-oggetto, abbiamo scoperto che (1) i LVLM soffrono di più allucinazioni quando si concentrano su più oggetti rispetto a un singolo oggetto. (2) La distribuzione delle classi di oggetti testate influisce sui comportamenti di allucinazione, indicando che i LVLM potrebbero seguire scorciatoie e correlazioni spurie. (3) I comportamenti allucinatori sono influenzati da fattori specifici dei dati, salienza e frequenza, e da comportamenti intrinseci del modello. Speriamo di permettere ai LVLM di riconoscere e ragionare su più oggetti che spesso si presentano in scene visive realistiche, fornire intuizioni e quantificare i progressi verso la mitigazione di questi problemi.

English

Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.

Allucinazione Multi-Oggetto nei Modelli Visione-Linguaggio

Multi-Object Hallucination in Vision-Language Models

Abstract

Support