Multi-object hallucinatie in visueel-taalkundige modellen

Samenvatting

Grote visuele taalmodellen (LVLMs) hebben vaak last van objecthallucinatie, waarbij ze objecten produceren die niet aanwezig zijn in de gegeven afbeeldingen. Hoewel huidige benchmarks voor objecthallucinatie zich vooral richten op de aanwezigheid van een enkele objectklasse in plaats van individuele entiteiten, onderzoekt dit werk systematisch multi-object hallucinatie, waarbij wordt bekeken hoe modellen zich vergissen (bijvoorbeeld door niet-bestaande objecten te verzinnen of afgeleid te raken) wanneer ze de taak krijgen om zich op meerdere objecten tegelijk te concentreren. We introduceren Recognition-based Object Probing Evaluation (ROPE), een geautomatiseerd evaluatieprotocol dat rekening houdt met de verdeling van objectklassen binnen een enkele afbeelding tijdens het testen en visuele verwijzingsprompts gebruikt om ambiguïteit te elimineren. Met uitgebreide empirische studies en analyse van potentiële factoren die leiden tot multi-object hallucinatie, hebben we ontdekt dat (1) LVLMs meer hallucinaties vertonen wanneer ze zich op meerdere objecten concentreren in vergelijking met een enkel object. (2) De geteste verdeling van objectklassen beïnvloedt hallucinatiegedrag, wat aangeeft dat LVLMs mogelijk shortcuts en valse correlaties volgen. (3) Hallucinatoir gedrag wordt beïnvloed door data-specifieke factoren, zoals opvallendheid en frequentie, en intrinsiek modelgedrag. We hopen LVLMs in staat te stellen meerdere objecten te herkennen en te redeneren die vaak voorkomen in realistische visuele scènes, inzichten te bieden en onze voortgang bij het verminderen van deze problemen te kwantificeren.

English

Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.

Multi-object hallucinatie in visueel-taalkundige modellen

Multi-Object Hallucination in Vision-Language Models

Samenvatting

Support