Multi-object hallucinatie in visueel-taalkundige modellen
Multi-Object Hallucination in Vision-Language Models
July 8, 2024
Auteurs: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai
cs.AI
Samenvatting
Grote visuele taalmodellen (LVLMs) hebben vaak last van objecthallucinatie, waarbij ze objecten produceren die niet aanwezig zijn in de gegeven afbeeldingen. Hoewel huidige benchmarks voor objecthallucinatie zich vooral richten op de aanwezigheid van een enkele objectklasse in plaats van individuele entiteiten, onderzoekt dit werk systematisch multi-object hallucinatie, waarbij wordt bekeken hoe modellen zich vergissen (bijvoorbeeld door niet-bestaande objecten te verzinnen of afgeleid te raken) wanneer ze de taak krijgen om zich op meerdere objecten tegelijk te concentreren. We introduceren Recognition-based Object Probing Evaluation (ROPE), een geautomatiseerd evaluatieprotocol dat rekening houdt met de verdeling van objectklassen binnen een enkele afbeelding tijdens het testen en visuele verwijzingsprompts gebruikt om ambiguïteit te elimineren. Met uitgebreide empirische studies en analyse van potentiële factoren die leiden tot multi-object hallucinatie, hebben we ontdekt dat (1) LVLMs meer hallucinaties vertonen wanneer ze zich op meerdere objecten concentreren in vergelijking met een enkel object. (2) De geteste verdeling van objectklassen beïnvloedt hallucinatiegedrag, wat aangeeft dat LVLMs mogelijk shortcuts en valse correlaties volgen. (3) Hallucinatoir gedrag wordt beïnvloed door data-specifieke factoren, zoals opvallendheid en frequentie, en intrinsiek modelgedrag. We hopen LVLMs in staat te stellen meerdere objecten te herkennen en te redeneren die vaak voorkomen in realistische visuele scènes, inzichten te bieden en onze voortgang bij het verminderen van deze problemen te kwantificeren.
English
Large vision language models (LVLMs) often suffer from object hallucination,
producing objects not present in the given images. While current benchmarks for
object hallucination primarily concentrate on the presence of a single object
class rather than individual entities, this work systematically investigates
multi-object hallucination, examining how models misperceive (e.g., invent
nonexistent objects or become distracted) when tasked with focusing on multiple
objects simultaneously. We introduce Recognition-based Object Probing
Evaluation (ROPE), an automated evaluation protocol that considers the
distribution of object classes within a single image during testing and uses
visual referring prompts to eliminate ambiguity. With comprehensive empirical
studies and analysis of potential factors leading to multi-object
hallucination, we found that (1) LVLMs suffer more hallucinations when focusing
on multiple objects compared to a single object. (2) The tested object class
distribution affects hallucination behaviors, indicating that LVLMs may follow
shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced
by data-specific factors, salience and frequency, and model intrinsic
behaviors. We hope to enable LVLMs to recognize and reason about multiple
objects that often occur in realistic visual scenes, provide insights, and
quantify our progress towards mitigating the issues.