Oltre gli Errori Percettivi: Fissazione Semantica nei Grandi Modelli Visione-Linguaggio

Abstract

I grandi modelli visione-linguaggio (VLM) spesso fanno affidamento su prior semantiche familiari, ma le valutazioni esistenti non separano chiaramente i fallimenti percettivi dai fallimenti di mappatura delle regole. Studiamo questo comportamento come fissazione semantica: la tendenza a preservare un'interpretazione predefinita anche quando il prompt specifica una mappatura alternativa ugualmente valida. Per isolare questo effetto, introduciamo VLM-Fix, un benchmark controllato su quattro giochi di strategia astratti che valuta stati finali identici della scacchiera sotto formulazioni di regole standard e inverse accoppiate. Attraverso 14 VLM open e closed, l'accuratezza favorisce costantemente le regole standard, rivelando un robusto divario da fissazione semantica. Gli interventi sui prompt supportano questo meccanismo: prompt con alias neutri riducono sostanzialmente il divario per le regole inverse, mentre alias semanticamente carichi lo riaprono. L'addestramento post-training è fortemente allineato alla regola: l'addestramento su una regola migliora il transfer sulla stessa regola ma danneggia il transfer sulla regola opposta, mentre un addestramento congiunto su entrambe le regole migliora un transfer più ampio. Per testare la validità esterna al di là dei giochi sintetici, valutiamo interventi analoghi di defamiliarizzazione su VLMBias e osserviamo lo stesso pattern qualitativo. Infine, lo steering delle attivazioni negli strati finali recupera parzialmente le prestazioni degradate, indicando che gli errori da fissazione semantica sono almeno in parte modificabili nelle rappresentazioni finali. Pagina del progetto, codice e dataset disponibili su https://maveryn.github.io/vlm-fix/.

English

Large vision-language models (VLMs) often rely on familiar semantic priors, but existing evaluations do not cleanly separate perception failures from rule-mapping failures. We study this behavior as semantic fixation: preserving a default interpretation even when the prompt specifies an alternative, equally valid mapping. To isolate this effect, we introduce VLM-Fix, a controlled benchmark over four abstract strategy games that evaluates identical terminal board states under paired standard and inverse rule formulations. Across 14 open and closed VLMs, accuracy consistently favors standard rules, revealing a robust semantic-fixation gap. Prompt interventions support this mechanism: neutral alias prompts substantially narrow the inverse-rule gap, while semantically loaded aliases reopen it. Post-training is strongly rule-aligned: training on one rule improves same-rule transfer but hurts opposite-rule transfer, while joint-rule training improves broader transfer. To test external validity beyond synthetic games, we evaluate analogous defamiliarization interventions on VLMBias and observe the same qualitative pattern. Finally, late-layer activation steering partially recovers degraded performance, indicating that semantic-fixation errors are at least partly editable in late representations. Project page, code, and dataset available at https://maveryn.github.io/vlm-fix/.

Oltre gli Errori Percettivi: Fissazione Semantica nei Grandi Modelli Visione-Linguaggio

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

Abstract

Support