Más allá de los errores de percepción: Fijación semántica en los grandes modelos de visión y lenguaje

Resumen

Los grandes modelos de visión y lenguaje (VLM) a menudo dependen de conocimientos previos semánticos familiares, pero las evaluaciones existentes no separan claramente los fallos de percepción de los fallos de mapeo de reglas. Estudiamos este comportamiento como **fijación semántica**: preservar una interpretación por defecto incluso cuando la instrucción especifica un mapeo alternativo igualmente válido. Para aislar este efecto, presentamos **VLM-Fix**, un benchmark controlado con cuatro juegos de estrategia abstractos que evalúa estados finales de tablero idénticos bajo formulaciones de reglas estándar e inversas emparejadas. En 14 VLMs abiertos y cerrados, la precisión favorece consistentemente las reglas estándar, revelando una **brecha de fijación semántica** robusta. Las intervenciones en las instrucciones respaldan este mecanismo: instrucciones con alias neutrales reducen sustancialmente la brecha de reglas inversas, mientras que los alias con carga semántica la reabren. El ajuste posterior está fuertemente alineado con las reglas: entrenar con una regla mejora la transferencia a la misma regla pero perjudica la transferencia a la regla opuesta, mientras que el entrenamiento conjunto mejora la transferencia general. Para probar la validez externa más allá de los juegos sintéticos, evaluamos intervenciones análogas de desfamiliarización en VLMBias y observamos el mismo patrón cualitativo. Finalmente, la dirección de activaciones en capas tardías recupera parcialmente el rendimiento degradado, lo que indica que los errores de fijación semántica son, al menos en parte, editables en las representaciones tardías. Página del proyecto, código y conjunto de datos disponibles en https://maveryn.github.io/vlm-fix/.

English

Large vision-language models (VLMs) often rely on familiar semantic priors, but existing evaluations do not cleanly separate perception failures from rule-mapping failures. We study this behavior as semantic fixation: preserving a default interpretation even when the prompt specifies an alternative, equally valid mapping. To isolate this effect, we introduce VLM-Fix, a controlled benchmark over four abstract strategy games that evaluates identical terminal board states under paired standard and inverse rule formulations. Across 14 open and closed VLMs, accuracy consistently favors standard rules, revealing a robust semantic-fixation gap. Prompt interventions support this mechanism: neutral alias prompts substantially narrow the inverse-rule gap, while semantically loaded aliases reopen it. Post-training is strongly rule-aligned: training on one rule improves same-rule transfer but hurts opposite-rule transfer, while joint-rule training improves broader transfer. To test external validity beyond synthetic games, we evaluate analogous defamiliarization interventions on VLMBias and observe the same qualitative pattern. Finally, late-layer activation steering partially recovers degraded performance, indicating that semantic-fixation errors are at least partly editable in late representations. Project page, code, and dataset available at https://maveryn.github.io/vlm-fix/.

Más allá de los errores de percepción: Fijación semántica en los grandes modelos de visión y lenguaje

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

Resumen

Support