¿Palabras o visión: ¿Los modelos de visión y lenguaje tienen una fe ciega en el texto?
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?
March 4, 2025
Autores: Ailin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) sobresalen en la integración de información visual y textual para tareas centradas en la visión, pero su manejo de inconsistencias entre modalidades ha sido poco explorado. Investigamos las preferencias de modalidad de los VLMs cuando se enfrentan a datos visuales y entradas textuales variadas en contextos centrados en la visión. Al introducir variaciones textuales en cuatro tareas centradas en la visión y evaluar diez Modelos de Visión-Lenguaje (VLMs), descubrimos un fenómeno de "fe ciega en el texto": los VLMs confían desproporcionadamente en los datos textuales sobre los visuales cuando surgen inconsistencias, lo que lleva a caídas significativas en el rendimiento bajo texto corrupto y plantea preocupaciones de seguridad. Analizamos factores que influyen en este sesgo hacia el texto, incluyendo instrucciones de prompt, tamaño del modelo de lenguaje, relevancia del texto, orden de tokens y la interacción entre la certeza visual y textual. Mientras que ciertos factores, como escalar el tamaño del modelo de lenguaje, mitigan ligeramente el sesgo hacia el texto, otros como el orden de tokens pueden exacerbarlo debido a sesgos posicionales heredados de los modelos de lenguaje. Para abordar este problema, exploramos el ajuste fino supervisado con aumento de texto y demostramos su efectividad para reducir el sesgo hacia el texto. Además, proporcionamos un análisis teórico que sugiere que el fenómeno de fe ciega en el texto puede originarse en un desequilibrio entre datos puramente textuales y multimodales durante el entrenamiento. Nuestros hallazgos resaltan la necesidad de un entrenamiento equilibrado y una consideración cuidadosa de las interacciones entre modalidades en los VLMs para mejorar su robustez y confiabilidad al manejar inconsistencias en datos multimodales.
English
Vision-Language Models (VLMs) excel in integrating visual and textual
information for vision-centric tasks, but their handling of inconsistencies
between modalities is underexplored. We investigate VLMs' modality preferences
when faced with visual data and varied textual inputs in vision-centered
settings. By introducing textual variations to four vision-centric tasks and
evaluating ten Vision-Language Models (VLMs), we discover a ``blind faith
in text'' phenomenon: VLMs disproportionately trust textual data over visual
data when inconsistencies arise, leading to significant performance drops under
corrupted text and raising safety concerns. We analyze factors influencing this
text bias, including instruction prompts, language model size, text relevance,
token order, and the interplay between visual and textual certainty. While
certain factors, such as scaling up the language model size, slightly mitigate
text bias, others like token order can exacerbate it due to positional biases
inherited from language models. To address this issue, we explore supervised
fine-tuning with text augmentation and demonstrate its effectiveness in
reducing text bias. Additionally, we provide a theoretical analysis suggesting
that the blind faith in text phenomenon may stem from an imbalance of pure text
and multi-modal data during training. Our findings highlight the need for
balanced training and careful consideration of modality interactions in VLMs to
enhance their robustness and reliability in handling multi-modal data
inconsistencies.Summary
AI-Generated Summary