Cuando las Palabras Superan a la Visión: Los Modelos de Lenguaje Visual Pueden Mejorarse Mediante Entrenamiento Solo con Texto para la Toma de Decisiones Centradas en el Ser Humano
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
March 21, 2025
Autores: Zhe Hu, Jing Li, Yu Yin
cs.AI
Resumen
La toma de decisiones encarnada es fundamental para los agentes de IA que operan en entornos del mundo real. Si bien los Modelos de Lenguaje Visual (VLMs) han avanzado esta capacidad, aún enfrentan dificultades con decisiones complejas, particularmente en situaciones centradas en humanos que requieren un razonamiento profundo sobre las necesidades y valores humanos. En este estudio, evaluamos sistemáticamente VLMs de código abierto en tareas de toma de decisiones multimodales centradas en humanos. Descubrimos que los LLMs que reciben solo descripciones textuales superan inesperadamente a sus contrapartes VLM de escala similar que procesan imágenes reales, lo que sugiere que la alineación visual puede obstaculizar las habilidades de los VLMs. Para abordar este desafío, proponemos un novedoso enfoque de entrenamiento basado únicamente en texto con datos textuales sintetizados. Este método fortalece los componentes lingüísticos de los VLMs y transfiere las habilidades aprendidas a la inferencia multimodal, eliminando la necesidad de datos costosos de pares imagen-texto. Además, demostramos que los VLMs pueden lograr mejoras sustanciales en el rendimiento mediante la auto-mejora, utilizando datos de entrenamiento generados por sus contrapartes LLM en lugar de depender de modelos maestros más grandes como GPT-4. Nuestros hallazgos establecen un enfoque más eficiente y escalable para mejorar las capacidades de toma de decisiones centradas en humanos de los VLMs, abriendo nuevas vías para optimizar los VLMs a través de mecanismos de auto-mejora.
English
Embodied decision-making is fundamental for AI agents operating in real-world
environments. While Visual Language Models (VLMs) have advanced this
capability, they still struggle with complex decisions, particularly in
human-centered situations that require deep reasoning about human needs and
values. In this study, we systematically evaluate open-sourced VLMs on
multimodal human-centered decision-making tasks. We find that LLMs receiving
only textual descriptions unexpectedly outperform their VLM counterparts of
similar scale that process actual images, suggesting that visual alignment may
hinder VLM abilities. To address this challenge, we propose a novel text-only
training approach with synthesized textual data. This method strengthens VLMs'
language components and transfers the learned abilities to multimodal
inference, eliminating the need for expensive image-text paired data.
Furthermore, we show that VLMs can achieve substantial performance gains
through self-improvement, using training data generated by their LLM
counterparts rather than relying on larger teacher models like GPT-4. Our
findings establish a more efficient and scalable approach to enhancing VLMs'
human-centered decision-making capabilities, opening new avenues for optimizing
VLMs through self-improvement mechanisms.Summary
AI-Generated Summary