Cuando las Palabras Superan a la Visión: Los Modelos de Lenguaje Visual Pueden Mejorarse Mediante Entrenamiento Solo con Texto para la Toma de Decisiones Centradas en el Ser Humano

Resumen

La toma de decisiones encarnada es fundamental para los agentes de IA que operan en entornos del mundo real. Si bien los Modelos de Lenguaje Visual (VLMs) han avanzado esta capacidad, aún enfrentan dificultades con decisiones complejas, particularmente en situaciones centradas en humanos que requieren un razonamiento profundo sobre las necesidades y valores humanos. En este estudio, evaluamos sistemáticamente VLMs de código abierto en tareas de toma de decisiones multimodales centradas en humanos. Descubrimos que los LLMs que reciben solo descripciones textuales superan inesperadamente a sus contrapartes VLM de escala similar que procesan imágenes reales, lo que sugiere que la alineación visual puede obstaculizar las habilidades de los VLMs. Para abordar este desafío, proponemos un novedoso enfoque de entrenamiento basado únicamente en texto con datos textuales sintetizados. Este método fortalece los componentes lingüísticos de los VLMs y transfiere las habilidades aprendidas a la inferencia multimodal, eliminando la necesidad de datos costosos de pares imagen-texto. Además, demostramos que los VLMs pueden lograr mejoras sustanciales en el rendimiento mediante la auto-mejora, utilizando datos de entrenamiento generados por sus contrapartes LLM en lugar de depender de modelos maestros más grandes como GPT-4. Nuestros hallazgos establecen un enfoque más eficiente y escalable para mejorar las capacidades de toma de decisiones centradas en humanos de los VLMs, abriendo nuevas vías para optimizar los VLMs a través de mecanismos de auto-mejora.

English

Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Cuando las Palabras Superan a la Visión: Los Modelos de Lenguaje Visual Pueden Mejorarse Mediante Entrenamiento Solo con Texto para la Toma de Decisiones Centradas en el Ser Humano

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Resumen

Support