Quand les mots surpassent la vision : les modèles de langage visuel peuvent s'améliorer par un entraînement textuel seul pour la prise de décision centrée sur l'humain

papers.abstract

La prise de décision incarnée est fondamentale pour les agents d'IA opérant dans des environnements réels. Bien que les modèles de langage visuel (VLMs) aient fait progresser cette capacité, ils peinent encore à prendre des décisions complexes, en particulier dans des situations centrées sur l'humain qui nécessitent un raisonnement approfondi sur les besoins et les valeurs humaines. Dans cette étude, nous évaluons systématiquement des VLMs open-source sur des tâches de prise de décision multimodale centrées sur l'humain. Nous constatons que les modèles de langage (LLMs) recevant uniquement des descriptions textuelles surpassent de manière inattendue leurs homologues VLMs de taille similaire qui traitent des images réelles, suggérant que l'alignement visuel pourrait entraver les capacités des VLMs. Pour relever ce défi, nous proposons une nouvelle approche d'entraînement basée uniquement sur du texte avec des données textuelles synthétisées. Cette méthode renforce les composants linguistiques des VLMs et transfère les capacités apprises à l'inférence multimodale, éliminant ainsi le besoin de données coûteuses associant images et texte. De plus, nous montrons que les VLMs peuvent obtenir des gains de performance substantiels grâce à l'auto-amélioration, en utilisant des données d'entraînement générées par leurs homologues LLMs plutôt que de dépendre de modèles enseignants plus grands comme GPT-4. Nos résultats établissent une approche plus efficace et évolutive pour améliorer les capacités de prise de décision centrée sur l'humain des VLMs, ouvrant de nouvelles voies pour optimiser les VLMs grâce à des mécanismes d'auto-amélioration.

English

Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Quand les mots surpassent la vision : les modèles de langage visuel peuvent s'améliorer par un entraînement textuel seul pour la prise de décision centrée sur l'humain

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

papers.abstract

Support