Quand les mots surpassent la vision : les modèles de langage visuel peuvent s'améliorer par un entraînement textuel seul pour la prise de décision centrée sur l'humain
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
March 21, 2025
Auteurs: Zhe Hu, Jing Li, Yu Yin
cs.AI
Résumé
La prise de décision incarnée est fondamentale pour les agents d'IA opérant dans des environnements réels. Bien que les modèles de langage visuel (VLMs) aient fait progresser cette capacité, ils peinent encore à prendre des décisions complexes, en particulier dans des situations centrées sur l'humain qui nécessitent un raisonnement approfondi sur les besoins et les valeurs humaines. Dans cette étude, nous évaluons systématiquement des VLMs open-source sur des tâches de prise de décision multimodale centrées sur l'humain. Nous constatons que les modèles de langage (LLMs) recevant uniquement des descriptions textuelles surpassent de manière inattendue leurs homologues VLMs de taille similaire qui traitent des images réelles, suggérant que l'alignement visuel pourrait entraver les capacités des VLMs. Pour relever ce défi, nous proposons une nouvelle approche d'entraînement basée uniquement sur du texte avec des données textuelles synthétisées. Cette méthode renforce les composants linguistiques des VLMs et transfère les capacités apprises à l'inférence multimodale, éliminant ainsi le besoin de données coûteuses associant images et texte. De plus, nous montrons que les VLMs peuvent obtenir des gains de performance substantiels grâce à l'auto-amélioration, en utilisant des données d'entraînement générées par leurs homologues LLMs plutôt que de dépendre de modèles enseignants plus grands comme GPT-4. Nos résultats établissent une approche plus efficace et évolutive pour améliorer les capacités de prise de décision centrée sur l'humain des VLMs, ouvrant de nouvelles voies pour optimiser les VLMs grâce à des mécanismes d'auto-amélioration.
English
Embodied decision-making is fundamental for AI agents operating in real-world
environments. While Visual Language Models (VLMs) have advanced this
capability, they still struggle with complex decisions, particularly in
human-centered situations that require deep reasoning about human needs and
values. In this study, we systematically evaluate open-sourced VLMs on
multimodal human-centered decision-making tasks. We find that LLMs receiving
only textual descriptions unexpectedly outperform their VLM counterparts of
similar scale that process actual images, suggesting that visual alignment may
hinder VLM abilities. To address this challenge, we propose a novel text-only
training approach with synthesized textual data. This method strengthens VLMs'
language components and transfers the learned abilities to multimodal
inference, eliminating the need for expensive image-text paired data.
Furthermore, we show that VLMs can achieve substantial performance gains
through self-improvement, using training data generated by their LLM
counterparts rather than relying on larger teacher models like GPT-4. Our
findings establish a more efficient and scalable approach to enhancing VLMs'
human-centered decision-making capabilities, opening new avenues for optimizing
VLMs through self-improvement mechanisms.Summary
AI-Generated Summary