ChatPaper.aiChatPaper

Когда слова превосходят зрение: визуально-языковые модели могут самосовершенствоваться через обучение только на тексте для принятия решений, ориентированных на человека

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

March 21, 2025
Авторы: Zhe Hu, Jing Li, Yu Yin
cs.AI

Аннотация

Принятие решений в физическом мире является фундаментальным для ИИ-агентов, действующих в реальных условиях. Хотя визуально-языковые модели (VLM) продвинули эту способность, они все еще испытывают трудности с принятием сложных решений, особенно в ситуациях, ориентированных на человека, которые требуют глубокого анализа человеческих потребностей и ценностей. В данном исследовании мы систематически оцениваем открытые VLM на задачах многомодального принятия решений, ориентированных на человека. Мы обнаруживаем, что языковые модели (LLM), получающие только текстовые описания, неожиданно превосходят свои VLM-аналоги сопоставимого масштаба, обрабатывающие реальные изображения, что указывает на то, что визуальное выравнивание может ограничивать способности VLM. Для решения этой проблемы мы предлагаем новый подход к обучению только на текстовых данных с использованием синтезированных текстов. Этот метод усиливает языковые компоненты VLM и переносит полученные навыки на многомодальный вывод, устраняя необходимость в дорогостоящих парных данных "изображение-текст". Кроме того, мы показываем, что VLM могут достичь значительного улучшения производительности за счет самосовершенствования, используя обучающие данные, сгенерированные их LLM-аналогами, вместо того чтобы полагаться на более крупные учительские модели, такие как GPT-4. Наши результаты устанавливают более эффективный и масштабируемый подход к улучшению способностей VLM в принятии решений, ориентированных на человека, открывая новые пути для оптимизации VLM через механизмы самосовершенствования.
English
Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Summary

AI-Generated Summary

PDF42March 26, 2025