ChatPaper.aiChatPaper

Quando as Palavras Superam a Visão: VLMs Podem se Aprimorar por Meio de Treinamento Apenas com Texto para Tomada de Decisão Centrada no Ser Humano

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

March 21, 2025
Autores: Zhe Hu, Jing Li, Yu Yin
cs.AI

Resumo

A tomada de decisão incorporada é fundamental para agentes de IA que operam em ambientes do mundo real. Embora os Modelos de Linguagem Visual (VLMs) tenham avançado essa capacidade, eles ainda enfrentam dificuldades com decisões complexas, especialmente em situações centradas no ser humano que exigem raciocínio profundo sobre necessidades e valores humanos. Neste estudo, avaliamos sistematicamente VLMs de código aberto em tarefas multimodais de tomada de decisão centradas no ser humano. Descobrimos que modelos de linguagem (LLMs) que recebem apenas descrições textuais superam, de forma inesperada, seus equivalentes VLMs de escala semelhante que processam imagens reais, sugerindo que o alinhamento visual pode prejudicar as habilidades dos VLMs. Para enfrentar esse desafio, propomos uma nova abordagem de treinamento apenas com texto, utilizando dados textuais sintetizados. Esse método fortalece os componentes de linguagem dos VLMs e transfere as habilidades aprendidas para a inferência multimodal, eliminando a necessidade de dados caros de pares imagem-texto. Além disso, mostramos que os VLMs podem alcançar ganhos substanciais de desempenho por meio de autoaperfeiçoamento, utilizando dados de treinamento gerados por seus equivalentes LLMs, em vez de depender de modelos professores maiores, como o GPT-4. Nossas descobertas estabelecem uma abordagem mais eficiente e escalável para aprimorar as capacidades de tomada de decisão centrada no ser humano dos VLMs, abrindo novos caminhos para otimizar VLMs por meio de mecanismos de autoaperfeiçoamento.
English
Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Summary

AI-Generated Summary

PDF42March 26, 2025