Wanneer Woorden Visie Overtreffen: VLMs Kunnen Zichzelf Verbeteren via Tekst-alleen Training voor Mensgerichte Besluitvorming
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
March 21, 2025
Auteurs: Zhe Hu, Jing Li, Yu Yin
cs.AI
Samenvatting
Belichaamde besluitvorming is fundamenteel voor AI-agenten die opereren in realistische omgevingen. Hoewel Visuele Taalmodellen (VLMs) deze capaciteit hebben verbeterd, worstelen ze nog steeds met complexe beslissingen, met name in mensgerichte situaties die diepgaand redeneren over menselijke behoeften en waarden vereisen. In deze studie evalueren we systematisch open-source VLMs op multimodale, mensgerichte besluitvormingstaken. We ontdekken dat taalmodelvarianten (LLMs) die alleen tekstuele beschrijvingen ontvangen, onverwacht beter presteren dan hun VLM-tegenhangers van vergelijkbare omvang die daadwerkelijke afbeeldingen verwerken, wat suggereert dat visuele uitlijning de mogelijkheden van VLMs kan belemmeren. Om deze uitdaging aan te pakken, stellen we een nieuwe tekstgerichte trainingsmethode voor met gesynthetiseerde tekstuele data. Deze methode versterkt de taalcomponenten van VLMs en draagt de geleerde vaardigheden over naar multimodale inferentie, waardoor de noodzaak voor dure beeld-tekstgepaarde data wordt geëlimineerd. Bovendien tonen we aan dat VLMs aanzienlijke prestatieverbeteringen kunnen bereiken door zelfverbetering, waarbij ze trainingsdata gebruiken die gegenereerd is door hun LLM-tegenhangers in plaats van te vertrouwen op grotere leraarmodellen zoals GPT-4. Onze bevindingen leggen een efficiëntere en schaalbare benadering vast voor het verbeteren van de mensgerichte besluitvormingscapaciteiten van VLMs, wat nieuwe mogelijkheden opent voor het optimaliseren van VLMs via zelfverbeteringsmechanismen.
English
Embodied decision-making is fundamental for AI agents operating in real-world
environments. While Visual Language Models (VLMs) have advanced this
capability, they still struggle with complex decisions, particularly in
human-centered situations that require deep reasoning about human needs and
values. In this study, we systematically evaluate open-sourced VLMs on
multimodal human-centered decision-making tasks. We find that LLMs receiving
only textual descriptions unexpectedly outperform their VLM counterparts of
similar scale that process actual images, suggesting that visual alignment may
hinder VLM abilities. To address this challenge, we propose a novel text-only
training approach with synthesized textual data. This method strengthens VLMs'
language components and transfers the learned abilities to multimodal
inference, eliminating the need for expensive image-text paired data.
Furthermore, we show that VLMs can achieve substantial performance gains
through self-improvement, using training data generated by their LLM
counterparts rather than relying on larger teacher models like GPT-4. Our
findings establish a more efficient and scalable approach to enhancing VLMs'
human-centered decision-making capabilities, opening new avenues for optimizing
VLMs through self-improvement mechanisms.Summary
AI-Generated Summary