Wanneer Woorden Visie Overtreffen: VLMs Kunnen Zichzelf Verbeteren via Tekst-alleen Training voor Mensgerichte Besluitvorming

Samenvatting

Belichaamde besluitvorming is fundamenteel voor AI-agenten die opereren in realistische omgevingen. Hoewel Visuele Taalmodellen (VLMs) deze capaciteit hebben verbeterd, worstelen ze nog steeds met complexe beslissingen, met name in mensgerichte situaties die diepgaand redeneren over menselijke behoeften en waarden vereisen. In deze studie evalueren we systematisch open-source VLMs op multimodale, mensgerichte besluitvormingstaken. We ontdekken dat taalmodelvarianten (LLMs) die alleen tekstuele beschrijvingen ontvangen, onverwacht beter presteren dan hun VLM-tegenhangers van vergelijkbare omvang die daadwerkelijke afbeeldingen verwerken, wat suggereert dat visuele uitlijning de mogelijkheden van VLMs kan belemmeren. Om deze uitdaging aan te pakken, stellen we een nieuwe tekstgerichte trainingsmethode voor met gesynthetiseerde tekstuele data. Deze methode versterkt de taalcomponenten van VLMs en draagt de geleerde vaardigheden over naar multimodale inferentie, waardoor de noodzaak voor dure beeld-tekstgepaarde data wordt geëlimineerd. Bovendien tonen we aan dat VLMs aanzienlijke prestatieverbeteringen kunnen bereiken door zelfverbetering, waarbij ze trainingsdata gebruiken die gegenereerd is door hun LLM-tegenhangers in plaats van te vertrouwen op grotere leraarmodellen zoals GPT-4. Onze bevindingen leggen een efficiëntere en schaalbare benadering vast voor het verbeteren van de mensgerichte besluitvormingscapaciteiten van VLMs, wat nieuwe mogelijkheden opent voor het optimaliseren van VLMs via zelfverbeteringsmechanismen.

English

Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Wanneer Woorden Visie Overtreffen: VLMs Kunnen Zichzelf Verbeteren via Tekst-alleen Training voor Mensgerichte Besluitvorming

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Samenvatting

Support