ChatPaper.aiChatPaper

LLaVA-Plus: Erlernen der Werkzeugnutzung zur Erstellung multimodaler Agenten

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

November 9, 2023
Autoren: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI

Zusammenfassung

LLaVA-Plus ist ein universeller multimodaler Assistent, der die Fähigkeiten großer multimodaler Modelle erweitert. Es verwaltet ein Repository vorgefertigter Modelle für visuelle und visuell-sprachliche Aufgaben und kann relevante Werkzeuge basierend auf Benutzereingaben aktivieren, um reale Aufgaben zu erfüllen. LLaVA-Plus wird an multimodalen Instruktionsfolgedaten trainiert, um die Fähigkeit zur Nutzung von Werkzeugen zu erlangen, die visuelles Verständnis, Generierung, externe Wissensabfrage und Kompositionen abdecken. Empirische Ergebnisse zeigen, dass LLaVA-Plus LLaVA in bestehenden Fähigkeiten übertrifft und neue Fähigkeiten aufweist. Es zeichnet sich dadurch aus, dass die Bildabfrage direkt verankert und aktiv während der gesamten Mensch-AI-Interaktionssitzungen einbezogen wird, was die Leistung bei der Werkzeugnutzung erheblich verbessert und neue Szenarien ermöglicht.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.
PDF514December 15, 2024