ChatPaper.aiChatPaper

LLaVA-Plus : Apprentissage de l'utilisation d'outils pour la création d'agents multimodaux

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

November 9, 2023
papers.authors: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI

papers.abstract

LLaVA-Plus est un assistant multimodal à usage général qui étend les capacités des grands modèles multimodaux. Il maintient un répertoire de compétences composé de modèles pré-entraînés pour la vision et le langage visuel, et peut activer des outils pertinents en fonction des entrées des utilisateurs pour accomplir des tâches du monde réel. LLaVA-Plus est entraîné sur des données d'instruction multimodales pour acquérir la capacité d'utiliser des outils, couvrant la compréhension visuelle, la génération, la récupération de connaissances externes et les compositions. Les résultats empiriques montrent que LLaVA-Plus surpasse LLaVA dans les capacités existantes et en présente de nouvelles. Il se distingue par le fait que la requête visuelle est directement ancrée et activement engagée tout au long des sessions d'interaction humain-IA, améliorant significativement l'utilisation des outils et permettant de nouveaux scénarios.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.
PDF514December 15, 2024