LLaVA-Plus: Leren om tools te gebruiken voor het creëren van multimodale agents
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
November 9, 2023
Auteurs: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI
Samenvatting
LLaVA-Plus is een multifunctionele multimodale assistent die de mogelijkheden van grote multimodale modellen uitbreidt. Het beschikt over een repository van vooraf getrainde visuele en visueel-taalkundige modellen en kan relevante tools activeren op basis van gebruikersinvoer om real-world taken uit te voeren. LLaVA-Plus is getraind op multimodale instructievolgdata om het vermogen te verwerven om tools te gebruiken, waarbij visueel begrip, generatie, externe kennisretrieval en composities worden bestreken. Empirische resultaten tonen aan dat LLaVA-Plus LLaVA overtreft in bestaande capaciteiten en nieuwe mogelijkheden vertoont. Het onderscheidt zich doordat de beeldquery direct wordt verankerd en actief betrokken blijft gedurende de gehele mens-AI-interactiesessies, wat het gebruik van tools aanzienlijk verbetert en nieuwe scenario's mogelijk maakt.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the
capabilities of large multimodal models. It maintains a skill repository of
pre-trained vision and vision-language models and can activate relevant tools
based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on
multimodal instruction-following data to acquire the ability to use tools,
covering visual understanding, generation, external knowledge retrieval, and
compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in
existing capabilities and exhibits new ones. It is distinct in that the image
query is directly grounded and actively engaged throughout the entire human-AI
interaction sessions, significantly improving tool use performance and enabling
new scenarios.