LLaVA-Plus: Leren om tools te gebruiken voor het creëren van multimodale agents

Samenvatting

LLaVA-Plus is een multifunctionele multimodale assistent die de mogelijkheden van grote multimodale modellen uitbreidt. Het beschikt over een repository van vooraf getrainde visuele en visueel-taalkundige modellen en kan relevante tools activeren op basis van gebruikersinvoer om real-world taken uit te voeren. LLaVA-Plus is getraind op multimodale instructievolgdata om het vermogen te verwerven om tools te gebruiken, waarbij visueel begrip, generatie, externe kennisretrieval en composities worden bestreken. Empirische resultaten tonen aan dat LLaVA-Plus LLaVA overtreft in bestaande capaciteiten en nieuwe mogelijkheden vertoont. Het onderscheidt zich doordat de beeldquery direct wordt verankerd en actief betrokken blijft gedurende de gehele mens-AI-interactiesessies, wat het gebruik van tools aanzienlijk verbetert en nieuwe scenario's mogelijk maakt.

English

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.

LLaVA-Plus: Leren om tools te gebruiken voor het creëren van multimodale agents

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Samenvatting

Support