LLaVA-Plus: Apprendimento dell'Utilizzo di Strumenti per la Creazione di Agenti Multimodali

Abstract

LLaVA-Plus è un assistente multimodale generico che amplia le capacità dei grandi modelli multimodali. Mantiene un repository di competenze costituito da modelli pre-addestrati per la visione e per la combinazione di visione e linguaggio, ed è in grado di attivare strumenti rilevanti in base agli input degli utenti per svolgere compiti del mondo reale. LLaVA-Plus viene addestrato su dati multimodali che seguono istruzioni per acquisire la capacità di utilizzare strumenti, coprendo la comprensione visiva, la generazione, il recupero di conoscenze esterne e le composizioni. I risultati empirici dimostrano che LLaVA-Plus supera LLaVA nelle capacità esistenti e ne mostra di nuove. Si distingue per il fatto che la query basata sull'immagine è direttamente ancorata e attivamente coinvolta durante l'intera sessione di interazione uomo-AI, migliorando significativamente le prestazioni nell'uso degli strumenti e abilitando nuovi scenari.

English

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.

LLaVA-Plus: Apprendimento dell'Utilizzo di Strumenti per la Creazione di Agenti Multimodali

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Abstract

Support