LLaVA-Plus: Aprendendo a Usar Ferramentas para Criar Agentes Multimodais

Resumo

LLaVA-Plus é um assistente multimodal de propósito geral que amplia as capacidades de grandes modelos multimodais. Ele mantém um repositório de habilidades de modelos pré-treinados de visão e visão-linguagem e pode ativar ferramentas relevantes com base nas entradas dos usuários para realizar tarefas do mundo real. O LLaVA-Plus é treinado em dados de instrução multimodal para adquirir a capacidade de usar ferramentas, abrangendo compreensão visual, geração, recuperação de conhecimento externo e composições. Resultados empíricos mostram que o LLaVA-Plus supera o LLaVA em capacidades existentes e exibe novas habilidades. Ele se destaca pelo fato de que a consulta de imagem é diretamente fundamentada e ativamente engajada durante toda a sessão de interação humano-IA, melhorando significativamente o desempenho no uso de ferramentas e permitindo novos cenários.

English

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.

LLaVA-Plus: Aprendendo a Usar Ferramentas para Criar Agentes Multimodais

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Resumo

Support