LLaVA-Plus: Aprendendo a Usar Ferramentas para Criar Agentes Multimodais
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
November 9, 2023
Autores: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI
Resumo
LLaVA-Plus é um assistente multimodal de propósito geral que amplia as capacidades de grandes modelos multimodais. Ele mantém um repositório de habilidades de modelos pré-treinados de visão e visão-linguagem e pode ativar ferramentas relevantes com base nas entradas dos usuários para realizar tarefas do mundo real. O LLaVA-Plus é treinado em dados de instrução multimodal para adquirir a capacidade de usar ferramentas, abrangendo compreensão visual, geração, recuperação de conhecimento externo e composições. Resultados empíricos mostram que o LLaVA-Plus supera o LLaVA em capacidades existentes e exibe novas habilidades. Ele se destaca pelo fato de que a consulta de imagem é diretamente fundamentada e ativamente engajada durante toda a sessão de interação humano-IA, melhorando significativamente o desempenho no uso de ferramentas e permitindo novos cenários.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the
capabilities of large multimodal models. It maintains a skill repository of
pre-trained vision and vision-language models and can activate relevant tools
based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on
multimodal instruction-following data to acquire the ability to use tools,
covering visual understanding, generation, external knowledge retrieval, and
compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in
existing capabilities and exhibits new ones. It is distinct in that the image
query is directly grounded and actively engaged throughout the entire human-AI
interaction sessions, significantly improving tool use performance and enabling
new scenarios.