ChatPaper.aiChatPaper

LLaVA-Plus: Aprendiendo a Utilizar Herramientas para Crear Agentes Multimodales

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

November 9, 2023
Autores: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI

Resumen

LLaVA-Plus es un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes. Mantiene un repositorio de habilidades de modelos preentrenados de visión y visión-lenguaje, y puede activar herramientas relevantes basándose en las entradas de los usuarios para cumplir tareas del mundo real. LLaVA-Plus se entrena con datos multimodales de seguimiento de instrucciones para adquirir la capacidad de utilizar herramientas, abarcando comprensión visual, generación, recuperación de conocimiento externo y composiciones. Los resultados empíricos muestran que LLaVA-Plus supera a LLaVA en capacidades existentes y exhibe nuevas. Se distingue en que la consulta de imágenes está directamente fundamentada y activamente involucrada durante toda la sesión de interacción humano-IA, mejorando significativamente el rendimiento en el uso de herramientas y permitiendo nuevos escenarios.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.
PDF514December 15, 2024