LLaVA-Plus: Aprendiendo a Utilizar Herramientas para Crear Agentes Multimodales

Resumen

LLaVA-Plus es un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes. Mantiene un repositorio de habilidades de modelos preentrenados de visión y visión-lenguaje, y puede activar herramientas relevantes basándose en las entradas de los usuarios para cumplir tareas del mundo real. LLaVA-Plus se entrena con datos multimodales de seguimiento de instrucciones para adquirir la capacidad de utilizar herramientas, abarcando comprensión visual, generación, recuperación de conocimiento externo y composiciones. Los resultados empíricos muestran que LLaVA-Plus supera a LLaVA en capacidades existentes y exhibe nuevas. Se distingue en que la consulta de imágenes está directamente fundamentada y activamente involucrada durante toda la sesión de interacción humano-IA, mejorando significativamente el rendimiento en el uso de herramientas y permitiendo nuevos escenarios.

English

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.

LLaVA-Plus: Aprendiendo a Utilizar Herramientas para Crear Agentes Multimodales

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Resumen

Support