ChatPaper.aiChatPaper

LLaVA-Plus: Обучение использованию инструментов для создания мультимодальных агентов

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

November 9, 2023
Авторы: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI

Аннотация

LLaVA-Plus — это универсальный мультимодальный ассистент, расширяющий возможности крупных мультимодальных моделей. Он поддерживает репозиторий предобученных моделей для обработки изображений и работы с визуально-текстовыми данными, а также может активировать соответствующие инструменты на основе пользовательских запросов для выполнения задач в реальном мире. LLaVA-Plus обучается на мультимодальных данных, ориентированных на выполнение инструкций, что позволяет ему осваивать навыки использования инструментов, включая визуальное понимание, генерацию, извлечение внешних знаний и их комбинирование. Экспериментальные результаты показывают, что LLaVA-Plus превосходит LLaVA в существующих возможностях и демонстрирует новые. Его уникальность заключается в том, что запросы, связанные с изображениями, напрямую заземляются и активно используются на протяжении всего сеанса взаимодействия человека и ИИ, что значительно улучшает производительность использования инструментов и открывает новые сценарии применения.
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.
PDF514December 15, 2024