Фундаментальная модель интерактивного агента

Аннотация

Разработка систем искусственного интеллекта переходит от создания статических, узкоспециализированных моделей к динамическим, агентно-ориентированным системам, способным эффективно функционировать в широком спектре приложений. Мы предлагаем Интерактивную Базовую Модель Агента, которая использует новую парадигму многозадачного обучения для подготовки ИИ-агентов в различных областях, наборах данных и задачах. Наша парадигма обучения объединяет разнообразные стратегии предварительного обучения, включая визуальные маскированные автокодировщики, языковое моделирование и прогнозирование следующего действия, что позволяет создать универсальную и адаптируемую структуру ИИ. Мы демонстрируем производительность нашей структуры в трех отдельных областях — робототехнике, игровом ИИ и здравоохранении. Наша модель показывает способность генерировать значимые и контекстуально релевантные результаты в каждой из этих областей. Сила нашего подхода заключается в его универсальности, использующей разнообразные источники данных, такие как последовательности робототехнических действий, данные игрового процесса, крупномасштабные видеонаборы и текстовую информацию, для эффективного многомодального и многозадачного обучения. Наш подход открывает перспективные возможности для разработки универсальных, активных, многомодальных систем.

English

The development of artificial intelligence systems is transitioning from creating static, task-specific models to dynamic, agent-based systems capable of performing well in a wide range of applications. We propose an Interactive Agent Foundation Model that uses a novel multi-task agent training paradigm for training AI agents across a wide range of domains, datasets, and tasks. Our training paradigm unifies diverse pre-training strategies, including visual masked auto-encoders, language modeling, and next-action prediction, enabling a versatile and adaptable AI framework. We demonstrate the performance of our framework across three separate domains -- Robotics, Gaming AI, and Healthcare. Our model demonstrates its ability to generate meaningful and contextually relevant outputs in each area. The strength of our approach lies in its generality, leveraging a variety of data sources such as robotics sequences, gameplay data, large-scale video datasets, and textual information for effective multimodal and multi-task learning. Our approach provides a promising avenue for developing generalist, action-taking, multimodal systems.

Фундаментальная модель интерактивного агента

An Interactive Agent Foundation Model

Аннотация

Support