Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Lumine — первый открытый рецепт для разработки универсальных агентов, способных выполнять многочасовые сложные миссии в реальном времени в сложных 3D-мирах с открытым миром. Lumine использует парадигму взаимодействия, подобную человеческой, которая объединяет восприятие, рассуждение и действие в сквозной манере, основанной на модели обработки визуальной и языковой информации. Система обрабатывает сырые пиксели с частотой 5 Гц для генерации точных действий с клавиатурой и мышью на частоте 30 Гц и адаптивно запускает процесс рассуждения только при необходимости. Обучаясь в Genshin Impact, Lumine успешно завершает всю пятичасовую основную сюжетную линию Мондштадта с эффективностью, сопоставимой с человеческой, и выполняет широкий спектр задач, следуя инструкциям на естественном языке, как в 3D-исследовании открытого мира, так и в 2D-управлении графическим интерфейсом, включая сбор ресурсов, боевые действия, решение головоломок и взаимодействие с NPC. Помимо высокой производительности в рамках своей области, Lumine демонстрирует сильную способность к обобщению в условиях нулевого переноса между играми. Без какой-либо дополнительной настройки она выполняет 100-минутные миссии в Wuthering Waves и завершает полную пятичасовую первую главу Honkai: Star Rail. Эти многообещающие результаты подчеркивают эффективность Lumine в различных мирах и динамиках взаимодействия, что является важным шагом на пути к созданию универсальных агентов в открытых средах.