ChatPaper.aiChatPaper

Lumine: Открытый рецепт создания универсальных агентов в трехмерных открытых мирах

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

November 12, 2025
Авторы: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI

Аннотация

Мы представляем Lumine — первый открытый рецепт для разработки универсальных агентов, способных выполнять многочасовые сложные миссии в реальном времени в сложных 3D-мирах с открытым миром. Lumine использует парадигму взаимодействия, подобную человеческой, которая объединяет восприятие, рассуждение и действие в сквозной манере, основанной на модели обработки визуальной и языковой информации. Система обрабатывает сырые пиксели с частотой 5 Гц для генерации точных действий с клавиатурой и мышью на частоте 30 Гц и адаптивно запускает процесс рассуждения только при необходимости. Обучаясь в Genshin Impact, Lumine успешно завершает всю пятичасовую основную сюжетную линию Мондштадта с эффективностью, сопоставимой с человеческой, и выполняет широкий спектр задач, следуя инструкциям на естественном языке, как в 3D-исследовании открытого мира, так и в 2D-управлении графическим интерфейсом, включая сбор ресурсов, боевые действия, решение головоломок и взаимодействие с NPC. Помимо высокой производительности в рамках своей области, Lumine демонстрирует сильную способность к обобщению в условиях нулевого переноса между играми. Без какой-либо дополнительной настройки она выполняет 100-минутные миссии в Wuthering Waves и завершает полную пятичасовую первую главу Honkai: Star Rail. Эти многообещающие результаты подчеркивают эффективность Lumine в различных мирах и динамиках взаимодействия, что является важным шагом на пути к созданию универсальных агентов в открытых средах.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.
PDF896November 14, 2025