ChatPaper.aiChatPaper

Lumine: Ein offenes Rezept zur Entwicklung generalistischer Agenten in offenen 3D-Welten

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

November 12, 2025
papers.authors: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI

papers.abstract

Wir stellen Lumine vor, das erste offene Rezept zur Entwicklung von Generalisten-Agenten, die in der Lage sind, stundenlange komplexe Missionen in Echtzeit in anspruchsvollen 3D-Open-World-Umgebungen zu absolvieren. Lumine nutzt ein menschenähnliches Interaktionsparadigma, das Wahrnehmung, Denken und Handeln auf End-to-End-Basis vereint und durch ein Vision-Sprache-Modell angetrieben wird. Es verarbeitet Rohpixel mit 5 Hz, um präzise 30 Hz Tastatur-Maus-Aktionen zu erzeugen, und ruft das Denken nur bei Bedarf adaptiv auf. In Genshin Impact trainiert, absolviert Lumine die gesamte fünfstündige Mondstadt-Hauptgeschichte mit einer Effizienz auf menschlichem Niveau und folgt natürlichen Sprachbefehlen, um eine breite Palette von Aufgaben sowohl in der 3D-Open-World-Erkundung als auch in der 2D-GUI-Manipulation zu bewältigen, darunter Sammeln, Kampf, Rätsellösen und NPC-Interaktion. Neben seiner leistungsstarken In-Domain-Performance zeigt Lumine eine starke Zero-Shot-Übergeneralisierung über verschiedene Spiele hinweg. Ohne jegliche Feinabstimmung bewältigt es 100-minütige Missionen in Wuthering Waves und das gesamte fünfstündige erste Kapitel von Honkai: Star Rail. Diese vielversprechenden Ergebnisse unterstreichen die Wirksamkeit von Lumine über verschiedene Welten und Interaktionsdynamiken hinweg und markieren einen konkreten Schritt hin zu Generalisten-Agenten in offenen Umgebungen.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.
PDF896November 14, 2025