ChatPaper.aiChatPaper

Lumine: Een Open Recept voor het Bouwen van Algemene Agents in 3D Open Werelden

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

November 12, 2025
Auteurs: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI

Samenvatting

We introduceren Lumine, het eerste open recept voor het ontwikkelen van generalistische agents die in staat zijn om urenlange complexe missies in realtime uit te voeren binnen uitdagende 3D open-wereldomgevingen. Lumine hanteert een mensachtig interactieparadigma dat waarneming, redenering en actie op een end-to-end manier verenigt, aangedreven door een vision-language model. Het verwerkt ruwe pixels met een frequentie van 5 Hz om precieze 30 Hz toetsenbord-muisacties te produceren en roept adaptief alleen redenering aan wanneer dit nodig is. Getraind in Genshin Impact, voltooit Lumine met succes het volledige vijf uur durende Mondstadt-hoofdverhaal op een niveau dat vergelijkbaar is met menselijke efficiëntie, en volgt natuurlijke taal instructies om een breed scala aan taken uit te voeren, zowel in 3D open-wereldverkenning als in 2D GUI-manipulatie, variërend van verzamelen, gevechten, puzzeloplossing en NPC-interactie. Naast zijn prestaties binnen het domein, toont Lumine sterke zero-shot cross-game generalisatie. Zonder enige fine-tuning voltooit het 100 minuten durende missies in Wuthering Waves en het volledige vijf uur durende eerste hoofdstuk van Honkai: Star Rail. Deze veelbelovende resultaten onderstrepen de effectiviteit van Lumine over verschillende werelden en interactiedynamieken, wat een concrete stap markeert richting generalistische agents in open-ended omgevingen.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.
PDF896November 14, 2025