Lumine : Une Recette Ouverte pour la Construction d'Agents Généralistes dans des Mondes Ouverts en 3D
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
November 12, 2025
papers.authors: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI
papers.abstract
Nous présentons Lumine, la première recette ouverte pour développer des agents généralistes capables d’accomplir des missions complexes de plusieurs heures en temps réel dans des environnements 3D en monde ouvert exigeants. Lumine adopte un paradigme d’interaction inspiré de l’humain, unifiant la perception, le raisonnement et l’action de manière end-to-end, alimenté par un modèle vision-langage. Il traite des pixels bruts à 5 Hz pour produire des actions clavier-souris précises à 30 Hz et invoque de manière adaptative le raisonnement uniquement lorsque nécessaire. Entraîné dans Genshin Impact, Lumine réussit à accomplir l’intégralité de la quête principale de cinq heures de Mondstadt avec une efficacité comparable à celle d’un humain, et suit des instructions en langage naturel pour exécuter une large gamme de tâches, que ce soit dans l’exploration 3D en monde ouvert ou la manipulation d’interfaces 2D, incluant la collecte, le combat, la résolution d’énigmes et l’interaction avec les PNJ. En plus de ses performances dans son domaine d’entraînement, Lumine démontre une forte généralisation zero-shot à travers différents jeux. Sans aucun ajustement fin, il accomplit des missions de 100 minutes dans Wuthering Waves et l’intégralité du premier chapitre de cinq heures de Honkai: Star Rail. Ces résultats prometteurs soulignent l’efficacité de Lumine à travers des mondes et des dynamiques d’interaction distincts, marquant une étape concrète vers des agents généralistes dans des environnements ouverts.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.