Lumine: Una Ricetta Aperta per Costruire Agenti Generalisti in Mondi Aperti 3D
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
November 12, 2025
Autori: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI
Abstract
Presentiamo Lumine, la prima ricetta aperta per lo sviluppo di agenti generalisti in grado di completare missioni complesse della durata di ore in tempo reale all’interno di ambienti 3D open-world impegnativi. Lumine adotta un paradigma di interazione simile a quello umano, unificando percezione, ragionamento e azione in modo end-to-end, alimentato da un modello visione-linguaggio. Elabora pixel grezzi a 5 Hz per produrre azioni precise da tastiera e mouse a 30 Hz e invoca il ragionamento in modo adattivo solo quando necessario. Addestrato in Genshin Impact, Lumine completa con successo l’intera trama principale di cinque ore di Mondstadt con un’efficienza paragonabile a quella umana e segue istruzioni in linguaggio naturale per eseguire un’ampia gamma di attività sia nell’esplorazione 3D open-world che nella manipolazione di interfacce 2D, tra raccolta, combattimento, risoluzione di enigmi e interazione con NPC. Oltre alle sue prestazioni in dominio, Lumine dimostra una forte generalizzazione zero-shot tra giochi diversi. Senza alcun fine-tuning, completa missioni di 100 minuti in Wuthering Waves e l’intero primo capitolo di cinque ore di Honkai: Star Rail. Questi risultati promettenti evidenziano l’efficacia di Lumine attraverso mondi distinti e dinamiche di interazione diverse, segnando un passo concreto verso agenti generalisti in ambienti aperti.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.