ChatPaper.aiChatPaper

Lumine: Una Receta Abierta para Construir Agentes Generalistas en Mundos Abiertos 3D

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

November 12, 2025
Autores: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI

Resumen

Presentamos Lumine, la primera receta abierta para desarrollar agentes generalistas capaces de completar misiones complejas de varias horas en tiempo real dentro de entornos 3D de mundo abierto desafiantes. Lumine adopta un paradigma de interacción similar al humano que unifica percepción, razonamiento y acción de manera integral, impulsado por un modelo de visión-lenguaje. Procesa píxeles en bruto a 5 Hz para producir acciones precisas de teclado y ratón a 30 Hz e invoca el razonamiento de manera adaptativa solo cuando es necesario. Entrenado en Genshin Impact, Lumine completa con éxito toda la trama principal de cinco horas de Mondstadt con una eficiencia comparable a la humana y sigue instrucciones en lenguaje natural para realizar una amplia gama de tareas tanto en exploración de mundo abierto 3D como en manipulación de interfaces gráficas 2D, incluyendo recolección, combate, resolución de acertijos e interacción con NPC. Además de su rendimiento en el dominio específico, Lumine demuestra una fuerte generalización cero-shot entre juegos. Sin ningún ajuste fino, completa misiones de 100 minutos en Wuthering Waves y el primer capítulo completo de cinco horas de Honkai: Star Rail. Estos resultados prometedores destacan la eficacia de Lumine en distintos mundos y dinámicas de interacción, marcando un paso concreto hacia agentes generalistas en entornos abiertos.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.
PDF896November 14, 2025