Lumine: Uma Receita Aberta para a Construção de Agentes Generalistas em Mundos Abertos 3D
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
November 12, 2025
Autores: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI
Resumo
Apresentamos Lumine, a primeira receita aberta para o desenvolvimento de agentes generalistas capazes de completar missões complexas de longa duração em tempo real em ambientes 3D de mundo aberto desafiadores. Lumine adota um paradigma de interação semelhante ao humano que unifica percepção, raciocínio e ação de ponta a ponta, impulsionado por um modelo de visão e linguagem. Ele processa pixels brutos a 5 Hz para produzir ações precisas de teclado e mouse a 30 Hz e invoca o raciocínio de forma adaptativa apenas quando necessário. Treinado em Genshin Impact, Lumine completa com sucesso toda a história principal de cinco horas de Mondstadt com eficiência comparável à humana e segue instruções em linguagem natural para realizar uma ampla gama de tarefas tanto na exploração de mundo aberto 3D quanto na manipulação de interfaces gráficas 2D, abrangendo coleta, combate, resolução de quebra-cabeças e interação com NPCs. Além de seu desempenho no domínio específico, Lumine demonstra uma forte generalização zero-shot entre jogos. Sem qualquer ajuste fino, ele realiza missões de 100 minutos em Wuthering Waves e o primeiro capítulo completo de cinco horas de Honkai: Star Rail. Esses resultados promissores destacam a eficácia de Lumine em mundos distintos e dinâmicas de interação, marcando um passo concreto em direção a agentes generalistas em ambientes abertos.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.