루민: 3D 오픈 월드에서 범용 에이전트 구축을 위한 오픈 레시피
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
November 12, 2025
저자: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI
초록
우리는 도전적인 3D 오픈월드 환경에서 실시간으로 수 시간에 걸친 복잡한 미션을 완수할 수 있는 범용 에이전트를 개발하기 위한 최초의 오픈 레시피인 Lumine을 소개한다. Lumine은 비전-언어 모델로 구동되는, 지각, 추론, 행동을 종단 간 방식으로 통합한 인간과 유사한 상호작용 패러다임을 채택한다. 이는 5Hz로 원시 픽셀을 처리하여 정밀한 30Hz 키보드-마우스 동작을 생성하고, 필요할 때만 적응적으로 추론을 호출한다. Genshin Impact에서 훈련된 Lumine은 인간 수준의 효율성으로 5시간에 걸친 몬드슈타트 메인 스토리라인을 성공적으로 완료하며, 3D 오픈월드 탐험과 2D GUI 조작에서 수집, 전투, 퍼즐 해결, NPC 상호작용 등 다양한 작업을 수행하기 위해 자연어 명령을 따른다. 도메인 내 성능 외에도, Lumine은 강력한 제로샷 교차 게임 일반화 능력을 보여준다. 미세 조정 없이도 Wuthering Waves에서 100분짜리 미션을 완수하고 Honkai: Star Rail의 첫 번째 장 전체를 5시간 동안 완료한다. 이러한 유망한 결과는 Lumine이 서로 다른 세계와 상호작용 역학에서의 효과성을 강조하며, 개방형 환경에서의 범용 에이전트로 나아가는 구체적인 단계를 표시한다.
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.