번역이 포함된 일일 선별된 AI 연구 논문
우리는 도전적인 3D 오픈월드 환경에서 실시간으로 수 시간에 걸친 복잡한 미션을 완수할 수 있는 범용 에이전트를 개발하기 위한 최초의 오픈 레시피인 Lumine을 소개한다. Lumine은 비전-언어 모델로 구동되는, 지각, 추론, 행동을 종단 간 방식으로 통합한 인간과 유사한 상호작용 패러다임을 채택한다. 이는 5Hz로 원시 픽셀을 처리하여 정밀한 30Hz 키보드-마우스 동작을 생성하고, 필요할 때만 적응적으로 추론을 호출한다. Genshin Impact에서 훈련된 Lumine은 인간 수준의 효율성으로 5시간에 걸친 몬드슈타트 메인 스토리라인을 성공적으로 완료하며, 3D 오픈월드 탐험과 2D GUI 조작에서 수집, 전투, 퍼즐 해결, NPC 상호작용 등 다양한 작업을 수행하기 위해 자연어 명령을 따른다. 도메인 내 성능 외에도, Lumine은 강력한 제로샷 교차 게임 일반화 능력을 보여준다. 미세 조정 없이도 Wuthering Waves에서 100분짜리 미션을 완수하고 Honkai: Star Rail의 첫 번째 장 전체를 5시간 동안 완료한다. 이러한 유망한 결과는 Lumine이 서로 다른 세계와 상호작용 역학에서의 효과성을 강조하며, 개방형 환경에서의 범용 에이전트로 나아가는 구체적인 단계를 표시한다.