papers.description
Wir stellen Lumine vor, das erste offene Rezept zur Entwicklung von Generalisten-Agenten, die in der Lage sind, stundenlange komplexe Missionen in Echtzeit in anspruchsvollen 3D-Open-World-Umgebungen zu absolvieren. Lumine nutzt ein menschenähnliches Interaktionsparadigma, das Wahrnehmung, Denken und Handeln auf End-to-End-Basis vereint und durch ein Vision-Sprache-Modell angetrieben wird. Es verarbeitet Rohpixel mit 5 Hz, um präzise 30 Hz Tastatur-Maus-Aktionen zu erzeugen, und ruft das Denken nur bei Bedarf adaptiv auf. In Genshin Impact trainiert, absolviert Lumine die gesamte fünfstündige Mondstadt-Hauptgeschichte mit einer Effizienz auf menschlichem Niveau und folgt natürlichen Sprachbefehlen, um eine breite Palette von Aufgaben sowohl in der 3D-Open-World-Erkundung als auch in der 2D-GUI-Manipulation zu bewältigen, darunter Sammeln, Kampf, Rätsellösen und NPC-Interaktion. Neben seiner leistungsstarken In-Domain-Performance zeigt Lumine eine starke Zero-Shot-Übergeneralisierung über verschiedene Spiele hinweg. Ohne jegliche Feinabstimmung bewältigt es 100-minütige Missionen in Wuthering Waves und das gesamte fünfstündige erste Kapitel von Honkai: Star Rail. Diese vielversprechenden Ergebnisse unterstreichen die Wirksamkeit von Lumine über verschiedene Welten und Interaktionsdynamiken hinweg und markieren einen konkreten Schritt hin zu Generalisten-Agenten in offenen Umgebungen.