papers.description
Nous présentons Lumine, la première recette ouverte pour développer des agents généralistes capables d’accomplir des missions complexes de plusieurs heures en temps réel dans des environnements 3D en monde ouvert exigeants. Lumine adopte un paradigme d’interaction inspiré de l’humain, unifiant la perception, le raisonnement et l’action de manière end-to-end, alimenté par un modèle vision-langage. Il traite des pixels bruts à 5 Hz pour produire des actions clavier-souris précises à 30 Hz et invoque de manière adaptative le raisonnement uniquement lorsque nécessaire. Entraîné dans Genshin Impact, Lumine réussit à accomplir l’intégralité de la quête principale de cinq heures de Mondstadt avec une efficacité comparable à celle d’un humain, et suit des instructions en langage naturel pour exécuter une large gamme de tâches, que ce soit dans l’exploration 3D en monde ouvert ou la manipulation d’interfaces 2D, incluant la collecte, le combat, la résolution d’énigmes et l’interaction avec les PNJ. En plus de ses performances dans son domaine d’entraînement, Lumine démontre une forte généralisation zero-shot à travers différents jeux. Sans aucun ajustement fin, il accomplit des missions de 100 minutes dans Wuthering Waves et l’intégralité du premier chapitre de cinq heures de Honkai: Star Rail. Ces résultats prometteurs soulignent l’efficacité de Lumine à travers des mondes et des dynamiques d’interaction distincts, marquant une étape concrète vers des agents généralistes dans des environnements ouverts.