Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Lumine, het eerste open recept voor het ontwikkelen van generalistische agents die in staat zijn om urenlange complexe missies in realtime uit te voeren binnen uitdagende 3D open-wereldomgevingen. Lumine hanteert een mensachtig interactieparadigma dat waarneming, redenering en actie op een end-to-end manier verenigt, aangedreven door een vision-language model. Het verwerkt ruwe pixels met een frequentie van 5 Hz om precieze 30 Hz toetsenbord-muisacties te produceren en roept adaptief alleen redenering aan wanneer dit nodig is. Getraind in Genshin Impact, voltooit Lumine met succes het volledige vijf uur durende Mondstadt-hoofdverhaal op een niveau dat vergelijkbaar is met menselijke efficiëntie, en volgt natuurlijke taal instructies om een breed scala aan taken uit te voeren, zowel in 3D open-wereldverkenning als in 2D GUI-manipulatie, variërend van verzamelen, gevechten, puzzeloplossing en NPC-interactie. Naast zijn prestaties binnen het domein, toont Lumine sterke zero-shot cross-game generalisatie. Zonder enige fine-tuning voltooit het 100 minuten durende missies in Wuthering Waves en het volledige vijf uur durende eerste hoofdstuk van Honkai: Star Rail. Deze veelbelovende resultaten onderstrepen de effectiviteit van Lumine over verschillende werelden en interactiedynamieken, wat een concrete stap markeert richting generalistische agents in open-ended omgevingen.