Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Lumine, la primera receta abierta para desarrollar agentes generalistas capaces de completar misiones complejas de varias horas en tiempo real dentro de entornos 3D de mundo abierto desafiantes. Lumine adopta un paradigma de interacción similar al humano que unifica percepción, razonamiento y acción de manera integral, impulsado por un modelo de visión-lenguaje. Procesa píxeles en bruto a 5 Hz para producir acciones precisas de teclado y ratón a 30 Hz e invoca el razonamiento de manera adaptativa solo cuando es necesario. Entrenado en Genshin Impact, Lumine completa con éxito toda la trama principal de cinco horas de Mondstadt con una eficiencia comparable a la humana y sigue instrucciones en lenguaje natural para realizar una amplia gama de tareas tanto en exploración de mundo abierto 3D como en manipulación de interfaces gráficas 2D, incluyendo recolección, combate, resolución de acertijos e interacción con NPC. Además de su rendimiento en el dominio específico, Lumine demuestra una fuerte generalización cero-shot entre juegos. Sin ningún ajuste fino, completa misiones de 100 minutos en Wuthering Waves y el primer capítulo completo de cinco horas de Honkai: Star Rail. Estos resultados prometedores destacan la eficacia de Lumine en distintos mundos y dinámicas de interacción, marcando un paso concreto hacia agentes generalistas en entornos abiertos.