Artículos de investigación en IA seleccionados diariamente con traducciones
Los motores de juegos generativos tienen el potencial de revolucionar el desarrollo de juegos al crear nuevo contenido de forma autónoma y reducir la carga de trabajo manual. Sin embargo, los métodos existentes de generación de juegos basados en video no abordan el desafío crítico de la generalización de escenas, lo que limita su aplicabilidad a juegos existentes con estilos y escenas fijas. En este documento, presentamos GameFactory, un marco centrado en explorar la generalización de escenas en la generación de videos de juegos. Para permitir la creación de juegos completamente nuevos y diversos, aprovechamos modelos de difusión de video preentrenados en datos de video de dominio abierto. Para cerrar la brecha de dominio entre los conocimientos previos de dominio abierto y el conjunto de datos de juegos a pequeña escala, proponemos una estrategia de entrenamiento de múltiples fases que separa el aprendizaje del estilo del juego del control de acciones, preservando la generalización de dominio abierto mientras se logra la controlabilidad de acciones. Utilizando Minecraft como nuestra fuente de datos, lanzamos GF-Minecraft, un conjunto de datos de video de alta calidad y diversidad anotado con acciones para la investigación. Además, ampliamos nuestro marco para permitir la generación de videos de juegos autoregresivos y controlables por acciones, lo que permite la producción de videos de juegos interactivos de longitud ilimitada. Los resultados experimentales demuestran que GameFactory genera de manera efectiva videos de juegos de dominio abierto, diversos y controlables por acciones, representando un avance significativo en la generación de juegos impulsada por IA. Nuestro conjunto de datos y página del proyecto están disponibles públicamente en https://vvictoryuki.github.io/gamefactory/.
Este trabajo explora si un modelo generativo profundo puede aprender conocimiento complejo únicamente a partir de entradas visuales, en contraste con el enfoque predominante en modelos basados en texto como los grandes modelos de lenguaje (LLMs). Desarrollamos VideoWorld, un modelo de generación de video auto-regresivo entrenado con datos de video no etiquetados, y evaluamos sus capacidades de adquisición de conocimiento en tareas de Go basadas en video y control robótico. Nuestros experimentos revelan dos hallazgos clave: (1) el entrenamiento solo con video proporciona suficiente información para aprender conocimiento, incluidas reglas, razonamiento y capacidades de planificación, y (2) la representación del cambio visual es crucial para la adquisición de conocimiento. Para mejorar tanto la eficiencia como la eficacia de este proceso, presentamos el Modelo de Dinámica Latente (LDM) como un componente clave de VideoWorld. Notablemente, VideoWorld alcanza un nivel profesional de 5 dan en Video-GoBench con solo un modelo de 300 millones de parámetros, sin depender de algoritmos de búsqueda o mecanismos de recompensa típicos en el aprendizaje por refuerzo. En tareas robóticas, VideoWorld aprende de manera efectiva diversas operaciones de control y generaliza en diferentes entornos, acercándose al rendimiento de modelos oráculo en CALVIN y RLBench. Este estudio abre nuevas vías para la adquisición de conocimiento a partir de datos visuales, con todo el código, datos y modelos de código abierto para futuras investigaciones.
Recientemente, LoRA y sus variantes se han convertido en la estrategia por defecto para entrenar y compartir versiones específicas de tareas de modelos preentrenados grandes, gracias a su eficiencia y simplicidad. Sin embargo, el tema de la protección de derechos de autor para los pesos de LoRA, especialmente a través de técnicas basadas en marcas de agua, sigue siendo poco explorado. Para abordar esta brecha, proponemos SEAL (SEcure wAtermarking on LoRA weights), el marcaje de agua universal en caja blanca para LoRA. SEAL incrusta una matriz secreta y no entrenable entre los pesos entrenables de LoRA, sirviendo como un pasaporte para reclamar la propiedad. Luego, SEAL entrelaza el pasaporte con los pesos de LoRA a través del entrenamiento, sin pérdida adicional por el entrelazamiento, y distribuye los pesos ajustados después de ocultar el pasaporte. Al aplicar SEAL, no observamos degradación del rendimiento en tareas de razonamiento de sentido común, ajuste de instrucciones textuales/visuales y síntesis de texto a imagen. Demostramos que SEAL es resistente a una variedad de ataques conocidos: eliminación, ofuscación y ataques de ambigüedad.