Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les moteurs de jeu génératif ont le potentiel de révolutionner le développement de jeux en créant de manière autonome de nouveaux contenus et en réduisant la charge de travail manuelle. Cependant, les méthodes existantes de génération de jeux vidéo basées sur la vidéo échouent à résoudre le défi critique de la généralisation de scène, limitant leur applicabilité aux jeux existants avec des styles et des scènes fixes. Dans cet article, nous présentons GameFactory, un cadre axé sur l'exploration de la généralisation de scène dans la génération de vidéos de jeux. Pour permettre la création de jeux entièrement nouveaux et diversifiés, nous exploitons des modèles de diffusion vidéo pré-entraînés sur des données vidéo de domaine ouvert. Pour combler l'écart de domaine entre les connaissances a priori de domaine ouvert et l'ensemble de données de jeux à petite échelle, nous proposons une stratégie d'entraînement en plusieurs phases qui découple l'apprentissage du style de jeu du contrôle des actions, préservant ainsi la généralisation de domaine ouvert tout en atteignant la contrôlabilité des actions. En utilisant Minecraft comme source de données, nous publions GF-Minecraft, un ensemble de données vidéo annotées en actions de haute qualité et diversifié pour la recherche. De plus, nous étendons notre cadre pour permettre la génération de vidéos de jeu autoregressive et contrôlables en actions, permettant la production de vidéos de jeu interactives de longueur illimitée. Les résultats expérimentaux démontrent que GameFactory génère efficacement des vidéos de jeu diverses, contrôlables en actions et de domaine ouvert, représentant une avancée significative dans la génération de jeux pilotée par l'IA. Notre ensemble de données et la page de notre projet sont disponibles publiquement sur https://vvictoryuki.github.io/gamefactory/.
Ce travail explore si un modèle génératif profond peut apprendre des connaissances complexes uniquement à partir d'entrées visuelles, contrairement à l'accent prédominant sur les modèles basés sur du texte tels que les grands modèles de langage (GML). Nous développons VideoWorld, un modèle de génération vidéo auto-régressif entraîné sur des données vidéo non étiquetées, et testons ses capacités d'acquisition de connaissances dans des tâches de Go basées sur la vidéo et de contrôle robotique. Nos expériences révèlent deux résultats clés : (1) l'entraînement uniquement sur des vidéos fournit des informations suffisantes pour apprendre des connaissances, y compris des règles, des capacités de raisonnement et de planification, et (2) la représentation du changement visuel est cruciale pour l'acquisition de connaissances. Pour améliorer à la fois l'efficacité et l'efficacité de ce processus, nous introduisons le Modèle de Dynamique Latente (MDL) en tant que composant clé de VideoWorld. Remarquablement, VideoWorld atteint un niveau professionnel de 5-dan dans le Video-GoBench avec seulement un modèle de 300 millions de paramètres, sans recourir à des algorithmes de recherche ou à des mécanismes de récompense typiques dans l'apprentissage par renforcement. Dans les tâches robotiques, VideoWorld apprend efficacement diverses opérations de contrôle et généralise à travers les environnements, approchant les performances des modèles oracle dans CALVIN et RLBench. Cette étude ouvre de nouvelles voies pour l'acquisition de connaissances à partir de données visuelles, avec tout le code, les données et les modèles disponibles en open source pour de futures recherches.
Récemment, LoRA et ses variantes sont devenues la stratégie de facto pour l'entraînement et le partage de versions spécifiques de tâches de grands modèles pré-entraînés, grâce à leur efficacité et leur simplicité. Cependant, la question de la protection des droits d'auteur pour les poids LoRA, en particulier à travers des techniques basées sur les filigranes, reste peu explorée. Pour combler cette lacune, nous proposons SEAL (SEcure wAtermarking on LoRA weights), le filigrane universel en boîte blanche pour LoRA. SEAL intègre une matrice secrète et non entraînable entre les poids entraînables LoRA, servant de passeport pour revendiquer la propriété. SEAL enchevêtre ensuite le passeport avec les poids LoRA par l'entraînement, sans perte supplémentaire pour l'enchevêtrement, et distribue les poids affinés après avoir caché le passeport. Lors de l'application de SEAL, nous n'avons observé aucune dégradation des performances dans les tâches de raisonnement de bon sens, d'ajustement d'instructions textuelles/visuelles et de synthèse texte-image. Nous démontrons que SEAL est robuste contre diverses attaques connues : suppression, obfuscation et attaques d'ambiguïté.