Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve game-engines hebben het potentieel om de ontwikkeling van games te revolutioneren door autonoom nieuwe inhoud te creëren en de handmatige werklast te verminderen. Echter, bestaande op video gebaseerde methoden voor game-generatie falen in het aanpakken van de cruciale uitdaging van scène-generalisatie, waardoor hun toepasbaarheid beperkt blijft tot bestaande games met vaste stijlen en scènes. In dit artikel presenteren we GameFactory, een raamwerk dat zich richt op het verkennen van scène-generalisatie in de generatie van gamevideo's. Om de creatie van volledig nieuwe en diverse games mogelijk te maken, maken we gebruik van vooraf getrainde video-diffusiemodellen die zijn getraind op open-domein videogegevens. Om de kloof tussen open-domein voorafgaanden en kleine game-datasets te overbruggen, stellen we een meerfasige trainingsstrategie voor die spelstijl-leren ontkoppelt van actiecontrole, waarbij open-domein generalisatie behouden blijft terwijl actiecontrole wordt bereikt. Met Minecraft als onze gegevensbron, stellen we GF-Minecraft beschikbaar, een hoogwaardige en diverse actie-geannoteerde videodataset voor onderzoek. Bovendien breiden we ons raamwerk uit om autoregressieve actie-controleerbare gamevideo-generatie mogelijk te maken, waardoor de productie van interactieve gamevideo's van onbeperkte lengte mogelijk is. Experimentele resultaten tonen aan dat GameFactory effectief open-domein, diverse en actie-controleerbare gamevideo's genereert, wat een significante vooruitgang betekent in door AI aangedreven gamegeneratie. Onze dataset en projectpagina zijn openbaar beschikbaar op https://vvictoryuki.github.io/gamefactory/.
Dit werk onderzoekt of een diep generatief model complexe kennis kan leren uitsluitend van visuele input, in tegenstelling tot de gangbare focus op op tekst gebaseerde modellen zoals grote taalmodellen (LLM's). We ontwikkelen VideoWorld, een autoregressief videogeneratiemodel getraind op ongelabelde videogegevens, en testen zijn kennisverwervingsmogelijkheden in op video gebaseerde Go- en robotbesturingstaken. Onze experimenten onthullen twee belangrijke bevindingen: (1) enkel video-training levert voldoende informatie voor het leren van kennis, inclusief regels, redenering en planningsmogelijkheden, en (2) de representatie van visuele verandering is cruciaal voor kennisverwerving. Om zowel de efficiëntie als effectiviteit van dit proces te verbeteren, introduceren we het Latent Dynamics Model (LDM) als een sleutelelement van VideoWorld. Opmerkelijk genoeg bereikt VideoWorld een professioneel niveau van 5-dan in de Video-GoBench met slechts een model van 300 miljoen parameters, zonder te vertrouwen op zoekalgoritmen of beloningsmechanismen die typisch zijn in reinforcement learning. In robottaken leert VideoWorld effectief diverse besturingsoperaties en generaliseert over omgevingen, waarbij het de prestaties van orakelmodellen in CALVIN en RLBench benadert. Deze studie opent nieuwe wegen voor kennisverwerving uit visuele gegevens, waarbij alle code, gegevens en modellen open-source zijn gemaakt voor verder onderzoek.
Onlangs zijn LoRA en de varianten ervan de facto strategie geworden voor het trainen en delen van taakspecifieke versies van grote voorgeleerde modellen, dankzij hun efficiëntie en eenvoud. Het vraagstuk van auteursrechtbescherming voor LoRA-gewichten, met name via op watermerken gebaseerde technieken, blijft echter onderbelicht. Om deze lacune aan te pakken, stellen we SEAL (SEcure wAtermarking on LoRA weights) voor, de universele whitebox-watermerktechniek voor LoRA. SEAL incorporeert een geheime, niet-trainbare matrix tussen trainbare LoRA-gewichten, die fungeert als een paspoort om eigendom te claimen. Vervolgens verstrengelt SEAL het paspoort met de LoRA-gewichten door training, zonder extra verlies voor de verstrengeling, en distribueert de gefinetunede gewichten nadat het paspoort is verborgen. Bij het toepassen van SEAL hebben we geen prestatievermindering waargenomen bij taken zoals gezond verstand redeneren, tekst-/visuele instructieafstemming en tekst-naar-afbeelding synthese. We tonen aan dat SEAL robuust is tegen verschillende bekende aanvallen: verwijdering, verduistering en ambiguïteitsaanvallen.