Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative Spiel-Engines haben das Potenzial, die Spielentwicklung zu revolutionieren, indem sie autonom neuen Inhalt erstellen und die manuelle Arbeitsbelastung reduzieren. Allerdings scheitern bestehende videobasierte Methoden zur Spielgenerierung daran, die entscheidende Herausforderung der Szenenverallgemeinerung anzugehen, was ihre Anwendbarkeit auf bestehende Spiele mit festen Stilen und Szenen einschränkt. In diesem Paper präsentieren wir GameFactory, ein Framework, das sich auf die Erforschung der Szenenverallgemeinerung in der Spielvideogenerierung konzentriert. Um die Erstellung völlig neuer und vielfältiger Spiele zu ermöglichen, nutzen wir vortrainierte Video-Diffusionsmodelle, die auf Open-Domain-Videodaten trainiert sind. Um die Domänenlücke zwischen Open-Domain-Prioritäten und kleinen Spielsätzen zu überbrücken, schlagen wir eine mehrphasige Schulungsstrategie vor, die das Lernen von Spielstilen von der Aktionssteuerung entkoppelt, wodurch die Open-Domain-Verallgemeinerung erhalten bleibt und gleichzeitig die Aktionssteuerbarkeit erreicht wird. Unter Verwendung von Minecraft als unserer Datenquelle veröffentlichen wir GF-Minecraft, einen qualitativ hochwertigen und vielfältigen, mit Aktionen annotierten Videodatensatz für die Forschung. Darüber hinaus erweitern wir unser Framework, um autoregressive, aktionssteuerbare Spielvideogenerierung zu ermöglichen, was die Produktion interaktiver Spielvideos mit unbegrenzter Länge ermöglicht. Experimentelle Ergebnisse zeigen, dass GameFactory effektiv offene Domäne, vielfältige und aktionssteuerbare Spielvideos generiert, was einen bedeutenden Fortschritt in der KI-gesteuerten Spielgenerierung darstellt. Unser Datensatz und die Projektseite sind öffentlich unter https://vvictoryuki.github.io/gamefactory/ verfügbar.
Diese Arbeit untersucht, ob ein tiefes generatives Modell komplexe Kenntnisse ausschließlich aus visuellen Eingaben erlernen kann, im Gegensatz zum vorherrschenden Fokus auf textbasierte Modelle wie großen Sprachmodellen (LLMs). Wir entwickeln VideoWorld, ein autoregressives Video-Generierungsmodell, das auf unbeschrifteten Videodaten trainiert ist, und testen seine Fähigkeiten zur Wissenserwerbung in Video-basierten Go- und Robotiksteuerungsaufgaben. Unsere Experimente zeigen zwei wesentliche Erkenntnisse auf: (1) Das Training ausschließlich mit Videos liefert ausreichende Informationen zum Erlernen von Wissen, einschließlich Regeln, Schlussfolgerungen und Planungsfähigkeiten, und (2) die Darstellung von visuellen Veränderungen ist entscheidend für den Wissenserwerb. Um sowohl die Effizienz als auch die Wirksamkeit dieses Prozesses zu verbessern, führen wir das Latent Dynamics Model (LDM) als Schlüsselkomponente von VideoWorld ein. Bemerkenswerterweise erreicht VideoWorld mit nur einem 300-Millionen-Parameter-Modell ohne Verwendung von Suchalgorithmen oder Belohnungsmechanismen, die typisch für das Verstärkungslernen sind, ein professionelles Niveau von 5 Dan im Video-GoBench. In Robotikaufgaben lernt VideoWorld effektiv verschiedene Steuerungsvorgänge und generalisiert über Umgebungen hinweg, wobei es die Leistung von Orakelmodellen in CALVIN und RLBench annähert. Diese Studie eröffnet neue Wege für den Wissenserwerb aus visuellen Daten, wobei der gesamte Code, die Daten und die Modelle für weitere Forschungszwecke quelloffen zur Verfügung stehen.
In letzter Zeit sind LoRA und seine Varianten zur Standardstrategie für das Training und den Austausch von aufgabenbezogenen Versionen großer vorab trainierter Modelle geworden, dank ihrer Effizienz und Einfachheit. Allerdings bleibt das Thema Urheberschutz für LoRA-Gewichte, insbesondere durch wasserzeichengestützte Techniken, noch unerforscht. Um diese Lücke zu schließen, schlagen wir SEAL (SEcure wAtermarking on LoRA weights) vor, das universelle Whitebox-Wasserzeichen für LoRA. SEAL bettet eine geheime, nicht trainierbare Matrix zwischen trainierbaren LoRA-Gewichten ein, die als Eigentumsnachweis dient. Anschließend verwebt SEAL den Eigentumsnachweis mit den LoRA-Gewichten durch Training, ohne zusätzlichen Verlust für die Verwebung, und verteilt die feinabgestimmten Gewichte, nachdem der Eigentumsnachweis versteckt wurde. Bei der Anwendung von SEAL beobachteten wir keine Leistungsverschlechterung bei Aufgaben des gesunden Menschenverstands, der Anpassung von textuellen/visuellen Anweisungen und der Text-zu-Bild-Synthese. Wir zeigen, dass SEAL robust gegen eine Vielzahl bekannter Angriffe ist: Entfernungs-, Verschleierungs- und Mehrdeutigkeitsangriffe.