Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративные игровые движки имеют потенциал революционизировать разработку игр путем автономного создания нового контента и снижения ручной работы. Однако существующие методы генерации видеоигр не решают критическую проблему обобщения сцен, что ограничивает их применимость к существующим играм с фиксированными стилями и сценами. В данной статье мы представляем GameFactory, фреймворк, сосредоточенный на исследовании обобщения сцен в генерации видеоигр. Для создания совершенно новых и разнообразных игр мы используем предварительно обученные модели диффузии видео, обученные на открытых видеоданных. Для преодоления разрыва между открытыми приоритетами и небольшим набором данных по играм мы предлагаем многофазовую стратегию обучения, которая разделяет обучение стилю игры от управления действиями, сохраняя обобщение открытого домена при достижении управляемости действий. Используя Minecraft в качестве источника данных, мы выпускаем GF-Minecraft, высококачественный и разнообразный набор данных видео с аннотациями действий для исследований. Кроме того, мы расширяем наш фреймворк для обеспечения авторегрессивной генерации видеоигр с управляемыми действиями, позволяя создавать интерактивные видеоигры неограниченной длины. Экспериментальные результаты показывают, что GameFactory эффективно генерирует открытодоменные, разнообразные и управляемые действиями видеоигры, представляя значительный шаг вперед в генерации игр на основе искусственного интеллекта. Наш набор данных и страница проекта доступны публично по адресу https://vvictoryuki.github.io/gamefactory/.
Эта работа исследует, может ли глубокая генеративная модель учиться сложным знаниям исключительно на основе визуального ввода, в отличие от распространенного уклонения к моделям, основанным на тексте, таким как большие языковые модели (LLM). Мы разрабатываем VideoWorld, авторегрессионную модель генерации видео, обученную на неразмеченных видеоданных, и проверяем ее способности к усвоению знаний в задачах на основе видео в игре Go и управлении роботами. Наши эксперименты выявляют два ключевых вывода: (1) обучение только на видео предоставляет достаточную информацию для усвоения знаний, включая правила, рассуждения и планировочные способности, и (2) представление визуальных изменений критично для усвоения знаний. Для улучшения эффективности этого процесса мы представляем модель латентной динамики (LDM) в качестве ключевого компонента VideoWorld. Замечательно, VideoWorld достигает профессионального уровня 5 дан в Video-GoBench всего с моделью на 300 миллионов параметров, без использования алгоритмов поиска или механизмов вознаграждения, типичных для обучения с подкреплением. В робототехнических задачах VideoWorld эффективно учится различным операциям управления и обобщает результаты в различных средах, приближаясь к производительности оракульных моделей в CALVIN и RLBench. Это исследование открывает новые пути для усвоения знаний из визуальных данных, предоставляя весь код, данные и модели в открытом доступе для дальнейших исследований.
Недавно LoRA и его варианты стали де-факто стратегией для обучения и обмена версиями моделей большого предварительно обученного размера, специфичных для задач, благодаря их эффективности и простоте. Однако проблема защиты авторских прав для весов LoRA, особенно с использованием техник на основе водяных знаков, остается недостаточно исследованной. Для решения этого пробела мы предлагаем SEAL (SEcure wAtermarking on LoRA weights), универсальную белобоксовую технологию водяных знаков для LoRA. SEAL встраивает секретную, необучаемую матрицу между обучаемыми весами LoRA, служащую паспортом для утверждения прав на владение. Затем SEAL запутывает паспорт с весами LoRA в процессе обучения, без дополнительных потерь для запутывания, и распространяет донастроенные веса после скрытия паспорта. При применении SEAL мы не обнаружили деградации производительности на задачах здравого смысла, настройки текстовых/визуальных инструкций и синтеза текста в изображение. Мы демонстрируем, что SEAL устойчив к различным известным атакам: удалению, затруднению и амбигуитету.