번역이 포함된 일일 선별된 AI 연구 논문
생성적 게임 엔진은 새로운 콘텐츠를 자동으로 생성하고 수작업 작업 부하를 줄여 게임 개발을 혁신할 수 있는 잠재력을 지니고 있습니다. 그러나 기존의 비디오 기반 게임 생성 방법은 장면 일반화라는 중요한 도전 과제를 해결하지 못하여, 고정된 스타일과 장면을 갖는 기존 게임에만 적용 가능성이 제한되어 있습니다. 본 논문에서는 게임 비디오 생성에서 장면 일반화를 탐구하는 데 초점을 맞춘 GameFactory 프레임워크를 제안합니다. 완전히 새로운 다양한 게임을 만들기 위해, 오픈 도메인 비디오 데이터에서 훈련된 사전 학습된 비디오 확산 모델을 활용합니다. 오픈 도메인 사전 지식과 소규모 게임 데이터셋 사이의 도메인 갭을 줄이기 위해 게임 스타일 학습과 액션 제어를 분리하는 다단계 훈련 전략을 제안하여, 오픈 도메인 일반화를 보존하면서 액션 제어 가능성을 달성합니다. Minecraft를 데이터 원본으로 사용하여 연구용 고품질 다양한 액션 주석이 달린 비디오 데이터셋인 GF-Minecraft을 공개합니다. 더 나아가, 자기 회귀적 액션 제어 가능한 게임 비디오 생성을 가능하게 하는 프레임워크를 확장하여, 무제한 길이의 상호작용적인 게임 비디오를 제작할 수 있습니다. 실험 결과는 GameFactory가 오픈 도메인, 다양하며 액션 제어 가능한 게임 비디오를 효과적으로 생성하며, AI 기반 게임 생성 분야에서 중요한 발전을 나타낸다는 것을 입증합니다. 저희 데이터셋과 프로젝트 페이지는 https://vvictoryuki.github.io/gamefactory/에서 공개되어 있습니다.
본 연구는 텍스트 기반 모델인 대규모 언어 모델 (LLM)에 대한 주요 관심과 대조적으로, 깊은 생성 모델이 시각적 입력만으로 복잡한 지식을 학습할 수 있는지 탐구한다. 우리는 미분류된 비디오 데이터로 훈련된 자기 회귀 비디오 생성 모델 VideoWorld를 개발하고, 비디오 기반 고와 로봇 제어 작업에서 그 지식 습득 능력을 테스트한다. 우리의 실험은 두 가지 주요 결과를 보여준다: (1) 비디오만을 이용한 훈련은 규칙, 추론 및 계획 능력을 포함한 지식을 학습하는 데 충분한 정보를 제공하며, (2) 시각적 변화의 표현이 지식 습득에 중요하다. 이 프로세스의 효율성과 효과성을 높이기 위해, 우리는 VideoWorld의 주요 구성 요소로 잠재 동역학 모델 (LDM)을 소개한다. 놀랍게도, VideoWorld는 3억 개의 매개변수 모델만으로 비디오-고벤치에서 5단 프로페셔널 수준에 도달하며, 강화 학습에서 일반적인 검색 알고리즘이나 보상 메커니즘에 의존하지 않는다. 로봇 작업에서 VideoWorld는 다양한 제어 작업을 효과적으로 학습하고 환경을 횡단하여 CALVIN과 RLBench의 오라클 모델의 성능에 가까이 다가간다. 본 연구는 시각 데이터로부터 지식 습득을 위한 새로운 길을 열며, 모든 코드, 데이터 및 모델은 추가 연구를 위해 오픈 소스로 제공된다.
최근에는 LoRA 및 해당 변형들이 효율성과 간편함으로 인해 대규모 사전 훈련된 모델의 작업별 버전을 훈련하고 공유하는 데 사용되는 사실상의 전략이 되었습니다. 그러나 특히 워터마크 기반 기술을 통한 LoRA 가중치의 저작권 보호 문제는 아직 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해 우리는 LoRA에 대한 보안 워터마킹인 SEAL (SEcure wAtermarking on LoRA weights)을 제안합니다. SEAL은 훈련 가능한 LoRA 가중치 사이에 비훈련 가능한 비밀 행렬을 삽입하여 소유권 주장을 위한 여권 역할을 합니다. SEAL은 그 후 훈련을 통해 여권을 LoRA 가중치와 뒤섞고, 뒤섞음에 대한 추가 손실 없이 미세 조정된 가중치를 여권을 숨긴 채로 배포합니다. SEAL을 적용할 때, 우리는 상식적 추론, 텍스트/시각적 지시 조정, 텍스트-이미지 합성 작업에서 성능 저하가 없는 것을 관찰했습니다. 또한 SEAL이 다양한 알려진 공격에 대해 견고함을 입증했습니다: 제거, 혼동, 모호성 공격에 대해요.