Artigos de pesquisa em IA selecionados diariamente com traduções
Motores de jogos generativos têm o potencial de revolucionar o desenvolvimento de jogos ao criar novo conteúdo de forma autônoma e reduzir a carga de trabalho manual. No entanto, os métodos existentes de geração de jogos baseados em vídeo falham em abordar o desafio crítico da generalização de cenas, limitando sua aplicabilidade a jogos existentes com estilos e cenas fixas. Neste artigo, apresentamos o GameFactory, um framework focado em explorar a generalização de cenas na geração de vídeos de jogos. Para permitir a criação de jogos totalmente novos e diversos, aproveitamos modelos de difusão de vídeo pré-treinados em dados de vídeo de domínio aberto. Para superar a diferença de domínio entre prioridades de domínio aberto e conjuntos de dados de jogos em pequena escala, propomos uma estratégia de treinamento em várias fases que separa a aprendizagem de estilo de jogo do controle de ação, preservando a generalização de domínio aberto ao mesmo tempo em que alcança a controlabilidade de ação. Usando o Minecraft como nossa fonte de dados, lançamos o GF-Minecraft, um conjunto de dados de vídeo de alta qualidade e diversidade anotado com ação para pesquisa. Além disso, estendemos nosso framework para permitir a geração de vídeos de jogos autoregressivos e controláveis por ação, permitindo a produção de vídeos de jogos interativos de comprimento ilimitado. Resultados experimentais demonstram que o GameFactory gera de forma eficaz vídeos de jogos de domínio aberto, diversos e controláveis por ação, representando um avanço significativo na geração de jogos impulsionada por IA. Nosso conjunto de dados e página do projeto estão publicamente disponíveis em https://vvictoryuki.github.io/gamefactory/.
Este trabalho explora se um modelo generativo profundo pode aprender conhecimento complexo exclusivamente a partir de entradas visuais, em contraste com o foco prevalente em modelos baseados em texto como os grandes modelos de linguagem (LLMs). Desenvolvemos o VideoWorld, um modelo de geração de vídeo auto-regressivo treinado em dados de vídeo não rotulados, e testamos suas habilidades de aquisição de conhecimento em tarefas de Go baseadas em vídeo e controle robótico. Nossos experimentos revelam duas descobertas-chave: (1) o treinamento apenas com vídeo fornece informações suficientes para aprender conhecimento, incluindo regras, capacidades de raciocínio e planejamento, e (2) a representação da mudança visual é crucial para a aquisição de conhecimento. Para melhorar tanto a eficiência quanto a eficácia desse processo, introduzimos o Modelo de Dinâmica Latente (LDM) como um componente chave do VideoWorld. Notavelmente, o VideoWorld atinge um nível profissional de 5-dan no Video-GoBench com apenas um modelo de 300 milhões de parâmetros, sem depender de algoritmos de busca ou mecanismos de recompensa típicos em aprendizado por reforço. Em tarefas robóticas, o VideoWorld aprende efetivamente diversas operações de controle e generaliza entre ambientes, se aproximando do desempenho de modelos oráculo em CALVIN e RLBench. Este estudo abre novos caminhos para a aquisição de conhecimento a partir de dados visuais, com todo o código, dados e modelos disponibilizados para pesquisa adicional.
Recentemente, LoRA e suas variantes se tornaram a estratégia padrão para treinar e compartilhar versões específicas de tarefas de grandes modelos pré-treinados, graças à sua eficiência e simplicidade. No entanto, a questão da proteção de direitos autorais para os pesos do LoRA, especialmente por meio de técnicas baseadas em marca d'água, permanece pouco explorada. Para abordar essa lacuna, propomos o SEAL (SEcure wAtermarking on LoRA weights), a marca d'água universal de caixa branca para LoRA. O SEAL incorpora uma matriz secreta e não treinável entre os pesos treináveis do LoRA, servindo como um passaporte para reivindicar a propriedade. Em seguida, o SEAL entrelaça o passaporte com os pesos do LoRA por meio do treinamento, sem perda adicional para o entrelaçamento, e distribui os pesos ajustados após ocultar o passaporte. Ao aplicar o SEAL, não observamos degradação de desempenho em tarefas de raciocínio comum, ajuste de instruções textuais/visuais e síntese de texto para imagem. Demonstramos que o SEAL é robusto contra uma variedade de ataques conhecidos: remoção, obfuscação e ataques de ambiguidade.