Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

GameFactory: Criando Novos Jogos com Vídeos Interativos Generativos
GameFactory: Creating New Games with Generative Interactive Videos

Jan 14

ByJiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

Motores de jogos generativos têm o potencial de revolucionar o desenvolvimento de jogos ao criar novo conteúdo de forma autônoma e reduzir a carga de trabalho manual. No entanto, os métodos existentes de geração de jogos baseados em vídeo falham em abordar o desafio crítico da generalização de cenas, limitando sua aplicabilidade a jogos existentes com estilos e cenas fixas. Neste artigo, apresentamos o GameFactory, um framework focado em explorar a generalização de cenas na geração de vídeos de jogos. Para permitir a criação de jogos totalmente novos e diversos, aproveitamos modelos de difusão de vídeo pré-treinados em dados de vídeo de domínio aberto. Para superar a diferença de domínio entre prioridades de domínio aberto e conjuntos de dados de jogos em pequena escala, propomos uma estratégia de treinamento em várias fases que separa a aprendizagem de estilo de jogo do controle de ação, preservando a generalização de domínio aberto ao mesmo tempo em que alcança a controlabilidade de ação. Usando o Minecraft como nossa fonte de dados, lançamos o GF-Minecraft, um conjunto de dados de vídeo de alta qualidade e diversidade anotado com ação para pesquisa. Além disso, estendemos nosso framework para permitir a geração de vídeos de jogos autoregressivos e controláveis por ação, permitindo a produção de vídeos de jogos interativos de comprimento ilimitado. Resultados experimentais demonstram que o GameFactory gera de forma eficaz vídeos de jogos de domínio aberto, diversos e controláveis por ação, representando um avanço significativo na geração de jogos impulsionada por IA. Nosso conjunto de dados e página do projeto estão publicamente disponíveis em https://vvictoryuki.github.io/gamefactory/.

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Jan 16

ByZhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

Este trabalho explora se um modelo generativo profundo pode aprender conhecimento complexo exclusivamente a partir de entradas visuais, em contraste com o foco prevalente em modelos baseados em texto como os grandes modelos de linguagem (LLMs). Desenvolvemos o VideoWorld, um modelo de geração de vídeo auto-regressivo treinado em dados de vídeo não rotulados, e testamos suas habilidades de aquisição de conhecimento em tarefas de Go baseadas em vídeo e controle robótico. Nossos experimentos revelam duas descobertas-chave: (1) o treinamento apenas com vídeo fornece informações suficientes para aprender conhecimento, incluindo regras, capacidades de raciocínio e planejamento, e (2) a representação da mudança visual é crucial para a aquisição de conhecimento. Para melhorar tanto a eficiência quanto a eficácia desse processo, introduzimos o Modelo de Dinâmica Latente (LDM) como um componente chave do VideoWorld. Notavelmente, o VideoWorld atinge um nível profissional de 5-dan no Video-GoBench com apenas um modelo de 300 milhões de parâmetros, sem depender de algoritmos de busca ou mecanismos de recompensa típicos em aprendizado por reforço. Em tarefas robóticas, o VideoWorld aprende efetivamente diversas operações de controle e generaliza entre ambientes, se aproximando do desempenho de modelos oráculo em CALVIN e RLBench. Este estudo abre novos caminhos para a aquisição de conhecimento a partir de dados visuais, com todo o código, dados e modelos disponibilizados para pesquisa adicional.

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patente
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

Jan 16

ByGiyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu

Recentemente, LoRA e suas variantes se tornaram a estratégia padrão para treinar e compartilhar versões específicas de tarefas de grandes modelos pré-treinados, graças à sua eficiência e simplicidade. No entanto, a questão da proteção de direitos autorais para os pesos do LoRA, especialmente por meio de técnicas baseadas em marca d'água, permanece pouco explorada. Para abordar essa lacuna, propomos o SEAL (SEcure wAtermarking on LoRA weights), a marca d'água universal de caixa branca para LoRA. O SEAL incorpora uma matriz secreta e não treinável entre os pesos treináveis do LoRA, servindo como um passaporte para reivindicar a propriedade. Em seguida, o SEAL entrelaça o passaporte com os pesos do LoRA por meio do treinamento, sem perda adicional para o entrelaçamento, e distribui os pesos ajustados após ocultar o passaporte. Ao aplicar o SEAL, não observamos degradação de desempenho em tarefas de raciocínio comum, ajuste de instruções textuais/visuais e síntese de texto para imagem. Demonstramos que o SEAL é robusto contra uma variedade de ataques conhecidos: remoção, obfuscação e ataques de ambiguidade.

GameFactory: Criando Novos Jogos com Vídeos Interativos Generativos

GameFactory: Creating New Games with Generative Interactive Videos

Jan 14

ByJiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Jan 16

ByZhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patente

SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

Jan 16

ByGiyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu

Artigos de Pesquisa em IA Diários

GameFactory: Criando Novos Jogos com Vídeos Interativos GenerativosGameFactory: Creating New Games with Generative Interactive Videos

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não RotuladosVideoWorld: Exploring Knowledge Learning from Unlabeled Videos

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patenteSEAL: Entangled White-box Watermarks on Low-Rank Adaptation

Artigos de Pesquisa em IA Diários

GameFactory: Criando Novos Jogos com Vídeos Interativos GenerativosGameFactory: Creating New Games with Generative Interactive Videos

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não RotuladosVideoWorld: Exploring Knowledge Learning from Unlabeled Videos

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patenteSEAL: Entangled White-box Watermarks on Low-Rank Adaptation

GameFactory: Criando Novos Jogos com Vídeos Interativos Generativos
GameFactory: Creating New Games with Generative Interactive Videos

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patente
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

GameFactory: Criando Novos Jogos com Vídeos Interativos Generativos
GameFactory: Creating New Games with Generative Interactive Videos

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patente
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation