ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

GameFactory: Criando Novos Jogos com Vídeos Interativos Generativos
GameFactory: Creating New Games with Generative Interactive Videos

Jan 14
ByJiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
67
3

Motores de jogos generativos têm o potencial de revolucionar o desenvolvimento de jogos ao criar novo conteúdo de forma autônoma e reduzir a carga de trabalho manual. No entanto, os métodos existentes de geração de jogos baseados em vídeo falham em abordar o desafio crítico da generalização de cenas, limitando sua aplicabilidade a jogos existentes com estilos e cenas fixas. Neste artigo, apresentamos o GameFactory, um framework focado em explorar a generalização de cenas na geração de vídeos de jogos. Para permitir a criação de jogos totalmente novos e diversos, aproveitamos modelos de difusão de vídeo pré-treinados em dados de vídeo de domínio aberto. Para superar a diferença de domínio entre prioridades de domínio aberto e conjuntos de dados de jogos em pequena escala, propomos uma estratégia de treinamento em várias fases que separa a aprendizagem de estilo de jogo do controle de ação, preservando a generalização de domínio aberto ao mesmo tempo em que alcança a controlabilidade de ação. Usando o Minecraft como nossa fonte de dados, lançamos o GF-Minecraft, um conjunto de dados de vídeo de alta qualidade e diversidade anotado com ação para pesquisa. Além disso, estendemos nosso framework para permitir a geração de vídeos de jogos autoregressivos e controláveis por ação, permitindo a produção de vídeos de jogos interativos de comprimento ilimitado. Resultados experimentais demonstram que o GameFactory gera de forma eficaz vídeos de jogos de domínio aberto, diversos e controláveis por ação, representando um avanço significativo na geração de jogos impulsionada por IA. Nosso conjunto de dados e página do projeto estão publicamente disponíveis em https://vvictoryuki.github.io/gamefactory/.

2

VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Jan 16
ByZhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
28
2

Este trabalho explora se um modelo generativo profundo pode aprender conhecimento complexo exclusivamente a partir de entradas visuais, em contraste com o foco prevalente em modelos baseados em texto como os grandes modelos de linguagem (LLMs). Desenvolvemos o VideoWorld, um modelo de geração de vídeo auto-regressivo treinado em dados de vídeo não rotulados, e testamos suas habilidades de aquisição de conhecimento em tarefas de Go baseadas em vídeo e controle robótico. Nossos experimentos revelam duas descobertas-chave: (1) o treinamento apenas com vídeo fornece informações suficientes para aprender conhecimento, incluindo regras, capacidades de raciocínio e planejamento, e (2) a representação da mudança visual é crucial para a aquisição de conhecimento. Para melhorar tanto a eficiência quanto a eficácia desse processo, introduzimos o Modelo de Dinâmica Latente (LDM) como um componente chave do VideoWorld. Notavelmente, o VideoWorld atinge um nível profissional de 5-dan no Video-GoBench com apenas um modelo de 300 milhões de parâmetros, sem depender de algoritmos de busca ou mecanismos de recompensa típicos em aprendizado por reforço. Em tarefas robóticas, o VideoWorld aprende efetivamente diversas operações de controle e generaliza entre ambientes, se aproximando do desempenho de modelos oráculo em CALVIN e RLBench. Este estudo abre novos caminhos para a aquisição de conhecimento a partir de dados visuais, com todo o código, dados e modelos disponibilizados para pesquisa adicional.

3

SEAL: Marcas d'água enredadas em caixas brancas em adaptação de baixa patente
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

Jan 16
ByGiyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
10
2

Recentemente, LoRA e suas variantes se tornaram a estratégia padrão para treinar e compartilhar versões específicas de tarefas de grandes modelos pré-treinados, graças à sua eficiência e simplicidade. No entanto, a questão da proteção de direitos autorais para os pesos do LoRA, especialmente por meio de técnicas baseadas em marca d'água, permanece pouco explorada. Para abordar essa lacuna, propomos o SEAL (SEcure wAtermarking on LoRA weights), a marca d'água universal de caixa branca para LoRA. O SEAL incorpora uma matriz secreta e não treinável entre os pesos treináveis do LoRA, servindo como um passaporte para reivindicar a propriedade. Em seguida, o SEAL entrelaça o passaporte com os pesos do LoRA por meio do treinamento, sem perda adicional para o entrelaçamento, e distribui os pesos ajustados após ocultar o passaporte. Ao aplicar o SEAL, não observamos degradação de desempenho em tarefas de raciocínio comum, ajuste de instruções textuais/visuais e síntese de texto para imagem. Demonstramos que o SEAL é robusto contra uma variedade de ataques conhecidos: remoção, obfuscação e ataques de ambiguidade.

Jan 20
Jan 21
Jan 22