Artigos de pesquisa em IA selecionados diariamente com traduções
O Yume tem como objetivo utilizar imagens, textos ou vídeos para criar um mundo interativo, realista e dinâmico, que permita exploração e controle por meio de dispositivos periféricos ou sinais neurais. Neste relatório, apresentamos uma versão prévia do \method, que cria um mundo dinâmico a partir de uma imagem de entrada e permite a exploração desse mundo por meio de ações no teclado. Para alcançar essa geração de vídeo interativo e de alta fidelidade, introduzimos um framework bem projetado, composto por quatro componentes principais: quantização de movimento da câmera, arquitetura de geração de vídeo, amostrador avançado e aceleração do modelo. Primeiro, quantizamos os movimentos da câmera para garantir treinamento estável e interação amigável ao usuário por meio de entradas no teclado. Em seguida, apresentamos o Masked Video Diffusion Transformer~(MVDT) com um módulo de memória para geração infinita de vídeo de forma autorregressiva. Depois, o Anti-Artifact Mechanism (AAM) sem necessidade de treinamento e o Time Travel Sampling baseado em Equações Diferenciais Estocásticas (TTS-SDE) são introduzidos no amostrador para melhorar a qualidade visual e permitir controle mais preciso. Além disso, investigamos a aceleração do modelo por meio da otimização sinérgica de destilação adversarial e mecanismos de cache. Utilizamos o conjunto de dados de exploração de mundo de alta qualidade \sekai para treinar o \method, que alcança resultados notáveis em diversas cenas e aplicações. Todos os dados, código-base e pesos do modelo estão disponíveis em https://github.com/stdstu12/YUME. O Yume será atualizado mensalmente para alcançar seu objetivo original. Página do projeto: https://stdstu12.github.io/YUME-Project/.
Alcançar percepção e raciocínio semelhantes aos humanos em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continua sendo um desafio central na inteligência artificial. Embora pesquisas recentes tenham se concentrado principalmente em aprimorar as capacidades de raciocínio em MLLMs, uma questão fundamental persiste: os Modelos de Linguagem Multimodais de Grande Escala podem realmente perceber o mundo como os humanos? Este artigo desloca o foco do raciocínio para a percepção. Em vez de construir benchmarks especificamente para raciocínio, introduzimos o Teste de Turing Visual (TET), um benchmark desafiador orientado para a percepção, composto por quatro tarefas diagnósticas que avaliam o desempenho de MLLMs em imagens sintéticas que os humanos processam intuitivamente. Nossos resultados revelam que os MLLMs de última geração exibem falhas catastróficas em nossas tarefas perceptivas, que são triviais para humanos. Tanto o aprendizado em contexto quanto o treinamento no backbone de linguagem—eficazes em benchmarks anteriores—não conseguem melhorar o desempenho em nossas tarefas, enquanto o ajuste fino da torre visual permite uma rápida adaptação, sugerindo que nosso benchmark apresenta desafios para a generalização da torre visual, e não para as capacidades de conhecimento e raciocínio do backbone de linguagem—uma lacuna crucial entre os MLLMs atuais e a percepção humana. Lançamos um subconjunto representativo de tarefas do TET nesta versão e introduziremos tarefas e métodos mais diversificados para aprimorar a generalização visual em trabalhos futuros.
Criar slides de apresentação de alta qualidade pode ser desafiador para não especialistas devido à complexidade envolvida na navegação por diversas escolhas de design. Várias ferramentas automatizadas podem sugerir layouts e esquemas de cores, mas frequentemente carecem da capacidade de refinar sua própria saída, um aspecto crucial em fluxos de trabalho do mundo real. Propomos o DesignLab, que separa o processo de design em dois papéis: o revisor de design, que identifica problemas relacionados ao design, e o contribuidor de design, que os corrige. Essa decomposição permite um loop iterativo onde o revisor detecta continuamente problemas e o contribuidor os corrige, permitindo que um rascunho seja aprimorado a cada iteração, alcançando qualidades que antes eram inatingíveis. Ajustamos modelos de linguagem de grande escala para esses papéis e simulamos rascunhos intermediários introduzindo perturbações controladas, permitindo que o revisor de design aprenda sobre erros de design e o contribuidor aprenda a corrigi-los. Nossos experimentos mostram que o DesignLab supera os métodos existentes de geração de design, incluindo uma ferramenta comercial, ao abraçar a natureza iterativa do design, resultando em slides polidos e profissionais.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma poderoso para aprimorar as capacidades de raciocínio dos LLMs (Large Language Models). Pesquisas existentes concentraram-se predominantemente em domínios de raciocínio isolados, como resolução de problemas matemáticos, tarefas de codificação ou raciocínio lógico. No entanto, cenários de raciocínio do mundo real exigem, por natureza, uma aplicação integrada de múltiplas habilidades cognitivas. Apesar disso, a interação entre essas habilidades de raciocínio sob o aprendizado por reforço permanece pouco compreendida. Para preencher essa lacuna, apresentamos uma investigação sistemática do raciocínio em múltiplos domínios dentro do framework RLVR, com foco explícito em três domínios principais: raciocínio matemático, geração de código e resolução de quebra-cabeças lógicos. Realizamos um estudo abrangente composto por quatro componentes-chave: (1) Utilizando o algoritmo GRPO e a família de modelos Qwen-2.5-7B, nosso estudo avalia minuciosamente as melhorias dos modelos dentro do domínio e suas capacidades de generalização entre domínios quando treinados em conjuntos de dados de domínio único. (2) Além disso, examinamos as interações complexas, incluindo aprimoramentos mútuos e conflitos que surgem durante o treinamento combinado entre domínios. (3) Para entender melhor a influência do SFT (Supervised Fine-Tuning) no RL, também analisamos e comparamos as diferenças de desempenho entre modelos base e modelos de instrução sob configurações idênticas de RL. (4) Adicionalmente, exploramos detalhes críticos do treinamento de RL, investigando sistematicamente os impactos de estratégias de aprendizagem curricular, variações no design de recompensas e fatores específicos da linguagem. Por meio de experimentos extensivos, nossos resultados oferecem insights significativos sobre as dinâmicas que governam as interações entre domínios, revelando fatores-chave que influenciam tanto o desempenho especializado quanto a capacidade de generalização do raciocínio. Essas descobertas fornecem orientações valiosas para otimizar metodologias de RL, visando fomentar capacidades abrangentes de raciocínio em múltiplos domínios em LLMs.
Avanços recentes em representações esparsas de voxels melhoraram significativamente a qualidade da geração de conteúdo 3D, permitindo modelagem de alta resolução com geometria refinada. No entanto, os frameworks existentes sofrem com ineficiências computacionais severas devido à complexidade quadrática dos mecanismos de atenção em seus pipelines de difusão em dois estágios. Neste trabalho, propomos o Ultra3D, um framework eficiente de geração 3D que acelera significativamente a modelagem de voxels esparsos sem comprometer a qualidade. Nosso método utiliza a representação compacta VecSet para gerar eficientemente um layout grosseiro do objeto no primeiro estágio, reduzindo a contagem de tokens e acelerando a predição de coordenadas de voxels. Para refinar as características latentes por voxel no segundo estágio, introduzimos a Part Attention, um mecanismo de atenção localizada e consciente da geometria que restringe o cálculo de atenção a regiões de partes semanticamente consistentes. Esse design preserva a continuidade estrutural enquanto evita a atenção global desnecessária, alcançando uma aceleração de até 6,7x na geração latente. Para suportar esse mecanismo, construímos um pipeline escalável de anotação de partes que converte malhas brutas em voxels esparsos rotulados por partes. Experimentos extensivos demonstram que o Ultra3D suporta geração 3D de alta resolução em 1024 e alcança desempenho de ponta tanto em fidelidade visual quanto em preferência do usuário.
A busca agentiva, como um paradigma mais autônomo e adaptativo de aumento de recuperação, está impulsionando a evolução dos sistemas de busca inteligente. No entanto, os frameworks de avaliação existentes não se alinham bem com os objetivos da busca agentiva. Primeiro, as consultas complexas comumente usadas nos benchmarks atuais frequentemente se desviam dos cenários realistas de busca do usuário. Segundo, as abordagens anteriores tendem a introduzir ruído ao extrair a verdade fundamental para avaliações de ponta a ponta, levando a avaliações distorcidas em um nível mais granular. Terceiro, a maioria dos frameworks atuais se concentra apenas na qualidade das respostas finais, negligenciando a avaliação do processo iterativo inerente à busca agentiva. Para abordar essas limitações, propomos o RAVine — um framework de avaliação alinhado à realidade para LLMs agentivas com busca. O RAVine visa consultas de múltiplos pontos e respostas de formato longo que melhor refletem as intenções do usuário, e introduz uma estratégia de construção de verdade fundamental atribuível para aumentar a precisão da avaliação granular. Além disso, o RAVine examina a interação do modelo com ferramentas de busca ao longo do processo iterativo e considera fatores de eficiência. Avaliamos uma série de modelos usando o RAVine e derivamos várias percepções, que esperamos contribuir para o avanço do desenvolvimento de sistemas de busca agentiva. O código e os conjuntos de dados estão disponíveis em https://github.com/SwordFaith/RAVine.
Os modelos de linguagem de grande escala (LLMs) baseados em linguagem informal (por exemplo, linguagem humana) treinados com Aprendizado por Reforço (RL) enfrentam um desafio significativo: seus processos de verificação, que fornecem sinais de treinamento cruciais, não são confiáveis nem escaláveis. Na verdade, os grandes modelos proprietários predominantes dificilmente conseguem gerar programas verificáveis. Uma alternativa promissora, mas ainda pouco explorada, é o raciocínio baseado em linguagem formal. Ancorar LLMs em sistemas formais rigorosos, onde modelos generativos operam em espaços de linguagem formal (por exemplo, Dafny), permite a verificação automática e matematicamente comprovável de seus processos e resultados de raciocínio. Essa capacidade é fundamental para alcançar a verificação formal de software em grande escala e confiável. É uma prática comum empregar cadeias de pensamento anotadas por humanos e outros conhecimentos prévios humanos para induzir as capacidades de raciocínio e codificação dos LLMs. Infelizmente, torna-se inaceitavelmente exaustivo fornecer tais conhecimentos prévios para supervisionar tarefas complexas de programação. Neste trabalho, exploramos sistematicamente maneiras de reduzir os conhecimentos prévios humanos utilizando a linguagem formal Dafny como o ambiente principal para nosso estudo piloto. Nossa abordagem depende principalmente da introdução de um pipeline de curadoria de dados automático e escalável, e de projetos cuidadosos de RL integrados com feedback do verificador de linguagem formal. Introduzimos o DafnyComp, um benchmark de programas formais composicionais com especificações auto-formalizadas para raciocínio sobre especificações. Nossa etapa de ajuste fino supervisionado (SFT) permite que até mesmo modelos pequenos (por exemplo, 0.5B) gerem código Dafny sintaticamente válido e verificável, superando modelos proprietários. O RL com regularização melhora ainda mais o desempenho, alcançando uma generalização mais forte para tarefas fora do domínio e superando todas as linhas de base fortes no desafiador benchmark DafnyComp.
Modelos de Linguagem de Grande Escala (LLMs) têm o melhor desempenho com prompts bem elaborados, no entanto, a engenharia de prompts continua sendo manual, inconsistente e inacessível para não especialistas. Apresentamos o Promptomatix, um framework de otimização automática de prompts que transforma descrições de tarefas em linguagem natural em prompts de alta qualidade, sem a necessidade de ajustes manuais ou expertise de domínio. O Promptomatix suporta tanto um otimizador leve baseado em meta-prompts quanto um compilador alimentado por DSPy, com um design modular que permite futuras extensões para frameworks mais avançados. O sistema analisa a intenção do usuário, gera dados de treinamento sintéticos, seleciona estratégias de prompting e refina os prompts usando objetivos conscientes de custo. Avaliado em 5 categorias de tarefas, o Promptomatix alcança desempenho competitivo ou superior em comparação com bibliotecas existentes, enquanto reduz o comprimento dos prompts e a sobrecarga computacional, tornando a otimização de prompts escalável e eficiente.
Ativos 3D de alta qualidade são essenciais para diversas aplicações em computação gráfica e visão 3D, mas permanecem escassos devido aos custos significativos de aquisição. Para abordar essa escassez, apresentamos o Elevate3D, um novo framework que transforma ativos 3D de baixa qualidade, facilmente acessíveis, em ativos de qualidade superior. No núcleo do Elevate3D está o HFS-SDEdit, um método especializado de aprimoramento de texturas que melhora significativamente a qualidade das texturas enquanto preserva a aparência e a geometria, corrigindo suas degradações. Além disso, o Elevate3D opera de maneira visão por visão, alternando entre o refinamento de texturas e geometria. Diferentemente de métodos anteriores que em grande parte negligenciaram o refinamento da geometria, nosso framework aproveita pistas geométricas de imagens refinadas com o HFS-SDEdit, empregando preditores de geometria monocular de última geração. Essa abordagem garante uma geometria detalhada e precisa que se alinha perfeitamente com a textura aprimorada. O Elevate3D supera concorrentes recentes ao alcançar qualidade de ponta no refinamento de modelos 3D, abordando efetivamente a escassez de ativos 3D de alta qualidade de código aberto.
O rápido avanço dos modelos de difusão de vídeo tem sido dificultado por limitações fundamentais na modelagem temporal, particularmente a sincronização rígida da evolução dos quadros imposta pelas variáveis convencionais de passo de tempo escalar. Embora adaptações específicas para tarefas e modelos autoregressivos tenham buscado abordar esses desafios, eles permanecem limitados por ineficiência computacional, esquecimento catastrófico ou aplicabilidade restrita. Neste trabalho, apresentamos Pusa, um paradigma inovador que aproveita a adaptação vetorizada de passo de tempo (VTA) para permitir controle temporal refinado dentro de um framework unificado de difusão de vídeo. Além disso, a VTA é uma adaptação não destrutiva, o que significa que ela preserva totalmente as capacidades do modelo base. Ao ajustar o modelo Wan2.1-T2V-14B, estado da arte, com VTA, alcançamos uma eficiência sem precedentes — superando o desempenho do Wan-I2V-14B com ≤ 1/200 do custo de treinamento (\500 vs. \geq 100.000) e ≤ 1/2500 do tamanho do conjunto de dados (4K vs. \geq 10M amostras). O Pusa não apenas estabelece um novo padrão para a geração de imagem para vídeo (I2V), alcançando uma pontuação total VBench-I2V de 87,32% (vs. 86,86% do Wan-I2V-14B), mas também desbloqueia muitas capacidades multitarefa zero-shot, como quadros inicial e final e extensão de vídeo — tudo sem treinamento específico para tarefas. Enquanto isso, o Pusa ainda pode realizar a geração de texto para vídeo. Análises mecanicistas revelam que nossa abordagem preserva os priors generativos do modelo de base enquanto injeta dinâmicas temporais de forma cirúrgica, evitando a explosão combinatória inerente aos passos de tempo vetorizados. Este trabalho estabelece um paradigma escalável, eficiente e versátil para a síntese de vídeo de próxima geração, democratizando a geração de vídeo de alta fidelidade tanto para pesquisa quanto para a indústria. O código está disponível em https://github.com/Yaofang-Liu/Pusa-VidGen.
Modelos de difusão texto-imagem (DMs) alcançaram sucesso notável na geração de imagens. No entanto, preocupações sobre privacidade de dados e propriedade intelectual persistem devido ao seu potencial de memorizar e replicar inadvertidamente dados de treinamento. Esforços recentes de mitigação têm se concentrado em identificar e podar os pesos responsáveis por desencadear a replicação, com base na suposição de que a memorização pode ser localizada. Nossa pesquisa avalia a robustez dessas abordagens baseadas em poda. Demonstramos que, mesmo após a poda, ajustes mínimos nos embeddings de texto dos prompts de entrada são suficientes para reativar a replicação de dados, destacando a fragilidade dessas defesas. Além disso, desafiamos a suposição fundamental da localidade da memorização, mostrando que a replicação pode ser desencadeada a partir de diversos locais no espaço de embedding de texto e segue caminhos diferentes no modelo. Nossos achados indicam que as estratégias de mitigação existentes são insuficientes e ressaltam a necessidade de métodos que realmente removam o conteúdo memorizado, em vez de tentar suprimir sua recuperação. Como um primeiro passo nessa direção, introduzimos um novo método de ajuste fino adversarial que busca iterativamente por gatilhos de replicação e atualiza o modelo para aumentar a robustez. Por meio de nossa pesquisa, fornecemos novos insights sobre a natureza da memorização em DMs texto-imagem e uma base para a construção de IA generativa mais confiável e em conformidade.