HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

11 papers found

Yume: Um Modelo Interativo de Geração de Mundos
Yume: An Interactive World Generation Model

Jul 23

ByXiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

O Yume tem como objetivo utilizar imagens, textos ou vídeos para criar um mundo interativo, realista e dinâmico, que permita exploração e controle por meio de dispositivos periféricos ou sinais neurais. Neste relatório, apresentamos uma versão prévia do \method, que cria um mundo dinâmico a partir de uma imagem de entrada e permite a exploração desse mundo por meio de ações no teclado. Para alcançar essa geração de vídeo interativo e de alta fidelidade, introduzimos um framework bem projetado, composto por quatro componentes principais: quantização de movimento da câmera, arquitetura de geração de vídeo, amostrador avançado e aceleração do modelo. Primeiro, quantizamos os movimentos da câmera para garantir treinamento estável e interação amigável ao usuário por meio de entradas no teclado. Em seguida, apresentamos o Masked Video Diffusion Transformer~(MVDT) com um módulo de memória para geração infinita de vídeo de forma autorregressiva. Depois, o Anti-Artifact Mechanism (AAM) sem necessidade de treinamento e o Time Travel Sampling baseado em Equações Diferenciais Estocásticas (TTS-SDE) são introduzidos no amostrador para melhorar a qualidade visual e permitir controle mais preciso. Além disso, investigamos a aceleração do modelo por meio da otimização sinérgica de destilação adversarial e mecanismos de cache. Utilizamos o conjunto de dados de exploração de mundo de alta qualidade \sekai para treinar o \method, que alcança resultados notáveis em diversas cenas e aplicações. Todos os dados, código-base e pesos do modelo estão disponíveis em https://github.com/stdstu12/YUME. O Yume será atualizado mensalmente para alcançar seu objetivo original. Página do projeto: https://stdstu12.github.io/YUME-Project/.

Pixels, Padrões, mas Nenhuma Poesia: Para Ver o Mundo como os Humanos
Pixels, Patterns, but No Poetry: To See The World like Humans

Jul 21

ByHongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

Alcançar percepção e raciocínio semelhantes aos humanos em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continua sendo um desafio central na inteligência artificial. Embora pesquisas recentes tenham se concentrado principalmente em aprimorar as capacidades de raciocínio em MLLMs, uma questão fundamental persiste: os Modelos de Linguagem Multimodais de Grande Escala podem realmente perceber o mundo como os humanos? Este artigo desloca o foco do raciocínio para a percepção. Em vez de construir benchmarks especificamente para raciocínio, introduzimos o Teste de Turing Visual (TET), um benchmark desafiador orientado para a percepção, composto por quatro tarefas diagnósticas que avaliam o desempenho de MLLMs em imagens sintéticas que os humanos processam intuitivamente. Nossos resultados revelam que os MLLMs de última geração exibem falhas catastróficas em nossas tarefas perceptivas, que são triviais para humanos. Tanto o aprendizado em contexto quanto o treinamento no backbone de linguagem—eficazes em benchmarks anteriores—não conseguem melhorar o desempenho em nossas tarefas, enquanto o ajuste fino da torre visual permite uma rápida adaptação, sugerindo que nosso benchmark apresenta desafios para a generalização da torre visual, e não para as capacidades de conhecimento e raciocínio do backbone de linguagem—uma lacuna crucial entre os MLLMs atuais e a percepção humana. Lançamos um subconjunto representativo de tarefas do TET nesta versão e introduziremos tarefas e métodos mais diversificados para aprimorar a generalização visual em trabalhos futuros.

DesignLab: Projetando Slides Através de Detecção e Correção Iterativas
DesignLab: Designing Slides Through Iterative Detection and Correction

Jul 23

ByJooyeol Yun, Heng Wang, Yotaro Shimose, Jaegul Choo, Shingo Takamatsu

Criar slides de apresentação de alta qualidade pode ser desafiador para não especialistas devido à complexidade envolvida na navegação por diversas escolhas de design. Várias ferramentas automatizadas podem sugerir layouts e esquemas de cores, mas frequentemente carecem da capacidade de refinar sua própria saída, um aspecto crucial em fluxos de trabalho do mundo real. Propomos o DesignLab, que separa o processo de design em dois papéis: o revisor de design, que identifica problemas relacionados ao design, e o contribuidor de design, que os corrige. Essa decomposição permite um loop iterativo onde o revisor detecta continuamente problemas e o contribuidor os corrige, permitindo que um rascunho seja aprimorado a cada iteração, alcançando qualidades que antes eram inatingíveis. Ajustamos modelos de linguagem de grande escala para esses papéis e simulamos rascunhos intermediários introduzindo perturbações controladas, permitindo que o revisor de design aprenda sobre erros de design e o contribuidor aprenda a corrigi-los. Nossos experimentos mostram que o DesignLab supera os métodos existentes de geração de design, incluindo uma ferramenta comercial, ao abraçar a natureza iterativa do design, resultando em slides polidos e profissionais.

Um Domínio Pode Ajudar Outros? Um Estudo Centrado em Dados sobre Raciocínio Multi-Domínio via Aprendizado por Reforço
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

Jul 23

ByYu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma poderoso para aprimorar as capacidades de raciocínio dos LLMs (Large Language Models). Pesquisas existentes concentraram-se predominantemente em domínios de raciocínio isolados, como resolução de problemas matemáticos, tarefas de codificação ou raciocínio lógico. No entanto, cenários de raciocínio do mundo real exigem, por natureza, uma aplicação integrada de múltiplas habilidades cognitivas. Apesar disso, a interação entre essas habilidades de raciocínio sob o aprendizado por reforço permanece pouco compreendida. Para preencher essa lacuna, apresentamos uma investigação sistemática do raciocínio em múltiplos domínios dentro do framework RLVR, com foco explícito em três domínios principais: raciocínio matemático, geração de código e resolução de quebra-cabeças lógicos. Realizamos um estudo abrangente composto por quatro componentes-chave: (1) Utilizando o algoritmo GRPO e a família de modelos Qwen-2.5-7B, nosso estudo avalia minuciosamente as melhorias dos modelos dentro do domínio e suas capacidades de generalização entre domínios quando treinados em conjuntos de dados de domínio único. (2) Além disso, examinamos as interações complexas, incluindo aprimoramentos mútuos e conflitos que surgem durante o treinamento combinado entre domínios. (3) Para entender melhor a influência do SFT (Supervised Fine-Tuning) no RL, também analisamos e comparamos as diferenças de desempenho entre modelos base e modelos de instrução sob configurações idênticas de RL. (4) Adicionalmente, exploramos detalhes críticos do treinamento de RL, investigando sistematicamente os impactos de estratégias de aprendizagem curricular, variações no design de recompensas e fatores específicos da linguagem. Por meio de experimentos extensivos, nossos resultados oferecem insights significativos sobre as dinâmicas que governam as interações entre domínios, revelando fatores-chave que influenciam tanto o desempenho especializado quanto a capacidade de generalização do raciocínio. Essas descobertas fornecem orientações valiosas para otimizar metodologias de RL, visando fomentar capacidades abrangentes de raciocínio em múltiplos domínios em LLMs.

Ultra3D: Geração Eficiente e de Alta Fidelidade em 3D com Atenção a Partes
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

Jul 23

ByYiwen Chen, Zhihao Li, Yikai Wang, Hu Zhang, Qin Li, Chi Zhang, Guosheng Lin

Avanços recentes em representações esparsas de voxels melhoraram significativamente a qualidade da geração de conteúdo 3D, permitindo modelagem de alta resolução com geometria refinada. No entanto, os frameworks existentes sofrem com ineficiências computacionais severas devido à complexidade quadrática dos mecanismos de atenção em seus pipelines de difusão em dois estágios. Neste trabalho, propomos o Ultra3D, um framework eficiente de geração 3D que acelera significativamente a modelagem de voxels esparsos sem comprometer a qualidade. Nosso método utiliza a representação compacta VecSet para gerar eficientemente um layout grosseiro do objeto no primeiro estágio, reduzindo a contagem de tokens e acelerando a predição de coordenadas de voxels. Para refinar as características latentes por voxel no segundo estágio, introduzimos a Part Attention, um mecanismo de atenção localizada e consciente da geometria que restringe o cálculo de atenção a regiões de partes semanticamente consistentes. Esse design preserva a continuidade estrutural enquanto evita a atenção global desnecessária, alcançando uma aceleração de até 6,7x na geração latente. Para suportar esse mecanismo, construímos um pipeline escalável de anotação de partes que converte malhas brutas em voxels esparsos rotulados por partes. Experimentos extensivos demonstram que o Ultra3D suporta geração 3D de alta resolução em 1024 e alcança desempenho de ponta tanto em fidelidade visual quanto em preferência do usuário.

RAVine: Avaliação Alinhada à Realidade para Busca Agente
RAVine: Reality-Aligned Evaluation for Agentic Search

Jul 22

ByYilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao

A busca agentiva, como um paradigma mais autônomo e adaptativo de aumento de recuperação, está impulsionando a evolução dos sistemas de busca inteligente. No entanto, os frameworks de avaliação existentes não se alinham bem com os objetivos da busca agentiva. Primeiro, as consultas complexas comumente usadas nos benchmarks atuais frequentemente se desviam dos cenários realistas de busca do usuário. Segundo, as abordagens anteriores tendem a introduzir ruído ao extrair a verdade fundamental para avaliações de ponta a ponta, levando a avaliações distorcidas em um nível mais granular. Terceiro, a maioria dos frameworks atuais se concentra apenas na qualidade das respostas finais, negligenciando a avaliação do processo iterativo inerente à busca agentiva. Para abordar essas limitações, propomos o RAVine — um framework de avaliação alinhado à realidade para LLMs agentivas com busca. O RAVine visa consultas de múltiplos pontos e respostas de formato longo que melhor refletem as intenções do usuário, e introduz uma estratégia de construção de verdade fundamental atribuível para aumentar a precisão da avaliação granular. Além disso, o RAVine examina a interação do modelo com ferramentas de busca ao longo do processo iterativo e considera fatores de eficiência. Avaliamos uma série de modelos usando o RAVine e derivamos várias percepções, que esperamos contribuir para o avanço do desenvolvimento de sistemas de busca agentiva. O código e os conjuntos de dados estão disponíveis em https://github.com/SwordFaith/RAVine.

Re:Form -- Reduzindo Prioridades Humanas na Verificação Formal Escalável de Software com RL em LLMs: Um Estudo Preliminar sobre Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22

ByChuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu

Os modelos de linguagem de grande escala (LLMs) baseados em linguagem informal (por exemplo, linguagem humana) treinados com Aprendizado por Reforço (RL) enfrentam um desafio significativo: seus processos de verificação, que fornecem sinais de treinamento cruciais, não são confiáveis nem escaláveis. Na verdade, os grandes modelos proprietários predominantes dificilmente conseguem gerar programas verificáveis. Uma alternativa promissora, mas ainda pouco explorada, é o raciocínio baseado em linguagem formal. Ancorar LLMs em sistemas formais rigorosos, onde modelos generativos operam em espaços de linguagem formal (por exemplo, Dafny), permite a verificação automática e matematicamente comprovável de seus processos e resultados de raciocínio. Essa capacidade é fundamental para alcançar a verificação formal de software em grande escala e confiável. É uma prática comum empregar cadeias de pensamento anotadas por humanos e outros conhecimentos prévios humanos para induzir as capacidades de raciocínio e codificação dos LLMs. Infelizmente, torna-se inaceitavelmente exaustivo fornecer tais conhecimentos prévios para supervisionar tarefas complexas de programação. Neste trabalho, exploramos sistematicamente maneiras de reduzir os conhecimentos prévios humanos utilizando a linguagem formal Dafny como o ambiente principal para nosso estudo piloto. Nossa abordagem depende principalmente da introdução de um pipeline de curadoria de dados automático e escalável, e de projetos cuidadosos de RL integrados com feedback do verificador de linguagem formal. Introduzimos o DafnyComp, um benchmark de programas formais composicionais com especificações auto-formalizadas para raciocínio sobre especificações. Nossa etapa de ajuste fino supervisionado (SFT) permite que até mesmo modelos pequenos (por exemplo, 0.5B) gerem código Dafny sintaticamente válido e verificável, superando modelos proprietários. O RL com regularização melhora ainda mais o desempenho, alcançando uma generalização mais forte para tarefas fora do domínio e superando todas as linhas de base fortes no desafiador benchmark DafnyComp.

Promptomatix: Um Framework Automático de Otimização de Prompts para Modelos de Linguagem de Grande Escala
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Jul 17

ByRithesh Murthy, Ming Zhu, Liangwei Yang, Jielin Qiu, Juntao Tan, Shelby Heinecke, Caiming Xiong, Silvio Savarese, Huan Wang

Modelos de Linguagem de Grande Escala (LLMs) têm o melhor desempenho com prompts bem elaborados, no entanto, a engenharia de prompts continua sendo manual, inconsistente e inacessível para não especialistas. Apresentamos o Promptomatix, um framework de otimização automática de prompts que transforma descrições de tarefas em linguagem natural em prompts de alta qualidade, sem a necessidade de ajustes manuais ou expertise de domínio. O Promptomatix suporta tanto um otimizador leve baseado em meta-prompts quanto um compilador alimentado por DSPy, com um design modular que permite futuras extensões para frameworks mais avançados. O sistema analisa a intenção do usuário, gera dados de treinamento sintéticos, seleciona estratégias de prompting e refina os prompts usando objetivos conscientes de custo. Avaliado em 5 categorias de tarefas, o Promptomatix alcança desempenho competitivo ou superior em comparação com bibliotecas existentes, enquanto reduz o comprimento dos prompts e a sobrecarga computacional, tornando a otimização de prompts escalável e eficiente.

Aprimorando Modelos 3D: Refinamento de Textura e Geometria de Alta Qualidade a partir de um Modelo de Baixa Qualidade
Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

Jul 15

ByNuri Ryu, Jiyun Won, Jooeun Son, Minsu Gong, Joo-Haeng Lee, Sunghyun Cho

Ativos 3D de alta qualidade são essenciais para diversas aplicações em computação gráfica e visão 3D, mas permanecem escassos devido aos custos significativos de aquisição. Para abordar essa escassez, apresentamos o Elevate3D, um novo framework que transforma ativos 3D de baixa qualidade, facilmente acessíveis, em ativos de qualidade superior. No núcleo do Elevate3D está o HFS-SDEdit, um método especializado de aprimoramento de texturas que melhora significativamente a qualidade das texturas enquanto preserva a aparência e a geometria, corrigindo suas degradações. Além disso, o Elevate3D opera de maneira visão por visão, alternando entre o refinamento de texturas e geometria. Diferentemente de métodos anteriores que em grande parte negligenciaram o refinamento da geometria, nosso framework aproveita pistas geométricas de imagens refinadas com o HFS-SDEdit, empregando preditores de geometria monocular de última geração. Essa abordagem garante uma geometria detalhada e precisa que se alinha perfeitamente com a textura aprimorada. O Elevate3D supera concorrentes recentes ao alcançar qualidade de ponta no refinamento de modelos 3D, abordando efetivamente a escassez de ativos 3D de alta qualidade de código aberto.

PUSA V1.0: Superando o Wan-I2V com Custo de Treinamento de $500 por meio da Adaptação Vetorizada de Passos de Tempo
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Jul 22

ByYaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel

O rápido avanço dos modelos de difusão de vídeo tem sido dificultado por limitações fundamentais na modelagem temporal, particularmente a sincronização rígida da evolução dos quadros imposta pelas variáveis convencionais de passo de tempo escalar. Embora adaptações específicas para tarefas e modelos autoregressivos tenham buscado abordar esses desafios, eles permanecem limitados por ineficiência computacional, esquecimento catastrófico ou aplicabilidade restrita. Neste trabalho, apresentamos Pusa, um paradigma inovador que aproveita a adaptação vetorizada de passo de tempo (VTA) para permitir controle temporal refinado dentro de um framework unificado de difusão de vídeo. Além disso, a VTA é uma adaptação não destrutiva, o que significa que ela preserva totalmente as capacidades do modelo base. Ao ajustar o modelo Wan2.1-T2V-14B, estado da arte, com VTA, alcançamos uma eficiência sem precedentes — superando o desempenho do Wan-I2V-14B com ≤ 1/200 do custo de treinamento (\500 vs. \geq 100.000) e ≤ 1/2500 do tamanho do conjunto de dados (4K vs. \geq 10M amostras). O Pusa não apenas estabelece um novo padrão para a geração de imagem para vídeo (I2V), alcançando uma pontuação total VBench-I2V de 87,32% (vs. 86,86% do Wan-I2V-14B), mas também desbloqueia muitas capacidades multitarefa zero-shot, como quadros inicial e final e extensão de vídeo — tudo sem treinamento específico para tarefas. Enquanto isso, o Pusa ainda pode realizar a geração de texto para vídeo. Análises mecanicistas revelam que nossa abordagem preserva os priors generativos do modelo de base enquanto injeta dinâmicas temporais de forma cirúrgica, evitando a explosão combinatória inerente aos passos de tempo vetorizados. Este trabalho estabelece um paradigma escalável, eficiente e versátil para a síntese de vídeo de próxima geração, democratizando a geração de vídeo de alta fidelidade tanto para pesquisa quanto para a indústria. O código está disponível em https://github.com/Yaofang-Liu/Pusa-VidGen.

Encontrando Dori: A Memorização em Modelos de Difusão Texto-para-Imagem É Menos Local do Que se Assumia
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed

Jul 22

ByAntoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch

Modelos de difusão texto-imagem (DMs) alcançaram sucesso notável na geração de imagens. No entanto, preocupações sobre privacidade de dados e propriedade intelectual persistem devido ao seu potencial de memorizar e replicar inadvertidamente dados de treinamento. Esforços recentes de mitigação têm se concentrado em identificar e podar os pesos responsáveis por desencadear a replicação, com base na suposição de que a memorização pode ser localizada. Nossa pesquisa avalia a robustez dessas abordagens baseadas em poda. Demonstramos que, mesmo após a poda, ajustes mínimos nos embeddings de texto dos prompts de entrada são suficientes para reativar a replicação de dados, destacando a fragilidade dessas defesas. Além disso, desafiamos a suposição fundamental da localidade da memorização, mostrando que a replicação pode ser desencadeada a partir de diversos locais no espaço de embedding de texto e segue caminhos diferentes no modelo. Nossos achados indicam que as estratégias de mitigação existentes são insuficientes e ressaltam a necessidade de métodos que realmente removam o conteúdo memorizado, em vez de tentar suprimir sua recuperação. Como um primeiro passo nessa direção, introduzimos um novo método de ajuste fino adversarial que busca iterativamente por gatilhos de replicação e atualiza o modelo para aumentar a robustez. Por meio de nossa pesquisa, fornecemos novos insights sobre a natureza da memorização em DMs texto-imagem e uma base para a construção de IA generativa mais confiável e em conformidade.

Re:Form -- Reduzindo Prioridades Humanas na Verificação Formal Escalável de Software com RL em LLMs: Um Estudo Preliminar sobre Dafny
Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

Jul 22

ByChuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Zhuangzhuang He, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu