HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

PixelHacker: Preenchimento de Imagens com Consistência Estrutural e Semântica
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

A restauração de imagens é uma área fundamental de pesquisa entre edição e geração de imagens. Métodos recentes de última geração (state-of-the-art, SOTA) têm explorado novos mecanismos de atenção, arquiteturas leves e modelagem contextual, demonstrando desempenho impressionante. No entanto, eles frequentemente enfrentam dificuldades com estruturas complexas (por exemplo, textura, forma, relações espaciais) e semântica (por exemplo, consistência de cores, restauração de objetos e correção lógica), resultando em artefatos e gerações inadequadas. Para enfrentar esse desafio, projetamos um paradigma de restauração simples, porém eficaz, chamado orientação por categorias latentes, e propomos ainda um modelo baseado em difusão denominado PixelHacker. Especificamente, primeiro construímos um grande conjunto de dados contendo 14 milhões de pares imagem-máscara, anotando primeiro plano e fundo (com 116 e 21 categorias potenciais, respectivamente). Em seguida, codificamos separadamente as representações potenciais de primeiro plano e fundo por meio de dois embeddings de tamanho fixo, e injetamos intermitentemente esses recursos no processo de remoção de ruído via atenção linear. Por fim, ao pré-treinar em nosso conjunto de dados e ajustar finamente em benchmarks de código aberto, obtemos o PixelHacker. Experimentos extensivos mostram que o PixelHacker supera amplamente os métodos SOTA em uma variedade de conjuntos de dados (Places2, CelebA-HQ e FFHQ) e exibe consistência notável tanto em estrutura quanto em semântica. Página do projeto em https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Modelos de Raciocínio Eficientes
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Apresentamos a série de modelos Llama-Nemotron, uma família aberta de modelos de raciocínio heterogêneos que oferecem capacidades excepcionais de raciocínio, eficiência de inferência e uma licença aberta para uso empresarial. A família está disponível em três tamanhos — Nano (8B), Super (49B) e Ultra (253B) — e apresenta desempenho competitivo com modelos de raciocínio state-of-the-art, como o DeepSeek-R1, ao mesmo tempo que oferece uma taxa de transferência de inferência e eficiência de memória superiores. Neste relatório, discutimos o procedimento de treinamento desses modelos, que envolve o uso de busca de arquitetura neural a partir dos modelos Llama 3 para inferência acelerada, destilação de conhecimento e pré-treinamento contínuo, seguido por uma etapa de pós-treinamento focada em raciocínio, composta por duas partes principais: ajuste fino supervisionado e aprendizado por reforço em larga escala. Os modelos Llama-Nemotron são os primeiros modelos de código aberto a suportar um alternador dinâmico de raciocínio, permitindo que os usuários alternem entre modos de chat padrão e de raciocínio durante a inferência. Para apoiar ainda mais a pesquisa aberta e facilitar o desenvolvimento de modelos, disponibilizamos os seguintes recursos: 1. Lançamos os modelos de raciocínio Llama-Nemotron — LN-Nano, LN-Super e LN-Ultra — sob a licença comercialmente permissiva NVIDIA Open Model License Agreement. 2. Lançamos o conjunto de dados completo de pós-treinamento: Llama-Nemotron-Post-Training-Dataset. 3. Também disponibilizamos nossos códigos de treinamento: NeMo, NeMo-Aligner e Megatron-LM.

Melhorando a Editabilidade na Geração de Imagens com Memória em Camadas
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

A maioria das tarefas de edição de imagens do mundo real requer múltiplas edições sequenciais para alcançar os resultados desejados. As abordagens atuais de edição, projetadas principalmente para modificações de objetos únicos, enfrentam dificuldades com a edição sequencial: especialmente em manter edições anteriores enquanto integram novos objetos de forma natural ao conteúdo existente. Essas limitações prejudicam significativamente cenários de edição complexos, onde múltiplos objetos precisam ser modificados enquanto suas relações contextuais são preservadas. Abordamos esse desafio fundamental por meio de duas propostas principais: permitir entradas de máscaras aproximadas que preservam o conteúdo existente enquanto integram novos elementos de forma natural e suportar edições consistentes em múltiplas modificações. Nosso framework alcança isso através de uma memória em camadas, que armazena representações latentes e embeddings de prompts de edições anteriores. Propomos a Orientação de Consistência de Fundo, que aproveita os latentes memorizados para manter a coerência da cena, e a Desvinculação de Múltiplas Consultas na atenção cruzada, que garante uma adaptação natural ao conteúdo existente. Para avaliar nosso método, apresentamos um novo conjunto de dados de referência que incorpora métricas de alinhamento semântico e cenários de edição interativa. Através de experimentos abrangentes, demonstramos um desempenho superior em tarefas iterativas de edição de imagens com esforço mínimo do usuário, exigindo apenas máscaras aproximadas enquanto mantém resultados de alta qualidade ao longo de múltiplas etapas de edição.

Além do Modelo Único: Aprendizado de Inversão para Prompts de Avaliação Altamente Eficazes em Geração de Linguagem Natural
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

A avaliação de sistemas de geração de linguagem natural (NLG) é desafiadora devido à diversidade de saídas válidas. Embora a avaliação humana seja o padrão-ouro, ela sofre com inconsistências, falta de padronização e vieses demográficos, limitando a reprodutibilidade. A avaliação baseada em modelos de linguagem de grande escala (LLM) oferece uma alternativa escalável, mas é altamente sensível ao design de prompts, onde pequenas variações podem levar a discrepâncias significativas. Neste trabalho, propomos um método de aprendizado por inversão que aprende mapeamentos reversos eficazes a partir das saídas do modelo de volta para suas instruções de entrada, permitindo a geração automática de prompts de avaliação altamente eficazes e específicos para o modelo. Nosso método requer apenas uma única amostra de avaliação e elimina a necessidade de engenharia de prompts manual demorada, melhorando tanto a eficiência quanto a robustez. Nosso trabalho contribui para uma nova direção em avaliações baseadas em LLM mais robustas e eficientes.

Lacunas do Mundo Real na Pesquisa sobre Governança de IA
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

Com base em 1.178 artigos sobre segurança e confiabilidade extraídos de 9.439 artigos de IA generativa (janeiro de 2020 - março de 2025), comparamos as produções de pesquisa das principais empresas de IA (Anthropic, Google DeepMind, Meta, Microsoft e OpenAI) e universidades de IA (CMU, MIT, NYU, Stanford, UC Berkeley e Universidade de Washington). Constatamos que a pesquisa corporativa em IA está cada vez mais concentrada em áreas pré-implantação — como alinhamento de modelos e testes & avaliação — enquanto a atenção a questões da fase de implantação, como viés de modelos, diminuiu. Existem lacunas significativas de pesquisa em domínios de implantação de alto risco, incluindo saúde, finanças, desinformação, recursos persuasivos e viciantes, alucinações e direitos autorais. Sem uma melhor observabilidade das IAs implantadas, a crescente concentração corporativa pode aprofundar os déficits de conhecimento. Recomendamos expandir o acesso de pesquisadores externos aos dados de implantação e a observabilidade sistemática do comportamento das IAs em uso no mercado.

CORG: Gerando Respostas a partir de Contextos Complexos e Inter-relacionados
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

Em um corpus do mundo real, o conhecimento frequentemente se repete entre documentos, mas muitas vezes contém inconsistências devido a nomenclaturas ambíguas, informações desatualizadas ou erros, resultando em inter-relações complexas entre contextos. Pesquisas anteriores mostraram que os modelos de linguagem têm dificuldades com essas complexidades, geralmente focando em fatores isolados. Classificamos essas relações em quatro tipos: distrativas, ambíguas, contrafactuais e duplicadas. Nossa análise revela que nenhuma abordagem única é eficaz para lidar com todas essas inter-relações simultaneamente. Portanto, introduzimos o Context Organizer (CORG), um framework que organiza múltiplos contextos em grupos processados de forma independente. Esse design permite que o modelo encontre eficientemente todas as respostas relevantes enquanto garante a desambiguação. O CORG consiste em três componentes principais: um construtor de grafos, um reranker e um agregador. Nossos resultados demonstram que o CORG equilibra desempenho e eficiência de forma eficaz, superando métodos de agrupamento existentes e alcançando resultados comparáveis a abordagens mais intensivas computacionalmente, baseadas em contexto único.

WorldGenBench: Um Benchmark Integrado de Conhecimento Mundial para Geração de Texto em Imagem Orientada por Raciocínio
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

Os avanços recentes na geração de texto para imagem (T2I) têm alcançado resultados impressionantes, mas os modelos existentes ainda enfrentam dificuldades com prompts que exigem conhecimento profundo do mundo e raciocínio implícito: ambos são críticos para produzir imagens semanticamente precisas, coerentes e contextualmente apropriadas em cenários do mundo real. Para abordar essa lacuna, introduzimos o WorldGenBench, um benchmark projetado para avaliar sistematicamente a fundamentação do conhecimento do mundo e as capacidades inferenciais implícitas dos modelos T2I, abrangendo tanto os domínios das humanidades quanto da natureza. Propomos o Knowledge Checklist Score, uma métrica estruturada que mede o quão bem as imagens geradas atendem às expectativas semânticas-chave. Experimentos com 21 modelos de última geração revelam que, embora os modelos de difusão liderem entre os métodos de código aberto, modelos proprietários auto-regressivos como o GPT-4o exibem integração de conhecimento e raciocínio significativamente mais fortes. Nossas descobertas destacam a necessidade de capacidades mais profundas de compreensão e inferência nos sistemas T2I de próxima geração. Página do Projeto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

X-Cross: Integração Dinâmica de Modelos de Linguagem para Recomendação Sequencial em Domínios Cruzados
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

À medida que novos produtos surgem diariamente, os sistemas de recomendação precisam se adaptar rapidamente a possíveis novos domínios sem a necessidade de extensivo retreinamento. Este trabalho apresenta o ``X-Cross'' -- um novo modelo de recomendação sequencial entre domínios que recomenda produtos em novos domínios ao integrar vários modelos de linguagem específicos de domínio; cada modelo é ajustado com adaptadores de baixo posto (LoRA). Dado um prompt de recomendação, operando camada por camada, o X-Cross refina dinamicamente a representação de cada modelo de linguagem de origem ao integrar conhecimento de todos os outros modelos. Essas representações refinadas são propagadas de uma camada para a próxima, aproveitando as ativações de cada adaptador de domínio para garantir que nuances específicas do domínio sejam preservadas, ao mesmo tempo em que permitem adaptabilidade entre domínios. Utilizando conjuntos de dados da Amazon para recomendação sequencial, o X-Cross alcança desempenho comparável a um modelo ajustado com LoRA, enquanto utiliza apenas 25% dos parâmetros adicionais. Em tarefas entre domínios, como adaptar do domínio de Brinquedos para Ferramentas, Eletrônicos ou Esportes, o X-Cross demonstra desempenho robusto, enquanto requer cerca de 50%-75% menos dados de ajuste fino do que o LoRA para tornar o ajuste eficaz. Além disso, o X-Cross alcança uma melhoria significativa na precisão em relação a linhas de base alternativas entre domínios. No geral, o X-Cross permite recomendações escaláveis e adaptáveis entre domínios, reduzindo a sobrecarga computacional e fornecendo uma solução eficiente para ambientes com restrições de dados.

TeLoGraF: Planejamento de Lógica Temporal via Correspondência de Fluxo Codificada em Grafos
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Aprender a resolver tarefas complexas com especificações de lógica temporal de sinais (STL) é crucial para muitas aplicações do mundo real. No entanto, a maioria dos trabalhos anteriores considera apenas especificações STL fixas ou parametrizadas devido à falta de um conjunto de dados STL diversificado e de codificadores para extrair efetivamente informações de lógica temporal para tarefas subsequentes. Neste artigo, propomos o TeLoGraF, Fluxo Codificado em Grafos de Lógica Temporal, que utiliza uma codificação por Redes Neurais de Grafos (GNN) e correspondência de fluxo para aprender soluções para especificações STL gerais. Identificamos quatro modelos STL comumente usados e coletamos um total de 200 mil especificações com demonstrações pareadas. Realizamos experimentos extensos em cinco ambientes de simulação, variando de modelos dinâmicos simples no espaço 2D até o braço robótico Franka Panda de 7 graus de liberdade e a navegação do quadrúpede Ant em alta dimensionalidade. Os resultados mostram que nosso método supera outras abordagens de referência na taxa de satisfação STL. Em comparação com algoritmos clássicos de planejamento STL, nossa abordagem é 10 a 100 vezes mais rápida na inferência e pode funcionar com qualquer dinâmica de sistema. Além disso, demonstramos a capacidade de nosso método de codificação em grafos para resolver STLs complexas e sua robustez a especificações STL fora da distribuição. O código está disponível em https://github.com/mengyuest/TeLoGraF.

Llama-Nemotron: Modelos de Raciocínio Eficientes
Llama-Nemotron: Efficient Reasoning Models

May 2