Artigos de pesquisa em IA selecionados diariamente com traduções
A restauração de imagens é uma área fundamental de pesquisa entre edição e geração de imagens. Métodos recentes de última geração (state-of-the-art, SOTA) têm explorado novos mecanismos de atenção, arquiteturas leves e modelagem contextual, demonstrando desempenho impressionante. No entanto, eles frequentemente enfrentam dificuldades com estruturas complexas (por exemplo, textura, forma, relações espaciais) e semântica (por exemplo, consistência de cores, restauração de objetos e correção lógica), resultando em artefatos e gerações inadequadas. Para enfrentar esse desafio, projetamos um paradigma de restauração simples, porém eficaz, chamado orientação por categorias latentes, e propomos ainda um modelo baseado em difusão denominado PixelHacker. Especificamente, primeiro construímos um grande conjunto de dados contendo 14 milhões de pares imagem-máscara, anotando primeiro plano e fundo (com 116 e 21 categorias potenciais, respectivamente). Em seguida, codificamos separadamente as representações potenciais de primeiro plano e fundo por meio de dois embeddings de tamanho fixo, e injetamos intermitentemente esses recursos no processo de remoção de ruído via atenção linear. Por fim, ao pré-treinar em nosso conjunto de dados e ajustar finamente em benchmarks de código aberto, obtemos o PixelHacker. Experimentos extensivos mostram que o PixelHacker supera amplamente os métodos SOTA em uma variedade de conjuntos de dados (Places2, CelebA-HQ e FFHQ) e exibe consistência notável tanto em estrutura quanto em semântica. Página do projeto em https://hustvl.github.io/PixelHacker.
Apresentamos a série de modelos Llama-Nemotron, uma família aberta de modelos de raciocínio heterogêneos que oferecem capacidades excepcionais de raciocínio, eficiência de inferência e uma licença aberta para uso empresarial. A família está disponível em três tamanhos — Nano (8B), Super (49B) e Ultra (253B) — e apresenta desempenho competitivo com modelos de raciocínio state-of-the-art, como o DeepSeek-R1, ao mesmo tempo que oferece uma taxa de transferência de inferência e eficiência de memória superiores. Neste relatório, discutimos o procedimento de treinamento desses modelos, que envolve o uso de busca de arquitetura neural a partir dos modelos Llama 3 para inferência acelerada, destilação de conhecimento e pré-treinamento contínuo, seguido por uma etapa de pós-treinamento focada em raciocínio, composta por duas partes principais: ajuste fino supervisionado e aprendizado por reforço em larga escala. Os modelos Llama-Nemotron são os primeiros modelos de código aberto a suportar um alternador dinâmico de raciocínio, permitindo que os usuários alternem entre modos de chat padrão e de raciocínio durante a inferência. Para apoiar ainda mais a pesquisa aberta e facilitar o desenvolvimento de modelos, disponibilizamos os seguintes recursos: 1. Lançamos os modelos de raciocínio Llama-Nemotron — LN-Nano, LN-Super e LN-Ultra — sob a licença comercialmente permissiva NVIDIA Open Model License Agreement. 2. Lançamos o conjunto de dados completo de pós-treinamento: Llama-Nemotron-Post-Training-Dataset. 3. Também disponibilizamos nossos códigos de treinamento: NeMo, NeMo-Aligner e Megatron-LM.
A maioria das tarefas de edição de imagens do mundo real requer múltiplas edições sequenciais para alcançar os resultados desejados. As abordagens atuais de edição, projetadas principalmente para modificações de objetos únicos, enfrentam dificuldades com a edição sequencial: especialmente em manter edições anteriores enquanto integram novos objetos de forma natural ao conteúdo existente. Essas limitações prejudicam significativamente cenários de edição complexos, onde múltiplos objetos precisam ser modificados enquanto suas relações contextuais são preservadas. Abordamos esse desafio fundamental por meio de duas propostas principais: permitir entradas de máscaras aproximadas que preservam o conteúdo existente enquanto integram novos elementos de forma natural e suportar edições consistentes em múltiplas modificações. Nosso framework alcança isso através de uma memória em camadas, que armazena representações latentes e embeddings de prompts de edições anteriores. Propomos a Orientação de Consistência de Fundo, que aproveita os latentes memorizados para manter a coerência da cena, e a Desvinculação de Múltiplas Consultas na atenção cruzada, que garante uma adaptação natural ao conteúdo existente. Para avaliar nosso método, apresentamos um novo conjunto de dados de referência que incorpora métricas de alinhamento semântico e cenários de edição interativa. Através de experimentos abrangentes, demonstramos um desempenho superior em tarefas iterativas de edição de imagens com esforço mínimo do usuário, exigindo apenas máscaras aproximadas enquanto mantém resultados de alta qualidade ao longo de múltiplas etapas de edição.
A avaliação de sistemas de geração de linguagem natural (NLG) é desafiadora devido à diversidade de saídas válidas. Embora a avaliação humana seja o padrão-ouro, ela sofre com inconsistências, falta de padronização e vieses demográficos, limitando a reprodutibilidade. A avaliação baseada em modelos de linguagem de grande escala (LLM) oferece uma alternativa escalável, mas é altamente sensível ao design de prompts, onde pequenas variações podem levar a discrepâncias significativas. Neste trabalho, propomos um método de aprendizado por inversão que aprende mapeamentos reversos eficazes a partir das saídas do modelo de volta para suas instruções de entrada, permitindo a geração automática de prompts de avaliação altamente eficazes e específicos para o modelo. Nosso método requer apenas uma única amostra de avaliação e elimina a necessidade de engenharia de prompts manual demorada, melhorando tanto a eficiência quanto a robustez. Nosso trabalho contribui para uma nova direção em avaliações baseadas em LLM mais robustas e eficientes.
Com base em 1.178 artigos sobre segurança e confiabilidade extraídos de 9.439 artigos de IA generativa (janeiro de 2020 - março de 2025), comparamos as produções de pesquisa das principais empresas de IA (Anthropic, Google DeepMind, Meta, Microsoft e OpenAI) e universidades de IA (CMU, MIT, NYU, Stanford, UC Berkeley e Universidade de Washington). Constatamos que a pesquisa corporativa em IA está cada vez mais concentrada em áreas pré-implantação — como alinhamento de modelos e testes & avaliação — enquanto a atenção a questões da fase de implantação, como viés de modelos, diminuiu. Existem lacunas significativas de pesquisa em domínios de implantação de alto risco, incluindo saúde, finanças, desinformação, recursos persuasivos e viciantes, alucinações e direitos autorais. Sem uma melhor observabilidade das IAs implantadas, a crescente concentração corporativa pode aprofundar os déficits de conhecimento. Recomendamos expandir o acesso de pesquisadores externos aos dados de implantação e a observabilidade sistemática do comportamento das IAs em uso no mercado.
Em um corpus do mundo real, o conhecimento frequentemente se repete entre documentos, mas muitas vezes contém inconsistências devido a nomenclaturas ambíguas, informações desatualizadas ou erros, resultando em inter-relações complexas entre contextos. Pesquisas anteriores mostraram que os modelos de linguagem têm dificuldades com essas complexidades, geralmente focando em fatores isolados. Classificamos essas relações em quatro tipos: distrativas, ambíguas, contrafactuais e duplicadas. Nossa análise revela que nenhuma abordagem única é eficaz para lidar com todas essas inter-relações simultaneamente. Portanto, introduzimos o Context Organizer (CORG), um framework que organiza múltiplos contextos em grupos processados de forma independente. Esse design permite que o modelo encontre eficientemente todas as respostas relevantes enquanto garante a desambiguação. O CORG consiste em três componentes principais: um construtor de grafos, um reranker e um agregador. Nossos resultados demonstram que o CORG equilibra desempenho e eficiência de forma eficaz, superando métodos de agrupamento existentes e alcançando resultados comparáveis a abordagens mais intensivas computacionalmente, baseadas em contexto único.
À medida que novos produtos surgem diariamente, os sistemas de recomendação precisam se adaptar rapidamente a possíveis novos domínios sem a necessidade de extensivo retreinamento. Este trabalho apresenta o ``X-Cross'' -- um novo modelo de recomendação sequencial entre domínios que recomenda produtos em novos domínios ao integrar vários modelos de linguagem específicos de domínio; cada modelo é ajustado com adaptadores de baixo posto (LoRA). Dado um prompt de recomendação, operando camada por camada, o X-Cross refina dinamicamente a representação de cada modelo de linguagem de origem ao integrar conhecimento de todos os outros modelos. Essas representações refinadas são propagadas de uma camada para a próxima, aproveitando as ativações de cada adaptador de domínio para garantir que nuances específicas do domínio sejam preservadas, ao mesmo tempo em que permitem adaptabilidade entre domínios. Utilizando conjuntos de dados da Amazon para recomendação sequencial, o X-Cross alcança desempenho comparável a um modelo ajustado com LoRA, enquanto utiliza apenas 25% dos parâmetros adicionais. Em tarefas entre domínios, como adaptar do domínio de Brinquedos para Ferramentas, Eletrônicos ou Esportes, o X-Cross demonstra desempenho robusto, enquanto requer cerca de 50%-75% menos dados de ajuste fino do que o LoRA para tornar o ajuste eficaz. Além disso, o X-Cross alcança uma melhoria significativa na precisão em relação a linhas de base alternativas entre domínios. No geral, o X-Cross permite recomendações escaláveis e adaptáveis entre domínios, reduzindo a sobrecarga computacional e fornecendo uma solução eficiente para ambientes com restrições de dados.
Aprender a resolver tarefas complexas com especificações de lógica temporal de sinais (STL) é crucial para muitas aplicações do mundo real. No entanto, a maioria dos trabalhos anteriores considera apenas especificações STL fixas ou parametrizadas devido à falta de um conjunto de dados STL diversificado e de codificadores para extrair efetivamente informações de lógica temporal para tarefas subsequentes. Neste artigo, propomos o TeLoGraF, Fluxo Codificado em Grafos de Lógica Temporal, que utiliza uma codificação por Redes Neurais de Grafos (GNN) e correspondência de fluxo para aprender soluções para especificações STL gerais. Identificamos quatro modelos STL comumente usados e coletamos um total de 200 mil especificações com demonstrações pareadas. Realizamos experimentos extensos em cinco ambientes de simulação, variando de modelos dinâmicos simples no espaço 2D até o braço robótico Franka Panda de 7 graus de liberdade e a navegação do quadrúpede Ant em alta dimensionalidade. Os resultados mostram que nosso método supera outras abordagens de referência na taxa de satisfação STL. Em comparação com algoritmos clássicos de planejamento STL, nossa abordagem é 10 a 100 vezes mais rápida na inferência e pode funcionar com qualquer dinâmica de sistema. Além disso, demonstramos a capacidade de nosso método de codificação em grafos para resolver STLs complexas e sua robustez a especificações STL fora da distribuição. O código está disponível em https://github.com/mengyuest/TeLoGraF.