Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Seed1.5-VL, um modelo de base visão-linguagem projetado para avançar a compreensão e o raciocínio multimodal de propósito geral. O Seed1.5-VL é composto por um codificador visual de 532 milhões de parâmetros e um modelo de linguagem de grande escala (LLM) do tipo Mixture-of-Experts (MoE) com 20 bilhões de parâmetros ativos. Apesar de sua arquitetura relativamente compacta, ele oferece um desempenho robusto em uma ampla gama de benchmarks públicos de modelos de linguagem visual (VLM) e suítes de avaliação internas, alcançando o estado da arte em 38 dos 60 benchmarks públicos. Além disso, em tarefas centradas em agentes, como controle de interface gráfica (GUI) e jogabilidade, o Seed1.5-VL supera sistemas multimodais líderes, incluindo o OpenAI CUA e o Claude 3.7. Além da compreensão visual e de vídeo, ele também demonstra fortes habilidades de raciocínio, tornando-o particularmente eficaz para desafios de raciocínio multimodal, como quebra-cabeças visuais. Acreditamos que essas capacidades permitirão aplicações mais amplas em diversas tarefas. Neste relatório, fornecemos principalmente uma revisão abrangente de nossas experiências na construção do Seed1.5-VL, abrangendo o design do modelo, a construção de dados e o treinamento em várias etapas, na esperança de que este relatório possa inspirar pesquisas futuras. O Seed1.5-VL agora está acessível em https://www.volcengine.com/ (ID do modelo Volcano Engine: doubao-1-5-thinking-vision-pro-250428).
Apresentamos o MiMo-7B, um modelo de linguagem de grande escala projetado para tarefas de raciocínio, com otimização em ambas as etapas de pré-treinamento e pós-treinamento. Durante o pré-treinamento, aprimoramos o pipeline de pré-processamento de dados e empregamos uma estratégia de mistura de dados em três estágios para fortalecer o potencial de raciocínio do modelo base. O MiMo-7B-Base foi pré-treinado em 25 trilhões de tokens, com o objetivo adicional de Predição Multi-Token para melhorar o desempenho e acelerar a velocidade de inferência. Durante o pós-treinamento, curamos um conjunto de dados com 130 mil problemas verificáveis de matemática e programação para aprendizado por reforço, integrando um esquema de recompensa baseado na dificuldade do teste para mitigar problemas de recompensa esparsa e empregando reamostragem estratégica de dados para estabilizar o treinamento. Avaliações extensivas mostram que o MiMo-7B-Base possui um potencial excepcional de raciocínio, superando até mesmo modelos muito maiores de 32B. O modelo final ajustado por RL, MiMo-7B-RL, alcança desempenho superior em tarefas de matemática, código e raciocínio geral, superando o desempenho do OpenAI o1-mini. Os checkpoints do modelo estão disponíveis em https://github.com/xiaomimimo/MiMo.
Embora a inteligência artificial generativa tenha avançado significativamente nos domínios de texto, imagem, áudio e vídeo, a geração 3D permanece relativamente subdesenvolvida devido a desafios fundamentais, como escassez de dados, limitações algorítmicas e fragmentação do ecossistema. Para isso, apresentamos o Step1X-3D, um framework aberto que aborda esses desafios por meio de: (1) um pipeline rigoroso de curadoria de dados que processa mais de 5 milhões de ativos para criar um conjunto de dados de 2 milhões de alta qualidade com propriedades geométricas e texturais padronizadas; (2) uma arquitetura 3D-nativa em dois estágios que combina um gerador de geometria híbrido VAE-DiT com um módulo de síntese de textura baseado em difusão; e (3) o lançamento completo em código aberto de modelos, código de treinamento e módulos de adaptação. Para a geração de geometria, o componente híbrido VAE-DiT produz representações TSDF empregando codificação latente baseada em perceiver com amostragem de bordas afiadas para preservação de detalhes. O módulo de síntese de textura baseado em difusão, então, garante consistência entre vistas por meio de condicionamento geométrico e sincronização no espaço latente. Resultados de benchmarks demonstram desempenho de ponta que supera métodos de código aberto existentes, ao mesmo tempo que alcança qualidade competitiva com soluções proprietárias. Notavelmente, o framework une de forma única os paradigmas de geração 2D e 3D ao suportar a transferência direta de técnicas de controle 2D (por exemplo, LoRA) para síntese 3D. Ao avançar simultaneamente a qualidade dos dados, a fidelidade algorítmica e a reprodutibilidade, o Step1X-3D visa estabelecer novos padrões para pesquisa aberta em geração controlada de ativos 3D.
Modelos de Raciocínio de Grande Escala (LRMs) possuem a capacidade de se autocorrigir mesmo quando cometem erros em seus caminhos de raciocínio. No entanto, nosso estudo revela que, quando o processo de raciocínio começa com um início curto, mas de baixa qualidade, torna-se difícil para o modelo se recuperar. Referimo-nos a esse fenômeno como a "Armadilha da Dominância do Prefixo". Inspirados por descobertas psicológicas de que a interação entre pares pode promover a autocorreção sem impactar negativamente indivíduos já precisos, propomos **Aprendizado com Pares** (LeaP) para abordar esse fenômeno. Especificamente, a cada conjunto de tokens, cada caminho de raciocínio resume seu raciocínio intermediário e o compartilha com outros por meio de um mecanismo de roteamento, permitindo que os caminhos incorporem insights dos pares durante a inferência. No entanto, observamos que modelos menores às vezes falham em seguir efetivamente as instruções de resumo e reflexão. Para resolver isso, ajustamos finamente esses modelos em nossa série **LeaP-T**. Experimentos realizados em AIME 2024, AIME 2025, AIMO 2025 e GPQA Diamond mostram que o LeaP oferece melhorias substanciais. Por exemplo, o QwQ-32B com LeaP alcança quase 5 pontos absolutos a mais do que a linha de base em média e supera o DeepSeek-R1-671B em três benchmarks de matemática com um ganho médio de 3,3 pontos. Notavelmente, nosso modelo ajustado LeaP-T-7B iguala o desempenho do DeepSeek-R1-Distill-Qwen-14B no AIME 2024. Análises detalhadas revelam a robusta correção de erros do LeaP por meio de insights oportunos dos pares, demonstrando forte tolerância a erros e capacidade de lidar com diferentes níveis de dificuldade das tarefas. O LeaP marca um marco ao permitir que LRMs colaborem durante o raciocínio. Nosso código, conjuntos de dados e modelos estão disponíveis em https://learning-from-peers.github.io/.
Avanços recentes em modelos generativos contínuos, incluindo abordagens de múltiplos passos como difusão e correspondência de fluxo (geralmente exigindo 8-1000 passos de amostragem) e métodos de poucos passos, como modelos de consistência (tipicamente 1-8 passos), demonstraram desempenho generativo impressionante. No entanto, trabalhos existentes frequentemente tratam essas abordagens como paradigmas distintos, resultando em metodologias de treinamento e amostragem separadas. Introduzimos um framework unificado para treinar, amostrar e analisar esses modelos. Nossa implementação, o Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), alcança desempenho state-of-the-art (SOTA). Por exemplo, no ImageNet 256x256 usando um transformador de difusão de 675M, o UCGM-T treina um modelo de múltiplos passos alcançando 1.30 FID em 20 passos e um modelo de poucos passos atingindo 1.42 FID em apenas 2 passos. Além disso, aplicar o UCGM-S a um modelo pré-treinado (anteriormente 1.26 FID em 250 passos) melhora o desempenho para 1.06 FID em apenas 40 passos. O código está disponível em: https://github.com/LINs-lab/UCGM.
Os recentes avanços em modelos generativos - particularmente modelos de difusão e fluxos retificados - revolucionaram a criação de conteúdo visual, mas alinhar as saídas dos modelos com as preferências humanas continua sendo um desafio crítico. Os métodos existentes baseados em aprendizado por reforço (RL) para geração visual enfrentam limitações importantes: incompatibilidade com os paradigmas modernos de amostragem baseados em Equações Diferenciais Ordinárias (ODEs), instabilidade em treinamentos em larga escala e falta de validação para geração de vídeos. Este artigo apresenta o DanceGRPO, o primeiro framework unificado para adaptar a Otimização de Política Relativa de Grupo (GRPO) a paradigmas de geração visual, liberando um algoritmo de RL unificado em dois paradigmas generativos (modelos de difusão e fluxos retificados), três tarefas (texto para imagem, texto para vídeo, imagem para vídeo), quatro modelos fundamentais (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) e cinco modelos de recompensa (estética de imagem/vídeo, alinhamento texto-imagem, qualidade de movimento de vídeo e recompensa binária). Até onde sabemos, o DanceGRPO é o primeiro framework unificado baseado em RL capaz de se adaptar de forma contínua a diversos paradigmas generativos, tarefas, modelos fundamentais e modelos de recompensa. O DanceGRPO demonstra melhorias consistentes e substanciais, superando as linhas de base em até 181% em benchmarks como HPS-v2.1, CLIP Score, VideoAlign e GenEval. Notavelmente, o DanceGRPO não apenas pode estabilizar a otimização de políticas para geração complexa de vídeos, mas também permite que a política generativa capture melhor as trajetórias de remoção de ruído para escalonamento de inferência Best-of-N e aprenda com feedback binário esparso. Nossos resultados estabelecem o DanceGRPO como uma solução robusta e versátil para escalar tarefas de Aprendizado por Reforço com Feedback Humano (RLHF) em geração visual, oferecendo novos insights sobre a harmonização entre aprendizado por reforço e síntese visual. O código será liberado.
Modelos de Linguagem de Grande Escala (LLMs) baseados em instruções têm se mostrado eficazes em diversas tarefas de Processamento de Linguagem Natural (NLP) com poucos exemplos (few-shot) ou sem exemplos (zero-shot). No entanto, a criação de dados de instruções anotados por humanos é demorada, cara e frequentemente limitada em quantidade e diversidade de tarefas. Pesquisas anteriores tentaram abordar esse desafio propondo frameworks capazes de gerar instruções de maneira semi-automatizada e independente da tarefa, diretamente a partir do próprio modelo. Muitos desses esforços dependem de modelos grandes baseados apenas em APIs, como o GPT-3.5 (175B), que são caros e sujeitos a limites no número de consultas. Este artigo explora o desempenho de três LLMs pequenos de código aberto, como o LLaMA 2-7B, LLaMA 2-13B e Mistral 7B, utilizando um framework semi-automatizado, reduzindo assim a intervenção humana, o esforço e o custo necessários para gerar um conjunto de dados de instruções para o ajuste fino de LLMs. Além disso, demonstramos que a incorporação de um algoritmo de treinamento baseado em Aprendizado por Reforço (RL) nesse framework baseado em LLMs leva a melhorias adicionais. Nossa avaliação do conjunto de dados revela que esses frameworks baseados em RL alcançam melhorias substanciais em 63-66% das tarefas em comparação com abordagens anteriores.
Propomos o Skywork-VL Reward, um modelo de recompensa multimodal que fornece sinais de recompensa tanto para tarefas de compreensão quanto de raciocínio multimodal. Nossa abordagem técnica compreende dois componentes principais: Primeiro, construímos um conjunto de dados de preferências multimodais em larga escala que abrange uma ampla gama de tarefas e cenários, com respostas coletadas de modelos padrão de visão e linguagem (VLMs) e de raciocinadores VLM avançados. Segundo, projetamos uma arquitetura de modelo de recompensa baseada no Qwen2.5-VL-7B-Instruct, integrando um cabeçalho de recompensa e aplicando ajuste fino em múltiplos estágios usando perda de classificação pareada em dados de preferência pareados. Avaliações experimentais mostram que o Skywork-VL Reward alcança resultados de ponta no benchmark multimodal VL-RewardBench e exibe desempenho competitivo no benchmark exclusivamente textual RewardBench. Além disso, dados de preferência construídos com base no nosso Skywork-VL Reward provaram ser altamente eficazes para treinar a Otimização de Preferência Mista (MPO), levando a melhorias significativas nas capacidades de raciocínio multimodal. Nossos resultados destacam o Skywork-VL Reward como um avanço significativo em direção a modelos de recompensa confiáveis e de propósito geral para alinhamento multimodal. Nosso modelo foi liberado publicamente para promover transparência e reprodutibilidade.
Recentemente, tem havido um interesse crescente em coletar dados de pré-treinamento intensivos em raciocínio para melhorar a capacidade de raciocínio complexo dos LLMs (Large Language Models). Abordagens anteriores geralmente dependem de classificadores supervisionados para identificar esses dados, o que requer rotulação por humanos ou LLMs, frequentemente introduzindo vieses específicos de domínio. Devido à importância das cabeças de atenção para o raciocínio em contexto, propomos o AttentionInfluence, um método simples, mas eficaz, sem sinal de supervisão e que não requer treinamento. Nossa abordagem permite que um pequeno modelo de linguagem pré-treinado atue como um forte seletor de dados por meio de uma simples operação de mascaramento das cabeças de atenção. Especificamente, identificamos as cabeças de recuperação e calculamos a diferença de perda ao mascarar essas cabeças. Aplicamos o AttentionInfluence a um modelo denso de 1,3 bilhão de parâmetros para realizar a seleção de dados no corpus SmolLM de 241 bilhões de tokens, e misturamos o corpus SmolLM com o subconjunto selecionado, composto por 73 bilhões de tokens, para pré-treinar um modelo denso de 7 bilhões de parâmetros usando 1 trilhão de tokens de treinamento e agendamento de taxa de aprendizado WSD. Nossos resultados experimentais demonstram melhorias substanciais, variando de 1,4pp a 3,5pp, em vários benchmarks intensivos em conhecimento e pesados em raciocínio (ou seja, MMLU, MMLU-Pro, AGIEval-en, GSM8K e HumanEval). Isso demonstra uma propriedade eficaz de escalonamento de fraco para forte, com modelos pequenos melhorando o desempenho final de modelos maiores, oferecendo um caminho promissor e escalável para a seleção de dados centrada em raciocínio.
O Pré-Treinamento Contínuo (CPT, do inglês Continual Pre-Training) tornou-se um método popular e eficaz para aplicar modelos de base robustos a tarefas específicas de downstream. Neste trabalho, exploramos a dinâmica de aprendizagem ao longo do processo de CPT para modelos de linguagem de grande escala. Especificamente, focamos em como o desempenho geral e no domínio de downstream evolui a cada etapa de treinamento, com o desempenho no domínio medido por meio de perdas de validação. Observamos que a curva de perda do CPT caracteriza fundamentalmente a transição de uma curva para outra curva oculta, e pode ser descrita ao desacoplar os efeitos da mudança de distribuição e do decaimento da taxa de aprendizagem. Derivamos uma lei de escalonamento de CPT que combina os dois fatores, permitindo a previsão da perda em qualquer etapa de treinamento (contínua) e em diferentes cronogramas de taxa de aprendizagem (LRS, do inglês Learning Rate Schedules) no CPT. Nossa formulação apresenta uma compreensão abrangente de vários fatores críticos no CPT, incluindo potencial de perda, taxa de aprendizagem máxima, etapas de treinamento, razão de replay, entre outros. Além disso, nossa abordagem pode ser adaptada para personalizar hiperparâmetros de treinamento para diferentes objetivos de CPT, como equilibrar o desempenho geral e específico do domínio. Experimentos extensivos demonstram que nossa lei de escalonamento é válida em diversos conjuntos de dados de CPT e hiperparâmetros de treinamento.
Agentes baseados em LLMs têm demonstrado grande potencial na geração e gerenciamento de código em bases de código complexas. Neste artigo, apresentamos o WebGen-Bench, um novo benchmark projetado para medir a capacidade de um agente baseado em LLM de criar bases de código de sites com múltiplos arquivos do zero. Ele contém instruções diversas para a geração de sites, criadas por meio dos esforços combinados de anotadores humanos e do GPT-4o. Essas instruções abrangem três categorias principais e treze subcategorias, englobando quase todos os tipos importantes de aplicações web. Para avaliar a qualidade dos sites gerados, utilizamos o GPT-4o para gerar casos de teste direcionados a cada funcionalidade descrita nas instruções, e então filtramos, ajustamos e organizamos manualmente esses casos para garantir precisão, resultando em 647 casos de teste. Cada caso de teste especifica uma operação a ser realizada no site e o resultado esperado após a operação. Para automatizar os testes e melhorar a reprodutibilidade, empregamos um poderoso agente de navegação web para executar os testes nos sites gerados e determinar se as respostas observadas estão alinhadas com os resultados esperados. Avaliamos três frameworks de agentes de código de alto desempenho, Bolt.diy, OpenHands e Aider, utilizando múltiplos LLMs proprietários e de código aberto como motores. A combinação de melhor desempenho, Bolt.diy alimentado pelo DeepSeek-R1, alcança apenas 27,8% de precisão nos casos de teste, destacando a natureza desafiadora do nosso benchmark. Além disso, construímos o WebGen-Instruct, um conjunto de treinamento composto por 6.667 instruções de geração de sites. O treinamento do Qwen2.5-Coder-32B-Instruct em trajetórias do Bolt.diy geradas a partir de um subconjunto desse conjunto de treinamento alcança uma precisão de 38,2%, superando o desempenho do melhor modelo proprietário.
Apresentamos o INTELLECT-2, o primeiro treinamento globalmente distribuído de aprendizado por reforço (RL) para um modelo de linguagem com 32 bilhões de parâmetros. Diferente dos esforços tradicionais de treinamento centralizado, o INTELLECT-2 treina um modelo de raciocínio utilizando RL totalmente assíncrono em um enxame dinâmico e heterogêneo de contribuidores de computação sem necessidade de permissão. Para viabilizar um treinamento com essa infraestrutura única, desenvolvemos diversos componentes do zero: introduzimos o PRIME-RL, nosso framework de treinamento projetado especificamente para aprendizado por reforço distribuído e assíncrono, baseado em componentes inovadores como o TOPLOC, que verifica rollouts de workers de inferência não confiáveis, e o SHARDCAST, que transmite eficientemente os pesos da política dos nós de treinamento para os workers de inferência. Além dos componentes de infraestrutura, propomos modificações na receita padrão de treinamento GRPO e técnicas de filtragem de dados que foram cruciais para garantir a estabilidade do treinamento e assegurar que nosso modelo aprendesse com sucesso seu objetivo, superando assim o QwQ-32B, o modelo de raciocínio state of the art na faixa de 32 bilhões de parâmetros. Disponibilizamos o INTELLECT-2 como código aberto, juntamente com todo o nosso código e dados, com o objetivo de incentivar e possibilitar mais pesquisas abertas no campo de treinamento descentralizado.
A sabedoria convencional sugere que modelos autoregressivos são usados para processar dados discretos. Quando aplicados a modalidades contínuas, como dados visuais, a modelagem Visual AutoRegressiva (VAR) normalmente recorre a abordagens baseadas em quantização para converter os dados em um espaço discreto, o que pode introduzir uma perda significativa de informação. Para abordar esse problema, introduzimos um framework de VAR Contínua que permite a geração visual autoregressiva direta sem quantização vetorial. A base teórica subjacente são as regras de pontuação estritamente próprias, que fornecem ferramentas estatísticas poderosas capazes de avaliar quão bem um modelo generativo aproxima a distribuição verdadeira. Dentro desse framework, tudo o que precisamos é selecionar uma pontuação estritamente própria e defini-la como o objetivo de treinamento a ser otimizado. Exploramos principalmente uma classe de objetivos de treinamento baseados na pontuação de energia, que é livre de verossimilhança e, portanto, supera a dificuldade de fazer previsões probabilísticas no espaço contínuo. Esforços anteriores em geração autoregressiva contínua, como GIVT e perda de difusão, também podem ser derivados de nosso framework usando outras pontuações estritamente próprias. Código-fonte: https://github.com/shaochenze/EAR.
A retocagem é uma tarefa essencial na pós-manipulação de fotografias brutas. A edição generativa, guiada por texto ou traços, oferece uma nova ferramenta acessível aos usuários, mas pode facilmente alterar a identidade dos objetos originais de maneiras inaceitáveis e imprevisíveis. Em contraste, embora as edições procedurais tradicionais, comumente suportadas por ferramentas de edição de fotos (por exemplo, Gimp, Lightroom), sejam conservadoras, elas ainda são preferidas pelos profissionais. Infelizmente, a retocagem de qualidade profissional envolve muitas operações individuais de edição procedural que são desafiadoras de planejar para a maioria dos iniciantes. Neste artigo, questionamos se um modelo de linguagem multimodal de grande escala (MLLM) pode ser ensinado a criticar fotografias brutas, sugerir remédios adequados e, finalmente, realizá-los com um conjunto pré-definido de operações procedurais de imagem. Demonstramos que os MLLMs podem primeiro ser conscientizados das operações subjacentes de processamento de imagem, treinando-os para resolver quebra-cabeças visuais especialmente projetados. Posteriormente, um MLLM consciente das operações pode planejar e propor sequências de edição. Para facilitar o treinamento, dado um conjunto de fotos editadas por especialistas, sintetizamos um conjunto de dados de raciocínio manipulando proceduralmente as edições dos especialistas e, em seguida, fundamentando um LLM pré-treinado nos ajustes visuais, para sintetizar o raciocínio para ajuste fino. As operações de retocagem propostas são, por construção, compreensíveis pelos usuários, preservam detalhes e resolução dos objetos, e podem ser opcionalmente substituídas. Avaliamos nossa configuração em uma variedade de exemplos de teste e mostramos vantagens, em termos de explicabilidade e preservação de identidade, sobre as alternativas generativas e procedurais existentes. Código, dados, modelos e resultados suplementares podem ser encontrados em nosso site do projeto em https://monetgpt.github.io.
A geração aumentada por recuperação (RAG) é uma estratégia comum para reduzir alucinações em Modelos de Linguagem de Grande Escala (LLMs). Embora o aprendizado por reforço (RL) possa permitir que LLMs atuem como agentes de busca ao ativar capacidades de recuperação, os modelos existentes frequentemente subutilizam seu conhecimento interno. Isso pode levar a recuperações redundantes, potenciais conflitos de conhecimento prejudiciais e aumento da latência de inferência. Para abordar essas limitações, é urgentemente necessário um agente de busca eficiente e adaptativo, capaz de discernir o momento ideal para recuperação e integrar sinergicamente conhecimento paramétrico (interno) e recuperado (externo). Este artigo introduz o Agente de Raciocínio Sinérgico de Conhecimento Interno-Externo Reforçado (IKEA), que pode identificar seu próprio limite de conhecimento e priorizar a utilização do conhecimento interno, recorrendo à busca externa apenas quando o conhecimento interno é considerado insuficiente. Isso é alcançado por meio de uma nova função de recompensa consciente do limite de conhecimento e um conjunto de dados de treinamento consciente do limite de conhecimento. Esses elementos são projetados para RL orientado à sinergia de conhecimento interno-externo, incentivando o modelo a fornecer respostas precisas, minimizar recuperações desnecessárias e encorajar buscas externas apropriadas quando seu próprio conhecimento é insuficiente. Avaliações em várias tarefas de raciocínio de conhecimento demonstram que o IKEA supera significativamente os métodos de base, reduz a frequência de recuperação de forma significativa e exibe capacidades robustas de generalização.
As arquiteturas de Mistura Especializada de Especialistas (MoE, do inglês Mixture of Experts) têm surgido como uma abordagem promissora para escalar modelos Transformer. Enquanto os trabalhos iniciais incorporavam principalmente o MoE nas camadas de redes feed-forward (FFN), estudos recentes têm explorado a extensão do paradigma MoE para as camadas de atenção, visando melhorar o desempenho do modelo. No entanto, as camadas MoE baseadas em atenção existentes exigem implementações especializadas e demonstram desempenho subótimo em comparação com suas contrapartes baseadas em FFN. Neste artigo, buscamos unificar os designs de MoE nas camadas de atenção e FFN, introduzindo uma nova reformulação do mecanismo de atenção, revelando uma estrutura subjacente semelhante à FFN dentro dos módulos de atenção. Nossa arquitetura proposta, UMoE, alcança desempenho superior por meio de camadas MoE baseadas em atenção, ao mesmo tempo em que permite o compartilhamento eficiente de parâmetros entre os componentes de FFN e atenção.
Neste artigo de posicionamento, observamos que a avaliação empírica em IA Generativa está em um ponto crítico, uma vez que as estratégias tradicionais de avaliação e benchmarking de aprendizado de máquina são insuficientes para atender às necessidades de avaliação dos modelos e sistemas modernos de GenAI. Há muitas razões para isso, incluindo o fato de que esses modelos geralmente têm espaços de entrada e saída quase ilimitados, normalmente não possuem um alvo de verdade absoluta bem definido e frequentemente exibem fortes loops de feedback e dependência de previsão com base no contexto das saídas anteriores do modelo. Além desses problemas críticos, argumentamos que as questões de {\em vazamento} e {\em contaminação} são, na verdade, os problemas mais importantes e difíceis de abordar nas avaliações de GenAI. Curiosamente, o campo de Competições de IA desenvolveu medidas e práticas eficazes para combater o vazamento com o objetivo de neutralizar a traição por parte de agentes mal-intencionados em um cenário competitivo. Isso torna as Competições de IA um recurso especialmente valioso (mas subutilizado). Agora é o momento para o campo enxergar as Competições de IA como o padrão ouro para o rigor empírico na avaliação de GenAI, e para aproveitar e valorizar seus resultados de acordo.
Sistemas de geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation) combinam modelos de linguagem de grande escala (LLMs) com recuperação de conhecimento externo, tornando-os altamente eficazes para tarefas que demandam conhecimento intensivo. Um componente crucial, mas frequentemente pouco explorado desses sistemas, é o reranker, que refina documentos recuperados para melhorar a qualidade e a explicabilidade da geração. O desafio de selecionar o número ideal de documentos (k) permanece sem solução: poucos documentos podem omitir informações críticas, enquanto muitos introduzem ruído e ineficiências. Embora estudos recentes tenham explorado rerankers baseados em LLMs, eles utilizam principalmente o conhecimento interno do modelo e ignoram os ricos sinais de supervisão que os LLMs podem fornecer, como o uso da qualidade da resposta como feedback para otimizar decisões de reranking. Neste artigo, propomos o DynamicRAG, uma nova estrutura RAG em que o reranker ajusta dinamicamente tanto a ordem quanto o número de documentos recuperados com base na consulta. Modelamos o reranker como um agente otimizado por aprendizado por reforço (RL, do inglês Reinforcement Learning), utilizando recompensas derivadas da qualidade da saída do LLM. Em sete conjuntos de dados que demandam conhecimento intensivo, o DynamicRAG demonstra desempenho superior, alcançando resultados de ponta. O modelo, os dados e o código estão disponíveis em https://github.com/GasolSun36/DynamicRAG.
Apresentamos o LlamaPIE, o primeiro assistente proativo em tempo real projetado para aprimorar conversas humanas por meio de orientações discretas e concisas entregues via dispositivos auditivos. Diferente dos modelos de linguagem tradicionais que exigem invocação explícita do usuário, este assistente opera em segundo plano, antecipando as necessidades do usuário sem interromper as conversas. Abordamos diversos desafios, incluindo determinar quando responder, elaborar respostas concisas que aprimorem as conversas, aproveitar o conhecimento do usuário para oferecer assistência contextualizada e realizar processamento em tempo real e no dispositivo. Para isso, construímos um conjunto de dados de diálogos semi-sintéticos e propomos um pipeline de dois modelos: um modelo menor que decide quando responder e um modelo maior que gera a resposta. Avaliamos nossa abordagem em conjuntos de dados do mundo real, demonstrando sua eficácia em fornecer assistência útil e discreta. Estudos com usuários utilizando nosso assistente, implementado em hardware Apple Silicon M2, mostram uma forte preferência pelo assistente proativo em comparação tanto com uma linha de base sem assistência quanto com um modelo reativo, destacando o potencial do LlamaPIE para aprimorar conversas ao vivo.
O aprendizado de políticas visuomotoras tem testemunhado progressos significativos na manipulação robótica, com abordagens recentes dependendo predominantemente de modelos generativos para modelar a distribuição de ações. No entanto, esses métodos frequentemente negligenciam o acoplamento crítico entre a percepção visual e a previsão de ações. Neste trabalho, introduzimos a Política de Difusão Triplamente Hierárquica~(H^{\mathbf{3}DP}), uma nova estrutura de aprendizado visuomotor que incorpora explicitamente estruturas hierárquicas para fortalecer a integração entre características visuais e geração de ações. O H^{3}DP contém 3 níveis de hierarquia: (1) camadas de entrada com consciência de profundidade que organizam observações RGB-D com base em informações de profundidade; (2) representações visuais multiescala que codificam características semânticas em diferentes níveis de granularidade; e (3) um processo de difusão condicionado hierarquicamente que alinha a geração de ações de granularidade grossa a fina com as características visuais correspondentes. Experimentos extensivos demonstram que o H^{3}DP proporciona uma melhoria relativa média de +27,5% em relação às baselines em 44 tarefas de simulação e alcança desempenho superior em 4 tarefas desafiadoras de manipulação bimanual no mundo real. Página do Projeto: https://lyy-iiis.github.io/h3dp/.
Uma tendência recente em LLMs é o desenvolvimento de modelos recorrentes subquadráticos que melhoram a eficiência do processamento de contextos longos. Investigamos os principais modelos de contexto longo, focando em como sua memória recorrente de tamanho fixo afeta seu desempenho. Nossos experimentos revelam que, mesmo quando esses modelos são treinados para contextos estendidos, o uso de contextos longos permanece subutilizado. Especificamente, demonstramos que um procedimento de inferência baseado em chunks, que identifica e processa apenas a porção mais relevante da entrada, pode mitigar falhas da memória recorrente e ser eficaz para muitas tarefas de contexto longo: no LongBench, nosso método melhora o desempenho geral do Falcon3-Mamba-Inst-7B em 14%, do Falcon-Mamba-Inst-7B em 28%, do RecurrentGemma-IT-9B em 50% e do RWKV6-Finch-7B em 51%. Surpreendentemente, essa abordagem simples também leva a resultados state-of-the-art no desafiador benchmark LongBench v2, mostrando desempenho competitivo com Transformers de tamanho equivalente. Além disso, nossas descobertas levantam questões sobre se os modelos recorrentes realmente exploram dependências de longo alcance, já que nossa estratégia de chunk único oferece um desempenho superior — mesmo em tarefas que presumivelmente exigem relações entre contextos.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais aplicados a tarefas baseadas em documentos — como sumarização de documentos, resposta a perguntas e extração de informações —, onde os requisitos dos usuários se concentram em recuperar informações dos documentos fornecidos em vez de depender do conhecimento paramétrico do modelo, garantir a confiabilidade e a interpretabilidade desses sistemas tornou-se uma preocupação crítica. Uma abordagem central para enfrentar esse desafio é a atribuição, que envolve rastrear as saídas geradas de volta aos documentos de origem. No entanto, como os LLMs podem produzir respostas imprecisas ou incorretas, é crucial avaliar a confiabilidade dessas citações. Para enfrentar isso, nosso trabalho propõe duas técnicas. (1) Uma abordagem zero-shot que enquadra a atribuição como uma tarefa simples de implicação textual. Nosso método usando flan-ul2 demonstra uma melhoria de 0,27% e 2,4% sobre a melhor linha de base dos conjuntos ID e OOD do AttributionBench, respectivamente. (2) Também exploramos o papel do mecanismo de atenção no aprimoramento do processo de atribuição. Usando um LLM menor, flan-t5-small, as pontuações F1 superam a linha de base em quase todas as camadas, exceto na camada 4 e nas camadas 8 a 11.
Embora os modelos de aprendizado profundo tenham demonstrado um potencial notável na previsão do tempo, a maioria deles negligencia tanto a física da evolução subjacente do clima quanto a topologia da superfície da Terra. Diante dessas desvantagens, desenvolvemos o PASSAT, um novo modelo de aprendizado profundo assistido por física e informado pela topologia para previsão do tempo. O PASSAT atribui a evolução do clima a dois fatores principais: (i) o processo de advecção, que pode ser caracterizado pela equação de advecção e pela equação de Navier-Stokes; (ii) a interação Terra-atmosfera, que é difícil de modelar e calcular. O PASSAT também leva em consideração a topologia da superfície da Terra, em vez de simplesmente tratá-la como um plano. Com essas considerações, o PASSAT resolve numericamente a equação de advecção e a equação de Navier-Stokes na variedade esférica, utiliza uma rede neural esférica em grafos para capturar a interação Terra-atmosfera e gera os campos de velocidade inicial, que são críticos para resolver a equação de advecção, a partir da mesma rede neural esférica em grafos. No conjunto de dados ERA5 com resolução de 5,625^circ, o PASSAT supera tanto os modelos de previsão do tempo baseados em aprendizado profundo de última geração quanto o modelo operacional de previsão numérica do tempo IFS T42. O código e o checkpoint estão disponíveis em https://github.com/Yumenomae/PASSAT_5p625.
Projetar sequências biológicas que atendam a múltiplos critérios funcionais e biofísicos, muitas vezes conflitantes, continua sendo um desafio central na engenharia de biomoléculas. Embora modelos de correspondência de fluxo discreto tenham mostrado recentemente potencial para amostragem eficiente em espaços de sequência de alta dimensionalidade, as abordagens existentes abordam apenas objetivos únicos ou exigem embeddings contínuos que podem distorcer distribuições discretas. Apresentamos o Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), um framework geral para direcionar qualquer gerador de correspondência de fluxo em tempo discreto pré-treinado para trade-offs Pareto-eficientes em múltiplos objetivos escalares. A cada etapa de amostragem, o MOG-DFM calcula uma pontuação híbrida de direção de classificação para transições candidatas e aplica um filtro hipercônico adaptativo para impor uma progressão consistente de múltiplos objetivos. Também treinamos dois modelos de correspondência de fluxo discreto incondicionais, o PepDFM para geração diversificada de peptídeos e o EnhancerDFM para geração de DNA funcional de intensificadores, como modelos base de geração para o MOG-DFM. Demonstramos a eficácia do MOG-DFM na geração de ligantes de peptídeos otimizados em cinco propriedades (hemólise, anti-incrustação, solubilidade, meia-vida e afinidade de ligação), e no design de sequências de DNA com classes específicas de intensificadores e formas de DNA. No total, o MOG-DFM se mostra uma ferramenta poderosa para o design de sequências de biomoléculas guiado por múltiplas propriedades.