Artigos de pesquisa em IA selecionados diariamente com traduções
A classificação listwise baseada em Large Language Models (LLMs) tem demonstrado desempenho superior em muitas tarefas de ranqueamento de passagens. Com o desenvolvimento dos Large Reasoning Models, muitos estudos têm mostrado que o raciocínio passo a passo durante o tempo de teste ajuda a melhorar o desempenho da classificação listwise. No entanto, devido à escassez de dados de treinamento intensivos em raciocínio, os rerankers existentes têm um desempenho ruim em muitos cenários complexos de ranqueamento, e a capacidade de ranqueamento dos rerankers intensivos em raciocínio permanece amplamente subdesenvolvida. Neste artigo, propomos primeiro um framework automatizado de síntese de dados de treinamento intensivos em raciocínio, que obtém consultas e passagens de treinamento de diversos domínios e aplica o DeepSeek-R1 para gerar rótulos de treinamento de alta qualidade. Um mecanismo de filtragem de dados baseado em auto-consistência é projetado para garantir a qualidade dos dados. Para capacitar o reranker listwise com uma forte habilidade de raciocínio, propomos ainda uma abordagem de pós-treinamento em duas etapas, que inclui uma etapa de fine-tuning supervisionado (SFT) de cold-start para aprendizado de padrões de raciocínio e uma etapa de aprendizado por reforço (RL) para aprimoramento adicional da capacidade de ranqueamento. Durante a etapa de RL, com base na natureza da classificação listwise, projetamos uma recompensa de ranqueamento multi-visão, que é mais eficaz do que uma recompensa baseada em métricas de ranqueamento. Experimentos extensivos demonstram que nosso reranker intensivo em raciocínio, ReasonRank, supera significativamente as baselines existentes e também alcança uma latência muito menor do que o reranker pointwise Rank1. Através de experimentos adicionais, nosso ReasonRank alcançou um desempenho state-of-the-art (SOTA) de 40.6 no leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.}. Nossos códigos estão disponíveis em https://github.com/8421BCD/ReasonRank.
Desde pesquisas profissionais até o planejamento cotidiano, muitas tarefas são limitadas pela busca de informações em larga escala, que é mais repetitiva do que cognitivamente complexa. Com o rápido desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), agentes de busca automatizados impulsionados por LLMs oferecem uma solução promissora para liberar os humanos desse trabalho tedioso. No entanto, a capacidade desses agentes de realizar essa coleta de "contexto amplo" de forma confiável e completa permanece amplamente não avaliada devido à falta de benchmarks adequados. Para preencher essa lacuna, apresentamos o WideSearch, um novo benchmark projetado para avaliar a confiabilidade dos agentes nessas tarefas de coleta em larga escala. O benchmark apresenta 200 questões curadas manualmente (100 em inglês, 100 em chinês) de mais de 15 domínios diversos, baseadas em consultas reais de usuários. Cada tarefa exige que os agentes coletem informações atômicas em larga escala, que podem ser verificadas uma por uma de forma objetiva, e as organizem em uma saída bem estruturada. Um rigoroso pipeline de controle de qualidade em cinco etapas garante a dificuldade, a completude e a verificabilidade do conjunto de dados. Avaliamos mais de 10 sistemas de busca agentic de última geração, incluindo frameworks de agente único, multiagente e sistemas comerciais de ponta a ponta. A maioria dos sistemas alcança taxas de sucesso geral próximas de 0\%, com o melhor desempenho atingindo apenas 5\%. No entanto, com tempo suficiente, a validação cruzada por vários testadores humanos pode alcançar uma taxa de sucesso próxima de 100\%. Esses resultados demonstram que os agentes de busca atuais têm deficiências críticas na busca de informações em larga escala, destacando áreas urgentes para pesquisa e desenvolvimento futuro em busca agentic. Nosso conjunto de dados, pipeline de avaliação e resultados de benchmark foram disponibilizados publicamente em https://widesearch-seed.github.io/.
Os recentes avanços em modelos de linguagem de grande escala têm despertado um interesse crescente em agentes de IA capazes de resolver tarefas complexas do mundo real. No entanto, a maioria dos sistemas de agentes existentes depende de configurações manualmente elaboradas que permanecem estáticas após a implantação, limitando sua capacidade de se adaptar a ambientes dinâmicos e em evolução. Para isso, pesquisas recentes têm explorado técnicas de evolução de agentes que visam aprimorar automaticamente os sistemas de agentes com base em dados de interação e feedback ambiental. Essa direção emergente estabelece as bases para agentes de IA autoevolutivos, que unem as capacidades estáticas dos modelos de base com a adaptabilidade contínua exigida por sistemas agentísticos de longa duração. Nesta revisão, fornecemos uma análise abrangente das técnicas existentes para sistemas agentísticos autoevolutivos. Especificamente, primeiro introduzimos um framework conceitual unificado que abstrai o ciclo de feedback subjacente ao design de sistemas agentísticos autoevolutivos. O framework destaca quatro componentes principais: Entradas do Sistema, Sistema de Agentes, Ambiente e Otimizadores, servindo como base para entender e comparar diferentes estratégias. Com base nesse framework, revisamos sistematicamente uma ampla gama de técnicas autoevolutivas que visam diferentes componentes do sistema de agentes. Também investigamos estratégias de evolução específicas de domínio desenvolvidas para áreas especializadas, como biomedicina, programação e finanças, onde os objetivos de otimização estão fortemente acoplados às restrições do domínio. Além disso, fornecemos uma discussão dedicada sobre avaliação, segurança e considerações éticas para sistemas agentísticos autoevolutivos, que são críticos para garantir sua eficácia e confiabilidade. Esta revisão visa fornecer aos pesquisadores e profissionais uma compreensão sistemática dos agentes de IA autoevolutivos, estabelecendo as bases para o desenvolvimento de sistemas agentísticos mais adaptativos, autônomos e de longa duração.
Efeitos visuais (VFX) são aprimoramentos visuais essenciais fundamentais para a produção cinematográfica moderna. Embora os modelos de geração de vídeo ofereçam soluções econômicas para a produção de VFX, os métodos atuais são limitados pelo treinamento de LoRA por efeito, o que restringe a geração a efeitos únicos. Essa limitação fundamental impede aplicações que exigem efeitos compostos espacialmente controláveis, ou seja, a geração simultânea de múltiplos efeitos em locais designados. No entanto, integrar diversos efeitos em um framework unificado enfrenta grandes desafios: interferência de variações de efeitos e falta de controle espacial durante o treinamento conjunto de múltiplos VFX. Para enfrentar esses desafios, propomos o Omni-Effects, o primeiro framework unificado capaz de gerar efeitos guiados por prompts e efeitos compostos espacialmente controláveis. O núcleo do nosso framework compreende duas inovações principais: (1) LoRA-based Mixture of Experts (LoRA-MoE), que emprega um grupo de LoRAs especializados, integrando diversos efeitos em um modelo unificado enquanto mitiga efetivamente a interferência entre tarefas. (2) Spatial-Aware Prompt (SAP) incorpora informações de máscara espacial no token de texto, permitindo controle espacial preciso. Além disso, introduzimos um módulo de Independent-Information Flow (IIF) integrado ao SAP, isolando os sinais de controle correspondentes a efeitos individuais para evitar misturas indesejadas. Para facilitar essa pesquisa, construímos um conjunto de dados abrangente de VFX, o Omni-VFX, por meio de um pipeline de coleta de dados que combina edição de imagem e síntese First-Last Frame-to-Video (FLF2V), e introduzimos um framework de avaliação de VFX dedicado para validar o desempenho do modelo. Experimentos extensivos demonstram que o Omni-Effects alcança controle espacial preciso e geração de efeitos diversos, permitindo que os usuários especifiquem tanto a categoria quanto a localização dos efeitos desejados.
O recentemente proposto Large Concept Model (LCM) gera texto prevendo uma sequência de embeddings em nível de frase e treinando com objetivos de erro quadrático médio ou difusão. Apresentamos o SONAR-LLM, um transformador apenas decodificador que "pensa" no mesmo espaço contínuo de embeddings SONAR, mas é supervisionado por entropia cruzada em nível de token propagada via o decodificador SONAR congelado. Este objetivo híbrido mantém a abstração semântica do LCM enquanto elimina seu amostrador de difusão e restaura um sinal de treinamento baseado em verossimilhança. Em tamanhos de modelo variando de 39M a 1,3B de parâmetros, o SONAR-LLM atinge qualidade de geração competitiva. Relatamos tendências de escalonamento, ablações, resultados de benchmarks e disponibilizamos o código completo de treinamento e todos os checkpoints pré-treinados para promover reprodutibilidade e pesquisas futuras.
O aprendizado por reforço para o raciocínio de LLMs (Large Language Models) emergiu rapidamente como uma área de pesquisa proeminente, marcada por um aumento significativo de estudos relacionados tanto em inovações algorítmicas quanto em aplicações práticas. Apesar desse progresso, vários desafios críticos permanecem, incluindo a ausência de diretrizes padronizadas para o emprego de técnicas de RL (Reinforcement Learning) e uma compreensão fragmentada de seus mecanismos subjacentes. Além disso, configurações experimentais inconsistentes, variações nos dados de treinamento e diferenças na inicialização dos modelos levaram a conclusões conflitantes, obscurecendo as características-chave dessas técnicas e gerando confusão entre os profissionais na seleção de técnicas apropriadas. Este artigo revisa sistematicamente as técnicas de RL amplamente adotadas por meio de reproduções rigorosas e avaliações isoladas dentro de uma estrutura unificada de código aberto. Analisamos os mecanismos internos, cenários aplicáveis e princípios centrais de cada técnica por meio de experimentos detalhados, incluindo conjuntos de dados de dificuldade variada, tamanhos de modelos e arquiteturas. Com base nessas análises, apresentamos diretrizes claras para a seleção de técnicas de RL adaptadas a configurações específicas e fornecemos um roteiro confiável para profissionais que atuam no domínio de RL para LLMs. Por fim, revelamos que uma combinação minimalista de duas técnicas pode desbloquear a capacidade de aprendizado de políticas sem críticos usando a função de perda PPO (Proximal Policy Optimization) padrão. Os resultados demonstram que nossa combinação simples melhora consistentemente o desempenho, superando estratégias como GRPO e DAPO.
O raciocínio é central para ações propositadas, mas a maioria dos modelos de base robóticos mapeia percepção e instruções diretamente para controle, o que limita a adaptabilidade, generalização e fundamentação semântica. Apresentamos os Modelos de Raciocínio de Ação (ARMs), uma classe de modelos visão-linguagem-ação que integram percepção, planejamento e controle por meio de um pipeline estruturado em três estágios. Nosso modelo, MolmoAct, codifica observações e instruções em tokens de percepção com consciência de profundidade, gera planos espaciais de nível médio como traços de trajetória editáveis e prevê ações de baixo nível precisas, permitindo comportamento explicável e direcionável. O MolmoAct-7B-D alcança forte desempenho em ambientes de simulação e do mundo real: 70,5% de precisão zero-shot em tarefas de Correspondência Visual do SimplerEnv, superando o Pi-0 e o GR00T N1 de código fechado; 86,6% de sucesso médio no LIBERO, incluindo um ganho adicional de 6,3% sobre o ThinkAct em tarefas de longo horizonte; e, no ajuste fino do mundo real, um progresso adicional de 10% (braço único) e 22,7% (bimanual) em tarefas sobre o Pi-0-FAST. Ele também supera as linhas de base em 23,3% na generalização fora da distribuição e alcança as melhores pontuações de preferência humana para seguir instruções abertas e direcionar trajetórias. Além disso, lançamos, pela primeira vez, o Conjunto de Dados MolmoAct — um conjunto de dados robóticos de meio de treinamento composto por mais de 10.000 trajetórias robóticas de alta qualidade em diversos cenários e tarefas. O treinamento com este conjunto de dados resulta em uma melhoria média de 5,5% no desempenho geral em relação ao modelo base. Lançamos todos os pesos do modelo, código de treinamento, nosso conjunto de dados coletado e nosso conjunto de dados de raciocínio de ação, estabelecendo o MolmoAct como um modelo de base robótica de última geração e um projeto aberto para a construção de ARMs que transformam percepção em ação propositada por meio de raciocínio estruturado. Blogpost: https://allenai.org/blog/molmoact
Apresentamos o Klear-Reasoner, um modelo com capacidades de raciocínio prolongado que demonstra uma deliberação cuidadosa durante a resolução de problemas, alcançando desempenho excepcional em múltiplos benchmarks. Embora já existam muitos trabalhos excelentes relacionados a modelos de inferência na comunidade atual, ainda há diversos problemas na reprodução de modelos de inferência de alto desempenho devido à divulgação incompleta dos detalhes de treinamento. Este relatório fornece uma análise aprofundada do modelo de raciocínio, cobrindo todo o fluxo de trabalho pós-treinamento, desde a preparação de dados e o ajuste fino supervisionado com Cadeia de Pensamento prolongada (long CoT SFT) até o aprendizado por reforço (RL), juntamente com estudos de ablação detalhados para cada componente experimental. Para os dados de SFT, nossos experimentos mostram que um pequeno número de fontes de dados de alta qualidade é mais eficaz do que um grande número de fontes diversas, e que amostras difíceis podem alcançar melhores resultados sem filtragem de precisão. Além disso, investigamos dois problemas-chave com os mecanismos de corte atuais no RL: o corte suprime sinais críticos de exploração e ignora trajetórias subótimas. Para enfrentar esses desafios, propomos o Gradient-Preserving Clipping Policy Optimization (GPPO), que retropropaga suavemente os gradientes dos tokens cortados. O GPPO não apenas aumenta a capacidade de exploração do modelo, mas também melhora sua eficiência no aprendizado a partir de amostras negativas. O Klear-Reasoner exibe habilidades de raciocínio excepcionais em matemática e programação, obtendo 90,5% no AIME 2024, 83,2% no AIME 2025, 66,0% no LiveCodeBench V5 e 58,1% no LiveCodeBench V6.
Agentes de Deep-Research, que integram modelos de linguagem de grande escala (LLMs) com ferramentas de busca, têm demonstrado sucesso em melhorar a eficácia no tratamento de consultas complexas que exigem planejamento iterativo de busca e raciocínio sobre os resultados da pesquisa. As avaliações em benchmarks atuais, como o BrowseComp, que dependem de APIs de busca na web em tempo real e de caixa preta, apresentam limitações significativas em (1) justiça: APIs web dinâmicas e opacas dificultam comparações justas e a reprodutibilidade dos métodos de deep research; (2) transparência: a falta de controle sobre o corpus de documentos torna difícil isolar as contribuições do recuperador. Em outras palavras, as avaliações atuais podem comparar um sistema completo de deep research em um determinado momento, mas não promovem experimentos bem controlados para fornecer insights sobre a capacidade dos LLMs subjacentes de deep research. Para enfrentar esses desafios, introduzimos o BrowseComp-Plus, um benchmark derivado do BrowseComp, que emprega um corpus fixo e cuidadosamente curado. Cada consulta no BrowseComp-Plus inclui documentos de suporte verificados por humanos e negativos desafiadores extraídos, permitindo experimentação controlada. O benchmark mostrou-se eficaz em distinguir o desempenho de sistemas de deep research. Por exemplo, o modelo de código aberto Search-R1, quando emparelhado com o recuperador BM25, alcança 3,86% de precisão, enquanto o GPT-5 alcança 55,9%. A integração do GPT-5 com o recuperador Qwen3-Embedding-8B aumenta ainda mais sua precisão para 70,1% com menos chamadas de busca. Este benchmark permite uma avaliação abrangente e uma análise desagregada de agentes de deep research e métodos de recuperação, promovendo insights sobre a eficácia da recuperação, precisão de citações e engenharia de contexto em sistemas de Deep-Research.
Agentes baseados em Large Language Models (LLMs) têm alcançado progressos impressionantes em raciocínio e uso de ferramentas, permitindo que resolvam tarefas complexas. No entanto, sua capacidade de colaborar proativamente com os usuários, especialmente quando os objetivos são vagos, evoluem ou são expressos indiretamente, ainda é pouco explorada. Para abordar essa lacuna, introduzimos o UserBench, um benchmark centrado no usuário projetado para avaliar agentes em interações multiturno e orientadas por preferências. O UserBench apresenta usuários simulados que começam com objetivos mal especificados e revelam preferências de forma incremental, exigindo que os agentes esclareçam proativamente a intenção e tomem decisões fundamentadas com ferramentas. Nossa avaliação dos principais LLMs de código aberto e fechado revela uma desconexão significativa entre a conclusão da tarefa e o alinhamento com o usuário. Por exemplo, os modelos fornecem respostas que se alinham completamente com todas as intenções do usuário apenas 20% das vezes, em média, e até os modelos mais avançados descobrem menos de 30% de todas as preferências do usuário por meio de interação ativa. Esses resultados destacam os desafios de construir agentes que não são apenas executores capazes de tarefas, mas verdadeiros parceiros colaborativos. O UserBench oferece um ambiente interativo para medir e avançar essa capacidade crítica.
Os recentes avanços na interseção entre aprendizado por reforço (RL) e inteligência visual têm permitido a criação de agentes que não apenas percebem cenas visuais complexas, mas também raciocinam, geram e agem dentro delas. Esta pesquisa oferece uma síntese crítica e atualizada do campo. Primeiro, formalizamos os problemas de RL visual e traçamos a evolução das estratégias de otimização de políticas, desde RLHF até paradigmas de recompensa verificáveis, e desde a Otimização de Política Proximal até a Otimização de Política Relativa em Grupo. Em seguida, organizamos mais de 200 trabalhos representativos em quatro pilares temáticos: modelos de linguagem multimodal em grande escala, geração visual, frameworks de modelos unificados e modelos visão-linguagem-ação. Para cada pilar, examinamos o design algorítmico, a engenharia de recompensas, o progresso em benchmarks e destilamos tendências como treinamento guiado por currículo, difusão alinhada a preferências e modelagem unificada de recompensas. Por fim, revisamos protocolos de avaliação que abrangem fidelidade em nível de conjunto, preferência em nível de amostra e estabilidade em nível de estado, e identificamos desafios em aberto que incluem eficiência de amostras, generalização e implantação segura. Nosso objetivo é fornecer aos pesquisadores e profissionais um mapa coerente do cenário em rápida expansão do RL visual e destacar direções promissoras para investigações futuras. Recursos estão disponíveis em: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
A arquitetura Mixture of Experts (MoE) é um pilar fundamental dos modernos modelos de linguagem de grande escala (LLMs) de última geração (SOTA). Os modelos MoE facilitam a escalabilidade ao permitir a ativação esparsa de parâmetros. No entanto, a arquitetura MoE tradicional utiliza especialistas homogêneos de tamanho uniforme, ativando um número fixo de parâmetros independentemente da complexidade da entrada, o que limita a eficiência computacional. Para superar essa limitação, introduzimos o Grove MoE, uma nova arquitetura que incorpora especialistas de tamanhos variados, inspirada na arquitetura heterogênea de CPUs big.LITTLE. Essa arquitetura apresenta especialistas adjuntos inovadores com um mecanismo de ativação dinâmica, permitindo a expansão da capacidade do modelo enquanto mantém uma sobrecarga computacional gerenciável. Com base nessa arquitetura, apresentamos os modelos GroveMoE-Base e GroveMoE-Inst, LLMs com 33 bilhões de parâmetros desenvolvidos aplicando uma estratégia de upcycling ao modelo Qwen3-30B-A3B-Base durante o meio e o pós-treinamento. Os modelos GroveMoE ativam dinamicamente 3,14 a 3,28 bilhões de parâmetros com base na complexidade dos tokens e alcançam desempenho comparável aos modelos SOTA de código aberto de tamanho similar ou até maior.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhoria no desempenho de geração por meio da geração aumentada por recuperação (RAG), seguindo o paradigma recuperador-leitor, que complementa as entradas do modelo com conhecimento externo recuperado. No entanto, trabalhos anteriores frequentemente avaliam o RAG de forma holística, avaliando o recuperador e o leitor em conjunto, o que dificulta isolar a verdadeira contribuição da recuperação, especialmente considerando a sensibilidade a prompts dos LLMs usados como leitores. Introduzimos o Spectrum Projection Score (SPS), uma métrica leve e sem supervisão que permite ao leitor avaliar o alinhamento semântico de um resumo recuperado com sua representação oculta, comparando a área formada pelos tokens gerados a partir do resumo e as direções principais do subespaço no leitor, além de medir a relevância. Com base no SPS, apresentamos o xCompress, uma estrutura de controle em tempo de inferência que amostra, classifica e comprime dinamicamente os candidatos a resumos recuperados. Experimentos extensos em cinco benchmarks de QA com quatro LLMs de código aberto mostram que o SPS não apenas melhora o desempenho em uma variedade de tarefas, mas também oferece uma perspectiva fundamentada sobre a interação entre recuperação e geração.
Modelos de linguagem de grande escala destacam-se no raciocínio abstrato, mas sua capacidade para o raciocínio de agentes incorporados permanece amplamente inexplorada. Apresentamos o OmniEAR, um framework abrangente para avaliar como os modelos de linguagem raciocinam sobre interações físicas, uso de ferramentas e coordenação multiagente em tarefas incorporadas. Diferente de benchmarks existentes que fornecem conjuntos de ferramentas predefinidos ou diretivas explícitas de colaboração, o OmniEAR exige que os agentes adquiram capacidades dinamicamente e determinem estratégias de coordenação de forma autônoma com base nas demandas da tarefa. Através da representação baseada em texto do ambiente, modelamos propriedades físicas contínuas e relações espaciais complexas em 1.500 cenários que abrangem domínios domésticos e industriais. Nossa avaliação sistemática revela uma severa degradação de desempenho quando os modelos precisam raciocinar a partir de restrições: enquanto alcançam 85-96% de sucesso com instruções explícitas, o desempenho cai para 56-85% no raciocínio sobre ferramentas e 63-85% para colaboração implícita, com tarefas compostas apresentando taxas de falha superiores a 50%. Surpreendentemente, informações ambientais completas degradam o desempenho de coordenação, indicando que os modelos não conseguem filtrar restrições relevantes para a tarefa. O ajuste fino melhora drasticamente tarefas de agente único (0,6% para 76,3%), mas resulta em ganhos mínimos em tarefas multiagente (1,5% para 5,5%), expondo limitações arquiteturais fundamentais. Esses achados demonstram que o raciocínio incorporado apresenta desafios fundamentalmente diferentes daqueles que os modelos atuais podem abordar, estabelecendo o OmniEAR como um benchmark rigoroso para avaliar e avançar sistemas de IA incorporada. Nosso código e dados estão incluídos nos materiais suplementares e serão disponibilizados como código aberto após a aceitação.
Os Modelos de Linguagem de Autorrecompensa propõem uma arquitetura na qual os Modelos de Linguagem de Grande Escala (LLMs) tanto geram respostas quanto avaliam suas próprias saídas por meio de prompts LLM-as-a-Judge, melhorando dinamicamente suas capacidades gerativas através de uma Otimização Direta de Preferência (DPO) iterativa. No entanto, nossa análise revela uma limitação crítica nos paradigmas existentes de Autorrecompensa: a melhoria sincronizada das respostas escolhidas e rejeitadas reduz progressivamente a diferença representacional entre amostras contrastantes, prejudicando o aprendizado eficaz de preferências. Propomos Modelos de Linguagem de Autorrecompensa Temporal que coordenam estrategicamente gerações passadas, presentes e futuras do modelo para sustentar sinais de aprendizado. Nosso framework de dupla fase introduz: (1) Rejeição Ancorada - fixando respostas rejeitadas usando as saídas do modelo inicial do passado e (2) Escolha Guiada pelo Futuro - selecionando dinamicamente amostras escolhidas usando previsões do modelo de próxima geração. Experimentos extensos em três famílias de modelos (Llama, Qwen, Mistral) e diferentes tamanhos de modelos (Llama3B/8B/70B) demonstram melhorias significativas quando treinados com nosso método em comparação com Autorrecompensa usando os mesmos recursos computacionais. Por exemplo, o Llama3.1-8B alcança uma taxa de vitória de 29,44 no AlpacaEval 2.0 com nosso método, superando a linha de base de Autorrecompensa (19,69) em 9,75. Notavelmente, nosso método também demonstra generalização superior fora da distribuição em tarefas de raciocínio matemático (GSM8K), perguntas e respostas baseadas em conhecimento (ARC, TruthfulQA) e geração de código (HumanEval), mesmo sem coletar especificamente dados de treinamento para tais tarefas.
Modelos de raciocínio em larga escala alcançam alto desempenho por meio de escalonamento em tempo de teste, mas incorrem em um custo computacional significativo, especialmente devido à geração excessiva de tokens ao processar prompts de entrada curtos. Embora mecanismos de atenção esparsa possam reduzir a latência e o uso de memória, as abordagens existentes sofrem com uma degradação significativa na precisão devido a erros acumulados durante o raciocínio de geração longa. Esses métodos geralmente exigem altas taxas de retenção de tokens ou retreinamento custoso. Apresentamos o LessIsMore, um mecanismo de atenção esparsa sem necessidade de treinamento para tarefas de raciocínio, que aproveita padrões globais de atenção em vez de depender de otimizações locais específicas por cabeça, como é tradicional. O LessIsMore agrega seleções de tokens de cabeças de atenção locais com informações contextuais recentes, permitindo uma classificação unificada de tokens entre cabeças para camadas de decodificação futuras. Essa seleção unificada melhora a generalização e a eficiência ao evitar a necessidade de manter subconjuntos separados de tokens por cabeça. Avaliações em diversas tarefas de raciocínio e benchmarks mostram que o LessIsMore preserva — e em alguns casos melhora — a precisão enquanto alcança um aumento médio de 1,1 vezes na velocidade de decodificação em comparação com a atenção completa. Além disso, o LessIsMore atende a 2 vezes menos tokens sem perda de precisão, alcançando um aumento de 1,13 vezes na velocidade de ponta a ponta em comparação com métodos de atenção esparsa existentes.
A arquitetura Mixture-of-Experts (MoE) tornou-se um paradigma predominante para a escalabilidade de grandes modelos de linguagem (LLMs). Apesar de oferecer desempenho robusto e eficiência computacional, grandes LLMs baseados em MoE, como DeepSeek-V3-0324 e Kimi-K2-Instruct, apresentam desafios significativos devido aos requisitos substanciais de memória em sua implantação. Embora trabalhos recentes tenham explorado a compressão de MoE para abordar esse problema, os métodos existentes frequentemente sofrem quedas consideráveis de precisão (por exemplo, 7-14% relativamente) mesmo em taxas de compressão modestas. Este artigo introduz um novo método chamado Mixture-of-Basis-Experts (MoBE), que alcança a compressão do modelo com quedas mínimas de precisão. Especificamente, cada matriz up/gate em um especialista é decomposta por meio de uma decomposição de posto como W = AB, onde a matriz A é única para cada especialista. A matriz B, relativamente maior, é ainda reparametrizada como uma combinação linear de matrizes base {Bi} compartilhadas entre todos os especialistas dentro de uma camada MoE específica. A fatorização é aprendida minimizando o erro de reconstrução em relação às matrizes de peso originais. Experimentos demonstram que o MoBE alcança quedas de precisão notavelmente menores em comparação com trabalhos anteriores. Por exemplo, o MoBE pode reduzir a contagem de parâmetros de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) e Kimi-K2-Instruct (1T) em 24%-30% com apenas 1%-2% de queda na precisão (cerca de 2% de queda quando medido relativamente).
Políticas de robôs generalistas treinadas em grandes conjuntos de dados, como o Open X-Embodiment (OXE), demonstram um forte desempenho em uma ampla gama de tarefas. No entanto, elas frequentemente lutam para generalizar além da distribuição de seus dados de treinamento. Neste artigo, investigamos a causa subjacente dessa capacidade limitada de generalização. Identificamos o aprendizado por atalhos — a dependência de características irrelevantes para a tarefa — como um impedimento chave à generalização. Por meio de uma análise teórica e empírica abrangente, descobrimos dois contribuintes primários para o aprendizado por atalhos: (1) diversidade limitada dentro de subconjuntos de dados individuais e (2) disparidades distribucionais significativas entre subconjuntos de dados, levando à fragmentação do conjunto de dados. Esses problemas surgem da estrutura inerente de grandes conjuntos de dados como o OXE, que são tipicamente compostos por múltiplos subconjuntos de dados coletados de forma independente em diversos ambientes e embodiamentos. Nossas descobertas fornecem insights críticos sobre estratégias de coleta de dados que podem reduzir o aprendizado por atalhos e aprimorar a capacidade de generalização de políticas de robôs generalistas. Além disso, em cenários onde a aquisição de novos dados em larga escala é impraticável, demonstramos que estratégias de aumento de dados robóticos cuidadosamente selecionadas podem efetivamente reduzir o aprendizado por atalhos em conjuntos de dados offline existentes, melhorando assim as capacidades de generalização de políticas de robôs generalistas, por exemplo, pi_0, tanto em ambientes de simulação quanto no mundo real. Mais informações em https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
Embora os modelos recentes de edição de imagens baseados em fluxo demonstrem capacidades de propósito geral em diversas tarefas, eles frequentemente têm dificuldade em se especializar em cenários desafiadores — particularmente aqueles que envolvem transformações de forma em grande escala. Ao realizar tais edições estruturais, esses métodos ou falham em alcançar a mudança de forma desejada ou alteram inadvertidamente regiões não alvo, resultando em uma degradação da qualidade do fundo. Propomos o Follow-Your-Shape, uma estrutura livre de treinamento e de máscaras que suporta a edição precisa e controlável das formas dos objetos, preservando estritamente o conteúdo não alvo. Motivados pela divergência entre as trajetórias de inversão e edição, calculamos um Mapa de Divergência de Trajetória (TDM) comparando as diferenças de velocidade token a token entre os caminhos de inversão e desruído. O TDM permite a localização precisa das regiões editáveis e orienta um mecanismo de Injeção KV Programada que garante uma edição estável e fiel. Para facilitar uma avaliação rigorosa, introduzimos o ReShapeBench, um novo benchmark composto por 120 novas imagens e pares de prompts enriquecidos, especificamente curados para edição consciente da forma. Experimentos demonstram que nosso método alcança uma editabilidade superior e fidelidade visual, especialmente em tarefas que exigem substituição de forma em grande escala.
A classificação é uma das tarefas mais difundidas em aplicações de IA, servindo frequentemente como o primeiro passo na filtragem, ordenação e categorização de dados. Como os sistemas modernos de IA precisam lidar com grandes volumes de dados de entrada e estágios iniciais do pipeline podem propagar erros para etapas subsequentes, alcançar alta eficiência e precisão é crucial. Além disso, os requisitos de classificação podem mudar dinamicamente com base nas necessidades do usuário, exigindo modelos com fortes capacidades zero-shot. Embora os LLMs generativos tenham se tornado predominantes para classificação zero-shot devido à sua versatilidade, eles sofrem com inconsistências no seguimento de instruções e ineficiência computacional. Os cross-encoders, comumente usados como rerankers em pipelines de RAG, enfrentam um gargalo diferente: eles precisam processar pares texto-rótulo sequencialmente, reduzindo significativamente a eficiência com grandes conjuntos de rótulos. Abordagens baseadas em embeddings oferecem boa eficiência, mas lutam com cenários complexos envolvendo restrições lógicas e semânticas. Propomos o GLiClass, um método novo que adapta a arquitetura GLiNER para tarefas de classificação de sequências. Nossa abordagem alcança alta precisão e eficiência comparáveis a métodos baseados em embeddings, mantendo a flexibilidade necessária para cenários de aprendizado zero-shot e few-shot. Adicionalmente, adaptamos a otimização de política proximal (PPO) para classificação de texto multi-rótulo, permitindo o treinamento de classificadores em condições de dados escassos ou a partir de feedback humano.
A maioria dos dados organizacionais no mundo são armazenados como documentos, e a recuperação visual desempenha um papel crucial em desbloquear a inteligência coletiva de todos esses documentos. No entanto, os benchmarks existentes focam na recuperação de documentos apenas em inglês ou consideram apenas a tarefa de questionamento e resposta multilíngue em imagens de página única. Para preencher essa lacuna, introduzimos o VisR-Bench, um benchmark multilíngue projetado para recuperação multimodal orientada por perguntas em documentos longos. Nosso benchmark compreende mais de 35 mil pares de perguntas e respostas de alta qualidade em 1,2 mil documentos, permitindo uma avaliação refinada da recuperação multimodal. O VisR-Bench abrange dezesseis idiomas com três tipos de perguntas (figuras, texto e tabelas), oferecendo uma cobertura linguística e de questionamento diversificada. Diferente de conjuntos de dados anteriores, incluímos consultas sem respostas explícitas, impedindo que os modelos dependam de correspondência superficial de palavras-chave. Avaliamos vários modelos de recuperação, incluindo métodos baseados em texto, codificadores multimodais e MLLMs (Modelos de Linguagem Multimodais), fornecendo insights sobre seus pontos fortes e limitações. Nossos resultados mostram que, embora os MLLMs superem significativamente os modelos baseados em texto e os codificadores multimodais, eles ainda enfrentam dificuldades com tabelas estruturadas e idiomas de baixo recurso, destacando desafios importantes na recuperação visual multilíngue.
Modelos de Linguagem de Grande Escala (LLMs) que utilizam o método de Chain-of-Thought (CoT) destacam-se no raciocínio complexo, mas geram processos de pensamento verbosos com considerável redundância, resultando em custos de inferência mais elevados e eficiência reduzida. Introduzimos um novo framework de compressão de CoT baseado na entropia de etapas, uma métrica que quantifica a contribuição informacional de etapas individuais de raciocínio para identificar redundâncias. Por meio de análise teórica e validação empírica extensa em benchmarks de raciocínio matemático, demonstramos que etapas com baixa entropia são de fato altamente redundantes. Nossos experimentos revelam que impressionantes 80\% das etapas intermediárias de baixa entropia podem ser podadas com mínima degradação na precisão da resposta final em modelos como DeepSeek-R1-7B, 14B e Qwen3-8B. Esse achado contrasta fortemente com a poda aleatória ou de alta entropia, que prejudica severamente o desempenho do raciocínio. Com base nisso, propomos uma nova estratégia de treinamento em duas etapas que combina Ajuste Fino Supervisionado (SFT) e Otimização de Política Relativa em Grupo (GRPO) com aprendizado por reforço. Essa abordagem permite que os LLMs aprendam autonomamente a gerar CoTs comprimidos durante a inferência, incorporando estrategicamente tokens [SKIP]. Nosso método melhora significativamente a eficiência da inferência em LLMs enquanto preserva rigorosamente a precisão, oferecendo implicações profundas para a implantação prática de LLMs e uma compreensão mais aprofundada das estruturas de raciocínio.
Há um interesse crescente em integrar capacidades de síntese visual de alta fidelidade em modelos de linguagem de grande escala (LLMs) sem comprometer suas fortes habilidades de raciocínio. Os métodos existentes que treinam diretamente LLMs ou conectam LLMs a modelos de difusão geralmente sofrem com treinamentos custosos, já que os LLMs de base não foram expostos a representações de imagens durante o pré-treinamento. Apresentamos o Bifrost-1, um framework unificado que conecta LLMs multimodais pré-treinados (MLLMs) e modelos de difusão utilizando embeddings de imagens CLIP em nível de patch como variáveis latentes, que estão naturalmente alinhadas com o codificador visual CLIP do MLLM. Esses embeddings de imagens em nível de patch são integrados ao modelo de difusão com uma adaptação leve de seu ControlNet. Para manter as capacidades originais de raciocínio multimodal dos MLLMs, equipamos o MLLM com um ramo de geração visual inicializado a partir dos parâmetros originais do MLLM ao prever os embeddings de imagens em nível de patch. Ao integrar de forma contínua MLLMs pré-treinados e modelos de difusão com latentes CLIP em nível de patch, nosso framework permite a geração de imagens controláveis de alta fidelidade com eficiência significativa no treinamento. Nossos experimentos demonstram que o Bifrost-1 alcança desempenho comparável ou superior aos métodos anteriores em termos de fidelidade visual e compreensão multimodal, com um custo computacional substancialmente menor durante o treinamento. Também fornecemos estudos abrangentes de ablação que mostram a eficácia de nossas escolhas de design.
Sistemas de IA de pesos abertos oferecem benefícios únicos, incluindo maior transparência, pesquisa aberta e acesso descentralizado. No entanto, eles são vulneráveis a ataques de manipulação que podem eliciar eficientemente comportamentos prejudiciais ao modificar pesos ou ativações. Atualmente, ainda não existe uma ciência robusta de gerenciamento de riscos para modelos de pesos abertos. Métodos existentes de ajuste fino de segurança e outras técnicas pós-treinamento têm dificuldade em tornar LLMs resistentes a mais do que algumas dezenas de passos de ajuste fino adversarial. Neste artigo, investigamos se a filtragem de textos sobre tópicos de uso duplo dos dados de treinamento pode prevenir capacidades indesejadas e servir como uma salvaguarda mais resistente à manipulação. Introduzimos um pipeline de múltiplos estágios para filtragem escalável de dados e mostramos que ele oferece um método viável e eficaz para minimizar o conhecimento proxy de ameaças biológicas em LLMs. Pré-treinamos vários modelos de 6,9 bilhões de parâmetros do zero e descobrimos que eles exibem resistência substancial a ataques de ajuste fino adversarial em até 10.000 passos e 300 milhões de tokens de texto relacionado a ameaças biológicas — superando as linhas de base pós-treinamento existentes em mais de uma ordem de grandeza — sem degradação observada em capacidades não relacionadas. No entanto, embora os modelos filtrados não tenham conhecimento perigoso internalizado, descobrimos que eles ainda podem aproveitar essas informações quando fornecidas em contexto (por exemplo, via aumento de ferramentas de busca), demonstrando a necessidade de uma abordagem de defesa em profundidade. No geral, esses achados ajudam a estabelecer a curadoria de dados de pré-treinamento como uma camada promissora de defesa para sistemas de IA de pesos abertos.
Muitos observaram que o desenvolvimento e a implantação de modelos generativos de aprendizado de máquina (ML) e inteligência artificial (IA) seguem um padrão distinto, no qual modelos pré-treinados são adaptados e ajustados para tarefas específicas subsequentes. No entanto, há um número limitado de trabalhos empíricos que examinam a estrutura dessas interações. Este artigo analisa 1,86 milhão de modelos no Hugging Face, uma plataforma líder de produção colaborativa para o desenvolvimento de modelos. Nosso estudo das árvores genealógicas de modelos — redes que conectam modelos ajustados aos seus modelos base ou "pais" — revela linhagens extensas de ajuste fino que variam amplamente em tamanho e estrutura. Usando uma lente da biologia evolutiva para estudar modelos de ML, utilizamos metadados de modelos e fichas técnicas (model cards) para medir a similaridade genética e a mutação de características ao longo das famílias de modelos. Descobrimos que os modelos tendem a exibir uma semelhança familiar, ou seja, seus marcadores genéticos e características exibem maior sobreposição quando pertencem à mesma família de modelos. No entanto, essas semelhanças divergem de certas formas dos modelos padrão de reprodução assexuada, porque as mutações são rápidas e direcionadas, de modo que dois modelos "irmãos" tendem a exibir mais similaridade do que pares de modelos pai/filho. Uma análise mais aprofundada dos desvios direcionais dessas mutações revela insights qualitativos sobre o ecossistema aberto de aprendizado de máquina: licenças, de forma contra-intuitiva, mudam de licenças restritivas e comerciais para licenças permissivas ou copyleft, muitas vezes violando os termos das licenças originais; os modelos evoluem da compatibilidade multilíngue para a compatibilidade apenas em inglês; e as fichas técnicas dos modelos reduzem em comprimento e se padronizam, recorrendo mais frequentemente a modelos e textos gerados automaticamente. No geral, este trabalho dá um passo em direção a uma compreensão empiricamente fundamentada do ajuste fino de modelos e sugere que modelos e métodos ecológicos podem gerar insights científicos inovadores.
Sistemas de verificação de fatos de ponta combatem a desinformação em escala empregando agentes autônomos baseados em LLMs (Modelos de Linguagem de Grande Escala) para decompor alegações complexas em sub-alegações menores, verificar cada sub-alegação individualmente e agregar os resultados parciais para produzir veredictos com justificativas (razões explicativas para os veredictos). A segurança desses sistemas é crucial, pois verificadores de fatos comprometidos, que tendem a ser facilmente subexplorados, podem amplificar a desinformação. Este trabalho introduz o Fact2Fiction, o primeiro framework de ataque de envenenamento direcionado a tais sistemas de verificação de fatos baseados em agentes. O Fact2Fiction espelha a estratégia de decomposição e explora justificativas geradas pelo sistema para criar evidências maliciosas personalizadas que comprometem a verificação das sub-alegações. Experimentos extensivos demonstram que o Fact2Fiction alcança taxas de sucesso de ataque 8,9\%--21,2\% maiores do que os ataques de ponta em vários orçamentos de envenenamento. O Fact2Fiction expõe fraquezas de segurança nos sistemas atuais de verificação de fatos e destaca a necessidade de medidas defensivas.
A conversão de expressões matemáticas faladas é uma tarefa desafiadora que envolve a transcrição da fala em uma representação simbolicamente estruturada, ao mesmo tempo em que aborda a ambiguidade inerente à pronúncia de equações. Embora progressos significativos tenham sido alcançados no reconhecimento automático de fala (ASR) e em modelos de linguagem (LM), o problema de converter matemática falada em LaTeX permanece pouco explorado. Essa tarefa é diretamente aplicável em domínios educacionais e de pesquisa, como a transcrição de aulas ou a criação de anotações. Com base na pós-correção de ASR, trabalhos anteriores exigem duas transcrições, focam apenas em equações isoladas, possuem um conjunto de testes limitado e não fornecem dados de treinamento nem cobertura multilíngue. Para abordar essas questões, apresentamos o primeiro conjunto de dados em grande escala totalmente de código aberto, composto por mais de 66.000 amostras de áudio anotadas manualmente de equações matemáticas e frases em inglês e russo, extraídas de diversos domínios científicos. Além dos modelos de pós-correção de ASR e do prompting de poucos exemplos, aplicamos modelos de linguagem de áudio, demonstrando resultados comparáveis na taxa de erro de caracteres (CER) no benchmark MathSpeech (28% vs. 30%) para a conversão de equações. Em contraste, no benchmark proposto S2L-equations, nossos modelos superam o modelo MathSpeech por uma margem substancial de mais de 40 pontos percentuais, mesmo após considerar os artefatos de formatação LaTeX (27% vs. 64%). Estabelecemos o primeiro benchmark para reconhecimento de frases matemáticas (S2L-sentences) e alcançamos um CER de 40% para equações. Este trabalho estabelece as bases para avanços futuros em IA multimodal, com foco particular no reconhecimento de conteúdo matemático.
À medida que os modelos de linguagem de grande escala se tornam cada vez mais integrados à vida cotidiana, o áudio emergiu como uma interface crucial para a interação humano-IA. No entanto, essa conveniência também introduz novas vulnerabilidades, tornando o áudio uma superfície de ataque potencial para adversários. Nossa pesquisa apresenta o WhisperInject, uma estrutura de ataque adversarial de áudio em duas etapas que pode manipular modelos de linguagem de áudio de última geração para gerar conteúdo prejudicial. Nosso método utiliza perturbações imperceptíveis em entradas de áudio que permanecem benignas para ouvintes humanos. A primeira etapa emprega um novo método de otimização baseado em recompensa, Aprendizado por Reforço com Gradiente Descendente Projetado (RL-PGD), para guiar o modelo alvo a contornar seus próprios protocolos de segurança e gerar respostas nativas prejudiciais. Essa resposta nativa prejudicial então serve como alvo para a Etapa 2, Injeção de Carga Útil, onde utilizamos o Gradiente Descendente Projetado (PGD) para otimizar perturbações sutis que são embutidas em portadores de áudio benignos, como consultas sobre o clima ou mensagens de cumprimento. Validado sob o rigoroso framework de avaliação de segurança StrongREJECT, LlamaGuard, bem como Avaliação Humana, nossos experimentos demonstram uma taxa de sucesso superior a 86% nos modelos Qwen2.5-Omni-3B, Qwen2.5-Omni-7B e Phi-4-Multimodal. Nosso trabalho demonstra uma nova classe de ameaças práticas e nativas de áudio, indo além de explorações teóricas para revelar um método viável e discreto de manipulação do comportamento da IA.
Avaliar agentes de IA em ambientes complexos e interativos que espelham desafios do mundo real é crucial para compreender suas capacidades práticas. Embora os benchmarks existentes avaliem eficazmente habilidades como o uso de ferramentas ou o desempenho em tarefas estruturadas, eles frequentemente não capturam plenamente a capacidade de um agente de operar de forma autônoma em ambientes exploratórios que exigem raciocínio autodirigido e sustentado ao longo de um contexto extenso e crescente. Para impulsionar o desenvolvimento de agentes capazes de um raciocínio intrínseco mais robusto em horizontes longos, apresentamos o TextQuests, um benchmark baseado na suíte de ficção interativa Infocom. Essas aventuras baseadas em texto, que podem levar jogadores humanos mais de 30 horas e exigir centenas de ações precisas para serem resolvidas, servem como um proxy eficaz para avaliar agentes de IA em tarefas focadas e com estado. O benchmark foi especificamente projetado para avaliar a capacidade de um agente de LLM em resolver problemas de forma autossuficiente, impedindo o uso de ferramentas externas, concentrando-se assim nas capacidades intrínsecas de raciocínio em contextos longos em um ambiente exploratório caracterizado pela necessidade de aprendizado por tentativa e erro e resolução sustentada de problemas em uma única sessão interativa. Lançamos o TextQuests em https://textquests.ai.