Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o MindLab Toolkit (MinT), um sistema de infraestrutura gerenciada para pós-treinamento e inferência online com Adaptação de Baixo Posto (LoRA). O MinT tem como alvo um cenário no qual muitas políticas treinadas são produzidas sobre um pequeno número de implantações caras de modelo base. Em vez de materializar cada política como um checkpoint completo fundido, o MinT mantém o modelo base residente e move as revisões de adaptador LoRA exportadas por meio de rollout, atualização, exportação, avaliação, inferência e reversão, ocultando treinamento distribuído, inferência, escalonamento e movimentação de dados por trás de uma interface de serviço. O MinT escala esse caminho ao longo de três eixos. O *Scale Up* estende o RL (aprendizado por reforço) com LoRA para arquiteturas densas e MoE de escala de fronteira, incluindo caminhos de atenção MLA e DSA, com treinamento e inferência validados além de 1T de parâmetros totais. O *Scale Down* move apenas o adaptador LoRA exportado, que pode ser inferior a 1% do tamanho do modelo base em configurações de posto 1; a transferência apenas do adaptador reduz o passo medido em 18,3x em um modelo denso de 4B e 2,85x em um MoE de 30B, enquanto o GRPO concorrente com múltiplas políticas encurta o tempo de parede em 1,77x e 1,45x sem aumentar o pico de memória. O *Scale Out* separa a endereçabilidade duradoura de políticas dos conjuntos de trabalho CPU/GPU: uma implantação paralela de tensores suporta catálogos endereçáveis na escala de 10^6 (varreduras de motor único medidas através de 100K) e ondas ativas de milhares de adaptadores em escala de cluster, com carregamento a frio tratado como trabalho de serviço agendado e tensores LoRA MoE compactados melhorando o carregamento do motor ativo em 8,5–8,7x. Assim, o MinT gerencia catálogos de políticas LoRA em escala de milhões enquanto treina e serve revisões de adaptadores selecionados sobre modelos base compartilhados da classe 1T.
Modelos de Fundação Tabulares estabeleceram recentemente o estado da arte em aprendizado tabular supervisionado, ao empregar pré-treinamento para aprender representações generalizáveis de dados estruturados numéricos e categóricos. No entanto, esses modelos carecem de suporte nativo para modalidades não estruturadas, como texto e imagem, dependendo de embeddings pré-treinados congelados para processá-las. Em benchmarks consolidados de Aprendizado Tabular Multimodal, demonstramos que ajustar os embeddings à tarefa melhora o desempenho. No entanto, os benchmarks existentes frequentemente se concentram na mera coocorrência de modalidades; isso leva a uma alta variância entre conjuntos de dados e mascara os benefícios do ajuste específico à tarefa. Para preencher essa lacuna, apresentamos o MulTaBench, um benchmark composto por 40 conjuntos de dados, divididos igualmente entre tarefas imagem-tabular e texto-tabular. Focamos em tarefas preditivas onde as modalidades fornecem sinal preditivo complementar, e onde embeddings genéricos perdem informações críticas, exigindo Representações Conscientes do Alvo que estejam alinhadas com a tarefa. Nossos resultados experimentais demonstram que os ganhos obtidos com o ajuste das representações conscientes do alvo se generalizam tanto para as modalidades de texto quanto de imagem, abrangendo diversos aprendizes tabulares, escalas de codificador e dimensões de embedding. O MulTaBench constitui o maior esforço de benchmarking imagem-tabular até a data, abrangendo domínios de alto impacto, como saúde e comércio eletrônico. Ele é projetado para viabilizar a pesquisa de novas arquiteturas que incorporem modelagem conjunta e representações conscientes do alvo, pavimentando o caminho para o desenvolvimento de novos Modelos de Fundação Tabulares Multimodais.
A geração de vídeo em poucas etapas foi significativamente avançada pela destilação de consistência. No entanto, o desempenho de modelos destilados por consistência frequentemente se degrada à medida que mais etapas de amostragem são alocadas durante o teste, limitando sua eficácia para difusão de vídeo de qualquer etapa. Essa limitação surge porque a destilação de consistência substitui a trajetória ODE de fluxo de probabilidade original por uma trajetória de amostragem por consistência, enfraquecendo o desejável comportamento de escalonamento da amostragem ODE durante o teste. Para contornar essa limitação, apresentamos o AnyFlow, o primeiro framework de destilação de difusão de vídeo de qualquer etapa baseado em mapas de fluxo. Em vez de destilar um modelo para apenas algumas etapas fixas de amostragem, o AnyFlow otimiza toda a trajetória de amostragem ODE. Para isso, deslocamos o alvo da destilação do mapeamento de consistência de ponto final (z_{t} → z_{0}) para o aprendizado da transição do mapa de fluxo (z_{t} → z_{r}) em intervalos de tempo arbitrários. Propomos ainda a Simulação Reversa do Mapa de Fluxo, que decompõe uma propagação completa de Euler em transições curtas de mapa de fluxo, permitindo uma destilação on-policy eficiente que reduz erros durante o teste (ou seja, erro de discretização na amostragem em poucas etapas e viés de exposição na geração causal). Experimentos extensivos em arquiteturas bidirecionais e causais, com escalas variando de 1,3B a 14B parâmetros, demonstram que o AnyFlow alcança desempenho igual ou superior aos equivalentes baseados em consistência no regime de poucas etapas, enquanto escala com o orçamento de etapas de amostragem.
A modelagem de contexto longo está se tornando uma capacidade central dos grandes modelos modernos de visão-linguagem (LVLMs), permitindo o gerenciamento sustentado de contexto em tarefas como compreensão de documentos longos, análise de vídeos e uso de ferramentas em múltiplas interações em fluxos de trabalho agentivos. No entanto, receitas práticas de treinamento ainda são insuficientemente exploradas, particularmente no projeto e equilíbrio de misturas de dados para contexto longo. Neste trabalho, apresentamos um estudo sistemático do pré-treinamento continuado para contexto longo em LVLMs, estendendo um modelo de 7B de 32K para 128K de contexto com ablações extensivas em dados de documentos longos. Primeiramente, mostramos que o VQA de documentos longos é substancialmente mais eficaz do que a transcrição OCR. Com base nessa observação, nossas ablações revelam ainda três descobertas principais: i) para a distribuição de comprimento de sequência, dados balanceados superam dados focados em comprimento alvo (por exemplo, 128K), sugerindo que a capacidade de contexto longo requer recuperação generalizável de informações-chave em diversos comprimentos e posições; ii) a recuperação continua sendo o principal gargalo, favorecendo misturas com ênfase em recuperação e dados moderados de raciocínio para diversidade de tarefas; e iii) o VQA puro de documentos longos preserva amplamente as capacidades de contexto curto, sugerindo que dados longos formatados como instrução reduzem a necessidade de mistura com dados curtos. Com base nessas descobertas, apresentamos o MMProLong, obtido por meio do pré-treinamento continuado para contexto longo a partir do Qwen2.5-VL-7B com um orçamento de apenas 5B tokens. O MMProLong melhora as pontuações de VQA de documentos longos em 7,1% e mantém um desempenho robusto em contextos de 256K e 512K, além de sua janela de treinamento de 128K, sem treinamento adicional. Ele ainda se generaliza para recuperação de agulha multimodal baseada em páginas web, compressão visão-texto de contexto longo e compreensão de vídeos longos sem supervisão específica de tarefa. No geral, nosso estudo estabelece uma receita prática de LongPT e uma base empírica para o avanço de modelos de visão-linguagem com contexto longo.
Agentes de voz, sistemas de inteligência artificial que conduzem conversas faladas para completar tarefas, são cada vez mais implantados em aplicações empresariais. No entanto, nenhum benchmark existente aborda conjuntamente dois desafios centrais de avaliação: gerar conversas simuladas realistas e medir a qualidade em todo o espectro de modos de falha específicos da voz. Apresentamos o EVA-Bench, uma estrutura de avaliação ponta a ponta que aborda ambos. No lado da simulação, o EVA-Bench orquestra conversas de áudio entre bots em diálogos dinâmicos de múltiplas rodadas, com validação automática de simulação que detecta erros do simulador de usuário e regenera adequadamente as conversas antes da pontuação. No lado da medição, o EVA-Bench introduz duas métricas compostas: EVA-A (Precisão), capturando conclusão de tarefas, fidelidade e fidelidade da fala em nível de áudio; e EVA-X (Experiência), capturando progressão da conversa, concisão falada e tempo de alternância de turnos. Ambas as métricas se aplicam a diferentes arquiteturas de agentes, permitindo comparação direta entre arquiteturas. O EVA-Bench inclui 213 cenários em três domínios empresariais, um conjunto controlado de perturbações para robustez a sotaques e ruídos, e medições pass@1, pass@k, pass^k que distinguem capacidade de pico de capacidade confiável. Em 12 sistemas abrangendo todas as três arquiteturas, constatamos: (1) nenhum sistema excede simultaneamente 0,5 tanto no EVA-A pass@1 quanto no EVA-X pass@1; (2) o desempenho de pico e confiável divergem substancialmente (diferença mediana pass@k - pass^k de 0,44 no EVA-A); e (3) perturbações de sotaque e ruído expõem lacunas substanciais de robustez, com efeitos variando entre arquiteturas, sistemas e métricas (média de até 0,314). Disponibilizamos a estrutura completa, o conjunto de avaliação e os dados do benchmark sob uma licença de código aberto.
Agentes de IA negociam e realizam transações em linguagem natural com contrapartes desconhecidas: um bot comprador enfrentando um vendedor desconhecido, ou um assistente de compras negociando com um fornecedor. Nessas interações, o LLM, os prompts, a lógica de controle e os fallbacks baseados em regras da contraparte estão ocultos, enquanto cada decisão pode ter consequências financeiras. Perguntamos se um agente pode prever a próxima decisão de uma contraparte desconhecida a partir de algumas interações. Para evitar confusões de registro no mundo real, estudamos esse problema em jogos controlados de barganha e negociação, formulando-o como previsão texto-tabular adaptativa ao alvo: cada ponto de decisão é uma linha de tabela que combina estado estruturado do jogo, histórico de ofertas e diálogo, enquanto K jogos anteriores do mesmo agente alvo, ou seja, a contraparte sendo modelada, são fornecidos no prompt como exemplos de adaptação rotulados. Nosso modelo é construído sobre um modelo fundamental tabular que representa linhas usando características do estado do jogo e representações de texto baseadas em LLM, e adiciona LLM como Observador como uma representação adicional: um pequeno LLM congelado lê o estado e o diálogo no momento da decisão; sua resposta é descartada, e seu estado oculto se torna uma característica orientada à decisão, transformando o LLM em um codificador, em vez de um preditor direto de poucos exemplos. Treinado em 13 agentes LLM de fronteira e testado em 91 agentes scaffolded não vistos, o modelo completo supera o prompting direto do LLM como Preditor e as linhas de base de características de jogo+texto. Dentro deste modelo tabular, as características do Observador contribuem além dos outros esquemas de características: em K=16, elas melhoram a AUC de previsão de resposta em cerca de 4 pontos em ambas as tarefas e reduzem o erro de previsão de oferta de barganha em 14%. Esses resultados mostram que formular a previsão da contraparte como uma tarefa texto-tabular adaptativa ao alvo permite uma adaptação eficaz, e que representações ocultas do LLM expõem sinais relevantes para a decisão que o prompting direto não revela.
Apresentamos o Qwen-Image-VAE-2.0, um conjunto de Autoencoders Variacionais (VAEs) de alta compressão que alcançam avanços significativos tanto na fidelidade de reconstrução quanto na difusibilidade. Para lidar com os gargalos de reconstrução da alta compressão, adotamos uma arquitetura aprimorada que apresenta Conexões de Salto Globais (Global Skip Connections, GSC) e canais latentes expandidos. Além disso, escalamos o treinamento para bilhões de imagens e incorporamos um motor de renderização sintética para melhorar o desempenho em cenários ricos em texto. Para enfrentar os desafios de convergência do espaço latente de alta dimensionalidade, implementamos uma estratégia aprimorada de alinhamento semântico, tornando o espaço latente altamente adequado para modelagem por difusão. Para otimizar a eficiência computacional, utilizamos uma espinha dorsal codificador-decodificador assimétrica e sem atenção, minimizando a sobrecarga de codificação. Apresentamos uma avaliação abrangente do Qwen-Image-VAE-2.0 em benchmarks públicos de reconstrução. Para avaliar o desempenho em cenários ricos em texto, propomos o OmniDoc-TokenBench, um novo benchmark que compreende uma coleção diversificada de documentos reais, combinado com métricas de avaliação especializadas baseadas em OCR (Reconhecimento Óptico de Caracteres). O Qwen-Image-VAE-2.0 atinge o estado da arte em desempenho de reconstrução, demonstrando capacidades excepcionais tanto em domínios gerais quanto em cenários ricos em texto, sob alta taxa de compressão. Além disso, experimentos a jusante com DiT (Transformadores de Difusão) revelam que nossos modelos possuem difusibilidade superior, acelerando significativamente a convergência em comparação com as linhas de base de alta compressão existentes. Esses resultados estabelecem o Qwen-Image-VAE-2.0 como um modelo líder com alta compressão, reconstrução superior e difusibilidade excepcional.
Modelos recentes de edição de imagens alcançaram progressos notáveis no acompanhamento de instruções, na compreensão multimodal e na edição visual complexa. No entanto, os benchmarks existentes frequentemente falham em refletir fielmente o julgamento humano, especialmente para modelos de fronteira robustos, devido à limitada dificuldade das tarefas e a protocolos de avaliação pouco refinados. Paralelamente, modelos de recompensa tornaram-se cada vez mais importantes para a otimização de edição de imagens baseada em RL, mas os benchmarks existentes para modelos de recompensa ainda dependem de cenários de avaliação irrealistas que se desviam das situações práticas de RL. Essas limitações dificultam uma avaliação confiável tanto dos modelos de edição de imagens quanto dos modelos de recompensa. Para enfrentar esses desafios, apresentamos o Edit-Compass e o EditReward-Compass, um conjunto unificado de avaliação para edição de imagens e modelagem de recompensas. O Edit-Compass contém 2.388 instâncias cuidadosamente anotadas, abrangendo seis categorias de tarefas progressivamente desafiadoras, que incluem capacidades como raciocínio sobre conhecimento de mundo, raciocínio visual e edição de múltiplas imagens. Além da ampla cobertura de tarefas, o Edit-Compass adota um quadro de avaliação multidimensional refinado, baseado em raciocínio estruturado e rubricas de pontuação cuidadosamente elaboradas. Paralelamente, o EditReward-Compass contém 2.251 pares de preferência que simulam cenários realistas de modelagem de recompensas durante a otimização por RL.
O rastreamento 3D denso a partir de vídeo monocular é fundamental para a compreensão de cenas dinâmicas. Embora modelos fundamentais 3D recentes forneçam geometria confiável por quadro, recuperar o movimento de objetos nessa geometria continua sendo desafiador e se beneficia de fortes priores de movimento aprendidos a partir de vídeos do mundo real. Os rastreadores 3D existentes seguem paradigmas iterativos treinados do zero em dados sintéticos ou ajustam modelos de reconstrução 3D aprendidos a partir de imagens estáticas multivisão, ambos carecendo de priores de movimento do mundo real. Transformadores de difusão de vídeo pré-treinados (video DiTs) oferecem priores espaço-temporais ricos provenientes de vídeos em escala da internet, tornando-os uma base promissora para o rastreamento 3D. No entanto, sua formulação ancorada no quadro, que gera o conteúdo de cada quadro, é fundamentalmente incompatível com o rastreamento 3D denso ancorado na referência, que deve seguir os mesmos pontos físicos a partir de um quadro de referência ao longo do tempo. Apresentamos TrackCraft3R, o primeiro método a reaproveitar um video DiT como um rastreador 3D denso alimentado diretamente. Dado um vídeo monocular e seu mapa de pontos de reconstrução ancorado no quadro, o TrackCraft3R prediz um mapa de pontos de rastreamento ancorado na referência que segue cada pixel do primeiro quadro ao longo do tempo em uma única passagem direta, juntamente com sua visibilidade. Alcançamos isso por meio de dois projetos: (i) uma representação latente dupla que usa latentes de geometria por quadro e latentes de rastreamento ancorados na referência como consultas densas, e (ii) alinhamento RoPE temporal, que especifica o carimbo de tempo alvo de cada latente de rastreamento. Juntos, esses projetos convertem o paradigma generativo por quadro dos video DiTs em uma formulação de rastreamento ancorada na referência com ajuste fino LoRA. O TrackCraft3R alcança desempenho de estado da arte em benchmarks padrão de rastreamento 3D esparso e denso, enquanto é executado 1,3x mais rápido e utiliza 4,6x menos pico de memória do que o método anterior mais forte. Demonstramos ainda robustez a grandes movimentos e vídeos longos.
Aprendizagem em contexto (ICL) adapta grandes modelos de linguagem (LLMs) a novas tarefas ao condicionar com base em demonstrações no prompt sem atualizações de parâmetros. Com modelos de contexto longo, a ICL com muitos exemplos pode usar dezenas a centenas de exemplos e atingir desempenho comparável ao ajuste fino, mas a compreensão atual de seu comportamento de escala é amplamente derivada de tarefas que não envolvem raciocínio. Estudamos a aprendizagem em contexto com cadeia de pensamento e muitos exemplos (CoT-ICL) para raciocínio e mostramos que as regras padrão de muitos exemplos não se transferem. Em LLMs não orientados a raciocínio e orientados a raciocínio, e em tarefas sem raciocínio e com raciocínio, encontramos: (i) um efeito de escala dependente do contexto, onde aumentar o número de demonstrações CoT é instável para LLMs não orientados a raciocínio e beneficia principalmente LLMs orientados a raciocínio; (ii) a recuperação baseada em similaridade ajuda em tarefas sem raciocínio, mas falha em tarefas de raciocínio, pois a similaridade semântica prediz mal a compatibilidade procedural (ou seja, CoT); e (iii) um efeito de escala de ordem, onde a variância de desempenho cresce com mais demonstrações CoT. Interpretamos esses comportamentos considerando a CoT-ICL com muitos exemplos como aprendizado em contexto no momento do teste, em vez de correspondência de padrões em escala, e sugerimos dois princípios: (i) as demonstrações devem ser fáceis para o modelo alvo entender, e (ii) elas devem ser ordenadas para apoiar uma progressão conceitual suave. Guiados pelo princípio, propomos a Seleção Curvilínea de Demonstrações (CDS), um método simples de ordenação que produz um ganho de até 5,42 pontos percentuais em geometria com 64 demonstrações. No geral, nossos resultados reenquadram a janela de contexto longo de um buffer de recuperação para um currículo estruturado para aprendizado em contexto no momento do teste.
As políticas Visão-Linguagem-Ação (VLA) são comumente treinadas a partir de trajetórias densas de demonstração robótica, frequentemente coletadas por teleoperação, amostrando cada quadro gravado como se fornecesse supervisão igualmente útil. Argumentamos que essa convenção cria um desequilíbrio temporal de supervisão: longos segmentos de baixa variação dominam o fluxo de treinamento, enquanto transições críticas de manipulação, como alinhamento, contato, preensão e liberação, aparecem apenas esparsamente. Apresentamos o FrameSkip, uma estrutura de seleção de quadros em nível de dados que pontua quadros de trajetória usando variação de ação, coerência visão-ação, priores de progresso da tarefa e preservação de transições do gripper, e então remapeia as amostras de treinamento para quadros de alta importância sob uma taxa de retenção alvo. Como o FrameSkip opera apenas no carregador de dados, ele mantém inalteradas a arquitetura VLA, a cabeça de ação, o objetivo de treinamento e o procedimento de inferência. Nos benchmarks RoboCasa-GR1, SimplerEnv e LIBERO, o FrameSkip melhora a troca sucesso-retenção em relação ao treinamento com todos os quadros e variantes mais simples de seleção de quadros, alcançando uma taxa de sucesso macro-média de 76,15% nos três benchmarks, em comparação com 66,50% para o treinamento com todos os quadros, enquanto utiliza uma visão de trajetória comprimida que retém 20% dos quadros únicos na configuração principal.
Uma evolução plausível da cena depende da manobra considerada, enquanto uma boa manobra depende de como a cena pode evoluir. Os Modelos de Mundo-Ação (WAMs) existentes ignoram amplamente essa reciprocidade, tratando a predição do mundo e a geração de ações como ramos paralelos isolados ou pipelines rígidos de prever-depois-planejar. Formalizamos essa perspectiva como Modelos Interativos de Mundo-Ação (WAIMs) e a instanciamos na direção autônoma com o DAWN (Modelo Interativo de Remoção de Ruído de Ações e Mundo), uma linha de base generativa latente simples, porém robusta. O DAWN opera em um espaço latente semântico compacto e acopla um Preditor de Mundo a um Removedor de Ruído de Ação Condicionado ao Mundo: a hipótese de mundo prevista condiciona a remoção de ruído da ação, enquanto a hipótese de ação com ruído removido é realimentada para atualizar a predição do mundo, de modo que ambas são refinadas recursivamente durante a inferência. Em vez de eliminar totalmente a evolução do mundo em tempo de teste ou desdobrar todo o futuro no espaço de pixel, o DAWN realiza um desdobramento latente explícito curto, suficiente para apoiar a geração de trajetória de longo horizonte em cenas interativas complexas. Experimentos mostram que o DAWN alcança forte desempenho de planejamento e resultados favoráveis relacionados à segurança em vários benchmarks de direção autônoma. De forma mais ampla, nossos resultados sugerem que a geração interativa de mundo-ação é um caminho fundamentado em direção a modelos de mundo verdadeiramente acionáveis.
Geração baseada em fluxo em espaços de alta dimensionalidade é difícil porque a predição de velocidades exige modelar ruído de alta dimensão, mesmo quando os dados possuem uma estrutura forte de posto baixo. Apresentamos a Modelagem de Fluxo Assimétrico (AsymFlow), uma parametrização de velocidades assimétrica em relação ao posto, que restringe a predição de ruído a um subespaço de posto baixo, enquanto mantém a predição dos dados em dimensão completa. A partir dessa predição assimétrica, o AsymFlow recupera analiticamente a velocidade em dimensão completa sem alterar a arquitetura da rede ou os procedimentos de treinamento/amostragem. No ImageNet 256×256, o AsymFlow alcança um FID líder de 1,57, superando por ampla margem modelos anteriores de difusão de pixels semelhantes a DiT/JiT. O AsymFlow também fornece a primeira rota para ajuste fino de modelos de fluxo latente pré-treinados em modelos no espaço de pixels: alinhar o subespaço de pixels de posto baixo ao espaço latente fornece uma inicialização contínua que preserva a semântica e a estrutura de alto nível do modelo latente, de modo que o ajuste fino melhora principalmente discrepâncias de baixo nível em vez de reaprender a geração de pixels. Mostramos que o modelo AsymFlow em espaço de pixels ajustado a partir do FLUX.2 klein 9B estabelece um novo estado da arte para geração de texto-para-imagem no espaço de pixels, superando sua base latente em HPSv3, DPG-Bench e GenEval, enquanto qualitativamente mostra realismo visual substancialmente melhorado.
Aprendizado por reforço (RL) agentivo para Modelos de Linguagem de Grande Escala (LLMs) depende criticamente da capacidade de exploração da política base, já que os sinais de treinamento emergem apenas dentro de sua região de capacidade. Para tarefas em que a política base não consegue alcançar estados de recompensa, treinamento adicional ou orientação externa são necessários para recuperar sinais de aprendizado eficazes. Em vez de depender de custoso e iterativo ajuste fino supervisionado (SFT), exploramos os abundantes dados de ação gerados em interações humanas cotidianas. Propomos o ActGuide-RL, que injeta dados de ação como orientação de referência no estilo de plano, permitindo que a política agentiva supere barreiras de alcançabilidade para estados de recompensa. Rollouts guiados e não guiados são então otimizados conjuntamente via treinamento de política mista, internalizando os ganhos de exploração de volta na política não guiada. Motivados por uma análise teórica e empírica do trade-off entre benefício e risco, adotamos um princípio de intervenção mínima que invoca a orientação apenas como um fallback adaptativo, ajustando-se à dificuldade da tarefa enquanto minimiza o risco fora da política. Em benchmarks de agentes de busca, o ActGuide-RL melhora substancialmente em relação a zero RL (+10,7 pp no GAIA e +19 pp no XBench com Qwen3-4B) e desempenha-se de forma equivalente ao pipeline SFT+RL sem qualquer inicialização a frio. Isso sugere um novo paradigma para RL agentivo que reduz a dependência de dados pesados de SFT ao usar orientação de ação escalável em vez disso.
A recuperação de memória em sistemas de modelos de linguagem de grande escala (LLMs) agentivos é frequentemente tratada como um problema de busca estática, dependendo de pesquisa vetorial plana ou de grafos relacionais binários fixos. No entanto, estruturas de grafo fixas não conseguem capturar a intensidade variável, a confiança e a relevância dependente da consulta das relações entre eventos. Neste artigo, propomos o HAGE, uma estrutura de memória multi-relacional ponderada que reconceitua a recuperação como uma travessia sequencial condicionada à consulta sobre um grafo de memória relacional unificado. A memória é organizada em visões de grafo específicas de relação sobre nós de memória compartilhados, onde cada aresta está associada a um vetor de características de relação treinável que codifica múltiplos sinais relacionais. Dada uma consulta, um classificador baseado em LLM identifica a intenção relacional, e uma rede de roteamento modula dinamicamente as dimensões correspondentes da incorporação da aresta. As pontuações de travessia são calculadas por meio de uma combinação aprendida de similaridade semântica e dessas representações de aresta condicionadas à consulta. Isso permite que a travessia da memória priorize caminhos relacionais de alta utilidade enquanto suprime suavemente conexões ruidosas ou fracamente relevantes. Além da travessia adaptativa, o HAGE introduz ainda uma estrutura de treinamento baseada em aprendizado por reforço que otimiza conjuntamente o comportamento de roteamento e as representações de aresta usando tarefas a jusante. Por fim, resultados empíricos demonstram precisão aprimorada no raciocínio de longo horizonte e uma troca favorável entre precisão e eficiência em comparação com sistemas de memória agentivos de última geração. Nosso código está disponível em https://github.com/FredJiang0324/HAGE_MVPReview.
A Geração Aumentada por Recuperação (RAG) tornou-se uma abordagem padrão para respostas a perguntas com uso intensivo de conhecimento, mas os sistemas existentes permanecem frágeis em perguntas de múltiplos saltos, onde resolver a tarefa requer encadear múltiplas etapas de recuperação e raciocínio. Os principais desafios são que os métodos atuais representam o raciocínio por meio de linguagem natural de forma livre, onde os estados intermediários são implícitos, as consultas de recuperação podem se desviar das entidades pretendidas e os erros são detectados pelo mesmo modelo que os produz, tornando a autorreflexão um sinal não confiável e sem fundamentação. Observamos que a resposta a perguntas de múltiplos saltos é uma forma típica de computação passo a passo, e que esse processo estruturado se alinha estreitamente com a forma como os modelos de linguagem especializados em código são treinados para operar. Motivados por isso, apresentamos o \pyrag, uma estrutura que reformula a RAG de múltiplos saltos como síntese e execução de programas. Em vez de trajetórias de raciocínio de forma livre, o \pyrag representa o processo de raciocínio como um programa Python executável sobre ferramentas de recuperação e QA, expondo estados intermediários como variáveis, produzindo feedback determinístico por meio da execução e fornecendo um rastreamento inspecionável de todo o processo de raciocínio. Essa formulação ainda possibilita autorreparação fundamentada em compilador e recuperação adaptativa orientada por execução sem qualquer treinamento adicional. Experimentos em cinco benchmarks de QA (PopQA, HotpotQA, 2WikiMultihopQA, MuSiQue e Bamboogle) mostram que o \pyrag supera consistentemente fortes linhas de base em configurações sem treinamento e treinadas com RL, com ganhos especialmente grandes em conjuntos de dados composicionais de múltiplos saltos. Nosso código, dados e modelos estão disponíveis publicamente em https://github.com/GasolSun36/PyRAG.
A geração de apresentações está evoluindo da criação estática de slides para a geração ponta a ponta de vídeos de apresentação, com fundamentação em pesquisa, mídia multimodal e entrega interativa. Apresentamos o PresentAgent-2, um framework agentivo para gerar vídeos de apresentação a partir de consultas de usuários. Dada uma consulta aberta do usuário e um modo de apresentação selecionado, o PresentAgent-2 primeiro resume a consulta em um tópico focado e realiza uma pesquisa aprofundada em fontes adequadas para apresentações, coletando recursos multimodais, incluindo texto, imagens, GIFs e vídeos relevantes. Em seguida, ele constrói os slides da apresentação, gera roteiros específicos para cada modo e compõe slides, áudio e mídia dinâmica em um vídeo de apresentação completo. O PresentAgent-2 suporta três modos de apresentação independentes dentro de um framework unificado: Apresentação Individual, que gera um vídeo de apresentação narrado por um único orador; Discussão, que cria uma apresentação com múltiplos oradores e papéis estruturados, como fazer perguntas norteadoras, explicar conceitos, esclarecer detalhes e resumir pontos-chave; e Interação, que suporta de forma independente a resposta a perguntas da audiência com base nos slides gerados, nos roteiros, nas evidências recuperadas e no contexto da apresentação. Para avaliar essas capacidades, construímos um benchmark multimodal de apresentações que abrange cenários de apresentação individual, discussão e interação, com critérios de avaliação específicos para cada tarefa, incluindo qualidade do conteúdo, relevância da mídia, uso de mídia dinâmica, naturalidade do diálogo e fundamentação da interação. No geral, o PresentAgent-2 expande a geração de apresentações, indo da criação de slides dependentes de documentos para a geração de vídeos de apresentação orientados por consultas e fundamentados em pesquisa, com mídia multimodal, diálogo e interação. Código: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.
Apresentamos o Orthrus, um framework dual de arquitetura simples e eficiente que unifica a fidelidade exata de geração dos Modelos de Linguagem de Grande Escala (LLMs) autorregressivos com a geração paralela de tokens em alta velocidade dos modelos de difusão. A natureza sequencial da decodificação autorregressiva padrão representa um gargalo fundamental para a inferência de alto rendimento. Embora os modelos de linguagem de difusão tentem romper essa barreira por meio da geração paralela, eles sofrem de degradação significativa de desempenho, altos custos de treinamento e falta de garantias rigorosas de convergência. O Orthrus resolve essa dicotomia de forma nativa. Projetado para integrar-se perfeitamente aos Transformers existentes, o framework aumenta um LLM congelado com um módulo leve e treinável, criando uma visão de difusão paralela junto à visão autorregressiva padrão. Neste sistema unificado, ambas as visões atendem ao mesmo cache de Chave-Valor (KV) de alta fidelidade; a cabeça autorregressiva executa o pré-preenchimento de contexto para construir representações KV precisas, enquanto a cabeça de difusão executa a geração paralela. Ao empregar um mecanismo de consenso exato entre as duas visões, o Orthrus garante inferência sem perdas, fornecendo uma aceleração de até 7,8x com apenas uma sobrecarga de cache de memória O(1) e adições mínimas de parâmetros.
Os conjuntos de dados de preferência existentes para modelos texto-imagem normalmente armazenam apenas as imagens vencedoras/perdedoras finais. Essa representação é insuficiente para modelos de fluxo retificado (RF), cuja geração é naturalmente indexada por uma amostra específica de ruído anterior e segue uma trajetória de denoising quase reta. Em contraste, o alinhamento no estilo DPO para modelos de difusão comumente estima trajetórias usando um processo de adição de ruído direto independente, que pode ser mal ajustado às dinâmicas reversas verdadeiras e introduz variância desnecessária. Propomos a Otimização de Preferência Ciente do Ruído Anterior (PNAPO), uma estrutura de alinhamento off-policy especializada para fluxo retificado. A PNAPO aumenta os dados de preferência ao reter os ruídos anteriores emparelhados usados para gerar cada imagem vencedora/perdedora, transformando o trio padrão (prompt, vencedor, perdedor) em uma sextupla. Aproveitando a propriedade de linha reta do RF, estimamos estados intermediários via interpolação ruído-imagem, o que restringe o espaço de estimativa de trajetória e produz um objetivo substituto mais restrito para otimização de preferência. Além disso, introduzimos uma estratégia de regularização dinâmica que adapta a regularização DPO com base (i) na diferença de recompensa entre vencedor e perdedor e (ii) no progresso do treinamento, melhorando a estabilidade e a eficiência amostral. Experimentos em backbones RF T2I de última geração mostram que a PNAPO melhora consistentemente as métricas de preferência enquanto reduz substancialmente o custo computacional de treinamento.
Unidades de terapia intensiva (UTI) geram fluxos longos, densos e evolutivos de informações clínicas, onde médicos precisam reavaliar repetidamente o estado dos pacientes sob pressão de tempo, evidenciando uma clara necessidade de suporte decisório confiável baseado em IA. Os benchmarks existentes para UTI geralmente tratam ações históricas dos clínicos como padrão ouro. No entanto, essas ações são tomadas com informações incompletas e contexto temporal limitado do estado subjacente do paciente, podendo, portanto, ser subótimas, dificultando a avaliação das reais capacidades de raciocínio dos sistemas de IA. Apresentamos o RealICU, um benchmark com anotações retrospectivas para avaliar grandes modelos de linguagem (LLMs) em condições realistas de UTI, onde os rótulos são criados após médicos seniores revisarem toda a trajetória do paciente. Definimos quatro tarefas motivadas por médicos: Avaliar Estado do Paciente, Problemas Agudos, Ações Recomendadas e ações de Alerta Vermelho que acarretam riscos de desfechos inseguros. Particionamos cada trajetória em janelas de 30 minutos e disponibilizamos dois conjuntos de dados: RealICU-Gold, com 930 anotações de janelas de 94 pacientes do MIMIC-IV, e RealICU-Scale, com 11.862 janelas estendidas pelo Oracle, um rotulador retrospectivo de LLM validado por médicos. Os LLMs existentes, incluindo aqueles com memória aumentada, tiveram desempenho insatisfatório no RealICU, expondo dois modos de falha: um trade-off entre recordação e segurança para recomendações clínicas, e um viés de ancoragem a interpretações precoces do paciente. Introduzimos ainda o ICU-Evo para estudar agentes com memória estruturada que melhora o raciocínio de longo horizonte, mas não elimina completamente as falhas de segurança. Em conjunto, o RealICU fornece uma plataforma de testes clinicamente fundamentada para medir e aprimorar o suporte decisório sequencial de IA em cuidados de alto risco. Página do projeto: https://chengzhi-leo.github.io/RealICU-Bench/
A escalabilidade da manipulação robótica é fundamentalmente limitada pela escassez de dados de interação física alinhados à tarefa. Embora modelos de visão-linguagem (VLMs) e modelos de geração de vídeo (VGMs) sejam promissores para a síntese autônoma de dados, eles sofrem de desalinhamento semântico-espacial e alucinações físicas, respectivamente. Para superar essa lacuna, apresentamos o RoboEvolve, uma nova estrutura que acopla um planejador VLM e um simulador VGM em um ciclo coevolutivo mutuamente reforçador. Operando exclusivamente a partir de imagens semente não rotuladas, o RoboEvolve utiliza um mecanismo de fase dupla inspirado na cognição: (i) exploração diurna promove a descoberta comportamental fundamentada fisicamente por meio de uma recompensa multigranular controlada semanticamente, e (ii) consolidação noturna extrai falhas por pouco para estabilizar a otimização da política. Guiado por um currículo progressivo autônomo, o sistema escala naturalmente de ações atômicas simples para tarefas complexas. Experimentos extensivos demonstram que o RoboEvolve (I) alcança eficácia superior, elevando planejadores base em 30 pontos absolutos e ampliando o sucesso do simulador em 48% em média; (II) exibe extrema eficiência de dados, superando linhas de base totalmente supervisionadas com apenas 500 sementes não rotuladas—uma redução de 50 vezes; e (III) demonstra aprendizado contínuo robusto sem esquecimento catastrófico.
Retrospectivas de competição são úteis quando explicam o que um ranking mediu, como a avaliação oculta alterou as conclusões e quais padrões de projeto foram recompensados. Revisitamos o desafio CODS 2025, uma competição Codabench com foco em privacidade sobre orquestração multiagente industrial, construída sobre . Combinamos folhas de classificação finais, um log do servidor com 300 submissões, 149 inscrições de equipes, exportações das melhores submissões, o relatório dos vencedores feito pelos organizadores, o artigo complementar do sistema e as árvores de origem verificadas da trilha de planejamento. Cinco resultados se destacam. Primeiro, o ranking público de planejamento satura em 72,73%, e prompts mais ricos não melhoram esse pico. Segundo, a avaliação oculta muda a história: as pontuações pública e privada correlacionam-se moderadamente no planejamento (r=0,69), mas negativamente na execução (r=-0,13), com vários sistemas de execução com 45,45% públicos alcançando 63,64% no conjunto oculto. Terceiro, o termo é numericamente quase inerte no composto oficial — combinado em uma escala de 0 a 1 com pontuações percentuais de 0 a 100, contribui com no máximo 0,05 pontos por trilha, e uma reescalagem trocaria as duas primeiras equipes. Quarto, a competição é operacionalmente baseada em contas, mas substancialmente baseada em equipes: 149 equipes registradas reduzem-se a 24 com pontuações públicas não nulas e 11 totalmente classificadas, enquanto 52,3% das inscrições deduplicadas listam múltiplos nomes de usuário. Quinto, métodos de execução bem-sucedidos melhoram principalmente salvaguardas — seleção de resposta, limpeza de contaminação, fallback e controle de contexto — em vez de arquiteturas de agente inovadoras. Esses resultados identificam quais comportamentos foram recompensados pela avaliação e motivam compostos cientes de escala, diagnósticos de nível de habilidade e liberação de artefatos versionados.
Agentes LM de longo horizonte aprendem a partir de interações em múltiplas rodadas, onde um único erro inicial pode alterar a distribuição de estados subsequente e comprometer toda a trajetória. As abordagens existentes apresentam limitações de forma complementar: o ajuste fino supervisionado fornece supervisão densa do professor, mas sofre de mudança de covariável por ser treinado em trajetórias do professor fora da política; enquanto o aprendizado por reforço com recompensas verificáveis evita esse desalinhamento fora da política ao aprender a partir de trajetórias geradas na política, porém com apenas feedback esparso de resultado. Abordamos esse dilema revisitando a Agregação de Conjuntos de Dados (DAgger) para agentes LM de múltiplas rodadas: o algoritmo coleta trajetórias por meio de uma interpolação no nível de rodada entre as políticas do aluno e do professor, e o aluno é então treinado nessas trajetórias usando rótulos supervisionados fornecidos pelo professor. Ao interagir diretamente com os ambientes, expomos o modelo a estados realistas que provavelmente serão encontrados durante a implantação, mitigando assim a mudança de covariável de forma eficaz. Além disso, como o aluno é aprendido imitando o comportamento do professor, ele recebe feedback rico durante o aprendizado. Para demonstrar que o DAgger reúne os benefícios de ambos os mundos, testamos o algoritmo para treinar um agente de engenharia de software com modelos aluno de escala 4B e 8B. No SWE-bench Verified, nosso treinamento no estilo DAgger melhora a linha de base de pós-treinamento mais forte em +3,9 pontos para 4B e +3,6 pontos para 8B. O agente de 4B resultante atinge 27,3%, superando sistemas representativos publicados de agente SWE de 8B, enquanto o agente de 8B alcança 29,8%, ultrapassando o SWE-Gym-32B e ficando a menos de 5 pontos de agentes de escala 32B mais fortes. Junto com ganhos consistentes na divisão retida do SWE-Gym, esses resultados sugerem a eficácia do DAgger para agentes LM modernos de longo horizonte.
Grandes modelos de raciocínio, como o OpenAI o1 e o DeepSeek-R1, tendem a se tornar cada vez mais verbosos à medida que suas capacidades de raciocínio melhoram. Essas trajetórias infladas de Cadeia de Pensamento (CoT) frequentemente excedem o que os problemas subjacentes exigem, desperdiçando recursos computacionais, latência e orçamentos de contexto. Embora a introdução de recompensas de eficiência baseadas em comprimento durante o aprendizado por reforço ofereça um remédio natural, os métodos existentes enfrentam dois desafios fundamentais: o equilíbrio ideal entre correção e eficiência é não estacionário ao longo do treinamento, e os orçamentos de raciocínio intrínsecos variam drasticamente entre os problemas. Depender de pesos de recompensa estáticos e restrições globais de comprimento inevitavelmente força um compromisso entre precisão degradada e compressão não realizada. Para superar essas limitações, propomos LEAD (Raciocínio Adaptativo e Dinâmico com Eficiência de Comprimento), um método que substitui heurísticas estáticas por mecanismos adaptativos online. O LEAD calibra dinamicamente o trade-off entre correção e eficiência a cada passo usando uma Instabilidade Escalonada por Potencial, direcionando a capacidade de otimização para o sinal de aprendizado mais informativo. Além disso, estima online um comprimento alvo adaptativo por problema com base nas próprias trajetórias corretas do modelo, aplicando uma recompensa de eficiência simétrica que penaliza tanto o excesso de pensamento quanto a compressão excessiva. Avaliado em cinco benchmarks de raciocínio matemático, o LEAD alcança a maior precisão e Pontuação de Precisão-Eficiência entre métodos de raciocínio eficiente treinados por RL, ao mesmo tempo que produz saídas substancialmente mais curtas que o modelo base.
A fusão de modelos combina especialistas em tarefas em um único modelo e evita treinamento conjunto, retreinamento ou implantação de vários modelos especialistas, mas o modelo fundido ainda frequentemente apresenta desempenho inferior aos especialistas em tarefas. Estudamos essa lacuna de desempenho através do desvio de características, a diferença entre as características produzidas pelo modelo fundido e pelo especialista na mesma entrada. Nossa teoria decompõe esse desvio em propagação a montante e incompatibilidade local, rastreia como ele se propaga e combina através das camadas posteriores em ordem direta, e vincula o desvio final de características ao desvio de saída. Essa visão motiva o FeatCal, que utiliza um pequeno conjunto de calibração para calibrar os pesos do modelo fundido camada por camada em ordem direta, reduzindo o desvio de características enquanto se mantém próximo aos pesos fundidos e preserva os benefícios da fusão de modelos. O FeatCal utiliza uma solução eficiente de forma fechada para atualizar os pesos do modelo, sem descida de gradiente, otimização iterativa ou módulos extras. Nos principais benchmarks CLIP e GLUE, o FeatCal supera o Surgery e o ProbSurgery, as linhas de base de calibração pós-fusão mais próximas: 85,5% vs. 77,0%/78,8% no CLIP-ViT-B/32 Task Arithmetic (TA) e 85,2% vs. 83,7%/82,2% no FLAN-T5-base GLUE. No CLIP-ViT-B/32, 8 exemplos por tarefa atingem 82,9%, e 256 exemplos por tarefa levam 53 segundos, cerca de 4 vezes mais rápido que ambas as linhas de base, mostrando melhor eficiência de amostragem e menor custo de calibração.
Os agentes LLM interativos atuais dependem de planejamento passo a passo condicionado a objetivos, onde a compreensão do ambiente é adquirida de forma reativa durante a execução, em vez de estabelecida previamente. Essa inversão temporal leva à Percepção Ambiental Atrasada: os agentes devem inferir restrições ambientais por tentativa e erro, resultando em um Gargalo Epistêmico que os aprisiona em ciclos ineficientes de falha. Inspirados pela percepção de affordances e pela teoria do mapa cognitivo humanos, propomos o Paradigma Mapear-depois-Agir (MAP), uma estrutura plug-and-play que desloca a compreensão do ambiente para antes da execução. O MAP consiste em três estágios: (1) Exploração Global, adquirindo priores gerais do ambiente; (2) Mapeamento Específico da Tarefa, construindo um mapa cognitivo estruturado; e (3) Execução Aumentada por Conhecimento, resolvendo tarefas fundamentadas no mapa. Experimentos mostram ganhos consistentes em benchmarks e LLMs. No ARC-AGI-3, o MAP permite que modelos de fronteira superem o desempenho de linha de base próximo de zero em 22 dos 25 ambientes de jogo. Apresentamos ainda o MAP-2K, um conjunto de dados de trajetórias mapear-depois-agir, e mostramos que o treinamento nele supera os traços de execução especializada, sugerindo que compreender ambientes é mais fundamental do que a imitação.
A maioria dos modelos de linguagem de grande escala (LLMs) existentes é cara de adaptar após a implantação, especialmente quando uma tarefa requer informações recém-produzidas ou conhecimento de domínio específico. Trabalhos recentes mostraram que, manipulando e otimizando seu contexto, os LLMs podem ser adaptados a tarefas downstream sem atualizar seus pesos. No entanto, a maioria dos métodos existentes permanece em circuito fechado, dependendo exclusivamente do conhecimento intrínseco do modelo. Neste artigo, equipamos esses otimizadores de contexto com ferramentas de pesquisa na Wikipedia e navegador para busca ativa de informações. Mostramos que adicionar essas ferramentas de forma ingênua a um pipeline sequencial padrão de otimização de contexto pode, na verdade, degradar o desempenho em comparação com as linhas de base. No entanto, quando combinado com um procedimento de treinamento baseado em busca que mantém e poda múltiplos contextos candidatos, a busca ativa de informações proporciona ganhos consistentes e substanciais. Demonstramos essas melhorias em diversos domínios, incluindo tradução com poucos recursos (Flores+), cenários de saúde (HealthBench) e tarefas de alto raciocínio (LiveCodeBench e Humanity's Last Exam). Além disso, nosso método se mostra eficiente em termos de dados, robusto diante de diferentes hiperparâmetros e capaz de gerar contextos textuais eficazes que se generalizam bem entre diferentes modelos.
A autenticação contínua em ambientes digitais de alto risco requer conjuntos de dados com sinais comportamentais de alta granularidade sob demandas cognitivas e motoras realistas. No entanto, os benchmarks atuais são frequentemente limitados por escalas reduzidas, sensoriamento unimodal ou falta de contexto ambiental sincronizado. Para preencher essa lacuna, este artigo apresenta o BEACON (*Behavioral Engine for Authentication & Continuous Monitoring*), um conjunto de dados multimodal em larga escala que captura diversos níveis de habilidade em partidas competitivas de Valorant. O BEACON contém aproximadamente 430 GB de dados modais sincronizados (461 GB totais em disco, incluindo capturas auxiliares de configuração do Valorant) provenientes de 79 sessões com 28 jogadores distintos, estimados em 102,51 horas de jogo ativo, incluindo dinâmica de mouse em alta frequência, eventos de teclado, capturas de pacotes de rede, gravações de tela, metadados de hardware e contexto de configuração do jogo. O BEACON aproveita as habilidades motoras de alta precisão e a alta carga cognitiva inerentes aos jogos de tiro tático, tornando-se um teste de estresse rigoroso para a robustez da biometria comportamental. O conjunto de dados permite o estudo de autenticação contínua, perfilamento comportamental, deriva do usuário e aprendizado de representação multimodal em um ambiente de esportes eletrônicos de alta fidelidade. Os autores disponibilizam o conjunto de dados e o código no Hugging Face e no GitHub para criar um benchmark reproduzível para a avaliação de modelos de impressão digital comportamental e segurança de próxima geração.
A geração aumentada por recuperação (RAG) normalmente trata recuperação e geração como sistemas separados. Investigamos se um codificador-decodificador baseado em atenção pode, em vez disso, recuperar diretamente de suas próprias representações internas. Apresentamos o INTRA (Recuperação INTrínseca via Atenção), uma estrutura onde consultas de atenção do decodificador pontuam fragmentos de evidência pré-codificados que são então reutilizados diretamente como contexto para a geração. Por construção, o INTRA unifica recuperação e geração, eliminando a incompatibilidade entre recuperador e gerador típica de pipelines RAG. Esse design também amortiza a codificação de contexto ao reutilizar estados do codificador pré-computados entre consultas. Em benchmarks de resposta a perguntas, o INTRA supera pipelines de recuperação fortemente projetados tanto na recuperação de evidências quanto na qualidade final das respostas de ponta a ponta. Nossos resultados demonstram que modelos baseados em atenção já possuem um mecanismo de recuperação que pode ser suscitado, em vez de adicionado como um módulo externo.
A avaliação de agentes de engenharia de software (SWE) é dominada por um sinal binário: se o patch final passa nos testes. Essa visão exclusiva dos resultados trata uma solução baseada em princípios e um processo caótico de tentativa e erro como equivalentes. Mostramos que essa equivalência é empiricamente falsa. Avaliamos 2.614 trajetórias do OpenHands provenientes de oito backends de modelos em 60 tarefas do SWE-bench Verified. Destas, 47 possuem trajetórias bem-sucedidas suficientes para construir referências de processo em nível de tarefa, resultando em um subconjunto de avaliação de 1.815 trajetórias. Entre as trajetórias bem-sucedidas desse subconjunto, 10,7% exibem um comportamento que denominamos Passagem de Sorte (Lucky Pass): ciclos de regressão, tentativas cegas, falta de verificação ou exploração, implementação e verificação temporalmente desordenadas. Apresentamos o AgentLens, uma estrutura para avaliação em nível de processo de trajetórias de agentes SWE, e disponibilizamos o AgentLens-Bench, um conjunto de dados de 1.815 trajetórias anotadas com pontuações de qualidade, sinais de desperdício, pontos de divergência e 47 referências de Acetor de Árvore de Prefixos (PTA) em nível de tarefa. O AgentLens constrói referências PTA mesclando múltiplas soluções bem-sucedidas para a mesma tarefa e utiliza um rotulador de intenções sensível ao contexto para atribuir ações a Exploração, Implementação, Verificação ou Orquestração com base no histórico da trajetória, e não apenas na identidade da ferramenta. No AgentLens-Bench, a pontuação de qualidade separa as trajetórias bem-sucedidas em níveis Sortudo (Lucky), Sólido (Solid) e Ideal (Ideal), e ainda decompõe as Passagens de Sorte em cinco mecanismos recorrentes. Entre os oito backends de modelos, as taxas de sorte variam de 0,5% a 23,2%, e alguns modelos se movem em até cinco posições no ranking quando classificados pela pontuação de qualidade em vez da taxa de aprovação. Disponibilizamos o repositório anonimizado do projeto, incluindo o conjunto de dados AgentLens-Bench e o SDK do AgentLens, em https://github.com/microsoft/code-agent-state-trajectories/.
Modelos de linguagem multimodal de grande escala (MLLMs) são agora rotineiramente implantados para compreensão, geração e curadoria visual. Uma fração substancial dessas aplicações exige um julgamento estético explícito. A maioria das soluções existentes reduz esse julgamento à previsão de uma pontuação escalar para uma única imagem. Primeiramente, perguntamos se tais pontuações capturam fielmente a preferência comparativa: em um estudo controlado com oito anotadores especialistas, as classificações derivadas das pontuações se alinham mal com as comparações diretas dos mesmos anotadores, enquanto a classificação direta produz uma concordância interanotadores substancialmente maior nos rótulos de melhor e pior imagem. Motivados por essa descoberta, introduzimos o Referencial de Estética Visual (VAB), que formula a avaliação estética como uma seleção comparativa sobre conjuntos candidatos com assunto correspondente. O VAB contém 400 tarefas e 1.195 imagens abrangendo belas artes, fotografia e ilustração, com rótulos derivados do consenso de 10 juízes especialistas independentes por tarefa. Avaliando 20 MLLMs de ponta e seis modelos de recompensa de qualidade visual dedicados, descobrimos que o sistema mais forte identifica corretamente tanto a melhor quanto a pior imagem em três permutações aleatórias da ordem dos candidatos em apenas 26,5% das tarefas, muito abaixo dos 68,9% alcançados por especialistas humanos. O ajuste fino de um modelo de 35 bilhões de parâmetros em 2.000 exemplos especialistas aproxima sua precisão da de um modelo de pesos abertos de 397 bilhões de parâmetros, sugerindo que o sinal comparativo no VAB é transferível. Em conjunto, esses resultados expõem uma lacuna clara e mensurável entre os modelos multimodais atuais e o julgamento estético especializado, e o VAB fornece o primeiro ambiente de teste baseado em conjuntos e fundamentado em especialistas no qual essa lacuna pode ser rastreada e fechada.
A inferência de LLMs ainda é avaliada principalmente como um problema de modelo ou software: acurácia, latência, throughput e utilização de hardware. Isso é incompleto. Em escala de implantação, a saída relevante é um token condicionado à qualidade, produzido sob restrições conjuntas de poder computacional efetivo, energia elétrica fornecida ao datacenter, capacidade de refrigeração, PUE e utilização. Argumentamos que a comunidade de ML deveria tratar a inferência como produção de energia-para-token. Formalizamos essa visão com uma Função de Produção de Tokens dimensionalmente consistente, na qual a taxa de tokens é limitada tanto por tetos de computação-por-token quanto de energia-por-token. Os preços de API listados variam por mais de uma ordem de grandeza entre provedores, mas usamos a dispersão de preços apenas como motivação direcional, não como evidência causal de custo marginal. A questão física central é, em vez disso: sob metas fixas de qualidade e serviço, quando a restrição limitante se desloca do pico de computação teórico para a energia elétrica fornecida, a refrigeração e a eficiência operacional? Sob esse enquadramento, otimizações de sistema – compressão latente de cache KV, atenção esparsa ou fortemente comprimida, quantização, roteamento e raciocínio adaptativo à dificuldade – não são meros truques locais de engenharia. Elas são alavancas de energia-para-token, pois reduzem FLOPs/token, joules/token, tráfego de memória ou perdas de utilização sob parâmetros fixos (q^{*}, s^{*}). Portanto, solicitamos que artigos e benchmarks sobre inferência reportem Joules/token, restrição limitante ativa, potência fornecida ajustada por PUE e saída de tokens ajustada por utilização, juntamente com acurácia e latência.
O ajuste fino de modelos ASR multilíngues como o Whisper para idiomas de baixos recursos frequentemente melhora a fala lida, mas degrada o desempenho em áudio espontâneo, fenômeno que denominamos viés de estúdio (studio-bias). Para diagnosticar essa incompatibilidade, apresentamos o Vividh-ASR, um benchmark estratificado por complexidade para hindi e malaiala em quatro níveis: estúdio, transmissão, espontâneo e ruído sintético. Por meio de um estudo controlado do timing da taxa de aprendizado e da ordenação do currículo, descobrimos que atualizações iniciais grandes dos parâmetros melhoram a WER global em 12 pontos absolutos, enquanto um currículo do difícil para o fácil adiciona ganhos para a fala espontânea. Essas descobertas motivam o ajuste fino reverso em múltiplos estágios (R-MFT), uma receita de treinamento que permite que um modelo Whisper de 244M parâmetros, eficiente em termos de parâmetros, iguale ou supere seus equivalentes de 769M ajustados convencionalmente. A análise representacional via CKA e SVD revela que cronogramas eficazes concentram a adaptação no decodificador, preservando a geometria acústica do codificador pré-treinado. Disponibilizamos o benchmark e os modelos.
Para lidar com tarefas de raciocínio em contextos longos sem a complexidade quadrática dos mecanismos de atenção padrão, surgiram abordagens baseadas em memória do agente, que tipicamente mantêm uma memória atualizada dinamicamente ao processar linearmente segmentos de documentos. Para mitigar a potencial perda de evidências latentes nesse paradigma de ler-enquanto-memoriza, trabalhos recentes integraram módulos de recuperação que permitem que agentes relembrem informações previamente descartadas durante a sobrescrita da memória. No entanto, a recuperação baseada em busca sofre tanto da perda de evidências durante a formação da memória quanto da interferência induzida por consultas inválidas. Para superar essas limitações, propomos o MemReread. Baseado na leitura em fluxo contínuo, o MemReread evita recuperações intermediárias. Ele aciona a decomposição de perguntas e a releitura quando a memória final é insuficiente, permitindo a recuperação de fatos indiretos que foram prematuramente descartados. Esse design suporta raciocínio não linear, preservando ao mesmo tempo o fluxo lógico inerente à compreensão do documento. Para aumentar ainda mais a praticidade, introduzimos uma estrutura de aprendizado por reforço que aprimora a capacidade de extrapolação de comprimento, enquanto determina dinamicamente o número de passagens de releitura com base na complexidade da tarefa, controlando assim de forma flexível o custo computacional. Experimentos extensivos demonstram que o MemReread supera consistentemente as estruturas de referência em tarefas de raciocínio em contextos longos, mantendo complexidade temporal linear em relação ao comprimento do contexto.
A destilação on-policy (OPD) é amplamente utilizada no pós-treinamento de LLMs. Quando impulsionada com um coeficiente de extrapolação de recompensa λ > 1, o estudante pode superar o professor em domínio, mas, acima de um limiar λ*, o mesmo passo viola o contrato de saída em tarefas de saída estruturada. Em uma redução de Bernoulli de posição única, derivamos um limite de segurança de clip relativo à base em forma fechada λ*(p,b,c) determinado por três grandezas mensuráveis: a probabilidade modal do professor, a massa de warm-start e a força de clip de amostragem por importância. Acima de λ*, o ponto fixo extrapolado sai da região segura de clip, alterando o treinamento de preservação de formato para colapso de formato. Estendemos a regra para tarefas JSON listwise K-árias calibradas, onde uma única classe de equivalência de vinculação domina o contrato de saída e a SFT retém margem de parsing. Na Amazon Fashion, três testes pré-registrados—um intervalo de cliff de grade fina, um teste de extensão de orçamento e uma predição cruzada de clip pequeno—situam-se dentro de suas janelas de predição travadas, com o valor de clip pequeno correspondendo à predição em forma fechada abaixo da resolução da grade. Operando logo abaixo de λ*, o ListOPD leva um estudante Qwen3 de 1,7B à paridade no domínio com uma linha de base de SFT de 8B com um quinto dos parâmetros. O ganho é impulsionado principalmente pela adesão ao formato: o NDCG@1 nas saídas analisadas permanece estável ao longo de λ, enquanto a validade de parsing muda bruscamente no limite previsto. O diagnóstico de cliff é independente de rubrica, enquanto a afirmação de paridade utiliza uma rubrica avaliada pelo Gemini e herda a exposição desse avaliador.
A adaptação eficiente em parâmetros de modelos de visão pré-treinados é comumente realizada por meio de sondas lineares, prompts, atualizações de baixo posto ou módulos residuais leves. Embora eficazes, esses métodos geralmente tratam a adaptação como uma perturbação euclidiana discreta de representações congeladas, sem modelar explicitamente a geometria do deslocamento de características induzido pela tarefa. Propomos MC-RFM, uma estrutura de correspondência de fluxo riemanniano de curvatura mista para adaptação de poucos exemplos de backbones visuais congelados. A ideia central é representar características adaptadas em uma variedade produto combinando um fator hiperbólico, que captura estrutura semântica sensível à hierarquia, e um fator euclidiano, que preserva variação visual localmente discriminativa. A adaptação é formulada como um transporte contínuo condicionado à tarefa desde características congeladas até protótipos do conjunto de suporte, treinado com um objetivo de correspondência de fluxo e acoplado a um classificador híbrido protótipo-linear. O método é leve, independente do backbone e opera inteiramente em características congeladas armazenadas em cache. Em sete benchmarks de reconhecimento visual, cinco backbones congelados e regimes de 1/4/16 exemplos, o MC-RFM é o método com melhor desempenho na maioria das configurações avaliadas, com os maiores ganhos em backbones Transformer e conjuntos de dados de granulação fina. Estudos de ablação mostram que a cabeça de curvatura mista, o condicionamento da tarefa, o controle adaptativo de ramos, a contração de protótipos e a supervisão discriminativa contribuem para o desempenho. Esses resultados sugerem que a adaptação de poucos exemplos se beneficia não apenas de decidir quais parâmetros atualizar, mas também de modelar como as representações devem se mover através de uma geometria compatível com a estrutura da tarefa downstream.
Adaptar modelos pré-treinados geralmente envolve um compromisso entre os altos custos de treinamento da retropropagação e a pesada sobrecarga de inferência de métodos baseados em memória ou aprendizado em contexto. Propomos o FAAST, um método de adaptação associativa apenas direto que compila analiticamente exemplos rotulados em pesos rápidos em uma única passada. Ao eliminar a dependência de memória ou contexto, o FAAST alcança inferência em tempo constante e desacopla a adaptação da tarefa da representação pré-treinada. Em benchmarks de classificação de imagens e modelagem de linguagem, o FAAST iguala ou supera a adaptação baseada em retropropagação, reduzindo o tempo de adaptação em mais de 90%, e é competitivo com a adaptação baseada em memória/contexto, economizando até 95% do uso de memória. Esses resultados demonstram que o FAAST é uma solução altamente eficiente e escalável para adaptação supervisionada de tarefas, especialmente para modelos com recursos limitados. Disponibilizamos o código e os modelos em https://github.com/baoguangsheng/faast.
Apresentamos o PersonalAI 2.0 (PAI-2), uma nova estrutura projetada para melhorar sistemas baseados em modelos de linguagem de grande escala (LLM) por meio da integração de grafos de conhecimento (KG) externos. A abordagem proposta aborda as principais limitações dos métodos existentes de Geração Aumentada por Recuperação em Grafos (GraphRAG) ao incorporar um pipeline dinâmico e multietapas de processamento de consultas. O ponto central do design do PAI-2 é sua capacidade de realizar busca adaptativa e iterativa de informações, guiada por entidades extraídas, vértices do grafo correspondentes e consultas-pista geradas. A avaliação realizada em seis benchmarks (Natural Questions, TriviaQA, HotpotQA, 2WikiMultihopQA, MuSiQue e DiaASQ) demonstra melhora na correção factual das respostas geradas em comparação com métodos análogos (LightRAG, RAPTOR e HippoRAG 2). O PAI-2 obtém um ganho médio de 4% pelo LLM-como-avaliador em quatro benchmarks, refletindo sua eficácia na redução das taxas de alucinação e no aumento da precisão. Mostramos que o uso de algoritmos de travessia de grafo (ex.: BeamSearch, WaterCircles) obtém resultados superiores em média 6% em comparação com o recuperador linear padrão, enquanto o mecanismo de aprimoramento do plano de busca habilitado proporciona um aumento de 18% em comparação com o desabilitado, conforme avaliado pelo LLM-como-avaliador em seis conjuntos de dados. Além disso, o estudo de ablação revela que o PAI-2 atinge o resultado de estado da arte no benchmark MINE-1, alcançando 89% de pontuação de retenção de informações, utilizando LLMs das camadas de 7 a 14 bilhões de parâmetros. Coletivamente, esses achados destacam o potencial do PAI-2 para servir como modelo fundamental para aplicações de IA personalizadas de próxima geração, que exigem representação de conhecimento escalável e consciente do contexto, bem como capacidades de raciocínio.
A maioria dos sistemas de diálogo médico existentes opera em um paradigma de pergunta-resposta de turno único ou depende de conjuntos de dados baseados em modelos, limitando o realismo conversacional e a aplicabilidade multilíngue. Apresentamos o IndicMedDialog, um conjunto de dados paralelo de diálogos médicos com múltiplos turnos, abrangendo o inglês e nove línguas índicas: Assamês, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tâmil, Telugu e Urdu. O conjunto de dados estende o MDDial com consultas sintéticas geradas por LLM, traduzidas usando o TranslateGemma, verificadas por falantes nativos e refinadas por meio de um pipeline de pós-processamento ciente de roteiro para corrigir erros fonéticos, lexicais e de espaçamento de caracteres. Com base nesse conjunto de dados, ajustamos o IndicMedLM por meio de adaptação eficiente em parâmetros de um modelo de linguagem pequeno quantizado, incorporando pré-contexto opcional do paciente para personalizar a elicitação de sintomas em múltiplos turnos. Avaliamos em relação a baselines multilíngues zero-shot, realizamos análise sistemática de erros em dez línguas e validamos a plausibilidade clínica por meio de avaliação de especialistas médicos.
Modelos de linguagem de grande escala são cada vez mais utilizados na redação científica, mas podem fabricar referências com formato de citação que parecem plausíveis, porém falham na verificação bibliográfica. Detectores existentes frequentemente reduzem a verificação a decisões binárias de encontrado/não encontrado e dependem de análise sintática frágil ou recuperação incompleta, oferecendo pouco sinal em nível de campo para auditores. Reenquadramos a detecção de alucinação de citação como um julgamento em nível de campo alinhado a uma taxonomia e introduzimos uma taxonomia de 12 códigos abrangendo citações Reais, Potenciais e Alucinadas. Com base nessa taxonomia, construímos o CiteTracer, um detector multiagente em cascata que extrai citações estruturadas de PDF e BibTeX, recupera evidências por meio de consulta em cache, busca de URL, conectores acadêmicos e pesquisa na web, aplica correspondência determinística de campos e encaminha casos ambíguos para julgadores especialistas em classes. Disponibilizamos um benchmark de 2.450 citações sintéticas construídas a partir de sementes reais com mutações controladas de LLM, combinadas com 957 citações fabricadas do mundo real extraídas do ICLR 2026 e de submissões rejeitadas na mesa de uma conferência anônima. O CiteTracer atinge 97,1% de acurácia no benchmark sintético, com pontuações F1 por classe de 97,0, 95,8 e 98,5 para Real, Potencial e Alucinada, respectivamente, e detecta 97,1% das fabricações no conjunto do mundo real sem se abster. Código: https://github.com/aaFrostnova/CiteTracer.
Pipelines tradicionais de recuperação otimizam a utilidade através de estágios de recuperação de candidatos e reordenação, onde a classificação opera sobre um conjunto predefinido de candidatos. Modelos de Linguagem de Grande Escala (LLMs) ampliam isso para um processo generativo: dado um conjunto de candidatos, um LLM pode gerar um subconjunto e ordená-lo em uma única passagem autorregressiva. No entanto, essa flexibilidade introduz um novo desafio de otimização: o modelo deve buscar um espaço de saída combinatório enquanto recebe feedback de utilidade somente após a lista ordenada completa ser gerada. Como esse feedback é definido sobre a sequência concluída, ele não consegue distinguir se um resultado ruim decorre da falha em gerar um subconjunto relevante ou da falha em ordenar esse subconjunto corretamente. Essa lacuna de atribuição de crédito torna a otimização fim a fim instável e ineficiente em termos de amostras. Sistemas existentes frequentemente lidam com isso separando a geração de candidatos da reordenação. No entanto, tal desacoplamento permanece desalinhado com a utilidade downstream, pois a reordenação é limitada pelo conjunto de candidatos que recebe. Para preencher essa lacuna, propomos uma estrutura unificada que realiza ambas dentro de uma única passagem autorregressiva e as otimiza fim a fim por meio da otimização de política relativa a grupos fatorada (F-GRPO). Nossa estrutura decompõe a política em geração de candidatos e reordenação, enquanto compartilha um único backbone LLM, e as treina conjuntamente com uma recompensa de cobertura invariante à ordem e uma recompensa de utilidade sensível à posição. Para lidar com o problema de atribuição de crédito específico de fase resultante, utilizamos vantagens relativas a grupos separadas para geração e reordenação dentro de um objetivo de nível de sequência em duas fases. Em benchmarks de recomendação sequencial e perguntas e respostas com múltiplos saltos, o F-GRPO melhora o desempenho dos principais resultados em relação ao GRPO e às bases de referência desacopladas, supera alternativas supervisionadas e permanece competitivo com fortes reordenadores zero-shot, sem nenhuma alteração arquitetônica no momento da inferência.
Dado um modelo generalista, aprender uma representação especialista relevante para a tarefa é fundamental para aplicações downstream. A identificabilidade, a garantia assintótica de recuperar a representação verdadeira, é crítica porque estabelece o limite último de qualquer modelo, mesmo com dados e computação infinitos. Estudamos este problema em um ambiente completamente não paramétrico, sem depender de intervenções, formas paramétricas ou restrições estruturais. Primeiro, provamos que a estrutura entre passos temporais e tarefas é identificável de forma totalmente não supervisionada, mesmo quando as sequências carecem de dependência temporal estrita e podem exibir desconexões, e as atribuições de tarefas podem seguir estruturas arbitrariamente complexas e intercaladas. Em seguida, provamos que, dentro de cada passo temporal, a representação latente relevante para a tarefa pode ser separada da parte irrelevante sob uma simples regularização de esparsidade, sem qualquer informação adicional ou restrições paramétricas. Juntos, esses resultados estabelecem uma base hierárquica: a estrutura da tarefa é identificável através dos passos temporais, e as representações latentes relevantes para a tarefa são identificáveis dentro de cada passo. Até onde sabemos, cada resultado fornece uma primeira garantia geral de identificabilidade não paramétrica e, juntos, representam um passo em direção à transição comprovável de modelos generalistas para especialistas.
Operadores neurais aprendem a mapear condições iniciais para a solução terminal de equações diferenciais parciais (EDPs), fornecendo um substituto para o mapeamento completo do operador. Isso possibilita a previsão rápida em diferentes configurações de entrada. Embora arquiteturas recentes de operadores neurais tenham demonstrado forte desempenho em diversas tarefas envolvendo EDPs, seu comportamento sob desvios estruturados na distribuição ainda é insuficientemente compreendido. Para investigar isso, estudamos o aprendizado de operadores em um contexto de propagação de ondas regido por uma equação de onda unidimensional com coeficientes variáveis, utilizando duas arquiteturas representativas: o Operador Neural de Fourier (FNO) e a Rede de Operadores Profunda (DeepONet). Para examinar sua generalização sob desvios na distribuição, consideramos cenários estruturados fora da distribuição (OOD) que variam independentemente a frequência de entrada e a suavidade dos coeficientes. Os resultados mostram que, sob variações na suavidade, ambos os modelos mantêm desempenho estável, com o FNO apresentando menor erro. Em contrapartida, sob variações na frequência, o FNO exibe um aumento acentuado no erro para entradas de alta frequência não vistas, enquanto o DeepONet mostra uma degradação mais moderada, apesar de apresentar erro geral mais elevado. Nossa análise revela que essas diferenças decorrem de como cada arquitetura representa e responde a variações na estrutura de frequência. Em conjunto, esses achados destacam uma lacuna fundamental entre o forte desempenho dentro da distribuição e a generalização sob desvios na distribuição no aprendizado de operadores, ressaltando o papel do viés de representação arquitetural no desenvolvimento de operadores neurais mais confiáveis para simulações de EDPs baseadas em física além da distribuição de treinamento.
A melhoria de imagens com pouca luz é desafiadora devido a degradações complexas, incluindo ruído amplificado, artefatos e distorção de cor. Embora métodos de aprendizado profundo baseados em Retinex tenham alcançado resultados promissores, eles dependem principalmente de informações RGB de modalidade única. Propomos o M2Retinexformer (Multi-Modal Retinexformer), uma nova estrutura que estende o Retinexformer ao incorporar pistas de profundidade, prioris de luminância e características semânticas dentro de um pipeline de refinamento progressivo. A profundidade fornece contexto geométrico invariante a variações de iluminação, enquanto as características de luminância e semântica oferecem orientação explícita sobre a distribuição de brilho e a compreensão da cena. As modalidades são extraídas em múltiplas escalas e fundidas por meio de atenção cruzada, com portas adaptativas equilibrando dinamicamente a autoatenção guiada por iluminação e a atenção cruzada com base na confiabilidade das pistas auxiliares. Avaliações nos benchmarks LOL, SID, SMID e SDSD demonstram melhorias gerais em relação ao Retinexformer e aos métodos recentes de última geração. O código e os pesos pré-treinados estão disponíveis em https://github.com/YoussefAboelwafa/M2Retinexformer.
Segmentação é uma tarefa fundamental de visão que sustenta inúmeras aplicações downstream. Modelos recentes de segmentação acionáveis por prompts, como o Segment Anything Model 3 (SAM3), ampliam a segmentação da predição de máscaras agnósticas em relação à categoria para a localização guiada por conceitos, condicionada a prompts textuais de alto nível. No entanto, os benchmarks existentes avaliam principalmente a precisão da máscara ou a presença do objeto, deixando incerto se esses modelos realmente fundamentam o conceito consultado ou, em vez disso, recorrem a pistas visualmente salientes, mas semanticamente enganosas. Apresentamos o CAFE: Avaliação Contrafactual de Factualidade de Atributos (Counterfactual Attribute Factuality Evaluation), um benchmark inovador para avaliar a segmentação fiel ao conceito em modelos de segmentação acionáveis por prompts. Nosso CAFE é construído sobre manipulação contrafactual em nível de atributo: a região-alvo e a máscara de verdade fundamental são preservadas, enquanto atributos como aparência superficial, contexto ou composição material são modificados para introduzir pistas semânticas enganosas. O benchmark contém 2.146 amostras de teste pareadas, cada uma consistindo em uma imagem-alvo, uma máscara de verdade fundamental, um prompt positivo e um prompt negativo enganoso. Essas amostras abrangem três categorias contrafactuais: Mimetismo Superficial (SM), Conflito de Contexto (CC) e Conflito Ontológico (OC). Avaliamos vários tipos e tamanhos de modelos em nosso CAFE. Experimentos revelam uma lacuna sistemática entre a qualidade da localização e a discriminação de conceitos: os modelos frequentemente geram máscaras precisas mesmo para prompts enganosos, sugerindo que uma forte predição de máscara não implica necessariamente uma ancoragem semântica fiel. Nosso CAFE fornece um benchmark controlado para diagnosticar se os modelos de segmentação acionáveis por prompts realizam uma fundamentação fiel ao conceito, em vez de uma recuperação de máscara orientada por atalhos.
Com a rápida evolução dos modelos fundamentais, os agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado capacidades cada vez mais poderosas de uso de ferramentas. No entanto, essa proficiência introduz riscos significativos de segurança, pois agentes mal-intencionados podem manipular os agentes para executar ferramentas e gerar conteúdo prejudicial. Embora os mecanismos defensivos existentes sejam eficazes, eles frequentemente sofrem do problema de recusa excessiva, onde o aumento do rigor de segurança compromete a utilidade do agente em tarefas benignas. Para mitigar essa troca, propomos o SafeHarbor, uma estrutura inovadora projetada para estabelecer limites de decisão precisos para agentes LLM. Ao contrário das diretrizes estáticas, o SafeHarbor extrai regras de defesa sensíveis ao contexto por meio de geração adversarial aprimorada. Projetamos um sistema de memória hierárquica local para injeção dinâmica de regras, oferecendo uma solução eficiente, plug-and-play e que não requer treinamento. Além disso, introduzimos um mecanismo de autoevolução baseado em entropia da informação que otimiza continuamente a estrutura da memória por meio de divisão e mesclagem dinâmicas de nós. Extensos experimentos demonstram que o SafeHarbor atinge desempenho de ponta tanto em tarefas benignas ambíguas quanto em ataques maliciosos explícitos, notadamente alcançando um pico de utilidade benigna de 63,6% no GPT-4o, mantendo uma taxa de recusa robusta superior a 93% contra solicitações prejudiciais. O código-fonte está disponível publicamente em https://github.com/ljj-cyber/SafeHarbor.
A avaliação de agentes requer a análise de comportamentos complexos de múltiplas etapas envolvendo uso de ferramentas e raciocínio intermediário, tornando-a custosa e intensiva em expertise. Surge uma questão natural: os assistentes de codificação de ponta podem automatizar de forma confiável esse processo de avaliação? Nosso estudo mostra que simplesmente instruir esses assistentes é insuficiente para essa tarefa. Sem conhecimento especializado em avaliação de domínio, os assistentes de codificação de ponta alcançam apenas 30% de taxa de sucesso de execução e produzem avaliações superdimensionadas, com média de mais de 12 métricas por agente, indicando que forte capacidade de codificação não se traduz automaticamente em avaliação confiável de agentes. Apresentamos o EvalAgent, um assistente de IA que automatiza todo o pipeline de avaliação de agentes, do início ao fim. O EvalAgent codifica expertise em avaliação de domínio como habilidades de avaliação (instruções procedurais, código e modelos reutilizáveis, e documentação de API recuperada dinamicamente) que se compõem em um pipeline baseado em rastreamento, produzindo artefatos de avaliação completos, incluindo métricas, código executável e relatórios. Para avaliar sistematicamente as avaliações geradas, introduzimos uma estrutura de meta-avaliação junto com o AgentEvalBench, um benchmark composto por 20 agentes, cada um emparelhado com requisitos de avaliação e cenários de teste. Propomos ainda a métrica Eval@1 para medir se o código de avaliação gerado é executado e produz resultados significativos na primeira execução. Nossos experimentos mostram que o EvalAgent produz avaliações focadas, melhorando o Eval@1 de 17,5% para 65% e alcançando 79,5% de preferência de especialistas humanos em relação às abordagens de base. Estudos de ablação adicionais mostram que as habilidades de avaliação são críticas para lidar com avaliações complexas: removê-las faz o Eval@1 cair significativamente de 65% para 30%.
Apresentamos o ShapeCodeBench, um benchmark sintético para reconstrução de percepção para programa: dada uma imagem raster renderizada, um modelo deve emitir um programa de desenho executável que um avaliador determinístico re-renderiza e compara com o alvo. O DSL v1 possui quatro primitivas em um canvas de 512 x 512 preto sobre branco, mas cada instância é gerada a partir de um RNG semeado, permitindo criar novos conjuntos de teste isolados para reduzir a contaminação por instância exata. Disponibilizamos uma divisão congelada eval_v1 com 150 amostras distribuídas nos níveis fácil, médio e difícil, pontuadas por correspondência exata, precisão de pixel, IoU de primeiro plano, sucesso de parsing e sucesso de execução. Avaliamos uma linha de base de programa vazio, uma heurística clássica de visão computacional, o Claude Opus 4.7 com esforço alto e máximo, e o GPT-5.5 com esforço de raciocínio médio e extra_alto. A heurística é competitiva em cenas fáceis, mas colapsa quando sobreposições fundem componentes; a configuração multimodal mais forte preserva grande parte da estrutura do primeiro plano, mas ainda falha na correspondência exata devido a pequenos erros de parâmetros. A melhor correspondência exata geral permanece baixa, portanto o ShapeCodeBench está longe de estar saturado. O código do benchmark, o conjunto de dados congelado, os artefatos de execução e as fontes do artigo são disponibilizados para apoiar replicação e extensão independentes.
A mistura de especialistas emergiu como o principal mecanismo para tornar os Modelos de Linguagem de Grande Porte (LLMs) computacionalmente eficientes. No entanto, em ambientes distribuídos, a comunicação de embeddings de tokens entre especialistas constitui um gargalo significativo. Apresentamos a nova arquitetura Federação de Especialistas (FoE). A FoE reestrutura o bloco MoE de uma camada de transformador em múltiplos clusters MoE. Cada cluster é responsável por apenas uma das cabeças KV, e o paralelismo de especialistas é aplicado entre esses especialistas. Entre os clusters, uma soma sincroniza os resíduos pós-atenção, os quais, por sua vez, orientam o roteamento e a distribuição para o próximo bloco MoE. Em um ambiente de nó único, a FoE elimina completamente a comunicação todos-para-todos, pois todos os especialistas dentro de um grupo estão contidos na mesma GPU. Em ambientes multinó, a FoE confina a comunicação todos-para-todos à infraestrutura intra-nó, reduzindo assim significativamente a sobrecarga de comunicação. Uma implementação da FoE demonstra que, no LongBench, a FoE melhora significativamente a taxa de transferência de inferência e a latência tanto em ambientes de nó único quanto multinó, reduzindo a latência de passagem direta de ponta a ponta em até 5,2 vezes, o TTFT em 3,62 vezes e o TBT em 1,95 vezes. Isso é alcançado mantendo uma qualidade de geração comparável à de um modelo de mistura de especialistas do mesmo tamanho e configuração de treinamento.
Apresentamos o WriteSAE, o primeiro autoencoder esparso que decompõe e edita a escrita de cache matricial de modelos de linguagem de espaço de estados e recorrentes híbridos, onde SAEs residuais não conseguem alcançar. SAEs existentes leem fluxos residuais, mas Gated DeltaNet, Mamba-2 e RWKV-7 escrevem em um cache de dimensão \(d_k\) vezes \(d_v\) através de atualizações de posto 1 \(k_t v_t^\top\) que nenhum átomo vetorial pode substituir. O WriteSAE fatora cada átomo do decodificador na forma de escrita nativa, expõe uma forma fechada para o deslocamento de logit por token e treina sob norma de Frobenius combinada, de modo que os átomos trocam um slot de cache por vez. Substituição de átomo supera a ablação de norma combinada em 92,4% dos \(n = 4.851\) disparos no Qwen3.5-0.8B L9 H4, o teste populacional de 87 átomos se mantém em 89,8%, a forma fechada prevê efeitos medidos com \(R^2 = 0,98\), e o Mamba-2-370M substitui em 88,1% em 2.500 disparos. Instalações sustentadas de três posições elevam em 3 vezes o alvo de continuação de classificação média de 33,3% para 100% sob decodificação gulosa, a primeira instalação comportamental no sítio de escrita matricial-recursiva.
Fluxos de trabalho LLM estruturados, nos quais subagentes LLM especializados executam de acordo com um grafo predefinido, tornaram-se uma abstração poderosa para resolver tarefas complexas. Otimizar tais fluxos de trabalho — isto é, selecionar configurações para cada subagente de modo a equilibrar precisão e latência — é desafiador devido ao espaço de projeto combinatorial sobre escolhas de modelos, orçamentos de raciocínio e estruturas de fluxo de trabalho. Métodos existentes cientes de custo tratam, em grande parte, a otimização de fluxos de trabalho como um problema de roteamento, selecionando uma configuração no momento da inferência para cada consulta de acordo com o objetivo de precisão-latência utilizado durante o treinamento. Argumentamos que fluxos de trabalho LLM estruturados também podem ser otimizados sob uma perspectiva de compilação: antes da implantação, o sistema pode explorar globalmente o espaço de projeto do fluxo de trabalho e construir um conjunto reutilizável de configurações em nível de fluxo de trabalho abrangendo diversos compromissos entre precisão e latência. Inspirando-nos em compiladores de aprendizado de máquina, apresentamos o FlowCompile, um compilador de fluxos de trabalho LLM estruturados que realiza exploração do espaço de projeto em tempo de compilação para identificar um conjunto de compromissos de alta qualidade e reutilizável. O FlowCompile decompõe um fluxo de trabalho em subagentes, coleta o perfil de cada subagente sob diversas configurações e compõe essas medições por meio de um proxy ciente da estrutura para estimar a precisão e a latência em nível de fluxo de trabalho. Em seguida, identifica diversas configurações de alta qualidade em uma única passagem em tempo de compilação, sem necessidade de retreinamento ou adaptação online. Experimentos em diversos fluxos de trabalho e benchmarks desafiadores mostram que o FlowCompile supera consistentemente configurações de fluxo de trabalho otimizadas heuristicamente e linhas de base baseadas em roteamento, proporcionando aceleração de até 6,4x. O conjunto de configurações compiladas serve ainda como um artefato de otimização reutilizável, permitindo implantação flexível sob preferências variáveis de tempo de execução e apoiando seleção ou roteamento a jusante.
Aumentação tabular generativa é atraente em domínios com escassez de dados, porém o foco predominante na fidelidade distribucional não se traduz de forma confiável em melhores modelos downstream. Formalizamos uma lacuna entre fidelidade e utilidade: objetivos generativos comuns priorizam a plausibilidade distribucional, enquanto a aumentação só é bem-sucedida quando amostras injetadas reduzem a perda de avaliação do aprendiz atual em dados retidos. Essa lacuna motiva aprender não apenas como gerar, mas o que gerar e quando injetar à medida que o treinamento evolui. Propomos TAP (Política de Aumentação Tabular), que acopla inpainting difusivo com uma política leve e condicionada ao aprendiz para direcionar a geração para regiões de alta utilidade e controla a injeção segura por meio de portas explícitas e compromisso conservador com janelas. Sob escassez severa de dados, TAP supera consistentemente fortes baselines generativos em sete conjuntos de dados reais, melhorando a acurácia de classificação em até 15,6 pontos percentuais e reduzindo o RMSE de regressão em até 32%.
Avanços recentes na escalabilidade de agentes em tempo de teste permitem que modelos coletem feedback ambiental antes de se comprometerem com ações finais. Uma limitação fundamental dos métodos existentes é que eles tipicamente empregam estratégias de exploração indiferenciadas, sem a capacidade de distinguir adaptativamente quando a exploração é realmente necessária. Neste artigo, propomos um framework de aprendizado por reforço sensível à exploração que capacita agentes baseados em LLM a explorar adaptativamente apenas quando a incerteza é alta. Nosso método introduz uma função de recompensa refinada via inferência variacional, que avalia explicitamente ações exploratórias estimando seu potencial para melhorar a tomada de decisão futura, juntamente com um mecanismo de agrupamento sensível à exploração que separa ações exploratórias de ações de conclusão de tarefas durante a otimização. Ao direcionar lacunas informacionais, esse design permite que agentes explorem seletivamente e transitem para a execução assim que o contexto da tarefa estiver claro. Empiricamente, demonstramos que nossa abordagem alcança melhorias consistentes em uma variedade de benchmarks desafiadores baseados em texto e em GUI. O código está disponível em https://github.com/HansenHua/EAPO-ICML26 e os modelos estão disponíveis em https://huggingface.co/hansenhua/EAPO-ICML26.