Artigos de pesquisa em IA selecionados diariamente com traduções
Benchmarks de codificação em nível de repositório, como o SWE-bench, impulsionaram um rápido aumento nas capacidades dos agentes de codificação. No entanto, eles geralmente tratam as tarefas de codificação como um problema holístico de predição binária (por exemplo, resolvido ou não resolvido), negligenciando capacidades mais granulares dos agentes, como entendimento do repositório, recuperação de contexto, localização de código e diagnóstico de bugs. Neste artigo, apresentamos o SWE-Explore, um benchmark que isola a avaliação da exploração de repositórios, uma capacidade crítica dos agentes de codificação. Dado um repositório e uma issue, o SWE-Explore solicita que um explorador retorne uma lista ranqueada de regiões de código relevantes sob um orçamento fixo de linhas. O SWE-Explore abrange 848 issues em 10 linguagens de programação e 203 repositórios de código aberto. Para cada instância, derivamos a verdade de base em nível de linha a partir de trajetórias independentes de agentes que resolveram com sucesso a mesma issue, destilando as regiões de código específicas que seus caminhos de solução realmente consultaram. Avaliamos a exploração nas dimensões de cobertura, ranqueamento e eficiência de contexto, mostrando que essas métricas se correlacionam fortemente com o comportamento de reparo subsequente. Em um amplo conjunto de métodos de recuperação, agentes de codificação gerais e localizadores especializados, descobrimos que exploradores agentivos formam um nível claramente superior à recuperação clássica. Embora a localização em nível de arquivo já seja forte para métodos modernos, a cobertura em nível de linha e o ranqueamento eficiente permanecem como os principais eixos que diferenciam os exploradores de última geração.
Recentemente, sistemas de inteligência artificial alcançaram resultados robustos em uma ampla gama de benchmarks; contudo, esses ganhos não se traduziram em uma implementação economicamente significativa em muitos domínios profissionais. Argumentamos que essa lacuna é, em grande parte, um problema de avaliação: os benchmarks amplamente utilizados carecem de medição consistente de desempenho em fluxos de trabalho reais e economicamente valiosos. Este artigo apresenta o *Agents' Last Exam* (ALE), um benchmark projetado para avaliar agentes de IA em tarefas reais, de horizonte temporal longo, economicamente valiosas e com resultados verificáveis. Desenvolvido em colaboração com mais de 250 especialistas da indústria, o ALE abrange indústrias não físicas definidas com referência à O*NET / SOC 2018 (a taxonomia ocupacional federal dos EUA). Ele é organizado em torno de uma taxonomia de tarefas com 55 subcampos agrupados em 13 clusters industriais, cobrindo mais de 1.000 tarefas. Os resultados atuais mostram que o nível mais difícil está longe da saturação: considerando configurações comuns de *harness* e *backbone*, a taxa média de aprovação completa é de 2,6%. O ALE foi concebido como um *benchmark* vivo: seu conjunto de tarefas cresce continuamente à medida que novos fluxos de trabalho e setores são incorporados. De forma mais ampla, o ALE não se destina apenas a ser mais um *leaderboard*, mas sim um instrumento para reduzir a distância entre o sucesso em *benchmarks* e o impacto relevante para o PIB.
Destilação on-policy (OPD) é cada vez mais utilizada para melhorar o raciocínio de grandes modelos de linguagem, mas sua dinâmica de treinamento permanece pouco compreendida. Caracterizamos a trajetória das atualizações da OPD no espaço de parâmetros e a comparamos com o ajuste fino supervisionado (SFT) e o aprendizado por reforço com recompensas verificáveis (RLVR). Um conjunto de diagnósticos no espaço de parâmetros posiciona consistentemente a OPD em um regime relaxado fora do principal: em comparação com o SFT, suas atualizações afetam menos pesos e evitam direções principais com mais intensidade, enquanto, comparada ao RLVR, permanecem menos estritamente restritas. Além dessa localização estática, a OPD exibe travamento de subespaço: suas atualizações cumulativas entram rapidamente em um canal estreito de baixa dimensão. Restringir o treinamento ao subespaço de atualização formado no início do treinamento preserva o desempenho da OPD, mas degrada substancialmente o SFT, indicando que o subespaço travado é funcionalmente suficiente para a OPD. Experimentos de controle mostram ainda que esparsificar os tokens de atualização e deslocar a geração de rollout para off-policy preservam a dinâmica de posto, ao passo que misturar o objetivo da OPD com RLVR a altera. No geral, esses resultados sugerem que a OPD não é meramente um ponto intermediário entre SFT e RLVR, mas induz sua própria geometria de atualização no espaço de parâmetros.
Sistemas de agentes utilizam cada vez mais habilidades textuais para codificar procedimentos de tarefas reutilizáveis, mas injetar essas habilidades no prompt a cada etapa incorre em custo substancial de contexto e expõe o conteúdo das habilidades como texto simples. Apresentamos LatentSkill, um framework que converte habilidades textuais em adaptadores LoRA plug-and-play por meio de uma hiper-rede pré-treinada. LatentSkill armazena o conhecimento das habilidades no espaço de pesos, e não no espaço de contexto, removendo tokens de habilidade por etapa, preservando carregamento, escalonamento e composição modulares. Em ALFWorld e Search-QA, LatentSkill supera a linha de base correspondente de habilidades no contexto, utilizando substancialmente menos tokens de pré-preenchimento: melhora a taxa de sucesso no ALFWorld em 21,4 e 13,4 pontos nas divisões vistas e não vistas, com 64,1% menos tokens de pré-preenchimento, e melhora a correspondência exata no Search-QA em 3,0 pontos, com 72,2% menos custo de tokens de habilidade. Análises adicionais mostram que os LoRAs de habilidade gerados formam uma geometria semântica estruturada, podem ser controlados precisamente pelo coeficiente de escalonamento LoRA e podem ser compostos por aritmética no espaço de parâmetros quando os componentes de habilidade estão alinhados. Esses achados sugerem que habilidades no espaço de pesos fornecem um substrato eficiente, modular e menos exposto para estender agentes LLM.
Modelos mundiais de vídeo que mantêm consistência espacial 3D entre quadros gerados geralmente dependem de memória explícita de nuvem de pontos construída no espaço RGB. Esse design é tanto computacionalmente caro, exigindo renderização e codificação VAE repetidas, quanto inerentemente com perdas, pois o ciclo de ida e volta pelo espaço de pixels descarta características ricas da representação latente aprendida. Neste artigo, introduzimos a memória espacial latente para modelos mundiais de vídeo — um cache 3D persistente que armazena informações da cena diretamente no espaço latente de difusão, evitando a reconstrução no espaço de pixels. Com base nisso, propomos o Mirage, uma estrutura de memória espacial no espaço latente que constrói a memória elevando tokens latentes para 3D via retroprojeção guiada por profundidade e a consulta sintetizando novas vistas por meio de warping direto no espaço latente. Essa formulação unificada elimina tanto a perda de informação da reconstrução no espaço de pixels quanto a carga computacional da codificação e renderização repetidas. Experimentos mostram que a memória espacial latente alcança geração de vídeo ponta a ponta até 10,57 vezes mais rápida e redução de 55 vezes no consumo de memória em relação às linhas de base explícitas em 3D. Aproveitando o prior geométrico do modelo de difusão, o Mirage atinge desempenho de ponta no WorldScore e forte qualidade de reconstrução no RealEstate10K.
Embora modelos recentes de edição de vídeo guiada por texto se destaquem em tarefas elementares (por exemplo, transferência de estilo, inserção de objetos), as solicitações de usuários reais são altamente composicionais. Um único prompt frequentemente exige múltiplas edições acopladas, como modificar sujeitos, ações e ângulos de câmera, enquanto preserva rigorosamente o conteúdo espaço-temporal não relacionado. Os benchmarks existentes, fortemente limitados por edições isoladas e métricas globais grosseiras, falham em diagnosticar como os modelos lidam com fluxos de trabalho tão complexos. Para preencher essa lacuna, apresentamos o CoVEBench, um benchmark de edição de vídeo composicional que compreende 416 vídeos fonte selecionados, 626 instruções de edição multiponto e 9.990 itens de checklist detalhados. Abrangendo diversas dimensões de edição, o CoVEBench avalia modelos por meio da conformidade com instruções e fidelidade de vídeo julgadas por MLLM, juntamente com métricas automatizadas de qualidade de vídeo. Experimentos extensivos revelam que a edição composicional continua sendo um desafio profundo: os modelos atuais frequentemente omitem edições, violam restrições de preservação ou introduzem artefatos ao lidar com múltiplas operações simultaneamente. O CoVEBench fornece uma plataforma de teste desafiadora e diagnóstica para avançar a edição de vídeo em direção a fluxos de trabalho realistas de usuários.
LLMs convencionais mantêm o cache KV completo carregado durante a decodificação, causando um grave gargalo de memória da GPU para o serviço de contexto ultra longo. Neste relatório, propomos a Lookahead Sparse Attention (LSA), um novo paradigma de inferência alimentado por um Indexador de Memória Neural construído sobre a arquitetura DeepSeek-V4. Em vez de atender passivamente a todos os tokens históricos, a LSA prevê proativamente as demandas futuras de contexto e preserva apenas os chunks KV críticos para a consulta na memória da GPU. Crucialmente, instanciamos essa arquitetura por meio de uma estratégia de treinamento desacoplada sem backbone. Ao formular o indexador como uma arquitetura padrão de codificador duplo, o treinamos de forma independente usando frameworks padrão de treinamento de recuperação, sem nunca carregar o modelo backbone massivo na memória da GPU. Demonstramos que esse paradigma "menos é mais" maximiza significativamente a eficiência do serviço, ao mesmo tempo que atua como um desruído de atenção eficaz em tarefas que dependem de memória global de longo prazo. Em todos os principais conjuntos de avaliação de contexto longo (por exemplo, LongBench-v2, LongMemEval e RULER), o FM-DS-V4 comprime a pegada média do cache KV físico para apenas 13,5% da linha de base de contexto completo, enquanto preserva consistentemente ou eleva ligeiramente a precisão downstream (margem absoluta média de +0,6%). Crucialmente, em escalas extremas de 500K, o FlashMemory suprime a sobrecarga do cache KV físico em mais de 90% sem desestabilizar as capacidades centrais de raciocínio do backbone.
O raciocínio espacial é uma capacidade fundamental para que modelos de linguagem de grande escala multimodais (MLLMs) percebam e atuem no mundo físico. No entanto, os benchmarks existentes baseiam-se predominantemente em avaliação passiva (ex.: VQA estático) ou em pipelines específicos de simuladores, falhando em avaliar a compreensão espacial interativa geral. Apresentamos o SpatialWorld, um benchmark unificado projetado especificamente para avaliar a compreensão espacial interativa de agentes multimodais em tarefas complexas do mundo real. Integrando oito backends de simulação heterogêneos sob um protocolo compartilhado e independente de simulador, o SpatialWorld conta com 760 tarefas anotadas por humanos em diversos domínios (ex.: rotinas domésticas, viagens, colaboração social). Os agentes devem resolver tarefas sob observabilidade parcial apenas visual, coletando ativamente evidências visuais egocêntricas e expressando decisões por meio de uma interface de ação unificada baseada em texto e nativa para MLLMs. Para uma avaliação confiável, cada tarefa inclui um estado inicial validado por humanos, uma trajetória de referência e um verificador de estado terminal. A avaliação de 15 agentes avançados revela que a resolução robusta de tarefas espaciais continua desafiadora: o modelo mais forte, GPT-5, atinge uma taxa média de sucesso de tarefas (TSR) de apenas 17,4%, enquanto o principal modelo de código aberto, Qwen-3.5, alcança 14,1%. Análises adicionais expõem um claro descompasso entre o sucesso da tarefa e a eficiência de execução, juntamente com variações substanciais de desempenho específicas de domínio. Esses gargalos em exploração ativa e planejamento de longo horizonte posicionam o SpatialWorld como um ambiente de teste rigoroso para futuros agentes espaciais.
Analisamos se questionários psicométricos humanos podem servir como ferramentas confiáveis para caracterizar e prever o comportamento de LLMs em interações cotidianas com usuários. Analisamos oito LLMs de código aberto, comparando seus perfis de valores e personalidade derivados de dois métodos distintos: autorrelatos Likert em questionários estabelecidos (PVQ-40/21 e BFI-44/10) e probabilidades de geração sobre respostas carregadas de valor a consultas cotidianas de usuários. Os dois perfis divergem substancialmente. A consistência de itens dentro do mesmo construto, frequentemente citada como evidência de disposições estáveis dos LLMs, desaparece nas probabilidades de geração. Atribuímos essa lacuna ao fato de que pistas lexicais explícitas em itens de questionários estabelecidos permitem que os modelos reconheçam o construto alvo e respondam de maneiras socialmente desejáveis e alinhadas à consistência, enquanto consultas realistas de usuários não fornecem tais pistas. Além disso, estímulos de persona demográfica alteram as respostas dos modelos a questionários humanos de modo consistente com padrões humanos reais, mas tais alterações não aparecem nas probabilidades de geração de respostas a consultas realistas de usuários, demonstrando sua capacidade limitada de simular comportamentos de grupos demográficos-alvo em interações reais com usuários. No geral, nosso estudo mostra que questionários psicométricos humanos são ferramentas insuficientes para prever o comportamento de LLMs e sugere o perfilamento baseado em geração como uma medida mais precisa.
Apresentamos o Echo-Memory, um estudo controlado de mecanismos de memória em modelos de mundo condicionados por ação. Esses modelos geram vídeos de múltiplos segmentos a partir de um primeiro quadro, um prompt de texto e uma sequência de câmera-ação, mas sua falha central é frequentemente a memória, e não a síntese local de imagem: após a câmera sair e retornar, a cena ou o objeto saliente pode mudar silenciosamente. Projetos de memória existentes são difíceis de comparar porque os ganhos estão entrelaçados com diferenças na arquitetura base, treinamento, recuperação e avaliação. O Echo-Memory fixa a interface ação-para-vídeo e varia apenas como o histórico é armazenado e lido pelo gerador. Sob uma arquitetura base compartilhada de difusão de vídeo, otimizador, representação de câmera-ação, amostrador e pipeline de avaliação, comparamos contexto bruto, memória baseada em compressão, sumários espaciais com diferentes caminhos de leitura e recorrência em espaço de estados. Essa matriz correspondente separa quatro eixos que, de outra forma, estariam confundidos: capacidade, compressão, leitura e recorrência. Também avaliamos a memória por meio de um protocolo de três ramos: qualidade de reprodução, retorno em loop no domínio interno e sondas de retorno em domínio aberto. Os ramos frequentemente discordam, mostrando que a fidelidade de reprodução não é um substituto suficiente para lembrar um mundo. Três descobertas se seguem. O contexto bruto é uma forte linha de base de capacidade e melhora o retorno em domínio aberto muito mais do que melhora as métricas de reprodução. A compacidade não é um substituto gratuito para a capacidade: memórias de compressão agressiva, espacial e híbrida perdem as evidências salientes necessárias para o retorno. Finalmente, a recorrência em espaço de estados por blocos é o mecanismo de retorno em domínio aberto mais forte em nossa matriz, mostrando que a estrutura da memória implícita importa tanto quanto a decisão de usá-la. Esses resultados fornecem um protocolo compacto para estudar a memória em modelos de mundo de ação além de métricas de reprodução isoladas.
A inferência de modelos de linguagem de contexto longo é limitada pela memória, uma vez que o cache KV cresce com o comprimento do contexto. Técnicas recentes para comprimir o cache KV são insuficientes: ou degradam substancialmente a qualidade do modelo ou exigem tempo e computação consideráveis para comprimir um único prompt longo. Além disso, muitos métodos exigem que a entrada caiba dentro da janela de contexto do modelo alvo e são geralmente incompatíveis com mecanismos de inferência de produção modernos. Compressores encoder-decoder, que mapeiam uma longa sequência de tokens para uma sequência mais curta de embeddings latentes consumidos por um decoder, são uma alternativa atraente em princípio. No entanto, as abordagens existentes não são competitivas com a compressão do cache KV na fronteira precisão-eficiência. Neste trabalho, revisamos a compressão encoder-decoder e fechamos essa lacuna. Primeiro, realizamos uma busca de arquitetura, pré-treinando muitas variantes do zero para determinar a melhor forma de projetar e treinar compressores encoder-decoder. Guiados por nossas descobertas, continuamos o pré-treinamento de uma família de modelos com encoder de 0,6B e decoder de 4B em mais de 350B tokens cada, em taxas de compressão de 1:4, 1:8 e 1:16. Apresentamos os Modelos de Linguagem de Contexto Latente (LCLMs), uma família de compressores que melhora a fronteira de Pareto em desempenho geral de tarefas, velocidade de compressão e uso máximo de memória. Demonstramos que os LCLMs servem como backbones eficientes para agentes de longo horizonte, permitindo que o agente examine um contexto longo comprimido e expanda adaptativamente segmentos relevantes sob demanda.
Modelos de linguagem-visão (VLM) estão cada vez mais implantados em ambientes de jogos interativos. No entanto, os benchmarks de jogos para agentes VLM geralmente relatam uma única pontuação de primeira tentativa por par (agente, jogo), focam em jogos individuais no modo Solo e carecem de protocolos unificados para avaliar classes heterogêneas de agentes (VLMs comerciais, VLMs de pesos abertos e políticas de jogo especializadas) em pé de igualdade. Abordamos essas lacunas com o OmniGameArena, um benchmark em tempo real composto por doze novos jogos desenvolvidos na Unreal Engine 5, abrangendo modos Solo (7), PvP (3) e Cooperativo (2), com interfaces de ação unificadas, e a Curva de Dinâmica de Melhoria (IDC), um arcabouço de reflexão agentiva no qual um LLM refletor que utiliza ferramentas refina autonomamente um prompt de habilidade limitado ao longo de múltiplas rodadas. Além das pontuações iniciais de leaderboard, a IDC expõe duas observáveis adicionais para cada par (agente, jogo): como a pontuação evolui ao longo das rodadas de reflexão e como a habilidade aprendida se comporta em variantes de tarefas não vistas. Relatamos essas observáveis para doze agentes VLM no leaderboard inicial e para os quatro melhores agentes sob a IDC.
O direcionamento linear de ativação ganhou popularidade como uma forma simples e empiricamente eficaz de controlar o comportamento de modelos de linguagem. Mais recentemente, paradigmas de direcionamento esférico foram propostos para lidar com limitações das intervenções aditivas, frequentemente motivados pela suposição de que a norma do estado oculto não carrega informação relevante ao conceito. Neste trabalho, revisitamos essa suposição por meio de um estudo empírico controlado projetado para separar os papéis dos componentes angulares e radiais. Mostramos que os métodos de direcionamento diferem principalmente em como acoplam dois efeitos geométricos: alterar o alinhamento angular de um token com uma direção de conceito e alterar sua norma de estado oculto. Em sete modelos de linguagem, descobrimos que os conceitos são representados principalmente na estrutura angular, apoiando a motivação para métodos esféricos, mas que a norma permanece importante para a estabilidade e os efeitos posteriores do direcionamento. Nossos resultados explicam por que intervenções com efeitos semelhantes no nível do conceito podem se comportar de maneira diferente, e sugerem que o direcionamento de ativação deve ser parametrizado por componentes angulares e radiais interpretáveis da intervenção, em vez de um único coeficiente aditivo que entrelaça esses dois efeitos.
Os agentes de LLM dependem cada vez mais de condições inferenciais externas: prompts, ferramentas, memória, SOPs, habilidades e feedback do harness. Esses ativos podem melhorar a execução de tarefas sem alterar os pesos do modelo, mas frequentemente são revisados por reflexão heurística ou pelo reuso de sucessos e falhas observados, como se apenas as contagens fossem crenças confiáveis. Apresentamos o Bayesian-Agent, um framework nativo e transversal que trata habilidades reutilizáveis e SOPs como hipóteses sobre se um modelo congelado terá sucesso sob um prompt, contexto e ambiente de harness específicos. O Bayesian-Agent registra evidências de trajetórias verificadas, mantém um posterior categórico condicionado a características para cada habilidade e mapeia o estado posterior em ações inspecionáveis, como corrigir, dividir, comprimir, aposentar e explorar. Prompts voltados ao modelo recebem diretrizes executáveis e correções de modos de falha, enquanto sumários posteriores permanecem disponíveis para auditoria. Com o deepseek-v4-flash, a reparação incremental melhora o SOP-Bench de 80% para 95%, o Lifelong AgentBench de 90% para 100% e o RealFin-Bench de 45% para 65%. Avaliamos também o backend nativo do Bayesian-Agent e os backends opcionais GenericAgent, mini-swe-agent e Claude Code. Os resultados incluem cenários positivos, negativos, saturados e estudos de caso, sugerindo que a evolução das habilidades do agente é melhor vista como otimização do harness guiada por posterior, em vez de acúmulo não calibrado de prompts. O código-fonte está disponível em https://github.com/DataArcTech/Bayesian-Agent.
A restauração de vídeo (VR) em tempo real para transmissões ao vivo exige saídas de alta resolução sob restrições estritas de latência por quadro. Os modelos VR existentes baseados em difusão de etapa única permanecem difíceis de implantar em GPUs de consumo devido a dois principais gargalos: a atenção espacial quadrática em altas resoluções e a sobrecarga de latência-memória de grandes autoencoders de vídeo. Apresentamos o SwiftVR, um framework generativo de VR em streaming de etapa única que reduz ambos os gargalos sob um protocolo causal por bloco. Para a atenção, a autoatenção sem máscara com janela deslocada agrupa cada janela espacial em um tensor denso via indexação determinística, mantendo todas as chamadas de atenção no caminho denso de atenção de produto escalar sem máscaras, deslocamentos cíclicos, preenchimento ou kernels esparsos específicos de hardware. Como o SwiftVR utiliza apenas chamadas SDPA densas padrão, o modelo treinado é transferido para GPUs de consumo sem retreinamento ou kernels personalizados. Para a auto codificação, um Autoencoder Ciente de Restauração leve permite decodificação rápida por bloco, preservando a qualidade de reconstrução. Em uma única H100, o SwiftVR sustenta 31 FPS em 2560x1440 e 14 FPS em 3840x2160, enquanto todas as linhas de base VR baseadas em difusão comparadas excedem o limite de memória em 4K. Em uma RTX 5090 de consumo, o SwiftVR atinge 26 FPS em 1920x1080. Até onde sabemos, o SwiftVR é o primeiro modelo generativo de VR a alcançar streaming em tempo real em 1080p em uma GPU de consumo, além de obter forte qualidade perceptual sem referência com menor custo de inferência. O projeto está disponível em https://h-oliday.github.io/SwiftVR.
Modelos mundo-ação surgiram como um paradigma promissor para manipulação robótica, modelando conjuntamente a dinâmica visual da cena e as ações para injetar priors físicos no aprendizado de políticas. No entanto, modelos mundo-ação existentes acoplam a predição do mundo e a execução de ações na mesma resolução temporal, forçando o ramo do mundo a modelar variações de quadros de curto prazo que são redundantes e pouco informativas. Propomos que vincular estritamente a predição do mundo e a execução de ações ao mesmo ritmo temporal pode subutilizar o potencial do ramo de vídeo para controle incorporado. Portanto, propomos o AHA-WAM, um Modelo Mundo-Ação Assíncrono e Adaptativo por Horizonte, construído sobre uma arquitetura dupla de Transformer de Difusão (DiT) que reorganiza a modelagem mundo-ação em torno dessa assimetria temporal. O AHA-WAM instancia o DiT de vídeo como um planejador de mundo de baixa frequência que mantém uma memória contínua de chave-valor sobre observações passadas e expõe contexto latente reutilizável por camadas codificando a evolução da cena em horizonte longo, enquanto um DiT de ação de alta frequência executa pequenos blocos de ação em malha fechada consultando esse contexto por meio de atenção conjunta por camadas. Para suportar a execução assíncrona, introduzimos o treinamento com deslocamento adaptativo por horizonte e o Roteamento de Contexto de Vídeo Guiado por Observação (OVCR), que juntos permitem que o especialista em ação explore o contexto mundial de horizonte longo enquanto permanece responsivo ao estado de execução em tempo real sem reexecutar o DiT de vídeo. Experimentos no RoboTwin e em tarefas de manipulação no mundo real mostram que o AHA-WAM alcança desempenho de ponta sem qualquer pré-treinamento com dados robóticos, obtendo 92,80% de sucesso médio no RoboTwin e 78,3% de sucesso em 4 tarefas do mundo real, enquanto atinge controle em malha fechada de 24,17 Hz com um ganho de velocidade de 4,59x em relação ao Fast-WAM.
Whisper, um modelo ASR amplamente adotado, é conhecido por sofrer de alucinações — transcrições coerentes geradas para áudio sem fala que são completamente desconectadas da entrada. Investigamos se as alucinações podem ser detectadas e mitigadas por meio das representações internas do Whisper. Extraímos ativações do codificador de áudio e avaliamos dois espaços de representação: as ativações brutas do Whisper e os latentes do Autoencoder Esparso (SAE). Mostramos que ambos os espaços codificam informações relacionadas a alucinações linearmente separáveis, com poder discriminativo concentrado em um subconjunto esparso de características e aumentando em direção às camadas mais profundas do codificador. Propomos duas estratégias de direcionamento: direcionamento no espaço de ativações e direcionamento no espaço latente do SAE. O direcionamento baseado em SAE reduz a taxa de alucinação de 72,63% para 14,11% no Whisper small e de 86,88% para 27,33% no Whisper large-v3 no conjunto de teste completo sem fala, com pequena degradação do WER em dados de fala, aproximando-se do desempenho de métodos baseados em ajuste fino.
Apresentamos DEI: Diversidade em Inferência Evolucionária, uma estrutura de busca distribuída de Qualidade-Diversidade (QD) que designa modelos de linguagem de grande porte (LLMs) heterogêneos como operadores de mutação entre nós pares que se comunicam por meio de operações coletivas não bloqueantes. Diferentemente da busca paralela homogênea, que replica os vieses indutivos de um único modelo em todos os trabalhadores, o DEI trata a priori criativa distinta de cada LLM como uma fonte complementar de novidade comportamental. Estendendo o framework Digital Red Queen com o DEI, os nós compartilham soluções ótimas locais ao final de cada rodada para semear a população da rodada seguinte. Isso gera pressão adversarial entre modelos que impulsiona a robustez além do auto-jogo intra-modelo. Avaliado no domínio Core War, um benchmark de programação competitiva no qual programas guerreiros Redcode batalham dentro de uma máquina simulada, um ensemble heterogêneo de quatro nós (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 e Claude Haiku 4.5) alcança um QD-Score de arquivo mesclado 124% maior (45,90 vs. 20,46) e uma cobertura 28% maior (80,6% vs. 63,0% das células) do que uma linha de base de nó único com orçamento igual de chamadas totais de LLM. O ensemble heterogêneo também supera um ensemble homogêneo com o mesmo orçamento em QD-Score, cobertura e generalidade de soluções retidas em todas as quatro famílias de modelos. Esses resultados fornecem a primeira evidência empírica de que a diversidade entre modelos, e não meramente o paralelismo, é o principal impulsionador do ganho na busca QD distribuída baseada em LLMs.
Modelos de recompensa (RMs) fornecem sinais de feedback críticos para o pós-treinamento de LLMs, especialmente em pipelines de ajuste fino reforçado (RFT) e aprendizado por reforço (RL). No entanto, a avaliação atual de recompensa depende de critérios heterogêneos, como verificadores baseados em regras, referências de ground-truth, listas de verificação processuais e rubricas complexas, onde um mecanismo unificado para integrar todos os tipos de evidência permanece inexplorado. Para esse fim, propomos o Skill Reward Model (Skill-RM), uma estrutura unificada que reformula a modelagem de recompensa como a execução de uma Habilidade de Avaliação de Recompensa reutilizável. Ao tratar o cálculo da recompensa como uma tarefa agentiva estruturada, o Skill-RM fornece uma interface consistente para orquestrar recursos heterogêneos, selecionando e agregando dinamicamente evidências adaptadas aos requisitos específicos de cada entrada. Essa abordagem permite que o modelo de recompensa vá além da avaliação estática, garantindo consistência e transparência em diversas tarefas. Experimentos extensivos em benchmarks de recompensa e aplicações downstream, incluindo seleção best-of-N e aprendizado por reforço, demonstram que o Skill-RM supera consistentemente as linhas de base tradicionais de julgamento. Nossos achados sugerem que o Skill-RM não apenas fornece uma solução unificada para a modelagem de recompensa, mas também alcança desempenho superior por meio da orquestração estratégica e dinâmica de evidências. O código está em https://github.com/Qwen-Applications/Skill-RM.
Embora os Modelos de Linguagem Grande Omni-modais (OLLMs) tenham demonstrado capacidades impressionantes no processamento conjunto de fluxos de áudio e vídeo, sua capacidade de aderir estritamente a instruções complexas e multifacetadas do usuário permanece amplamente inexplorada. Os benchmarks existentes concentram-se principalmente na compreensão holística de vídeos ou no seguimento de instruções baseadas apenas em texto, não capturando a intrincada interação entre modalidades e restrições do usuário. Para preencher essa lacuna, apresentamos o OmniCap-IF, o primeiro benchmark abrangente especificamente projetado para avaliar capacidades de seguimento de instruções em legendagem omni-modal. O OmniCap-IF incorpora uma estrutura sistemática que avalia legendas em duas dimensões: correção de formato e correção de conteúdo. Nosso benchmark abrange 50 tipos distintos de restrições em modalidades puramente visuais, puramente auditivas e audiovisuais, enquanto integra Ancoragem Temporal para avaliar a precisão espaço-temporal. Avaliações extensivas de modelos proeminentes em 1.920 amostras de alta qualidade revelam disparidades significativas de desempenho. Além disso, nossa análise descobre um crítico "tradeoff formato-conteúdo", demonstrando que o aumento da complexidade de formatação degrada diretamente as capacidades de raciocínio omni-modal dos modelos. Finalmente, para avançar na área, curamos um conjunto de dados de ajuste de instruções com 54 mil amostras, o OmniCap-IF-54K, e apresentamos o OmniCaptioner-IF, que alcança melhorias notáveis tanto na adesão a instruções complexas quanto no desempenho geral de legendagem omni-modal.
O Muon melhora a eficiência do treinamento em cerca de duas vezes em relação ao Adam no treinamento de modelos de linguagem de grande escala, mas a origem geométrica local dessa vantagem permanece obscura. Nosso trabalho dá um primeiro passo para desmistificar a superioridade do Muon sobre o Adam sob uma perspectiva de curvatura. Primeiro, aplicamos uma aproximação de Taylor de segunda ordem à paisagem de treinamento e mostramos que o Muon alcança um decréscimo maior de perda em um passo do que o Adam, com perda de validação equivalente. Os dois otimizadores têm ganhos de primeira ordem comparáveis, mas o Muon incorre consistentemente em uma penalidade de curvatura de segunda ordem menor. Segundo, decompomos essa penalidade de curvatura na norma de atualização ao quadrado e na Nitidez Direcional Normalizada (NDS, na sigla em inglês). Descobrimos que Muon e Adam têm normas de atualização comparáveis; portanto, a penalidade de curvatura menor do Muon é impulsionada por uma NDS mais baixa, e não pela escala de atualização. Terceiro, estudamos como os dados de treinamento e a estrutura do modelo moldam a vantagem na NDS do Muon. Usando dados de Gramática Livre de Contexto Probabilística de Zipf (PCFG, na sigla em inglês) com desequilíbrio controlado, mostramos que o desequilíbrio dos dados amplifica a vantagem na NDS do Muon sobre o Adam. Uma decomposição intra e entre camadas mostra ainda que, nos estágios intermediário e final do treinamento, a NDS mais baixa do Muon é mantida principalmente por uma curvatura intra-camada menor. Além das evidências empíricas, analisamos problemas quadráticos estilizados com curvatura heterogênea e alinhamento do gradiente em direção a modos de alta curvatura. Provamos que o Muon atinge uma NDS média menor do que a Descida do Gradiente (GD) ao equilibrar a energia de atualização entre grupos de curvatura; quando a heterogeneidade da curvatura é suficientemente forte, isso também resulta em uma perda quadrática local menor após o mesmo número de passos.
Agentes de pesquisa profunda demonstraram capacidades notáveis em tarefas complexas de busca de informações, mas esse poder tem um custo computacional elevado. Impulsionados por paradigmas de treinamento focados em precisão, os modelos atuais adotam estratégias de força bruta caracterizadas por dependência cega de ferramentas e raciocínio performático — gerando trajetórias longas e redundantes que estão longe de ser necessárias para resolver essas tarefas, resultando em chamadas de ferramentas desperdiçadas e consumo excessivo de tokens. Para superar essa armadilha de eficiência, propomos o SlimSearcher, uma estrutura teórica que desloca a fronteira de Pareto entre precisão e custo computacional tanto no Ajuste Fino Supervisionado (SFT) quanto no Aprendizado por Reforço (RL). No estágio de SFT, o SlimSearcher emprega filtração eficiente de Pareto para destilar trajetórias que são bem-sucedidas e econômicas, orientando o modelo em direção a comportamentos de busca inerentemente conscientes de eficiência. Durante o RL, introduzimos o Portão Adaptativo de Recompensa, um mecanismo dinâmico de modelagem de recompensa que avalia a eficiência relativa de ferramentas e tokens dentro de uma coorte amostrada. Ao cascatear essas métricas adaptativas de eficiência com um portão rigoroso de correção, nossa abordagem evita efetivamente o viés de brevidade associado a penalidades absolutas e mitiga o hacking de recompensa. Experimentos extensivos em benchmarks de horizonte longo, incluindo GAIA, BrowseComp e XBenchDeepSearch, demonstram que o SlimSearcher reduz as rodadas médias de chamadas de ferramentas em 17%-58%, mantendo ou melhorando a precisão.
Modelos de linguagem de grande escala baseados em fala são tipicamente restritos a respostas faladas, o que limita suas saídas voltadas ao usuário ao que pode ser verbalizado e suprime capacidades nativas de texto, como geração de código, análise estruturada e raciocínio em múltiplas etapas em interação em tempo real, para tarefas que exigem saídas intermediárias persistentes, estruturadas e inspecionáveis. Trabalhos existentes melhoram o raciocínio falado ou a alternância de turnos full-duplex, mas ainda tratam o texto como um estado intermediário oculto ou uma modalidade subordinada, em vez de um canal de saída de primeira classe. Propomos o Listen-Write-Speak (LWS), um paradigma de três canais com prioridade textual em que um único LLM autoregressivo ouve continuamente o áudio do usuário, escreve texto visível de forma livre como sua saída principal e fala uma resposta oral em tempo real em paralelo sob um contexto de atenção causal compartilhado. Esse comportamento é implementado inteiramente por meio de um Esquema de Token, sem exigir modificações arquitetônicas, e aprendido via um pipeline de dados de dois estágios que sintetiza anotações cognitivas por segundo consistentes com a linha do tempo de entrada revelada. Empiricamente, o LWS demonstra forte interação full-duplex no Full-Duplex-Bench, alcança 4,72 no VoiceBench AlpacaEval, obtém 92,6% de consistência escrita-fala e supera consistentemente suas ablações internas no URO-Bench. Esses resultados sugerem que a escrita visível pode servir como um canal de saída de primeira classe para interação por fala sem sacrificar a capacidade de resposta em tempo real. O código e o conjunto de dados estão disponíveis na página do projeto: https://royalzhang.com/project/lws-page/.
Aprendizagem por reforço com recompensas verificáveis (RLVR) tornou-se um paradigma líder para melhorar a capacidade de raciocínio de grandes modelos de linguagem por meio de supervisão baseada em resultados. No entanto, recompensas verificáveis frequentemente se tornam não informativas no nível do grupo: quando todos os traços amostrados de um determinado prompt recebem recompensas idênticas, a estimativa de vantagem relativa ao grupo não fornece sinal de gradiente, mesmo que os traços possam diferir substancialmente em qualidade de raciocínio. Propomos o Reasoning Arena, um framework de treinamento adaptativo que direciona esses grupos de recompensas não diversificadas para um sistema de julgamento, em vez de descartá-los. Além de examinar a resposta final, o Reasoning Arena constrói torneios de traços, onde traços de raciocínio são comparados frente a frente para expor preferências mais refinadas dentro do grupo, convertendo a qualidade do raciocínio em sinais de recompensa relativa ricos. Para tornar a estimativa de recompensa eficiente, em vez de comparar exaustivamente cada par, cada novo traço é avaliado contra um pequeno conjunto dinamicamente atualizado de traços gerados anteriormente, usados como âncoras, para estabelecer eficientemente um ranking relativo. Em seguida, ajustamos um modelo de Bradley-Terry no grafo de comparações incompletas, permitindo integração escalável com RL sem comparações quadráticas entre pares. Resultados empíricos demonstram que o Reasoning Arena supera consistentemente a linha de base RLVR em 7,6% em média em competições de matemática e benchmarks de codificação. Ao converter amostras de vantagem zero que seriam desperdiçadas em atualizações de gradiente úteis, nosso método acelera o treinamento em 27% a 41%, economiza quase 50% do custo computacional de geração e melhora substancialmente o desempenho geral de raciocínio.
Os Modelos de Ação Mundial (WAMs) estendem o aprendizado de políticas de robôs ao incorporar a previsão futura como um objetivo de treinamento adicional, incentivando a política a codificar estrutura temporal relevante para a tarefa em suas representações. Atualmente, os WAMs frequentemente dependem de arquiteturas generativas em larga escala que incorrem em altos custos de treinamento e latência de inferência, dificultando sua implantação como políticas eficientes de malha fechada. Propomos o Light-WAM, um Modelo de Ação Mundial leve para manipulação robótica eficiente. Especificamente, ele é construído com um backbone de vídeo compacto e realiza supervisão de vídeo futuro em um espaço latente subamostrado, reduzindo o custo do co-treinamento de vídeo enquanto mantém seus benefícios para o aprendizado de representação. Para previsão de ação, o Light-WAM introduz o StateFusionActionExpert, que lê estados adaptados de múltiplas camadas do backbone, os funde por meio de pooling de consultas aprendidas e prevê diretamente segmentos de ação em uma única passagem direta. Este design fornece uma interface eficiente entre representações de backbone de vídeo e ações de robô, evitando a necessidade de experts de ação generativos pesados. Experimentos demonstram que o Light-WAM mantém um desempenho robusto no LIBERO e alcança um desempenho multitarefa utilizável no RoboTwin 2.0, utilizando apenas 0,44B parâmetros treináveis. Ele também atinge 72,03 ms de latência de inferência com pico de memória GPU de 4,1 GiB e rendimento de treinamento melhorado.
Pipelines de QA aumentadas por recuperação frequentemente roteiam passagens recuperadas através de um reescritor de LLM antes de um leitor menor, elevando o F1 em dezenas de pontos em benchmarks multi-hop; esse ganho é tipicamente atribuído à melhoria na qualidade das evidências. Perguntamos se essa elevação é causalmente impulsionada pelo aparecimento da string de resposta dourada no contexto reescrito, e não pela curadoria em si, usando uma auditoria de intervenção controlada. Para cada contexto reescrito, reexecutamos o leitor após uma de quatro edições controladas na saída compilada: remover o span da resposta dourada, substituir por um span aleatório de não resposta de comprimento equivalente (placebo), ou injetar a resposta dourada em reescritas onde ela estava ausente (no prefixo ou no limite de uma sentença no meio do texto). Através de doze execuções de intervenção (célula, linha de base) concluídas, abrangendo três famílias de leitores (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), dois conjuntos de dados (HotpotQA, 2WikiMultihopQA) e três arranjos de compilador (apenas MA, apenas MB, MA+verificar), remover a resposta dourada reduz o F1 do leitor em 28 a 64 pontos além do placebo de comprimento equivalente em estratos pareados de resposta no compilado, e prefixar a resposta dourada em reescritas que não a continham aumenta o F1 em +0,7 a +9,7 pontos em 10 das 12 combinações (célula, linha de base). Uma auditoria companheira de cinco sentinelas mostra que a sonda convencional de único [MASK] é em si mesma frágil a sentinelas: no 2Wiki, ela relata um resíduo de não-vazamento de +4,12~F1 que se inverte para -3,33 a -7,81~F1 sob quatro sentinelas alternativas e falha em um teste de equivalência para três dessas quatro (1/4~passa). Não propomos um novo reescritor ou mitigação; disponibilizamos o executor de intervenção e o painel de sentinelas para que outras alegações de ganho de reescritor possam ser testadas contra o mesmo padrão.
Deep Research (DR) emergiu como um novo paradigma agêntico para lidar com tarefas de pesquisa complexas e de escopo aberto, exigindo sistemas que possam iterativamente enquadrar problemas, obter evidências, verificar fontes e sintetizar relatórios extensos. Na prática, contudo, os sistemas atuais de DR são limitados por quatro restrições inter-relacionadas: planejamento de longo horizonte sobre um escopo subespecificado, o gargalo de decompor e agendar tais tarefas em um único agente, o risco de alucinação na síntese de longo formato e a auditabilidade limitada do processo. Este relatório técnico apresenta o DuMate-DeepResearch, uma estrutura multiagente de DR construída sobre o Qianfan Agent Foundry. A estrutura desacopla o Núcleo do Agente, que lida com compreensão, planejamento e agendamento de tarefas, de um Ecossistema de Ferramentas extensível para recuperação, obtenção de evidências e renderização de relatórios, tornando cada decisão intermediária e invocação de ferramenta explicitamente rastreável. Com base nessa infraestrutura, o DuMate-DeepResearch introduz três mecanismos: (i) uma estratégia de planejamento dinâmico baseada em grafos que expande o roteiro de pesquisa do grosso ao fino e o revisa continuamente por meio de reflexão, replanejamento, retrocesso e ramificação paralela; (ii) um design de execução recursiva de dois níveis que delega cada subtarefa de busca complexa a um Agente de Busca interno que executa seu próprio ciclo de planejamento, isolando a recuperação ruidosa e estabilizando a execução de longo horizonte; (iii) um mecanismo de otimização em tempo de teste baseado em rubricas que gera dinamicamente critérios de qualidade específicos para a tarefa e os utiliza como andaimes de raciocínio ao vivo para síntese fundamentada em evidências e parada adaptativa. Em dois benchmarks de pesquisa profunda, o DuMate-DeepResearch estabelece novos resultados de ponta: a melhor pontuação geral (58,03%) no DeepResearch Bench e a melhor pontuação geral (61,95%) no DeepResearch Bench II, além de ficar em primeiro lugar em recuperação e análise de informações.
Modelos de texto para imagem dependem de prompts de texto como sua interface principal para a intenção humana. Os prompts são codificados por um codificador de texto em embeddings que condicionam o processo de geração de imagem. Além dos significados individuais dos tokens, os embeddings de texto codificam informações contextuais em todo o prompt, como composicionalidade e vinculação de atributos. No entanto, se os modelos de imagem realmente exploram essas informações mais ricas permanece pouco explorado. Aqui, abordamos a questão: Quais aspectos da representação textual são essenciais para a geração de imagens? Mostramos que modelos baseados em transformadores de difusão texto-imagem geralmente dependem apenas de dois aspectos relativamente simples das representações textuais: (i) a fusão de tokens adjacentes em uma representação de palavra, para palavras que abrangem múltiplos tokens, e (ii) a ordem das palavras, que é impressa pelo embedding posicional do codificador de texto. Para demonstrar isso, construímos um novo embedding de texto que codifica apenas os significados individuais das palavras e sua ordem, mas carece de qualquer informação contextual sobre o prompt completo. Descobrimos que essa representação de saco de palavras com posição marcada é suficiente para guiar com sucesso a geração de imagens, alcançando qualidade visual e fidelidade ao texto comparáveis às da geração guiada por embeddings de texto completo. Isso demonstra que, contrariamente à crença comum, os modelos de texto para imagem geralmente não utilizam as informações ricas codificadas no embedding de texto além dos significados individuais das palavras e da ordem das palavras. Em vez disso, a decodificação de estruturas linguísticas complexas é realizada pelo próprio modelo de imagem. Página do projeto: https://nsping13.github.io/contextless-TTI/
Modelos Visão-Linguagem-Ação (VLA) estão emergindo como um paradigma promissor para manipulação robótica, possibilitando políticas de uso geral treinadas a partir de grandes conjuntos de demonstrações e rótulos de ação. No entanto, adaptar esses modelos a novas tarefas ainda exige tipicamente demonstrações específicas da tarefa, anotações de ação e ajuste fino adicional, tornando a implantação custosa e difícil de escalar. Propomos o WIZARD, uma estrutura de meta-aprendizagem no espaço de pesos que contorna o ajuste fino específico da tarefa ao gerar parâmetros LoRA específicos da tarefa para uma política VLA congelada. Dadas apenas uma instrução em linguagem e um breve vídeo de demonstração, o WIZARD prevê os respectivos pesos de adaptação em uma única passagem direta, sem rótulos de ação da tarefa alvo ou otimização em tempo de teste. Durante o meta-treinamento, o WIZARD aprende a mapear evidências da tarefa diretamente para atualizações LoRA de especialista, capturando relações entre tarefas no espaço de pesos. Experimentos no LIBERO mostram que o WIZARD melhora o desempenho em até ~2x em coleções de conjuntos de dados não vistos e em até ~14x em tarefas não vistas. Em um Franka Emika Panda, o WIZARD melhora consistentemente em relação a uma linha de base adaptada ao domínio real, mostrando que os adaptadores gerados fornecem especialização em nível de tarefa além da simulação.
A destilação on-policy (OPD) tornou-se uma ferramenta central de pós-treinamento para modelos de linguagem de grande escala (LLMs), fornecendo supervisão densa do professor por token ao longo das próprias trajetórias geradas pelo estudante. Neste trabalho, identificamos uma causa estrutural comum subjacente à OPD, que denominamos falha de prefixo. Sob a falha de prefixo, a supervisão densa por token induz uma mistura bimodal do professor e gradientes fragmentados que a truncagem ou reponderação de perdas no nível do token não conseguem resolver. Essa observação nos motiva a avançar além das intervenções de perda no nível do token em direção a correções de saída no nível da trajetória. Propomos, assim, a Destilação Refinada por Trajetória (TRD), um método de correção no nível da trajetória que revisa a rolagem do estudante sob a orientação do professor, mantendo-se dentro do suporte on-policy. Ao corrigir prefixos problemáticos antes da destilação, a TRD mitiga a falha de prefixo em sua origem. Além disso, a TRD melhora a exploração ao expor o estudante a derivações alternativas válidas sob a orientação do professor, mesmo quando as rolagens originais já estão corretas. A TRD também pode ser aplicada à autodestilação on-policy (OPSD), uma variante com compartilhamento de parâmetros que utiliza o modelo estudante condicionado a informações privilegiadas como professor. Em uma ampla gama de referências e modelos base em múltiplas escalas, a TRD supera consistentemente as linhas de base anteriores, melhorando a precisão de tentativa única e ampliando a cobertura de raciocínio. O código está disponível em https://github.com/louieworth/trd.
Aprendizado por reforço com recompensas verificáveis avançou rapidamente o raciocínio em modelos visão-linguagem. No entanto, para a geração de laudos de raios-X de tórax, as recompensas padrão (isto é, precisão de correspondência exata e processos em nível de etapa) são incompatíveis porque os laudos consistem em achados não ordenados e ortogonais, em vez de uma cadeia de raciocínio causal. Abordamos essa lacuna com uma visão baseada em conjuntos: cada laudo é dividido em frases e incorporado por um transformador de frases congelado, gerando conjuntos de embeddings não ordenados. Propomos o uso de distâncias entre conjuntos entre os embeddings gerados e de referência como recompensas contínuas e invariantes por permutação. Em dois conjuntos de dados e três modelos visão-linguagem (Qwen3-VL-2B/4B, Gemma3-4B), o pós-treinamento com recompensas baseadas em distância entre conjuntos via GRPO supera consistentemente o ajuste fino supervisionado e o GRPO com correspondência exata em todas as métricas principais (BERTScore, RadGraph F1 e CheXbert F1 com melhorias relativas médias de 6,80%, 7,82% e 4,45%, respectivamente). As mesmas distâncias entre conjuntos também permitem a seleção do melhor de N no momento do teste: a pontuação de candidatos pela distância até os embeddings dos laudos de treinamento supera a seleção aleatória em nossos modelos treinados, bem como em três LLMs de código fechado (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) com uma melhoria relativa média de 16,4% no BERTScore. Usadas como um sinal de streaming, essas distâncias suportam uma forma mais eficiente de escalonamento no momento do teste: a poda de candidatos com pontuação baixa durante a geração reduz os tokens gerados em mais de 50%, preservando a qualidade dos achados da seleção completa de melhor de N. Em conjunto, esses resultados estabelecem as recompensas por distância entre conjuntos como um sinal unificado tanto para o pós-treinamento quanto para o escalonamento no momento do teste na geração de laudos de raios-X de tórax. Nosso código está disponível publicamente em: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.
Transformers de Visão operam em grades fixas de patches, o que pode introduzir instabilidade dependente da fase para predição densa: alterar a partição dos patches pode modificar a evidência de tokens disponível para um pixel, especialmente próximo a limites. Formalizamos a fase da grade de patches como uma variável incômoda e propomos a Marginalização de Fase, um método de marginalização post-hoc que avalia fases estruturadas da grade de patches, realinha inversamente as saídas densas e as agrega no sistema de coordenadas da imagem original. A variante central, Marginalização de Fase Uniforme com K = 4, não requer treinamento e melhora em relação à linha de base canônica com K = 1 em configurações medidas de segmentação, profundidade e correspondência local. Em um experimento controlado no Cityscapes, a Marginalização de Fase Uniforme proporciona uma vantagem modesta, compatível em custo computacional, em relação ao aumento em tempo de teste (TTA) genérico baseado em quatro deslocamentos (acréscimo de +0,31 na média de Intersecção sobre União em relação à linha genérica mais forte testada). Um estudo de escalonamento mostra ainda que K = 4 representa um compromisso prático entre custo e precisão: K = 8 essencialmente não altera os resultados e K = 16 acrescenta pouca precisão a uma latência muito maior. Esses resultados posicionam a fase da grade de patches como uma variável incômoda mensurável e a Marginalização de Fase como uma linha de base simples de diagnóstico e marginalização post-hoc para predição densa com ViT.
Treinar agentes web visão-linguagem com RL multi-passos é intensivo em computação, com duas formas dominantes de ineficiência: GPUs ociosas em RL síncrono e trajetórias que utilizam mais passos e tokens do que o necessário. Apresentamos o AsyncWebRL, que aborda ambas. No lado do sistema, um design assíncrono sobrepõe rollout, atualização de gradiente e atualização da política entre iterações, combinado com duas adaptações específicas para agentes web — nomeadamente, um pool de rollout perpétuo e manuseio leve de capturas de tela — que juntos proporcionam uma aceleração de até 2,9 vezes no throughput de treinamento ponta a ponta em relação ao pipeline síncrono aberto mais rápido anterior (WebGym). No lado algorítmico, identificamos o normalizador por trajetória 1/|τ_i| no GRPO multi-passos como a causa raiz da ineficiência ao nível de trajetória e ao nível de token: como as falhas são sistematicamente mais longas que os sucessos, ele reduz o peso do gradiente negativo em tokens com falha, de modo que a política continua produzindo esquemas de memória verbosos. Substituir 1/|τ_i| por uma constante 1/k rompe esse acoplamento, contraindo as trajetórias enquanto preserva o sucesso agregado. Juntas, essas contribuições estabelecem um novo estado da arte em código aberto na divisão de teste fora da distribuição do WebGym (+5,8% relativo ao melhor anterior de 42,9%), com os maiores ganhos nas partes mais difíceis (+42% relativo no Médio, +48% relativo no Difícil).
Estudos sobre generalização fraca-para-forte investigam como melhorar um aluno forte utilizando supervisão de um professor mais fraco quando rótulos confiáveis são escassos. Encaramos isso principalmente como um problema de seleção de dados, no qual o principal desafio é identificar quais rótulos fracos são suficientemente confiáveis para servir como sinal de treinamento. Para lidar com isso, introduzimos funções de confiança que atribuem a cada rótulo fraco uma pontuação escalar de confiança e utilizamos essas pontuações para filtrar a supervisão fraca. Em vários domínios, incluindo conhecimento geral, raciocínio quantitativo e jogos de estratégia, a filtragem por confiança produz alunos que igualam e, por vezes, superam a supervisão de referência, alcançando uma generalização fraca-para-forte quase sem perdas. Além disso, as funções de confiança possibilitam uma cadeia iterativa fraca-para-forte que potencia ganhos ao treinar um aluno e reutilizá-lo como o próximo professor, amplificando esses ganhos. Existem diversos mecanismos aos quais a vantagem das funções de confiança pode ser atribuída.
O raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) melhora o desempenho de Modelos de Linguagem de Grande Escala (Large Language Models, LLMs) e foi estendido a Modelos de Linguagem de Grande Escala Multimodais (Multimodal Large Language Models, MLLMs). Trabalhos mais recentes avançam ainda mais, do raciocínio multimodal baseado em texto para o raciocínio intercalado entre modalidades, onde etapas intermediárias podem incorporar tanto fundamentações textuais quanto evidências visuais. Neste trabalho, propomos uma ideia mais ousada e ambiciosa: será que apenas imagens poderiam servir como meio de raciocínio para tarefas linguísticas e multimodais? Para explorar isso, propomos o raciocínio óptico, que trata as imagens como um meio de raciocínio independente. Instanciamos esse conceito com duas variantes: raciocínio óptico baseado em tipografia, que otimiza layouts visuais para uma renderização compacta de fundamentações, e raciocínio óptico baseado em gráficos, que compõe texto e elementos gráficos em fundamentações visuais estruturadas. Em benchmarks de raciocínio matemático, científico e intercalado entre modalidades, o raciocínio óptico pode igualar ou até superar o raciocínio textual tradicional, ao mesmo tempo que reduz os tokens de raciocínio em média 28,57% em tarefas de linguagem e 16% em tarefas multimodais, alcançando 1,96 vezes a eficiência de tokens do raciocínio textual. Esses resultados mostram que as imagens podem codificar fundamentações de forma eficaz e eficiente, ao mesmo tempo que fornecem uma tela visual unificada para o raciocínio.
Modelos de mundo recentes baseados em vídeo tornaram ambientes no espaço de pixels interativos no nível da câmera: usuários podem navegar por pontos de vista enquanto o modelo gera continuações visuais coerentes. No entanto, seus espaços de ação permanecem incompletos: usuários podem mover a câmera, mas não podem agir sobre objetos individuais. Como a interação no mundo real é inerentemente centrada no objeto, tais modelos permanecem mais próximos de observadores passivos de cenas do que de ambientes verdadeiramente manipuláveis. Apresentamos o WorldCraft, uma estrutura que expande modelos de mundo interativos baseados em vídeo, da navegação da câmera para ações de trajetória no nível do objeto. Dado um clique do usuário e um caminho esboçado, o WorldCraft gera quadros futuros nos quais o objeto selecionado segue a trajetória prescrita enquanto a câmera continua a navegar pela cena. O WorldCraft alcança isso por meio de um pipeline de controle centrado na trajetória: Primeiro, a Trajetória de Mundo Normalizada (NWT) representa o movimento desenhado pelo usuário em um sistema de coordenadas de mundo invariante à câmera e o reprojeta dinamicamente sob a pose atual da câmera, separando o movimento do objeto do deslocamento no espaço da tela induzido pela câmera; em seguida, o LoRA de Caminho Espacial (SP-LoRA) injeta esse sinal do espaço do mundo através do caminho de controle espacial do modelo, adicionando capacidade de manipulação de objetos enquanto preserva o controlador de câmera pré-treinado; finalmente, a Persistência de Estado Ancorada na Trajetória (TASP) trata a trajetória do mundo como um estado espacial persistente e atualiza a memória autorregressiva após a geração condicionada pela trajetória, permitindo que objetos movidos reapareçam em suas posições atualizadas após saírem da vista da câmera. Experimentos mostram que o WorldCraft permite controle preciso de objetos, preserva a fidelidade da câmera do modelo de mundo baseado em vídeo sob avaliação apenas com controle de câmera e mantém o estado do objeto em longas execuções autorregressivas com excursões fora da câmera.
Resultados de avaliação de IA são produzidos em larga escala, mas relatados de forma inconsistente entre leaderboards, fichas técnicas de modelos, artigos de benchmarks e blogs de empresas. O custo é interpretativo: leitores não conseguem comparar resultados de forma confiável entre fontes, identificar o que um relatório omite ou rastrear uma afirmação agregada até suas evidências subjacentes. Esforços recentes abordam componentes isolados, mas deixam três lacunas: cobrem apenas fatias estreitas do ciclo de vida da avaliação e não se compõem em um único registro interpretável; especificam representações estáticas que não diferenciam as perguntas que diferentes partes interessadas trazem para a mesma evidência; e permanecem como propostas no papel, carecendo da infraestrutura de extração necessária para adoção em escala. Apresentamos uma camada operacional de relatórios que compõe metadados de benchmarks, dados de execução de avaliação e metadados de modelos em um registro unificado. Nós (1) derivamos um esquema de relatório a partir de uma revisão estruturada de 52 artigos e 10 entrevistas com partes interessadas, (2) implementamos quatro sinais interpretativos (reprodutibilidade, completude da documentação, procedência e risco, e comparabilidade de pontuações), renderizados em modos de leitura calibrados para públicos de pesquisa e não pesquisa, e (3) implantamos uma ferramenta de monitoramento que aplica [a camada] em 5.816 modelos, 635 benchmarks e 101.843 resultados, revelando lacunas sistemáticas nas práticas atuais de relatório.
Detectores de injeção de prompt são heterogêneos: cada um é forte em um grupo diferente de ataques, e nenhum é sempre confiável. No entanto, sistemas existentes ainda tratam a detecção como um pipeline fixo de detector único, comprometendo cada solicitação aos pontos cegos de um detector específico. Reformulamos a defesa como alocação de detectores: dado um conjunto heterogêneo, decidir por requisição quais detectores executar e se deve escalar para um juiz LLM. Nosso framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) torna essa decisão dinâmica ao prever a confiabilidade e latência de cada detector por amostra com base em seu comportamento em entradas passadas similares, e expõe ao operador um único limiar de segurança-utilidade (onde utilidade combina taxa de aprovação benigna e tempo real). Para avaliar esse cenário, construímos o SCOUT-450, um benchmark que captura as injeções estruturalmente complexas voltadas a agentes que conjuntos mais antigos de injeção de prompt sub-representam. No SCOUT-450, um ponto de operação orientado à segurança reduz a taxa de sucesso de ataque em 46% e o tempo total de execução em 40% em relação a um juiz GPT-4o sempre ativo, com uma queda de 5,1 pontos na utilidade benigna. O SCOUT também transfere para três benchmarks externos (BIPIA, IPI e IHEval), melhorando a fronteira segurança-utilidade.
Os benchmarks de agentes pontuam submissões com verificadores de resultados que são tipicamente escritos à mão e frágeis, deixando-os suscetíveis a hackeamento de recompensa. Auditamos 1.968 tarefas em cinco benchmarks de agentes terminais e encontramos 323 (16%) hackeáveis por modelos de fronteira com base apenas na descrição da tarefa. Isso corrompe tanto os rankings dos líderes quanto o sinal de treinamento por reforço, embora a resposta padrão seja manual e reativa. Introduzimos o loop hacker-corretor, um método para construir verificadores resistentes a exploração sem correção manual por tarefa. O loop alterna três agentes LLM: um hacker tenta passar pelo verificador sem resolver a tarefa, um corretor corrige o verificador para rejeitar cada exploração descoberta e um solucionador confirma que o verificador corrigido ainda admite soluções legítimas. O loop itera: cada correção remodela o que o verificador recompensa, revelando a próxima exploração. Adicionamos ainda acesso ao verificador e permitimos que correções sejam transferidas entre tarefas, para ampliar as explorações que o loop descobre. No KernelBench, o loop reduz a taxa de sucesso de ataque de 62% para 0% em um corpus de validação de explorações reportadas publicamente. Também descobrimos que agentes mais fracos no loop podem se defender contra hackers muito mais fortes: o loop do Gemini 3 Flash reduz a taxa de sucesso de ataque do mais forte Gemini 3.1 Pro e do Claude Opus 4.7 de 76% e 61% para 0% no KernelBench, e do Gemini 3.1 Pro de 39% para 17% no Terminal Bench em 77 tarefas. Lançamos o Terminal Wrench (323 ambientes hackeáveis, 3.632 trajetórias de hackeamento) como um instantâneo da superfície de ataque atual, nossos verificadores corrigidos, as explorações que o loop descobriu e nossa implementação como base para trabalhos futuros.
Benchmarks existentes de extração de relações científicas têm como foco principal domínios como ciência da computação, onde as entidades são tarefas, métodos, conjuntos de dados, materiais ou métricas. Isso deixa uma lacuna em campos empíricos orientados a variáveis, como a psicologia, onde os achados são expressos como relações entre construtos, medidas, intervenções e desfechos. Apresentamos a extração de grafos empíricos centrados em variáveis, uma tarefa que consiste em mapear resumos científicos para grafos tipados cujos nós são variáveis normalizadas e cujas arestas representam relações empíricas e hierárquicas. Para apoiar essa tarefa, construímos o EmpiriGraph-Psy, um benchmark com 210 resumos de psicologia anotados por anotadores treinados no domínio, contendo variáveis normalizadas, hierarquias de conceitos, tipos de relações empíricas e estados de validação. Avaliamos LLMs de fronteira e de pesos abertos utilizando tanto extração direta quanto um pipeline de construção de grafos em etapas que separa extração de variáveis, normalização, construção de hierarquias, seleção de evidências, extração de relações e validação de arestas. O pipeline em etapas supera substancialmente a extração direta, com a melhor configuração alcançando um macro-F1 de 0,74. A análise de erros mostra que relações de moderação e hierarquias de conceitos continuam sendo os casos mais desafiadores, destacando a dificuldade de extrair afirmações empíricas de ordem superior e estruturas de abstração implícitas a partir de resumos científicos.
Compreender o que os modelos generativos retêm dos dados de treinamento continua sendo um desafio, com implicações para direitos autorais e privacidade. Além da reprodução literal, os modelos podem codificar vestígios mais sutis de seus dados de treinamento que nunca emergem em suas saídas, mas permanecem exploráveis. Estudamos esse regime para Fluxos Retificados, que são cada vez mais utilizados em sistemas generativos implantados. Analisamos o caminho de interpolação X_λ= (1-λ)X_0 + λX_1 que define o treinamento do Fluxo Retificado. Mostramos que existe uma lacuna entre a reconstrução dos dados de treino e teste que segue uma curva em forma de sino ao longo de λ, que se acumula durante o treinamento, enquanto as métricas de validação permanecem estáveis. O sinal possui um máximo cuja localização derivamos em forma fechada sob suposições gaussianas. Validamos essas previsões tanto em áudio quanto em imagens e mostramos que a estrutura em forma de sino é universal, enquanto a previsão do pico se mantém quando nossas suposições são satisfeitas. Como prova de conceito, exploramos essa estrutura específica resolvida em λ para realizar um Ataque de Inferência de Pertencimento, distinguindo membros do conjunto de treinamento de não membros.
Sistemas de agentes médicos são cada vez mais esperados para apoiar a tomada de decisão clínica interativa, em vez de apenas responder perguntas de forma estática. Nesses cenários, agentes eficazes precisam reutilizar experiências anteriores em casos em evolução; no entanto, os mecanismos de memória existentes frequentemente retêm rastros históricos brutos que são redundantes, ruidosos e difíceis de controlar. Mais importante ainda, raramente distinguem quais memórias são verdadeiramente úteis para o raciocínio futuro. Isso limita sua capacidade de acumular experiências compactas e confiáveis para o raciocínio clínico de longo prazo. Para preencher essa lacuna, propomos o SkeMex, uma estrutura de autoevolução pós-implantação que melhora agentes médicos por meio de uma memória baseada em habilidades, sem atualizar os pesos do modelo. O SkeMex destila trajetórias de interação informativas em habilidades estruturadas que codificam conhecimento processual reutilizável, organizando-as em um repositório multi-ramo que abrange experiência geral, específica de tarefa e em nível de ação. Para determinar quais memórias devem ser reutilizadas e retidas, o SkeMex estima a utilidade dependente do contexto a partir do feedback do ambiente e a utiliza para orientar a recuperação ciente do valor e a governança do repositório. Um ciclo de vida em malha fechada "Ler–Escrever–Avaliar–Governar" suporta ainda a evolução contínua ao escrever novas habilidades, atualizar utilidades, promover memórias úteis e remover entradas prejudiciais. Experimentos em diversas tarefas clínicas mostram que o SkeMex supera consistentemente agentes representativos baseados em memória, tanto em contextos offline quanto online. Ele também generaliza entre backbones de modelo e suporta memória de habilidades transferível. Todos os dados e códigos serão disponibilizados publicamente.
Apresentamos o SigmaScale, um método para aprender matrizes de escala auxiliares S que auxiliam a compressão de Modelos de Linguagem de Grande Porte (LLMs) baseada na Decomposição em Valores Singulares (SVD) truncada. Em vez de derivar matrizes de escala analiticamente, o SigmaScale otimiza dois conjuntos de vetores que definem transformações de escala diagonais por linhas e por colunas sob uma perda de compressão consciente da ativação. Mostramos que a escala aprendida reduz o rank intrínseco efetivo das matrizes de peso, conforme refletido por reduções na entropia do rank efetivo, e que essa redução está fortemente correlacionada com a perda de compressão. Experimentos no Llama 3.1 8B Instruct e no Qwen3-8B mostram que o SigmaScale é competitivo com métodos de compressão baseados em SVD estreitamente relacionados, tanto em perplexidade quanto em benchmarks zero-shot. Ao usar transformações conscientes da ativação aprendidas, o SigmaScale explora uma rota mais flexível para a compressão de LLMs de baixo rank, adaptando-se à estrutura dos pesos individuais do modelo. A vantagem observada em tarefas específicas torna nossa abordagem uma opção válida para aplicações que exigem um custo computacional reduzido na inferência de LLMs.
Grandes modelos de linguagem são cada vez mais avaliados por outros modelos, o que levanta uma questão natural: um modelo pode prever como um juiz pontuará sua própria saída? Descobrimos que essa capacidade está amplamente presente antes de qualquer treinamento direcionado: quando estimulado com poucos exemplos, um modelo base já prevê as pontuações de qualidade multi-atributo de um juiz externo para respostas abertas muito acima do acaso em três benchmarks. Apresentamos a Elicitação de Autoavaliação (SEE), um método que traz à tona essa capacidade latente por meio de um ciclo curto que compreende uma fase de aprendizado por reforço acoplado à calibração, que melhora a resposta e prevê o juiz, seguida por uma fase de destilação mascarada, que aprimora a previsão sem alterar a resposta. A partir de 160 exemplos únicos, aproximadamente 31 vezes menos do que uma linha de base de aprendizado por reforço, o SEE melhora a calibração fora da amostra em três benchmarks, preservando a qualidade da resposta. A autoavaliação elicitada está nitidamente localizada dentro da própria distribuição de tokens do modelo e é estável entre juízes com os quais nunca foi treinada, indicando uma noção transferível de qualidade, em vez de uma preferência de um único juiz. Esses resultados reformulam a autoavaliação alinhada ao juiz como um problema de elicitação, em vez de aquisição.
Raciocínio visual latente (LVR) insere tokens latentes supervisionados entre a percepção e a geração de respostas em modelos de visão-linguagem (VLMs). A área utiliza o alinhamento entre esses latentes e seus alvos visuais — ou seja, similaridade de cosseno ou erro quadrático médio (EQM) — tanto como função de perda quanto como métrica de qualidade, assumindo que um melhor alinhamento resulta em uma melhor resposta. Testamos essa hipótese com uma matriz projetada de cinco variantes de LVR e descobrimos que a suposição se inverte: o alinhamento de cosseno apresenta correlação negativa com a acurácia em todas as cinco variantes (r = -0,94). Para explicar esse resultado, introduzimos o PRISM, um par de diagnósticos em tempo de inferência: uma sonda linear que investiga onde a resposta é decodificável e um teste de corrupção que verifica se o latente é estruturalmente relevante. Os latentes supervisionados são amplamente contornados. Corrompê-los altera a acurácia em, no máximo, quatro pontos percentuais. A resposta é decodificável a jusante do latente, mas não no próprio latente, e a magnitude dessa lacuna de decodificabilidade prediz o quanto cada variante depende de seu latente sob perturbação. Em consonância com uma leitura de Gargalo de Informação da perda, o objetivo auxiliar remodela o modelo de linguagem por meio de parâmetros compartilhados, em vez de fazê-lo pela variável latente que nominalmente otimiza.
Transformadores padrão aplicam autoatenção uniformemente em cada camada e token, independentemente de a entrada exigir interação dinâmica entre tokens. Propomos o CHIAR-Former (Chiaroscuro Attention), um transformador híbrido de 4 camadas que encaminha cada token para um de três operadores - mistura espectral DCT, mistura de kernel RBF ou autoatenção total - com base na entropia espectral por token, um sinal de complexidade teoricamente justificado. Através de ablação sistemática no WikiText-103, descobrimos colapso de roteamento: o roteador rejeita consistentemente o RBF em favor do DCT e da autoatenção, revelando que a mistura espectral e a atenção dinâmica são complementares e suficientes. Uma variante DCT+Atenção, projetada para esse fim, alcança Perplexidade de Validação (PPL) 36,54 no WikiText-103 - uma melhoria de 45% em relação à linha de base de atenção total (PPL 66,62) com 62,5% menos FLOPs de atenção. Estendemos a avaliação para WikiText-2, classificação de sentimentos IMDB e operações sintéticas ListOps, estabelecendo um regime de operação claro: CHIAR-Former se destaca em textos naturalísticos de grande escala, onde a diversidade de tokens suporta a especialização espectral, enquanto a atenção total mantém vantagem em conjuntos de dados pequenos e tarefas sintéticas de correspondência de padrões. Essas descobertas - tanto os ganhos quanto as perdas - definem conjuntamente quando e por que o roteamento espectral vale a pena.
Tarefas agentivas de longo horizonte impõem um desafio fundamental de atribuição de crédito para o aprendizado por reforço baseado em resultados: recompensas em nível de trajetória verificam a correção final, mas fornecem orientação limitada sobre quais etapas intermediárias de raciocínio ou interações com ferramentas contribuem para o resultado. A dificuldade é especialmente acentuada em agentes de busca com múltiplas rodadas, onde trajetórias bem-sucedidas podem conter ações enganosas e trajetórias fracassadas podem conter etapas valiosas de coleta de evidências. Propomos o PBSD (Privileged Bayesian Self-Distillation), um método de autodestilação calibrado por Bayes para atribuição de crédito em granularidade fina sob recompensas finais esparsas. O PBSD mede a qualidade da trajetória por meio da razão de probabilidade posterior-prior da resposta verificada e aplica a regra de Bayes para converter essa razão do lado da resposta, difícil de estimar, em uma razão de verossimilhança tratável entre um modelo estudante padrão e um modelo professor privilegiado condicionado à resposta. A decomposição autorregressiva dessa pontuação de evidência bayesiana produz sinais em nível de rodada que identificam se cada rodada intermediária apoia ou prejudica o resultado verificado. Consequentemente, o PBSD fornece um esquema de re-ponderação elegante e fundamentado que transforma a supervisão esparsa de resultados em sinais de crédito em nível de rodada calibrados por Bayes, mantendo-se totalmente compatível com a otimização padrão de políticas. Experimentos demonstram que o PBSD melhora consistentemente o desempenho tanto em configurações dentro do domínio quanto fora dele, e transfere efetivamente conhecimento do treinamento com contexto curto para a inferência com contexto longo, sugerindo que seu mecanismo de atribuição de crédito em granularidade fina facilita um aprendizado de políticas mais eficaz e produz melhor generalização.
O progresso recente na manipulação robótica tem sido amplamente impulsionado pelo aprendizado a partir de demonstrações em larga escala. Para tarefas de loco-manipulação de robôs humanoides, no entanto, as fontes de dados existentes impõem uma troca insatisfatória entre qualidade da trajetória e escalabilidade. A teleoperação no mundo real fornece trajetórias da mais alta qualidade, mas requer espaço físico dedicado e redefinições de cena demoradas. A simulação oferece uma alternativa para sair desse dilema: pode produzir dados limpos e alinhados ao corpo em escala, sem qualquer hardware físico. Neste artigo, propomos o OASIS, uma estrutura baseada em dados de simulação para loco-manipulação humanoide. O OASIS reconstrói automaticamente ativos de objetos realistas a partir de imagens do mundo real usando um modelo generativo 3D. Com base nesses ativos, as trajetórias são primeiro coletadas por teleoperação em simulação e, em seguida, aumentadas sob diversas randomizações de domínio em uma etapa de pós-processamento. Com os dados de simulação resultantes, projetamos ainda uma política visuomotora hierárquica para loco-manipulação humanoide. Experimentos extensivos no robô humanoide real mostram que, sob implantação zero-shot, a política treinada com nossos dados de simulação alcança taxas de sucesso mais altas na maioria das tarefas do que aquela treinada com dados de teleoperação de robô real, em grande parte devido às amplas variações de iluminação e ambientais cobertas pela nossa renderização de simulação, que os dados de robô real falham em capturar. A página do projeto está disponível em https://oasis-humanoid.github.io/.
Este artigo explora a compreensão espacial 3D agentiva, ou seja, agentes MLLM realizando raciocínio 3D por meio do uso de ferramentas. Métodos existentes frequentemente utilizam ferramentas de forma inadequada e exibem preferências enviesadas por ferramentas em cenários 3D, fazendo com que o paradigma agentivo apresente apenas ganhos marginais em relação a estratégias não agentivas. Revelamos que as tarefas de raciocínio espacial 3D são heterogêneas entre as cenas, enquanto esses agentes aplicam uma estratégia uniforme de uso de ferramentas a todas as cenas, em vez de selecionar ferramentas de acordo com a cena e a tarefa específicas. Para lidar com isso, propomos o Skill-3D, uma estrutura que aprende habilidades conscientes de cena que evoluem por si mesmas. Especificamente, o Skill-3D identifica a cena da tarefa e registra a trajetória de uso de ferramentas do agente em uma Memória de Cena, onde trajetórias bem-sucedidas de cenas similares são agregadas e destiladas em uma habilidade reutilizável consciente de cena, com as trajetórias fracassadas anexadas à habilidade como lições. Durante o treinamento, quando uma cena similar ocorre novamente, a habilidade correspondente é injetada para guiar o agente, produzindo novas trajetórias cujos sucessos e fracassos refinam ainda mais a habilidade, formando um ciclo no qual a memória e a biblioteca de habilidades coevoluem. Experimentos mostram que o Skill-3D melhora substancialmente a utilização de ferramentas no raciocínio espacial 3D (de 39% para 78% no VSI-Bench), direcionando o agente para um uso correto e suficiente de ferramentas. Por exemplo, ele melhora o Gemini-3-Flash em 67% no MMSI-Bench. Além disso, realizamos pós-treinamento agentivo sobre trajetórias guiadas por habilidades, o que impulsiona o Qwen3-VL-8B em 43% no VSI-Bench.
Equipar Modelos de Linguagem de Grande Porte (LLMs) para executar fluxos de trabalho confiáveis de múltiplas etapas tornou-se um desafio central em inteligência artificial. Apesar dos avanços recentes nas capacidades agentivas dos LLMs, a maioria dos sistemas agentes ainda carece de métodos formais para especificar, verificar e depurar seus fluxos de trabalho e trajetórias de execução. Esse desafio ecoa um problema de longa data na matemática, onde a ambiguidade das línguas naturais (LNs) motiva o desenvolvimento de linguagens formais (LFs). Inspirados por esse paradigma, propomos o **Lean4Agent**, até onde sabemos, o primeiro framework que utiliza o Lean4, uma LF de tipo dependente, para modelar e verificar o comportamento de agentes. O **Lean4Agent** lança o **FormalAgentLib**, uma biblioteca extensível em Lean4 para modelar e verificar formalmente a consistência semântica dos fluxos de trabalho de agentes sob suposições explícitas, permitindo a localização de falhas em tempo de execução reveladas por trajetórias. Com base no **FormalAgentLib**, desenvolvemos ainda o **LeanEvolve**, que aplica os resultados do **FormalAgentLib** para revisar fluxos de trabalho, aprimorando sua capacidade. Experimentos extensivos em um subconjunto de problemas difíceis do SWE-Bench-Verified e em um subconjunto do ELAIP-Bench com 5 LLMs líderes indicam que os fluxos de trabalho que passam na verificação superam os que falham em uma média de **11,94%**, e o **LeanEvolve** melhora ainda mais o desempenho no SWE em **7,47%** em média. Além disso, o **Lean4Agent** estabelece uma base para um novo campo de uso de LFs de tipo dependente expressivas para modelar e verificar formalmente o comportamento de agentes.
A Mistura de Especialistas (MoE) é atualmente a arquitetura dominante para modelos de linguagem de ponta, porém exige que todos os parâmetros dos especialistas sejam carregados em memória, tornando-a menos adequada para implantação com restrições de memória. Os métodos de compressão existentes reduzem o número de especialistas, mas a saída continua sendo um modelo MoE com a mesma limitação fundamental. Apresentamos o primeiro arcabouço sistemático para converter um MoE treinado em uma arquitetura totalmente densa padrão: especialistas são pontuados, selecionados e agrupados, depois concatenados em uma FFN densa e refinados por destilação de conhecimento do professor MoE. Avaliamos 7 métodos de pontuação, 5 de agrupamento e 2 de escalonamento de magnitude em uma variedade de contagens de especialistas selecionados no Qwen3-30B-A3B, totalizando 350 configurações. Descobrimos que a escolha do método de pontuação é a mais impactante, com nossa nova pontuação ciente de diversidade superando consistentemente métodos anteriores no Qwen3-30B-A3B, DeepSeek-V2-Lite e GPT-OSS-20B. Em uma comparação controlada com número de parâmetros equivalente, a conversão MoE-para-denso supera a poda denso-para-denso em +6,3 pp na acurácia média downstream após destilação de ~4 bilhões de tokens, com velocidade de treinamento 1,6x mais rápida em tempo real.
Agentes no estilo Reflexion dependem de reflexões autogeradas como memória, assumindo implicitamente que os agentes conseguem diagnosticar com precisão seus próprios fracassos. Demonstramos que essa suposição pode falhar sistematicamente: tanto no ALFWorld quanto no HumanEval, os agentes armazenam interpretações confiantes, porém incorretas, da tarefa e continuam agindo com base nelas ao longo de múltiplas tentativas, mesmo que o ambiente seja reiniciado para a tarefa correta a cada vez. Denominamos esse modo de falha de confabulação de memória e introduzimos a Taxa de Repetição de Reflexão (TRR), uma métrica baseada em logs que detecta a dependência repetida de conteúdo reflexivo incorreto. Usando a TRR, identificamos 16 ambientes congelados no ALFWorld, nos quais 0 de 121 reflexões mencionam o objeto-alvo correto, e 4 casos análogos no HumanEval. Nossa mitigação substitui o autodiagnóstico aberto por extração programática de sinais de falha no nível da trajetória, aumentando a menção correta ao objeto de 0% para 86%, reduzindo a TRR de 0,64 para 0,10 e resolvendo 3 dos 16 ambientes congelados do ALFWorld, sugerindo que a memória reflexiva pode reforçar crenças falsas em vez de corrigi-las.
A imageamento hiperespectral passivo no infravermelho de ondas longas (LWIR) sob uma geometria de distanciamento depende da absorção e emissão atmosféricas, bem como da radiância refletida, tornando assim a compensação atmosférica essencial para obter conhecimento sobre um alvo de interesse. Apesar de sua importância, essa compensação tem sido amplamente negligenciada devido à sua dificuldade prática e de modelagem. Neste artigo, apresentamos uma estrutura leve de aprendizado profundo baseada em conjuntos que recebe múltiplas medições de radiância, coletadas em diferentes distâncias de distanciamento, como entrada e estima conjuntamente a transmitância, a radiância do caminho atmosférico e um espectro de downwelling compartilhado. Analisamos a representação aprendida com um autoencoder esparso e observamos que várias características latentes ativam em subconjuntos geograficamente coerentes dos dados de teste, apesar da ausência de supervisão de localização. Experimentos em um conjunto de dados LWIR de distanciamento gerado pelo MODTRAN demonstram baixa distorção espectral em todos os produtos estimados. O conjunto de dados e o código estão disponíveis publicamente em: https://factral.co/SAE-LWIR/
A geolocalização entre vistas estima a localização geográfica de uma imagem terrestre ao compará-la com um banco de imagens aéreas. Métodos existentes abordam essa tarefa por meio de recuperação em larga escala ou estimativa precisa de pose, mas não ambos: métodos baseados em recuperação permitem busca em áreas amplas ao custo da precisão de localização, enquanto métodos de estimativa de pose alcançam alta precisão apenas em um espaço de busca restrito. A simples combinação em cascata dessas abordagens introduz propagação de erros e representações de características inconsistentes. Formulamos a geolocalização entre vistas como um problema unificado que exige simultaneamente recuperação em escala urbana e estimativa precisa de pose com 3 graus de liberdade (3-DoF). Propomos o CIPER (Transformador de Recuperação de Imagem e Estimativa de Pose entre Vistas), uma arquitetura única que realiza ambas as tarefas de forma conjunta por meio de aprendizado de características mutuamente benéfico. O CIPER utiliza um codificador transformer compartilhado com tokens específicos para cada tarefa, a fim de separar características globais de recuperação de pistas espaciais de localização. Para reduzir a grande lacuna de domínio entre as vistas terrestre e aérea, introduzimos um decodificador transformer de pose bidirecional que utiliza características terrestres como consultas espaciais para atenção cruzada bidirecional. Uma estratégia de predição de conjuntos permite ainda a regressão estável de 3-DoF sob um objetivo multitarefa unificado. Experimentos nos conjuntos VIGOR, KITTI e Ford Multi-AV demonstram desempenho competitivo, especialmente sob condições de campo de visão limitado e orientação arbitrária. O código está disponível em https://github.com/yurimjeon1892/CIPER.
As métricas de fidelidade sem referência verificam cada afirmação atômica que um modelo faz em relação à verdade fundamental e são cada vez mais usadas para avaliar geração fundamentada. Mostramos que elas compartilham um ponto cego: medem apenas a precisão — as afirmações declaradas são apoiadas? — e, portanto, recompensam a abstenção, já que um modelo pode obter uma fidelidade quase perfeita ao dizer quase nada. Tornamos isso mensurável usando telemetria de Fórmula 1, um domínio onde a verdade fundamental estratégica é derivada deterministicamente e, crucialmente, de forma completa: para cada decisão, conhecemos o conjunto completo de fatos que importaram. Essa completude — ausente em benchmarks de fidelidade de domínio aberto — permite medir exatamente a cobertura (cobertura dos fatos relevantes), juntamente com a precisão. Em um benchmark multilíngue (EN/ES/PT) de 7.253 instâncias de decisão abrangendo 150 corridas, o modelo de fronteira mais preciso cobre menos da metade dos fatos relevantes e fica em último lugar pelo F1, portanto, exigir cobertura reordena os sistemas; o mesmo efeito reaparece em um segundo domínio de oráculo completo (previsões meteorológicas da NOAA). Uma ablação de prompt mostra que a baixa cobertura não é um artefato de sub-prompting: pedir explicitamente aos modelos para serem minuciosos não fecha a lacuna. Combinamos fidelidade com cobertura em uma única pontuação, validamos a métrica (perturbação controlada; concordância entre um extrator regex livre de modelo e um extrator de LLM de famílias cruzadas, Spearman 1.0 no nível do sistema) e fornecemos um método de geração guiada por verificador que melhora a precisão e a cobertura sem referências. Disponibilizamos o benchmark, anotações estruturadas, métrica, linhas de base e uma demonstração interativa.
Grandes modelos de linguagem (LLMs) oferecem uma abordagem promissora para a tradução automática (MT) de línguas extremamente de baixos recursos, ao incorporar recursos linguísticos por meio de aprendizado em contexto. No entanto, LLMs frequentemente têm dificuldade em aplicar informações gramaticais de forma eficaz durante a tradução. Inspirados pelos avanços recentes no raciocínio em cadeia de pensamento, investigamos se a MT de baixos recursos pode se beneficiar de etapas intermediárias estruturadas de análise linguística e raciocínio gramatical. Propomos um pipeline para gerar automaticamente traços de raciocínio linguístico passo a passo a partir de treebanks de Dependências Universais, dicionários e bancos de regras gramaticais. Avaliamos esses traços em três configurações: aprendizado em contexto (ICL), ajuste fino supervisionado (SFT) e ajuste fino por reforço (RFT), com Xibe e Chintang como casos de teste. Nossos resultados mostram que os traços de raciocínio linguístico são mais eficazes como orientação durante a inferência: no ICL, traços confiáveis específicos da frase melhoram substancialmente o desempenho da tradução na maioria dos modelos, línguas e métricas. Em contraste, usar os traços de raciocínio linguístico como dados de treinamento produz ganhos menores e menos consistentes, pois os modelos aprendem o formato do traço, mas frequentemente geram conteúdo errôneo. Essas descobertas sugerem que LLMs podem aproveitar informações gramaticais para MT de baixos recursos quando recebem análises linguísticas confiáveis, enquanto aprender a gerar tais análises continua sendo um grande gargalo.
Os grafos de propriedades empresariais variam amplamente em estrutura de esquema, terminologia interna, suposições de domínio, restrições de governança e padrões de interação do usuário. Um benchmark Text2Cypher relevante para implantação reflete, portanto, as perguntas que usuários e agentes realmente fazem a esse grafo. Criar tal benchmark é difícil porque esquemas e valores são únicos, e a estrutura do grafo muda ao longo do tempo. Cada par consulta-linguagem natural também deve ser executável, usar entidades reais do grafo, preservar diversidade e manter equilíbrio entre tipos de consulta e níveis de dificuldade. Apresentamos o PIPE-Cypher, um pipeline local de geração de benchmarks que transforma um grafo de propriedades ativo e consultas semente opcionais — provenientes de perguntas de clientes, logs de analistas ou chamadas de ferramentas de agentes — em benchmarks balanceados de NL para Cypher. O PIPE-Cypher combina perfilamento de esquema, fundamentação reversa de consultas, geração restrita, governança determinística de Cypher, validação de execução, ocultação, controles de diversidade e um juiz LLM local calibrado. Utilizando geração e julgamento locais com Qwen3.5-9B, o PIPE-Cypher exporta 3.000 exemplos aceitos do FinBench/SNB, completa três conjuntos de ablação auditados, calibra o comportamento do juiz com rótulos humanos e avalia 11 modelos downstream locais. O benchmark resultante é deliberadamente discriminativo: a transferência zero-shot é fraca, enquanto um controle few-shot mostra que bancos de exemplos específicos de esquema podem ajudar famílias de modelos compatíveis. Juntos, o PIPE-Cypher torna a avaliação de Text2Cypher um processo repetível que evolui com o grafo, seus usuários e suas cargas de trabalho alvo.
Apresentamos o EMMA, uma estrutura multimodal baseada em física que recupera todos os parâmetros dinâmicos identificáveis de um sistema diretamente a partir de observações brutas de séries temporais baseadas em vídeo, áudio e imagens. Diferentemente de abordagens anteriores focadas apenas em vídeo, que enfrentam dificuldades com estados ocluídos, entradas de atuação ocultas ou suposições sobre condições iniciais e referenciais conhecidos, o EMMA realiza inferência conjunta de parâmetros explícitos, componentes dinâmicos implícitos e invariantes de calibração em um modelo unificado de tempo contínuo. O EMMA utiliza uma rede Liquid Time-Constant (LTC) para aprender dinâmicas latentes a partir de modalidades heterogêneas, enquanto uma perda com restrições físicas impõe consistência com as equações diferenciais governantes. Um pipeline unificado de recursos permite o alinhamento consistente entre trajetórias de vídeo, assinaturas acústicas e medições derivadas de gráficos, possibilitando que o EMMA estime parâmetros sob dinâmicas forçadas, implícitas e multivariadas, sem a necessidade de máscaras de segmentação, renderização diferenciável ou sensores especializados. Em mais de 100 cenários, incluindo cinco referenciais dinâmicos padrão (75 vídeos Delfys), sistemas reais de rover e quadrotor com entradas ocultas, e estudos de caso simulação-gráfico abrangendo sistemas biológicos e caóticos, o EMMA fornece uma recuperação robusta de múltiplos parâmetros e supera significativamente as bases de referência existentes de modalidade única e descoberta de equações. Nossos resultados estabelecem o EMMA como uma solução geral e escalável para extração de modelos consistentes com a física a partir de dados multimodais oportunistas. O código e os dados estão disponíveis em: https://github.com/ImpactLabASU/EMMA-CVPR2026