Artigos de pesquisa em IA selecionados diariamente com traduções
O roteador é o componente fundamental dos modelos de Mistura de Especialistas (MoE). Servindo como proxies dos especialistas, as linhas da matriz do roteador calculam sua similaridade com as entradas do MoE para determinar qual subconjunto de especialistas é ativado. Idealmente, cada linha do roteador é projetada para codificar a matriz do especialista nesse vetor representativo, de modo que seu produto escalar com o token possa refletir melhor a afinidade token-especialista. No entanto, não existem princípios de design que imponham essa condensação. Neste artigo, propomos alinhar cada linha do roteador com a direção singular principal do especialista associado, pois essa direção fornece a descrição matemática mais expressiva de uma matriz. Com base nesse princípio, propomos um redesenho do roteador utilizando Iteração de Potência em Variedade (MPI, na sigla em inglês). Especificamente, introduz-se um paradigma de "Potência-depois-Contração", no qual um passo de iteração de potência é aplicado aos pesos do roteador, seguido por uma contração para impor uma restrição de norma, garantindo eficiência e estabilidade. Teoricamente, mostramos que o MPI faz com que as linhas do roteador convinjam em direção às direções singulares principais dos especialistas associados. Empiricamente, pré-treinamos modelos MoE em escalas de 1B a 11B parâmetros para confirmar que esse alinhamento facilita modelos MoE mais eficazes.
O progresso científico depende de um ciclo repetido de exploração, experimentação e abstração. Pesquisadores testam direções candidatas, interpretam as evidências e transportam as lições resultantes para tentativas posteriores. Estudamos como um agente de IA pode executar esse ciclo de forma autônoma em horizontes longos. Apresentamos o Arbor, um framework geral para pesquisa autônoma que combina um coordenador de longa duração, executores de curta duração e o Refinamento de Árvore de Hipóteses (HTR, do inglês Hypothesis Tree Refinement), uma árvore persistente que vincula hipóteses, artefatos, evidências e insights destilados ao longo do tempo. O coordenador gerencia a estratégia global de pesquisa na árvore, enquanto os executores implementam e testam hipóteses individuais em árvores de trabalho isoladas. À medida que os resultados retornam, o Arbor atualiza a árvore, propaga lições reutilizáveis, refina a fronteira de busca e admite melhorias verificadas. Esse design transforma a pesquisa autônoma de uma sequência de tentativas locais em um processo cumulativo no qual estratégia, execução e evidências são transportadas ao longo do tempo. Avaliamos o Arbor sob a Otimização Autônoma (AO, do inglês Autonomous Optimization), um cenário operacional onde um agente melhora um artefato de pesquisa inicial por meio de experimentação iterativa sem supervisão humana em nível de etapa. Em seis tarefas reais de pesquisa em treinamento de modelos, engenharia de harness e síntese de dados, o Arbor alcança o melhor resultado em dados retidos (held-out) em todas as seis tarefas, obtendo mais de 2,5 vezes o ganho relativo médio em dados retidos do Codex e do Claude Code sob a mesma interface de tarefa e orçamento de recursos. No MLE-Bench Lite, o Arbor atinge 86,36% de Any Medal com GPT-5.5, o resultado mais forte em nossa comparação.
Ambientes servem como sistemas interativos para agentes baseados em modelos de linguagem de grande escala (LLM) em diversos cenários e desempenham um papel crucial na condução da evolução contínua das capacidades dos modelos. Apesar dessa importância, os trabalhos existentes carecem de uma categorização sistemática e análise aprofundada. Este artigo estuda sistematicamente as pesquisas atuais sobre ambientes agentivos sob a perspectiva do ciclo de vida da engenharia de ambientes, abrangendo sua modelagem, síntese, avaliação e aplicação. Especificamente, o artigo primeiro introduz ambientes representativos sob as perspectivas de oito atributos e oito domínios, fornecendo análises detalhadas de suas trajetórias de desenvolvimento e destacando suas capacidades centrais. Em segundo lugar, para a síntese automatizada de ambientes, são introduzidos dois paradigmas, como síntese simbólica e síntese neural. Este artigo também apresenta diferentes métodos de avaliação de ambientes em cada paradigma. Em terceiro lugar, são discutidas as aplicações correspondentes de ambientes sob a perspectiva da coevolução agente-ambiente. Especificamente, o artigo caracteriza as principais vias para a evolução de agentes em ambientes dinâmicos a partir de quatro perspectivas complementares: evolução de experiência centrada em memória, evolução de workflow centrada em orquestração, evolução offline centrada em trajetória e evolução online centrada em exploração. E são identificados três paradigmas de evolução de ambientes: abordagens orientadas por redes neurais, orientadas por dificuldade e orientadas por escalonamento. Por fim, são discutidas várias direções futuras promissoras, incluindo Ambiente como Serviço, Ambientes Multiagente e Ambientes Neuro-Simbólicos.
Agentes de propósito geral, como o OpenClaw, são cada vez mais utilizados como usuários autônomos de ferramentas, mas sua capacidade de codificação é difícil de medir no SWE-bench: um agente genérico, por si só, não satisfaz o contrato de workspace Docker limpo, patch e previsão necessário para a pontuação. Apresentamos o Claw-SWE-Bench, um benchmark multilíngue no estilo do SWE-bench e um protocolo adaptador que torna harnesses heterogêneos (claws) comparáveis em condições justas, incluindo prompt fixo, orçamento de tempo de execução, contrato de workspace, procedimento de extração de patch e avaliador. O benchmark completo contém 350 instâncias de resolução de issues do GitHub em 8 linguagens e 43 repositórios, extraídas do SWE-bench-Multilingual e do SWE-bench-Verified-Mini após limpeza de commits futuros. Também lançamos o Claw-SWE-Bench Lite para validação mais rápida, um subconjunto de 80 instâncias selecionado por um procedimento ciente de custo e classificação em 17 colunas de calibração. No benchmark completo, o OpenClaw com um adaptador minimalista de diff direto pontua apenas 19,1% de Pass@1, enquanto o adaptador completo atinge 73,4% com o mesmo backbone GLM 5.1, mostrando que o design do adaptador é essencial para habilitar harnesses no estilo OpenClaw a realizar tarefas de codificação de forma eficaz. Em uma varredura de nove modelos para o OpenClaw e uma varredura de cinco claws com dois modelos, a escolha do modelo altera o Pass@1 em 29,4 pp e a escolha do harness em 27,4 pp com modelos fixos; sistemas com acurácia similar podem diferir substancialmente no custo total de API. O Claw-SWE-Bench trata, portanto, o harness e a contabilização de custos como eixos de primeira classe na avaliação de agentes de codificação no estilo SWE, oferecendo tanto um benchmark completo quanto um conjunto de referência de baixo custo para comparação reproduzível. Os dados estão disponíveis em https://github.com/opensquilla/claw-swe-bench e https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
Os modelos de recompensa são centrais no pós-treinamento de texto para imagem, mas a preferência visual é subjetiva e melhor representada como uma distribuição sobre pontuações de rubrica do que como um escalar determinístico. Modelos de recompensa existentes baseados em escalares, tokens de pontuação e pares comprimem excessivamente a incerteza e diferenças sutis de pontuação, enquanto recompensas gerativas baseadas em raciocínio fornecem julgamentos mais robustos, porém são caras de implementar e difíceis de usar como sinais diretos de otimização. Propomos o Z-Reward, um框架 de modelagem de recompensa professor-aluno que desacopla o julgamento pesado em raciocínio da implantação eficiente da recompensa. O professor é um grande VLM que utiliza raciocínio para inferir distribuições de pontuação alinhadas à rubrica e é treinado com Otimização Direta de Pontuação em Grupo (GDSO), que combina recompensas de gradiente de política a partir de expectativas de distribuição com supervisão direta pontual e pareada sobre distribuições de pontuação e lacunas de pontuação. O aluno é treinado com Destilação de Pontuação Internalizada por Raciocínio (RISD), que transfere a distribuição de pontuação condicionada ao raciocínio do professor para um VLM compacto, sem exigir cadeias de raciocínio explícitas no momento da inferência. Em nosso conjunto de avaliação anotado internamente, o professor GDSO de 27B atinge 89,6% de precisão de preferência humana, superando SFT, RewardDance e GRPO, enquanto o aluno RISD de 9B atinge 88,6%, superando a linha de base OPD e aproximando-se do professor maior. Adicionalmente, mostramos que o Z-Reward pode servir como um sinal de recompensa diferenciável para otimização texto-imagem, resultando em uma melhoria líquida de 41,3% na preferência humana em relação à linha de base SFT.
Codificadores tabulares são geralmente avaliados dentro de pipelines de ponta a ponta específicos para tarefas, portanto, modelos de diferentes paradigmas de treinamento são difíceis de comparar diretamente, mesmo quando operam em sinais tabulares semelhantes. Apresentamos o TRL-Bench, um benchmark multigranular de aprendizado de representação tabular (TRL) que padroniza a avaliação em nível de representação entre paradigmas: cada codificador exporta embeddings de linhas, colunas ou tabelas por meio de seu wrapper suportado, e cabeças leves compartilhadas os sondam em três suítes: TRL-CTbench (coluna/tabela), TRL-Rbench (linha) e TRL-DLTE (Enriquecimento Composicional de Tabelas em Data Lake abrangendo todas as três granularidades). Para apoiar essa configuração padronizada, disponibilizamos ativos de benchmark curados e reformulações de tarefas, incluindo 50 tabelas do OpenML com 123 alvos verificados, 16 reescritas de vinculação de pares de linhas e um lago DLTE de 47.772 tabelas derivado de 1.379 tabelas pai. Em 20 modelos e 16 tarefas, o TRL-Bench mostra que, uma vez padronizadas as condições de downstream, a qualidade do codificador é específica da capacidade, e não capturada por um único ranking. No TRL-CTbench, codificadores de texto genéricos frequentemente lideram em tarefas com forte sinal textual superficial, enquanto especialistas tabulares vencem onde seu objetivo de pré-treinamento se alinha com a tarefa. No TRL-Rbench, predição intra-tabela e vinculação entre tabelas favorecem regimes de treinamento diferentes, com o desempenho de vinculação atômica correlacionando-se fortemente com o estágio de correspondência de linhas dos pipelines DLTE. No TRL-DLTE, os pipelines mais fortes combinam especialistas compatíveis por capacidade, em vez de reutilizar um único codificador, e a qualidade de ponta a ponta superior depende de um ajuste composicional não aditivo, e não apenas da classificação marginal por estágio. O TRL-Bench fornece um protocolo comum para medir sinal reutilizável em representações tabulares exportadas sob condições compartilhadas de downstream. Código e dados: https://github.com/LOGO-CUHKSZ/TRL-Bench
O raciocínio espacial a partir de vídeos egocêntricos é inerentemente desafiador porque as evidências observáveis são limitadas pela trajetória da câmera. Métodos existentes dependem de inferência de turno único, forçando modelos a resolver ambiguidades geométricas por meio de priores semânticos em vez de evidências verificáveis. Argumentamos que o raciocínio espacial deve ser revisável: conclusões formadas com evidências limitadas devem permanecer abertas a revisão quando pontos de vista complementares se tornarem disponíveis. Com base nessa percepção, propomos o Reason, then Re-reason (ReRe), um framework livre de treinamento, em tempo de inferência, com duas fases: na Fase de Raciocínio, um MLLM forma uma hipótese espacial a partir do vídeo original; na Fase de Re-raciocínio, ele verifica ou revisa a hipótese ao observar um vídeo de nova vista sintetizado. Para permitir uma revisão eficaz entre vistas, projetamos um pipeline Geometria-para-Vídeo que renderiza novas vistas estrategicamente complementares a partir da geometria 3D prevista. Essas vistas apresentam uma perspectiva elevada e oblíqua, com cobertura abrangente da cena, preservando a interface nativa de vídeo do MLLM sem modificações arquiteturais. Avaliações extensas no VSI-Bench e STI-Bench demonstram que o ReRe impulsiona substancialmente MLLMs de código aberto a rivalizar com o desempenho proprietário de última geração. Página do projeto: https://zhenjiemao.github.io/ReRe/
À medida que as capacidades dos agentes de código baseados em LLM continuam a avançar, seu papel esperado está se expandindo além da correção localizada de bugs em bases de código existentes, em direção à arquitetura e implementação de repositórios de software completos a partir de especificações de alto nível. No entanto, treinar agentes para essas tarefas de engenharia de software de longo horizonte continua sendo difícil devido à escassez de dados de geração de repositórios completos, verificáveis e em larga escala. Neste artigo, apresentamos o DeNovoSWE, um conjunto de dados em larga escala para geração de repositórios completos. O DeNovoSWE compreende 4.818 instâncias de alta qualidade, onde cada instância requer a geração de um repositório completo a partir de documentação. Nosso conjunto de dados é construído automaticamente por meio de um fluxo de trabalho agentivo em sandbox cuidadosamente projetado, permitindo curadoria escalável sem anotação humana. O DeNovoSWE é construído com a filosofia de "dividir e conquistar" e de crítica e reparo. Para equilibrar qualidade e diversidade dos dados, introduzimos ainda uma estratégia de filtragem de trajetórias ciente de dificuldade. O ajuste fino do Qwen3-30B-A3B no DeNovoSWE melhora substancialmente o desempenho em engenharia de software de longo horizonte, elevando sua pontuação no desafiador benchmark BeyondSWE-Doc2Repo de 5,8% para 47,2%.
Modelos Visão-Linguagem-Ação (VLA) herdam a fundamentação semântica de pré-treinamentos em grande escala e apresentam desempenho competente em tarefas de manipulação dentro da distribuição. Essa fundamentação, contudo, é construída com pares estáticos de imagem-texto, enquanto a manipulação é um processo contínuo e rico em contato, cujas dinâmicas esse pré-treinamento não consegue capturar. Apresentamos o World Pilot, uma estrutura VLA que aumenta a política com priores de um Modelo Mundo-Ação (WAM), roteados para a cadeia de decisão por meio de duas vias complementares. O Direcionamento Latente condiciona a camada de percepção a um latente de evolução da cena, e o Direcionamento de Ação fornece uma trajetória antecipada como um prior de movimento ao gerador de ações. Juntos, os dois priores equipam o VLA com uma visão antecipada da cena e uma dica de movimento em nível de trajetória, além de seu condicionamento semântico, e o prior de evolução da cena permanece eficaz mesmo quando fornecido por um modelo mundial pré-treinado em vídeo que não foi pós-treinado em ação. O World Pilot atinge uma Taxa de Sucesso Total de 84,7% no benchmark zero-shot fora da distribuição (OOD) LIBERO-Plus, além da maior taxa de sucesso em todos os cenários reais de robôs em quatro tarefas de manipulação, com as maiores margens sob mudanças de ponto de vista, geometria, estado deformável e pose. Site do projeto: https://world-pilot.github.io/
Transformadores dominam a modelagem moderna de sequências, mas sua atenção quadrática incorre em um custo computacional substancial. Arquiteturas subquadráticas oferecem uma alternativa escalável. No entanto, ainda não está claro quais designs resultam nos modelos de sequência mais eficazes. Comparamos três abordagens principais: xLSTM, Mamba-2 e Gated DeltaNet. Avaliamos esses modelos em tarefas com dependências complexas: (1) pré-treinamento de modelos de código, (2) destilação de modelos de código a partir de grandes modelos de linguagem e (3) pré-treinamento de modelos fundacionais de séries temporais. Nesses contextos, o xLSTM apresenta o desempenho geral mais forte. Para explicar a vantagem do xLSTM, apresentamos uma formulação unificada e analisamos os mecanismos arquitetônicos subjacentes, com foco no rastreamento de estado e na dinâmica de memória. Nossos resultados mostram que o xLSTM permite uma correção de memória mais flexível e estável por meio de seu esquema de portas. Corroboramos essas descobertas em tarefas controladas sintéticas de generalização de comprimento. No geral, nossos resultados indicam que os ganhos do xLSTM em tarefas complexas decorrem de um rastreamento e acumulação robustos do estado.
A combinatória é central para a resolução de problemas matemáticos de nível olímpico, exigindo raciocínio discreto profundo, construções criativas e visão estrutural rigorosa. Evidências recentes sugerem que mesmo os modelos de fronteira mais fortes atuais permanecem irregulares em combinatória olímpica, revelando uma lacuna no raciocínio matemático criativo. Apresentamos o ComBench, um benchmark de combinatória de nível olímpico para avaliar e diagnosticar as capacidades de raciocínio combinatório de grandes modelos de linguagem. O ComBench contém 100 problemas de nível competitivo anotados por humanos, organizados em dois cenários complementares: problemas centrados em análise, que exigem primordialmente argumentos matemáticos rigorosos, e problemas centrados em construção, que exigem construções explícitas além de justificativas de correção. O protocolo de avaliação combina gradação de provas orientada por rubrica com verificação determinística de construção, expondo casos onde a qualidade da prova e a validade da construção divergem. Experimentos com modelos de fronteira de código aberto e fechado mostram que o ComBench está longe de estar saturado: o modelo mais forte alcança 65,4% de Média geral e 75,3% de Best@4 geral. Descobrimos ainda que Raciocínio de Prova Rigorosa e Realização Construtiva são capacidades distintas: Kimi-K2.6 fica atrás do GPT-5.5 na gradação de provas centradas em análise, mas o supera no Best@4 centrado em construção, enquanto problemas de Existência e Construção permanecem consistentemente os mais difíceis entre os modelos de fronteira representativos.
O progresso recente em modelos de base tem se direcionado para o comportamento agentivo, envolvendo raciocínio em múltiplas etapas e uso de ferramentas. No entanto, os esforços de código aberto concentram-se majoritariamente em configurações dominadas por texto, deixando tarefas multimodais de longo horizonte pouco exploradas. Essa lacuna é evidente em tarefas de vídeo que exigem compreensão temporal sustentada e interação iterativa. Apresentamos o InternVideo3, uma estrutura que aprimora essas capacidades por meio do Raciocínio Contextual Multimodal (MCR – Multimodal Contextual Reasoning). O MCR trata a compreensão como um processo em malha fechada sobre um contexto compartilhado e em evolução, contendo observações, instruções, raciocínio, ações de ferramentas e memória. Isso enquadra a compreensão de vídeos longos como acumulação e verificação de evidências. Para garantir eficiência, introduzimos a Atenção Latente Multimodal com Múltiplas Cabeças (M²LA – Multimodal Multi-head Latent Attention), uma reparametrização preservadora de tokens que comprime os estados do cache KV enquanto retém o fluxo completo de tokens. Nosso treinamento em estágios inclui pré-treinamento continuado, ajuste fino supervisionado de curto para longo, aprendizado por reforço baseado em regras e destilação on-policy. Experimentos mostram que o InternVideo3 alcança desempenho robusto em benchmarks como Video-MME, MLVU e EgoSchema. Além disso, instanciamos o modelo como um agente de vídeo com ferramentas de recuperação, demonstrando comportamento robusto fundamentado em evidências. Nossos resultados sugerem que o manuseio eficiente de contexto e o raciocínio em malha fechada são vitais para adaptar modelos multimodais abertos rumo a uma agência visualmente fundamentada de longo horizonte.
Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais utilizados para geração de código, levantando preocupações de que possam ser usados indevidamente para produzir código malicioso. Entretanto, a Decodificação com Restrições Gramaticais (GCD) tem sido amplamente adotada para melhorar a confiabilidade do código gerado por LLMs, impondo validade sintática. Neste artigo, revelamos um risco contraintuitivo: essa técnica orientada à confiabilidade pode se tornar, ela própria, uma superfície de ataque. Descobrimos um novo ataque de jailbreak, denominado CodeSpear, que explora a GCD para induzir LLMs a gerar código malicioso. Nossos experimentos mostram que simplesmente aplicar uma restrição gramatical de código benigno pode efetivamente realizar o jailbreak de LLMs. Para lidar com essa vulnerabilidade, propomos o CodeShield, uma abordagem de alinhamento de segurança que preserva de forma robusta o comportamento seguro mesmo sob restrições gramaticais controladas pelo atacante. O CodeShield alinha o modelo na modalidade de código, ensinando-o a gerar código honeypot sob GCD. Esse código é semanticamente inofensivo, portanto não implementa a solicitação maliciosa, e estruturalmente diverso, dificultando sua supressão por meio do aperto gramatical. Ao mesmo tempo, o CodeShield ainda preserva recusas em linguagem natural quando esta está disponível. Experimentos em 10 LLMs populares em 4 benchmarks mostram que o CodeSpear supera as bases de referência representativas de jailbreak e aumenta a taxa de sucesso do ataque em mais de 30 pontos percentuais, em média. O CodeShield também restaura a segurança sob o CodeSpear, preservando a utilidade benigna. Nossas descobertas revelam um risco fundamental da GCD e clamam por maior atenção às suas potenciais implicações de segurança.
O aprendizado por reforço (RL) tornou-se um componente essencial em modelos modernos de linguagem de grande escala, mas o estágio de rollout continua sendo o principal gargalo nos pipelines de treinamento de RL. Embora a Predição de Múltiplos Tokens (MTP) ofereça uma solução natural para acelerar rollouts por meio de decodificação especulativa, muitos estudos observaram que as taxas de aceitação da MTP se degradam significativamente durante o treinamento de RL, resultando em ganhos limitados de velocidade. Para abordar esse gargalo, apresentamos Bebop, um estudo sistemático da MTP no pós-treinamento de LLMs, e oferecemos receitas práticas para integrar a MTP em pipelines de RL em larga escala. Primeiro, revelamos que a taxa de aceitação da MTP é fundamentalmente limitada pela flutuação da entropia do modelo, que demonstra uma clara relação linear negativa com o aumento da entropia no estágio de RL. Segundo, mostramos que a amostragem por rejeição probabilística alivia consideravelmente a perturbação introduzida pela entropia no RL em comparação com a amostragem gulosa de rascunho. Identificamos ainda que os objetivos tradicionais de treinamento da MTP (entropia cruzada ou KL) são subótimos nesses cenários e, portanto, propomos uma nova perda TV ponta a ponta que otimiza diretamente a taxa de aceitação da amostragem por rejeição em múltiplas etapas, gerando melhorias de aproximadamente 10% na taxa de aceitação, alcançando até 95% de taxas de aceitação e ganhos adicionais de até 25% no throughput de inferência em tarefas de raciocínio matemático, geração de código e tarefas agentivas. Terceiro, testamos várias estratégias de treinamento online de MTP durante o RL e mostramos que o treinamento de MTP pré-RL com perda TV ponta a ponta e amostragem por rejeição mantém uma taxa de aceitação e aceleração consistentes ao longo de todo o RL, eliminando a necessidade de atualização online custosa da MTP. Fornecemos extensos experimentos e análises que validam nossos achados. Os resultados experimentais mostram que nosso método alcança até 1,8x de aceleração ponta a ponta no treinamento de RL assíncrono dos modelos Qwen3.5, Qwen3.6 e Qwen3.7.
Aprendizado por reforço com recompensas verificáveis (RLVR) é uma abordagem promissora para aprimorar o raciocínio e o comportamento agentivo em modelos de linguagem de grande escala. No entanto, a otimização de políticas intensiva em rollouts é frequentemente limitada por contraste insuficiente de recompensa, que surge quando prompts excessivamente simples ou complexos geram feedback de baixa variância e quando recompensas baseadas apenas no resultado atribuem a mesma avaliação terminal a cada decisão em um rollout de múltiplos turnos. Esforços anteriores concentraram-se em alocar os recursos de rollout disponíveis para prompts promissores, mas exploram apenas a informatividade da amostra no nível do prompt, negligenciando a variação na informatividade no nível de prefixo entre os turnos de um mesmo rollout. Este trabalho tem como alvo o RL agentivo de múltiplos turnos, modelando cada turno de pensamento-ação-observação no estilo ReAct como um nó semanticamente distinto, permitindo que a alocação de orçamento se estenda das raízes dos prompts aos prefixos no nível de turno com continuações adicionais, o que naturalmente forma rollouts estruturados em árvore. Apresentamos o Tree Rollout Allocation for Contrastive Exploration (TRACE), uma estrutura unificada de alocação de rollout que aprimora o contraste de recompensa dentro de um orçamento de amostragem fixo. Tecnicamente, o TRACE aloca o orçamento de rollout tanto para raízes de prompts quanto para prefixos intermediários com maior probabilidade de produzir recompensas terminais mistas. Um preditor generalizável compartilhado estima a probabilidade de sucesso condicional nesses pontos de ancoragem a partir dos históricos de prefixo, orientando essa alocação. A estrutura arbórea adaptativa resultante enriquece o feedback baseado apenas no resultado e amplifica o sinal de atualização da política. Empiricamente, o TRACE alcança desempenho competitivo e ganhos de eficiência em benchmarks agentivos típicos, por exemplo, melhorando a precisão média do Qwen3-14B em Multi-Hop QA em 2,8 pontos em relação às linhas de base concorrentes, com custo de amostragem equivalente.
Modelos de visão-linguagem (VLMs) projetam imagens em centenas a milhares de tokens visuais, tornando a inferência do decodificador cara tanto em termos de computação de atenção quanto de memória cache KV. Os métodos existentes de redução de tokens visuais seguem em grande parte um paradigma de classificar e remover: eles pontuam tokens visuais, mantêm um subconjunto compacto e descartam permanentemente o restante. Mostramos que essa ação irreversível é frágil porque a importância dos tokens visuais muda ao longo da profundidade do decodificador; tokens classificados como baixos em um estágio podem se tornar relevantes em camadas posteriores, especialmente para consultas sensíveis à ancoragem (grounding). Propomos o Reroute, um plugin livre de treinamento que substitui a remoção por roteamento recuperável. Em cada estágio de roteamento, os tokens visuais selecionados passam pelos blocos do decodificador, enquanto os tokens adiados contornam o estágio e reentram no pool de candidatos na próxima decisão de roteamento. O Reroute reutiliza regras existentes de classificação por pontuação de atenção e cronogramas por estágio, preservando a classe teórica de TFLOPs e orçamento de cache KV do método de poda que ele aumenta. Em variantes FastV, PDrop e Nüwa nos backbones LLaVA-1.5 e Qwen, o Reroute melhora a ancoragem sob redução agressiva de tokens, mantendo o desempenho geral em VQA. Esses resultados sugerem que a redução de tokens visuais em VLMs não deve ser vista apenas como poda irreversível, mas também como roteamento recuperável. O código pode ser encontrado aqui: https://github.com/elmma/mllm-reroute/
Encontrar direções interpretáveis em representações de modelos de linguagem é crucial para compreender e controlar o comportamento do modelo. Autoencoders esparsos (SAEs) tornaram-se a ferramenta padrão para esse fim, mas utilizá-los como primeira lente padrão frequentemente exige treinar, armazenar e avaliar grandes dicionários supercompletos. Esse gargalo limita a exploração rápida e levanta uma questão fundamental: quanta estrutura interpretável já é visível a partir da geometria de ativação antes de treinar outro dicionário neural? Nossa intuição é simples: muitas direções interpretáveis são seletivas em tokens, e essas direções devem parecer menos gaussianas do que direções aleatórias. Portanto, revisitamos a análise de componentes independentes (ICA), um método clássico para encontrar direções não gaussianas, como uma lente compacta para a interpretabilidade de modelos de linguagem. Descobrimos que a ICA tem sido subestimada para interpretabilidade de LLMs, porque usos anteriores frequentemente dependiam de implementações prontas de ICA que são frágeis em ativações de LLMs e careciam de ferramentas sistemáticas para inspecionar e avaliar as direções recuperadas. Para superar essas lacunas, introduzimos o ICALens, o primeiro fluxo de trabalho prático para análise de ICA estável, eficiente e auditável de representações de LLMs. Ele combina um pipeline FastICA paralelo em GPU otimizado com receitas de estabilidade específicas para LLMs e diagnósticos de ajuste melhores, permitindo uma análise eficiente e confiável camada por camada. Em GPT-2 Small, Gemma 2 2B e Qwen 3.5 2B Base, o ICALens recupera eficientemente direções compactas e interpretáveis por humanos sem treinamento de dicionários baseado em gradiente por camada. No SAEBench, a ICA é competitiva com SAEs públicos em sondagem esparsa e os supera em perturbação direcionada de sondas sob orçamentos pequenos a médios. Esses resultados sugerem que a ICA não deve ser vista como uma linha de base fraca, mas como uma primeira lente eficiente e complementar para explorar representações de modelos de linguagem.
O treinamento autônomo de LLMs é frequentemente enquadrado como busca de receitas, o que deixa a estrutura de treinamento em grande parte estática. Essa limitação torna-se mais evidente no RL agentivo, onde gargalos mutáveis e recompensas escalares mascaram diversos modos de falha. Apresentamos o EvoTrainer, uma estrutura de treinamento autônoma que co-evolui políticas de LLM e estruturas do lado do treinamento por meio de feedback empírico: ela diagnostica evidências em nível de rollout, revisa diagnósticos, testa retrospectivamente intervenções e acumula habilidades reutilizáveis. Avaliado em raciocínio matemático, geração de código para programação competitiva e engenharia de software em nível de repositório, o EvoTrainer iguala ou supera as referências de RL projetadas por humanos sob os mesmos dados, base de código e protocolo de avaliação, com o maior ganho em SWE agentivo de longo horizonte. Análises de trajetória mostram que as estratégias retidas divergem entre domínios, diagnósticos em evolução impedem que ramificações inválidas com alta pontuação sejam promovidas e habilidades reutilizáveis moldam a busca posterior. O RL autônomo de LLMs deve ir além da busca de receitas em direção à evolução conjunta das políticas e das estruturas de treinamento que as interpretam.
Apresentamos o Embodied-R1.5, um Modelo Fundamental Incorporado (EFM) unificado que integra capacidades abrangentes de raciocínio incorporado, abrangendo cognição incorporada, planejamento de tarefas, correção e apontamento, dentro de uma única arquitetura rumo à inteligência física geral. Aproveitando três pipelines automatizados de construção de dados para expandir significativamente a cobertura de dados de capacidades críticas, construímos um sistema de dados em larga escala com mais de 15 bilhões de tokens e projetamos uma receita de RL multitarefa balanceada para aliviar conflitos de tarefas heterogêneas. Introduzimos ainda um framework em malha fechada Planejador-Embasador-Corretor (PGC) que permite a um único modelo executar e autocorrigir-se autonomamente em tarefas de horizonte longo. Com apenas 8 bilhões de parâmetros, o Embodied-R1.5 alcança estado da arte em 16 dos 24 benchmarks VLM incorporados, superando modelos líderes como Gemini-Robotics-ER-1.5 e GPT-5.4. Beneficiando-se das capacidades incorporadas internalizadas, o Embodied-R1.5 pode ser ajustado em um VLA com apenas uma pequena quantidade de dados, superando modelos VLA líderes como o π₀,₅ em 4 conjuntos populares de benchmarks de manipulação. Realizamos ainda extensos experimentos zero-shot com robôs reais, validando o desempenho em seguimento de instruções, fundamentação de affordance, manipulação de objetos articulados e tarefas complexas de horizonte longo, demonstrando forte generalização para o mundo físico. Disponibilizamos pesos de modelo, conjuntos de dados, código de treinamento e o EmbodiedEvalKit, um framework de avaliação adaptado para tarefas incorporadas, em código aberto, para facilitar pesquisas futuras em EFMs.
A Aprendizagem por Reforço (AR) com ambientes verificáveis emergiu como uma abordagem poderosa para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Embora pesquisas anteriores demonstrem que o escalonamento da quantidade de ambientes melhora o desempenho da AR, os métodos existentes de construção manual ou individual sofrem de limites de escalonamento linear, dificultando assim a generalização escalável do raciocínio. Este artigo apresenta o RACES (Recursive Automated Composition for Environment Scaling), uma estrutura conceitual que trata ambientes verificáveis como blocos de construção componíveis que podem ser montados recursivamente. A percepção central é que, quando o codomínio (tipo de saída) de um ambiente corresponde ao domínio (tipo de entrada) de outro, eles podem ser automaticamente fundidos em um novo ambiente verificável, possibilitando a composição recursiva. O RACES é implementado com 300 ambientes individuais e define um conjunto de operadores de composição (SEQUENTIAL, PARALLEL, SORT e SELECT) que induzem padrões diversos de raciocínio. Experimentos extensivos mostram que o treinamento com AR nesses ambientes compostos melhora consistentemente a generalização do raciocínio. Especificamente, o RACES melhora o DeepSeek-R1-Distill-Qwen-14B em média 3,1 pontos (de 48,2 para 51,3) e eleva o desempenho do Qwen3-14B de 58,8 para 61,1 em seis benchmarks, que não foram vistos durante a construção dos ambientes de treinamento. Além disso, o RACES alcança desempenho comparável ao treinamento com 300 ambientes individuais utilizando apenas 50 ambientes base, demonstrando eficiência significativa na utilização de ambientes.
Geradores de vídeo pré-treinados são modelos visuais do mundo promissores que exibem habilidades emergentes de resolução de tarefas; no entanto, sua dependência de descrições textuais detalhadas limita seu uso direto para planejamento e tomada de decisão. As abordagens existentes ou terceirizam esse raciocínio para modelos de linguagem ou visão-linguagem, ou dependem de ajuste fino supervisionado com vídeos pareados de execução de tarefas, que são caros de coletar e difíceis de escalar. Propomos uma estrutura escalável que extrai a habilidade de resolução de tarefas nesses modelos combinando autodestilação com aprendizado por reforço. Dada uma imagem de cena não rotulada, um modelo visão-linguagem gera uma tarefa candidata e uma solução detalhada passo a passo. A solução condiciona um modelo de difusão de vídeo pré-treinado, o Demonstrador; destilamos seu comportamento em um Executor condicionado apenas à imagem e a um breve prompt de tarefa. Isso transfere o conhecimento de execução da geração guiada por legenda para a resolução de tarefas condicionada por instruções, sem supervisão curada de tarefa-vídeo. Melhoramos ainda mais o Executor com aprendizado por reforço a partir de feedback do VLM, explorando a assimetria entre julgar se um vídeo amostrado satisfaz uma tarefa e gerar a solução. Experimentações em nosso WorldTasks-Benchmark proposto e no benchmark robótico DreamGen mostram que o Executor supera o Demonstrador sob nosso protocolo de avaliação baseado em VLM e transfere-se de forma competitiva para tarefas robóticas.
O paralelismo de pipeline é essencial para treinar grandes redes neurais, mas os esquemas existentes fazem trocas entre vazão, memória e consistência de otimização. Pipelines síncronos preservam a consistência dos pesos entre forward e backward, mas sofrem de bolhas; pipelines assíncronos removem bolhas, mas introduzem incompatibilidade de versão dos pesos, tipicamente exigindo armazenamento de pesos, predição ou mecanismos de correção. Apresentamos o PACI (Pipeline Asynchronous training with Controlled Inconsistency), um método de pipeline assíncrono livre de bolhas que limita o desvio de versão forward/backward sem armazenamento de pesos, predição, cópias adicionais de parâmetros ou sincronização global. A ideia principal é usar a acumulação local de gradientes como um mecanismo de controle de versão: ao desacelerar a evolução da versão dos parâmetros em relação ao atraso do pipeline, o PACI limita o número de atualizações do otimizador atravessadas por qualquer micro-lote, preservando a utilização em estado estacionário. No pré-treinamento de modelos de linguagem estilo GPT, o PACI iguala a estabilidade e a perplexidade final do síncrono 1F1B-flush, mantém a mesma pegada de pico de memória, alcança vazão total de pipeline e melhora o tempo para atingir a acurácia em até 1,69 vezes em relação à linha de base flush mais rápida. Esses resultados mostram que a inconsistência forward/backward não precisa ser eliminada: quando explicitamente limitada, pode ser trocada com segurança por ganhos substanciais de eficiência.
Modelos de difusão têm impulsionado consistentemente o progresso na geração de texto para imagem. No entanto, é desafiador atribuir os avanços recentes a escolhas específicas de modelagem e dados: modelos de pesos abertos de ponta fornecem ablações limitadas e não divulgam seus dados de treinamento nem os detalhes completos do treinamento. A comunidade de pesquisa precisa de modelos totalmente abertos (pesos, dados e código) como base para pesquisas futuras; contudo, os modelos totalmente abertos existentes ainda ficam significativamente aquém dos modelos líderes em desempenho. Neste projeto, conduzimos uma investigação sistemática das escolhas de modelagem e design de dados no treinamento e inferência de difusão de texto para imagem, com mais de 300 experimentos controlados totalizando mais de 700 mil horas de TPU v6e. Nossos experimentos destacam várias descobertas empíricas (por exemplo, ponderação igualitária é um padrão forte para misturar conjuntos de dados curados) e decisões de design simples (por exemplo, adaptadores de codificador de texto maiores melhoram o desempenho com adição mínima de parâmetros) para treinar modelos robustos. Guiados por esses insights, treinamos o i1, um modelo de difusão de texto para imagem com 3 bilhões de parâmetros, utilizando apenas conjuntos de dados publicamente disponíveis. O i1 é competitivo com modelos líderes em cinco benchmarks representativos (GenEval, DPG, PRISM, CVTG-2K e LongText) e supera o melhor modelo totalmente aberto existente em 29,5 pontos percentuais absolutos, em média. Disponibilizamos os checkpoints do i1, o código de treinamento e inferência, e o pipeline de processamento de dados. Juntos, nossos achados e a receita do i1 estabelecem uma base prática para futuras pesquisas abertas em modelos de difusão de texto para imagem. Nosso código está disponível em https://github.com/zlab-princeton/i1.
Agentes de uso de computador (CUAs) dependem de observações visuais de interfaces gráficas de usuário, onde cada captura de tela é codificada em um grande número de tokens visuais. À medida que as trajetórias de interação crescem, o custo de tokens aumenta rapidamente, limitando a quantidade de histórico que pode ser incorporado sob orçamentos fixos de contexto e computação. Isso resultou em nenhuma ou melhoria muito limitada no desempenho ao utilizar histórico, diferentemente de outros domínios. Abordamos essa ineficiência introduzindo o ReVision, que é usado para treinar modelos multimodais de linguagem em trajetórias onde patches visuais redundantes são removidos utilizando um seletor de patches aprendido que compara representações de patches entre capturas de tela consecutivas, preservando a estrutura espacial exigida pelo modelo. Em três referências, OSWorld, WebTailBench e AgentNetBench, ao processar trajetórias com 5 capturas de tela de histórico usando Qwen2.5-VL-7B, o ReVision reduz o uso de tokens em 46% em média, enquanto melhora a taxa de sucesso em 3% em relação à linha de base sem descarte. Isso estabelece um claro ganho de eficiência, permitindo que agentes processem trajetórias mais longas com menos tokens. Com essa eficiência melhorada, revisitamos o papel do histórico em CUAs e descobrimos que o desempenho continua melhorando à medida que mais observações passadas são incorporadas quando a redundância é removida.
Habilidades de agentes fornecem um mecanismo leve para estender agentes de propósito geral, mas seu formato aberto as expõe a ataques de envenenamento de habilidades. Uma injeção praticamente perigosa deve permanecer invisível: se a execução da carga maliciosa desviar a tarefa legítima do usuário, o sinal de falha resultante convida à inspeção da habilidade. Portanto, avaliamos ataques pela Taxa de Sucesso de Ataque (ASR), que exige que a carga maliciosa injetada seja executada e que a tarefa do usuário ainda passe em seu verificador na mesma tentativa. Ataques anteriores de envenenamento de habilidades enfrentam um trade-off entre confiabilidade e furtividade sob essa ótica: injeções no cabeçalho YAML são carregadas de forma confiável, mas facilmente inspecionadas, enquanto injeções no corpo mais furtivas, que colocam comandos maliciosos explícitos na prosa da habilidade, são menos confiáveis porque comandos fora de contexto despertam a suspeita do próprio agente. Apresentamos o POISE, um ataque sensível à posição que comprime o gatilho em uma única instrução de corpo de aparência benigna, colocando-a em uma posição viável e usando um gerador sensível ao contexto para mesclá-la com etapas de configuração ou pré-requisitos próximas. No Skill-Inject com codex+gpt-5.2, o POISE atinge 89,3% de ASR, 28,0 pontos acima de uma linha de base de corpo com posicionamento aleatório e 2,6 pontos acima de uma linha de base apenas YAML, mantendo a vantagem de furtividade do posicionamento no corpo. Essa furtividade é a margem decisiva: como corpos legítimos de habilidades exigem naturalmente operações privilegiadas de ferramentas, os scanners de LLM são hipersensíveis, sinalizando falsamente 74,6% das habilidades limpas em média, considerando quatro avaliadores e ambos os benchmarks. Misturando-se a esses falsos alarmes, o POISE faz com que apenas 5,6% das variantes envenenadas obtenham um novo alerta de alto risco em relação às suas linhas de base limpas, tornando as defesas estáticas atuais ineficazes.
A previsão da Vida Útil Remanescente (RUL) é essencial para a manutenção preditiva industrial, porém muitas abordagens baseadas em aprendizado dependem de extensa engenharia de atributos ou grandes conjuntos de dados rotulados para treinar modelos sequenciais específicos para cada tarefa. Neste trabalho, introduzimos uma abordagem de aprendizado leve, na qual utilizamos um modelo base de séries temporais (TSFM) pré-treinado e congelado, combinado com uma pequena cabeça de regressão para estimativa de RUL a partir de fluxos de sensores multivariados. Mais especificamente, empregamos o Chronos-2 como um backbone congelado para extrair características da janela de contexto e treinamos uma rede neural de regressão leve para previsão de RUL. Experimentos com dados reais de sensores industriais de dois tipos de dispositivos mostram que as características do Chronos-2 melhoram consistentemente os resultados em relação a baselines recorrentes, convolucionais, baseadas em Transformers e boosting gradiente, sob o mesmo protocolo de pré-processamento e avaliação. Analisamos ainda o impacto do comprimento do contexto e constatamos que o desempenho melhora significativamente com históricos mais longos, indicando que as representações TSFM oferecem uma alternativa prática e eficiente em termos de dados para a estimativa de RUL em ambientes industriais.
Muitos modelos modernos de visão-linguagem (VLMs) baseiam-se na decodificação autorregressiva de tokens discretos. Embora as interfaces de saída baseadas em texto possibilitem pré-treinamento escalável e forte generalização zero-shot em diversas tarefas, elas são inadequadas para problemas que exigem saídas contínuas precisas, como localizar limites temporais de eventos ou gerar ações de controle robótico. Para enfrentar esse desafio, propomos o DRIFT, um framework geral para adaptar VLMs pré-treinados a tarefas de decodificação contínua. O DRIFT combina um preditor base, que fornece uma estimativa grosseira da saída alvo, com um módulo de refinamento generativo baseado em flow matching que melhora iterativamente a predição. Essa formulação residual transforma o problema de modelagem generativa de aprender uma distribuição global de saída para modelar uma distribuição residual localizada em torno de um prior forte, simplificando substancialmente a otimização. Avaliamos o DRIFT em tarefas de percepção e planejamento, incluindo fundamentação visual e controle robótico. Em múltiplas tarefas e arquiteturas abrangendo MLLMs, VLAs e WAMs, o DRIFT supera consistentemente um conjunto robusto de soluções baseadas em regressão e geração.
Existem duas principais técnicas de Ajuste Fino com Eficiência de Parâmetros (PEFT) para Modelos de Linguagem Grandes (LLMs). Enquanto a Adaptação de Baixo Posto (LoRA) introduz pesos adicionais entre as camadas do LLM, a Promptização Suave (Soft Prompting) introduz tokens brutos específicos ao ajuste fino na entrada do LLM. No entanto, ambas exigem modificação nos grafos computacionais de LLMs pré-compilados e pré-otimizados. Como resultado, nenhuma delas é totalmente suportada em motores de alto rendimento como o vLLM. Propomos o ajuste fino com ART (Treinamento por Reforço Baseado em Arte, do inglês Art-based Reinforcement Training). O método injeta informações em um Modelo de Linguagem Grande Multimodal (MLLM) congelado, otimizando apenas sua entrada visual bruta, possibilitando assim a abordagem de tokens suaves em grafos computacionais pré-compilados. Ele depende da retropropagação dos gradientes de volta para uma matriz de pixels simples, suportando, portanto, qualquer objetivo de ajuste fino. Além disso, a entrada visual otimizada pode ser estilizada como obras de arte computacionais relevantes à tarefa. A eficácia da abordagem é confirmada para diferentes tamanhos da popular arquitetura Qwen de código aberto e para vários referenciais textuais. Especificamente, o ART atinge precisão competitiva com LoRA em referencias de matemática e de uso estruturado de ferramentas.
Trabalhos anteriores mostraram que modelos de linguagem de grande escala (LLMs) ajustados por instruções são menos calibrados do que suas contrapartes pré-treinadas de base. No entanto, pouco se sabe sobre o efeito do modelo de chat frequentemente utilizado na calibração de LLMs conversacionais. Neste trabalho, investigamos os mecanismos que impulsionam essa calibração inadequada, separando os efeitos do algoritmo de pós-treinamento e do formato de chat. Descobrimos que, embora o ajuste por instruções prejudique fundamentalmente a calibração, o modelo de chat agrava o problema por meio de um "viés de propriedade" — os modelos são significativamente mais confiantes em suas próprias respostas do que em respostas idênticas fornecidas por um usuário. Experimentos extensivos em seis LLMs recentes de pesos abertos, três benchmarks e três métodos de elicitação de confiança mostram que os modelos atribuem até 26% mais confiança às suas próprias respostas. Aproveitando esse insight, propomos uma estratégia simples em tempo de inferência: enquadrar a resposta do modelo como entrada do usuário durante a elicitação de confiança. Essa abordagem reduz significativamente o excesso de confiança e melhora a calibração em até 26% sem a necessidade de retreinamento, estreitando a lacuna entre os modelos de base e os ajustados por instruções.
Grandes Modelos de Linguagem (LLMs) oferecem novo potencial para tarefas de tradução, mas frequentemente apresentam degradação de desempenho ao lidar com línguas de baixos recursos. Para superar essa limitação, propomos uma abordagem de ajuste fino de LLMs em uma língua de baixos recursos, o Malaio de Kupang. Nossa abordagem envolve a elaboração de um conjunto de instruções, aproveitando características lexicais e semânticas explícitas de um dicionário bilíngue, e a introdução do Ajuste Contínuo de Instruções (CIT, na sigla em inglês), um paradigma de treinamento que possibilita o treinamento iterativo baseado em instruções. Os resultados experimentais demonstram que nosso modelo, denominado Lius, apresenta melhorias notáveis em relação a modelos padrão ajustados por instruções, superando-os em 4 a 6 pontos percentuais, e ultrapassando tanto modelos de Tradução Automática Neural (NMT) quanto LLMs multilíngues em 10 a 13 pontos em diversas métricas de avaliação. Esses achados destacam o potencial de nossa abordagem para mitigar a dependência de dados paralelos em larga escala na tradução de línguas de baixos recursos.
Modelos de linguagem de grande porte (LLMs) são amplamente utilizados para resolver tarefas complexas com fluxos de trabalho autônomos. Recentemente, habilidades reutilizáveis em linguagem natural emergiram como um paradigma popular para injetar conhecimento processual em aplicações baseadas em LLMs. Como habilidades populares são frequentemente invocadas repetidamente, colocar seu texto completo em cada contexto aumenta significativamente o custo de preenchimento (prefill) e a latência. Embora técnicas de compressão de texto tenham potencial para resolver esse problema, a maioria dos métodos existentes é projetada para comprimir conhecimento factual em documentos, em vez de conhecimento processual, tornando-os insuficientes para compressão de habilidades. Neste artigo, argumentamos que um método eficaz de compressão de habilidades deve: 1) preservar dependências lógicas entre fluxos de trabalho e protocolos de ferramentas, 2) permitir compressão leve e offline para habilidades comunitárias atualizadas com frequência, e 3) ser adaptável a diferentes complexidades entre habilidades. Para resolver isso, apresentamos SKIM (SKIll coMpression), uma estrutura adaptativa de compressão de tokens suaves com múltiplas resoluções para habilidades processuais. Dependendo da complexidade de cada habilidade, o SKIM cria diferentes números de tokens suaves que não apenas melhoram a eficiência da inferência do LLM, mas também preservam a eficácia do uso da habilidade. Experimentos indicam que o SKIM comprime habilidades para 30 a 60 por cento do comprimento original dos tokens, mantendo o desempenho da tarefa melhor do que métodos de compressão existentes. Disponibilizamos nosso código em https://github.com/bebr2/SKIM .
Compreender e prever como as crenças sociais evoluem em resposta a eventos — desde mudanças políticas a descobertas científicas — continua a ser um desafio fundamental nas ciências sociais. Dado o conhecimento de senso comum e a inteligência social dos LLMs, perguntamos: Podem os LLMs modelar a dinâmica das crenças sociais na sequência de eventos sociais? Neste trabalho, introduzimos o conceito de Modelo de Mundo Social (SWM), uma estrutura geral concebida para capturar como as crenças sociais evoluem em resposta a grandes eventos. O SWM aprende funções de transição de estado para crenças sociais através da mineração de padrões temporais em dados sociais e da otimização do limite inferior da evidência, sem a necessidade de anotações humanas explícitas que liguem eventos a mudanças de crença, nem de dados censitários dispendiosos. Para avaliar o SWM, introduzimos um benchmark, SWM-bench, derivado de mercados de previsão do mundo real, especificamente Kalshi e Polymarket. O SWM-bench inclui mais de 12 mil pontos de dados para tarefas de previsão de crenças sociais, abrangendo domínios diversos como política, finanças e criptomoedas. Os nossos resultados experimentais mostram que o SWM supera significativamente os modelos fundamentais de séries temporais, alcançando resultados de ponta nos dados do Kalshi e demonstrando um desempenho competitivo nos dados do Polymarket, ao mesmo tempo que oferece insights interpretáveis sobre os mecanismos subjacentes da dinâmica das crenças sociais.
Os modelos de linguagem de grande escala (LLMs) estão em ascensão para acelerar a descoberta científica, mais recentemente em tarefas avançadas como a geração de hipóteses científicas válidas. No entanto, em muitos contextos de descoberta, o objetivo não é identificar uma única melhor hipótese, pois a validação pode ser ruidosa e cara, e os cientistas se beneficiam de um conjunto de hipóteses alternativas de alta qualidade que protegem contra incertezas posteriores para as melhores soluções. Apesar disso, receitas de busca evolucionária comumente utilizadas tendem a priorizar a otimização em detrimento da exploração na geração de hipóteses, e a pressão seletiva resultante durante o processo de busca leva ao colapso de diversidade. Motivados por essas limitações, formulamos a busca de hipóteses como um problema de amostragem, onde o objetivo é produzir eficientemente hipóteses diversas e de alta qualidade sob um orçamento fixo de validação. Com base nessa perspectiva, propomos \ours, uma estrutura evolucionária inspirada no clássico algoritmo de temperagem paralela que busca hipóteses em múltiplos níveis de temperatura e permite a troca de informações fundamentada entre temperaturas para melhorar a exploração sem interromper a convergência. Em diversos domínios, incluindo descoberta molecular, descoberta de equações e descoberta de algoritmos, nossa abordagem melhora consistentemente tanto a qualidade quanto a diversidade das hipóteses sob o mesmo orçamento de validação, e produz candidatos que permanecem robustos sob validações computacionais posteriores mais caras.
Modelos de série temporal de propósito geral transferem-se mal para telemetria de redes sem fio, cujos sinais são irregulares, com inflação de zeros e acoplados entre camadas de protocolo. Apresentamos o APEX, um transformador apenas com decodificador nativo de rede para previsão de telemetria de APs empresariais, e o avaliamos na degradação de DHCP como uma tarefa de rede representativa. O APEX é pré-treinado em telemetria multivariada de 10 canais de aproximadamente 4.500 redes sem fio de produção (~100 mil séries temporais de APs, 34 métricas por AP) e está disponível como APEX-Large (269M, nuvem) e APEX-Edge (10,5M, borda). Em um benchmark de degradação de DHCP de 192 etapas (4 dias), o APEX-Large reduz o MAE em 18% em relação à base de modelo fundamental mais forte (Toto) e 38% em relação ao SARIMA, com F1 de detecção de anomalias = 0,93, enquanto o APEX-Edge viabiliza inferência subsegundo com preservação de privacidade em hardware de borda de classe AP. Esses resultados sugerem que o pré-treinamento nativo de rede é uma base prática para operações proativas sem fio.
À medida que os sistemas de recomendação evoluem para interfaces conversacionais agentivas e de múltiplas interações, os paradigmas de avaliação têm tido dificuldade em acompanhar esse avanço. Os benchmarks atuais frequentemente recorrem a avaliações do tipo "LLM-como-juiz", que introduzem subjetividade, altos custos e inconsistência. Apresentamos o τ-Rec, um benchmark para sistemas de recomendação agentivos que substitui a avaliação subjetiva por recompensas verificáveis e um mecanismo de elicitação com revelação marcada (RTE), que controla como as restrições da tarefa surgem durante o diálogo. Ao testar agentes contra predicados estruturados de catálogo e empregar uma métrica de confiabilidade pass^k, o τ-Rec fornece um teste sistemático para raciocínio consistente. Nossa avaliação de nove configurações em cinco famílias de modelos — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B e GPT-5 mini — revela um precipício acentuado de confiabilidade, onde mesmo o melhor modelo atinge apenas ~57% em pass^1 e ~38% em pass^4, destacando uma lacuna crítica na implementação atual de agentes conversacionais. Todo o código e dados estão disponíveis publicamente em https://github.com/nbharaths/tau-rec.
Curar dados de treinamento está entre as partes mais impactantes e trabalhosas do desenvolvimento moderno de IA: profissionais propõem, implementam, avaliam e revisam iterativamente políticas de dados com base em feedback ruidoso de benchmarks. Investigamos se agentes codificadores generalistas podem automatizar esse ciclo de curadoria de dados. Apresentamos o *Curation-Bench*, um benchmark centrado em agente que fixa o modelo, a receita de treinamento e o conjunto de avaliação, ao mesmo tempo que concede aos agentes acesso via linha de comando para inspecionar dados, implementar políticas, submetê-las a um pipeline fixo de treinamento/avaliação e revisá-las. Em uma instanciação de ajuste de instrução visão-linguagem, agentes prontos para uso alcançam fortes linhas de base publicadas de seleção de dados em até dez iterações. No entanto, a análise de trajetórias revela uma persistente *lacuna entre execução e pesquisa*: os agentes ajustam principalmente variantes locais de políticas, em vez de explorar novas famílias de políticas, mesmo quando recebem guias de estratégia e referências a artigos. Estruturas de suporte que exigem que cada iteração cite, instancie e adapte um método prévio direcionam os agentes para uma exploração guiada por métodos. O agente com suporte compõe autonomamente — sem intervenção humana de design — uma política de seleção de dados que supera fortes linhas de base publicadas com um décimo do orçamento de dados delas. No geral, agentes atuais podem executar o ciclo de curadoria, mas uma pesquisa confiável de dados requer adaptação metódica com suporte estrutural, e não apenas instruções abertas. O código e o benchmark são disponibilizados como código aberto.
O pós-treinamento para modelos de raciocínio geralmente combina ajuste fino supervisionado com aprendizado por reforço baseado em recompensas verificáveis, mais comumente com GRPO. No entanto, esse algoritmo sofre de recompensas esparsas, exploração limitada e colapso de modo. Com base em trabalhos recentes sobre autodestilação, propomos a Destilação de Feedback, um método de treinamento no qual o modelo é treinado para corresponder, no nível do token, sua própria distribuição condicionada ao feedback privilegiado gerado por um modelo de linguagem. A Destilação de Feedback oferece supervisão em nível de token e pode injetar conhecimento externo. Avaliando nosso método para demonstração de teoremas no Lean4, descobrimos que a Destilação de Feedback mantém maior diversidade nas trajetórias geradas do que o GRPO, resultando em maior entropia da política e melhor escalabilidade de pass@k. Os dois métodos são complementares: inicializar o GRPO a partir de um checkpoint de Destilação de Feedback supera qualquer um dos métodos isoladamente. Em suma, nossos resultados sugerem um caminho promissor para melhorar o pós-treinamento para raciocínio complexo.
A Ressonância Magnética (RM) do cérebro desempenha um papel central no estudo do desenvolvimento neurológico, envelhecimento e doenças. Uma aplicação fundamental é a Predição de Idade Cerebral (PIC), que estima a idade cerebral biológica de um indivíduo a partir de dados de RM. Modelos eficazes de PIC exigem conjuntos de dados grandes, diversos e balanceados por idade, enquanto os conjuntos de dados de RM 3D existentes são demograficamente enviesados, limitando a equidade e a generalizabilidade. A aquisição de novos dados é cara e eticamente restrita, motivando a aumento de dados generativo. Os métodos generativos atuais são frequentemente baseados em modelos de difusão latente, que operam em espaços latentes de baixa dimensão aprendidos para lidar com as demandas de memória dos dados volumétricos de RM. No entanto, esses métodos são tipicamente lentos na inferência, podem introduzir artefatos devido à compressão latente e raramente são condicionados à idade, afetando assim o desempenho da PIC. Neste trabalho, propomos o FlowLet, uma estrutura generativa condicional que sintetiza RMs 3D condicionadas à idade, utilizando correspondência de fluxo dentro de um domínio de wavelets 3D invertível, ajudando a evitar artefatos de reconstrução e reduzindo as demandas computacionais. Experimentos mostram que o FlowLet gera volumes de alta fidelidade com poucas etapas de amostragem. O treinamento de modelos de PIC com dados gerados pelo FlowLet melhora o desempenho para grupos etários sub-representados, e a análise baseada em regiões confirma a preservação das estruturas anatômicas.
Os pipelines modernos de treinamento de LLMs dependem cada vez mais de outros modelos para gerar dados, filtrar corpora, julgar resultados e orientar decisões de desenvolvimento. Essas dependências são recursivas: um modelo pode depender de um artefato upstream cujas próprias dependências são documentadas apenas em versões e artefatos separados. Como resultado, a estrutura completa de dependências fica fragmentada em artefatos públicos heterogêneos, com complexidade e profundidade recursiva muito além da capacidade humana de rastreamento. Apresentamos o ModSleuth, um sistema agentivo que reconstrói recursivamente grafos de dependência de LLMs a partir de artefatos públicos, com evidências fundamentadas na fonte. Descobrimos que o principal desafio não é mais a extração de informações, mas sim definir o que constitui uma dependência e reconciliar referências a artefatos em documentações inconsistentes. Abordamos esses desafios por meio de uma formalização que distingue dependências diretas e indiretas, representa funções heterogêneas nos pipelines por meio de relacionamentos centrados em operações e resolve identidades de artefatos entre nomes, versões e repositórios. Aplicando o ModSleuth a quatro lançamentos de LLMs ricos em artefatos públicos, recuperamos 1.060 dependências verificadas na fonte e construímos grafos de dependência em larga escala do desenvolvimento moderno de LLMs. Esses grafos revelam obrigações de licença em múltiplos saltos, acoplamento entre treino e avaliação, discrepâncias entre artefatos lançados e artefatos usados no treinamento, e inconsistências na documentação que, de outra forma, seriam difíceis de descobrir. Disponibilizamos o ModSleuth e os grafos de dependência resultantes para apoiar a análise transparente dos ecossistemas cada vez mais complexos subjacentes aos LLMs modernos.
A atenção esparsa reduz o uso de computação e largura de banda de memória na inferência de LLMs com contexto longo. No entanto, dois desafios centrais persistem: (1) a capacidade do cache KV ainda cresce com o comprimento da sequência, e o descarregamento para a memória da CPU introduz um gargalo de transferência PCIe; (2) a própria etapa de seleção esparsa mantém complexidade O(T²) e pode dominar o custo da atenção em contextos longos. Propomos o SparDA, uma arquitetura de atenção esparsa desacoplada que introduz uma quarta projeção por camada, a Previsão, ao lado de Consulta, Chave e Valor. A Previsão prevê os blocos KV necessários para a próxima camada, permitindo uma seleção antecipada que sobrepõe a pré-busca da GPU para a CPU com a execução da camada atual. Como a Previsão é desacoplada da consulta de atenção, nossa implementação GQA usa uma cabeça de Previsão por grupo GQA, reduzindo a sobrecarga de seleção em comparação com o seletor multi-cabeça original. O SparDA adiciona <0,5% de parâmetros e treina apenas as projeções de Previsão, igualando a distribuição de atenção do seletor original. Em dois modelos pré-treinados esparsos de 8B, o SparDA iguala ou melhora ligeiramente a acurácia e oferece até 1,25× de aceleração no preenchimento e 1,7× de aceleração na decodificação em relação à linha de base de descarregamento com atenção esparsa. Ao permitir tamanhos de lote viáveis maiores em uma única GPU, o SparDA alcança ainda até 5,3× maior throughput de decodificação do que a linha de base esparsa sem descarregamento. Nosso código-fonte está disponível em https://github.com/NVlabs/SparDA.