ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3
Rumo a um agente generalista incorporado para interação no mundo real, os agentes de Modelos de Linguagem Multimodal (MLLMs) ainda sofrem com latência desafiadora, feedback esparso e erros irreversíveis. Os videojogos oferecem um ambiente de teste ideal com observações visuais ricas e interação em circuito fechado, exigindo perceção de granularidade finita, planeamento de longo horizonte e controlo preciso. No entanto, a avaliação sistemática destas capacidades é atualmente dificultada por interfaces de ação heterogéneas e verificação heurística. Para tal, introduzimos o GameWorld, um benchmark concebido para a avaliação padronizada e verificável de MLLMs como agentes generalistas de jogos em ambientes de navegador. São estudadas duas interfaces de agentes de jogo: (i) agentes de uso de computador que emitem diretamente controlos de teclado e rato, e (ii) agentes multimodais generalistas que atuam num espaço de ação semântica através de Análise Semântica de Ação determinística. O GameWorld contém 34 jogos diversificados e 170 tarefas, cada um emparelhado com métricas verificáveis de estado para avaliação baseada em resultados. Os resultados em 18 pares modelo-interface sugerem que mesmo o agente com melhor desempenho está longe de alcançar capacidades humanas em videojogos. Experiências extensivas de repetições completas do benchmark demonstram a robustez da avaliação, enquanto estudos adicionais sobre interação em tempo real, sensibilidade da memória contextual e validade da ação expõem mais desafios pela frente para os agentes de jogo. Em conjunto, ao oferecer um quadro de avaliação padronizado, verificável e reproduzível, o GameWorld estabelece uma base robusta para avançar a investigação sobre agentes multimodais de jogos e além. A página do projeto está em https://gameworld-bench.github.io.
A maioria dos modelos de recompensa para geração visual reduz ricos julgamentos humanos a uma única pontuação inexplicável, descartando o raciocínio subjacente à preferência. Mostramos que ensinar modelos de recompensa a produzir críticas explícitas e multidimensionais antes da pontuação os transforma de avaliadores passivos em ferramentas de otimização ativa, melhorando os geradores de duas formas complementares: no momento do treinamento, as racionalizações estruturadas fornecem recompensas interpretáveis e granulares para o aprendizado por reforço; no momento do teste, um ciclo Gerar-Criticar-Refinar transforma as críticas em revisões direcionadas do *prompt* que melhoram as saídas sem qualquer atualização de parâmetros. Para treinar tal modelo de recompensa sem as dispendiosas anotações de racionalização, introduzimos a Racionalização Ancorada por Preferência (PARROT), uma estrutura principista que recupera racionalizações de alta qualidade a partir de dados de preferência prontamente disponíveis por meio de geração ancorada, filtragem de consistência e destilação. O modelo resultante, RationalRewards (8B), alcança a previsão de preferência state-of-the-art entre modelos de recompensa de código aberto, competitivo com o Gemini-2.5-Pro, enquanto usa 10 a 20 vezes menos dados de treinamento do que bases de comparação equivalentes. Como recompensa para RL, ele melhora consistentemente geradores de texto-para-imagem e edição de imagem além das alternativas escalares. Mais notavelmente, seu ciclo de crítica e refinamento em tempo de teste iguala ou excede o ajuste fino baseado em RL em vários benchmarks, sugerindo que o raciocínio estruturado pode desbloquear capacidades latentes em geradores existentes que *prompts* subótimos não conseguem eliciar.
O raciocínio espacial sobre cenas tridimensionais é uma capacidade fundamental para a inteligência incorporada, no entanto, a melhoria contínua dos modelos continua limitada pelo custo da anotação geométrica. O paradigma da auto-evolução oferece um caminho promissor, mas a sua dependência do consenso do modelo para construir rótulos pseudo-verdadeiros faz com que o treino reforce, em vez de corrigir, os próprios erros geométricos do modelo. Identificamos uma propriedade única do raciocínio espacial 3D que contorna esta limitação: a verdade fundamental (ground truth) é uma consequência determinística da geometria subjacente, computável exatamente a partir de nuvens de pontos e poses de câmaras, sem qualquer envolvimento do modelo. Com base nesta perspetiva, apresentamos o SpatialEvo, um quadro de auto-evolução para o raciocínio espacial 3D, centrado no Ambiente Geométrico Determinístico (DGE). O DGE formaliza 16 categorias de tarefas de raciocínio espacial sob regras explícitas de validação geométrica e converte cenas 3D não anotadas em oráculos interativos de ruído zero, substituindo o consenso do modelo por feedback físico objetivo. Uma única política de parâmetros partilhados co-evolui entre os papéis de questionador e resolvedor sob as restrições do DGE: o questionador gera questões espaciais fisicamente válidas baseadas em observações da cena, enquanto o resolvedor deriva respostas precisas contra a verdade fundamental verificada pelo DGE. Um programador adaptativo de tarefas concentra endogenamente o treino nas categorias mais fracas do modelo, produzindo um currículo dinâmico sem desenho manual. Experiências em nove benchmarks demonstram que o SpatialEvo alcança a pontuação média mais alta tanto em escalas de 3B como de 7B, com ganhos consistentes em benchmarks de raciocínio espacial e sem degradação na compreensão visual geral.
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1
Espera-se que os agentes de IA realizem trabalho profissional em centenas de domínios ocupacionais (desde o triagem em departamentos de emergência até ao monitoramento de segurança de reactores nucleares e processamento de importações aduaneiras), no entanto, os benchmarks existentes só podem avaliar agentes nos poucos domínios onde existem ambientes públicos. Apresentamos o OccuBench, um benchmark que abrange 100 cenários de tarefas profissionais do mundo real em 10 categorias de indústria e 65 domínios especializados, possibilitado por Modelos de Mundo de Linguagem (LWMs) que simulam ambientes específicos de domínio através da geração de respostas de ferramentas orientadas por LLM. O nosso pipeline de síntese multiagente produz automaticamente instâncias de avaliação com solvabilidade garantida, dificuldade calibrada e diversidade fundamentada em documentos. O OccuBench avalia os agentes ao longo de duas dimensões complementares: conclusão de tarefas em domínios profissionais e robustez ambiental sob injeção controlada de falhas (erros explícitos, degradação implícita de dados e falhas mistas). Avaliamos 15 modelos de fronteira de 8 famílias de modelos e descobrimos que: (1) nenhum modelo único domina todas as indústrias, pois cada um tem um perfil distinto de capacidade ocupacional; (2) as falhas implícitas (dados truncados, campos em falta) são mais difíceis do que os erros explícitos (timeouts, erros 500) e falhas mistas, porque carecem de sinais de erro evidentes e exigem que o agente detete independentemente a degradação de dados; (3) modelos maiores, gerações mais recentes e maior esforço de raciocínio melhoram consistentemente o desempenho. O GPT-5.2 melhora 27,5 pontos do esforço de raciocínio mínimo ao máximo; e (4) agentes fortes não são necessariamente simuladores de ambiente fortes. A qualidade do simulador é crítica para a fiabilidade da avaliação baseada em LWM. O OccuBench fornece a primeira avaliação sistemática transversal à indústria de agentes de IA em tarefas ocupacionais profissionais.
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1
Embora o aprendizado por reforço com recompensas verificáveis (RLVR) aprimore significativamente o raciocínio de LLMs ao otimizar a distribuição condicional P(y|x), seu potencial é fundamentalmente limitado pela distribuição de saída existente do modelo base. A otimização da distribuição marginal P(y) no Espaço de Pré-treinamento aborda esse gargalo ao codificar a capacidade de raciocínio e preservar uma ampla capacidade de exploração. No entanto, o pré-treinamento convencional depende de corpora estáticos para aprendizado passivo, levando a um desvio de distribuição que dificulta o aprimoramento direcionado do raciocínio. Neste artigo, introduzimos o PreRL (Reinforcement Learning no Espaço de Pré-treinamento), que aplica atualizações online orientadas por recompensa diretamente a P(y). Validamos teórica e empiricamente o forte alinhamento de gradiente entre log P(y) e log P(y|x), estabelecendo o PreRL como um substituto viável para o RL padrão. Além disso, descobrimos um mecanismo crítico: o Reforço por Amostras Negativas (NSR) dentro do PreRL atua como um motor excepcionalmente eficaz para o raciocínio. O NSR-PreRL poda rapidamente os espaços de raciocínio incorretos, enquanto estimula comportamentos reflexivos endógenos, aumentando os pensamentos de transição e reflexão em 14,89x e 6,54x, respectivamente. Aproveitando esses insights, propomos o Dual Space RL (DSRL), uma estratégia de Reencarnação de Política que inicializa modelos com NSR-PreRL para expandir o horizonte de raciocínio antes de transitar para o RL padrão para uma otimização de granularidade fina. Experimentos extensivos demonstram que o DSRL supera consistentemente baselines fortes, provando que a poda no espaço de pré-treinamento direciona efetivamente a política para um subespaço refinado de raciocínio correto.
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1
A auto-evolução baseada em memória emergiu como um paradigma promissor para agentes de programação. No entanto, as abordagens existentes normalmente restringem a utilização da memória a domínios de tarefas homogéneos, falhando em aproveitar as fundações de infraestrutura partilhadas, como ambientes de execução e linguagens de programação, que existem em diversos problemas de programação do mundo real. Para superar esta limitação, investigamos a Aprendizagem por Transferência de Memória (MTL) através do aproveitamento de um conjunto de memória unificado de domínios heterogéneos. Avaliamos o desempenho em 6 benchmarks de programação utilizando quatro representações de memória, desde traços concretos até insights abstratos. As nossas experiências demonstram que a memória transdomínio melhora o desempenho médio em 3,7\%, principalmente através da transferência de meta-conhecimento, como rotinas de validação, em vez de código específico da tarefa. Importantemente, concluímos que a abstração dita a transferibilidade; insights de alto nível generalizam bem, enquanto traços de baixo nível frequentemente induzem transferência negativa devido à excessiva especificidade. Adicionalmente, mostramos que a eficácia da transferência escala com o tamanho do conjunto de memória, e que a memória pode ser transferida mesmo entre modelos diferentes. O nosso trabalho estabelece princípios de design empíricos para expandir a utilização da memória para além dos silos de domínio único. Página do projeto: https://memorytransfer.github.io/
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2
Os agentes de Modelos de Linguagem (LM) são cada vez mais utilizados em tarefas complexas de tomada de decisão de natureza aberta, desde programação de IA até IA física. Um requisito fundamental nestes contextos é a capacidade de explorar o espaço do problema e de explorar o conhecimento adquirido de forma eficaz. No entanto, distinguir e quantificar sistematicamente a exploração e a exploração a partir de ações observadas, sem acesso à política interna do agente, continua a ser um desafio. Para resolver isto, concebemos ambientes controláveis inspirados em cenários práticos de IA incorporada. Cada ambiente consiste num mapa de grelha 2D parcialmente observável e num Grafo Acíclico Direcionado (DAG) de tarefa desconhecida. A geração do mapa pode ser ajustada programaticamente para enfatizar a dificuldade de exploração ou de exploração. Para permitir uma avaliação independente da política, concebemos uma métrica para quantificar os erros de exploração e de exploração a partir das ações do agente. Avaliamos uma variedade de agentes LM de ponta e descobrimos que mesmo os modelos mais avançados têm dificuldades na nossa tarefa, com diferentes modelos a exibirem modos de falha distintos. Observámos ainda que os modelos de raciocínio resolvem a tarefa de forma mais eficaz e mostram que tanto a exploração como a exploração podem ser significativamente melhoradas através de uma engenharia de contenção mínima. Lançamos o nosso código https://github.com/jjj-madison/measurable-explore-exploit{aqui}.
No RL, dado um prompt, amostramos um grupo de conclusões de um modelo e as pontuamos. Duas questões se seguem: quais conclusões devem ganhar massa de probabilidade e como os parâmetros devem se mover para realizar essa mudança? Os métodos padrão de política de gradiente (policy-gradient) respondem a ambas de uma vez, então a atualização pode superestimar ou subestimar dependendo da taxa de aprendizagem, recorte (clipping) e outras escolhas do otimizador. Introduzimos a Otimização de Política Alvo (Target Policy Optimization - TPO), que separa as duas questões. Dadas as conclusões pontuadas, o TPO constrói uma distribuição alvo q_i ∝ p_i^{antigo} exp(u_i) e ajusta a política a ela por meio de entropia cruzada. O gradiente da perda nos logits das conclusões amostradas é p^θ - q, que se anula uma vez que a política corresponde ao alvo. Em bandidos tabulares (tabular bandits), tarefas de sequência de transformadores e RLVR de LLMs de bilhões de parâmetros, o TPO iguala o PG, PPO, GRPO e DG em tarefas fáceis e supera substancialmente eles sob recompensa esparsa. O código está disponível em https://github.com/JeanKaddour/tpo.
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1
Os agentes de IA para codificação tornaram-se centrais nos fluxos de trabalho de desenvolvimento, no entanto, todas as soluções existentes confinam suas capacidades de raciocínio a uma forma de entrega específica, como um CLI, um plugin de IDE ou uma aplicação web. Esta limitação cria barreiras sistêmicas quando as empresas tentam reutilizar essas capacidades em ambientes de engenharia heterogéneos. Para enfrentar este desafio, apresentamos o Sema Code, um framework aberto de codificação com IA construído sob o princípio de ser incorporável, conectável e *framework-first*. O Sema Code desacopla completamente o motor central do agente de todas as camadas de cliente, publicando-o como uma biblioteca npm autónoma que qualquer *runtime* pode operar de forma programática.
Construída em torno desta arquitetura, desenhámos oito mecanismos-chave: isolamento do motor multi-inquilino, filas de entrada FIFO com reconstrução segura de sessões, compressão adaptativa de contexto, agendamento colaborativo multiagente, gestão inteligente de processos baseada em Tarefas (*Todo*), controlo de permissões assíncrono de quatro camadas, integração de ecossistema de três níveis abrangendo MCP, *Skills* e *Plugins*, e um *framework* de tarefas em segundo plano com privilégios de execução e observação separados. Estes mecanismos abordam coletivamente os desafios de engenharia de transformar um complexo motor de agente num núcleo partilhável e programável.
Demonstrando a sua versatilidade arquitetónica, o mesmo motor Sema Core suporta simultaneamente uma extensão para VSCode e um gateway de mensagens multi-canal, que denominamos SemaClaw, para unificar as interações do agente através de plataformas como o Telegram e o Feishu. Estes representam duas formas de produto fundamentalmente diferentes que partilham um kernel de raciocínio idêntico, diferindo apenas na camada de cliente.
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1
O surgimento do OpenClaw no início de 2026 marca o momento em que milhões de usuários começaram a implantar agentes de IA pessoais em suas vidas diárias, delegando tarefas que variam desde o planejamento de viagens até pesquisas complexas com múltiplas etapas. Essa escala de adoção sinaliza que dois arcos paralelos de desenvolvimento atingiram um ponto de inflexão. O primeiro é uma mudança de paradigma na engenharia de IA, evoluindo da engenharia de *prompts* e de contexto para a engenharia de controle (*harness engineering*) – projetando a infraestrutura completa necessária para transformar agentes sem restrições em sistemas controláveis, auditáveis e confiáveis para produção. À medida que as capacidades dos modelos convergem, essa camada de controle está se tornando o principal local de diferenciação arquitetônica. O segundo é a evolução da interação humano-agente, passando de tarefas discretas para um relacionamento colaborativo persistente e contextualmente consciente, o que exige uma infraestrutura de controle aberta, confiável e extensível. Apresentamos o SemaClaw, um *framework* de aplicação multiagente de código aberto que aborda essas mudanças ao dar um passo em direção a agentes de IA pessoais de propósito geral por meio da engenharia de controle. Nossas principais contribuições incluem um método de orquestração de equipe de agentes híbrido em duas fases baseado em DAG, um sistema de segurança comportamental PermissionBridge, uma arquitetura de gerenciamento de contexto de três camadas e uma habilidade de *wiki* agentiva para construção automatizada de bases de conhecimento pessoal.
Os modelos de reconstrução 3D *feed-forward* são eficientes mas rígidos: uma vez treinados, realizam inferência de forma *zero-shot* e não conseguem adaptar-se à cena de teste. Consequentemente, reconstruções visualmente plausíveis frequentemente contêm erros, particularmente sob oclusões, reflexos especulares e pistas ambíguas. Para resolver isto, introduzimos o *Free Geometry*, um *framework* que permite aos modelos de reconstrução 3D *feed-forward* auto-evoluírem durante o teste sem qualquer *ground truth* 3D. A nossa perceção fundamental é que, quando o modelo recebe mais vistas, produz reconstruções mais fiáveis e consistentes entre vistas. Aproveitando esta propriedade, dada uma sequência de teste, mascaramos um subconjunto de *frames* para construir uma tarefa auto-supervisionada. O *Free Geometry* impõe consistência de características entre vistas (*cross-view feature consistency*) entre representações de observações completas e parciais, mantendo ao mesmo tempo as relações pareadas (*pairwise relations*) implícitas nos *frames* omitidos. Esta auto-supervisão permite uma rápida recalibração através de atualizações leves com LoRA, demorando menos de 2 minutos por *dataset* numa única GPU. A nossa abordagem melhora consistentemente modelos de base (*foundation models*) de última geração, incluindo o *Depth Anything 3* e o *VGGT*, em 4 conjuntos de dados de referência, resultando numa melhoria média de 3,73% na precisão da pose da câmara e de 2,88% na previsão do mapa de pontos. O código está disponível em https://github.com/hiteacherIamhumble/Free-Geometry.
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1
A difusão contínua tem sido a base para a geração de alta fidelidade, controlável e com poucos passos de muitas modalidades de dados, como imagens. No entanto, na modelagem de linguagem, os modelos de linguagem por difusão contínua (DLMs) anteriores ficam atrás de suas contrapartes discretas devido ao espaço de dados esparso e ao espaço de design pouco explorado. Neste trabalho, fechamos essa lacuna com o LangFlow, o primeiro DLM contínuo a rivalizar com a difusão discreta, conectando DLMs no espaço de incorporação ao Flow Matching via divergência de Bregman, juntamente com três inovações principais: (1) derivamos um novo limite de NLL baseado em EDOs para avaliação fundamentada de modelos de linguagem contínuos baseados em fluxo; (2) propomos um princípio de informação uniforme para definir o cronograma de ruído, que motiva um agendador de ruído treinável baseado em uma distribuição Gumbel; e (3) revisamos os protocolos de treinamento anteriores incorporando o auto-condicionamento, pois descobrimos que ele melhora tanto a verossimilhança quanto a qualidade das amostras de DLMs no espaço de incorporação, com efeitos substancialmente diferentes da difusão discreta. Reunindo todos os elementos, o LangFlow rivaliza com os melhores DLMs discretos tanto na perplexidade (PPL) quanto na perplexidade gerativa (Gen. PPL), atingindo uma PPL de 30,0 no LM1B e 24,6 no OpenWebText. Ele até supera as linhas de base autoregressivas na transferência zero-shot em 4 de 7 benchmarks. O LangFlow fornece a primeira evidência clara de que a difusão contínua é um paradigma promissor para a modelagem de linguagem. Página inicial: https://github.com/nealchen2003/LangFlow
A destilação de conhecimento on-policy (OPD) treina um aluno com base em suas próprias execuções (rollouts) sob supervisão a nível de token de um professor. Nem todas as posições dos tokens são igualmente importantes, mas as visões existentes sobre a importância dos tokens são incompletas. Fazemos uma pergunta direta: quais tokens carregam o sinal de aprendizagem mais útil na OPD? Nossa resposta é que os tokens informativos provêm de duas regiões: posições com alta entropia do aluno e posições com baixa entropia do aluno, mas com alta divergência professor-aluno, onde o aluno está excessivamente confiante e errado.
Empiricamente, a entropia do aluno é um forte proxy de primeira ordem: reter 50% dos tokens com amostragem baseada em entropia iguala ou supera o treinamento com todos os tokens, enquanto reduz a memória de pico em até 47%. No entanto, a entropia por si só ignora uma segunda região importante. Quando isolamos os tokens de baixa entropia e alta divergência, o treinamento com menos de 10% de todos os tokens praticamente iguala as linhas de base com todos os tokens, mostrando que os tokens de excessiva confiança carregam um sinal corretivo denso, apesar de serem quase invisíveis para regras baseadas apenas em entropia.
Organizamos essas descobertas com o TIP (Importância do Token na Destilação On-Policy), uma taxonomia de dois eixos sobre a entropia do aluno e a divergência professor-aluno, e fornecemos uma explicação teórica do porquê a entropia é útil, mas estruturalmente incompleta. Essa visão motiva regras de seleção de tokens conscientes do tipo que combinam incerteza e discordância. Validamos esse panorama em três pares professor-aluno abrangendo Qwen3, Llama e Qwen2.5 no MATH-500 e AIME 2024/2025, e no benchmark DeepPlanning para planejamento agentivo de longo horizonte, onde o treinamento apenas com Q3 em <20% dos tokens supera a OPD com todos os tokens. Nossos experimentos são implementados estendendo o repositório OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, que suporta a destilação com eficiência de memória de modelos maiores sob orçamentos limitados de GPU.
A fundamentação de interface gráfica do utilizador (GUI), que localiza elementos de interface a partir de capturas de ecrã dadas consultas em linguagem natural, continua a ser um desafio para ícones pequenos e layouts densos. Os métodos de ampliação durante o teste melhoram a localização ao recortar e reexecutar a inferência em resolução mais alta, mas aplicam o recorte uniformemente em todas as instâncias com tamanhos de recorte fixos, ignorando se o modelo está realmente incerto em cada caso. Propomos o UI-Zoomer, uma estrutura adaptativa de ampliação sem necessidade de treino que trata tanto o gatilho quanto a escala da ampliação como um problema de quantificação de incerteza preditiva. Um portão consciente da confiança funde o consenso espacial entre candidatos estocásticos com a confiança de geração a nível de token para acionar seletivamente a ampliação apenas quando a localização é incerta. Quando acionado, um módulo de dimensionamento de recorte orientado por incerteza decompõe a variância da previsão em dispersão posicional inter-amostras e extensão de caixa intra-amostra, derivando um raio de recorte por instância através da lei da variância total. Experiências extensivas no ScreenSpot-Pro, UI-Vision e ScreenSpot-v2 demonstram melhorias consistentes sobre bases de comparação fortes em múltiplas arquiteturas de modelo, alcançando ganhos de até +13,4\%, +10,3\% e +4,2\%, respetivamente, sem necessidade de treino adicional.
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham capacitado agentes de pesquisa em IA a realizar tarefas científicas isoladas, a automatização de fluxos de trabalho complexos do mundo real, como o treinamento de LLMs, continua sendo um desafio significativo. Neste artigo, apresentamos o TREX, um sistema multiagente que automatiza todo o ciclo de vida do treinamento de LLMs. Ao orquestrar a colaboração entre dois módulos centrais - o Pesquisador e o Executor - o sistema realiza de forma integrada a análise de requisitos, a pesquisa em literatura e dados de domínio aberto, a formulação de estratégias de treinamento, o preparo de "receitas" de dados, e o treinamento e avaliação do modelo. O processo experimental com múltiplas rodadas é modelado como uma árvore de busca, permitindo que o sistema planeje eficientemente caminhos de exploração, reutilize resultados históricos e destile insights de alto nível a partir de testes iterativos. Para avaliar a capacidade de treinamento automatizado de LLMs, construímos o FT-Bench, um benchmark composto por 10 tarefas derivadas de cenários do mundo real, variando desde a otimização de capacidades fundamentais do modelo até a melhoria de desempenho em tarefas específicas de domínio. Resultados experimentais demonstram que o agente TREX otimiza consistentemente o desempenho do modelo nas tarefas-alvo.
A reconstrução de objetos não rígidos com plausibilidade física continua sendo um desafio significativo. As abordagens existentes aproveitam a renderização diferenciável para otimização por cena, recuperando geometria e dinâmica, mas exigem ajustes dispendiosos ou anotação manual, o que limita a praticidade e a generalização. Para resolver isso, propomos o ReconPhys, o primeiro *framework* *feedforward* que aprende conjuntamente a estimativa de atributos físicos e a reconstrução por *3D Gaussian Splatting* a partir de um único vídeo monocular. Nosso método emprega uma arquitetura de ramificação dupla treinada por meio de uma estratégia autossupervisionada, eliminando a necessidade de rótulos de física ground-truth. Dada uma sequência de vídeo, o ReconPhys infere simultaneamente geometria, aparência e atributos físicos. Experimentos em um conjunto de dados sintético de grande escala demonstram desempenho superior: nosso método alcança 21.64 PSNR na previsão futura em comparação com 13.27 das *baselines* de otimização state-of-the-art, enquanto reduz a Distância de Chamfer de 0.349 para 0.004. Crucialmente, o ReconPhys permite inferência rápida (<1 segundo) contra as horas exigidas pelos métodos existentes, facilitando a geração rápida de *assets* prontos para simulação para robótica e gráficos.
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1
Motivados pela natureza subespecificada e de múltiplos passos das consultas de pesquisa e pela natureza multimodal, heterogênea e frequentemente conflituosa dos resultados reais da web, apresentamos MERRIN (Recuperação e Raciocínio de Evidências Multimodais em Ambientes Web Ruidosos), um benchmark anotado por humanos para avaliar agentes de pesquisa aumentada. O MERRIN mede a capacidade dos agentes de IA de identificar modalidades relevantes, recuperar evidências multimodais e realizar raciocínio de múltiplos passos sobre fontes web ruidosas. Ele difere de trabalhos anteriores em três aspectos importantes: (1) uso de consultas em linguagem natural sem pistas explícitas de modalidade, (2) incorporação de modalidades pouco exploradas, como vídeo e áudio, e (3) exigência de recuperação de evidências multimodais complexas, frequentemente ruidosas ou conflitantes, durante a pesquisa web. Avaliamos diversos agentes de pesquisa baseados em dez modelos, incluindo modelos proprietários robustos (por exemplo, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) e modelos de pesos abertos (Qwen3-4B/30B/235B), em três configurações de pesquisa (sem pesquisa, pesquisa nativa e pesquisa agentiva). Nossos resultados mostram que o MERRIN é altamente desafiador: a precisão média entre todos os agentes é de 22,3%, com o agente de melhor desempenho atingindo apenas 40,1%. Observamos ainda que, embora agentes mais fortes, como o Gemini Deep Research, atinjam um desempenho superior, os ganhos são modestos devido à superexploração; eles executam mais etapas e usam mais ferramentas, mas frequentemente se distraem com conteúdo web conflitante ou parcialmente relevante, levando a respostas incorretas. Em comparação com humanos, esses agentes consomem mais recursos, mas alcançam precisão inferior, principalmente devido à seleção ineficiente de fontes e a uma excessiva dependência de modalidades textuais. Essas descobertas destacam a necessidade de agentes de pesquisa capazes de realizar buscas e raciocínios robustos em diversas modalidades em ambientes web ruidosos, tornando o MERRIN um banco de testes valioso para avaliar tais capacidades.
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1
Apresentamos o ArcDeck, uma estrutura multiagente que formula a geração de apresentações a partir de artigos como uma tarefa de reconstrução narrativa estruturada. Diferente dos métodos existentes que resumem texto bruto diretamente em slides, o ArcDeck modela explicitamente o fluxo lógico do artigo fonte. Ele primeiro analisa o texto de entrada para construir uma árvore de discurso e estabelecer um documento de compromisso global, garantindo a preservação da intenção de alto nível. Esses *priors* estruturais então orientam um processo iterativo de refinamento multiagente, onde agentes especializados criticam e revisam iterativamente o esboço da apresentação antes de renderizar os layouts visuais e designs finais. Para avaliar nossa abordagem, também introduzimos o ArcBench, um novo benchmark curado de pares artigo-slide acadêmicos. Resultados experimentais demonstram que a modelagem explícita do discurso, combinada com a coordenação de agentes com funções específicas, melhora significativamente o fluxo narrativo e a coerência lógica das apresentações geradas.
Os métodos atuais de pós-treinamento em contextos verificáveis dividem-se em duas categorias. O aprendizado por reforço (RLVR) baseia-se em recompensas binárias, que são amplamente aplicáveis e poderosas, mas fornecem apenas supervisão esparsa durante o treino. A destilação fornece supervisão densa a nível de token, tipicamente obtida de um professor externo ou usando demonstrações de alta qualidade. Recolher tal supervisão pode ser dispendioso ou indisponível. Propomos o Self-Distillation Zero (SD-Zero), um método substancialmente mais eficiente em termos de amostras de treino do que o RL e que não requer um professor externo ou demonstrações de alta qualidade. O SD-Zero treina um único modelo para desempenhar dois papéis: um Gerador, que produz uma resposta inicial, e um Revisor, que se condiciona a essa resposta e à sua recompensa binária para produzir uma resposta melhorada. Em seguida, realizamos auto-destilação on-policy para destilar o revisor no gerador, usando as distribuições de token do revisor condicionadas à resposta do gerador e à sua recompensa como supervisão. Efetivamente, o SD-Zero treina o modelo para transformar recompensas binárias em auto-supervisão densa a nível de token. Em benchmarks de raciocínio matemático e de código com Qwen3-4B-Instruct e Olmo-3-7B-Instruct, o SD-Zero melhora o desempenho em pelo menos 10% em relação aos modelos base e supera linhas de base fortes, incluindo Rejection Fine-Tuning (RFT), GRPO e Self-Distillation Fine-Tuning (SDFT), sob o mesmo conjunto de perguntas e orçamento de amostras de treino. Estudos abrangentes de ablação mostram duas características novas do nosso algoritmo proposto: (a) auto-localização a nível de token, onde o revisor consegue identificar os tokens-chave que precisam de ser revistos na resposta do gerador com base na recompensa, e (b) auto-evolução iterativa, onde a capacidade de melhorar a revisão de respostas pode ser destilada de volta para o desempenho de geração com sincronização regular do professor.
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1
Embora a área de visão-linguagem (VL) tenha alcançado sucesso notável na integração de informações visuais e textuais em múltiplos idiomas e domínios, ainda não existe uma estrutura dedicada para avaliar o alinhamento antropocêntrico em sistemas de visão-linguagem. Oferecemos duas contribuições para abordar essa lacuna. Primeiro, introduzimos a Adaptação Regional Antropogênica: um novo paradigma que visa otimizar a relevância do modelo para contextos regionais específicos, garantindo a retenção de capacidades de generalização global. Segundo, apresentamos um método de adaptação simples, mas eficaz, denominado Geographical-generalization-made-easy (GG-EZ), que utiliza filtragem de dados regionais e fusão de modelos. Por meio de experimentos abrangentes em 3 arquiteturas de VL: grandes modelos de visão-linguagem, modelos de difusão texto-imagem e modelos de incorporação visão-linguagem, e um estudo de caso na adaptação regional do Sudeste Asiático (SEA), demonstramos a importância da Adaptação Regional Antropogênica e a eficácia do GG-EZ, mostrando ganhos de 5-15% em métricas de relevância cultural em toda a região SEA, mantendo mais de 98% do desempenho global e ocasionalmente superando-o. Nossos resultados estabelecem o Alinhamento Regional Antropogênico como um paradigma fundamental para a aplicabilidade de modelos multimodais de visão-linguagem em diversas regiões e demonstram um método de linha de base simples, porém eficaz, que otimiza o alinhamento de valores regionais preservando a generalização global.
Os agentes de interface gráfica baseados em MLLM demonstraram capacidades robustas em tarefas complexas de interação com interfaces de utilizador. No entanto, cenários de longo horizonte permanecem desafiadores, uma vez que estes agentes são sobrecarregados com tarefas além das suas capacidades intrínsecas, sofrendo de degradação de memória, confusão de progresso e alucinações matemáticas. Para enfrentar estes desafios, apresentamos o UI-Copilot, uma estrutura colaborativa na qual o agente de interface gráfica se concentra na execução de tarefas, enquanto um copiloto leve fornece assistência sob demanda para recuperação de memória e cálculo numérico. Introduzimos a dissociação de memória para separar observações persistentes do contexto de execução transitório, e treinamos o agente de política para invocar seletivamente o copiloto como Recuperador ou Calculadora com base nas exigências da tarefa. Para permitir uma aprendizagem eficaz de invocação de ferramentas, propomos a Otimização de Política Integrada com Ferramentas (TIPO), que otimiza separadamente a seleção de ferramentas através de previsão de turno único e a execução de tarefas através de rollouts multi-turno baseados em política. Resultados experimentais mostram que o UI-Copilot-7B alcança desempenho state-of-the-art no desafiador MemGUI-Bench, superando agentes de interface gráfica robustos de escala 7B, como o GUI-Owl-7B e o UI-TARS-1.5-7B. Além disso, o UI-Copilot-7B proporciona uma melhoria absoluta de 17,1% no AndroidWorld em relação ao modelo base Qwen, destacando a forte generalização do UI-Copilot para tarefas reais de interface gráfica.
Os agentes de LLM estão a adotar cada vez mais as competências (skills) como uma unidade reutilizável de composição. Embora as competências sejam partilhadas em diversas plataformas de agentes, os sistemas atuais tratam-nas como contexto bruto, fazendo com que a mesma competência se comporte de forma inconsistente em diferentes agentes. Esta fragilidade compromete a portabilidade e a eficiência de execução das competências.
Para enfrentar este desafio, analisámos 118.000 competências e inspirámo-nos no design tradicional de compiladores. Tratamos as competências como código e os LLMs como processadores heterogéneos. Para tornar a portabilidade acionável, decompomos os requisitos de uma competência num conjunto de capacidades primitivas e medimos o quão bem cada par modelo-harness as suporta. Com base nestes perfis de capacidade, propomos o SkVM, um sistema de compilação e runtime concebido para uma execução de competências portátil e eficiente. Em tempo de compilação, o SkVM realiza compilação baseada em capacidades, vinculação de ambiente e extração de concorrência. Em tempo de execução, o SkVM aplica solidificação de código JIT e recompilação adaptativa para otimização de desempenho.
Avaliámos o SkVM em oito LLMs de várias escalas e três harnesses de agentes, abrangendo o SkillsBench e tarefas de competências representativas. Os resultados demonstram que o SkVM melhora significativamente as taxas de conclusão de tarefas em diferentes modelos e ambientes, ao mesmo tempo que reduz o consumo de tokens em até 40%. Em termos de desempenho, o SkVM alcança uma aceleração de até 3,2x com paralelismo aprimorado e uma redução de latência de 19-50x através da solidificação de código.
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1
O registro de software (logging) é essencial para a manutenção e depuração de sistemas complexos, mas ainda não está claro como os agentes de codificação de IA lidam com esse requisito não funcional. Embora trabalhos anteriores caracterizem as práticas de registro humanas, os comportamentos dos agentes de IA e a eficácia das instruções em linguagem natural para governá-los são inexplorados. Para preencher essa lacuna, realizamos um estudo empírico de 4.550 pull requests agenticos em 81 repositórios de código aberto. Comparamos os padrões de registro dos agentes com bases de referência humanas e analisamos o impacto de instruções explícitas de registro. Descobrimos que os agentes alteram o registro com menos frequência do que os humanos em 58,4% dos repositórios, embora exibam maior densidade de logs quando o fazem. Além disso, instruções explícitas de registro são raras (4,7%) e ineficazes, pois os agentes deixam de cumprir solicitações construtivas em 67% das vezes. Por fim, observamos que os humanos realizam 72,5% dos reparos de log pós-geração, atuando como "zeladores silenciosos" que corrigem problemas de registro e observabilidade sem feedback explícito de revisão. Essas descobertas indicam uma dupla falha na instrução por linguagem natural (ou seja, escassez de instruções de registro e baixa conformidade do agente), sugerindo que proteções determinísticas podem ser necessárias para garantir práticas consistentes de registro.
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1
A imagem de alta faixa dinâmica (HDR) oferece uma representação rica e fiel da radiância da cena, mas continua a ser um desafio para modelos generativos devido ao seu desalinhamento com os dados limitados e comprimidos perceptualmente nos quais estes modelos são treinados. Uma solução natural é aprender novas representações para HDR, o que introduz complexidade adicional e requisitos de dados. Neste trabalho, mostramos que a geração de HDR pode ser alcançada de forma muito mais simples, aproveitando os fortes *priors* visuais já capturados por modelos generativos pré-treinados. Observamos que uma codificação logarítmica amplamente utilizada em pipelines cinematográficos mapeia a imagem HDR para uma distribuição que está naturalmente alinhada com o espaço latente destes modelos, permitindo uma adaptação direta através de *fine-tuning* leve sem a necessidade de retreinar um codificador. Para recuperar detalhes que não são diretamente observáveis na entrada, introduzimos ainda uma estratégia de treino baseada em degradações que mimetizam a câmara, incentivando o modelo a inferir conteúdo HDR em falta a partir dos seus *priors* aprendidos. Combinando estas perspetivas, demonstramos a geração de vídeo HDR de alta qualidade usando um modelo de vídeo pré-treinado com adaptação mínima, alcançando resultados robustos em diversas cenas e condições de iluminação desafiadoras. Os nossos resultados indicam que o HDR, apesar de representar um regime de formação de imagem fundamentalmente diferente, pode ser tratado eficazmente sem redesenhar os modelos generativos, desde que a representação seja escolhida para se alinhar com os seus *priors* aprendidos.
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1
A reconstrução 3D em tempo real visa recuperar informações tridimensionais, como poses de câmera e nuvens de pontos, a partir de um fluxo de vídeo, o que exige precisão geométrica, consistência temporal e eficiência computacional. Motivados pelos princípios de Localização e Mapeamento Simultâneos (SLAM), apresentamos o LingBot-Map, um modelo de base 3D *feed-forward* para reconstruir cenas a partir de dados em fluxo, construído sobre uma arquitetura de transformador de contexto geométrico (GCT). Um aspecto definidor do LingBot-Map reside em seu mecanismo de atenção cuidadosamente projetado, que integra um contexto âncora, uma janela de referência de pose e uma memória de trajetória para abordar, respetivamente, a ancoragem de coordenadas, pistas geométricas densas e a correção de *drift* de longo alcance. Este projeto mantém o estado do fluxo compacto, enquanto retém um contexto geométrico rico, permitindo inferência estável e eficiente a cerca de 20 FPS em entradas de resolução 518 x 378 ao longo de sequências longas que excedem 10.000 quadros. Avaliações extensas em vários *benchmarks* demonstram que nossa abordagem alcança desempenho superior comparado tanto a abordagens existentes de fluxo contínuo quanto às baseadas em otimização iterativa.
Os modelos de segmentação existentes baseados em modelos de linguagem multimodal (MLLMs), como o LISA, frequentemente apresentam dificuldades com entidades novas ou emergentes devido à sua incapacidade de incorporar conhecimento atualizado. Para enfrentar este desafio, introduzimos a Tarefa de Segmentação de Entidades Emergentes (NEST), que se concentra na segmentação de (i) entidades novas que os MLLMs não conseguem reconhecer devido à sua ausência nos dados de treinamento, e (ii) entidades emergentes que existem no conhecimento do modelo, mas exigem informações externas atualizadas para um reconhecimento preciso. Para apoiar o estudo da NEST, construímos um benchmark NEST utilizando um pipeline automatizado que gera amostras de dados relacionados a notícias para avaliação abrangente. Adicionalmente, propomos o ROSE: Aprimoramento de Segmentação Orientado a Recuperação, uma estrutura plug-and-play projetada para aumentar qualquer modelo de segmentação baseado em MLLM. O ROSE compreende quatro componentes-chave. Primeiro, um módulo de Geração Aumentada por Recuperação na Internet é introduzido para empregar entradas multimodais fornecidas pelo usuário para recuperar informações da web em tempo real. Em seguida, um Aprimorador de Prompt Textual enriquece o modelo com informações atualizadas e amplo conhecimento de fundo, melhorando a capacidade de percepção do modelo para entidades emergentes. Além disso, é proposto um Aprimorador de Prompt Visual para compensar a falta de exposição dos MLLMs a entidades novas, aproveitando imagens obtidas da internet. Para manter a eficiência, um módulo WebSense é introduzido para decidir inteligentemente quando invocar mecanismos de recuperação com base na entrada do usuário. Resultados experimentais demonstram que o ROSE aumenta significativamente o desempenho no benchmark NEST, superando uma forte linha de base de recuperação baseada no Gemini-2.0 Flash em 19.2 pontos de gIoU.
Os grandes modelos de linguagem estão surgindo como assistentes científicos, mas avaliar sua capacidade de raciocinar a partir de dados empíricos continua sendo um desafio. Os benchmarks derivados de estudos publicados e anotações humanas herdam viés de publicação, viés de conhecimento prévio, ruído de rótulo e requisitos substanciais de armazenamento. Apresentamos o InfiniteScienceGym, um benchmark gerado proceduralmente de repositórios científicos emparelhado com uma tarefa verificável de perguntas e respostas. A partir de uma semente, o simulador gera deterministicamente um repositório autônomo com estrutura de diretórios, arquivos e dados tabulares realistas, e um gerador privilegiado de QA produz tanto questões respondíveis quanto inrespondíveis com verdade fundamental exata. Isso possibilita avaliar o raciocínio baseado em evidências, a abstenção e a análise mediada por ferramentas em um ambiente controlado, sem distribuir um grande corpus estático. O InfiniteScienceGym complementa os benchmarks científicos reais ao direcionar pontos cegos e modos de falha que são difíceis de avaliar usando apenas conjuntos de dados publicados. Avaliando tanto modelos proprietários quanto de pesos abertos, descobrimos que nenhum alcança mais de 45% de precisão geral, que o reconhecimento de questões inrespondíveis continua sendo uma grande fraqueza e que modelos mais fortes tendem a usar ferramentas de forma mais eficaz em vez de simplesmente consumir mais tokens.
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1
Os últimos anos testemunharam um rápido desenvolvimento de agentes de interface gráfica (GUI) móveis impulsionados por grandes modelos de linguagem (LLMs), capazes de executar autonomamente diversas tarefas de controle de dispositivos com base em instruções em linguagem natural. A precisão crescente desses agentes em benchmarks padrão elevou as expectativas para uma implantação em larga escala no mundo real, e já existem vários agentes comerciais lançados e utilizados por early adopters. No entanto, estaremos realmente preparados para agentes de GUI integrados nos nossos dispositivos diários como blocos de construção do sistema? Argumentamos que falta uma validação pré-implantação importante para examinar se os agentes podem manter o seu desempenho sob ameaças do mundo real. Especificamente, ao contrário dos benchmarks comuns existentes, que se baseiam em conteúdos de aplicativos estáticos simples (têm de o fazer para garantir a consistência do ambiente entre diferentes testes), os aplicativos do mundo real estão repletos de conteúdos de terceiros não confiáveis, como e-mails de publicidade, publicações e media gerados por utilizadores, etc. ... Para tal, introduzimos uma estrutura de instrumentação de conteúdo de aplicativos escalável para permitir modificações de conteúdo flexíveis e direcionadas em aplicações existentes. Aproveitando esta estrutura, criamos um conjunto de testes que compreende tanto um ambiente de execução dinâmico de tarefas como um conjunto de dados estático de estados de GUI desafiadores. O ambiente dinâmico abrange 122 tarefas reproduzíveis, e o conjunto de dados estático consiste em mais de 3.000 cenários construídos a partir de aplicativos comerciais. Realizamos experiências em agentes de GUI tanto de código aberto como comerciais. As nossas descobertas revelam que todos os agentes examinados podem ser significativamente degradados devido a conteúdos de terceiros, com uma taxa média de indução em erro de 42,0% e 36,1% em ambientes dinâmicos e estáticos, respetivamente. A estrutura e o benchmark foram disponibilizados em https://agenthazard.github.io.
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0
Os modelos de linguagem de grande escala (LLMs) podem realizar tarefas notavelmente complexas, mas os detalhes refinados de como essas capacidades emergem durante o pré-treinamento permanecem pouco compreendidos. As leis de escalonamento baseadas na perda de valiação nos dizem o quanto um modelo melhora com poder computacional adicional, mas não quais habilidades ele adquire e em que ordem. Para remediar isso, propomos a Hipótese do Currículo Implícito: o pré-treinamento segue um currículo composicional e previsível entre modelos e misturas de dados. Testamos esta hipótese projetando um conjunto de tarefas simples e composicionais que abrangem recuperação de informação, transformações morfológicas, correferência, raciocínio lógico e matemática. Utilizando estas tarefas, rastreamos os pontos de emergência em quatro famílias de modelos, com tamanhos variando de 410 milhões a 13 bilhões de parâmetros. Descobrimos que as ordens de emergência (quando os modelos atingem limiares fixos de precisão) são notavelmente consistentes (ρ = 0,81 em 45 pares de modelos) e que as tarefas compostas emergem mais frequentemente após suas tarefas componentes. Além disso, descobrimos que essa estrutura está codificada nas representações do modelo: tarefas com representações vetoriais de função semelhantes também tendem a seguir trajetórias de treinamento semelhantes. Ao utilizar o espaço de representações derivado do nosso conjunto de tarefas, podemos prever com eficácia as trajetórias de treinamento de tarefas composicionais simples retidas (R² = 0,68-0,84 entre os modelos) ao longo do pré-treinamento, sem avaliá-las previamente. Juntos, estes resultados sugerem que o pré-treinamento é mais estruturado do que as curvas de perda revelam: as habilidades emergem em uma ordem composicional que é consistente entre modelos e legível a partir de seus estados internos.