Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o GLM-5, um modelo de base de próxima geração projetado para transicionar o paradigma da *vibe coding* para a engenharia agentiva. Com base nas capacidades de agentividade, raciocínio e codificação (ARC) de seu predecessor, o GLM-5 adota a DSA para reduzir significativamente os custos de treinamento e inferência, mantendo a fidelidade de contexto longo. Para avançar no alinhamento e na autonomia do modelo, implementamos uma nova infraestrutura de aprendizado por reforço assíncrono que melhora drasticamente a eficiência do pós-treinamento ao desacoplar a geração do treinamento. Além disso, propomos novos algoritmos de RL para agentes assíncronos que aprimoram ainda mais a qualidade do RL, permitindo que o modelo aprenda com interações complexas e de longo horizonte de forma mais eficaz. Por meio dessas inovações, o GLM-5 alcança desempenho de ponta nos principais benchmarks abertos. Mais criticamente, o GLM-5 demonstra capacidade sem precedentes em tarefas de codificação do mundo real, superando as bases anteriores no tratamento de desafios de engenharia de software de ponta a ponta. Código, modelos e mais informações estão disponíveis em https://github.com/zai-org/GLM-5.
As Habilidades de Agente são pacotes estruturados de conhecimento procedural que aumentam os agentes de LLM durante a inferência. Apesar da rápida adoção, não há uma forma padrão de medir se elas realmente ajudam. Apresentamos o SkillsBench, um benchmark com 86 tarefas em 11 domínios, emparelhadas com Habilidades curadas e verificadores determinísticos. Cada tarefa é avaliada sob três condições: sem Habilidades, com Habilidades curadas e com Habilidades autogeradas. Testamos 7 configurações de modelo de agente ao longo de 7.308 trajetórias. As Habilidades curadas aumentam a taxa média de aprovação em 16,2 pontos percentuais (pp), mas os efeitos variam amplamente por domínio (+4,5 pp para Engenharia de Software a +51,9 pp para Saúde) e 16 das 84 tarefas mostram deltas negativos. As Habilidades autogeradas não fornecem benefício em média, mostrando que os modelos não podem criar de forma confiável o conhecimento procedural do qual se beneficiam ao consumi-lo. Habilidades focadas com 2-3 módulos superam a documentação abrangente, e modelos menores com Habilidades podem equiparar-se a modelos maiores sem elas.
Os Autoencoders Esparsos (SAEs) surgiram como uma ferramenta promissora para interpretar redes neurais, decompondo suas ativações em conjuntos esparsos de características interpretáveis por humanos. Trabalhos recentes introduziram múltiplas variantes de SAEs e as aplicaram com sucesso em modelos de ponta. Apesar do grande entusiasmo, um número crescente de resultados negativos em tarefas secundárias levanta dúvidas sobre se os SAEs recuperam características significativas. Para investigar isso diretamente, realizamos duas avaliações complementares. Em uma configuração sintética com características básicas conhecidas, demonstramos que os SAEs recuperam apenas 9% das características verdadeiras, apesar de alcançarem 71% da variância explicada, mostrando que eles falham em sua tarefa principal mesmo quando a reconstrução é forte. Para avaliar SAEs em ativações reais, introduzimos três linhas de base que restringem as direções das características do SAE ou seus padrões de ativação a valores aleatórios. Por meio de experimentos extensos em múltiplas arquiteturas de SAE, mostramos que nossas linhas de base equivalem aos SAEs totalmente treinados em interpretabilidade (0,87 vs 0,90), sondagem esparsa (0,69 vs 0,72) e edição causal (0,73 vs 0,72). Juntos, esses resultados sugerem que os SAEs em seu estado atual não decompõem de forma confiável os mecanismos internos dos modelos.
À medida que os agentes de modelos de linguagem de grande escala povoam progressivamente ambientes em rede, uma questão fundamental surge: as sociedades de agentes de inteligência artificial (IA) passam por dinâmicas de convergência semelhantes aos sistemas sociais humanos? Recentemente, o Moltbook aproxima-se de um cenário futuro plausível no qual agentes autónomos participam numa sociedade online de evolução contínua e aberta. Apresentamos o primeiro diagnóstico sistémico em larga escala desta sociedade de agentes de IA. Para além da observação estática, introduzimos um quadro de diagnóstico quantitativo para a evolução dinâmica em sociedades de agentes de IA, medindo a estabilização semântica, a rotatividade lexical, a inércia individual, a persistência de influência e o consenso coletivo. A nossa análise revela um sistema em equilíbrio dinâmico no Moltbook: embora as médias semânticas globais se estabilizem rapidamente, os agentes individuais mantêm uma elevada diversidade e uma rotatividade lexical persistente, desafiando a homogeneização. No entanto, os agentes exibem uma forte inércia individual e uma resposta adaptativa mínima aos parceiros de interação, impedindo a influência mútua e o consenso. Consequentemente, a influência permanece transitória, sem supernós persistentes, e a sociedade não desenvolve âncoras de influência coletiva estáveis devido à ausência de uma memória social partilhada. Estes resultados demonstram que a escala e a densidade de interação, por si só, são insuficientes para induzir a socialização, fornecendo princípios de conceção e análise acionáveis para as próximas sociedades de agentes de IA de próxima geração.
Os modelos de incorporação de texto são amplamente utilizados para tarefas de similaridade semântica, incluindo recuperação de informação, agrupamento e classificação. Modelos de propósito geral são normalmente treinados com processos de estágio único ou múltiplos usando funções de perda contrastiva. Introduzimos um novo regime de treinamento que combina técnicas de destilação de modelos com perda contrastiva específica da tarefa para produzir modelos de incorporação compactos e de alto desempenho. Nossos achados sugerem que esta abordagem é mais eficaz para treinar modelos pequenos do que os paradigmas de treinamento puramente contrastivos ou baseados em destilação isoladamente. As pontuações de benchmark dos modelos resultantes, jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano, superam ou igualam o estado da arte para modelos de tamanho similar. Os modelos jina-embeddings-v5-text suportam adicionalmente textos longos (até 32 mil tokens) em vários idiomas e geram incorporações que permanecem robustas sob truncamento e quantização binária. Os pesos dos modelos estão publicamente disponíveis, esperançosamente inspirando novos avanços no desenvolvimento de modelos de incorporação.
O Clawdbot é um agente de IA pessoal e auto-hospedado que utiliza ferramentas, com um amplo espaço de ação abrangendo execução local e fluxos de trabalho mediados pela web, o que levanta preocupações elevadas de segurança e proteção sob ambiguidade e direcionamento adversário. Apresentamos uma avaliação centrada em trajetórias do Clawdbot em seis dimensões de risco. Nossa suíte de testes amostra e adapta levemente cenários de benchmarks anteriores de segurança de agentes (incluindo ATBench e LPS-Bench) e os complementa com casos desenvolvidos manualmente, adaptados à superfície de ferramentas do Clawdbot. Registramos trajetórias completas de interação (mensagens, ações, argumentos/saídas de chamadas de ferramentas) e avaliamos a segurança usando tanto um juiz de trajetória automatizado (AgentDoG-Qwen3-4B) quanto revisão humana. Em 34 casos canônicos, encontramos um perfil de segurança não uniforme: o desempenho é geralmente consistente em tarefas focadas em confiabilidade, enquanto a maioria das falhas ocorre sob intenção subespecificada, metas abertas ou prompts de jailbreak aparentemente benignos, onde pequenas interpretações equivocadas podem escalar para ações de ferramenta de maior impacto. Complementamos os resultados gerais com estudos de caso representativos e resumimos as commonalidades desses casos, analisando as vulnerabilidades de segurança e os modos de falha típicos que o Clawdbot tende a desencadear na prática.
Apresentamos o ResearchGym, um benchmark e ambiente de execução para avaliar agentes de IA em pesquisa de ponta a ponta. Para concretizar isso, reaproveitamos cinco artigos orais e de destaque (spotlight) da ICML, ICLR e ACL. A partir do repositório de cada artigo, preservamos os conjuntos de dados, o *harness* de avaliação e as implementações de linha de base, mas retemos o método proposto no artigo. Isso resulta em cinco ambientes de tarefa containerizados, compreendendo um total de 39 subtarefas. Dentro de cada ambiente, os agentes devem propor novas hipóteses, executar experimentos e tentar superar fortes linhas de base humanas nas métricas do artigo. Em uma avaliação controlada de um agente baseado em GPT-5, observamos uma acentuada lacuna capacidade-confiabilidade. O agente supera as linhas de base fornecidas pelo repositório em apenas 1 de 15 avaliações (6,7%), com uma melhoria de 11,5%, e conclui em média apenas 26,5% das subtarefas. Identificamos modos de falha recorrentes de longo horizonte, incluindo impaciência, má gestão de tempo e recursos, excesso de confiança em hipóteses fracas, dificuldade em coordenar experimentos paralelos e limites rígidos de contexto (*context length*). No entanto, em uma única execução, o agente superou a solução de uma tarefa de destaque (spotlight) da ICML 2025, indicando que agentes de fronteira podem ocasionalmente atingir desempenho de última geração, mas o fazem de forma não confiável. Avaliamos adicionalmente *scaffolds* de agentes proprietários, incluindo Claude Code (Opus-4.5) e Codex (GPT-5.2), que exibem uma lacuna semelhante. O ResearchGym fornece infraestrutura para avaliação sistemática e análise de agentes autônomos em pesquisa de ciclo fechado.
Os modelos unificados podem lidar tanto com a compreensão quanto com a geração multimodal numa única arquitetura, mas geralmente operam num único passo, sem refinar iterativamente as suas saídas. Muitas tarefas multimodais, especialmente as que envolvem composições espaciais complexas, múltiplos objetos em interação ou instruções em evolução, exigem a decomposição de instruções, a verificação de resultados intermédios e a realização de correções iterativas. Embora a escala no momento do teste (test-time scaling - TTS) tenha demonstrado que a alocação de capacidade computacional adicional para raciocínio iterativo melhora substancialmente o desempenho dos modelos de linguagem, estender este paradigma aos modelos multimodais unificados continua a ser um desafio em aberto. Apresentamos a UniT, uma estrutura para escala no momento do teste com cadeia de pensamento multimodal, que permite a um único modelo unificado raciocinar, verificar e refinar ao longo de múltiplas rondas. A UniT combina síntese de dados agentica, treino de modelo unificado e inferência flexível no momento do teste para eliciar comportamentos cognitivos, incluindo verificação, decomposição de subobjetivos e memória de conteúdo. As nossas principais conclusões são: (1) modelos unificados treinados em trajetórias de raciocínio curtas generalizam para cadeias de inferência mais longas no momento do teste; (2) o raciocínio sequencial por cadeia de pensamento fornece uma estratégia de TTS mais escalável e computacionalmente eficiente do que a amostragem paralela; (3) o treino em trajetórias de geração e edição melhora o raciocínio visual fora da distribuição. Estes resultados estabelecem a escala no momento do teste multimodal como um paradigma eficaz para avançar tanto a geração quanto a compreensão em modelos unificados.
A Hipótese da Representação Platónica sugere que as representações de redes neurais estão a convergir para um modelo estatístico comum da realidade. Demonstramos que as métricas existentes usadas para medir a similaridade representacional são confundidas pela escala da rede: o aumento da profundidade ou largura do modelo pode inflacionar sistematicamente os escores de similaridade representacional. Para corrigir estes efeitos, introduzimos uma estrutura de calibração nula baseada em permutações que transforma qualquer métrica de similaridade representacional num escore calibrado com garantias estatísticas. Revisitamos a Hipótese da Representação Platónica com a nossa estrutura de calibração, o que revela um quadro mais matizado: a aparente convergência reportada por medidas espectrais globais desaparece largamente após a calibração, enquanto a similaridade de vizinhança local, mas não as distâncias locais, mantém um acordo significativo entre diferentes modalidades. Com base nestas descobertas, propomos a Hipótese da Representação Aristotélica: as representações em redes neurais estão a convergir para relações de vizinhança locais partilhadas.
Modelos preditivos de mundo que simulam observações futuras sob controle explícito de câmera são fundamentais para a IA interativa. Apesar dos rápidos avanços, os sistemas atuais carecem de persistência espacial: eles falham em manter estruturas de cena estáveis ao longo de trajetórias longas, frequentemente alucinando detalhes quando as câmeras revisitam locais previamente observados. Nós identificamos que esta deriva geométrica decorre da dependência de *embeddings* posicionais no espaço de tela, que entram em conflito com a geometria projetiva necessária para a consistência 3D. Apresentamos o ViewRope, uma codificação consciente da geometria que injeta direções de raios da câmera diretamente nas camadas de auto-atenção dos transformadores de vídeo. Ao parametrizar a atenção com a geometria relativa dos raios em vez da localidade dos pixels, o ViewRope fornece um viés indutivo nativo ao modelo para recuperar conteúdo 3D consistente através de intervalos temporais. Propomos ainda a *Geometry-Aware Frame-Sparse Attention* (Atenção Esparsa entre Quadros Consciente da Geometria), que explora essas pistas geométricas para atender seletivamente a quadros históricos relevantes, melhorando a eficiência sem sacrificar a consistência da memória. Também apresentamos o ViewBench, um conjunto de ferramentas de diagnóstico que mede a fidelidade no fechamento de loop e a deriva geométrica. Nossos resultados demonstram que o ViewRope melhora substancialmente a consistência de longo prazo enquanto reduz os custos computacionais.
O treinamento de grandes modelos de linguagem (LLMs) depende quase exclusivamente de otimizadores adaptativos densos com precondicionadores cada vez mais sofisticados. Nós contestamos este paradigma ao demonstrar que a aplicação aleatória de máscaras às atualizações de parâmetros pode ser altamente eficaz, com uma variante mascarada do RMSProp superando consistentemente otimizadores recentes de última geração. Nossa análise revela que o mascaramento aleatório induz uma regularização geométrica dependente da curvatura que suaviza a trajetória de otimização. Motivados por esta descoberta, introduzimos o Mascaramento de Gradiente Alinhado ao Momentum (Magma), que modula as atualizações mascaradas usando o alinhamento momentum-gradiente. Extensos experimentos de pré-treinamento de LLMs mostram que o Magma é um substituto simples e direto para otimizadores adaptativos, proporcionando ganhos consistentes com sobrecarga computacional insignificante. Notavelmente, para o tamanho de modelo de 1B, o Magma reduz a perplexidade em mais de 19% e 9% em comparação com Adam e Muon, respectivamente.
O Exame Final da Humanidade (HLE) tornou-se um benchmark amplamente utilizado para avaliar modelos de linguagem de última geração em questões complexas e multidomínio. No entanto, análises conduzidas pela comunidade levantaram preocupações de que o HLE contém um número não trivial de itens ruidosos, o que pode enviesar os resultados da avaliação e distorcer comparações entre modelos. Para enfrentar este desafio, introduzimos o HLE-Verified, uma versão verificada e revisada do HLE com um protocolo de verificação transparente e uma taxonomia de erros de granularidade fina. A nossa construção segue um fluxo de trabalho de validação e reparação em duas fases, resultando num benchmark certificado. Na Fase I, cada item passa por uma validação binária do problema e da resposta final através de revisão por especialistas de domínio e verificações cruzadas baseadas em modelos, resultando em 641 itens verificados. Na Fase II, itens com defeito mas reparáveis são revisados sob restrições rigorosas que preservam a intenção avaliativa original, através de reparações duplas independentes por especialistas, auditoria assistida por modelos e adjudicação final, resultando em 1.170 itens revistos e certificados. Os restantes 689 itens são disponibilizados como um conjunto incerto documentado, com fontes de incerteza explícitas e etiquetas de especialidade para refinamento futuro. Avaliámos sete modelos de linguagem state-of-the-art no HLE e no HLE-Verified, observando um ganho médio absoluto de precisão de 7 a 10 pontos percentuais no HLE-Verified. A melhoria é particularmente pronunciada nos itens em que o enunciado do problema original e/ou a resposta de referência são erróneos, com ganhos de 30 a 40 pontos percentuais. As nossas análises revelam ainda uma forte associação entre a confiança do modelo e a presença de erros no enunciado do problema ou na resposta de referência, apoiando a eficácia das nossas revisões. Globalmente, o HLE-Verified melhora as avaliações do estilo HLE, reduzindo o ruído de anotação e permitindo uma medição mais fiel das capacidades dos modelos. Os dados estão disponíveis em: https://github.com/SKYLENAGE-AI/HLE-Verified
Os Grandes Modelos de Linguagem (LLMs) estão a alterar o paradigma da programação, conhecido como "vibe coding", mas a síntese de código algoritmicamente sofisticado e robusto continua a ser um desafio crítico. Incentivar as capacidades de raciocínio profundo dos LLMs é essencial para superar este obstáculo. O Ajuste Fino por Reforço (RFT) emergiu como uma estratégia promissora para atender a esta necessidade. No entanto, a maioria das abordagens existentes ignora a dificuldade heterogénea e a granularidade inerentes aos casos de teste, levando a uma distribuição desequilibrada dos sinais de recompensa e, consequentemente, a atualizações de gradiente enviesadas durante o treino. Para resolver isto, propomos o Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). O TAROT constrói sistematicamente, para cada problema, uma suíte de testes de quatro níveis (básico, intermédio, complexo, extremo), fornecendo uma paisagem de dificuldade controlada para o desenho curricular e avaliação. Crucialmente, o TAROT desacopla a progressão curricular das pontuações brutas de recompensa, permitindo uma avaliação condicionada pela capacidade e uma seleção fundamentada a partir de um portfólio de políticas curriculares, em vez de uma composição incidental da dificuldade dos casos de teste. Este desenho promove uma otimização estável e uma aquisição de competência mais eficiente. Resultados experimentais extensivos revelam que o currículo ótimo para RFT na geração de código está intimamente ligado à capacidade inerente do modelo: modelos menos capazes alcançam ganhos maiores com uma progressão fácil-para-difícil, enquanto modelos mais competentes se destacam sob um currículo difícil-primeiro. O TAROT fornece um método reproduzível que adapta o desenho curricular à capacidade de um modelo, melhorando assim consistentemente a correção funcional e a robustez do código gerado. Todo o código e dados são disponibilizados para promover a reprodutibilidade e avançar a investigação comunitária em https://github.com/deep-diver/TAROT.
A compressão pós-treinamento de modelos Transformer baseia-se comumente na decomposição de valores singulares truncada (SVD). No entanto, impor um único subespaço partilhado pode degradar a precisão mesmo em compressões moderadas. A aprendizagem de dicionários esparsos fornece uma representação mais flexível de união de subespaços, mas as abordagens existentes sofrem frequentemente de atualizações iterativas de dicionários e coeficientes. Propomos o COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), uma estrutura de compressão sem treinamento que utiliza um pequeno conjunto de dados de calibração para estimar uma fatorização esparsa dos pesos. O COMPOT emprega dicionários ortogonais que permitem atualizações de Procrustes de forma fechada para o dicionário e uma codificação esparsa analítica em passo único para os coeficientes, eliminando a otimização iterativa. Para lidar com a sensibilidade heterogénea das camadas sob um orçamento global de compressão, o COMPOT introduz ainda uma estratégia de alocação dinâmica única que redistribui adaptativamente as taxas de compressão por camada. Experiências extensas em diversas arquiteturas e tarefas mostram que o COMPOT oferece consistentemente um compromisso qualidade-compressão superior em comparação com fortes baselines de baixo posto e esparsas, mantendo-se totalmente compatível com a quantização pós-treinamento para compressão extrema. O código está disponível {aqui}(https://github.com/mts-ai/COMPOT).
Os modelos de mundo exigem uma compreensão relacional robusta para suportar previsão, raciocínio e controle. Embora as representações centradas em objetos forneçam uma abstração útil, elas não são suficientes para capturar dinâmicas dependentes de interações. Portanto, propomos o C-JEPA, um modelo de mundo centrado em objetos simples e flexível que estende a previsão de incorporação conjunta mascarada de *patches* de imagem para representações centradas em objetos. Ao aplicar um mascaramento a nível de objetos que exige que o estado de um objeto seja inferido a partir de outros objetos, o C-JEPA induz intervenções latentes com efeitos contrafactuais e previne soluções por atalho, tornando o raciocínio sobre interações essencial. Empiricamente, o C-JEPA resulta em ganhos consistentes em tarefas de resposta a perguntas visuais, com uma melhoria absoluta de cerca de 20% no raciocínio contrafactual em comparação com a mesma arquitetura sem mascaramento a nível de objetos. Em tarefas de controle de agentes, o C-JEPA permite um planeamento substancialmente mais eficiente, utilizando apenas 1% do total de características latentes de entrada necessárias para modelos de mundo baseados em *patches*, ao mesmo tempo que alcança um desempenho comparável. Por fim, fornecemos uma análise formal que demonstra que o mascaramento a nível de objetos induz um *bias* indutivo causal através de intervenções latentes. O nosso código está disponível em https://github.com/galilai-group/cjepa.
A pesquisa atual em modelos multimodais enfrenta um desafio fundamental: aprimorar as capacidades generativas frequentemente ocorre às custas da capacidade de compreensão, e vice-versa. Analisamos esse conflito e identificamos que a causa principal pode ser o potencial conflito entre geração e compreensão, o que cria uma dinâmica competitiva dentro do modelo. Para resolver isso, propomos o framework Raciocinar-Refletir-Refinar (R3). Este algoritmo inovador reformula a tarefa de geração em etapa única em um processo multi-etapas de "gerar-compreender-gerar novamente". Ao alavancar explicitamente a capacidade de compreensão do modelo durante a geração, mitigamos com sucesso o dilema de otimização, alcançando resultados de geração mais robustos e uma capacidade de compreensão aprimorada relacionada ao processo generativo. Isso oferece insights valiosos para o projeto de modelos multimodais unificados de próxima geração. O código está disponível em https://github.com/sen-ye/R3.
Os modelos de linguagem são cada vez mais utilizados para raciocinar sobre conteúdos nos quais não foram treinados, como novos documentos, conhecimentos em evolução e dados específicos do utilizador. Uma abordagem comum é a geração aumentada por recuperação (RAG), que armazena documentos textuais externamente (em fragmentos) e recupera apenas um subconjunto relevante no momento da inferência para um LLM raciocinar. No entanto, isto resulta num uso ineficiente da computação em tempo de teste (o LLM raciocina repetidamente sobre os mesmos documentos); além disso, a recuperação de fragmentos pode introduzir contexto irrelevante que aumenta a geração não suportada. Propomos uma estrutura de aprendizagem contínua não paramétrica, semelhante à humana, onde o modelo base permanece fixo e a aprendizagem ocorre através da integração de cada nova experiência num estado de memória semântica externa que se acumula e consolida continuamente. Apresentamos o Panini, que concretiza isto representando documentos como Espaços de Trabalho Semânticos Generativos (GSW) – uma rede consciente de entidades e eventos de pares pergunta-resposta (QA), suficiente para um LLM reconstruir as situações experienciadas e extrair conhecimento latente através de cadeias de inferência fundamentadas no raciocínio sobre a rede. Dada uma consulta, o Panini percorre apenas o GSW continuamente atualizado (não os documentos ou fragmentos textuais) e recupera as cadeias de inferência mais prováveis. Em seis benchmarks de QA, o Panini alcança o maior desempenho médio, 5%-7% superior a outras linhas de base competitivas, enquanto utiliza 2 a 30 vezes menos tokens de contexto-resposta, suporta pipelines totalmente de código aberto e reduz respostas não suportadas em consultas não respondíveis curadas. Os resultados mostram que uma estruturação eficiente e precisa das experiências no momento de escrita – como alcançado pela estrutura GSW – produz ganhos de eficiência e confiabilidade no momento de leitura. O código está disponível em https://github.com/roychowdhuryresearch/gsw-memory.
A web está repleta de imagens, originalmente criadas para consumo humano e agora cada vez mais interpretadas por agentes que utilizam modelos visão-linguagem (VLMs). Estes agentes tomam decisões visuais em escala, decidindo o que clicar, recomendar ou comprar. No entanto, sabemos pouco sobre a estrutura das suas preferências visuais. Introduzimos um quadro metodológico para estudar este fenómeno, colocando os VLMs em tarefas de escolha baseadas em imagens controladas e perturbando sistematicamente os seus inputs. A nossa ideia central é tratar a função de decisão do agente como uma utilidade visual latente que pode ser inferida através da preferência revelada: escolhas entre imagens editadas sistematicamente. Partindo de imagens comuns, como fotos de produtos, propomos métodos para otimização de *prompts* visuais, adaptando métodos de otimização de texto para propor e aplicar iterativamente modificações visualmente plausíveis usando um modelo de geração de imagens (por exemplo, na composição, iluminação ou fundo). Avaliamos depois quais as edições que aumentam a probabilidade de seleção. Através de experiências em larga escala com VLMs de última geração, demonstramos que edições otimizadas alteram significativamente as probabilidades de escolha em comparações diretas. Desenvolvemos um *pipeline* automático de interpretabilidade para explicar estas preferências, identificando temas visuais consistentes que impulsionam a seleção. Argumentamos que esta abordagem oferece uma forma prática e eficiente de detetar vulnerabilidades visuais e preocupações de segurança que, de outra forma, poderiam ser descobertas implicitamente em ambiente real, apoiando uma auditoria e governança mais proativas de agentes de IA baseados em imagem.
Para a implantação de modelos de base, os profissionais necessitam cada vez mais de leis de dimensionamento prescritivas: dado um orçamento computacional para pré-treinamento, qual precisão *downstream* é atingível com as práticas contemporâneas de pós-treinamento, e quão estável é esse mapeamento à medida que a área evolui? Utilizando avaliações observacionais em larga escala com 5k dados observacionais e 2k dados recém-amostrados sobre o desempenho do modelo, estimamos fronteiras de capacidade, quantis condicionais elevados de pontuações de *benchmark* como uma função dos FLOPs de log de pré-treinamento, por meio de regressão quantílica suavizada com uma parametrização sigmoide monotônica e saturante. Validamos a confiabilidade temporal ajustando o modelo em gerações anteriores de modelos e avaliando em lançamentos posteriores. Em várias tarefas, as fronteiras estimadas são majoritariamente estáveis, com exceção do raciocínio matemático, que exibe uma fronteira em avanço consistente ao longo do tempo. Em seguida, estendemos nossa abordagem para analisar a saturação dependente da tarefa e investigar desvios relacionados à contaminação em tarefas de raciocínio matemático. Finalmente, introduzimos um algoritmo eficiente que recupera fronteiras de dados quase completas usando aproximadamente 20% do orçamento de avaliação. Em conjunto, nosso trabalho lança o Proteus 2k, o mais recente conjunto de dados de avaliação de desempenho de modelos, e introduz uma metodologia prática para traduzir orçamentos computacionais em expectativas de desempenho confiáveis e para monitorar quando as fronteiras de capacidade mudam ao longo do tempo.
O Aprendizado por Reforço (RL) melhorou significativamente o raciocínio de modelos de linguagem grandes, mas os métodos existentes de ajuste fino por RL dependem fortemente de técnicas heurísticas, como regularização de entropia e reamostragem, para manter a estabilidade. Na prática, eles frequentemente experimentam colapso de desempenho em estágios avançados, levando à degradação da qualidade do raciocínio e a treinamento instável. Nós derivamos que a magnitude dos gradientes da política por token no RL está negativamente correlacionada com a probabilidade do token e a entropia local da política. Com base nesse resultado, provamos que a instabilidade do treinamento é impulsionada por uma pequena fração de tokens, aproximadamente 0,01\%, que denominamos *tokens espúrios*. Quando tais tokens aparecem em respostas corretas, eles contribuem pouco para o resultado do raciocínio, mas herdam a recompensa completa em nível de sequência, levando a atualizações de gradiente anormalmente amplificadas. Motivados por essa observação, propomos o *Spurious-Token-Aware Policy Optimization* (STAPO) para refinamento de modelos em larga escala, que mascara seletivamente tais atualizações e renormaliza a perda sobre os tokens válidos. Em seis benchmarks de raciocínio matemático usando os modelos base Qwen 1.7B, 8B e 14B, o STAPO demonstra consistentemente estabilidade de entropia superior e alcança uma melhoria média de desempenho de 7,13\% sobre GRPO, 20-Entropy e JustRL.
A fragmentação de ações permite que os modelos Visão-Linguagem-Ação (VLA) operem em tempo real, mas a execução ingênua por fragmentos frequentemente exibe descontinuidades nas fronteiras entre os fragmentos. A Fragmentação em Tempo Real (RTC) atenua este problema, mas é externa à política, levando a comutações multimodais espúrias e trajetórias que não são intrinsecamente suaves. Propomos o *Legato*, um método de continuação durante o treinamento para políticas VLA baseadas em fluxo e fragmentadas por ação. Especificamente, o *Legato* inicializa a remoção de ruído a partir de uma mistura, moldada por um cronograma, de ações conhecidas e ruído, expondo o modelo a informações parciais de ação. Além disso, o *Legato* remodela a dinâmica de fluxo aprendida para garantir que o processo de remoção de ruído permaneça consistente entre o treinamento e a inferência sob orientação por passo. O *Legato* utiliza ainda um cronograma de condição aleatorizado durante o treinamento para suportar atrasos de inferência variáveis e alcançar uma suavidade controlável. Empiricamente, o *Legato* produz trajetórias mais suaves e reduz as comutações multimodais espúrias durante a execução, resultando em menos hesitação e menor tempo de conclusão da tarefa. Extensos experimentos no mundo real mostram que o *Legato* supera consistentemente o RTC em cinco tarefas de manipulação, alcançando melhorias de aproximadamente 10% tanto na suavidade da trajetória quanto no tempo de conclusão da tarefa.
Os Sistemas Multiagente (MAS) potenciados por Modelos de Linguagem de Grande Escala permitiram um raciocínio colaborativo avançado, mas continuam limitados pela ineficiência da comunicação discreta de texto, que impõe uma sobrecarga computacional significativa e perda de informação por quantização. Embora a transferência de estados latentes ofereça uma alternativa de alta largura de banda, as abordagens existentes ou assumem arquiteturas homogéneas de transmissor-receptor ou dependem de tradutores aprendidos específicos por par, limitando a escalabilidade e a modularidade entre diversas famílias de modelos com variedades disjuntas. Neste trabalho, propomos o Vision Wormhole, um novo quadro conceptual que reaproveita a interface visual dos Modelos de Linguagem e Visão (VLMs) para permitir uma comunicação livre de texto e independente do modelo. Ao introduzir um Codec Visual Universal, mapeamos traços de raciocínio heterogéneos para um espaço latente contínuo partilhado e injetamo-los diretamente no percurso visual do recetor, tratando efetivamente o codificador visual como uma porta universal para telepatia interagente. O nosso quadro adota uma topologia hub-and-spoke para reduzir a complexidade do alinhamento aos pares de O(N²) para O(N) e aproveita um objetivo de destilação professor-aluno sem rótulos para alinhar o canal visual de alta velocidade com os padrões de raciocínio robustos do percurso de texto. Experiências extensas em diversas famílias de modelos heterogéneos (por exemplo, Qwen-VL, Gemma) demonstram que o Vision Wormhole reduz o tempo de execução de ponta a ponta em comparações controladas, mantendo uma fidelidade de raciocínio comparável aos MAS baseados em texto padrão. O código está disponível em https://github.com/xz-liu/heterogeneous-latent-mas.
Embora os grandes modelos de linguagem (LLMs) demonstrem conhecimento médico em nível de especialista, alinhar suas respostas de livre geração com as preferências refinadas dos clínicos continua sendo um desafio. Os métodos existentes frequentemente dependem de objetivos genéricos ou de avaliadores automáticos não confiáveis, com fraca fundamentação em diretrizes profissionais. Propomos uma estrutura de trabalho em dois estágios para abordar essa lacuna. Primeiro, apresentamos o HealthRubrics, um conjunto de dados com 7.034 exemplos de preferência verificados por médicos, nos quais clínicos refinam rubricas elaboradas por LLMs para atender a rigorosos padrões médicos. Segundo, destilamos essas rubricas em HealthPrinciples: 119 princípios amplamente reutilizáveis, fundamentados clinicamente e organizados por dimensões clínicas, permitindo uma supervisão escalável além da anotação manual. Utilizamos os HealthPrinciples para (1) alinhamento offline, sintetizando rubricas para consultas não rotuladas, e (2) como uma ferramenta em tempo de inferência para autorrevisão guiada. Um modelo de 30B de parâmetros que ativa apenas 3B de parâmetros durante a inferência, treinado com nossa estrutura, alcança 33,4% no HealthBench-Hard, superando modelos muito maiores, incluindo Deepseek-R1 e o3, estabelecendo uma linha de base eficiente em recursos para o alinhamento clínico.
O processamento eficiente de contexto longo continua a ser um desafio crucial para os modelos de linguagem de grande escala (LLMs) contemporâneos, especialmente em ambientes com recursos limitados. As arquiteturas de compressão suave prometem estender o comprimento efetivo do contexto substituindo longas sequências de *tokens* por conjuntos menores de *tokens* comprimidos aprendidos. No entanto, os limites da compressibilidade — e quando a compressão começa a eliminar conteúdo relevante para a tarefa — permanecem pouco explorados. Neste artigo, definimos *token overflow* (transbordamento de *tokens*) como um regime no qual as representações comprimidas não contêm mais informações suficientes para responder a uma consulta específica e propomos uma metodologia para caracterizá-lo e detetá-lo. No cenário de compressão suave xRAG, descobrimos que as estatísticas de saturação independentes da consulta separam de forma confiável as representações de *tokens* comprimidas das não comprimidas, fornecendo uma ferramenta prática para identificar *tokens* comprimidos, mas mostrando capacidade limitada de deteção de *overflow*. Classificadores de sondagem leves aplicados às representações xRAG da consulta e do contexto detetam o *overflow* com uma AUC-ROC média de 0,72 nos conjuntos de dados HotpotQA, SQuADv2 e TriviaQA, demonstrando que a incorporação de informações da consulta melhora o desempenho da deteção. Estes resultados representam um avanço em relação a diagnósticos independentes da consulta para detetores conscientes da consulta, permitindo um pré-*gateamento* de baixo custo antes do LLM para mitigar erros induzidos pela compressão.
Os grandes modelos de linguagem (LLMs) continuam a enfrentar dificuldades com questões que exigem conhecimento intensivo, informações atualizadas e raciocínio multi-hop. Aumentar os LLMs com conhecimento externo híbrido, como texto não estruturado e grafos de conhecimento estruturados, oferece uma alternativa promissora ao dispendioso pré-treinamento contínuo. Dessa forma, uma avaliação confiável das suas capacidades de recuperação e raciocínio torna-se crítica. No entanto, muitos benchmarks existentes sobrepõem-se cada vez mais com os dados de pré-treinamento dos LLMs, o que significa que as respostas ou o conhecimento de suporte podem já estar codificados nos parâmetros do modelo, dificultando a distinção entre recuperação e raciocínio genuínos e a recordação paramétrica. Apresentamos o HybridRAG-Bench, uma estrutura para construir benchmarks que avaliam o raciocínio multi-hop e intensivo em recuperação sobre conhecimento híbrido. O HybridRAG-Bench acopla automaticamente representações de texto não estruturado e de grafos de conhecimento estruturados derivados de literatura científica recente no arXiv, e gera pares pergunta-resposta com conhecimento intensivo baseados em caminhos de raciocínio explícitos. A estrutura suporta uma seleção flexível de domínio e período temporal, permitindo uma avaliação personalizável e consciente da contaminação à medida que os modelos e o conhecimento evoluem. Experiências em três domínios (inteligência artificial, governança e políticas, e bioinformática) demonstram que o HybridRAG-Bench recompensa a recuperação e o raciocínio genuínos em vez da recordação paramétrica, oferecendo um ambiente de teste fundamentado para avaliar sistemas de raciocínio aumentados por conhecimento híbrido. Disponibilizamos o nosso código e dados em github.com/junhongmit/HybridRAG-Bench.