Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de mundo têm atraído significativa atenção como uma direção de pesquisa promissora em inteligência artificial, embora ainda falte uma definição clara e unificada. Neste artigo, apresentamos o OpenWorldLib, uma estrutura de inferência padronizada e abrangente para Modelos de Mundo Avançados. Com base na evolução dos modelos de mundo, propomos uma definição clara: um modelo de mundo é um modelo ou estrutura centrado na percepção, equipado com capacidades de interação e memória de longo prazo, para compreender e prever o mundo complexo. Além disso, categorizamos sistematicamente as capacidades essenciais dos modelos de mundo. Com base nesta definição, o OpenWorldLib integra modelos de diferentes tarefas dentro de uma estrutura unificada, permitindo reutilização eficiente e inferência colaborativa. Por fim, apresentamos reflexões e análises adicionais sobre possíveis direções futuras para a pesquisa em modelos de mundo. Link do código: https://github.com/OpenDCAI/OpenWorldLib
Os métodos atuais de análise de documentos competem principalmente através da inovação na arquitetura de modelos, enquanto a engenharia sistemática de dados de treinamento permanece pouco explorada. No entanto, modelos de última geração (SOTA) de diferentes arquiteturas e escalas de parâmetros exibem padrões de falha altamente consistentes no mesmo conjunto de amostras difíceis, sugerindo que o gargalo de desempenho origina-se de deficiências compartilhadas nos dados de treinamento, e não da arquitetura em si. Com base nesta descoberta, apresentamos o \minerupro, que avança o estado da arte unicamente através de engenharia de dados e otimização de estratégias de treinamento, mantendo completamente fixa a arquitetura de 1,2 bilhão de parâmetros do \mineru. Em seu núcleo está um Motor de Dados co-projetado em torno de cobertura, informatividade e precisão de anotação: a Amostragem Consciente de Diversidade e Dificuldade expande os dados de treinamento de menos de 10 milhões para 65,5 milhões de amostras, corrigindo simultaneamente o desvio de distribuição; a Verificação de Consistência entre Modelos aproveita o acordo de saída entre modelos heterogêneos para avaliar a dificuldade da amostra e gerar anotações confiáveis; o pipeline Julgar e Refinar melhora a qualidade da anotação para amostras difíceis através de correção iterativa do tipo renderizar-depois-verificar. Uma estratégia de treinamento progressiva em três estágios - pré-treinamento em larga escala, ajuste fino com amostras difíceis e alinhamento por GRPO - explora sequencialmente estes dados em diferentes níveis de qualidade. Na frente de avaliação, corrigimos vieses de correspondência de elementos no OmniDocBench~v1.5 e introduzimos um subconjunto Hard, estabelecendo o protocolo mais discriminativo OmniDocBench~v1.6. Sem qualquer modificação arquitetural, o \minerupro atinge 95,69 no OmniDocBench~v1.6, melhorando em 2,71 pontos sobre a linha de base de mesma arquitetura e superando todos os métodos existentes, incluindo modelos com mais de 200 vezes mais parâmetros.
Os modelos Visão-Linguagem-Ação (VLA) alcançam um forte desempenho na manipulação robótica ao aproveitar backbones de visão e linguagem pré-treinados. No entanto, em configurações robóticas downstream, eles são tipicamente ajustados com dados limitados, levando a um sobreajuste a formulações específicas de instruções e deixando a robustez a instruções parafraseadas pouco explorada. Para estudar esta lacuna, introduzimos o LIBERO-Para, um benchmark controlado que varia independentemente as expressões de ação e as referências a objetos para uma análise granular da generalização linguística. Através de sete configurações de VLA (0,6B-7,5B), observamos uma degradação consistente de desempenho de 22-52 pp sob paráfrase. Esta degradação é impulsionada principalmente pela variação léxica a nível de objeto: mesmo simples substituições por sinónimos causam grandes quedas, indicando uma dependência de correspondência superficial em vez de uma fundamentação semântica. Além disso, 80-96% das falhas surgem de uma divergência de trajetória a nível de planeamento, e não de erros de execução, mostrando que a paráfrase perturba a identificação da tarefa. A taxa de sucesso binária trata todas as paráfrases de forma igual, obscurecendo se os modelos têm um desempenho consistente em todos os níveis de dificuldade ou se dependem de casos mais fáceis. Para resolver isto, propomos o PRIDE, uma métrica que quantifica a dificuldade da paráfrase usando fatores semânticos e sintáticos. O nosso benchmark e o código correspondente estão disponíveis em: https://github.com/cau-hai-lab/LIBERO-Para
O raciocínio estendido em modelos de linguagem de grande escala (LLMs) cria graves estrangulamentos de memória na cache KV. Os principais métodos de compressão da cache KV estimam a importância das chaves (K) e valores (V) usando escores de atenção de consultas (Q) recentes do espaço pós-RoPE. No entanto, as consultas sofrem rotação com a posição durante o RoPE, tornando as consultas representativas muito escassas, o que leva a uma seleção inadequada das principais chaves e a um raciocínio instável. Para evitar este problema, voltamo-nos para o espaço pré-RoPE, onde observamos que os vetores Q e K estão altamente concentrados em torno de centros fixos não nulos e permanecem estáveis entre posições – a Concentração Q/K. Demonstramos que esta concentração faz com que as consultas atendam preferencialmente a chaves em distâncias específicas (por exemplo, as chaves mais próximas), sendo que os centros determinam quais distâncias são preferidas através de uma série trigonométrica. Com base nisto, propomos o TriAttention para estimar a importância das chaves, aproveitando estes centros. Através da série trigonométrica, usamos a preferência de distância caracterizada por estes centros para classificar as chaves de acordo com as suas posições, e também aproveitamos as normas Q/K como um sinal adicional para a estimativa de importância. No AIME25 com geração de 32K *tokens*, o TriAttention iguala a precisão de raciocínio da Atenção Completa (Full Attention), ao mesmo tempo que alcança um *throughput* 2,5x superior ou uma redução de memória KV de 10,7x, enquanto as principais *baselines* alcançam apenas cerca de metade da precisão na mesma eficiência. O TriAttention permite a implantação do OpenClaw numa única GPU de consumo, onde um contexto longo causaria de outra forma falta de memória (*out-of-memory*) com a Atenção Completa.
Embora a frequência textual tenha sido validada como relevante para a cognição humana na velocidade de leitura, sua relação com os Grandes Modelos de Linguagem (LLMs) raramente é estudada. Propomos uma nova direção de pesquisa em termos da frequência dos dados textuais, que, até onde sabemos, é um tópico pouco explorado. Nosso framework é composto por três unidades. Primeiro, este artigo propõe a Lei da Frequência Textual (TFL), que indica que dados textuais frequentes devem ser preferidos para LLMs, tanto para *prompting* quanto para *fine-tuning*. Visto que muitos LLMs são de código fechado em relação aos seus dados de treinamento, propomos usar recursos online para estimar a frequência em nível de sentença. Em seguida, utilizamos um parafraseador de entrada para parafrasear o *input* em uma expressão textual mais frequente. A seguir, propomos a Destilação de Frequência Textual (TFD) consultando LLMs para realizar a conclusão de histórias, estendendo ainda mais as sentenças nos conjuntos de dados, e os corpora resultantes são usados para ajustar a estimativa inicial. Por fim, propomos o Treinamento Curricular por Frequência Textual (CTFT), que ajusta LLMs em uma ordem crescente de frequência em nível de sentença. Experimentos são conduzidos em nosso conjunto de dados curado, o Conjunto de Dados Emparelhados por Frequência Textual (TFPD), sobre raciocínio matemático, tradução automática, raciocínio de senso comum e chamadas de ferramentas agentivas. Os resultados mostram a eficácia do nosso framework.
Os Modelos de Linguagem de Grande Porte para Vídeo (VideoLLMs) alcançaram um desempenho sólido em muitas tarefas de compreensão de vídeo, mas a maioria dos sistemas existentes permanece offline e não é adequada para transmissões de vídeo ao vivo que exigem observação contínua e resposta oportuna. VideoLLMs de streaming recentes fizeram progressos, mas as abordagens atuais frequentemente dependem de pipelines desacoplados de gatilho-resposta ou estão limitadas a narrações no estilo de legendagem, reduzindo sua eficácia para questionamento de resposta aberta e interação de longo horizonte. Propomos AURA (Compreensão Sempre Ativa e Assistência em Tempo Real), uma estrutura de interação visual de streaming de ponta a ponta que permite a um VideoLLM unificado processar continuamente fluxos de vídeo e suportar tanto questionamento em tempo real quanto respostas proativas. AURA integra gerenciamento de contexto, construção de dados, objetivos de treinamento e otimização de implantação para uma interação de streaming estável de longo horizonte. Ele alcança desempenho de ponta em benchmarks de streaming e suporta um sistema de demonstração em tempo real com ASR e TTS funcionando a 2 FPS em dois aceleradores de 80G. Disponibilizamos o modelo AURA juntamente com uma estrutura de inferência em tempo real para facilitar pesquisas futuras.
A edição espacial de imagens realiza transformações orientadas geometricamente, permitindo um controle preciso sobre o layout de objetos e os pontos de vista da câmara. Os modelos atuais são insuficientes para manipulações espaciais de granularidade fina, motivando a criação de uma suite de avaliação dedicada. As nossas contribuições são listadas: (i) Apresentamos o SpatialEdit-Bench, um benchmark completo que avalia a edição espacial medindo conjuntamente a plausibilidade perceptual e a fidelidade geométrica através da reconstrução do ponto de vista e da análise de enquadramento. (ii) Para resolver o estrangulamento de dados para treino escalável, construímos o SpatialEdit-500k, um conjunto de dados sintético gerado com um pipeline controlável no Blender que renderiza objetos em diversos fundos e trajetórias sistemáticas de câmara, fornecendo transformações de ground-truth precisas para operações centradas no objeto e na câmara. (iii) Com base nestes dados, desenvolvemos o SpatialEdit-16B, um modelo de base para edição espacial de granularidade fina. O nosso método alcança um desempenho competitivo na edição geral, superando substancialmente métodos anteriores em tarefas de manipulação espacial. Todos os recursos serão disponibilizados publicamente em https://github.com/EasonXiao-888/SpatialEdit.
Os agentes de IA implantados como assistentes persistentes devem manter crenças corretas à medida que o seu ambiente de informação evolui. Na prática, as evidências estão dispersas por fontes heterogéneas que frequentemente se contradizem, novas informações podem invalidar conclusões anteriores, e as preferências dos utilizadores surgem através de correções em vez de instruções explícitas. Os *benchmarks* existentes assumem maioritariamente contextos estáticos e de autoridade única e não avaliam se os agentes conseguem acompanhar esta complexidade. Apresentamos o ClawArena, um *benchmark* para avaliar agentes de IA em ambientes de informação em evolução. Cada cenário mantém uma verdade fundamental completa e oculta, expondo o agente apenas a vestígios ruidosos, parciais e por vezes contraditórios através de sessões multicanal, ficheiros de trabalho e atualizações encenadas. A avaliação está organizada em torno de três desafios acoplados: raciocínio sobre conflitos de múltiplas fontes, revisão dinâmica de crenças e personalização implícita, cujas interações originam uma taxonomia de questões de 14 categorias. Dois formatos de questões, escolha múltipla (seleção de conjunto) e verificações executáveis baseadas em *shell*, testam tanto o raciocínio como a ancoragem no espaço de trabalho. A versão atual contém 64 cenários abrangendo 8 domínios profissionais, totalizando 1.879 rondas de avaliação e 365 atualizações dinâmicas. Experiências com cinco *frameworks* de agentes e cinco modelos de linguagem mostram que tanto a capacidade do modelo (variação de 15,4%) como o desenho do *framework* (9,2%) afetam substancialmente o desempenho, que os *frameworks* de capacidades de auto-evolução podem parcialmente colmatar lacunas de capacidade do modelo, e que a dificuldade de revisão de crenças é determinada pela estratégia de desenho da atualização e não pela mera presença de atualizações. O código está disponível em https://github.com/aiming-lab/ClawArena.
Agentes de IA colaborativos que operam em sistemas de arquivos locais estão surgindo rapidamente como um paradigma na interação homem-IA; no entanto, a personalização eficaz permanece limitada por severas restrições de dados, uma vez que barreiras rígidas de privacidade e a dificuldade de coletar conjuntamente traços multimodais do mundo real impedem o treinamento e a avaliação em escala, e os métodos existentes permanecem centrados na interação enquanto negligenciam os traços comportamentais densos nas operações do sistema de arquivos; para preencher esta lacuna, propomos o FileGram, uma estrutura abrangente que ancora a memória e a personalização do agente em traços comportamentais do sistema de arquivos, compreendendo três componentes principais: (1) FileGramEngine, um motor de dados escalável orientado por persona que simula fluxos de trabalho realistas e gera sequências de ações multimodais de granularidade fina em escala; (2) FileGramBench, um benchmark de diagnóstico ancorado em traços comportamentais do sistema de arquivos para avaliar sistemas de memória em reconstrução de perfil, desembaraçamento de traços, detecção de deriva de persona e ancoragem multimodal; e (3) FileGramOS, uma arquitetura de memória bottom-up que constrói perfis de usuário diretamente a partir de ações atômicas e deltas de conteúdo, em vez de resumos de diálogo, codificando esses traços em canais procedurais, semânticos e episódicos com abstração no momento da consulta; experimentos extensivos mostram que o FileGramBench permanece desafiador para os sistemas de memória state-of-the-art e que o FileGramEngine e o FileGramOS são eficazes, e, ao disponibilizar o framework em código aberto, esperamos fomentar pesquisas futuras sobre agentes de sistema de arquivos centrados em memória personalizada.
Os grandes modelos de linguagem (LLMs) destacam-se no raciocínio complexo, mas sua eficiência é limitada pelo custo cognitivo crescente de longos traços de pensamento. Neste artigo, propomos o LightThinker, um método que permite aos LLMs comprimir dinamicamente pensamentos intermediários em representações semânticas compactas. No entanto, a compressão estática frequentemente enfrenta dificuldades em raciocínios complexos, onde a perda irreversível de detalhes intermediários pode levar a gargalos lógicos. Para resolver isso, evoluímos a estrutura para o LightThinker++, introduzindo o Gerenciamento Explícito e Adaptativo de Memória. Este paradigma muda para um gerenciamento em nível comportamental, incorporando primitivas de memória explícitas, apoiadas por um pipeline especializado de síntese de trajetórias para treinar um agendamento de memória intencional. Experimentos extensivos demonstram a versatilidade da estrutura em três dimensões. (1) O LightThinker reduz o uso máximo de tokens em 70% e o tempo de inferência em 26% com perda mínima de precisão. (2) No raciocínio padrão, o LightThinker++ reduz o uso máximo de tokens em 69,9% enquanto proporciona um ganho de precisão de +2,42% sob o mesmo orçamento de contexto para máximo desempenho. (3) Mais notavelmente, em tarefas agentivas de longo horizonte, mantém uma pegada estável além de 80 rodadas (uma redução de 60%-70%), alcançando um ganho médio de desempenho de 14,8% em diferentes cenários complexos. No geral, nosso trabalho fornece uma direção escalável para sustentar o raciocínio profundo de LLMs em horizontes estendidos com sobrecarga mínima.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se um paradigma padrão para o pós-treinamento de grandes modelos de linguagem. Embora a Otimização de Política por Grupo Relativo (GRPO) seja amplamente adotada, sua atribuição de crédito grosseira penaliza uniformemente as execuções malsucedidas, carecendo do foco a nível de token necessário para abordar eficientemente desvios específicos. A Otimização de Política por Auto-Destilhação (SDPO) resolve isso fornecendo uma supervisão mais densa e direcionada a nível de logit, que facilita uma melhoria rápida inicial, mas frequentemente colapsa durante treinamentos prolongados. Nós rastreamos essa instabilidade em estágios avançados até duas falhas intrínsecas: a auto-destilhação em amostras já corretas introduz ambiguidade de otimização, e a confiabilidade do sinal do auto-professor degrada-se progressivamente. Para resolver essas questões, propomos a Otimização de Política com Roteamento de Amostras (SRPO), uma estrutura unificada *on-policy* que direciona amostras corretas para o reforço alinhado à recompensa da GRPO e amostras falhas para a correção direcionada a nível de logit da SDPO. A SRPO incorpora ainda um mecanismo de ponderação dinâmica consciente da entropia para suprimir alvos de destilação não confiáveis e de alta entropia, enquanto enfatiza os mais confiantes. Avaliada em cinco benchmarks e duas escalas de modelo, a SRPO alcança tanto a rápida melhoria inicial da SDPO quanto a estabilidade de longo prazo da GRPO. Ela supera consistentemente o desempenho máximo de ambas as baselines, elevando a média dos cinco benchmarks no Qwen3-8B em 3,4% sobre a GRPO e 6,3% sobre a SDPO, enquanto simultaneamente produz comprimentos de resposta moderados e reduz o custo computacional por passo em até 17,2%.
Uma direção de pesquisa promissora para capacitar LLMs a gerar código consistentemente correto envolve abordar sua incapacidade de estimar adequadamente a execução de programas, particularmente para códigos que eles próprios geram. Neste trabalho, demonstramos que Code LLMs podem ser treinados para simular a execução de programas de maneira passo a passo e que essa capacidade pode ser aproveitada para melhorar o desempenho em programação competitiva. Nossa abordagem combina ajuste fino supervisionado em traços de execução em linguagem natural - explicações textuais fundamentadas na execução real - com aprendizado por reforço usando recompensas verificáveis. Introduzimos dois objetivos complementares: a previsão da saída dado o código e as entradas, e a resolução de tarefas de programação competitiva com feedback de execução baseado em verdades fundamentais ou auto-preditivas. Esses objetivos permitem que os modelos realizem autoverificação sobre múltiplas soluções candidatas e autocorreção iterativa através da simulação da execução de testes. Em vários benchmarks de programação competitiva, nosso método produz melhorias consistentes em relação às abordagens de raciocínio padrão. Apresentamos ainda ablations e análises para elucidar o papel da simulação de execução e suas limitações.
A aprendizagem a partir da experiência é crucial para a construção de agentes de modelos de linguagem grandes (LLM) capazes, no entanto, os paradigmas de auto-evolução predominantes permanecem ineficientes: os agentes aprendem de forma isolada, redescobrindo repetidamente comportamentos semelhantes a partir de experiências limitadas, resultando em exploração redundante e baixa generalização. Para resolver este problema, propomos o **SkillX**, um quadro totalmente automatizado para construir uma base de conhecimento de habilidades "plug-and-play" que pode ser reutilizada entre agentes e ambientes. O SkillX opera através de um *pipeline* totalmente automatizado construído sobre três inovações sinérgicas: (i) **Design de Habilidades Multi-Nível**, que destila trajetórias brutas numa hierarquia de três níveis: planos estratégicos, habilidades funcionais e habilidades atómicas; (ii) **Refinamento Iterativo de Habilidades**, que revê automaticamente as habilidades com base no *feedback* de execução para melhorar continuamente a qualidade da biblioteca; (iii) **Expansão Exploratória de Habilidades**, que gera e valia proativamente novas habilidades para expandir a cobertura para além dos dados de treino iniciais. Utilizando um agente base robusto (GLM-4.6), construímos automaticamente uma biblioteca de habilidades reutilizável e avaliamos a sua transferibilidade em *benchmarks* desafiadores de longo horizonte e interação com o utilizador, incluindo AppWorld, BFCL-v3 e τ²-Bench. As experiências mostram que a SkillKB melhora consistentemente o sucesso da tarefa e a eficiência de execução quando integrada em agentes base mais fracos, destacando a importância de representações de experiência estruturadas e hierárquicas para a aprendizagem generalizável de agentes. O nosso código estará publicamente disponível em breve em https://github.com/zjunlp/SkillX.
O que é necessário para construir um raciocinador visual que funcione em gráficos, ciência, compreensão espacial e tarefas de resposta aberta? Os modelos visuo-linguísticos (VLMs) mais avançados mostram que um raciocínio visual tão abrangente está ao nosso alcance, mas a receita por trás deles permanece obscura, trancada em *pipelines* proprietários de aprendizagem por reforço (RL) com dados não públicos. Apresentamos Vero, uma família de VLMs totalmente abertos que iguala ou supera os modelos abertos existentes em diversas tarefas de raciocínio visual. Escalonamos dados e recompensas de RL em seis amplas categorias de tarefas, construindo o Vero-600K, um conjunto de dados com 600 mil amostras provenientes de 59 conjuntos de dados, e projetando recompensas roteadas por tarefa que lidam com formatos de resposta heterogêneos. O Vero alcança um desempenho de ponta, melhorando em 3,7 a 5,5 pontos na média em relação a quatro modelos base no VeroEval, nosso conjunto de 30 *benchmarks* desafiadores. Partindo do Qwen3-VL-8B-Instruct, o Vero supera o Qwen3-VL-8B-Thinking em 23 dos 30 *benchmarks* sem dados de pensamento proprietários adicionais. Quando treinado a partir do mesmo modelo base, o Vero-600K supera os conjuntos de dados de RL existentes em todas as categorias de tarefas. Ablações sistemáticas revelam que diferentes categorias de tarefas eliciam padrões de raciocínio qualitativamente distintos que transferem mal de forma isolada, sugerindo que a ampla cobertura de dados é o principal motor de um forte escalonamento de RL. Todos os dados, códigos e modelos são disponibilizados.
O OpenClaw, o agente de IA pessoal mais amplamente implantado no início de 2026, opera com acesso total ao sistema local e integra-se a serviços sensíveis como Gmail, Stripe e o sistema de arquivos. Embanto esses privilégios abrangentes permitam altos níveis de automação e personalização poderosa, eles também expõem uma superfície de ataque substancial que as avaliações sandboxadas existentes não conseguem capturar. Para colmatar esta lacuna, apresentamos a primeira avaliação de segurança do mundo real do OpenClaw e introduzimos a taxonomia CIK, que unifica o estado persistente de um agente em três dimensões, ou seja, Capacidade, Identidade e Conhecimento, para análise de segurança. As nossas avaliações abrangem 12 cenários de ataque numa instância ativa do OpenClaw em quatro modelos de base (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro e GPT-5.4). Os resultados mostram que envenenar qualquer dimensão única da CIK aumenta a taxa média de sucesso de ataque de 24,6% para 64-74%, com o modelo mais robusto a exibir um aumento de mais de três vezes em relação à sua vulnerabilidade de base. Avaliamos ainda três estratégias de defesa alinhadas com a CIK, juntamente com um mecanismo de proteção de ficheiros; no entanto, a defesa mais forte ainda produz uma taxa de sucesso de 63,8% sob ataques direcionados à Capacidade, enquanto a proteção de ficheiros bloqueia 97% das injeções maliciosas, mas também impede atualizações legítimas. Em conjunto, estas descobertas mostram que as vulnerabilidades são inerentes à arquitetura do agente, necessitando de salvaguardas mais sistemáticas para proteger os agentes de IA pessoais. A nossa página do projeto é https://ucsc-vlaa.github.io/CIK-Bench.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) treina eficazmente modelos de raciocínio que dependem de rótulos perfeitos abundantes, mas a sua vulnerabilidade a rótulos ruidosos inevitáveis devido à escassez de especialistas permanece criticamente subexplorada. Neste trabalho, damos o primeiro passo em direção a uma análise sistemática dos mecanismos de rótulos ruidosos no RLVR. Em contraste com a classificação supervisionada, a maioria dos algoritmos de RLVR incorpora uma condição baseada em *rollout*: a influência de um rótulo no treinamento é contingente à capacidade da política atual gerar *rollouts* que o realizem, uma propriedade que se estende naturalmente aos rótulos ruidosos. Com base nesta observação, distinguimos dois tipos de ruído: rótulos ruidosos inativos, que reduzem a eficiência dos dados, e rótulos ruidosos ativos, que são reforçados e arriscam enviesar o modelo para distribuições incorretas. A partir de experiências com treinamento usando amostras ruidosas, identificamos um fenômeno de Coerência de Correção Precoce: embora as amostras ruidosas comecem a ficar para trás em fases posteriores, a precisão tanto nas amostras limpas quanto nas ruidosas aumenta de forma semelhante no início do treinamento. Motivados por esta dinâmica, propomos o Refinamento de Rótulos Online (OLR), que corrige progressivamente rótulos potencialmente ruidosos com respostas decididas por maioria de votos quando duas condições se verificam: uma inclinação positiva na taxa de aprovação de *rollout* da resposta majoritária e uma consistência histórica estável entre atualizações, permitindo uma autocorreção gradual à medida que a política melhora. Avaliamos o OLR em seis *benchmarks* de raciocínio matemático de distribuição interna (AIME24/25, AMC, MATH-500, Minerva e Olimpíada) e três tarefas de distribuição externa (ARC-c, GPQA-diamond e MMLU-pro). Em proporções de ruído de 0,1 a 0,9, o OLR melhora consistentemente a robustez tanto em configurações de rótulos ruidosos inativos quanto ativos, alcançando ganhos médios de 3,6% a 3,9% nos *benchmarks* de distribuição interna e de 3,3% a 4,6% nas avaliações de distribuição externa.
A incorporação multimodal universal (UME) mapeia entradas heterogêneas em um espaço de recuperação compartilhado usando um único modelo. Abordagens recentes melhoram a UME gerando racionalizações explícitas de cadeia de pensamento (CoT) antes de extrair as incorporações, permitindo que modelos de linguagem grandes multimodais infiram melhor a intenção de consultas complexas. No entanto, a CoT explícita incorre em sobrecarga substancial de inferência e pode comprimir evidências multimodais ricas em um gargalo textual estreito. Propomos a PLUME, uma estrutura de raciocínio latente que avança a UME substituindo a CoT verbalizada por uma breve sequência autoregressiva de estados latentes contínuos. Para suportar consultas multimodais diversas, a PLUME introduz ainda um adaptador de transição guiado por âncoras semânticas que direciona a sequência latente ao longo de diferentes trajetórias de raciocínio sob o mesmo orçamento fixo de computação. Para estabilizar o treinamento, a PLUME adota um currículo progressivo explícito-para-latente que usa o raciocínio verbalizado apenas como um andaime temporário de treinamento e transfere gradualmente esse comportamento para o cálculo de estados ocultos, eliminando a CoT explícita na inferência. No benchmark MMEB-v2 com 78 tarefas, a PLUME supera fortes baselines de UME com CoT explícita, enquanto reduz o raciocínio de centenas de tokens gerados para menos de 10 passos latentes, proporcionando inferência mais de 30 vezes mais rápida. A PLUME é especialmente adequada para configurações de recuperação onde a evidência relevante é densa, estruturalmente complexa e difícil de organizar por meio de racionalizações intermediárias verbalizadas, como na recuperação de vídeos e documentos visuais. Estes resultados mostram que o cálculo latente estruturado pode preservar os benefícios do raciocínio intermediário sem a sobrecarga da geração de racionalizações explícitas, fornecendo um paradigma mais forte e eficiente para sistemas práticos de recuperação.
Os recentes avanços nos Modelos de Base para Vídeo (VFMs) revolucionaram a síntese de vídeos centrados no ser humano, mas a edição refinada e independente de sujeitos e cenários permanece um desafio crítico. Tentativas recentes de incorporar um controle ambiental mais rico através de composições geométricas 3D rígidas frequentemente encontram uma forte relação de compromisso entre controle preciso e flexibilidade generativa. Além disso, o pesado pré-processamento 3D ainda limita a escalabilidade prática. Neste artigo, propomos o ONE-SHOT, uma estrutura eficiente em parâmetros para geração de vídeo composicional humano-ambiente. Nossa principal percepção é fatorar o processo generativo em sinais desacoplados. Especificamente, introduzimos um mecanismo de injeção em espaço canônico que desacopla a dinâmica humana das pistas ambientais via *cross-attention*. Também propomos o Dynamic-Grounded-RoPE, uma nova estratégia de incorporação posicional que estabelece correspondências espaciais entre domínios espaciais distintos sem quaisquer alinhamentos 3D heurísticos. Para suportar a síntese de longo horizonte, introduzimos um mecanismo de Integração Híbrida de Contexto para manter a consistência do sujeito e do cenário através de gerações em nível de minutos. Experimentos demonstram que nosso método supera significativamente os métodos de última geração, oferecendo controle estrutural superior e diversidade criativa para a síntese de vídeo. Nosso projeto está disponível em: https://martayang.github.io/ONE-SHOT/.
Os agentes de pesquisa profunda (DRAs) integram o raciocínio de LLM com ferramentas externas. Os sistemas de memória permitem que os DRAs aproveitem experiências históricas, essenciais para raciocínio eficiente e evolução autônoma. Os métodos existentes dependem da recuperação de trajetórias similares da memória para auxiliar o raciocínio, mas sofrem com limitações críticas de evolução ineficiente da memória e custos crescentes de armazenamento e recuperação. Para resolver esses problemas, propomos uma nova estrutura de Agente de Inteligência de Memória (MIA), composta por uma arquitetura Gerente-Planejador-Executor. O Gerenciador de Memória é um sistema de memória não paramétrico que pode armazenar trajetórias de pesquisa históricas comprimidas. O Planejador é um agente de memória paramétrico que pode produzir planos de pesquisa para questões. O Executor é outro agente que pode pesquisar e analisar informações orientadas pelo plano de pesquisa. Para construir a estrutura MIA, primeiro adotamos um paradigma de aprendizagem por reforço alternado para melhorar a cooperação entre o Planejador e o Executor. Além disso, permitimos que o Planejador evolua continuamente durante o aprendizado em tempo de teste, com atualizações realizadas dinamicamente junto com a inferência sem interromper o processo de raciocínio. Adicionalmente, estabelecemos um ciclo de conversão bidirecional entre memórias paramétricas e não paramétricas para alcançar evolução eficiente da memória. Finalmente, incorporamos mecanismos de reflexão e julgamento não supervisionado para impulsionar o raciocínio e a auto-evolução em mundo aberto. Experimentos extensos em onze benchmarks demonstram a superioridade do MIA.
Os recentes avanços nos Modelos de Visão e Linguagem (VLMs) têm expandido significativamente as fronteiras da Resposta a Perguntas Visuais (VQA). No entanto, detalhes de alta resolução podem, por vezes, tornar-se ruído que leva a alucinações ou erros de raciocínio. Neste artigo, propomos o *Prompting* Orientado pela Degradação (DDP), uma nova estrutura que melhora o desempenho da VQA ao reduzir estrategicamente a fidelidade da imagem para forçar os modelos a concentrarem-se em informações estruturais essenciais. Avaliamos o DDP em duas tarefas distintas. *Atributos físicos* tem como alvo imagens propensas a erros de julgamento humano, onde o DDP emprega uma combinação de redução de resolução para 80%, auxílios visuais estruturais (máscaras de fundo branco e linhas ortométricas) e Aprendizagem em Contexto (ICL) para calibrar o foco do modelo. *Fenómenos perceptivos* aborda várias anomalias e ilusões visuais às quais as máquinas são suscetíveis, incluindo Anomalia Visual (VA), Ilusão de Cor (CI), Ilusão de Movimento (MI), Ilusão de Gestalt (GI), Ilusão Geométrica (GSI) e Ilusões Visuais (VI). Para esta tarefa, o DDP integra uma fase de classificação de tarefas com ferramentas especializadas, como máscaras de desfoque e realce de contraste, juntamente com a redução de resolução. Os nossos resultados experimentais demonstram que *menos é mais*: ao degradar intencionalmente os inputs visuais e fornecer *prompts* estruturais direcionados, o DDP permite que os VLMs ignorem texturas distractoras e atinjam uma precisão de raciocínio superior em benchmarks visuais desafiadores.
O Aprendizado em Tempo de Teste (TTL) permite que agentes de linguagem refinem iterativamente seu desempenho por meio de interações repetidas com o ambiente durante a inferência. O cerne do TTL é uma política de adaptação que atualiza a política do ator com base na experiência de episódios anteriores, melhorando assim o comportamento futuro. Os métodos existentes dependem de políticas de adaptação fixas e manuais, em vez de otimizá-las para melhorias subsequentes. Argumentamos que as políticas de adaptação ideais devem ser aprendidas a partir dos ambientes de tarefa, e não projetadas manualmente com base na intuição humana. Para alcançar isso, introduzimos o Meta-TTL, uma estrutura que formula a descoberta de políticas de adaptação eficazes como um problema de otimização bi-nível. Dentro desta estrutura, o loop interno executa o processo TTL padrão, medindo a eficácia com que uma política de adaptação candidata ajuda um agente a corrigir erros em episódios sequenciais. Guiado pelo desempenho do agente, o loop externo emprega uma busca evolutiva sobre uma distribuição diversificada de tarefas de treinamento para refinar iterativamente a política de adaptação. Avaliamos o Meta-TTL no Jericho e no WebArena-Lite em configurações de distribuição interna (ID) e externa (OOD), usando múltiplas bases de meta-agentes. Os resultados em ambos os benchmarks mostram que o Meta-TTL supera consistentemente as baselines manuais, sugerindo que a política de adaptação otimizada codifica estratégias transferíveis que generalizam além da distribuição de tarefas de treinamento.
A degradação de imagens causada por desfoque, ruído, compressão e má iluminação prejudica severamente a compreensão multimodal em ambientes do mundo real. Modelos multimodais unificados, que combinam compreensão e geração em uma única arquitetura, são naturalmente adequados para este desafio, pois seu caminho generativo pode modelar a estrutura visual de granularidade fina que a degradação destrói. No entanto, esses modelos falham em aproveitar sua própria capacidade generativa em entradas degradadas. Rastreamos essa desconexão até dois fatores que se somam: os regimes de treinamento existentes nunca solicitam que o modelo invoque a geração durante o raciocínio, e o caminho padrão de decodificar-recodificar não suporta uma otimização conjunta eficaz. Apresentamos o CLEAR, uma estrutura que conecta as duas capacidades por meio de três etapas progressivas: (1) ajuste fino supervisionado em um conjunto de dados consciente da degradação para estabelecer o padrão de raciocínio "gerar-depois-responder"; (2) uma Ponte de Representação Latente que substitui o desvio de decodificar-recodificar por uma conexão direta e otimizável entre geração e raciocínio; (3) GRPO Entrelaçado, um método de aprendizado por reforço que otimiza conjuntamente o raciocínio textual e a geração visual sob recompensas de correção da resposta. Construímos o MMD-Bench, abrangendo três níveis de severidade de degradação em seis benchmarks multimodais padrão. Experimentos mostram que o CLEAR melhora substancialmente a robustez em entradas degradadas, preservando o desempenho em imagens limpas. Nossa análise revela ainda que a remoção da supervisão de reconstrução em nível de pixel leva a estados visuais intermediários com maior qualidade perceptual, sugerindo que a otimização orientada por tarefas e a qualidade visual estão naturalmente alinhadas.
Apresentamos o AvatarPointillist, uma nova estrutura para geração de avatares dinâmicos de 4D Gaussianos a partir de uma única imagem de retrato. O cerne do nosso método é um Transformer apenas-decodificador que gera autoregressivamente uma nuvem de pontos para *Gaussian Splatting* 3D. Esta abordagem sequencial permite uma construção precisa e adaptativa, ajustando dinamicamente a densidade de pontos e o número total de pontos com base na complexidade do sujeito. Durante a geração de pontos, o modelo AR também prevê conjuntamente informações de vinculação por ponto, permitindo uma animação realista. Após a geração, um decodificador Gaussiano dedicado converte os pontos em atributos Gaussianos completos e renderizáveis. Demonstramos que condicionar o decodificador nas características latentes do gerador AR permite uma interação eficaz entre os estágios e melhora marcadamente a fidelidade. Experimentos extensivos validam que o AvatarPointillist produz avatares de alta qualidade, fotorrealistas e controláveis. Acreditamos que esta formulação autoregressiva representa um novo paradigma para a geração de avatares, e iremos disponibilizar nosso código para inspirar pesquisas futuras.
À medida que os agentes de modelos de linguagem avançam além das tarefas de engenharia de software (SWE) em direção à engenharia de aprendizagem automática (MLE), a verificação do comportamento do agente torna-se ordens de magnitude mais cara: enquanto as tarefas de SWE podem ser verificadas através de testes unitários de execução rápida, a verificação de MLE exige a execução de *pipelines* completos de ML — pré-processamento de dados, treinamento do modelo e avaliação de métricas — em grandes conjuntos de dados a cada etapa de implantação, tornando o aprendizado por reforço (RL) *on-policy* ao longo da trajetória proibitivamente lento. As abordagens existentes recuam para o ajuste fino supervisionado (SFT) ou recompensas *proxy* offline, sacrificando os benefícios de exploração e generalização do RL *on-policy*. Observamos que o tamanho dos dados do *sandbox* é a principal fonte deste gargalo. Com base nesta perceção, introduzimos o SandMLE, uma arquitetura multiagente que gera ambientes sintéticos de MLE diversos e verificáveis a partir de um pequeno número de tarefas iniciais, preservando a complexidade estrutural e técnica dos problemas do mundo real, mas restringindo os conjuntos de dados à microescala (cada tarefa é emparelhada com apenas 50 a 200 amostras de treino). Através de experiências extensivas, mostramos que o SandMLE reduz o tempo de execução em mais de 13 vezes, permitindo pela primeira vez no domínio do MLE o RL *on-policy* em larga escala e ao longo da trajetória. No MLE-bench-lite, o SandMLE produz ganhos significativos face às linhas de base de SFT nos modelos Qwen3-8B, 14B e 30B-A3B, com melhorias relativas na taxa de medalha variando entre 20,3% e 66,9%. Além disso, a política treinada generaliza-se através de *scaffolds* agenticos não vistos, alcançando uma pontuação HumanRank até 32,4% superior no MLE-Dojo.
Os modelos de base para biologia e física otimizam a precisão preditiva, mas as suas representações internas falham sistematicamente em preservar a geometria contínua dos sistemas que modelam. Nós identificamos a causa raiz: o Imposto de Alinhamento Geométrico, um custo intrínseco de forçar variedades contínuas através de estrangulamentos discretos e categóricos. Ablações controladas em sistemas dinâmicos sintéticos demonstram que substituir a entropia cruzada por um cabeçalho contínuo num codificador idêntico reduz a distorção geométrica em até 8,5 vezes, enquanto os codebooks aprendidos exibem uma dupla vinculação não monotónica em que uma quantização mais fina piora a geometria, apesar de melhorar a reconstrução. Sob objetivos contínuos, três arquiteturas diferem em 1,3 vezes; sob tokenização discreta, elas divergem em 3.000 vezes. Avaliando 14 modelos de base biológicos com a teoria taxa-distorção e MINE, identificamos três regimes de falha: Desacoplamento Local-Global, Compressão Representacional e Vacuidade Geométrica. Uma experiência controlada confirma que a robustez de reverso-complemento do Evo 2 no DNA real reflete uma composição de sequência conservada, e não uma simetria aprendida. Nenhum modelo alcança simultaneamente baixa distorção, alta informação mútua e coerência global.
O reconhecimento de cauda longa tem se beneficiado de modelos de base e paradigmas de ajuste fino, porém estudos e benchmarks existentes estão principalmente confinados a domínios de imagens naturais, onde os dados de pré-treinamento e ajuste fino compartilham distribuições semelhantes. Em contraste, imagens científicas exibem características visuais e sinais de supervisão distintos, levantando questões sobre a eficácia do ajuste fino de modelos de base nesses contextos. Neste trabalho, investigamos o reconhecimento científico de cauda longa sob um paradigma puramente visual e de ajuste fino eficiente em parâmetros (PEFT). Experimentos em três benchmarks científicos mostram que o ajuste fino de modelos de base produz ganhos limitados e revelam que características da penúltima camada desempenham um papel importante, particularmente para classes de cauda. Motivados por essas descobertas, propomos o SciLT, uma estrutura que explora representações multinível através de fusão adaptativa de características e aprendizado de dupla supervisão. Ao aproveitar conjuntamente características da penúltima camada e da camada final, o SciLT alcança desempenho equilibrado entre classes de cabeça e de cauda. Experimentos extensivos demonstram que o SciLT supera consistentemente métodos existentes, estabelecendo uma base sólida e prática para reconhecimento científico de cauda longa e fornecendo orientação valiosa para adaptar modelos de base a dados científicos com mudanças de domínio substanciais.
Os sistemas de IA agentes executam cada vez mais ações consequentes em nome de princípios humanos, delegando tarefas através de cadeias multi-etapas de agentes autónomos. Nenhum padrão existente aborda uma lacuna fundamental de responsabilização: verificar que as ações terminais numa cadeia de delegação foram genuinamente autorizadas por um princípio humano, através de que cadeia de delegação e sob que âmbito. Este artigo apresenta o protocolo de Proveniência de Delegação Humana (HDP), um esquema leve baseado em tokens que captura e verifica criptograficamente o contexto de autorização humana em sistemas multiagente. Um token HDP vincula um evento de autorização humana a uma sessão, regista cada ação de delegação de um agente como um salto assinado numa cadeia de apenas-acrescento e permite que qualquer participante verifique o registo completo de proveniência usando apenas a chave pública Ed25519 do emissor e o identificador de sessão atual. A verificação é totalmente offline, não requerendo consultas a registos ou âncoras de confiança de terceiros. Situamos o HDP no panorama existente de protocolos de delegação, identificamos o seu ponto de design distinto em relação ao OAuth 2.0 Token Exchange (RFC 8693), JSON Web Tokens (RFC 7519), UCAN e o Intent Provenance Protocol (draft-haberkamp-ipp-00), e demonstramos que os padrões existentes não conseguem abordar os requisitos de proveniência humana, multi-salto e de apenas-acrescento dos sistemas agentes. O HDP foi publicado como um Internet-Draft do IETF (draft-helixar-hdp-agentic-delegation-00) e um SDK de referência em TypeScript está publicamente disponível.
A transformação de modelos generativos causais de linguagem em codificadores bidirecionais oferece uma alternativa poderosa às arquiteturas do estilo BERT. No entanto, as abordagens atuais permanecem limitadas: carecem de consenso sobre os objetivos de treinamento ideais, sofrem de esquecimento catastrófico em escala e não conseguem integrar de forma flexível o vasto ecossistema de modelos generativos especializados. Neste trabalho, através de ablações sistemáticas nas famílias Gemma3 e Qwen3, identificamos os fatores-chave que impulsionam uma adaptação bem-sucedida, destacando o papel crítico de uma fase de mascaramento prévio frequentemente omitida. Para escalar este processo sem os dados originais de pré-treinamento, introduzimos uma estratégia dupla que combina a fusão linear de pesos com uma mistura leve de dados de múltiplos domínios, mitigando o esquecimento catastrófico. Por fim, aprimoramos nossos codificadores fundindo-os com modelos causais especializados, transferindo de forma transparente capacidades específicas de modalidade e domínio. Esta receita de código aberto, projetada para qualquer LLM decodificador causal, resulta no BidirLM, uma família de cinco codificadores que superam as alternativas em benchmarks de representação de texto, visão e áudio.
O ritmo acelerado das publicações científicas torna cada vez mais difícil para os investigadores manterem-se atualizados. Apresentamos o Paper Espresso, uma plataforma de código aberto que descobre, resume e analisa automaticamente artigos em tendência no arXiv. O sistema utiliza modelos de linguagem de grande escala (LLMs) para gerar resumos estruturados com etiquetas temáticas e palavras-chave, e fornece análise de tendências em múltiplas granularidades (diária, semanal e mensal) através da consolidação de tópicos orientada por LLMs. Ao longo de 35 meses de implementação contínua, o Paper Espresso processou mais de 13 300 artigos e disponibilizou publicamente todos os metadados estruturados, revelando dinâmicas ricas no panorama da investigação em IA: um pico em meados de 2025 em aprendizagem por reforço para raciocínio com LLMs, a emergência não saturada de tópicos (6 673 tópicos únicos) e uma correlação positiva entre a novidade do tópico e o envolvimento da comunidade (2,0x mais votos positivos medianos para os artigos mais inovadores). Uma demonstração ao vivo está disponível em https://huggingface.co/spaces/Elfsong/Paper_Espresso.
Os Grandes Modelos de Linguagem (LLMs) podem compor poesia, mas quão distantes estão dos poetas humanos? Neste artigo, apresentamos o POEMetric, o primeiro quadro abrangente para avaliação de poesia, examinando 1) as capacidades básicas de seguir instruções para gerar poemas de acordo com uma determinada forma e tema, 2) as capacidades avançadas de demonstrar criatividade, diversidade lexical e idiossincrasia, evocar ressonância emocional e utilizar imagens e recursos literários, e 3) a apreciação geral da qualidade global do poema e a estimativa de autoria. Curámos um conjunto de dados de poemas humanos – 203 poemas ingleses de 7 formas fixas, anotados com métrica, padrões de rima e temas – e realizámos experiências com 30 LLMs para geração de poesia com base nas mesmas formas e temas dos dados humanos, totalizando 6.090 poemas de LLM. Com base no POEMetric, avaliamos o desempenho de poetas humanos e LLMs através de avaliação baseada em regras e usando LLM-como-juiz, cujos resultados foram validados por especialistas humanos. Os resultados mostram que, embora o melhor modelo tenha alcançado alta precisão formal (4,26 em 5,00, usando o Gemini-2.5-Pro como juiz; o mesmo abaixo) e alinhamento temático (4,99), todos os modelos falharam em atingir o mesmo nível de capacidades avançadas que os poetas humanos, que alcançaram criatividade (4,02), idiossincrasia (3,95), ressonância emocional (4,06) e uso habilidoso de imagens (4,49) e recursos literários (4,67) incomparáveis. Os humanos também derrotaram o LLM com melhor desempenho na qualidade geral do poema (4,22 vs. 3,20). Como tal, a geração de poesia permanece um desafio formidável para os LLMs. Os dados e códigos estão disponíveis em https://github.com/Bingru-Li/POEMetric.
Os sistemas de agentes múltiplos baseados em modelos de linguagem de grande escala (LLM) podem ser dimensionados ao longo de duas dimensões distintas: aumentando o número de agentes e melhorando através da experiência acumulada ao longo do tempo. Embora trabalhos anteriores tenham estudado essas dimensões separadamente, a sua interação sob restrições realistas de custo permanece pouco clara. Neste artigo, introduzimos uma visão conceitual de dimensionamento de sistemas multiagente que considera conjuntamente o tamanho da equipa e a capacidade de aprendizagem contínua, e estudamos como o design de memória partilha este panorama. Para tal, propomos o LLMA-Mem, um framework de memória contínua para sistemas multiagente de LLM sob topologias de memória flexíveis. Avaliamos o LLMA-Mem no MultiAgentBench em ambientes de programação, pesquisa e bases de dados. Empiricamente, o LLMA-Mem melhora consistentemente o desempenho de longo horizonte em relação às linhas de base, reduzindo simultaneamente os custos. A nossa análise revela ainda um panorama de dimensionamento não monotónico: equipas maiores nem sempre produzem melhor desempenho a longo prazo, e equipas menores podem superar equipas maiores quando a memória suporta melhor a reutilização da experiência. Estas descobertas posicionam o design de memória como um caminho prático para dimensionar sistemas multiagente de forma mais eficaz e eficiente ao longo do tempo.
A rápida evolução da inteligência artificial autónoma e agentiva nos serviços financeiros introduziu uma crise arquitetónica existencial: os grandes modelos de linguagem (LLMs) são sistemas probabilísticos e não determinísticos a operar em domínios que exigem garantias de conformidade absolutas e matematicamente verificáveis. As soluções de guardrail existentes – incluindo NVIDIA NeMo Guardrails e Guardrails AI – dependem de classificadores probabilísticos e validadores sintáticos que são fundamentalmente inadequados para impor restrições regulamentares complexas e multivariáveis exigidas pela SEC, FINRA e OCC. Este artigo apresenta o *Lean-Agent Protocol*, uma plataforma de guardrail de IA baseada em verificação formal que aproveita o modelo neuro-simbólico Aristotle desenvolvido pela Harmonic AI para autoformalizar políticas institucionais em código Lean 4. Cada ação agentiva proposta é tratada como uma conjectura matemática: a execução é permitida se e somente se o kernel Lean 4 provar que a ação satisfaz axiomas regulamentares pré-compilados. Esta arquitetura fornece certeza de conformidade a nível criptográfico com latência de microssegundos, satisfazendo diretamente a SEC Rule 15c3-5, a OCC Bulletin 2011-12, a FINRA Rule 3110 e os mandatos de explicabilidade do CFPB. É fornecida uma rota de implementação em três fases, desde a verificação em sombra até à implantação em escala empresarial.
A pressão comunicacional multiagente pode extrair representações discretas e composicionais de propriedades físicas invisíveis a partir de características de vídeo congeladas? Mostramos que agentes que se comunicam através de um gargalo Gumbel-Softmax com aprendizado iterado desenvolvem protocolos posicionalmente desembaraçados para propriedades latentes (elasticidade, atrito, razão de massa) sem rótulos de propriedade ou supervisão na estrutura da mensagem. Com 4 agentes, 100% de 80 sementes convergem para uma composicionalidade quase perfeita (PosDis=0,999, holdout 98,3%). Controlos confirmam que a estrutura multiagente – e não a largura de banda ou a cobertura temporal – conduz este efeito. A intervenção causal mostra uma disrupção cirúrgica da propriedade (~15% de queda na propriedade alvo, <3% nas outras). Uma comparação controlada de *backbones* revela que o pré-treino perceptual determina o que é comunicável: o DINOv2 domina na física de rampa espacialmente visível (98,3% vs 95,1%), enquanto o V-JEPA 2 domina na física de colisão apenas dinâmica (87,4% vs 77,7%, d=2,74). Controlos com escala equivalente (d=3,37) e com número de *frames* equivalente (d=6,53) atribuem esta diferença inteiramente ao pré-treino nativo em vídeo. O protocolo congelado suporta planeamento condicionado à ação (91,5%) com raciocínio contrafactual de velocidade (r=0,780). A validação em filmagens reais do Physics 101 confirma 85,6% de precisão na comparação de massa em objetos não vistos, com a dinâmica temporal contribuindo com +11,2% para além da aparência estática, a composicionalidade de escalonamento de agentes replicando-se a 90% para 4 agentes, e a intervenção causal estendendo-se a vídeo real (d=1,87, p=0,022).
Os Modelos de Linguagem de Grande Porte Áudio-Visuais (AVLLMs) estão emergindo como interfaces unificadas para a percepção multimodal. Apresentamos o primeiro estudo de interpretabilidade mecanicista de AVLLMs, analisando como as características de áudio e visão evoluem e se fundem através das diferentes camadas de um AVLLM para produzir as saídas de texto finais. Constatamos que, embora os AVLLMs codifiquem uma rica semântica de áudio em camadas intermediárias, essas capacidades geralmente não surgem na geração de texto final quando o áudio entra em conflito com a visão. Análises de sondagem mostram que informações latentes úteis de áudio estão presentes, mas as camadas de fusão mais profundas privilegiam desproporcionalmente as representações visuais, que tendem a suprir pistas de áudio. Ainda rastreamos esse desequilíbrio até o treinamento: o comportamento de áudio do AVLLM corresponde fortemente ao seu modelo base de visão e linguagem, indicando um alinhamento adicional limitado à supervisão de áudio. Nossas descobertas revelam um viés modal fundamental nos AVLLMs e fornecem novos insights mecanicistas sobre como os LLMs multimodais integram áudio e visão.
O aprendizado por reforço com recompensas verificáveis (RLVR) melhorou as capacidades de raciocínio de LLMs, mas uma limitação fundamental persiste: os modelos não conseguem aprender com problemas muito difíceis de resolver sob sua política atual, pois estes não produzem nenhum sinal de recompensa significativo. Propomos uma solução simples, porém eficaz, baseada na reformulação de tarefas. Transformamos problemas desafiadores de resposta aberta em variantes cognitivamente mais simples – como formatos de múltipla escolha e cloze – que preservam a resposta original, ao mesmo tempo que reduzem o espaço de busca efetivo e fornecem sinais de aprendizagem mais densos. Essas reformulações abrangem um espectro que vai de tarefas discriminativas a generativas, o qual exploramos para impulsionar o aprendizado: os modelos primeiro aprendem com formatos estruturados e mais fáceis, e esse conhecimento é transferido de volta para melhorar o desempenho nos problemas originais de resposta aberta. Com base nessa ideia, introduzimos o Cog-DRIFT, um framework que constrói variantes reformuladas e as organiza em um currículo adaptativo baseado na dificuldade. O treinamento progride de formatos mais fáceis para os mais difíceis, permitindo que o modelo aprenda com problemas que anteriormente produziam sinal zero sob o pós-treinamento padrão por RL. O Cog-DRIFT não só melhora os problemas difíceis originalmente insolúveis (ganhos absolutos de +10,11% para Qwen e +8,64% para Llama), mas também generaliza bem para outros conjuntos de dados retidos. Em 2 modelos e 6 benchmarks de raciocínio, nosso método supera consistentemente o GRPO padrão e baselines fortes de exploração guiada. Em média, o Cog-DRIFT mostra melhoras de +4,72% (Qwen) e +3,23% (Llama) sobre o segundo melhor baseline. Mostramos ainda que o Cog-DRIFT melhora a métrica pass@k no momento do teste, e que o currículo melhora a eficiência amostral. No geral, nossos resultados destacam a reformulação de tarefas e o aprendizado curricular como um paradigma eficaz para superar a barreira de exploração no pós-treinamento de LLMs.
Os modelos de linguagem de grande escala por difusão (dLLMs) permitem teoricamente a decodificação de tokens em ordem arbitrária, uma flexibilidade que poderia possibilitar uma exploração mais rica de caminhos de raciocínio do que os LLMs autoregressivos (AR). Na prática, no entanto, a decodificação em ordem aleatória frequentemente prejudica a qualidade da geração. Para mitigar isso, o remascaramento de baixa confiança melhora a qualidade de uma única amostra (por exemplo, Pass@1) ao priorizar tokens confiáveis, mas também suprime a exploração e limita os ganhos com múltiplas amostras (por exemplo, Pass@k), criando um dilema fundamental entre qualidade e exploração. Neste artigo, fornecemos uma explicação unificada para este dilema. Mostramos que o remascaramento de baixa confiança melhora um *proxy* míope para a qualidade, ao mesmo tempo que restringe comprovadamente a entropia da distribuição de sequências induzida. Para superar esta limitação, caracterizamos a distribuição ótima que equilibra explicitamente qualidade e exploração, e desenvolvemos um amostrador simples de Metropolis-Hastings Independente que visa aproximadamente esta distribuição durante a decodificação. Experimentos em uma série de benchmarks de raciocínio, incluindo MATH500, AIME24/25, HumanEval e MBPP, mostram que nossa abordagem produz um melhor compromisso entre exploração e qualidade do que o remascaramento aleatório e o de baixa confiança.