Artigos de pesquisa em IA selecionados diariamente com traduções
Recentes grandes modelos de linguagem (LLMs) demonstraram capacidades robustas na compreensão e geração de código, desde programação competitiva até engenharia de software em nível de repositório. Em sistemas agentivos emergentes, o código já não é apenas um resultado alvo; ele serve cada vez mais como um substrato operacional para o raciocínio do agente, a atuação, a modelagem do ambiente e a verificação baseada em execução. Enquadramos essa mudança pela lente dos arneses de agente e introduzimos o código como arnês de agente: uma visão unificada que centraliza o código como base para a infraestrutura do agente. Para estudar sistematicamente essa perspectiva, organizamos a pesquisa em torno de três camadas interconectadas. Primeiro, estudamos a interface do arnês, onde o código conecta agentes ao raciocínio, à ação e à modelagem do ambiente. Segundo, examinamos os mecanismos do arnês: planejamento, memória e uso de ferramentas para execução de longo horizonte, juntamente com controle e otimização orientados por feedback que tornam o arnês confiável e adaptativo. Terceiro, discutimos a escalabilidade do arnês de sistemas de agente único para configurações multiagente, onde artefatos de código compartilhados suportam coordenação, revisão e verificação multiagente. Através dessas camadas, resumimos métodos representativos e aplicações práticas do código como arnês de agente, abrangendo assistentes de codificação, automação de GUI/SO, agentes incorporados, descoberta científica, personalização e recomendação, DevOps e fluxos de trabalho empresariais. Além disso, delineamos desafios em aberto para a engenharia de arneses, incluindo avaliação além do sucesso final da tarefa, verificação sob feedback incompleto, melhoria do arnês sem regressão, estado compartilhado consistente entre múltiplos agentes, supervisão humana para ações críticas de segurança e extensões para ambientes multimodais. Ao centralizar o código como o arnês da IA agentiva, esta pesquisa fornece um roteiro unificado em direção a sistemas de agentes de IA executáveis, verificáveis e com estado.
Agentes LLM de longo horizonte deixam rastros que poderiam se tornar experiência reutilizável, mas trajetórias brutas são ruidosas e difíceis de governar. Tratamos Habilidades de Agente como um esquema de experiência que acopla scripts executáveis a orientações não executáveis sobre procedimentos. No entanto, ecossistemas de habilidades abertos contêm artefatos redundantes, desiguais e sensíveis ao ambiente, e atualizações indiscriminadas podem poluir o contexto futuro. Apresentamos SkillsVote, uma estrutura de governança de ciclo de vida para Habilidades de Agente, desde a coleta e recomendação até a evolução. SkillsVote analisa um corpus de código aberto em escala de milhões para requisitos de ambiente, qualidade e verificabilidade, e então sintetiza tarefas para habilidades verificáveis. Antes da execução, SkillsVote realiza uma busca agentiva em uma biblioteca de habilidades estruturada para expor contexto instrucional de habilidades. Após a execução, ele decompõe trajetórias em subtarefas vinculadas a habilidades, atribui resultados ao uso de habilidades, exploração do agente, ambiente e sinais de resultado, e admite apenas descobertas reutilizáveis bem-sucedidas em atualizações baseadas em evidências. Em nossa avaliação, a evolução offline melhora o GPT-5.2 no Terminal-Bench 2.0 em até 7,9 pp, enquanto a evolução online melhora o SWE-Bench Pro em até 2,6 pp. No geral, bibliotecas de habilidades externas governadas podem melhorar agentes congelados sem atualizações de modelo quando os sistemas controlam exposição, crédito e preservação.
Apresentamos o LongLive-2.0, uma infraestrutura paralela baseada em NVFP4 para todo o fluxo de treinamento e inferência de geração de vídeos longos, abordando gargalos de velocidade e memória. Para o treinamento, introduzimos o treinamento autorregressivo (AR) paralelo por sequência, instanciado como Balanced SP, que co-projeta o layout eficiente de teacher-forcing com a execução SP, emparelhando fatias temporais de histórico limpo e alvo ruidoso em cada rank, viabilizando uma máscara de teacher-forcing natural com codificação VAE em fatias ciente de SP. Combinado com a precisão NVFP4, reduz o custo de memória da GPU e acelera o cálculo GEMM durante o treinamento, cuja proporção aumenta conforme o comprimento do vídeo cresce. Além disso, mostramos que uma infraestrutura e um conjunto de dados de alta qualidade permitem um pipeline de treinamento notavelmente limpo. Diferentemente dos métodos existentes da série Self-Forcing, que dependem de inicialização ODE e posterior destilação por correspondência de distribuição (DMD), o LongLive-2.0 ajusta diretamente um modelo de difusão em um modelo de difusão autorregressivo (AR) longo, de múltiplas tomadas e interativo. Ele pode ainda ser convertido para geração em tempo real (4 para 2 etapas de remoção de ruído) com pesos LoRA independentes. Para inferência em GPUs Blackwell, habilitamos a inferência NVFP4 W4A4, quantizamos o cache KV em NVFP4 para economia de memória e impulsionamos a vazão ponta a ponta com decodificação assíncrona em fluxo do VAE. Em arquiteturas de GPU não-Blackwell, implantamos a inferência SP para igualar a velocidade das GPUs Blackwell, enquanto o cache KV quantizado pode reduzir a comunicação entre GPUs do SP. Experimentos mostram aceleração de até 2,15x no treinamento e 1,84x na inferência. O LongLive-2.0-5B alcança 45,7 FPS em inferência, mantendo desempenho robusto em benchmarks. Até onde sabemos, o LongLive-2.0 é o primeiro sistema de treinamento e inferência NVFP4 para geração de vídeos longos.
Apresentamos o Lance, um modelo nativo unificado e leve que suporta compreensão, geração e edição multimodais tanto para imagens quanto para vídeos. Em vez de depender de escalonamento da capacidade do modelo ou de projetos dominados por texto-imagem, o Lance explora um paradigma prático para modelagem multimodal unificada por meio de treinamento colaborativo multitarefa. Ele se fundamenta em dois princípios centrais: modelagem unificada de contexto e caminhos de capacidade desacoplados. Especificamente, o Lance é treinado do zero e emprega uma arquitetura de mistura de especialistas de fluxo duplo em sequências multimodais intercaladas compartilhadas, possibilitando aprendizado conjunto de contexto enquanto desacopla os caminhos para compreensão e geração. Adicionalmente, introduzimos a codificação posicional rotativa ciente de modalidade para mitigar interferências entre tokens visuais heterogêneos e impulsionar o alinhamento entre tarefas. Durante o treinamento, o Lance adota um paradigma de treinamento multitarefa em etapas com objetivos orientados a capacidade e agendamento adaptativo de dados para fortalecer tanto a compreensão semântica quanto o desempenho de geração visual. Resultados experimentais demonstram que o Lance supera substancialmente os modelos unificados de código aberto existentes em geração de imagem e vídeo, ao mesmo tempo em que mantém capacidades robustas de compreensão multimodal. A página inicial está disponível em https://lance-project.github.io.
A pesquisa assistida por IA está cruzando um limiar: sistemas totalmente automatizados agora podem gerar artigos de pesquisa por apenas US$ 15, enquanto agentes de horizonte longo podem executar experimentos, redigir manuscritos e simular críticas com mínima intervenção humana. No entanto, essa fronteira de produtividade expõe um problema de integridade mais profundo: sob pressão científica, mesmo os LLMs de ponta ainda fabricam resultados, ignoram erros ocultos e falham em julgar novidades de forma confiável. Analisando avanços até abril de 2026, apresentamos uma análise completa da IA ao longo de todo o ciclo de vida da pesquisa, organizada em quatro fases epistemológicas: Criação (geração de ideias, revisão de literatura, codificação e experimentos, tabelas e figuras), Escrita (redação de artigos), Validação (revisão por pares, réplica e revisão) e Disseminação (pôsteres, slides, vídeos, mídias sociais, páginas de projetos e agentes interativos). Identificamos uma fronteira nítida e dependente de estágio entre assistência confiável e autonomia não confiável: a IA se destaca em tarefas estruturadas, fundamentadas em recuperação de informações e mediadas por ferramentas, mas permanece frágil para ideias genuinamente novas, experimentos em nível de pesquisa e julgamento científico. Ideias geradas frequentemente se degradam após a implementação, o código de pesquisa fica muito aquém dos benchmarks de correspondência de padrões, e sistemas autônomos de ponta a ponta ainda não atingiram consistentemente os padrões de aceitação em grandes veículos. Mostramos ainda que uma maior automação pode obscurecer, em vez de eliminar, modos de falha, tornando a colaboração governada por humanos o paradigma de implantação mais confiável. Por fim, fornecemos uma taxonomia estruturada, um conjunto de benchmarks e um inventário de ferramentas, princípios de design transversais às fases e um manual orientado a profissionais, com recursos mantidos em nossa página do projeto.
Automação ponta a ponta de operações realistas de saúde enfatiza três capacidades sub-representadas nos benchmarks atuais: densidade de políticas – as decisões devem estar fundamentadas em uma ampla biblioteca de regras médicas, securitárias e operacionais; composição multirpapéis – uma única tarefa exige que o agente assuma múltiplos papéis com transições; e interação multilateral – etapas intermediárias do fluxo de trabalho consistem em diálogos de múltiplas rodadas, como revisão entre pares e contato com pacientes. Apresentamos o χ-Bench, um benchmark de fluxos de trabalho de saúde de longo horizonte em três domínios: autorização prévia de prestadores, gestão de utilização de pagadores e gestão de cuidados. Cada tarefa entrega ao agente um caso clínico em um simulador de alta fidelidade de 20 aplicativos de saúde expostos por meio de 87 ferramentas MCP, que ele deve conduzir a um status terminal por meio de chamadas de ferramentas e redação dos artefatos do papel, guiado por um manual de operações de assistência gerenciada com mais de 1.290 documentos. Em 30 configurações de agente/modelo, o melhor agente resolve apenas 28,0% das tarefas, nenhum agente ultrapassa 20% no critério rigoroso pass^3, e executar todas as tarefas em uma única sessão reduz o desempenho para 3,8%. Esses resultados levantam a hipótese de que lacunas semelhantes provavelmente surgirão em outros domínios empresariais de alta densidade de políticas, composição de papéis e irreversibilidade de processos.
Projetar salas internas 3D realistas e funcionais é essencial para uma ampla gama de aplicações, incluindo design de interiores, realidade virtual, jogos e IA incorporada. Embora abordagens recentes baseadas em MLLM tenham demonstrado grande potencial para síntese de salas 3D a partir de descrições textuais ou imagens de referência, métodos baseados em texto têm dificuldade em capturar informações espaciais precisas, e agentes existentes condicionados a imagem sofrem com instabilidade e looping infinito quando encarregados da geração holística de salas a partir de vistas de cima para baixo. Para superar essas limitações, propomos o Code-as-Room, um framework de agente baseado em MLLM equipado com uma estrutura de execução organizada, que representa salas 3D com códigos Blender. Dada uma imagem de sala de cima para baixo, o framework analisa a imagem de referência para extrair elementos da cena e suas relações espaciais, e sintetiza código Blender executável para geometria, materiais e iluminação em um pipeline multietapas estruturado. Um módulo de memória entre estágios é mantido ao longo do processo para mitigar o esquecimento de contexto, inerente aos frameworks baseados em agentes existentes. Também introduzimos um benchmark específico para síntese de salas 3D baseada em código, englobando vários protocolos de avaliação. Com base nesse benchmark, são realizadas comparações abrangentes com métodos baseados em agentes existentes para validar a eficácia da estrutura de execução proposta.
Alinhar geradores de vídeo autoregressivos (AR) em streaming com preferências humanas é desafiador. Métodos existentes de aprendizado por reforço dependem predominantemente de exploração baseada em ruído e políticas substitutas baseadas em EDE que são incompatíveis com a dinâmica determinística de EDO dos modelos AR destilados, e tendem a perturbar a aparência de baixo nível, em vez da progressão semântica de alto nível da narrativa, crítica para a coerência de longo horizonte. Para abordar essas limitações, apresentamos o KVPO, uma estrutura de Otimização Relativa de Política em Grupo (GRPO) nativa de EDO para alinhar geradores de vídeo em streaming. Para exploração de diversidade, o KVPO introduz um paradigma de exploração semântico-causal que realoca a fonte de variação do ruído estocástico para o cache KV histórico. Ao rotear estocasticamente entradas KV históricas, ele constrói ramos de geração semanticamente diversos que permanecem estritamente na variedade de dados. Para modelagem de política, o KVPO introduz uma política substituta de campo de velocidade baseada na Energia de Velocidade de Trajetória (TVE), que quantifica a probabilidade dos ramos no espaço de velocidade de correspondência de fluxo e produz um objetivo contrastivo ponderado por recompensa totalmente consistente com a formulação nativa de EDO. Experimentos em múltiplos geradores de vídeo AR destilados demonstram ganhos consistentes em qualidade visual, qualidade de movimento e alinhamento texto-vídeo, tanto em configurações de vídeo curto com prompt único quanto de vídeo longo com múltiplos prompts.
O progresso recente na demonstração formal de teoremas tem se beneficiado da geração de provas em larga escala e do treinamento consciente do verificador, mas a prova agentiva raramente é integrada ao treinamento do provador, aparecendo apenas no momento da inferência. Apresentamos o OProver, uma estrutura unificada para demonstração formal agentiva de teoremas em Lean 4, na qual tentativas frustradas de prova são revisadas iterativamente utilizando provas verificadas pelo compilador recuperadas e feedback do compilador Lean. O OProver é treinado por meio de pré-treinamento contínuo seguido de pós-treinamento iterativo: cada iteração executa prova agentiva, indexa provas recém-verificadas no OProofs e na memória de recuperação, utiliza trajetórias de reparo como dados de ajuste fino supervisionado (SFT) e emprega casos difíceis não resolvidos para aprendizado por reforço (RL). O OProofs é construído a partir de recursos públicos do Lean, síntese de provas em larga escala e trajetórias de prova agentiva, contendo 1,77 milhões de declarações Lean, 6,86 milhões de provas verificadas pelo compilador e trajetórias serializadas com contexto recuperado, tentativas frustradas, feedback e reparos. Em cinco referências, o OProver-32B atinge o melhor Pass@32 no MiniF2F (93,3%), ProverBench (58,2%) e PutnamBench (11,3%), e ocupa o segundo lugar no MathOlympiad (22,8%) e ProofNet (33,2%), obtendo mais colocações no topo do que qualquer provador de provas completas de pesos abertos anterior.
Mixture-of-Experts (MoE) escala modelos de linguagem eficientemente por meio da ativação esparsa de especialistas, e sua variante dinâmica reduz ainda mais a computação ao ajustar os especialistas ativados de forma dependente da entrada. Métodos dinâmicos MoE existentes geralmente dependem de pré-treinamento do zero ou adaptação específica a tarefas, deixando a conversão prática de MoE totalmente treinados pouco explorada. Possibilitar tal adaptação aliviaria diretamente os custos de inferência ao permitir que tokens fáceis evitem especialistas desnecessários durante o serviço. Este artigo apresenta o Zero-Expert Self-Distillation Adaptation (ZEDA), uma estrutura de baixo custo que transforma modelos MoE estáticos pós-treinados em modelos dinâmicos eficientes. Para estabilizar essa conversão arquitetural, o ZEDA injeta especialistas de saída zero sem parâmetros em cada camada MoE e adapta o modelo aumentado por meio de autodestilação em dois estágios, utilizando o MoE original como um professor congelado e aplicando uma perda de balanceamento em nível de grupo. No Qwen3-30B-A3B e GLM-4.7-Flash em 11 benchmarks abrangendo matemática, código e seguimento de instruções, o ZEDA elimina mais de 50% dos FLOPs dos especialistas com perda marginal de precisão. Ele supera a linha de base dinâmica MoE mais forte em 6,1 e 4,0 pontos nos dois modelos, e proporciona um ganho de velocidade de inferência ponta a ponta de aproximadamente 1,20 vezes.
Grandes Modelos de Visão-Linguagem (LVLMs) têm demonstrado progressos significativos na compreensão de vídeos, mas ainda enfrentam desafios substanciais em tarefas que exigem localização espaço-temporal precisa ao nível de instância. Métodos existentes baseiam-se principalmente em prompts textuais para interação humano-modelo, mas esses prompts têm dificuldade em fornecer referências espaciais e temporais precisas, resultando em uma experiência do usuário insatisfatória. Além disso, abordagens atuais tipicamente dissociam a percepção visual do raciocínio linguístico, centrando o raciocínio na linguagem em vez do conteúdo visual, o que limita a capacidade do modelo de perceber proativamente evidências visuais de granularidade fina. Para enfrentar esses desafios, propomos o VideoSeeker, um novo paradigma para compreensão de vídeo ao nível de instância por meio de prompts visuais. O VideoSeeker integra de forma contínua o raciocínio agêntico com tarefas de compreensão de vídeo ao nível de instância, permitindo que o modelo perceba e recupere proativamente segmentos de vídeo relevantes sob demanda. Construímos um pipeline de síntese de dados totalmente automatizado em quatro estágios para gerar eficientemente dados de vídeo de alta qualidade em larga escala ao nível de instância. Internalizamos a chamada de ferramentas e as capacidades de percepção proativa no modelo por meio de supervisão de inicialização a frio e treinamento por RL, construindo um modelo poderoso de compreensão de vídeo. Experimentos demonstram que nosso modelo alcança uma melhoria média de +13,7% em relação às linhas de base em tarefas de compreensão de vídeo ao nível de instância, superando modelos fechados poderosos como GPT-4o e Gemini-2.5-Pro, além de mostrar transferibilidade efetiva em benchmarks gerais de compreensão de vídeo. Os conjuntos de dados e o código relevantes serão disponibilizados publicamente.
O desafio fundamental em escalar Modelos de Linguagem de Grande Escala para Vídeo (Video LLMs) para vídeos longos reside em gerenciar a explosão do comprimento do contexto de tokens visuais. As estratégias existentes concentram-se predominantemente na redução de tokens *post-hoc* – reduzindo tokens visuais após a extração de características para aliviar a sobrecarga computacional do LLM. Embora esses métodos reduzam efetivamente o número de tokens visuais, observamos que o principal gargalo de latência então se desloca do LLM para o caro processamento por quadro do codificador de visão. Para resolver isso, apresentamos o LiteFrame, um *backbone* de codificador de vídeo forte e altamente eficiente para Video LLMs. Para treinar o LiteFrame, propomos a Destilação de Tokens Comprimidos (CTD), uma nova estrutura de treinamento que ensina um codificador de visão aluno compacto a prever diretamente representações densas em informação e comprimidas espaço-temporalmente produzidas por um grande modelo de visão professor, contornando efetivamente a computação redundante. Quando combinada com uma Adaptação Adicional do Modelo de Linguagem (LMA), essa abordagem resulta em uma nova fronteira de Pareto de latência-precisão – em comparação com o InternVL3-8B, o LiteFrame proporciona uma redução de 35% na latência ponta a ponta enquanto processa 8 vezes mais quadros e melhora a precisão média de compreensão de vídeo em vários *benchmarks*. Nossos resultados demonstram um novo caminho potencial para viabilizar a compreensão de vídeos mais longos sob orçamentos computacionais fixos.
Modelos de Raciocínio de Grande Porte (LRMs) alcançam desempenho robusto ao gerar longas cadeias de pensamento (CoT), mas frequentemente pensam em excesso, continuando a raciocinar mesmo após uma solução já ter se estabilizado, desperdiçando assim tokens e aumentando a latência. Métodos existentes de saída antecipada em tempo de inferência baseiam-se principalmente em sinais em nível de resposta, como confiança ou consistência de respostas provisórias, para decidir quando parar. No entanto, esses sinais refletem sobretudo a prontidão da resposta, e não a convergência do raciocínio: eles podem ser acionados antes que o modelo tenha terminado de explorar ou se autocorrigir, causando saídas prematuras que podem degradar a precisão da resposta final e deixar a cadeia de raciocínio retida semanticamente incompleta. Identificamos a redundância semântica em nível de raciocínio como um sinal complementar para a saída antecipada com preservação semântica: quando etapas sucessivas não acrescentam mais progresso novo e, em vez disso, revisitam conclusões já estabelecidas, a trajetória de raciocínio provavelmente convergiu. Com base nessa percepção, propomos o PUMA, uma estrutura plug-and-play que combina um Detector de Redundância leve com verificação em nível de resposta. O detector sinaliza candidatos a saída semanticamente redundantes, enquanto a verificação confirma se é seguro parar, permitindo que o PUMA remova a continuação redundante, preservando tanto a precisão da resposta quanto um prefixo de raciocínio coerente. Em cinco LRMs e cinco referências desafiadoras de raciocínio, o PUMA alcança uma redução média de tokens de 26,2%, mantendo a precisão e a qualidade da CoT retida. Experimentos adicionais em geração de código, raciocínio visão-linguagem zero-shot e internalização de política de parada aprendida demonstram ainda que a redundância em nível de raciocínio é um sinal robusto, transferível e aprendível para raciocínio eficiente. Nosso código está disponível em https://github.com/giovanni-vaccarino/PUMA.
A faixa dinâmica das ativações é uma restrição de primeira ordem para quantização de baixa precisão, escalonamento de ativações e inferência estável de LLMs. Trabalhos anteriores caracterizaram características outlier e ativações massivas em modelos estilo LLaMA anteriores a 2024, e a pilha subsequente de quantização de ativações herda esse quadro sem reavaliá-lo diante do boom de modelos abertos pós-LLaMA. Colocamos a questão orientada à implantação: quão grandes podem se tornar as ativações em LLMs abertos modernos, e como essa magnitude varia entre famílias, gerações e estágios de treinamento? Sob um pipeline unificado (corpus multidomínio de 5.000 amostras, tokenização específica da família, hooks idênticos em embeddings, estados ocultos, atenção, MLP/MoE, portas SwiGLU e norma final), medimos máximos globais e por camada em 27 checkpoints de 8 famílias abertas, abrangendo variantes densas, MoE, visão-linguagem, treinamento intermediário e ajustadas por instrução. Constatamos que (i) os máximos globais abrangem quase quatro ordens de magnitude em contagens de parâmetros comparáveis, com checkpoints Qwen3.5 e MoE na faixa de 10² a 10³ e Gemma3-27B-it atingindo ~7 × 10⁵; (ii) comparações entre famílias e entre gerações quebram a escalabilidade monotônica simples; e (iii) checkpoints MoE exibem picos 14,0–23,4 vezes menores do que equivalentes densos de escala semelhante, enquanto o fluxo residual carrega o máximo global em 22/24 checkpoints. Uma verificação de sanidade INT-8 leve mostra que os máximos medidos covariam com o erro de reconstrução de baixa precisão por meio da seleção de escala de ativação. Concluímos que a magnitude máxima de ativação é uma propriedade do modelo vinculada à família, arquitetura e estágio de treinamento – não um simples subproduto do tamanho – e deve ser medida e relatada junto com qualquer lançamento de pesos abertos antes da implantação de baixa precisão. O código está disponível publicamente em https://github.com/clx1415926/Max_act_llm.
É inviável abranger todas as possíveis perturbações no conjunto de dados de treinamento. Isso levanta uma questão crítica sobre a robustez dos modelos Visão-Linguagem-Ação (VLA) ao encontrar perturbações visuais não vistas no mundo real, particularmente em condições visuais imperfeitas. Neste trabalho, realizamos um estudo sistemático baseado em modelos VLA de última geração recentes e revelamos uma queda significativa de desempenho quando perturbações visuais ausentes nos dados de treinamento são introduzidas. Para mitigar esse problema, propomos um módulo adaptador leve fundamentado na teoria da informação, denominado Adaptador de Gargalo de Informação (IB-Adapter), que filtra seletivamente o ruído potencial das entradas visuais. Sem exigir quaisquer dados extras ou estratégias de aumento, o IB-Adapter melhora consistentemente a linha de base em uma média de 30%, enquanto adiciona menos de 10 milhões de parâmetros, demonstrando notável eficiência e eficácia. Além disso, mesmo com um backbone 14 vezes menor (0,5B parâmetros) e sem pré-treinamento no conjunto de dados Open X-Embodiment, nosso modelo StableVLA alcança robustez competitiva com VLAs de última geração da escala de 7B. Com uma sobrecarga de parâmetros insignificante (<10M), nossa abordagem mantém a precisão em tarefas de longo horizonte e supera o OpenPi sob corrupções visuais sintéticas e físicas.
Estender a janela de contexto de modelos de linguagem de grande porte normalmente requer treinamento em sequências com o comprimento alvo, incorrendo em custos quadráticos de memória e computação que tornam a adaptação de contexto longo cara e difícil de reproduzir. Propomos o EndPrompt, um método que alcança extensão de contexto efetiva usando apenas sequências curtas de treinamento. A intuição central é que expor um modelo a distâncias posicionais relativas de longo alcance não requer a construção de entradas de comprimento total: preservamos o contexto curto original como um primeiro segmento intacto e acrescentamos um breve prompt terminal como segundo segmento, atribuindo a ele índices posicionais próximos ao comprimento alvo da janela de contexto. Essa construção de dois segmentos introduz distâncias relativas locais e de longo alcance dentro de uma sequência física curta, mantendo a continuidade semântica do texto de treinamento—uma propriedade ausente em abordagens de simulação baseadas em blocos que dividem o contexto contíguo. Fornecemos uma análise teórica fundamentada no Rotary Position Embedding e na desigualdade de Bernstein, mostrando que a interpolação de posições impõe uma restrição rigorosa de suavidade sobre a função de atenção, com parâmetros compartilhados do Transformer suprimindo ainda mais a extrapolação instável para distâncias intermediárias não observadas. Aplicado a modelos da família LLaMA que estendem a janela de contexto de 8K para 64K, o EndPrompt atinge uma pontuação RULER média de 76,03 e a maior média no LongBench, superando LCEG (72,24), LongLoRA (72,95) e o ajuste fino de comprimento total (69,23), ao mesmo tempo que requer substancialmente menos computação. Esses resultados demonstram que a generalização de contexto longo pode ser induzida a partir de supervisão posicional esparsa, desafiando a suposição predominante de que o treinamento denso de sequências longas é necessário para uma extensão confiável da janela de contexto. O código está disponível em https://github.com/clx1415926/EndPrompt.
Modelos de linguagem de grande porte (LLMs) atuam cada vez mais como agentes autônomos que precisam decidir quando responder diretamente versus quando recorrer a ferramentas externas. Trabalhos anteriores que estudam o uso adaptativo de ferramentas trataram, em grande parte, a necessidade de ferramentas como uma propriedade independente do modelo, anotada por um juiz humano ou LLM, e abrangeram principalmente casos em que a resposta é óbvia (por exemplo, obter a previsão do tempo vs. parafrasear texto). No entanto, a necessidade de ferramentas em cenários reais é mais sutil devido à divergência de limites de capacidade entre os modelos: um problema resolvível por um modelo forte por conta própria pode ainda exigir ferramentas para um modelo mais fraco. Neste trabalho, introduzimos uma definição adaptativa ao modelo de necessidade de ferramentas, fundamentada no desempenho empírico de cada modelo. Seguindo essa definição, comparamos a necessidade com o comportamento observado de chamadas de ferramentas em quatro modelos em conjuntos de dados aritméticos e de QA factual, e encontramos discrepâncias substanciais de 26,5–54,0% e 30,8–41,8%, respectivamente. Para diagnosticar a falha, decompomos o uso de ferramentas em dois estágios: um estágio de cognição interna que reflete se um modelo acredita que uma ferramenta é necessária, e um estágio de execução que determina se o modelo realmente realiza uma ação de chamada de ferramenta. Ao sondar os estados ocultos dos LLMs, descobrimos que ambos os sinais são frequentemente linearmente decodificáveis, mas suas direções de sonda tornam-se quase ortogonais nas camadas finais e no regime do último token que impulsiona a ação do próximo token. Ao rastrear a trajetória das amostras no processo de dois estágios, descobrimos ainda que a maioria das discrepâncias se concentra na transição da cognição para a ação, não na cognição em si. Esses resultados revelam uma lacuna entre saber e fazer no uso de ferramentas por LLMs: melhorar a confiabilidade do uso de ferramentas exige não apenas um melhor reconhecimento de quando as ferramentas são necessárias, mas também uma melhor tradução desse reconhecimento em ação.
O aprendizado por reforço (RL) é cada vez mais utilizado para aprimorar as capacidades de raciocínio, codificação e uso de ferramentas de grandes modelos de linguagem (LLMs), mas o RL agentivo continua proibitivamente caro. Escalar o RL para LLMs agentivos requer o suporte a cargas de trabalho complexas, incluindo treinamento colaborativo com múltiplas políticas, ao mesmo tempo em que se utilizam eficientemente recursos computacionais elásticos, heterogêneos e de múltiplas regiões. Sistemas existentes de RL para LLMs oferecem suporte a algumas dessas capacidades, mas cada nova extensão frequentemente exige engenharia de sistema dedicada. Esse ônus decorre de arquiteturas de controle centradas no treinador e da falta de abstrações fundamentadas para os componentes dos sistemas de RL. Para superar essas limitações, propomos o AstraFlow, um sistema de RL orientado a fluxo de dados que substitui o controle convencional centrado no treinador por abstrações de componentes fundamentadas. No AstraFlow, serviços de coleta de experiência (rollout), gerenciamento de fluxo de dados e treinamento são desacoplados em componentes autônomos, permitindo que o sistema suporte nativamente cargas de trabalho complexas de RL agentivo com múltiplas políticas e explore eficientemente recursos computacionais diversificados. Avaliamos o AstraFlow em cargas de trabalho de matemática, código, busca e AgentBench, demonstrando que o mesmo sistema suporta treinamento com múltiplas políticas, escalabilidade elástica, execução heterogênea em múltiplas regiões e algoritmos de dados combináveis, sem necessidade de alterações no código do sistema. No treinamento colaborativo com múltiplas políticas, o AstraFlow alcança precisão comparável ou superior à de sistemas RL existentes, ao mesmo tempo que acelera o tempo de treinamento em 2,7 vezes.
Modelos de linguagem de difusão contínua ficam aquém dos transformadores autorregressivos, em parte porque a difusão é aplicada em espaços pouco adequados à remoção de ruído e recuperação de tokens. Propomos o DiHAL, um híbrido difusão-transformador guiado por geometria que pergunta onde a difusão deve entrar em um transformador pré-treinado. O DiHAL pontua camadas com proxies baseados em geometria, seleciona uma interface de estado oculto amigável à difusão e substitui o prefixo inferior do transformador por uma ponte de difusão, mantendo as camadas superiores e a cabeça LM original. Ao reconstruir o estado oculto da camada selecionada em vez de tokens, o DiHAL evita a recuperação contínua-para-discreta direta. Experimentos em backbones de escala 8B mostram que o escore geométrico prevê camadas de inserção rasas eficazes sob um protocolo fixo de treinamento de ponte e que a recuperação do estado oculto melhora em relação às linhas de base de difusão contínua em uma comparação diagnóstica que iguala o orçamento de treinamento de difusão/recuperação. Esses resultados sugerem que a geometria do estado oculto ajuda a identificar onde a substituição baseada em difusão é viável dentro de modelos de linguagem pré-treinados.
Modelos de linguagem são ajustados por instruções para recusar solicitações prejudiciais, mas os mecanismos subjacentes a esse comportamento ainda são pouco compreendidos. Métodos populares de direcionamento operam no fluxo residual e degradam a coerência da saída em altas intensidades de intervenção, limitando seu uso prático. Apresentamos a atribuição contrastiva de neurônios (CNA), que identifica os 0,1% dos neurônios MLP cujas ativações mais diferenciam prompts prejudiciais de benéficos, exigindo apenas passagens diretas, sem gradientes ou treinamento auxiliar. Em modelos instruídos, a ablação do circuito descoberto reduz as taxas de recusa em mais de 50% em um benchmark padrão de jailbreak, preservando fluência e não-degenerescência em todas as intensidades de direcionamento. Aplicando CNA a modelos base e instruídos correspondentes nas arquiteturas Llama e Qwen (de 1B a 72B parâmetros), descobrimos que modelos base contêm estruturas de discriminação similares em camadas tardias, mas o direcionamento desses neurônios produz apenas mudanças de conteúdo, não alterações comportamentais. Esses resultados demonstram que a intervenção em nível de neurônio possibilita um direcionamento comportamental confiável sem as trocas de qualidade dos métodos de fluxo residual. De forma mais ampla, nossas descobertas sugerem que o ajuste fino de alinhamento transforma a estrutura de discriminação pré-existente em uma porta de recusa esparsa e direcionável.
O preenchimento em blocos tornou-se uma estratégia de serviço amplamente adotada para modelos de linguagem de grande porte com contexto longo, mas o cálculo eficiente da atenção nesse regime ainda é desafiador. Os métodos existentes de atenção esparsa são projetados principalmente para preenchimento único e não se traduzem eficientemente para o preenchimento em blocos: kernels esparsos em blocos perdem eficiência quando o comprimento da consulta é limitado pelo tamanho do bloco, enquanto a busca por padrões refinados torna-se custosa quando repetida sobre o cache KV acumulado a cada bloco. O QUOKA, um método recente que visa diretamente o preenchimento em blocos, evita a sobrecarga de kernels esparsos, mas depende de seleção KV em nível de token com subamostragem de consultas, o que pode perder entradas KV específicas da consulta e introduzir sobrecarga explícita de cópia KV. Para superar essas limitações, propomos o CompactAttention, um mecanismo de atenção para preenchimento em blocos baseado em Seleção KV por União de Blocos. O CompactAttention trata máscaras esparsas 2D em blocos como sinais de seleção KV, em vez de planos diretos de execução de kernels esparsos, e as converte em tabelas de blocos KV por grupo cientes de GQA por meio de união de blocos Q e união intragrupo. Essa construção produz as tabelas de blocos mínimas que preservam todos os blocos KV selecionados pelas máscaras de entrada sob restrições de execução paginada, permitindo que os blocos KV selecionados sejam acessados in-place sem compactação KV explícita. No LLaMA-3.1-8B-Instruct, o CompactAttention mantém precisão próxima à atenção densa no benchmark RULER, enquanto oferece até 2,72 vezes de aceleração da atenção em comprimento de contexto de 128K sob preenchimento em blocos.
Agentes de codificação podem gerar aplicações web a partir de descrições em linguagem natural, no entanto, um estudo de referência recente mostra que as aplicações geradas falham em atender aos requisitos funcionais em mais de 70% dos casos. A dificuldade central é que a correção web não pode ser avaliada a partir de arquivos fonte ou da saída do terminal: a aplicação deve ser implantada, exercitada por meio de interações simuladas de navegador, e as falhas devem ser traduzidas em sinais de reparo acionáveis — etapas que os agentes atuais não conseguem realizar sem mediação humana. Apresentamos o TDDev, um framework que automatiza esse ciclo fechado por meio de três estágios: (1) conversão de requisitos de alto nível em testes de aceitação estruturados antes de qualquer código ser escrito, (2) implantação da aplicação e validação por meio de simulação de interação baseada em navegador, e (3) tradução de falhas observadas no navegador em relatórios de reparo estruturados para o agente de codificação. Com o suporte do TDDev, realizamos o primeiro estudo empírico controlado de estratégias de Desenvolvimento Orientado por Testes (TDD) para geração de aplicações web, comparando quatro protocolos de desenvolvimento em dois agentes de codificação, dois modelos de base e dois benchmarks. A infraestrutura de TDD melhora consistentemente a qualidade da geração em 34 a 48 pontos percentuais em relação a uma linha de base sem TDD. A descoberta central é que o protocolo ideal depende do estilo de geração do modelo: modelos que constroem aplicações de forma holística se beneficiam mais do reforço agentivo, enquanto modelos que estendem código de forma conservadora se beneficiam do reforço incremental. A incompatibilidade entre protocolo e estilo de geração elimina completamente o benefício do TDD, ao mesmo tempo que multiplica o custo de tokens em até 25 vezes. Um estudo com usuários confirma que o TDDev reduz a intervenção manual do desenvolvedor a zero, transferindo a carga de trabalho da engenharia contínua de prompts para o refinamento autônomo orientado por feedback.
Estudos recentes introduzem módulos de memória condicional que desacoplam o armazenamento de conhecimento do cálculo neural, permitindo um acesso mais direto ao conhecimento. Em comparação com o MoE, que depende de caminhos de computação dinâmica, a consulta explícita proporciona um mecanismo de recuperação de conhecimento mais eficiente. No entanto, essas abordagens ainda dependem de embeddings de memória aprendidos, exigindo treinamento adicional e limitando a flexibilidade. Para resolver isso, propomos a Memória de N-Gramas (NGM), um módulo plug-and-play livre de treinamento composto por um Codificador Causal de N-Gramas e um Injetor de Memória com Porta Cosseno. O Codificador Causal de N-Gramas calcula a média direta dos embeddings de tokens pré-treinados do modelo base para construir representações de N-gramas, eliminando assim a necessidade de treinar embeddings de N-gramas separados do zero. Este design não requer uma tabela de memória adicional nem um pipeline de recuperação. O Injetor de Memória com Porta Cosseno utiliza então uma porta cosseno não paramétrica com ReLU para modular os embeddings recuperados nas representações contextuais. Avaliamos a NGM na série Qwen3, de 0,6B a 14B, em oito benchmarks. A NGM melhora o desempenho médio em 0,5 a 1,2 pontos, com ganhos particularmente evidentes em geração de código e tarefas intensivas em conhecimento (por exemplo, +3,0 no LiveCodeBench e +3,03 no GPQA para Qwen3-14B). Além disso, a NGM também melhora o desempenho em benchmarks multimodais (por exemplo, MMStar +1,53 no Qwen3-VL-2B).
A geração moderna de áudio depende predominantemente da compressão em espaço latente, introduzindo complexidade adicional e potencial perda de informação. Neste trabalho, desafiamos esse paradigma com o WavFlow, uma estrutura que gera áudio de alta fidelidade diretamente no espaço de forma de onda bruta, sem representações intermediárias. Para superar as dificuldades inerentes à modelagem de sinais de alta dimensionalidade e baixa energia, reorganizamos o áudio em grades de tokens 2D por meio de patchificação de forma de onda e introduzimos elevação de amplitude para alinhar as escalas do sinal, possibilitando otimização estável via predição direta de x no flow matching. Para capturar alinhamento semântico complexo e sincronização temporal, utilizamos um pipeline automático de dados para selecionar 5 milhões de tripletos vídeo-texto-áudio de alta qualidade, permitindo que o modelo aprenda padrões acústicos refinados a partir do zero. Resultados experimentais mostram que o WavFlow alcança desempenho competitivo no benchmark vídeo-para-áudio VGGSound (FD_PaSST: 59,98, IS_PANNs: 17,40, DeSync: 0,44) e no benchmark texto-para-áudio AudioCaps (FD_PANNs: 10,63, IS_PANNs: 12,62), igualando ou superando o desempenho de métodos estabelecidos baseados em latente. Nosso trabalho demonstra que a compressão intermediária não é um pré-requisito para síntese de alta qualidade, oferecendo uma alternativa mais simples e escalável para geração multimodal de áudio.
Agentes que utilizam ferramentas são cada vez mais esperados para operar em fluxos de trabalho profissionais realistas, onde precisam interpretar entradas multimodais, coordenar ferramentas externas, inspecionar artefatos intermediários e revisar suas ações antes de produzir um resultado final. No entanto, benchmarks existentes frequentemente avaliam o uso de ferramentas, o uso de computador e o raciocínio multimodal de forma isolada, deixando uma lacuna entre os cenários de benchmark e o uso omni-modal de ferramentas de ponta a ponta no mundo real. Para preencher essa lacuna, apresentamos o MM-ToolBench, um benchmark e conjunto de ferramentas de avaliação para uso omni-modal de ferramentas orientado a tarefas. O MM-ToolBench contém 100 tarefas executáveis de duas macrofamílias de tarefas, Atendimento ao Cliente e Criação Inteligente, abrangendo 20 fatias de subcategorias e suportadas por 27 servidores MCP com 324 ferramentas. O design central do MM-ToolBench é a verificação multimodal em malha fechada: os agentes devem executar ferramentas, inspecionar artefatos renderizados ou transformados e se autocorrigir quando as saídas falham nos requisitos específicos da tarefa. Para tornar essa avaliação escalável e verificável, o MM-ToolBench combina execução baseada em MCP com avaliadores fundamentados específicos da tarefa e um pipeline de construção semiautomatizado para descoberta de cenários, instanciação de tarefas, síntese de avaliadores e auditoria humana. Experimentos em 15 modelos agentivos contemporâneos mostram que o MM-ToolBench continua altamente desafiador: o Claude Opus 4.6, comumente considerado um dos modelos agentivos de codificação mais fortes, atinge apenas 32,0% de sucesso nas tarefas, muito abaixo do benchmark humano de 94,0%. Vislumbramos o MM-ToolBench como uma base prática para avaliar e avançar agentes da próxima geração que utilizam ferramentas omni-modais por meio de verificação multimodal em malha fechada.
Agentes de modelo visão-linguagem (VLM) dependem cada vez mais de aprendizado por reforço aumentado por memória para reutilizar experiência em tarefas de longo horizonte, porém a maioria das estruturas existentes armazena memória como texto e depende de modelos professores proprietários para resumir ou refiná-la. Esse design é mal adaptado para tomada de decisão espacial: priores geométricos são comprimidos em linguagem com perdas, e a interação esparsa é frequentemente supervisionada através de feedback textual atrasado, em vez de sinais densos fundamentados visualmente. Argumentamos que a experiência reutilizável para agentes VLM deve permanecer fundamentada visualmente. Com base nessa percepção, propomos o AtlasVA, uma estrutura de memória de habilidades visuais sem professor que organiza a memória em três camadas complementares: mapas de calor espaciais, exemplares visuais e habilidades de texto simbólico. O AtlasVA ainda evolui atlas de perigo e afinidade diretamente de estatísticas de trajetória e heurísticas leves de grade, e reutiliza esses atlas auto evolutivos como recompensas de modelagem baseadas em potencial para aprendizado por reforço. Isso unifica percepção, memória e otimização sem supervisão externa de LLM. Experimentos em benchmarks de Sokoban, FrozenLake, navegação corporificada 3D e manipulação robótica 3D mostram que o AtlasVA supera consistentemente as linhas de base de memória centrada em texto e agentes VLM competitivos, com ganhos especialmente fortes em tarefas espacialmente intensivas. Página inicial: https://wangpan-ustc.github.io/AtlasvaWeb
O ajuste fino supervisionado (SFT) é amplamente utilizado para injetar novos conhecimentos em modelos de linguagem, mas frequentemente degrada capacidades pré-treinadas, como raciocínio e desempenho em domínios gerais. Argumentamos que esse esquecimento surge porque os alvos de ajuste fino provenientes de humanos ou sistemas externos divergem da distribuição autorregressiva do modelo, forçando o otimizador a imitar sequências de tokens de baixa probabilidade. Para resolver esse problema, propomos o MixSD, um método simples sem professor externo para injeção de conhecimento alinhada à distribuição. Em vez de treinar em alvos fixos, o MixSD constrói supervisão dinamicamente misturando tokens de duas condicionais do próprio modelo base: uma condicional especialista que observa o fato injetado em contexto, e uma condicional ingênua que reflete a prioridade original do modelo. As sequências de supervisão resultantes preservam o sinal de aprendizado factual enquanto permanecem substancialmente mais próximas da distribuição do modelo base. Avaliamos o MixSD em dois corpora sintéticos que construímos para estudar a recuperação factual e a aquisição de funções aritméticas em um ambiente controlado, juntamente com benchmarks estabelecidos para perguntas e respostas factuais de domínio aberto e edição de conhecimento. Em múltiplas escalas e configurações de modelo, o MixSD alcança consistentemente um melhor compromisso memorização-retenção em comparação com o SFT e as linhas de base de autodestilação on-policy, retendo até 100% da capacidade mantida do modelo base enquanto mantém uma precisão de treinamento quase perfeita, enquanto o SFT padrão retém apenas 1%. Mostramos ainda que o MixSD produz alvos de supervisão com NLL substancialmente menor sob o modelo base e reduz o movimento prejudicial ao longo de direções de parâmetros sensíveis a Fisher. Esses resultados sugerem que alinhar a supervisão com a distribuição de geração nativa do modelo é um princípio simples e eficaz para injeção de conhecimento que mitiga o esquecimento catastrófico.
Agentes GUI recentes fizeram progressos substanciais na ancoragem visual e na predição de ações, mas ainda são frágeis em tarefas de longo horizonte que exigem manter o estado da tarefa através de muitas transições de interface. Agentes existentes tipicamente dependem de reprodução bruta do histórico ou memória apenas textual, que ou sobrecarregam o modelo com capturas de tela redundantes ou descartam evidências visuais localizadas necessárias para decisões futuras. Para abordar essas limitações, apresentamos o MementoGUI, um framework de memória agentiva plug-in que equipa agentes GUI baseados em MLLM com o MementoCore, um controlador aprendido para seleção, compressão e recuperação de memória online. Em vez de tratar o histórico de interação como um contexto fixo, o MementoGUI formula o controle GUI de longo horizonte como um problema de controle de memória online: a memória de trabalho preserva seletivamente eventos de interface relevantes para a tarefa com resumos textuais e evidência visual no nível de ROI, enquanto a memória episódica recupera trajetórias passadas reutilizáveis por meio de seleção de relevância aprendida. O MementoCore modulariza o controle de memória em operadores especializados para processamento de passos, compressão de memória, escrita episódica e seleção episódica, permitindo aumento de memória plug-in sem ajuste fino da espinha dorsal do agente GUI. Desenvolvemos ainda um pipeline escalável de curadoria de dados que converte trajetórias de uso do computador em dados de treinamento do controlador de memória, introduzimos o MementoGUI-Bench para avaliar a tomada de decisão de longo horizonte em agentes GUI, e projetamos métricas baseadas em MLLM para correspondência semântica de ações, progresso da tarefa e consistência da memória. Experimentos no GUI-Odyssey, MM-Mind2Web e MementoGUI-Bench mostram que o MementoGUI melhora consistentemente os agentes GUI em relação às linhas de base sem histórico, com reprodução de histórico e com memória apenas textual, com espinhas dorsais maiores do MementoCore fortalecendo ainda mais o controle GUI aumentado por memória.
Modelos de linguagem de grande escala (LLMs) estão cada vez mais sendo aplicados à análise financeira, elaboração de relatórios, suporte à decisão de investimentos, gestão de riscos, conformidade e treinamento profissional. No entanto, a avaliação robusta de sua competência no domínio financeiro ainda é incompleta. Referenciais abertos amplamente utilizados, como FinQA, ConvFinQA e TAT-QA, desempenharam um papel importante no avanço da resposta a perguntas financeiras e do raciocínio numérico, mas focam principalmente na resposta a perguntas sobre relatórios financeiros e não fornecem uma hierarquia explícita de dificuldade profissional. Recursos mais amplos, incluindo FinanceBench, PIXIU, FinBen e FLaME, expandem a cobertura de tarefas financeiras, mas o problema de avaliar a transição do conhecimento fundamental para o raciocínio financeiro de nível especialista ainda permanece em aberto. Neste trabalho, apresentamos o FINESSE-Bench, um conjunto de oito referenciais especializados compreendendo 3.993 perguntas para avaliação hierárquica de competências financeiras em LLMs. O FINESSE-Bench combina conjuntos de dados orientados a exames, inspirados em certificações profissionais (CFA-like Níveis 1-3, CMT-like Nível 2 e CFTe-like Nível 1), coleções de tarefas aplicadas de negociação e um referencial de olimpíada em língua russa. Este design permite avaliar a amplitude do domínio, a degradação do desempenho à medida que a dificuldade aumenta, a capacidade de resolver tarefas computacionais e o comportamento do modelo em domínios financeiros especializados. Também descrevemos um protocolo de avaliação unificado abrangendo perguntas de múltipla escolha, respostas numéricas e respostas curtas abertas, juntamente com um esquema de pontuação automatizado para respostas livres baseado no paradigma de LLM como juiz. O FINESSE-Bench destina-se tanto a complementar os referenciais financeiros abertos existentes quanto a servir como ferramenta para uma avaliação mais substantiva de competências financeiras profissionalmente relevantes em modelos de linguagem de grande escala.
A implementação de Modelos de Linguagem de Grande Porte (LLMs) como agentes econômicos autônomos introduz riscos sistêmicos que vão além de falhas individuais de capacidade. À medida que os agentes transitam para interagir diretamente com mercados, seu comportamento coletivo pode amplificar a volatilidade e mascarar enganos em larga escala. Apresentamos o Agent Bazaar, um framework de simulação multiagente para avaliar o Alinhamento Econômico, ou seja, a capacidade de sistemas agentivos de preservar a estabilidade e a integridade do mercado. Identificamos dois modos de falha: (1) Instabilidade Algorítmica em um mercado B2C ("O Colapso"), onde empresas amplificam a volatilidade de preços até o colapso do mercado, e (2) Decepção Sybil em um mercado C2C ("O Mercado de Limões"), onde um único agente enganoso, controlando múltiplas identidades de vendedores coordenadas, inunda o mercado com anúncios fraudulentos, erodindo a confiança e o bem-estar do consumidor. Avaliamos modelos de fronteira e de pesos abertos em ambos os cenários e constatamos que os modelos falham amplamente em se autorregular, com a gravidade da falha variando conforme o modelo, e não conforme seu tamanho. Propomos mecanismos de alinhamento econômico — Empresas Estabilizadoras e Guardiões Céticos — que melhoram os resultados, mas permanecem frágeis sob condições de mercado mais adversas. Para preencher essa lacuna, treinamos agentes com REINFORCE++ utilizando um currículo adaptativo, produzindo um modelo de 9B que supera todos os modelos de fronteira e de pesos abertos avaliados. Propomos o Escore de Alinhamento Econômico (EAE), uma métrica escalar de quatro componentes que agrega estabilidade, integridade, bem-estar e lucratividade, permitindo a comparação direta entre modelos. Nossos resultados mostram que o alinhamento econômico é ortogonal à capacidade geral e pode ser diretamente treinado com RL direcionado.
Avaliar sistemas incorporados em hardware hábil real exige mais do que habilidades primitivas isoladas: um agente deve perceber uma cena de mesa que muda, escolher uma ação adequada ao contexto, executá-la com uma mão hábil e deixar a cena utilizável para decisões posteriores. Apresentamos o DexHoldem, um benchmark de nível de sistema no mundo real desenvolvido em torno da manipulação hábil de Texas Hold'em com uma ShadowHand. O DexHoldem fornece 1.470 demonstrações teleoperadas em 14 primitivas de manipulação de Texas Hold'em, um benchmark físico de políticas padronizado e um benchmark de percepção agentiva que testa se os agentes conseguem recuperar o estado estruturado do jogo necessário para a tomada de decisão incorporada. Na execução primitiva, π_{0.5} obtém a maior taxa de conclusão de tarefa (61,2%), enquanto π_{0.5} e π_0 empatam na taxa de sucesso de preservação de cena (47,5%). Na percepção agentiva, Opus 4.7 obtém a melhor precisão estrita em nível de problema (34,3%), enquanto GPT 5.5 obtém a melhor precisão média por campo (66,8%), expondo uma lacuna entre subcapacidades visuais isoladas e a recuperação completa do estado relevante para o roteamento. Finalmente, instanciamos o loop completo do agente incorporado em três estudos de caso, onde espera, despachos de recuperação, solicitações de ajuda humana e execução repetida de primitivas revelam como erros de percepção e política se acumulam durante a implantação em malha fechada. O DexHoldem, portanto, avalia execução hábil em mesa, percepção agentiva e roteamento de decisão incorporado em um cenário físico compartilhado. Página do projeto: https://dexholdem.github.io/Dexholdem/.
Modelos modernos de mundo de vídeo interativo alcançaram fidelidade visual impressionante, mas carecem de controle multientidade refinado e generalização entre entidades e entre mundos. Atribuímos essa lacuna à interface de ação: protocolos de controle padrão (por exemplo, IDs de animação, entradas de dispositivo, legendas de nível de cena) vinculam a semântica da ação a entidades ou mecanismos específicos no momento do design. Propomos a linguagem natural como interface para desbloquear uma expressividade que nenhuma interface anterior conseguiu alcançar, e apresentamos o Incantation, o primeiro modelo de mundo de vídeo interativo com condicionamento por linguagem natural por quadro latente (0,25 s), que suporta controle simultâneo de múltiplas entidades e transferência entre entidades em nível de conceito, além de qualquer pipeline de renderização fixa. Combinamos uma backbone de vídeo bidirecional pré-treinada com atenção cruzada de texto local por quadro, e viabilizamos streaming em tempo real de longo horizonte por meio da destilação Self-Forcing inicializada por ODE com um cache KV deslizante com RoPE desacoplado. Superamos a linha de base Action-Index na transferência entre entidades (89% vs. 43%) e em prompts fora do vocabulário (90% vs. 0%), e nosso estudante de 2 etapas mantém 19,7 FPS a 480p com FVD estável ao longo de execuções de 2 horas. Além disso, aplicamos a mesma arquitetura e receita de treinamento a The King of Fighters, alterando apenas os slots de vocabulário de ação por entidade. Lançamos um subconjunto de pré-visualização do conjunto de dados Incantation em https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, contendo clipes de combate jogador-chefe de Elden Ring coletados manualmente com metadados estruturados orientados a ação. Dados em maior escala de Elden Ring e KOF serão lançados com o projeto completo.
Embora a IA agentiva e seus principais modelos de linguagem grandes multimodais (MLLMs) tenham demonstrado uma promessa notável em raciocínio linguístico e visual em domínios que vão desde a vida cotidiana até a pesquisa científica avançada, uma lacuna profunda persiste entre a inteligência artificial e a humana. Apesar da integração de ferramentas poderosas e MLLMs avançados, agentes de IA de ponta frequentemente falham em tarefas fundamentais, aparentemente simples, que uma criança pode resolver com facilidade. Inspirados pela Escala de Inteligência Wechsler para Crianças (WISC), apresentamos o ChildAgentEval, o primeiro benchmark interativo psicometricamente fundamentado para avaliar o alinhamento de idade cognitiva em agentes baseados em MLLM. O ChildAgentEval compara sistematicamente o desempenho de raciocínio de vários agentes interativos baseados em MLLM com estágios de desenvolvimento humano específicos de idade, expondo onde os sistemas atuais de IA agentiva podem e não podem simular comportamento cognitivo específico de idade.
Inspirado pelos comportamentos emergentes em grandes modelos de linguagem que generalizaram a inteligência humana, a comunidade de pesquisa busca capacidades emergentes semelhantes dentro de modelos de mundo, com ênfase na modelagem do mundo físico. No escopo do modelo de mundo físico, objetos são os primitivos fundamentais que constituem a realidade física. De humanos a computadores, quase tudo com que interagimos é um objeto. Esses objetos raramente são estáticos; são entidades acionáveis com estados variáveis determinados por suas propriedades intrínsecas. Embora os métodos atuais abordem estados de ação de objetos por meio de geração de vídeo ou reconstrução dinâmica de cenas, nenhum modela explicitamente esse elemento básico de maneira unificada e fundamentada para construir uma representação de objeto acionável. Propomos WorldString, uma arquitetura neural capaz de modelar a variedade de estados de objetos do mundo real aprendendo diretamente a partir de nuvens de pontos ou fluxos de vídeo RGB-D. Servindo como um gêmeo digital versátil, ela atua como um bloco de construção fundamental para modelos de mundo físico; assim, a nomeamos WorldString. Felizmente, sua estrutura totalmente diferenciável permite perfeitamente a integração futura com aprendizado de políticas e dinâmica neural.
Modelos de difusão têm sido amplamente estudados para remover conteúdo indesejado aprendido durante o pré-treinamento. Métodos existentes exigem dados supervisionados caros, seja texto inseguro pareado com groundtruth de imagem segura ou pares de imagem negativa/positiva, tornando-os impraticáveis para escalar. Além disso, abordagens de aprendizado por reforço offline e ajuste fino supervisionado que geram dados sintéticos offline sofrem de esquecimento catastrófico, degradando a qualidade da geração. Propomos um novo framework de aprendizado por reforço online que aborda tanto a escassez de dados quanto a degradação do modelo por meio do pós-treinamento com Otimização de Política Relativa em Grupo (GRPO) em prompts de texto negativos e positivos. Para eliminar a necessidade de ajustar modelos de recompensa especializados seguros/inseguros, introduzimos um mecanismo de recompensa de direcionamento que explora uma propriedade inerente dos embeddings CLIP: direcionar representações de texto para direções de segurança positivas e afastá-las de direções negativas no espaço de embeddings. Nossa abordagem de política online permite que o modelo aprenda a partir de prompts diversos, incluindo conteúdo explícito indesejado, sem esquecimento catastrófico. Experimentos extensos demonstram que nosso método reduz o conteúdo inapropriado para 18,07% (vs. 48,9% para SD v1.4) e detecções de nudez para 15 (vs. 646 linha de base), enquanto melhora a qualidade de geração composicional de 42,08% para 47,83% no GenEval. Notavelmente, esses ganhos de segurança generalizam-se para prompts inseguros fora do domínio, abrangendo sete categorias de danos, alcançando desempenho de estado da arte sem dados pareados supervisionados ou ajuste de recompensa. GitHub: https://github.com/MAXNORM8650/SafeDiffusion-R1.
A capacidade de raciocínio abstrato reflete a inteligência e a capacidade de generalização dos LLMs para extrair e aplicar regras abstratas. No entanto, medir com precisão essa habilidade continua desafiador: benchmarks existentes ou dependem de anotação manual cara, limitando sua escala, ou correm o risco de medir memorização em vez de raciocínio genuíno. Para resolver isso, apresentamos um pipeline automatizado denominado A2RBench, que abrange geração, expansão, avaliação e análise. Especificamente, na etapa de geração, LLMs criam tarefas diversas que exigem raciocínio genuíno; na etapa de expansão, LLMs reutilizam regras validadas e expandem novos espaços de entrada para gerar variações de tarefas, alcançando escalabilidade. No entanto, esse processo pode causar alucinações. Para eliminá-las, estabelecemos ainda um arcabouço teórico e provamos que a verificação programática—testar se a operação inversa reverte perfeitamente a operação direta (consistência de ciclo)—garante uma solução única. Por meio de avaliações extensivas em LLMs convencionais, constatamos: (1) Os LLMs atuais apresentam deficiências fundamentais em raciocínio abstrato, com modelos de ponta significativamente inferiores aos humanos em um subconjunto representativo (39,8% vs. 68,5%). (2) Os LLMs atuais geram tarefas 3D com complexidade muito inferior em comparação com as tarefas 2D e 1D, revelando sua falta de compreensão de tarefas de alta dimensionalidade. (3) Contra-intuitivamente, entradas com maior complexidade informacional podem simplificar o processo de raciocínio.
A quantização de cache KV INT2 é atraente para o atendimento de LLMs de contexto longo, mas continua sendo difícil torná-la precisa e implementável. Rotações simples, como transformadas de Hadamard, reduzem outliers, mas ainda degradam em INT2 por não estarem alinhadas com a atenção downstream. Propomos o OSCAR, um método de quantização de cache KV de bits ultrabaixos que estima estruturas de covariância conscientes da atenção offline e as utiliza para derivar rotações fixas e limiares de corte para a quantização. Dessa forma, ele alinha a quantização KV com as estruturas de covariância que a atenção realmente consome. Mais importante, não apenas fornecemos justificativa teórica, mas também desenvolvemos um sistema OSCAR totalmente implantável, com um kernel de atenção INT2 personalizado que permanece compatível com o serviço de cache KV paginado e pipelines de kernels fundidos, permitindo integração perfeita em frameworks modernos de atendimento de LLM, como SGLang e vLLM. Avaliamos nossos métodos em modelos de raciocínio recentes, com rastros de raciocínio de até 32 mil tokens em 5 tarefas. No Qwen3-4B-Thinking-2507 e no Qwen3-8B, o OSCAR reduz a diferença de precisão BF16 para 3,78 e 1,42 pontos, respectivamente, enquanto a rotação ingênua INT2 colapsa para quase zero. Estendemos ainda o OSCAR para o Qwen3-32B e o GLM-4.7 (358B parâmetros), onde ele permanece efetivamente comparável ao BF16. Em contexto longo – RULER-NIAH de até 128K – o OSCAR permanece robusto em ambos os modelos Qwen3, enquanto a rotação ingênua INT2 colapsa. Em termos de sistema, o OSCAR reduz a memória do cache KV em aproximadamente 8x, melhora a taxa de transferência em até 7x em tamanhos de lote grandes sob o mesmo orçamento de memória e acelera a decodificação com tamanho de lote 1 em até 3x em relação ao BF16 devido à redução da sobrecarga de largura de banda de memória.
A otimização de kernels de GPU é cada vez mais crítica para sistemas eficientes de aprendizado profundo, mas a criação de kernels de alto desempenho ainda exige conhecimento substancial de baixo nível. Agentes de codificação de IA recentes podem ler código iterativamente, invocar compiladores e profilers e refinar implementações; no entanto, os benchmarks de kernel existentes avaliam chamadas únicas de LLM, e não fluxos de trabalho completos de agentes, e nenhum deles inclui tanto a otimização de kernel para kernel quanto testes de generalização para configurações não vistas. Apresentamos o AgentKernelArena, um benchmark de código aberto para medir agentes de codificação de IA na otimização de kernels de GPU. O benchmark contém 196 tarefas que abrangem otimização HIP-para-HIP, otimização Triton-para-Triton e tradução PyTorch-para-HIP, e avalia fluxos de trabalho completos de agentes em espaços de trabalho isolados usando compilação controlada, verificações de correção e desempenho, pontuação centralizada e um protocolo de generalização para configurações não vistas que testa se as otimizações são transferidas para configurações de entrada que o agente nunca observou. Em agentes de produção, incluindo Cursor Agent, Claude Code e Codex Agent, encontramos compilação quase perfeita e altas taxas de correção na maioria das categorias de tarefas, com as configurações mais fortes alcançando acelerações médias de até 6,89x em tarefas PyTorch-para-HIP, 6,69x em HIP-para-HIP e 2,13x em Triton-para-Triton. Nossa avaliação de configurações não vistas mostra que as otimizações HIP-para-HIP e Triton-para-Triton são amplamente transferidas para formas de entrada não observadas, enquanto PyTorch-para-HIP apresenta quedas substanciais de correção, indicando que agentes que geram kernels do zero frequentemente codificam suposições específicas de forma. O AgentKernelArena é projetado como uma estrutura modular e extensível para avaliação rigorosa da otimização agentiva de kernels de GPU em agentes, tarefas e alvos de hardware.
Modelos de linguagem autorregressivos executam camadas Transformer sequencialmente, criando um gargalo de latência que não é removido pelo paralelismo convencional de tensor ou pipeline. Estudamos se essa dependência entre camadas pode ser relaxada ao tratar o traço de estado oculto entre camadas como a solução de uma equação residual não linear e resolvê-la com atualizações paralelas no estilo Newton. Embora essa visão seja fundamentada, correções exatas de Newton exigem produtos Jacobiano-vetor dispendiosos, e iterações ingênuas de ponto fixo são instáveis em Transformers treinados. Apresentamos o Paralelismo de Camada Newton Estruturado (SNLP, na sigla em inglês), uma estrutura de treinamento e inferência que substitui Jacobianos exatos de camada por dinâmicas substitutas baratas induzidas pela arquitetura. Em Transformers residuais, isso resulta no Newton Identidade (IDN), onde a correção se reduz a uma atualização do tipo soma de prefixo; em arquiteturas estilo mHC, o Newton HC (HCN) utiliza a matriz de mistura residual do modelo. Introduzimos ainda uma regularização consciente do SNLP, que treina modelos para que uma ou poucas iterações Newton estruturadas aproximem com precisão o forward sequencial. Experimentos em Transformers de escala nanochat mostram que a regularização SNLP melhora a compatibilidade de paralelismo de camada e também pode melhorar a perplexidade sequencial padrão, reduzindo a PPL de base em 4,7%–23,4%. Em tempo de inferência, o SNLP combinado com fusão de camadas e decomposição por blocos atinge acelerações práticas de tempo real: em um modelo Nanochat de 0,5B, obtém aceleração de 2,3x enquanto ainda melhora a PPL em 6,1%. Esses resultados sugerem que a inferência paralela entre camadas não é meramente uma aproximação numérica da execução sequencial, mas pode atuar como um viés de inferência útil induzido pelo solver. Também caracterizamos limitações: modelos pré-treinados prontos para uso são menos adequados a esse procedimento, e a convergência exata recupera a computação sequencial em vez de fornecer escalonamento monotônico de inferência.
Sistemas de memória podem armazenar quantidades vastamente diferentes de informação, apesar de limitações de hardware semelhantes. Aqui, mostramos que a memória espacial superior emerge de um enrijecimento discreto da geometria populacional do hipocampo — uma transição de codificação coletiva desorganizada para cristalina. Comparando chapins-de-cabeça-preta (que armazenam alimento) a tentilhões-zebra (que não armazenam), descobrimos que o hipocampo de armazenadores mantém uma geometria topologicamente rígida, "cristalina", com estabilidade geométrica significativamente maior (Shesha 0,245 vs 0,166) e coerência temporal quase duas vezes maior (Shesha 0,393 vs 0,209), enquanto o hipocampo de não armazenadores se assemelha a uma "névoa" desorganizada. Essa estabilidade é ativamente construída por dinâmicas de circuito sinérgicas: neurônios excitatórios formam o arcabouço espacial, enquanto populações inibitórias contribuem com decorrelação ortogonal — um motivo de circuito no qual populações excitatórias e inibitórias ocupam subespaços representacionais amplamente não sobrepostos. Uma dupla dissociação com o Alocador Estável de Memória de Valiant, um modelo que prevê que conjuntos dedicados de neurônios embasam cada memória, confirma que essa vantagem reflete organização topológica contínua, e não alocação discreta de neurônios: redes de armazenadores exibem confiabilidade de alocação metade-metade próxima de zero, apesar de sua superioridade geométrica. Modelagem computacional em 10.000 configurações revela que a rigidez topológica é o pré-requisito matemático para escala: códigos cristalinos sustentam leitura de alta fidelidade além de M=1.000 locais, enquanto códigos de névoa falham abaixo de M=10, uma vantagem de capacidade de >100 vezes. Essa capacidade exige uma redundância representacional de 169 vezes: um "imposto geométrico" que estabiliza a variedade contra ruído biológico. Esses resultados estabelecem a estabilidade geométrica como um princípio organizador candidato da memória biológica: a evolução alcança memória de alta capacidade não pela proliferação de neurônios, mas pela engenharia da geometria do próprio código neural.
Uma notável disparidade geométrica persiste há muito tempo na prática do aprendizado profundo. Enquanto arquiteturas modernas de redes neurais naturalmente exibem ricas propriedades de simetria e equivariância, otimizadores populares como Adam e suas variantes operam inerentemente de forma coordenada a coordenada, tornando-os incapazes de respeitar as estruturas de equivariância do espaço de parâmetros. Abordamos essa disparidade introduzindo um princípio compatível com simetria para o projeto de otimizadores: a regra de atualização do gradiente deve ser equivariante sob o grupo de simetria que atua no bloco de pesos correspondente. Seguindo esse princípio, fornecemos primeiro uma perspectiva unificada sobre atualizações bi-ortogonalmente equivariantes para camadas de matrizes gerais, conforme empregado pelo descida espectral estocástica, Muon, Scion e métodos de gradiente polar. Mais importante, ao passar de grupos ortogonais para simetrias de permutação e deslocamento compartilhado, derivamos otimizadores compatíveis com simetria para blocos de parâmetros cujas simetrias diferem daquelas de camadas de matrizes gerais: matrizes de embedding e cabeça LM, projeções MLP SwiGLU e matrizes de roteador MoE. Essas construções incluem atualizações espectrais unilaterais, de norma de linha, híbridas norma de linha/espectral, conscientes de linha, conscientes de coluna, de norma de linha centralizada e espectrais à esquerda. Elas resultam em uma pilha de otimizadores por camada de ponta a ponta na qual a cada classe principal de parâmetro matricial é atribuída uma atualização cuja equivariância corresponde ao seu grupo de simetria. Corroboramos esse princípio por meio de experimentos de pré-treinamento em modelos de linguagem MoE densos e esparsos, incluindo arquiteturas estilo Qwen3-0.6B, estilo Gemma 3 1B, estilo OLMoE-1B-7B e gpt-oss reduzidas. Nesses experimentos, as atualizações compatíveis com simetria melhoram consistentemente a perda de validação final e, em vários casos, a estabilidade do treinamento, em comparação com as atualizações AdamW correspondentes.
Restrições de implantação com recursos limitados tornaram a quantização de modelos essencial para implantar redes neurais enquanto se preserva o desempenho. Simultaneamente, a fusão de modelos tem se tornado uma estratégia prática com poucos recursos para integrar múltiplos especialistas especializados em tarefas ou domínios em um único modelo, sem necessidade de treinamento conjunto ou servidor de múltiplos modelos. Juntas, quantização e fusão de modelos viabilizam um pipeline eficiente de implantação com poucos recursos ao integrar múltiplos especialistas em um único modelo de baixa precisão. Formalizamos essa configuração como Quantização Pós-Fusão (QPF). Mostramos que aplicar diretamente a quantização pós-treinamento (QPT) a um modelo fundido não é confiável, pois dois desvios distintos estão acoplados: o desvio de quantização introduzido pela reconstrução de baixa precisão e o desvio relativo aos especialistas herdado da fusão de modelos. Para mitigar esses desvios, propomos E-QPF, uma estrutura de QPF guiada por especialistas que utiliza os pesos dos especialistas de origem para fornecer alvos de saída guiados pelos especialistas durante a calibração camada por camada, juntamente com ancoragem de pesos fundidos para estabilizar a calibração e preservar o comportamento integrado do modelo fundido. Na fusão de oito tarefas do CLIP-ViT-B/32, o E-QPF melhora o GPTQ de 4 bits de 65,0% para 73,6% com Task Arithmetic e de 69,1% para 74,8% com TIES-Merging. Em configurações mais desafiadoras, o E-QPF melhora o GPTQ de 34,8% para 76,7% em 20 tarefas com CLIP-ViT-L/14 e de 78,26% para 83,34% no GLUE com FLAN-T5-base. Esses resultados demonstram que o E-QPF possibilita quantização pós-fusão eficaz e implantação de baixa precisão.
Modelos de linguagem grandes multimodais (LLMs) estão cada vez mais sendo explorados como avaliadores automatizados em contextos clínicos, mas seu comportamento de pontuação em escalas clínicas ordinais ainda é pouco compreendido. Comparamos três famílias de LLMs de ponta com modelos de aprendizado profundo supervisionados para pontuar imagens do Teste do Desenho do Relógio (TDR) em dois conjuntos de dados públicos usando a rubrica de Shulman. Embora Transformers de Visão totalmente ajustados atinjam a melhor calibração (EAM 0,52, precisão dentro de 1 de 91%), os LLMs zero-shot permanecem competitivos em concordância baseada em tolerância (GPT-5 EAM 0,67, precisão dentro de 1 de 92%), apesar do maior erro absoluto. No entanto, a análise por pontuação revela que todas as três famílias de LLMs exibem um efeito de tendência central pronunciado (compressão sistemática dos extremos): as previsões são sistematicamente comprimidas em direção ao meio da escala, com superestimação no extremo inferior (pontuação 0 a 1) e subestimação no extremo superior (pontuação 5 a 4). Esse efeito afeta desproporcionalmente os extremos clinicamente críticos, onde a pontuação precisa tem maior impacto nas decisões de triagem para comprometimento cognitivo. Ablações direcionadas mostram que nem o uso de exemplos few-shot abrangendo toda a faixa de pontuação nem a remoção de terminologia clínica do prompt eliminam o efeito. Nossos achados estendem a literatura sobre viés de LLM como juiz, da avaliação em PNL para a avaliação clínica, e destacam a necessidade de avaliação consciente de calibração e calibração post-hoc antes de implantar avaliadores baseados em LLM em fluxos de triagem de alto risco.
Modelos de Raciocínio em Grande Escala (LRMs) introduzem novas oportunidades para monitoramento de segurança por meio de seu raciocínio em Cadeia de Pensamento (CoT). No entanto, a CoT nem sempre é fiel à saída final do modelo, comprometendo sua confiabilidade como ferramenta de monitoramento. Para lidar com isso, investigamos as representações ocultas dos LRMs para determinar se o comportamento futuro pode ser previsto a partir das representações do prompt e da CoT. Ao avaliar uma sonda a cada token gerado, construímos uma trajetória de sonda, a evolução contínua da probabilidade de um conceito ao longo do processo de raciocínio. Descobrimos que o comportamento futuro do modelo é mais distinguível quando examinado ao longo da trajetória completa do que a partir de uma única previsão estática. Para caracterizar essas dinâmicas temporais, extraímos características de processamento de sinais que capturam volatilidade, tendência e comportamento em estado estacionário, melhorando significativamente a separação dos estados futuros do modelo. Também apresentamos duas contribuições metodológicas. Primeiro, dados de treinamento baseados em templates alcançam paridade quase total com respostas geradas dinamicamente pelo modelo, eliminando a necessidade de inferência e rotulagem iniciais custosas. Segundo, a escolha da operação de pooling é crítica: os métodos de average-pooling e last-token colapsam para um desempenho quase aleatório, enquanto o max-pooling atinge até 95% de AUROC e produz trajetórias de sonda estáveis. Usando quatro conjuntos de dados e quatro modelos de raciocínio nos domínios de segurança e matemática, demonstramos que as características da trajetória codificam dinâmicas específicas da tarefa que melhoram a separabilidade dos resultados. Essas descobertas estabelecem as trajetórias de sonda como uma estrutura complementar para monitorar o comportamento dos LRMs. Aviso: Este artigo contém conteúdo potencialmente prejudicial.
Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais implantados como assistentes científicos de IA, e um conjunto crescente de benchmarks avalia suas capacidades em recuperação de conhecimento, raciocínio, geração de código e uso de ferramentas. Essas avaliações, no entanto, tipicamente assumem que o problema científico já está bem definido, enquanto a assistência científica prática frequentemente começa com uma solicitação mal definida do usuário, que deve ser refinada por meio de diálogo antes que qualquer cálculo, análise ou experimento possa ser realizado de forma confiável. Apresentamos o SCICONVBENCH, um benchmark para esclarecimento em múltiplas interações na formulação de tarefas científicas em quatro domínios de problemas da ciência computacional: mecânica dos fluidos, mecânica dos sólidos, ciência dos materiais e equações diferenciais parciais (EDPs). O SCICONVBENCH tem como alvo duas capacidades complementares: extrair informações ausentes (desambiguação) e detectar e corrigir solicitações errôneas que contenham informações internamente contraditórias (resolução de inconsistência). Nosso benchmark combina uma ontologia de tarefas estruturada com um framework de avaliação baseado em rubricas, permitindo a medição sistemática do desempenho dos LLMs em três dimensões: comportamento de esclarecimento, ancoragem conversacional e fidelidade da especificação final. Os modelos de fronteira atuais têm um desempenho relativamente bom na resolução de inconsistências, mas mesmo o melhor modelo resolve apenas 52,7% dos casos de desambiguação em mecânica dos fluidos. Descobrimos ainda que os LLMs de fronteira frequentemente fazem suposições silenciosas e realizam reparos implícitos na especificação que não estão fundamentados na conversa com os usuários. O SCICONVBENCH estabelece uma base para avaliar o raciocínio conversacional upstream que um assistente confiável de ciência computacional exige. O código e os dados podem ser encontrados em https://github.com/csml-rpi/SciConvBench.
Propomos um Expert em Ação autoregressivo (AR) independente que gera ações como uma sequência causal contínua, condicionado a prefixos visão-linguagem atualizáveis. Em contraste com modelos existentes de Visão-Linguagem-Ação (VLA) e políticas de difusão que redefinem o contexto temporal a cada nova observação e preveem ações de forma reativa, nosso Expert em Ação mantém seu próprio histórico por meio de uma memória de longa duração, sendo inerentemente ciente do contexto. Essa estrutura aborda a incompatibilidade de frequência entre controle rápido e raciocínio lento, permitindo um pré-treinamento independente eficiente da sintaxe cinemática e uma integração modular com backbones pesados de percepção, garantindo naturalmente a geração de ações espacial e temporalmente consistente entre quadros. Para sincronizar essas modalidades híbridas assíncronas V-L-A, utilizamos um mecanismo de reancoragem que considera matematicamente a defasagem perceptual durante o treinamento e a inferência. Experimentos em tarefas de manipulação simuladas e com robôs reais demonstram que o método proposto pode substituir efetivamente as cabeças de ação tradicionais baseadas em blocos, tanto para políticas especialistas quanto generalistas. O AR-VLA exibe consciência histórica superior e trajetórias de ação substancialmente mais suaves, mantendo ou superando as taxas de sucesso de tarefas das VLAs reativas de última geração. No geral, nosso trabalho introduz um esquema de geração de ações escalável e ciente do contexto, que fornece uma base estrutural robusta para o treinamento de políticas robóticas eficazes. Código e vídeos disponíveis em https://arvla.insait.ai.
Compreender interações sociais exige raciocínio sobre sinais não verbais sutis, no entanto, os atuais modelos de linguagem de grande escala multimodais (MLLMs) frequentemente falham em identificar quem interage com quem em vídeos com múltiplas pessoas. Apresentamos o GRASP, um conjunto de dados de raciocínio social em larga escala que conecta perguntas e respostas sociais de alto nível com eventos finos de olhar e gestos dêiticos. O GRASP contém 290 mil pares pergunta-resposta em 46 mil vídeos, totalizando 749 horas, organizados por uma taxonomia de 16 categorias que abrange raciocínio sobre olhar, gesto e a combinação de olhar e gesto, juntamente com o GRASP-Bench para avaliação. Diferentemente de recursos anteriores que se concentram em sinais isolados ou em perguntas e respostas sociais de alto nível, o GRASP constrói perguntas a partir de trajetórias de olhar consistentes com identidades, gestos dêiticos e suas composições conjuntas em eventos sociais. Além disso, propomos a Recompensa de Fundamentação Social (SGR), um sinal de aprendizado que utiliza esses eventos sociais para incentivar os modelos a raciocinar sobre os participantes envolvidos em cada interação. Experimentos mostram que a SGR melhora o desempenho no GRASP-Bench, mantendo o desempenho zero-shot em benchmarks relacionados de perguntas e respostas sobre vídeos sociais.
Apresentamos o TopoPrimer, uma estrutura que torna a estrutura topológica global da população de séries uma entrada explícita para qualquer modelo de previsão. O TopoPrimer melhora a precisão em domínios diversos, estabiliza as previsões sob picos sazonais de demanda e reduz a lacuna de inicialização a frio. Pré-calculado uma vez por domínio por meio de homologia persistente e coordenadas espectrais de feixes, o TopoPrimer é implantado por token para modelos totalmente treinados e como um adaptador leve para *backbones* pré-treinados. Desses dois componentes, as coordenadas de feixes são o principal impulsionador da precisão. Em quatro *benchmarks* públicos sobre o Chronos e o TimesFM, o TopoPrimer melhora consistentemente a precisão das previsões, com ganhos de até 7,3% no MSE para o ECL. A vantagem topológica persiste com magnitude quase idêntica em *backbones* *zero-shot* e ajustados finamente, sugerindo que a topologia e o treinamento por série capturam sinais complementares. Os ganhos são mais pronunciados em regimes difíceis. Sob demanda sazonal de pico, os modelos clássicos e *zero-shot* degradam em até 50%, enquanto o TopoPrimer permanece dentro de 10%. Na inicialização a frio, sem histórico do item, o TopoPrimer reduz o MAE em 27% em relação a uma linha de base sem topologia.