Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o ABot-Earth 0.5, um framework generativo 3D projetado para sintetizar ambientes 3D vastos e contínuos a partir de imagens de satélite onipresentes e com referência geoespacial. Para isso, propomos um novo modelo generativo formulado diretamente com a representação 3D Gaussian Splatting (3DGS). O modelo é treinado em um corpus diversificado de reconstruções urbanas do mundo real existentes, aprendendo a gerar geometria e texturas realistas. Na inferência, ele sintetiza novas cenas 3D condicionadas exclusivamente a imagens de satélite a uma taxa escalável de menos de 10 minutos por quilômetro quadrado, demonstrando realismo excepcional. O framework é projetado para acessibilidade, com estruturas hierárquicas de nível de detalhe (LOD) integradas que permitem visualização interativa em tempo real em mecanismos de mapas baseados na web. Esse sandbox de simulação de alta fidelidade mitiga efetivamente a lacuna domínio sim-para-real, viabilizando aplicações críticas downstream de IA incorporada, como navegação de UAV em malha fechada. Ao fornecer uma solução de custo ultrabaixo e alta eficiência, o ABot-Earth 0.5 reduz significativamente as barreiras técnicas e financeiras para a reconstrução 3D em larga escala e capacita o futuro da visualização global da terra digital.
Apresentamos o Kwai Keye-VL-2.0-30B-A3B, um modelo fundacional multimodal de código aberto baseado em Mistura de Especialistas (MoE), projetado para avançar a compreensão de vídeos longos e a inteligência agentiva. Para enfrentar os desafios de contextos ultra-longos, redundância de informações e custos computacionais proibitivos inerentes a vídeos de nível de horas, o Keye-VL-2.0 é o primeiro a adaptar a Atenção Esparsa do DeepSeek (DSA) a arquiteturas multimodais baseadas em GQA, permitindo o processamento de contexto de 256K sem perdas, enquanto captura quadros críticos e dependências temporais de longo alcance. Essa arquitetura é sustentada por uma infraestrutura de treinamento e inferência altamente otimizada, incluindo E/S de vídeo escalável, paralelismo heterogêneo ViT-LM e kernels DSA personalizados que maximizam significativamente a taxa de transferência e minimizam a sobrecarga computacional. Além disso, para superar o dilema algorítmico do esquecimento catastrófico durante o alinhamento multitarefa, introduzimos a Destilação On-Policy Multi-Professor Cross-Modal (MOPD), combinada com Context-RL e Video-RL. Ao destilar o feedback denso do professor em nível de token, proveniente de rollouts on-policy, de volta para o backbone MoE, que ativa apenas 3 bilhões de parâmetros, o Keye-VL-2.0 capacita nativamente a colaboração avançada de agentes em cenários de Código, Ferramenta e Busca, com autocorreção multimodal. Avaliações extensivas em benchmarks de compreensão de vídeo, ancoragem temporal, raciocínio, STEM e agentes demonstram que o Keye-VL-2.0-30B-A3B alcança desempenho de ponta entre modelos de escala similar, destacando-se particularmente em localização temporal refinada no TimeLens e na compreensão de vídeos longos no Video-MME-v2 e no LongVideoBench. Disponibilizamos nossos checkpoints do modelo para acelerar o progresso da comunidade em direção a aplicações agentivas multimodais escaláveis e robustas.
Embora agentes baseados em Modelos de Linguagem de Grande Porte (LLMs) tenham demonstrado desempenho robusto em tarefas complexas, seu aprendizado é frequentemente limitado por feedback interativo ineficiente e ambientes de treinamento estáticos, o que dificulta uma generalização mais ampla. Para superar essas limitações, este artigo apresenta o Role-Agent, uma estrutura que utiliza um único LLM para atuar simultaneamente como agente e ambiente, possibilitando uma coevolução autossustentada (bootstrap). O Role-Agent é composto por dois componentes sinérgicos: Mundo-no-Agente (World-In-Agent, WIA) e Agente-no-Mundo (Agent-In-World, AIW). No WIA, o LLM atua como agente e prediz estados futuros após cada ação; a concordância entre estados previstos e reais é então usada como uma recompensa de processo, incentivando um raciocínio consciente do ambiente. No AIW, o LLM analisa modos de falha a partir de trajetórias malsucedidas e recupera tarefas com padrões de falha semelhantes, remodelando assim a distribuição dos dados de treinamento para uma prática direcionada. Experimentos em diversos benchmarks mostram que o Role-Agent melhora consistentemente o desempenho, com um ganho médio superior a 4% em relação a linhas de base robustas.
Agentes de IA dependem de um arcabouço de habilidades, ferramentas e fluxos de trabalho para resolver problemas complexos. Melhorar continuamente esse arcabouço é essencial para se adaptar a novas tarefas. No entanto, os métodos de otimização existentes geralmente exigem conjuntos de validação com dados de referência, sendo que esses dados rotulados são difíceis de obter em cenários práticos de implantação. Para abordar esse problema, apresentamos a Otimização Retrospectiva de Arcabouço (RHO), um método auto-supervisionado que otimiza o arcabouço do agente utilizando apenas trajetórias passadas. Especificamente, o RHO seleciona um coreset diversificado de tarefas desafiadoras a partir de trajetórias passadas e as resolve novamente em paralelo. O agente analisa essas execuções usando autovalidação e autoconsistência, em seguida gera atualizações candidatas para o arcabouço e seleciona a mais eficaz por meio de sua própria autopreferência pareada. Avaliamos o RHO em três domínios diversos, abrangendo engenharia de software, trabalho técnico e trabalho de conhecimento. Notavelmente, uma única rodada de otimização melhora a taxa de aprovação no SWE-Bench Pro de 59% para 78%, sem qualquer avaliação externa. Além disso, nossa análise demonstra que o RHO tem como alvo eficaz os modos de falha anteriores. Como resultado, o arcabouço otimizado altera os padrões de comportamento do agente e sustenta uma precisão mais alta durante sessões de longo horizonte.
Modelos de linguagem de grande escala são cada vez mais esperados para lidar com tarefas complexas e de longo horizonte no mundo real, cuja demanda de contexto pode crescer sem limites, embora as janelas de contexto dos modelos permaneçam inerentemente finitas. Trabalhos recentes exploram um paradigma no qual um agente principal decompõe tarefas e delega subtarefas a subagentes, que as executam e retornam apenas resultados resumidos, poupando o orçamento de contexto do agente principal. No entanto, realizar isso com sucesso exige inteligência de delegação: a capacidade de decompor tarefas complexas, determinar quando e o que delegar, e integrar os resultados retornados ao fluxo de trabalho contínuo. Dados de treinamento para essa capacidade são escassos em textos naturalmente ocorrentes e, até onde sabemos, como sintetizar tais dados e treinar modelos para adquirir essa capacidade permanece amplamente inexplorado na comunidade de código aberto. Para preencher essa lacuna, apresentamos uma exploração preliminar voltada para pesquisa profunda, uma tarefa de agente de longo horizonte representativa. Especificamente, projetamos um arcabouço que guia o modelo em direção a decomposição e delegação de tarefas de alta qualidade, ao mesmo tempo que restringe os subagentes a retornar resultados adequadamente para apoiar o fluxo de trabalho do agente principal. As trajetórias guiadas pelo arcabouço codificam naturalmente decisões corretas de delegação, que usamos como dados de ajuste fino supervisionado para internalizar a inteligência de delegação nos pesos do modelo. Nosso modelo resultante, SearchSwarm-30B-A3B, alcança 68,1 no BrowseComp e 73,3 no BrowseComp-ZH, os melhores resultados entre todos os modelos de escala comparável. Disponibilizaremos nosso arcabouço, pesos do modelo e dados de treinamento para facilitar pesquisas futuras.
Aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se padrão para melhorar o raciocínio de LLMs. No entanto, os mecanismos existentes de região de confiança do tipo PPO permanecem agnósticos à posição, impondo limites uniformes em todos os tokens de forma independente. Esse tratamento pontual entra em conflito com a geração autorregressiva de duas maneiras críticas. Primeiro, limites uniformes ignoram a assimetria autorregressiva. Desvios em estágios iniciais produzem desvio cumulativo em nível de sequência, fazendo com que limites estáticos sub-regulem a divergência inicial e restrinjam excessivamente a exploração em estágios finais. Segundo, avaliar a divergência em nível de token de forma isolada ignora o desvio cumulativo do prefixo, concedendo a mesma margem de divergência independentemente de quão distante o histórico de condicionamento já se desviou da política de rollout. Para abordar essa limitação, propomos CPPO (Otimização de Política por Divergência Acumulativa de Prefixo), uma regra de mascaramento em nível de token que alinha as atualizações com um limite de melhoria de política de horizonte finito por meio de dois mecanismos acoplados. Primeiro, um limiar ponderado por posição impõe limites mais rigorosos em posições iniciais, cujos efeitos persistem por mais tempo, relaxando as restrições para tokens em estágios finais. Segundo, um orçamento cumulativo de prefixo rastreia desvios históricos, restringindo dinamicamente desvios adicionais em nível de token para evitar erros cumulativos ao longo do prefixo. Empiricalmente, CPPO melhora a estabilidade do treinamento e aumenta significativamente a precisão do raciocínio em várias escalas de modelo.
Os atuais Modelos de Visão-Linguagem enfrentam dificuldades com vídeos de horas de duração, pois processar sequências visuais completas induz uma explosão proibitiva de tokens e diluição de atenção. Para superar isso, apresentamos o MemDreamer, que desacopla percepção e raciocínio, transformando a compreensão de vídeos longos em um processo de exploração agentiva. Como um framework plug-and-play, ele transmite vídeos incrementalmente para construir uma Memória de Grafo Hierárquico, uma arquitetura descendente de três camadas para abstração semântica, ancorada por um grafo fundamental que captura relações espaciotemporais e causais. Durante a inferência, o modelo de raciocínio emprega recuperação aumentada por ferramentas agentivas, navegando por hierarquias, pesquisando nós e percorrendo arestas lógicas por meio de um ciclo Observação-Raciocínio-Ação. Experimentos mostram que o MemDreamer alcança resultados estado da arte em quatro referências principais, reduzindo a diferença para especialistas humanos para apenas 3,7 pontos. Ele restringe a janela de contexto de raciocínio a meros 2% da ingestão de contexto completo, ao mesmo tempo que obtém um ganho absoluto de precisão de 12,5 pontos. Além disso, a análise estatística revela uma forte correlação linear positiva entre o desempenho de um VLM em raciocínio lógico e em referências de compreensão de vídeos longos, estabelecendo o escalonamento de capacidade agentiva como um novo paradigma para a compreensão multimodal.
Trabalhos recentes demonstraram que o aprendizado por reforço online (RL) pode melhorar substancialmente a qualidade e o alinhamento de modelos de correspondência de fluxo para geração de imagens e vídeos. Métodos como Flow-GRPO e CPS modelam o processo de remoção de ruído como um Processo de Decisão de Markov e aplicam o recorte de razão estilo PPO para impor uma região de confiança. No entanto, argumentamos que o recorte de razão é estruturalmente inadequado para modelos de fluxo: a razão de probabilidade entre as políticas nova e antiga é uma estimativa ruidosa de amostra única da verdadeira divergência de política, levando a uma restrição excessiva em algumas regiões da trajetória e a uma restrição insuficiente em outras. Propomos o Flow-DPPO (Flow Divergence Proximal Policy Optimization), que substitui o recorte de razão por uma restrição proximal de divergência. Uma observação chave é que a política por etapa em modelos de fluxo é Gaussiana, permitindo o cálculo exato e barato da divergência KL entre as políticas antiga e nova. O Flow-DPPO emprega uma máscara de divergência assimétrica que bloqueia atualizações de gradiente apenas quando elas simultaneamente se afastam da região de confiança e violam o limiar de divergência. Experimentos mostram que o Flow-DPPO alcança recompensas mais altas com melhor eficiência proximal KL, alivia o esquecimento catastrófico, promove otimização multiobjetivo equilibrada e possibilita treinamento multi-época estável onde o recorte de razão se degrada. O código e os modelos estão disponíveis em https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.
Animação de personagem controlada requer a transferência de movimento de uma sequência condutora para um personagem de referência. Trabalhos anteriores dependem fortemente de representações intermediárias, incluindo esqueletos de pose para representar movimento ou fundo mascarado para representar o ambiente, o que inevitavelmente leva à perda de informação. Para abordar isso, apresentamos o SCAIL-2, uma estrutura que contorna esses intermediários e alcança animação de personagem fim a fim. Ao concatenar diretamente vídeos condutores à sequência, o modelo pode obter toda a informação visual necessária do vídeo de entrada. Para lidar com a falta de dados fim a fim, unificamos sub-tarefas de animação de personagem com condições desacopladas e, em seguida, curamos um pipeline para sintetizar o MotionPair-60K, um conjunto de dados de transferência de movimento fim a fim contendo tarefas heterogêneas de animação de personagem. Para arquivar a unificação, utilizamos condicionamento de máscara no contexto e RoPE específico de modo como orientação suave além de instruções textuais e informação visual bruta. Para lidar com a discrepância sintética em regiões detalhadas, propomos o Bias-Aware DPO para construir itens de preferência e mitigar os erros. Experimentos extensos demonstram que nosso método supera substancialmente as abordagens de ponta existentes em várias tarefas de animação de personagem. Um grande subconjunto dos dados sintéticos, bem como os pesos do modelo, serão disponibilizados em nossa página do projeto: https://teal024.github.io/SCAIL-2/.
Modelos de sincronização labial baseados em difusão alcançam alta qualidade visual e alinhamento audiovisual, mas a atenção bidirecional de sequência completa e o grande número de etapas de remoção de ruído os tornam impraticáveis para inferência em tempo real. Apresentamos o Lip Forcing, até onde sabemos, o primeiro método de difusão autorregressivo para sincronização labial vídeo-para-vídeo (V2V), que destila um professor de difusão de vídeo bidirecional condicionado a áudio de 14B em alunos causais. Na inferência, os alunos geram cada bloco em apenas duas etapas de remoção de ruído, sem CFG em tempo de inferência, possibilitando sincronização labial em tempo real. Uma análise de trajetória do professor específica para sincronização labial revela um compromisso entre fidelidade e sincronia no CFG: predições sem CFG favorecem a fidelidade à referência, enquanto predições guiadas por CFG favorecem a sincronia dentro de uma faixa intermediária da trajetória. O Lip Forcing traduz esse achado em três componentes derivados da análise: Sync-Window DMD, um cronograma de inferência de duas etapas e uma recompensa baseada em SyncNet. Validamos o Lip Forcing em duas escalas de alunos, ambos destilados do professor de 14B. O aluno de 1.3B atinge streaming em tempo real a 31 FPS, 17,6 vezes mais rápido que seu modelo bidirecional de mesma escala. O aluno de 14B, o maior modelo de difusão relatado para sincronização labial V2V, opera 39,8 vezes mais rápido que seu professor, com fidelidade de referência comparável. O tempo até o primeiro quadro é inferior a um milissegundo em ambas as escalas, muito abaixo de todas as linhas de base de difusão.
Apresentamos o WorldOlympiad, um conjunto de referência para diagnosticar modelos de mundo baseados em vídeo, abrangendo fidelidade física, consistência geométrica e fidelidade de interação. Embora os benchmarks existentes frequentemente foquem na qualidade visual, alinhamento semântico ou coerência temporal de curto prazo, eles oferecem insights limitados sobre se os vídeos gerados obedecem a regras físicas, preservam estrutura 3D coerente e sustentam interações controláveis em horizontes longos. Para preencher essa lacuna, o WorldOlympiad decompõe a avaliação de modelos de mundo em três dimensões complementares. A trilha física utiliza segmentação de objetos e MLLM como juiz para avaliar se os vídeos gerados seguem regras interpretáveis em mecânica, fenômenos térmicos e propriedades de materiais. A trilha geométrica reconstrói os vídeos gerados com *Gaussian splatting* e avalia consistência estrutural, coerência entre vistas e alinhamento da trajetória da câmera. A trilha de interação avalia se as sequências geradas seguem comandos de ação complexos e mantêm transições suaves e coerentes entre segmentos consecutivos de vídeo. O WorldOlympiad ainda abrange três cenários principais de aplicação a jusante, incluindo jogos, robótica e vídeos gerais do mundo real, capturando diversos desafios desde controle interativo e manipulação incorporada até dinâmica de movimento e câmera em domínio aberto. Juntas, essas trilhas e cenários formam um conjunto de avaliação escalável e interpretável que expõe modos de falha além da qualidade genérica de vídeo. Experimentos com modelos de ponta revelam lacunas substanciais em raciocínio físico, consistência 3D e interação de longo horizonte, destacando a necessidade de protocolos de avaliação mais estruturados para modelos de mundo generativos.
O aprendizado por reforço (RL) tornou-se um componente essencial do pós-treinamento de modelos de linguagem de grande porte (LLMs). Na prática, o RL em LLMs é frequentemente fora da política (off-policy) devido ao descompasso entre treinamento e inferência e à defasagem da política, tornando o controle de região de confiança crucial para uma otimização estável. Métodos convencionais como PPO e GRPO aproximam esse controle com um mecanismo de recorte de razão, mas a razão de importância pode ser um proxy pobre para deslocamentos distribucionais em vocabulários de cauda longa. Trabalhos recentes como o DPPO abordam esse descompasso substituindo o recorte baseado em razão por uma máscara baseada em divergência, gerando uma região de confiança definida pelo deslocamento absoluto de probabilidade do token amostrado. No entanto, o DPPO ainda depende de uma máscara rígida: uma vez que um token ultrapassa o limite da região de confiança em uma direção prejudicial, seu gradiente é descartado em vez de corrigido. Para resolver isso, propomos a Otimização de Política Regularizada por Divergência (DRPO), que substitui a máscara rígida por um regularizador quadrático suave, ponderado pela vantagem, sobre o deslocamento da política. O DRPO preserva a mesma geometria de região de confiança do DPPO, enquanto induz pesos de gradiente contínuos e limitados que atenuam atualizações divergentes e fornecem sinais corretivos além do limite. Experimentos em diferentes escalas de modelo, arquiteturas e configurações de precisão mostram que o DRPO melhora a estabilidade e a eficiência do treinamento de RL em LLMs.
Neste artigo, propomos o EEVEE, o primeiro framework de aprendizagem de prompts em tempo de teste para múltiplos conjuntos de dados para agentes LLM, permitindo a aprendizagem de prompts em tempo de teste sob fluxos de tarefas do mundo real. Métodos existentes são majoritariamente projetados para cenários de conjunto único de dados, enquanto aplicações reais exigem que modelos lidem com fluxos de entrada heterogêneos provenientes de múltiplos conjuntos de dados, domínios e distribuições de tarefas, limitando sua aplicabilidade prática. Para mitigar a interferência entre conjuntos de dados, o EEVEE introduz um roteador que particiona as entradas recebidas em clusters de tarefas e as atribui a configurações de prompts adequadas. Este design é otimizado por meio de uma estratégia de co-evolução roteador-prompt, que emprega fases intercaladas de aprendizado do roteador e do prompt para lidar com sua dependência mútua. Experimentos em múltiplos conjuntos de dados demonstram que o framework melhora a robustez sob fluxos de dados heterogêneos, mantendo a capacidade e eficiência de aprendizado em benchmarks únicos. Especificamente, o EEVEE melhora as pontuações médias em múltiplos benchmarks em 10,38 e 24,32 pontos sobre o Qwen3-4B-Instruct e o DeepSeek-V3.2, superando os métodos de ponta GEPA e ACE em até 37,2% e 48,2%.
Este artigo apresenta o ARM, um Modelo Autorregressivo baseado em representações discretas que unifica compreensão, geração e edição de imagens em uma estrutura de previsão do próximo token. O ARM baseia-se em três esforços: primeiro, treinamos um tokenizador visual semântico discreto que mapeia imagens em sequências compactas de tokens. Nosso tokenizador é supervisionado com múltiplos objetivos que promovem conjuntamente discriminabilidade semântica, alinhamento linguístico e reconstrução fiel, suportando assim diversas tarefas em um espaço latente compartilhado. Com isso, treinamos um modelo autorregressivo de 7B em sequências de tokens de texto e imagem em grande escala, desenvolvendo naturalmente capacidades de percepção e geração visão-linguagem. Finalmente, para melhorar ainda mais o comportamento alinhado a preferências para geração de texto para imagem e edição guiada por instruções, o ARM aplica aprendizado por reforço (RL) para otimizar objetivos em nível de tarefa, como qualidade visual, adesão a instruções e consistência de edição. Surpreendentemente, os resultados mostram que o RL não apenas melhora substancialmente o desempenho nas tarefas-alvo (por exemplo, elevando o WISE geral de 0,50 para 0,56, e o G_O do GEdit-Bench-EN de 5,75 para 6,68), mas também induz sinergia entre tarefas de geração de texto para imagem e edição. Coletivamente, essas descobertas destacam a modelagem autorregressiva, quando combinada com representações fortes e otimização de preferências, como uma base escalável para inteligência multimodal. Código: https://github.com/wdrink/ARM.
Nos últimos anos, testemunhou-se a rápida evolução dos agentes de IA no sentido de lidar com tarefas cada vez mais complexas e do mundo real. No entanto, os benchmarks existentes raramente avaliam se os agentes conseguem operar interfaces gráficas do usuário para completar fluxos de trabalho profissionais de alto valor e longo horizonte em domínios diversos. Os benchmarks atuais de GUI ainda se concentram predominantemente em software de uso geral, aplicações relativamente simples e tarefas de curto horizonte, deixando em grande parte desconhecido se os agentes modernos conseguem seguir instruções do usuário para operar de forma autônoma softwares profissionais específicos de domínio e realizar trabalhos economicamente valiosos de ponta a ponta. Para preencher essa lacuna, apresentamos o Workflow-GYM, um benchmark para tarefas de GUI de longo horizonte centradas em domínios profissionais e ambientes de software especializados. Por meio de extensos experimentos com modelos de última geração, descobrimos que mesmo os modelos mais fortes alcançam taxas de sucesso ligeiramente acima de 30%, destacando que fluxos de trabalho profissionais de GUI de longo horizonte permanecem altamente desafiadores para os agentes de GUI atuais. Análises adicionais revelam que os agentes atuais têm dificuldade em manter a consistência do fluxo de trabalho de longo horizonte, frequentemente exibindo omissão de estágios do fluxo de trabalho, propagação de erros, desvio de objetivo e compreensão insuficiente dos ambientes de software profissional. Nossas descobertas fornecem insights importantes sobre as limitações dos sistemas de agentes atuais e sugerem direções-chave para a próxima geração de pesquisa em agentes GUI.
Memória externa fundamenta eficazmente modelos de linguagem grandes (LLMs) e modelos de visão-linguagem (VLMs) baseados em resposta a perguntas (QA) em evidências multimodais relevantes. No entanto, paradigmas de memória existentes representam cada item de memória em formas brutas de texto e imagem, de modo que sistemas baseados em recuperação devem passar os textos ou imagens recuperados para os LLMs/VLMs geradores, resultando em alto consumo de tokens e pressão de armazenamento, tornando-os inviáveis para aplicações com recursos limitados. Propomos Memória Latente, um paradigma de memória no espaço latente que substitui cada item de evidência de texto ou imagem bruta por um único token latente de alta dimensionalidade produzido por um pequeno LLM/VLM compressor. Em vez de recuperar evidências brutas para a geração, a Memória Latente opera em um espaço de representação latente unificado: a consulta é incorporada nesse espaço para recuperar tokens latentes relevantes, e os tokens latentes recuperados são diretamente fornecidos como prompt a um LLM ou VLM pré-treinado para geração de respostas. Para que cada token latente seja simultaneamente informativo para reconstrução, recuperação e geração, treinamos o compressor com objetivos de reconstrução, contraste e destilação de forma unificada e de ponta a ponta. A Memória Latente é avaliada em sete referenciais de QA apenas com texto (ex.: HotpotQA) e em referenciais de QA multimodal, onde alcança desempenho competitivo em QA em comparação com linhas de base avançadas de RAG, enquanto consome de 3x a 10x menos tokens do gerador. Também entrega o melhor desempenho de QA fundamentado em imagens no WebQA. O código está disponível em https://github.com/zz1358m/Latent-Memory-Master.
O ajuste fino supervisionado por cadeia de pensamento (CoT-SFT) é amplamente adotado para melhorar a capacidade de raciocínio, mas descobrimos que ele degrada sistematicamente a recuperação de contexto longo em modelos híbridos de atenção linear. Em diversas arquiteturas, incluindo HypeNet e Jet-Nemotron, o desempenho de recuperação no teste Needle-In-A-Haystack (NIAH) deteriora-se substancialmente após o CoT-SFT, e a degradação torna-se mais severa em configurações de recuperação mais difíceis e janelas de contexto mais longas. Por exemplo, o HypeNet-9B no NIAH-S2@256K cai de 67,2% para 9,4%. Atribuímos isso ao fato de o CoT-SFT enviesar os gradientes de atenção para padrões de curto alcance, perturbando as projeções consulta-chave (W_Q, W_K) que são responsáveis pelo roteamento de longo alcance. Motivados por essa observação, propomos o QK-Restore, um método sem treinamento que restaura apenas W_Q e W_K a partir do checkpoint pré-SFT, preservando todos os outros parâmetros pós-SFT. Introduzimos ainda uma variante de Procrustes para equilibrar a preservação do roteamento e a adaptação do raciocínio. Em diversas arquiteturas, o QK-Restore restaura consistentemente a capacidade de contexto longo com custo zero de treinamento, preservando o desempenho de raciocínio; por exemplo, no HypeNet-5B, melhora o S3@256K de 65,4% para 76,4%, mantendo um desempenho de raciocínio robusto.
Modelos de linguagem servem cada vez mais como espinha dorsal de sistemas de conversão texto-fala (TTS), mas ainda compreendemos pouco sobre as representações que constroem quando texto e tokens de fala gerada compartilham um único fluxo residual. Treinamos autoencoders esparsos BatchTopK na espinha dorsal LM do CosyVoice3 e introduzimos um pipeline de autointerpretação com consciência modal que rotula cada característica a partir de onde ela é ativada — contexto de prefixo de texto, trechos de fala de 1 segundo ou ambos. As características recuperadas são interpretáveis, abrangendo fonemas, risadas, indicações de sotaque e gênero do locutor. A navegação pelo espaço latente do SAE demonstra que essas características são causais, e não meramente descritivas: intervenções direcionadas elevam a probabilidade de riso de 0,02 para 0,79, invertem o gênero percebido do locutor e controlam a taxa de fala, preservando ao mesmo tempo o conteúdo falado. As características do SAE atuam, portanto, tanto como objetos de interpretabilidade quanto como direções de controle para a síntese de TTS.
As habilidades de agente ocupam uma posição privilegiada no fluxo de trabalho do agente, pois espera-se que os agentes as sigam e executem implicitamente, tornando as habilidades de terceiros uma superfície de ataque vulnerável. Estudos existentes revelaram comportamentos inseguros de agentes induzidos por ataques baseados em habilidades, mas eles avaliam principalmente habilidades envenenadas dentro de uma única execução de tarefa e enumeram danos por meio de listas de risco ad hoc. Para preencher essas lacunas, apresentamos o SkillHarm, um benchmark de ataques baseados em habilidades ao longo do ciclo de vida do uso de habilidades, combinado com uma taxonomia sistemática de riscos relevantes para habilidades. O SkillHarm avalia dois cenários de ataque: Envenenamento por Carga Fixa (FPP), onde um pacote de habilidade envenenado fixo compromete diretamente qualquer sessão de tarefa que o invoca, e Envenenamento por Automutação (SMP), onde uma execução inicialmente benigna altera silenciosamente o conteúdo persistente da habilidade, adiando o dano até uma reutilização subsequente. Ele define ainda 12 tipos de risco com base no componente do fluxo de trabalho do agente alvo do dano: pipelines de dados, ambientes de sistema e autonomia do agente. Para instanciar esses ataques em escala, construímos o AutoSkillHarm, um pipeline de construção automatizada com agentes de codificação orientados por estruturas de linguagem natural. O benchmark resultante contém 879 amostras de ataque em 71 habilidades. Experimentos mostram que os agentes atuais permanecem vulneráveis, com taxas de sucesso de ataque de até 86,3% no FPP e 69,3% no SMP. Nossa análise revela ainda um risco latente: muitas aparentes falhas de ataque decorrem da falha do agente em interagir com o arquivo envenenado, em vez de resistência genuína, e as defesas atuais ainda não conseguem mitigar a ameaça de forma confiável.
Agentes de linguagem dependem cada vez mais de habilidades reutilizáveis para melhorar a automação web de múltiplas etapas em tarefas relacionadas. Uma linha crescente de trabalhos estuda o aprendizado online de habilidades, onde agentes continuamente induzem habilidades a partir de trajetórias de tarefas anteriores e as reutilizam em tarefas futuras em tempo real. No entanto, os métodos existentes reutilizam principalmente habilidades no nível da tarefa: um conjunto fixo de habilidades é recuperado com base na instrução inicial da tarefa e depois mantido fixo durante toda a execução. Essa estratégia estática está desalinhada com a execução web, onde a próxima ação apropriada depende não apenas do objetivo da tarefa, mas também do estado atual da página web, que frequentemente transita para situações que as habilidades iniciais não cobrem. Para abordar essa lacuna, propomos o State-Grounded Dynamic Retrieval (SGDR), um método de aprendizado online de habilidades que permite a reutilização gradual de habilidades para agentes web. O SGDR consiste em três componentes: um processo de extração por janela deslizante que transforma trajetórias concluídas em subprocedimentos reutilizáveis invocáveis em estados intermediários de execução, uma representação dupla texto-código que conecta a recuperação de habilidades com ação executável, e um mecanismo de recuperação dinâmica baseada no estado que combina habilidades tanto ao objetivo da tarefa quanto ao estado atual da página web. Experimentos no WebArena em cinco domínios mostram que o SGDR supera consistentemente linhas de base fortes, alcançando taxas médias de sucesso de 37,5% com GPT-4.1 e 24,3% com Qwen3-4B, correspondendo a ganhos relativos de 10,6% e 10,0% sobre a linha de base mais forte, respectivamente. O código está disponível em https://github.com/plusnli/skill-dynamic-retrieval.
À medida que os modelos de deep learning escalam, gerenciar, inspecionar e modificar grandes checkpoints tem se tornado cada vez mais desafiador. Pesquisadores frequentemente precisam alterar pesos de modelos para reestruturação de camadas, conversão de precisão, fatoração de posto baixo e depuração arquitetural, embora esses fluxos de trabalho frequentemente dependam de frágeis scripts Python ad-hoc. Aqui, apresentamos o BrainSurgery, uma ferramenta para "cirurgia tensorial" robusta e reprodutível em checkpoints de redes neurais, e fornecemos uma demonstração do sistema abrangendo quatro exemplos e três estudos de caso, desde reciclagem de modelos até extração de LoRA. Ao abstrair formatos de armazenamento e gerenciamento de memória, o BrainSurgery executa transformações complexas por meio de planos YAML declarativos. Ele suporta modificações estruturais, transformações matemáticas e redimensionamento tensorial por meio de expressões regulares expressivas e segmentação estrutural, enquanto asserções embutidas validam formas de tensores, tipos de dados e valores para evitar erros silenciosos. Prevemos que o BrainSurgery fornecerá uma base sólida para pesquisas futuras por meio de suas operações reprodutíveis e validadas.
A atribuição de crédito em nível de token continua sendo um obstáculo fundamental para o aprendizado por reforço (RL) em modelos de linguagem de grande porte (LLMs), onde as receitas de RL normalmente tratam todos os tokens igualmente, falhando em distinguir etapas de raciocínio decisivas de formatação rotineira ou preenchimento fluente. Tentativas recentes aproveitam sinais internos do modelo para atribuir crédito mais granular, mas essas são frequentemente heurísticas pontuais que ignoram a estrutura global da propagação de informações. Propomos o FlowTracer, uma estrutura de RL que rastreia o fluxo de raciocínio direcionado à resposta em um grafo acíclico direcionado induzido por atenção, no qual nós correspondem a tokens e as capacidades das arestas vêm de pesos de atenção agregados, e deriva crédito de token dessa estrutura global. As capacidades das arestas são reponderadas para reter apenas a influência que pode alcançar a região da resposta, enquanto impõem conservação de fluxo local para que tokens intermediários não percam nem ganhem massa efetiva devido ao comprimento do caminho ou ramificações irrelevantes. Nesse grafo, o FlowTracer extrai uma espinha dorsal de fluxo de informações conectando a pergunta à resposta e pontua tokens por vazão de fluxo, revelando hubs de alto impacto e pontos de verificação de agregação que medeiam dependências de longo alcance. Essas importâncias derivadas são usadas para moldar recompensas em nível de token, permitindo que os sinais de aprendizado se concentrem precisamente nos tokens que roteiam informações em direção a (ou afastando de) respostas corretas, e proporcionando ganhos de desempenho consistentes em uma variedade de tarefas de raciocínio.
Agentes baseados em grandes modelos de linguagem (LLMs) são cada vez mais utilizados em ambientes textuais interativos, desde navegação na web e edição de código até uso de ferramentas e diálogos de longo horizonte. No entanto, muitos permanecem em grande parte reativos, mapeando observações para ações sem um modelo explícito de como esses ambientes são estruturados e evoluem. Isso motiva os modelos de mundo textual (TWMs): modelos de transição sobre estados textuais que, dado um estado e uma ação candidata, preveem a página web resultante, a saída de terminal, a resposta de API ou a réplica do usuário, apoiando assim o planejamento, o aprendizado eficiente e a avaliação fundamentada. Revisamos sistematicamente modelos de mundo textual para agentes baseados em LLM, organizados em torno de um arcabouço formal e do ciclo de vida do agente: (1) Fundamentos, definindo modelos de mundo textual e caracterizando-os por representação de estado e domínio de fundamentação; (2) Construção, taxonomizando os paradigmas LLM-como-WM e código-como-WM e revisando métodos para construí-los; (3) Aplicação, examinando como modelos de mundo apoiam agentes durante o treinamento por meio de síntese de experiência e durante a inferência por meio de planejamento, verificação e adaptação; e (4) Avaliação, abrangendo tanto a avaliação do próprio modelo de mundo quanto seu uso como ambiente de avaliação para agentes. Nosso objetivo é consolidar essa área em rápido desenvolvimento, esclarecer seu espaço de design e destacar desafios em aberto para pesquisas futuras.
Agentes de pesquisa profunda têm atraído crescente atenção por sua capacidade de coletar informações em larga escala online para adquirir conhecimento-alvo, com esforços recentes migrando de busca puramente baseada em texto para configurações multimodais. No entanto, os fluxos de trabalho agentivos existentes estão amplamente alinhados com modelos de acumulação de evidências, que agregam evidências de forma linear e carecem de mecanismos fundamentados para lidar com informações contraditórias entre modalidades heterogêneas. Nesse sentido, propomos o Struct-Searcher, um fluxo de trabalho agentivo estrutural fundamentado na teoria de revisão de crenças, que mantém explicitamente um grafo estrutural multimodal em evolução ao longo de todo o processo de raciocínio, permitindo uma busca profunda de informações multimodal eficaz e consciente de conflitos. Experimentos extensivos em múltiplos conjuntos de dados de referência e modelos base demonstram que o Struct-Searcher é (1) plug-and-play e agnóstico em relação a modelo, resultando em uma melhoria média de acurácia relativa de 17,2% no BrowseComp-VL entre cinco diferentes modelos base; (2) de alto desempenho, superando consistentemente modelos de linguagem-visão (VLMs) de última geração e agentes de pesquisa profunda, com melhorias de acurácia relativa de 3,7% no MM-BrowseComp, 1,5% no HLE-VL e 0,7% no BrowseComp-VL em relação à segunda melhor abordagem concorrente.
Modelos de linguagem de grande porte (LLMs) rotineiramente enfrentam solicitações que devem ser recusadas, criando um compromisso entre utilidade e prevenção de danos. No entanto, as próprias recusas podem ser úteis. Em interações de alto risco envolvendo crise, coerção ou intenção crescente, a não conformidade direta pode prevenir danos imediatos, mas ainda assim falha em apoiar as necessidades da pessoa por trás da solicitação. Apresentamos o PsychoSafe, uma estrutura de recusa informada psicologicamente que reformula a recusa como comunicação estruturada de apoio, fundamentada em estratégias de intervenção baseadas em evidências. Para desenvolver o PsychoSafe, construímos um corpus de 8019 pares prompt-resposta abrangendo cinco domínios de risco psicologicamente salientes e aplicamos ajuste de prompts e fine-tuning eficiente em parâmetros ao Qwen 3.5 27B. Em um conjunto de validação balanceado de 500 prompts, avaliado com um juiz LLM e validado por avaliações humanas, o ajuste de prompts do PsychoSafe melhora a qualidade geral da recusa em 28,1% em relação a uma linha de base genérica, com ganhos particularmente fortes em encaminhamento para recursos externos (+46,8%) e fundamentação psicológica (+34,8%), preservando o desempenho downstream em tarefas sem recusa. O fine-tuning alcança taxas quase perfeitas de recusa e encaminhamento de recursos, mas reduz a relevância da resposta. Avaliações adicionais no SORRY-Bench e XSTest mostram forte robustez no domínio, mas generalização limitada fora do domínio, sugerindo que trabalhos futuros devem diversificar os dados de fine-tuning para ajudar os modelos a aplicar intervenções de forma seletiva, em vez de esquemática.
Modelos de aprendizado profundo existentes para a redução de ruído em imagens de Tomografia por Emissão de Pósitrons (PET) frequentemente sofrem de degradação severa de desempenho sob mudanças de distribuição, o que fundamentalmente restringe sua implantação clínica robusta. Essa falta de generalização decorre do paradigma convencional de modelos de parâmetros fixos, que não conseguem se adaptar a variações nos dados de teste (por exemplo, níveis de dose ou tipos de scanner) após o treinamento. Para superar essa limitação e alcançar uma generalização robusta, apresentamos o U-TTT, um novo modelo em forma de U que integra camadas de Treinamento em Tempo de Teste (TTT) para ajustar dinamicamente os parâmetros do modelo durante a inferência por meio de autossupervisão, adaptando-se assim às características específicas de cada instância de teste. Além disso, para capturar de forma abrangente as degradações complexas dos dados PET 3D, o U-TTT possui um mecanismo de adaptação em domínio duplo, composto por uma camada de Treinamento em Tempo de Teste Espacial (S-TTT) e uma camada de Treinamento em Tempo de Teste em Frequência (F-TTT). A camada S-TTT captura e corrige degradações estruturais espaciais, enquanto a camada F-TTT suprime espectros de ruído globais e restaura delicados detalhes de alta frequência. Experimentos extensos demonstram que o U-TTT alcança desempenho de redução de ruído PET estado da arte e exibe generalização superior sob mudanças desafiadoras de distribuição, incluindo tanto níveis de dose não vistos quanto scanners não vistos. Nosso código estará disponível em https://github.com/Yaziwel/U-TTT.
Trabalhos anteriores demonstraram que o ajuste fino de modelos de linguagem de grande porte em saídas maliciosas ou incorretas em domínios restritos pode induzir um desalinhamento amplo e comportamentos prejudiciais, fenômeno conhecido como desalinhamento emergente. No entanto, métodos eficientes para reverter esse desalinhamento ainda são limitados. Neste trabalho, apresentamos duas contribuições. Primeiro, identificamos o ajuste fino por bajulação, ou seja, treinar modelos para concordar passivamente com opiniões incorretas dos usuários, como um motor anteriormente pouco explorado do desalinhamento emergente, e mostramos que ele induz um comportamento desalinhado amplo e grave. Segundo, propomos o Porteio de Alinhamento, um método eficiente para reverter o desalinhamento emergente que insere portas aprendíveis e controláveis no modelo durante o ajuste fino. Por meio do ajuste fino, essas portas aprendem a identificar as representações internas responsáveis por respostas inseguras. Assim, amplificar ou suprimir essas representações agrava ou mitiga, respectivamente, o desalinhamento emergente. Descobrimos ainda que o módulo de porteio de alinhamento exibe forte generalização: os pesos do porteio obtidos a partir de ajuste fino em domínio restrito suprimem substancialmente o comportamento desalinhado de domínio amplo, preservando as capacidades gerais do modelo.
A maioria dos métodos existentes de redução de ruído em imagens PET baseados em aprendizado profundo assume um fator de redução de dose (DRF) fixo e conhecido para imagens PET de baixa dose. No entanto, esses métodos enfrentam degradação significativa de desempenho quando o DRF varia além do assumido em aplicações práticas. Para lidar com o desafio imposto por DRFs variados, vários estudos preliminares focam na tarefa de redução universal de ruído em imagens PET, visando treinar um modelo universal sobre dados de baixa dose entre diferentes DRFs. Contudo, esses modelos universais simples frequentemente lutam com estilos desalinhados presentes em dados de diferentes DRFs, levando ao problema de eliminação de estilo com um efeito significativo de superalização. Para tratar desse problema, inovadoramente introduzimos a generalização de domínio na redução de ruído em imagens PET e propomos uma rede universal de redução de ruído em imagens PET (UniPET) para alcançar redução de ruído de alta qualidade em imagens PET através de diversos DRFs. UniPET compreende duas inovações principais: uma rede de alinhamento de estilo (SAN) e uma estratégia de aprendizado sensível à região (RALS). Especificamente, a SAN utiliza técnicas de alinhamento de estilo derivadas da generalização de domínio para alinhar e recuperar estilos entre diferentes DRFs, garantindo a generalizabilidade do modelo através de vários DRFs enquanto preserva efetivamente os estilos. Além disso, para aprimorar a recuperação de estilo, a RALS distingue entre regiões planas e estilizadas, realizando aprendizado adversarial exclusivamente nas últimas, guiando assim mais efetivamente o foco do modelo para aprender regiões estilizadas. Demonstra-se que nosso UniPET proposto pode recuperar adaptativamente estilos de diferentes DRFs e alcançar redução de ruído de alta qualidade em imagens PET através de DRFs. Experimentos abrangentes mostram que o UniPET exibe desempenho comparável a modelos específicos para DRFs individuais em DRFs particulares e alcança o estado da arte em redução universal de ruído em imagens PET quantitativamente, perceptivamente e clinicamente.
Modelos generativos de vídeo tornaram-se cada vez mais poderosos, mas a consistência de longo alcance ainda é difícil de alcançar porque mesmo algumas dezenas de quadros exigem comprimentos de sequência de transformers impraticavelmente longos. Mostramos que esse problema pode ser mitigado gerando vídeo por meio de um desdobramento gradual (coarse-to-fine rollout) dentro de um espaço de tokens em múltiplas escalas. Nossa abordagem é simples: primeiro, pré-treinamos um autoencodificador que comprime cada quadro em uma hierarquia de tokens, com níveis que variam da resolução latente típica a apenas um punhado de tokens por quadro. Os níveis mais grosseiros capturam as informações mais relevantes, como layout da cena e semântica, enquanto os níveis mais finos adicionam aparência e textura de alta frequência. Em seguida, treinamos um modelo de difusão de vídeo para gerar esses tokens usando o desdobramento gradual. Ao controlar cuidadosamente o nível de detalhe com que os quadros são gerados e usados como contexto durante cada etapa do desdobramento, conseguimos preservar a consistência de longo alcance na geometria e na permanência dos objetos, ao mesmo tempo que gastamos menos poder computacional na consistência de longo alcance de detalhes perceptual menos relevantes. Validamos essa abordagem usando um conjunto de dados personalizado de vídeos longos de Minecraft, onde ela produz desdobramentos substancialmente mais consistentes em comparação com as referências existentes.
Sistemas multiagentes (MAS) construídos sobre modelos de linguagem de grande porte são tipicamente organizados em torno de papéis, pipelines e cronogramas de turno, enquanto o conteúdo que os agentes transmitem uns aos outros é frequentemente deixado como linguagem natural não restrita. No entanto, essa comunicação livre pode inflar rapidamente o uso de tokens, consumir a janela de contexto compartilhada e, por fim, afetar tanto o desempenho do sistema quanto o custo de inferência. Analisamos cinco estratégias comuns de comunicação entre agentes em duas topologias de MAS, constatando que nenhuma estratégia fixa é universalmente ótima. Em vez disso, mensagens eficazes entre agentes preservam consistentemente informações centradas em ações necessárias para os agentes a jusante. Com base nisso, propomos o PACT (Protocolized Action-state Communication and Transmission), que trata a comunicação entre agentes como um problema de atualização de estado público e projeta cada saída bruta do agente em um registro compacto de estado de ação antes de entrar no histórico compartilhado. Em diferentes topologias de MAS, o PACT melhora consistentemente o compromisso desempenho-custo, alcançando desempenho em tarefas comparável ou superior com substancialmente menos tokens. Os ganhos se estendem a ambientes de codificação em produção: o PACT eleva a taxa de resolução do OpenHands com -10% de tokens por problema resolvido, e é neutro em relação à taxa de resolução no SWE-agent enquanto reduz pela metade os tokens de entrada. Nosso código está disponível publicamente em https://github.com/iNLP-Lab/PACT.
A geração autoregressiva de vídeo emergiu como um paradigma poderoso para Modelos de Ação no Mundo (WAMs). No entanto, as abordagens existentes sofrem de convergência lenta no treinamento e precisão convergida limitada, particularmente em altas taxas de quadros, pois a supervisão do treinamento está confinada ao bloco atual, sem sinais explícitos sobre a dinâmica futura; também sofrem de inferência lenta devido à remoção iterativa de ruído do vídeo. Neste artigo, apresentamos o Next Forcing, uma estrutura de predição de múltiplos blocos (MCP) para modelagem causal do mundo que possibilita treinamento mais rápido, maior precisão e inferência acelerada. Inspirado pela predição de múltiplos tokens em grandes modelos de linguagem, o Next Forcing introduz um objetivo de treinamento MCP que aumenta o modelo principal com módulos MCP auxiliares leves para remover simultaneamente o ruído de blocos de vídeo em múltiplos horizontes temporais futuros (próximo¹, próximo², próximo³ blocos). Esses módulos MCP formam uma cadeia causal através das profundidades de predição, onde características intermediárias fundidas de múltiplas camadas do modelo principal são utilizadas para prever a dinâmica futura, permitindo que predições de curto prazo informem predições de mais longo prazo e fornecendo supervisão temporal densa em múltiplas escalas de volta ao modelo principal. Durante o treinamento, os módulos MCP aceleram significativamente a convergência e melhoram a precisão convergida, especialmente em altas taxas de quadros: a 50 fps, o Next Forcing alcança uma melhoria relativa de 93,1% em relação ao LingBot-VA em 5.000 passos de treinamento e convergência 2,3x mais rápida, estabelecendo novos resultados de estado da arte no benchmark RoboTwin (94,1%/93,5% em Clean/Random). Na inferência, os módulos MCP podem ser mantidos para prever o próximo bloco de vídeo em paralelo com o atual, alcançando aceleração de inferência de 2x. O Next Forcing também demonstra melhorias significativas no PhyWorld, um benchmark que avalia a adesão a leis físicas na geração de vídeo, e mais de 50% de redução no FVD em pré-treinamento geral de vídeo.
A escalabilidade de Modelos de Linguagem de Grande Escala (LLMs) para contextos longos é fundamentalmente limitada pela complexidade quadrática da atenção padrão, motivando a adoção de mecanismos de atenção linear com custo subquadrático. Para melhorar a capacidade de representação em contextos longos, abordagens recentes organizam a memória de forma multiestado. No entanto, os métodos existentes de atenção linear multiestado dependem de políticas fixas de fusão de estados que não conseguem se adaptar à importância dinamicamente variável dos tokens, obscurecendo irreversivelmente tokens críticos e causando severa acumulação de erros ao longo de sequências longas. Para superar essa limitação, propomos DLA, uma estrutura de modelagem dinâmica de memória para atenção linear multiestado. O DLA introduz (i) Fusão Dinâmica de Estados Sensível à Informação, que determina adaptativamente os limites dos estados com base na variação de informação em nível de token, preservando representações de alta resolução ao redor de transições semânticas enquanto sumariza agressivamente regiões estáveis, e (ii) Modelagem de Memória com Capacidade Limitada, que mantém um cache de estados de tamanho fixo e ordenado cronologicamente, mesclando seletivamente estados adjacentes com baixa informação para controlar o crescimento da memória com perda mínima de informação. Pré-treinamos o DLA em dois modelos diferentes de atenção linear e avaliamos em 16 conjuntos de dados de três categorias. Os resultados experimentais demonstram a superioridade do DLA em relação ao estado da arte.
Políticas de controle contínuo expressivas, como modelos de difusão e fluxo, constituem a base dos avanços recentes na escalabilidade da aprendizagem por imitação para controle robótico simulado e real. Embora sejam conhecidas por escalarem de forma estável no cenário de aprendizagem por imitação supervisionada, incorporá-las em pipelines de aprendizado por reforço (RL) para melhoria de políticas tem se mostrado mais difícil. Frequentemente, isso requer objetivos de treinamento especializados ou retropropagação através de processos de denoising, o que causa problemas conhecidos de estabilidade e afeta a escalabilidade. Neste artigo, investigamos a questão de se esquemas simples de melhoria de política apenas no momento do teste, mantendo intacto o treinamento supervisionado estável da política, podem ser uma alternativa competitiva que contorna esses problemas. Para isso, propomos o QGF (Q-Guided Flow), um algoritmo de RL que realiza otimização de política inteiramente no momento do teste. O QGF funciona pré-treinando tanto uma política de fluxo de referência (através de um objetivo padrão de clonagem comportamental) quanto um crítico de função de valor e, no momento do teste, utilizando o gradiente do valor para guiar a política de referência a gerar ações de maior valor, sem qualquer aprendizado adicional de política. Empiricamente, o QGF supera métodos anteriores de RL em tempo de teste em benchmarks de RL offline de tarefa única e condicionados a objetivos com espaços de ação de alta dimensão, e é competitivo com algoritmos estado-da-arte que treinam durante o treino, sendo muito mais barato de executar. Além disso, apresenta uma escalabilidade favorável ao tamanho do modelo, evitando a instabilidade do treinamento ator-crítico, oferecendo um algoritmo de RL alternativo prático e eficaz com políticas expressivas.
Modelos de linguagem grandes multimodais (MLLMs) geralmente herdam o backbone Transformer profundo e simétrico, projetado para modelagem unimodal de texto, e aplicam o mesmo cálculo de forma uniforme a tokens de imagem e linguagem. Esse design ignora uma assimetria modal chave: tokens de imagem e texto diferem substancialmente em densidade de informação, redundância e profundidade de raciocínio necessária. Por meio de uma análise camada por camada do LLaVA-1.5, observamos que os tokens de visão tendem a saturar nas camadas intermediárias. Especificamente, a atenção texto-imagem diminui de 0,68 na camada 0 para 0,07 na camada 4, estabilizando-se perto de 0,04 após a camada 18, enquanto os tokens de texto continuam a se beneficiar de processamento semântico profundo. Essas descobertas sugerem um descompasso entre a simetria arquitetural e a evolução assíncrona em profundidade das modalidades, resultando em computação visual redundante e possível deriva nas representações perceptuais durante adaptação profunda a tarefas específicas. Motivados por isso, propomos o Roteamento de Tokens de Visão por Caminho Duplo (DPVR), uma estrutura de roteamento assimétrica entre modalidades para MLLMs eficientes. Sua instanciação central, DPVR-LF (Fusão em Camada Tardia), roteia tokens de visão no ponto de saturação para um ramo lateral treinável de uma camada, executa uma passagem direta apenas com texto de treze camadas que ignora as posições de imagem no empilhamento profundo e re-funde os fluxos visual e textual apenas na camada final. Com aproximadamente 3% de parâmetros treináveis, o DPVR-LF preserva desempenho multimodal competitivo em benchmarks padrão, ao mesmo tempo que reduz a computação visual no empilhamento Transformer profundo. Os resultados desafiam a suposição convencional de que tokens de visão devem percorrer todas as camadas profundas do modelo de linguagem e indicam que uma única camada de fusão tardia pode ser suficiente para manter forte competência perceptual em MLLMs do tipo LLaVA.
Um modo de falha crescente na avaliação e no treinamento de agentes é que os modelos podem alcançar pontuações elevadas explorando atalhos em vez de resolver a tarefa pretendida, produzindo um desempenho enganoso. Isso torna as pontuações de avaliação não confiáveis como medidas da capacidade real de resolver tarefas. Propomos o CapCode, uma estrutura para construir conjuntos de dados de codificação com testes aleatorizados cujo melhor desempenho alcançável sem trapaça é deliberadamente limitado abaixo de um. Esse projeto de desempenho limitado confere às pontuações de avaliação uma interpretação mais clara: pontuações substancialmente acima do limite são implausíveis e, portanto, fornecem evidências de trapaça. Para prevenir a trapaça, propomos o CapReward, um projeto de recompensa baseado no princípio do CapCode para desencorajar a otimização além do limite. Experimentos em vários conjuntos de dados mostram que o CapCode detecta trapaças enquanto preserva a classificação de desempenho dos modelos, e o CapReward reduz o comportamento de trapaça, produzindo modelos que seguem melhor a especificação pretendida da tarefa.
Os Modelos de Linguagem de Grande Escala (LLMs) Fundamentais demonstram proficiência em uma ampla gama de tarefas gerais e alcançam resultados notáveis em diversas tarefas especializadas por meio de LLMs especialistas em domínio. Com a lista cada vez maior de LLMs disponíveis, roteadores de inferência estão sendo propostos para selecionar o LLM mais adequado para cada prompt. No entanto, os métodos de roteamento existentes ou otimizam o custo entre LLMs generalistas de fraco a forte, ou exigem treinamento substancial para suportar roteamento especializado em domínio. Neste artigo, propomos o IR3DE, um Roteador Baseado em Regressão Ridge para Especialistas em Domínio, que fornece decisões de roteamento rápidas e de baixo custo para cada prompt. Avaliamos o IR3DE em duas configurações de Modelagem de Linguagem Causal (CLM), onde as tarefas são predição do próximo token para todos os domínios, e em uma configuração de raciocínio, onde cada domínio possui sua própria tarefa de raciocínio distinta. Apesar de ser um roteador linear, o IR3DE alcança desempenho comparável aos outros métodos de referência em ambas as configurações de CLM, superando-os na configuração de raciocínio, com um desempenho normalizado de 98,4%. Além disso, o IR3DE permite a adição ou remoção de novos especialistas em domínio sem exigir que o roteador seja retreinado do zero, possibilitando que um conjunto dinâmico de LLMs seja servido com o mínimo de interrupção para o próprio roteador. Nosso código está disponível em: github.com/gensyn-ai/IR3DE.
Condicionar um modelo de linguagem a um contexto adicional, como feedback sobre uma tentativa anterior, geralmente melhora sua resposta. A autodestilação treina o modelo para reter essa melhoria quando o contexto não está presente. O método funciona igualando a distribuição de saída do modelo sob duas configurações: um aluno que vê apenas a pergunta e um autoprofessor que também vê o contexto. Portanto, o que o modelo aprende depende do contexto que o autoprofessor recebe, mas o design desse contexto permanece amplamente inexplorado. Estudamos o design de contexto para autodestilação treinando um solucionador com feedback de um crítico congelado. Comparamos três condições: (i) uma recompensa binária (GRPO), (ii) a solução de referência e (iii) uma crítica alinhada por etapas ao traço de raciocínio do solucionador. A crítica alinhada por etapas produziu os maiores ganhos, superando o GRPO em 16,11 pontos e a autodestilação condicionada à solução de referência em 5,27 pontos (Avg@12). A análise de vantagem por token revela o porquê: o feedback alinhado por etapas tem como alvo apenas os tokens onde o raciocínio falha, deixando o comportamento correto intacto. Já o condicionamento à solução de referência, por outro lado, pressiona o modelo a alterar seu comportamento em todos os tokens (mesmo nas etapas corretas), pois uma derivação alternativa inevitavelmente difere em formulação e abordagem. Isso sugere que o alinhamento estrutural entre o feedback e o raciocínio do solucionador é um fator-chave para a eficácia da autodestilação.
Expert writing feedback from experienced researchers is critical for early-career scholars to improve their manuscripts, yet high-quality feedback often remains scarce because reviewing research papers is labor-intensive. Emerging AI-powered writing assistants largely focus on grammar fixes or simulating peer review with final scores, yet they fall short of providing concrete, actionable suggestions that help students improve their papers during drafting. We present PaperMentor, a human-centered writing assistant system that delivers actionable suggestions as Overleaf-native inline comments while leaving the actual writing entirely to human authors. PaperMentor integrates an expert skill library carefully curated from established researchers' writing advice with 12 specialized agents covering different aspects of paper writing, such as formatting compliance, phrasing accuracy, and terminology consistency. In a user study (n=14), 90.6% of the generated comments were rated actionable and 67.5% were rated valid, significantly outperforming a GPT-5.2 baseline uswithout the skill library. We release PaperMentor as open source for public use. Our code is publicly available under the AGPL-3.0 license at https://github.com/jiarui-liu/overleaf
Falhas em modelos de raciocínio multi-turno são amplamente invisíveis para avaliações baseadas em pontuação terminal. Um modelo pode fixar-se numa postura insegura logo no início de um diálogo longo, mas a sua taxa de recusa na etapa final pode parecer indistinguível de uma linha de base robustamente alinhada. Para expor essas dinâmicas temporais ocultas, propomos um diagnóstico ao nível dos traços — a matriz de segurança CoT-Output 2x2. Esta estrutura rotula cada turno ao longo de dois eixos independentes (raciocínio interno e saída visível), gerando quatro células de falha operacionalmente definidas: alinhamento robusto, falsificação de alinhamento, jailbreak explícito e um modo de falha distinto que designamos por falha de injeção de contexto (onde o CoT mantém um raciocínio seguro, mas a saída visível produz dano, evidenciando uma manifestação multi-turno de infidelidade de raciocínio). Avaliamos três alvos de raciocínio destilados contra um atacante fixo em cinco condições de supervisão, coletando 6750 observações ao nível do turno no cenário de Risco de Informação. A nossa análise revela duas vulnerabilidades reproduzíveis: um paradoxo de supervisão em que sinais explícitos de monitorização aumentam paradoxalmente as taxas de falsificação de alinhamento em vez de as suprimir, e uma falha de injeção de contexto em que os modelos se fixam em saídas externas inseguras apesar de estados internos seguros. Disponibilizamos o conjunto de dados completo de diálogos multi-turno e traços de CoT para apoiar investigação futura em diagnósticos baseados em traços.
Sistemas multiagente (MAS) podem escalar o raciocínio de modelos de linguagem de grande porte em tempo de teste, decompondo problemas complexos em subtarefas paralelas. No entanto, a maioria dos MAS existentes depende de orquestração centralizada, onde um agente principal atribui trabalho, coleta as saídas e mescla os resultados. À medida que o número de subtarefas cresce, esse controlador se torna um gargalo de comunicação e integração. Propomos o Decentralized Language Models (DeLM), uma estrutura MAS que descentraliza a coordenação por meio de agentes paralelos, um contexto verificado compartilhado e uma fila de tarefas. Os agentes reivindicam subtarefas de forma assíncrona, leem o progresso acumulado, realizam raciocínio local e escrevem atualizações verificadas e compactas. O contexto compartilhado atua como um substrato comum de comunicação, permitindo que os agentes construam a partir do progresso verificado uns dos outros sem rotear cada atualização por um controlador central. Empiricamente, o DeLM melhora tanto a escalabilidade em tempo de teste na engenharia de software quanto o raciocínio de contexto longo. No SWE-bench Verified, o DeLM alcança o melhor desempenho em Avg.@1, Pass@2 e Pass@4, com ganhos de até 10,5 pontos percentuais sobre a linha de base mais forte, além de reduzir o custo por tarefa em aproximadamente 50%. No LongBench-v2 Multi-Doc QA, o DeLM atinge a maior precisão média em quatro famílias de modelos de fronteira, melhorando em até 5,7 pontos percentuais em relação à linha de base mais forte. O código está disponível em nosso site do projeto em https://yuzhenmao.github.io/DeLM/.
A segurança de Modelos de Linguagem de Grande Escala (LLMs) tem sido frequentemente avaliada no nível comportamental, o que fornece evidências limitadas de robustez interna, pois essas avaliações visam os resultados em vez da vulnerabilidade no nível de representação sob intervenção. Formalizamos essa discrepância como a lacuna de auditoria: a diferença entre segurança comportamental e robustez sob intervenção. Para estudar essa lacuna, construímos modelos dissociados que preservam um comportamento externo seguro, mas permanecem vulneráveis no espaço latente. Introduzimos uma estrutura de avaliação baseada em intervenções para testar a robustez do modelo por meio de intervenções suaves nos espaços de parâmetros e latentes, incluindo ajuste fino prejudicial e perturbações latentes camada a camada. Para formalizar a avaliação, propomos a Pontuação de Vulnerabilidade Latente (LVS) para medir a facilidade com que o comportamento prejudicial pode ser eliciado por perturbações latentes limitadas. Usando essa estrutura de avaliação, mostramos que as métricas de segurança comportamental são medidas insuficientes de robustez no nível de representação em vários modelos de última geração alinhados de forma segura e insegura. Notavelmente, modelos dissociados apresentam LVSs substancialmente elevadas, apesar do comportamento de recusa comparável sob intervenção prejudicial, sendo as representações intermediárias as mais sensíveis à intervenção. Nossos resultados sugerem que apenas a avaliação de segurança comportamental fornece um quadro incompleto da robustez do modelo, motivando auditorias conscientes de representação sobre vulnerabilidade latente e comportamento observável.
Os geradores de vídeo autorregressivos sintetizam vídeos longos gerando segmentos temporais sucessivos, mas seu cache KV histórico cresce com a duração do vídeo. Métodos existentes de cache limitado reduzem esse custo com janelas locais, sink tokens ou estados de memória comprimidos, embora geralmente atribuam papéis fixos a diferentes partes do histórico. Propomos o FadeMem, um mecanismo de consolidação de memória KV consciente da distância que organiza blocos KV históricos em uma hierarquia temporal sob um orçamento fixo de cache. Esse design é motivado pelo decaimento temporal dependente da frequência: detalhes finos se descorrelacionam rapidamente, enquanto a estrutura geral da cena e a identidade permanecem úteis por horizontes mais longos. Durante a geração, o novo histórico é inserido como entradas de granularidade fina, enquanto entradas adjacentes mais antigas são progressivamente mescladas sob um cronograma de alocação temporal de lei de potência, resultando em uma memória densa-próxima e esparsa-distante dentro de um único cache. Sem alterações arquitetônicas, o FadeMem preserva o contexto recente para dinâmicas de curto prazo e âncoras compactas de longo alcance para identidade e coerência da cena. Experimentos mostram consistência do sujeito, estabilidade do fundo e coerência temporal superiores em relação às estratégias existentes de cache limitado.
Aprendizado de Múltiplas Instâncias (MIL) aborda problemas onde a supervisão está disponível no nível de sacos de instâncias e tem sido aplicado com sucesso em áreas que vão desde patologia computacional até imagens de satélite. No entanto, os algoritmos existentes enfrentam dificuldades no regime de baixa rotulagem que caracteriza muitas aplicações do mundo real. Modelos flexíveis sofrem overfitting e os rígidos não conseguem se adaptar à tarefa em questão. Mostramos que o pré-treinamento de um aprendiz em contexto com uma arquitetura estilo Perceiver em dados sintéticos produz um modelo que pode resolver novas tarefas a partir de um punhado de sacos rotulados. No momento da inferência, a classificação ocorre em uma única passagem direta e não requer atualizações de gradiente. Propomos e investigamos diferentes geradores de dados sintéticos para dados estruturados em sacos e descobrimos que eles capturam vieses indutivos complementares. Um modelo pré-treinado em uma mistura desses geradores herda seus pontos fortes por tarefa e alcança o melhor desempenho médio em doze benchmarks de MIL, superando linhas de base supervisionadas que exigem treinamento específico para a tarefa.
Modelos de linguagem de grande escala (LLMs) participam cada vez mais de conversas sociais emocionalmente sensíveis, onde as respostas podem passar de um apoio equilibrado para uma validação excessiva ou um alinhamento de escalada. As pesquisas existentes sobre bajulação concentram-se principalmente em contextos de concordância factual e de seguimento de instruções, deixando a bajulação conversacional enraizada culturalmente pouco explorada. Apresentamos o BenSyc, o primeiro benchmark para o estudo da bajulação conversacional em contextos sociais bengalis. Partindo de 11.840 publicações do Reddit e 170 mil comentários coletados de comunidades em Bangladesh e Bengala Ocidental, construímos um benchmark validado por humanos com rótulos binários e uma taxonomia refinada de cinco níveis que abrange Invalidação, Neutro, Apoio, Validação e Escalação. Avaliamos mais de 15 LLMs abertos e proprietários em tarefas de classificação de alinhamento conversacional e geração de respostas. Os resultados mostram que distinguir apoio empático de validação orientada a reforço continua desafiador mesmo para modelos de ponta ajustados por instrução: o melhor sistema alcança apenas 61,8 Macro-F1 na detecção binária e 61,7 Macro-F1 na classificação de cinco classes. Em cenários de geração, vários modelos produzem frequentemente respostas fortemente validadoras ou de escalada em situações emocionalmente carregadas. Nossos achados destacam variações substanciais entre famílias de modelos e comportamentos conversacionais, ressaltando a importância de benchmarks multilingues enraizados culturalmente para avaliar sistemas de IA conversacional alinhados socialmente.