Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os textos públicos de alta qualidade se aproximam da exaustão, um fenômeno conhecido como Muro de Dados, o pré-treinamento está a mudar de "mais tokens" para "melhores tokens". No entanto, os métodos existentes ou dependem de filtros estáticos heurísticos que ignoram a dinâmica do treino, ou usam critérios dinâmicos mas agnósticos ao otimizador, baseados em gradientes brutos. Propomos o OPUS (Optimizer-induced Projected Utility Selection), um quadro de seleção dinâmica de dados que define a utilidade no espaço de atualização induzido pelo otimizador. O OPUS classifica os candidatos projetando as suas atualizações efetivas, moldadas por otimizadores modernos, numa direção alvo derivada de um proxy estável e dentro da distribuição. Para garantir escalabilidade, empregamos a técnica Ghost com CountSketch para eficiência computacional, e amostragem de Boltzmann para diversidade de dados, incorrendo num overhead computacional adicional de apenas 4,7%. O OPUS alcança resultados notáveis em diversos corpora, níveis de qualidade, otimizadores e escalas de modelo. No pré-treinamento de GPT-2 Large/XL no FineWeb e FineWeb-Edu com 30B de tokens, o OPUS supera linhas de base de nível industrial e até mesmo o treino completo com 200B de tokens. Além disso, quando combinado com filtros estáticos de nível industrial, o OPUS melhora ainda mais a eficiência do pré-treinamento, mesmo com dados de qualidade inferior. Adicionalmente, no pré-treinamento continuado do Qwen3-8B-Base no SciencePedia, o OPUS alcança um desempenho superior usando apenas 0,5B de tokens em comparação com o treino completo com 3B de tokens, demonstrando ganhos significativos de eficiência de dados em domínios especializados.
Os agentes autônomos de GUI interagem com ambientes percebendo interfaces e executando ações. Como um ambiente virtual de testes (sandbox), o modelo GUI World capacita os agentes com previsão de ações, conferindo-lhes uma previsão similar à humana. No entanto, as abordagens existentes baseadas em texto e pixel lutam para alcançar simultaneamente alta fidelidade visual e controlabilidade estrutural granular. Para isso, propomos o Code2World, um codificador visuo-linguístico que simula o próximo estado visual por meio da geração de código renderizável. Especificamente, para resolver o problema da escassez de dados, construímos o AndroidCode traduzindo trajetórias de GUI em HTML de alta fidelidade e refinando o código sintetizado através de um mecanismo de revisão por feedback visual, resultando em um corpus com mais de 80 mil pares tela-ação de alta qualidade. Para adaptar os VLMs existentes à previsão de código, primeiro realizamos Ajuste Fino Supervisionado (SFT) como um início rápido para o seguimento do formato de layout, e depois aplicamos o Reforço de Aprendizagem com Consciência da Renderização (Render-Aware Reinforcement Learning), que utiliza o resultado renderizado como sinal de recompensa, impondo fidelidade semântica visual e consistência de ação. Experimentos extensivos demonstram que o Code2World-8B alcança o melhor desempenho em previsão da próxima UI, rivalizando com os competitivos GPT-5 e Gemini-3-Pro-Image. Notavelmente, o Code2World aumenta significativamente as taxas de sucesso de navegação downstream de maneira flexível, impulsionando o Gemini-2.5-Flash em +9,5% na navegação do AndroidWorld. O código está disponível em https://github.com/AMAP-ML/Code2World.
Os agentes de GUI emergiram como um paradigma poderoso para automatizar interações em ambientes digitais, mas alcançar ampla generalidade e desempenho de tarefa consistentemente forte permanece um desafio. Neste relatório, apresentamos o UI-Venus-1.5, um Agente de GUI unificado e de ponta a ponta projetado para aplicações robustas do mundo real. A família de modelos proposta compreende duas variantes densas (2B e 8B) e uma variante de mistura de especialistas (30B-A3B) para atender a vários cenários de aplicação a jusante. Em comparação com nossa versão anterior, o UI-Venus-1.5 introduz três avanços técnicos principais: (1) uma etapa abrangente de Mid-Training utilizando 10 bilhões de tokens em mais de 30 conjuntos de dados para estabelecer semântica fundamental de GUI; (2) Aprendizado por Reforço Online com rollouts de trajetória completa, alinhando os objetivos de treinamento com a navegação dinâmica de longo horizonte em ambientes de grande escala; e (3) um único Agente de GUI unificado construído via Fusão de Modelos, que sintetiza modelos específicos de domínio (grounding, web e móvel) em um checkpoint coeso. Avaliações extensivas demonstram que o UI-Venus-1.5 estabelece um novo estado da arte em benchmarks como ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) e AndroidWorld (77,6%), superando significativamente baselines fortes anteriores. Além disso, o UI-Venus-1.5 demonstra capacidades robustas de navegação em uma variedade de aplicativos móveis chineses, executando efetivamente as instruções do usuário em cenários do mundo real. Código: https://github.com/inclusionAI/UI-Venus; Modelo: https://huggingface.co/collections/inclusionAI/ui-venus
A resolução de problemas pelo ser humano nunca é a repetição de uma única *mindset* (mentalidade ou modelo mental), termo pelo qual nos referimos a um modo distinto de processamento cognitivo. Ao enfrentar uma tarefa específica, não dependemos de uma única mentalidade; em vez disso, integramos múltiplas mentalidades dentro do único processo de solução. No entanto, os métodos de raciocínio de LLMs existentes caem numa armadilha comum: aplicam a mesma mentalidade fixa em todas as etapas, ignorando que diferentes fases da resolução do mesmo problema exigem mentalidades fundamentalmente diferentes. Esta suposição de mentalidade única impede que os modelos atinjam o próximo nível de inteligência. Para superar esta limitação, propomos a *Chain of Mindset* (CoM), uma estrutura agentiva sem necessidade de treino que permite uma orquestração adaptativa de mentalidades ao nível da etapa. A CoM decompõe o raciocínio em quatro mentalidades funcionalmente heterogéneas: Espacial, Convergente, Divergente e Algorítmica. Um *Meta-Agente* seleciona dinamicamente a mentalidade ótima com base no estado de raciocínio em evolução, enquanto um *Context Gate* (Portão de Contexto) bidireccional filtra o fluxo de informação entre módulos para manter a eficácia e a eficiência. Experiências em seis *benchmarks* desafiadores, abrangendo matemática, geração de código, QA científico e raciocínio espacial, demonstram que a CoM atinge um desempenho de ponta, superando a linha de base mais forte em 4,96% e 4,72% na precisão global nos modelos Qwen3-VL-32B-Instruct e Gemini-2.0-Flash, respetivamente, equilibrando simultaneamente a eficiência do raciocínio. O nosso código está publicamente disponível em https://github.com/QuantaAlpha/chain-of-mindset.
Os agentes de Large Language Model (LLM) têm demonstrado resultados impressionantes em tarefas complexas, mas frequentemente operam de forma isolada, sem aprender com experiências passadas. Os métodos existentes baseados em memória armazenam principalmente trajetórias brutas, que são muitas vezes redundantes e carregadas de ruído. Isso impede que os agentes extraiam padrões comportamentais de alto nível e reutilizáveis, essenciais para a generalização. Neste artigo, propomos o SkillRL, uma estrutura que preenche a lacuna entre a experiência bruta e a melhoria da política através da descoberta automática de habilidades e da evolução recursiva. Nossa abordagem introduz um mecanismo de destilação baseado em experiência para construir uma biblioteca hierárquica de habilidades (SkillBank), uma estratégia de recuperação adaptativa para heurísticas gerais e específicas de tarefas, e um mecanismo de evolução recursiva que permite que a biblioteca de habilidades co-evolua com a política do agente durante o aprendizado por reforço. Essas inovações reduzem significamente a pegada de tokens enquanto aumentam a utilidade do raciocínio. Resultados experimentais no ALFWorld, WebShop e sete tarefas com aumento de busca demonstram que o SkillRL alcança desempenho de última geração, superando linhas de base fortes em mais de 15,3% e mantendo robustez à medida que a complexidade da tarefa aumenta. O código está disponível em https://github.com/aiming-lab/SkillRL.
A transição da manipulação simbólica para o raciocínio de nível científico representa uma fronteira pivotal para os Grandes Modelos de Linguagem (LLMs), com a física servindo como âncora crítica de teste para vincular a lógica abstrata à realidade física. A física exige que um modelo mantenha consistência física com as leis que regem o universo, uma tarefa que fundamentalmente requer percepção multimodal para fundamentar a lógica abstrata na realidade. No nível de Olimpíada, os diagramas são frequentemente constitutivos e não meramente ilustrativos, contendo restrições essenciais, como condições de contorno e simetrias espaciais, que estão ausentes do texto. Para preencher esta lacuna visual-lógica, introduzimos o P1-VL, uma família de modelos de visão e linguagem de código aberto projetados para raciocínio científico avançado. Nosso método harmoniza o Aprendizado por Reforço com Currículo, que emprega uma expansão progressiva de dificuldade para estabilizar o pós-treinamento, com a Ampliação Agêntica, permitindo a autoverificação iterativa durante a inferência. Avaliado no HiPhO, um rigoroso benchmark composto por 13 exames de 2024-2025, nosso carro-chefe P1-VL-235B-A22B torna-se o primeiro Modelo de Linguagem de Visão (VLM) de código aberto a conquistar 12 medalhas de ouro e alcança o desempenho de ponta entre os modelos de código aberto. Nosso sistema aumentado por agente alcança a 2ª posição geral global, ficando atrás apenas do Gemini-3-Pro. Para além da física, o P1-VL demonstra uma notável capacidade de raciocínio científico e generalização, estabelecendo vantagens significativas sobre os modelos base em benchmarks de STEM. Ao disponibilizar o P1-VL como código aberto, fornecemos um passo fundamental em direção à inteligência física de propósito geral para melhor alinhar as percepções visuais com as leis físicas abstratas para a descoberta científica por máquinas.
Os recentes avanços em modelos de linguagem de grande escala (LLM) capacitaram agentes autónomos para realizar tarefas complexas que exigem interações multi-turno com ferramentas e ambientes. No entanto, a escalabilidade deste treino de agentes é limitada pela falta de ambientes diversificados e fiáveis. Neste artigo, propomos o Modelo de Mundo do Agente (AWM), um pipeline de geração de ambientes totalmente sintético. Utilizando este pipeline, escalamos para 1.000 ambientes que cobrem cenários do quotidiano, nos quais os agentes podem interagir com conjuntos ricos de ferramentas (35 ferramentas por ambiente, em média) e obter observações de alta qualidade. Note-se que estes ambientes são baseados em código e suportados por bases de dados, proporcionando transições de estado mais fiáveis e consistentes do que os ambientes simulados por LLMs. Além disso, permitem uma interação de agentes mais eficiente em comparação com a recolha de trajetórias a partir de ambientes realistas. Para demonstrar a eficácia deste recurso, realizamos aprendizagem por reforço em larga escala para agentes de uso de ferramentas multi-turno. Graças aos ambientes totalmente executáveis e aos estados das bases de dados acessíveis, também podemos criar funções de recompensa fiáveis. Experiências em três benchmarks mostram que o treino exclusivamente em ambientes sintéticos, em vez de ambientes específicos de cada benchmark, produz uma forte generalização fora da distribuição. O código está disponível em https://github.com/Snowflake-Labs/agent-world-model.
A atenção esparsa por blocos é promissora para acelerar o pré-preenchimento de LLMs de contexto longo, mas a identificação eficiente de blocos relevantes permanece um gargalo. Os métodos existentes geralmente empregam atenção de granularidade grossa como proxy para estimar a importância dos blocos, mas frequentemente recorrem a buscas ou pontuações dispendiosas a nível de token, resultando em sobrecarga significativa de seleção. Neste trabalho, rastreamos a imprecisão da atenção padrão de granularidade grossa via *pooling* médio até uma causa teórica raiz: a interação entre o *pooling* médio e as *Embeddings* Posicionais Rotativas (RoPE). Provamos que o *pooling* médio atua como um filtro passa-baixo que induz interferência destrutiva nas dimensões de alta frequência, criando efetivamente um "ponto cego" para informações posicionais locais (por exemplo, padrões de *slash*). Para resolver isso, introduzimos o Prism, uma abordagem espectral e livre de treinamento que decompõe a seleção de blocos em ramos de alta e baixa frequência. Ao aplicar uma calibração de temperatura baseada em energia, o Prism restaura os sinais posicionais atenuados diretamente das representações agregadas, permitindo a estimativa da importância do bloco usando apenas operações a nível de bloco, melhorando assim a eficiência. Avaliações extensivas confirmam que o Prism mantém paridade de precisão com a atenção completa enquanto oferece aceleração de até 5,1 vezes.
Recentemente, os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) demonstraram vantagens únicas de eficiência, possibilitadas por seu mecanismo de decodificação inerentemente paralelo e paradigma de geração flexível. Entretanto, apesar do rápido avanço dos Agentes de Busca, sua implantação prática é limitada por uma restrição fundamental, denominada 1) Desafio da Latência: a execução serial do raciocínio em múltiplas rodadas, da chamada de ferramentas e da espera pela resposta da ferramenta sob o paradigma de agente ReAct induz uma severa latência de ponta a ponta. Intuitivamente, os dLLMs podem aproveitar seus pontos fortes distintivos para otimizar a eficiência operacional dos agentes sob o paradigma ReAct. Na prática, os modelos dLLMs existentes enfrentam o 2) Desafio da Capacidade do Agente. Ou seja, os dLLMs existentes exibem capacidades de raciocínio e chamada de ferramentas notavelmente fracas, impedindo que essas vantagens sejam efetivamente realizadas. Neste artigo, propomos o DLLM-Searcher, uma estrutura de otimização para Agentes de Busca baseados em dLLM. Para resolver o Desafio da Capacidade do Agente, projetamos um pipeline de pós-treinamento em dois estágios, abrangendo o Ajuste Fino Supervisionado Agentivo (Agentic SFT) e a Otimização de Preferências com Variância Reduzida Agentiva (Agentic VRPO), que aprimora as capacidades de busca de informação e raciocínio do dLLM base. Para mitigar o Desafio da Latência, aproveitamos o mecanismo de geração flexível dos dLLMs e propomos um novo paradigma de agente denominado Raciocínio e Ação Paralelos (P-ReAct). O P-ReAct orienta o modelo a priorizar a decodificação de instruções de tool_call, permitindo assim que o modelo continue pensando enquanto aguarda o retorno da ferramenta. Resultados experimentais demonstram que o DLLM-Searcher alcança um desempenho comparável aos principais agentes de busca baseados em LLM e que o P-ReAct proporciona uma aceleração de inferência de aproximadamente 15%. Nosso código está disponível em https://anonymous.4open.science/r/DLLM-Searcher-553C.
Os sistemas de LLM multiagente permitem raciocínio avançado e uso de ferramentas através da especialização de papéis, mas o treinamento por reforço (RL) pós-treinamento confiável para tais sistemas permanece difícil. Neste trabalho, identificamos teoricamente uma razão fundamental para a instabilidade do treinamento ao estender o RL baseado em grupo para sistemas de LLM multiagente. Mostramos que, sob a otimização no estilo GRPO, uma linha de base de normalização global pode se desviar das distribuições de recompensa de agentes diversos, o que acaba levando à instabilidade da norma do gradiente. Com base nesta descoberta, propomos o Dr. MAS, uma receita de treinamento de RL simples e estável para sistemas de LLM multiagente. O Dr. MAS usa um remédio por agente: normalizando as vantagens por agente usando as estatísticas de recompensa de cada agente, o que calibra as escalas de gradiente e estabiliza drasticamente o treinamento, tanto teoricamente quanto empiricamente. Além do algoritmo, o Dr. MAS fornece uma estrutura de treinamento de RL de ponta a ponta para sistemas de LLM multiagente, suportando orquestração escalável, configurações flexíveis de serviço e otimização de LLM por agente, e agendamento compartilhado de recursos de backends de atores de LLM. Avaliamos o Dr. MAS em benchmarks de raciocínio matemático multiagente e busca multi-turno usando os modelos das séries Qwen2.5 e Qwen3. O Dr. MAS alcança ganhos claros sobre o GRPO padrão (por exemplo, +5,6% avg@16 e +4,6% pass@16 em matemática, e +15,2% avg@16 e +13,1% pass@16 em busca) enquanto elimina amplamente os picos de gradiente. Além disso, mantém-se altamente eficaz sob atribuições heterogêneas de modelos de agente, melhorando a eficiência.
Estudamos a edição de imagens baseada em instruções sob fluxos de trabalho profissionais e identificamos três desafios persistentes: (i) os editores frequentemente excedem a edição, modificando conteúdos além da intenção do usuário; (ii) os modelos existentes são majoritariamente de turno único, enquanto edições multi-turno podem comprometer a fidelidade dos objetos; e (iii) a avaliação em resoluções próximas a 1K está desalinhada com fluxos de trabalho reais que frequentemente operam com imagens em ultra-alta definição (ex.: 4K). Propomos o Agent Banana, uma estrutura agêntica hierárquica planejadora-executora para edição deliberativa, consciente de objetos e de alta fidelidade. O Agent Banana introduz dois mecanismos-chave: (1) Context Folding, que comprime históricos longos de interação em memória estruturada para controle estável de longo horizonte; e (2) Image Layer Decomposition, que realiza edições localizadas baseadas em camadas para preservar regiões não-alvo enquanto permite saídas em resolução nativa. Para suportar avaliação rigorosa, construímos o HDD-Bench, um benchmark baseado em diálogo e em alta definição, com objetivos verificáveis passo a passo e imagens nativas 4K (11.8M pixels) para diagnosticar falhas de longo horizonte. No HDD-Bench, o Agent Banana alcança a melhor consistência multi-turno e fidelidade de fundo (ex.: IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) mantendo competitividade no seguimento de instruções, e também obtém forte desempenho em benchmarks padrão de edição de turno único. Esperamos que este trabalho avance a edição de imagens agêntica confiável de nível profissional e sua integração em fluxos de trabalho reais.
A escalabilidade de modelos de mundo controláveis por ações é limitada pela escassez de etiquetas de ação. Embora a aprendizagem de ações latentes prometa extrair interfaces de controle de vídeos não anotados, os latentes aprendidos frequentemente falham na transferência entre contextos: eles entrelaçam pistas específicas da cena e carecem de um sistema de coordenadas compartilhado. Isso ocorre porque os objetivos padrão operam apenas dentro de cada clipe, não fornecendo nenhum mecanismo para alinhar a semântica das ações entre contextos. Nossa principal perceção é que, embora as ações não sejam observadas, os seus efeitos semânticos são observáveis e podem servir como uma referência compartilhada. Introduzimos o SeqΔ-REPA, um objetivo de alinhamento de controlo-efeito a nível de sequência que ancora a ação latente integrada a diferenças de características temporais de um codificador de vídeo auto supervisionado e congelado. Com base nisto, apresentamos o Olaf-World, um *pipeline* que pré-treina modelos de mundo de vídeo condicionados por ação a partir de vídeo passivo em larga escala. Experimentos extensivos demonstram que o nosso método aprende um espaço de ação latente mais estruturado, resultando numa transferência de ação *zero-shot* mais robusta e numa adaptação mais eficiente em termos de dados a novas interfaces de controlo do que os métodos state-of-the-art de comparação.
Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados no desenvolvimento de software, mas a sua tendência para gerar código inseguro continua a ser uma grande barreira à implementação no mundo real. Os métodos existentes de alinhamento de código seguro sofrem frequentemente de um paradoxo funcionalidade-segurança, melhorando a segurança à custa de uma degradação substancial da utilidade. Propomos o SecCoderX, uma estrutura de aprendizagem por reforço online para a geração de código seguro que preserva a funcionalidade. O SecCoderX começa por estabelecer uma ponte entre a deteção de vulnerabilidades e a geração de código seguro, reutilizando recursos de deteção maduros de duas formas: (i) sintetizando tarefas de codificação diversificadas e fundamentadas na realidade que induzem vulnerabilidades para rollouts de RL online, e (ii) treinando um modelo de recompensa de vulnerabilidade baseado em raciocínio que fornece uma supervisão de segurança escalável e fiável. Em conjunto, estes componentes são unificados num ciclo de RL online para alinhar os LLMs de código de modo a gerarem código seguro e funcional. Experiências extensivas demonstram que o SecCoderX alcança um desempenho state-of-the-art, melhorando a Taxa de Segurança Efetiva (ESR) em aproximadamente 10% em relação a modelos não alinhados, enquanto os métodos anteriores degradam frequentemente a ESR em 14-54%. Disponibilizamos o nosso código, conjunto de dados e checkpoints do modelo em https://github.com/AndrewWTY/SecCoderX.
A geração de vídeo autoregressiva permite a síntese de vídeos longos através do condicionamento iterativo de cada novo lote de frames em conteúdo previamente gerado. No entanto, trabalhos recentes demonstraram que tais arquiteturas sofrem com um severo *drift* temporal, onde erros se acumulam e se amplificam ao longo de horizontes longos. Nossa hipótese é que este *drift* não se origina principalmente de uma capacidade insuficiente do modelo, mas sim da propagação de erros no momento da inferência. Especificamente, defendemos que o *drift* surge da reutilização não controlada de *tokens* latentes de condicionamento corrompidos durante a inferência autoregressiva. Para corrigir essa acumulação de erros, propomos um método simples, aplicado durante a inferência, que mitiga o *drift* temporal através da identificação e remoção de *tokens* latentes instáveis antes que sejam reutilizados para condicionamento. Para este fim, definimos *tokens* instáveis como aqueles cujas representações se desviam significativamente das do lote gerado anteriormente, indicando potencial corrupção ou *drift* semântico. Ao remover explicitamente os *tokens* latentes corrompidos do contexto autoregressivo, em vez de modificar regiões espaciais inteiras ou parâmetros do modelo, nosso método impede que informações latentes não confiáveis influenciem etapas futuras de geração. Como resultado, ele melhora significativamente a consistência temporal em horizontes longos sem modificar a arquitetura do modelo, o procedimento de treinamento ou sair do espaço latente.
A transformação de um grande modelo de linguagem (LLM) num modelo de visão e linguagem (VLM) pode ser alcançada mapeando os *tokens* visuais de um codificador de visão para o espaço de incorporação de um LLM. Curiosamente, este mapeamento pode ser tão simples como uma transformação por uma MLP superficial. Para compreender por que os LLMs conseguem processar tão facilmente *tokens* visuais, precisamos de métodos de interpretabilidade que revelem o que está codificado nas representações dos *tokens* visuais em cada camada do processamento do LLM. Neste trabalho, introduzimos o LatentLens, uma nova abordagem para mapear representações latentes para descrições em linguagem natural. O LatentLens funciona codificando um grande corpus de texto e armazenando as representações contextualizadas de cada *token* nesse corpus. As representações dos *tokens* visuais são então comparadas com as suas representações textuais contextualizadas, sendo que as representações dos k-vizinhos-mais-próximos fornecem descrições do *token* visual. Avaliamos este método em 10 VLMs diferentes, demonstrando que métodos comumente usados, como o LogitLens, subestimam substancialmente a interpretabilidade dos *tokens* visuais. Com o LatentLens, pelo contrário, a maioria dos *tokens* visuais é interpretável em todos os modelos estudados e em todas as camadas. Qualitativamente, mostramos que as descrições produzidas pelo LatentLens são semanticamente significativas e fornecem interpretações mais refinadas para os humanos em comparação com *tokens* individuais. De forma mais ampla, as nossas descobertas contribuem com novas evidências sobre o alinhamento entre as representações de visão e linguagem, abrindo novas direções para a análise de representações latentes.
A pré-treinamento de políticas Visão-Linguagem-Ação (VLA) em vídeos de escala da internet é atraente, no entanto, os objetivos atuais de ação latente frequentemente aprendem o conceito errado: eles permanecem ancorados à variação de pixels em vez de transições de estado relevantes para a ação, tornando-os vulneráveis a viés de aparência, movimento de fundo irrelevante e vazamento de informação. Apresentamos o VLA-JEPA, uma estrutura de pré-treinamento no estilo JEPA que evita essas armadilhas por design. A ideia central é a previsão de estado livre de vazamento: um codificador alvo produz representações latentes a partir de quadros futuros, enquanto o caminho do estudante vê apenas a observação atual – a informação futura é usada apenas como supervisão de destino, nunca como entrada. Ao prever no espaço latente em vez do espaço de pixels, o VLA-JEPA apreende abstrações de dinâmica que são robustas ao movimento da câmera e a mudanças irrelevantes no fundo. Isso resulta em uma receita simples de dois estágios – pré-treinamento JEPA seguido de ajuste fino do cabeçalho de ação – sem a complexidade multiestágio dos *pipelines* de ação latente anteriores. Experimentos no LIBERO, LIBERO-Plus, SimplerEnv e em tarefas de manipulação do mundo real mostram que o VLA-JEPA alcança ganhos consistentes em generalização e robustez em relação aos métodos existentes.
Os modelos Visão-Linguagem-Ação (VLA) surgiram como um paradigma promissor para o controle robótico de propósito geral, com a escalagem em tempo de teste (TTS) a ganhar atenção para melhorar a robustez para além do treino. No entanto, os métodos TTS existentes para VLAs requerem treino adicional, verificadores e múltiplas passagens diretas, tornando-os impraticáveis para implantação. Além disso, eles intervêm apenas na descodificação da ação, mantendo as representações visuais fixas – uma abordagem insuficiente sob ambiguidade perceptual, onde reconsiderar como perceber é tão importante quanto decidir o que fazer. Para superar estas limitações, propomos o SCALE, uma estratégia de inferência simples que modula conjuntamente a perceção visual e a ação com base na "autoincerteza", inspirada na exploração orientada pela incerteza na teoria da Inferência Ativa – sem exigir treino adicional, sem verificador e apenas uma única passagem direta. O SCALE amplia a exploração tanto na perceção como na ação sob alta incerteza, enquanto se concentra na exploração quando confiante – permitindo uma execução adaptativa em diversas condições. Experiências em *benchmarks* simulados e do mundo real demonstram que o SCALE melhora os VLAs de última geração e supera os métodos TTS existentes, mantendo a eficiência de passagem única.
Estudos recentes têm explorado modelos autorregressivos para geração de imagens, com resultados promissores, e combinaram modelos de difusão com estruturas autorregressivas para otimizar a geração de imagens através de perdas de difusão. Neste estudo, apresentamos uma análise teórica de modelos de difusão e autorregressivos com perda de difusão, destacando as vantagens destes últimos. Apresentamos uma comparação teórica entre difusão condicional e difusão autorregressiva com perda de difusão, demonstrando que a otimização por desruídos de patches em modelos autorregressivos mitiga efetivamente os erros de condição e conduz a uma distribuição de condição estável. Nossa análise também revela que a geração de condição autorregressiva refina a condição, fazendo com que a influência do erro de condição decaia exponencialmente. Além disso, introduzimos uma nova abordagem de refinamento de condição baseada na teoria do Transporte Ótimo (TO) para abordar a "inconsistência de condição". Demonstramos teoricamente que a formulação do refinamento de condição como um Fluxo Gradiente de Wasserstein garante a convergência para a distribuição de condição ideal, mitigando efetivamente a inconsistência de condição. Experimentos demonstram a superioridade do nosso método em relação a modelos de difusão e autorregressivos com métodos de perda de difusão.
Os Grandes Modelos de Linguagem (LLMs) têm demonstrado potencial na resolução de problemas matemáticos complexos, mas ainda ficam aquém de produzir soluções precisas e consistentes. O Aprendizado por Reforço (RL) é uma estrutura para alinhar esses modelos com recompensas específicas da tarefa, melhorando a qualidade geral e a confiabilidade. A Otimização de Política Relativa ao Grupo (GRPO) é uma alternativa eficiente e livre de função de valor à Otimização de Política Proximal (PPO) que aproveita a normalização de recompensa relativa ao grupo. Introduzimos a Otimização de Política Relativa ao Grupo Iterativa (iGRPO), uma extensão em dois estágios da GRPO que adiciona o autocondicionamento dinâmico por meio de rascunhos gerados pelo modelo. No Estágio 1, a iGRPO amostra múltiplos rascunhos exploratórios e seleciona o rascunho de maior recompensa usando o mesmo sinal de recompensa escalar usado para a otimização. No Estágio 2, ela anexa este melhor rascunho ao prompt original e aplica uma atualização no estilo GRPO em refinamentos condicionados ao rascunho, treinando a política para melhorar além de sua tentativa prévia mais forte. Com orçamentos de rollout equivalentes, a iGRPO supera consistentemente a GRPO em modelos base (por exemplo, Nemotron-H-8B-Base-8K e DeepSeek-R1 Distilled), validando sua eficácia em diversos benchmarks de raciocínio. Além disso, aplicar a iGRPO ao OpenReasoning-Nemotron-7B treinado no AceReason-Math atinge novos resultados state-of-the-art de 85,62% e 79,64% no AIME24 e AIME25, respectivamente. Ablações mostram ainda que o wrapper de refinamento generaliza-se para além das variantes da GRPO, beneficia-se de um juiz generativo e altera a dinâmica de aprendizado ao retardar o colapso da entropia. Esses resultados ressaltam o potencial do RL iterativo baseado em autorretroalimentação para avançar o raciocínio matemático verificável.
Dotar agentes corporificados com a capacidade de raciocinar sobre tarefas, prever resultados físicos e gerar ações precisas é essencial para a manipulação de propósito geral. Embora os modelos recentes de Visão-Linguagem-Ação (VLA) tenham aproveitado modelos de base pré-treinados, eles geralmente se concentram no planeamento linguístico ou na previsão visual de forma isolada. Estes métodos raramente integram ambas as capacidades simultaneamente para orientar a geração de ações, resultando num desempenho abaixo do ideal em tarefas de manipulação complexas e de longo horizonte. Para colmatar esta lacuna, propomos o BagelVLA, um modelo unificado que integra planeamento linguístico, previsão visual e geração de ações numa única estrutura. Inicializado a partir de um modelo unificado de compreensão e geração pré-treinado, o BagelVLA é treinado para intercalar o raciocínio textual e a previsão visual diretamente no ciclo de execução de ações. Para acoplar estas modalidades de forma eficiente, introduzimos a Orientação por Fluxo Residual (RFG), que parte da observação atual e aproveita a eliminação de ruído em passo único para extrair características visuais preditivas, orientando a geração de ações com latência mínima. Experiências extensivas demonstram que o BagelVLA supera as bases de comparação existentes por uma margem significativa em múltiplos benchmarks simulados e do mundo real, particularmente em tarefas que exigem raciocínio em múltiplos estágios.
A formação de modelos agentes para tarefas baseadas em terminal depende criticamente de trajectórias de terminal de alta qualidade que capturem interacções realistas de longo horizonte em diversos domínios. No entanto, a construção destes dados em escala permanece um desafio devido a dois requisitos fundamentais: \emph{Executabilidade}, uma vez que cada instância requer um ambiente Docker adequado e frequentemente distinto; e \emph{Verificabilidade}, porque os resultados heterogéneos das tarefas impedem uma verificação unificada e padronizada. Para enfrentar estes desafios, propomos o TerminalTraj, um pipeline escalável que (i) filtra repositórios de alta qualidade para construir ambientes de execução Dockerizados, (ii) gera instâncias de tarefas alinhadas com Docker, e (iii) sintetiza trajectórias de agente com código de validação executável. Utilizando o TerminalTraj, reunimos 32K imagens Docker e gerámos 50.733 trajectórias de terminal verificadas em oito domínios. Os modelos treinados com estes dados usando a arquitetura Qwen2.5-Coder alcançam melhorias de desempenho consistentes no TerminalBench (TB), com ganhos de até 20\% no TB~1.0 e 10\% no TB~2.0 em relação às suas arquiteturas base. Notavelmente, o TerminalTraj-32B atinge um desempenho robusto entre modelos com menos de 100B de parâmetros, alcançando 35,30\% no TB~1.0 e 22,00\% no TB~2.0, e demonstra um comportamento de escalagem melhorado em tempo de teste. Todo o código e dados estão disponíveis em https://github.com/Wusiwei0410/TerminalTraj.
Aprender conhecimento transferível a partir de dados de vídeo não rotulados e aplicá-lo em novos ambientes é uma capacidade fundamental de agentes inteligentes. Este trabalho apresenta o VideoWorld 2, que estende o VideoWorld e oferece a primeira investigação sobre a aprendizagem de conhecimento transferível diretamente de vídeos brutos do mundo real. Em sua essência, o VideoWorld 2 introduz um Modelo de Dinâmica Latente com Aprimoramento Dinâmico (dLDM) que desacopla a dinâmica da ação da aparência visual: um modelo de difusão de vídeo pré-treinado trata da modelagem da aparência visual, permitindo que o dLDM aprenda códigos latentes que se concentram em dinâmicas compactas e significativas relacionadas à tarefa. Esses códigos latentes são então modelados de forma autorregressiva para aprender políticas de tarefas e apoiar o raciocínio de longo prazo. Avaliamos o VideoWorld 2 em tarefas desafiadoras de fabricação artesanal do mundo real, onde modelos anteriores de geração de vídeo e de dinâmica latente lutam para operar com confiabilidade. Notavelmente, o VideoWorld 2 alcança uma melhoria de até 70% na taxa de sucesso da tarefa e produz vídeos de execução longa coerentes. Na robótica, mostramos que o VideoWorld 2 pode adquirir conhecimento de manipulação eficaz a partir do conjunto de dados Open-X, o que melhora substancialmente o desempenho da tarefa no CALVIN. Este estudo revela o potencial de aprender conhecimento mundial transferível diretamente de vídeos brutos, com todo o código, dados e modelos sendo disponibilizados como código aberto para pesquisas futuras.
Conjuntos de dados de alta qualidade e abertos continuam sendo um grande gargalo para o *fine-tuning* de texto para imagem (T2I). Apesar do rápido progresso nas arquiteturas de modelo e *pipelines* de treinamento, a maioria dos conjuntos de dados de *fine-tuning* disponíveis publicamente sofre com baixa resolução, baixo alinhamento texto-imagem ou diversidade limitada, resultando numa clara diferença de desempenho entre os modelos abertos de pesquisa e os modelos de nível empresarial. Neste trabalho, apresentamos o Fine-T2I, um conjunto de dados em larga escala, de alta qualidade e totalmente aberto para *fine-tuning* de T2I. O Fine-T2I abrange 10 combinações de tarefas, 32 categorias de *prompts*, 11 estilos visuais e 5 modelos de *prompt*, e combina imagens sintéticas geradas por modelos modernos robustos com imagens reais criteriosamente selecionadas de fotógrafos profissionais. Todas as amostras são rigorosamente filtradas quanto ao alinhamento texto-imagem, fidelidade visual e qualidade do *prompt*, com mais de 95% dos candidatos iniciais removidos. O conjunto de dados final contém mais de 6 milhões de pares texto-imagem, ocupando cerca de 2 TB em disco, aproximando-se da escala dos conjuntos de dados de pré-treinamento, mantendo a qualidade de nível de *fine-tuning*. Num conjunto diversificado de modelos de difusão e autorregressivos pré-treinados, o *fine-tuning* com o Fine-T2I melhora consistentemente tanto a qualidade da geração quanto a aderência à instrução, conforme validado por avaliação humana, comparação visual e métricas automáticas. Disponibilizamos o Fine-T2I sob uma licença aberta para ajudar a reduzir a lacuna de dados no *fine-tuning* de T2I na comunidade aberta.
A formação de agentes generalistas capazes de se adaptarem a diversos cenários requer ambientes interativos para autoexploração. No entanto, ambientes interativos continuam criticamente escassos, e os métodos de síntese existentes sofrem de limitações significativas em relação à diversidade e escalabilidade ambiental. Para enfrentar esses desafios, apresentamos o ScaleEnv, uma estrutura que constrói ambientes totalmente interativos e tarefas verificáveis totalmente do zero. Especificamente, o ScaleEnv garante a confiabilidade do ambiente por meio de testes procedurais e assegura a completude e a solucionabilidade das tarefas através da expansão do grafo de dependência de ferramentas e da verificação de ações executáveis. Ao permitir que os agentes aprendam por meio da exploração dentro do ScaleEnv, demonstramos melhorias significativas de desempenho em benchmarks não vistos de uso de ferramentas de múltiplos turnos, como o τ²-Bench e o VitaBench, destacando fortes capacidades de generalização. Além disso, investigamos a relação entre o aumento do número de domínios e o desempenho de generalização do modelo, fornecendo evidências empíricas de que a escalonamento da diversidade ambiental é fundamental para um aprendizado robusto de agentes.
Neste trabalho, apresentamos o Covo-Audio, um LALM (Large Audio Language Model) de 7 mil milhões de parâmetros de ponta a ponta que processa diretamente entradas de áudio contínuo e gera saídas de áudio dentro de uma única arquitetura unificada. Através de um pré-treinamento em larga escala curado e de um pós-treinamento direcionado, o Covo-Audio atinge um desempenho state-of-the-art ou competitivo entre modelos de escala comparável em um amplo espectro de tarefas, incluindo modelagem fala-texto, diálogo falado, compreensão de fala, compreensão de áudio e interação vocal full-duplex. Avaliações extensivas demonstram que o modelo de base pré-treinado exibe fortes capacidades de compreensão fala-texto e de raciocínio semântico em múltiplos benchmarks, superando modelos open-source representativos de escala comparável. Além disso, o Covo-Audio-Chat, a variante orientada para diálogo, demonstra fortes habilidades conversacionais faladas, incluindo compreensão, raciocínio contextual, seguimento de instruções e geração de respostas contextualmente apropriadas e empáticas, validando a sua aplicabilidade em cenários reais de assistentes conversacionais. O Covo-Audio-Chat-FD, o modelo evoluído para full-duplex, atinge um desempenho substancialmente superior tanto nas capacidades de diálogo falado quanto nos comportamentos de interação full-duplex, demonstrando a sua competência em robustez prática. Para mitigar o alto custo de implantação de LALMs de ponta a ponta para sistemas conversacionais naturais, propomos uma estratégia de desacoplamento inteligência-altifalante que separa a inteligência de diálogo da renderização de voz, permitindo uma personalização flexível da voz com dados mínimos de texto-para-fala (TTS), preservando o desempenho do diálogo. No geral, os nossos resultados destacam o forte potencial dos modelos de escala 7B para integrar inteligência de áudio sofisticada com raciocínio semântico de alto nível e sugerem um caminho escalável para LALMs mais capazes e versáteis.
A coleta de dados do mundo real para agentes corporificados continua sendo dispendiosa e insegura, exigindo ambientes 3D escaláveis, realistas e prontos para simulador. No entanto, os sistemas existentes de geração de cenas frequentemente dependem de pipelines baseados em regras ou específicos para tarefas, resultando em artefatos e cenas fisicamente inválidas. Apresentamos o SAGE, uma estrutura agentiva que, dada uma tarefa corporificada especificada pelo usuário (por exemplo, "pegue uma tigela e coloque-a sobre a mesa"), compreende a intenção e gera automaticamente ambientes prontos para simulação em escala. O agente acopla múltiplos geradores para layout e composição de objetos a críticos que avaliam plausibilidade semântica, realismo visual e estabilidade física. Por meio de raciocínio iterativo e seleção adaptativa de ferramentas, ele autorrefina as cenas até atender à intenção do usuário e à validade física. Os ambientes resultantes são realistas, diversificados e diretamente implantáveis em simuladores modernos para treinamento de políticas. Políticas treinadas exclusivamente com esses dados exibem tendências claras de escalabilidade e generalizam para objetos e layouts não vistos, demonstrando a promessa do escalonamento orientado por simulação para IA corporificada. Código, demonstrações e o conjunto de dados SAGE-10k podem ser encontrados na página do projeto aqui: https://nvlabs.github.io/sage.
Os modelos de mundo visam compreender, lembrar e prever ambientes visuais dinâmicos, no entanto, ainda falta um benchmark unificado para avaliar suas habilidades fundamentais. Para preencher essa lacuna, apresentamos o MIND, o primeiro benchmark de domínio aberto, de ciclo fechado e revisitado para avaliar a consistência de memória e o controle de ação em modelos de mundo. O MIND contém 250 vídeos de alta qualidade em 1080p e 24 FPS, incluindo 100 clipes em primeira pessoa + 100 clipes em terceira pessoa sob um espaço de ação compartilhado e 25 + 25 clipes em diversos espaços de ação, abrangendo oito cenários distintos. Projetamos um framework de avaliação eficiente para medir duas habilidades centrais: consistência de memória e controle de ação, capturando estabilidade temporal e coerência contextual entre diferentes pontos de vista. Além disso, projetamos vários espaços de ação, incluindo diferentes velocidades de movimento do personagem e ângulos de rotação da câmera, para avaliar a capacidade de generalização de ação entre diferentes espaços de ação sob cenários compartilhados. Para facilitar futuras comparações de desempenho no MIND, introduzimos o MIND-World, uma nova linha de base interativa de Vídeo-para-Mundo. Experimentos extensivos demonstram a completude do MIND e revelam desafios-chave nos modelos de mundo atuais, incluindo a dificuldade de manter a consistência de memória de longo prazo e generalizar entre espaços de ação. Página do projeto: https://csu-jpg.github.io/MIND.github.io/
O paradigma predominante na aprendizagem robótica tenta generalizar entre ambientes, embodimentos e tarefas usando comandos de linguagem em tempo de execução. Uma tensão fundamental limita essa abordagem: a linguagem é frequentemente muito abstrata para orientar o entendimento físico concreto necessário para uma manipulação robusta. Neste trabalho, introduzimos Políticas Ancoradas em Contato (CAP), que substituem o condicionamento por linguagem por pontos de contato físico no espaço. Simultaneamente, estruturamos o CAP como uma biblioteca de modelos utilitários modulares, em vez de uma política generalista monolítica. Essa fatoração nos permite implementar um ciclo de iteração real-para-sim: construímos o EgoGym, um benchmark de simulação leve, para identificar rapidamente modos de falha e refinar nossos modelos e conjuntos de dados antes da implantação no mundo real. Mostramos que, ao condicionar por contato e iterar via simulação, o CAP generaliza para ambientes e embodimentos novos de imediato em três habilidades fundamentais de manipulação, usando apenas 23 horas de dados de demonstração, e supera grandes modelos de linguagem visual (VLA) state-of-the-art em avaliações zero-shot por 56%. Todos os checkpoints de modelo, base de código, hardware, simulação e conjuntos de dados serão de código aberto. Página do projeto: https://cap-policy.github.io/
Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam desafios significativos no processamento de contexto longo, incluindo custos computacionais quadráticos, esquecimento de informações e a fragmentação de contexto inerente à geração aumentada por recuperação (RAG). Propomos uma estrutura cognitivamente inspirada para inferência eficiente em contexto longo, baseada na compressão por blocos e na recuperação seletiva de memória, em vez de processar todos os tokens brutos. A estrutura segmenta entradas longas em blocos e codifica cada bloco em representações de memória compactadas usando um compressor aprendido. Um módulo de portão seleciona dinamicamente blocos de memória relevantes, que são então processados iterativamente por um módulo de raciocínio com uma memória de trabalho em evolução para resolver tarefas subsequentes. O compressor e o módulo de raciocínio são otimizados conjuntamente via aprendizado por reforço de ponta a ponta, enquanto o módulo de portão é treinado separadamente como um classificador. Resultados experimentais mostram que o método proposto alcança precisão competitiva em benchmarks de raciocínio multi-etapa, como o RULER-HQA, extrapola o comprimento de contexto de 7K para 1,75M de tokens e oferece um equilíbrio favorável entre precisão e eficiência em comparação com fortes baselines de contexto longo. Em particular, alcança uma redução de até 2 vezes no uso de memória GPU de pico e uma aceleração de inferência 6 vezes maior em relação ao MemAgent.
A razão de cadeia de pensamento (CoT) e suas variantes melhoraram substancialmente o desempenho de modelos de linguagem em tarefas de raciocínio complexo; no entanto, os mecanismos precisos pelos quais diferentes estratégias facilitam a generalização permanecem pouco compreendidos. Embora as explicações atuais frequentemente apontem para o aumento da computação em tempo de teste ou para orientação estrutural, estabelecer uma ligação consistente e quantificável entre esses fatores e a generalização continua a ser um desafio. Neste trabalho, identificamos a dimensionalidade intrínseca como uma medida quantitativa para caracterizar a eficácia das cadeias de raciocínio. A dimensionalidade intrínseca quantifica o número mínimo de dimensões do modelo necessárias para atingir um determinado limiar de precisão numa dada tarefa. Mantendo a arquitetura do modelo fixa e variando a formulação da tarefa através de diferentes estratégias de raciocínio, demonstramos que estratégias de raciocínio eficazes reduzem consistentemente a dimensionalidade intrínseca da tarefa. Validando isto no GSM8K com os modelos Gemma-3 1B e 4B, observamos uma forte correlação inversa entre a dimensionalidade intrínseca de uma estratégia de raciocínio e o seu desempenho de generalização em dados dentro e fora da distribuição. As nossas descobertas sugerem que as cadeias de raciocínio eficazes facilitam a aprendizagem ao comprimir melhor a tarefa usando menos parâmetros, oferecendo uma nova métrica quantitativa para analisar processos de raciocínio.
A orientação por ativação (activation steering) emergiu como uma abordagem promissora para adaptar eficientemente grandes modelos de linguagem (LLMs) a comportamentos específicos de tarefas. No entanto, a maioria dos métodos de orientação existentes depende de uma única direção estática por tarefa ou conceito, tornando-os inflexíveis sob variação de tarefas e inadequados para tarefas complexas que exigem múltiplas capacidades coordenadas. Para superar esta limitação, propomos o STEER2ADAPT, um framework leve que adapta LLMs compondo vetores de orientação em vez de aprender novos do zero. Em muitos domínios (por exemplo, raciocínio ou segurança), as tarefas compartilham um pequeno conjunto de dimensões conceituais subjacentes. O STEER2ADAPT captura essas dimensões como um subespaço semântico prévio, reutilizável e de baixa dimensionalidade, e adapta-se a novas tarefas descobrindo dinamicamente uma combinação linear de vetores de base a partir de apenas um punhado de exemplos. Experimentos em 9 tarefas e 3 modelos, tanto em domínios de raciocínio quanto de segurança, demonstram a eficácia do STEER2ADAPT, alcançando uma melhoria média de 8,2%. Análises extensivas mostram ainda que o STEER2ADAPT é um método de adaptação em tempo de inferência eficiente em dados, estável e transparente para LLMs.
Os transformadores de difusão normalmente incorporam informações textuais através de camadas de atenção e um mecanismo de modulação usando uma incorporação de texto agregada. No entanto, abordagens recentes descartam o condicionamento textual baseado em modulação e dependem exclusivamente da atenção. Neste artigo, investigamos se o condicionamento textual baseado em modulação é necessário e se pode oferecer alguma vantagem de desempenho. Nossa análise mostra que, em seu uso convencional, a incorporação agregada contribui pouco para o desempenho geral, sugerindo que a atenção por si só geralmente é suficiente para propagar fielmente as informações do prompt. No entanto, revelamos que a incorporação agregada pode fornecer ganhos significativos quando usada de uma perspectiva diferente - servindo como orientação e permitindo deslocamentos controláveis em direção a propriedades mais desejáveis. Esta abordagem não requer treinamento, é simples de implementar, incorre em sobrecarga computacional insignificante e pode ser aplicada a vários modelos de difusão, trazendo melhorias em diversas tarefas, incluindo geração texto-para-imagem/vídeo e edição de imagem.
Este artigo desafia a dominância dos pipelines contínuos na geração visual. Investigamos sistematicamente a diferença de desempenho entre métodos discretos e contínuos. Contrariamente à crença de que os tokenizadores discretos são intrinsecamente inferiores, demonstramos que a disparidade surge principalmente do número total de bits alocados no espaço latente (ou seja, da taxa de compressão). Mostramos que aumentar a escala do tamanho do codebook (livro de códigos) preenche efetivamente essa lacuna, permitindo que tokenizadores discretos igualem ou superem seus equivalentes contínuos. No entanto, os métodos de geração discreta existentes lutam para capitalizar esse insight, sofrendo com degradação de desempenho ou custos proibitivos de treinamento com o codebook escalado. Para resolver isso, propomos o *masked Bit AutoRegressive modeling* (BAR), uma estrutura escalável que suporta tamanhos de codebook arbitrários. Ao equipar um transformer autorregressivo com um cabeçalho de modelagem mascarada de bits, o BAR prevê tokens discretos gerando progressivamente seus bits constituintes. O BAR alcança um novo estado da arte com gFID de 0,99 no ImageNet-256, superando os principais métodos em ambos os paradigmas, contínuo e discreto, enquanto reduz significativamente os custos de amostragem e converge mais rapidamente do que as abordagens contínuas anteriores. A página do projeto está disponível em https://bar-gen.github.io/.
A ausência de estado (*statelessness*) dos modelos de base constitui um gargalo para a capacidade dos sistemas agentivos de aprenderem continuamente, uma capacidade fundamental para o raciocínio e adaptação de longo prazo. Para superar esta limitação, os sistemas agentivos incorporam frequentemente módulos de memória para reter e reutilizar experiências passadas, visando a aprendizagem contínua durante o tempo de teste. No entanto, a maioria dos projetos de memória existentes são definidos manualmente e fixos, o que limita a sua capacidade de se adaptarem à diversidade e não estacionariedade das tarefas do mundo real. Neste artigo, introduzimos a ALMA (*Automated meta-Learning of Memory designs for Agentic systems*), uma estrutura que meta-aprende projetos de memória para substituir os projetos manuais, minimizando assim o esforço humano e permitindo que os sistemas agentivos se tornem aprendizes contínuos em diversos domínios. A nossa abordagem emprega um Meta-Agente que pesquisa projetos de memória expressos como código executável de forma aberta, permitindo teoricamente a descoberta de projetos de memória arbitrários, incluindo esquemas de base de dados, bem como os seus mecanismos de recuperação e atualização. Experiências extensas em quatro domínios de tomada de decisão sequencial demonstram que os projetos de memória aprendidos permitem uma aprendizagem mais eficaz e eficiente a partir da experiência do que os projetos de memória manuais mais avançados em todos os benchmarks. Quando desenvolvida e implementada com segurança, a ALMA representa um passo em direção a sistemas de IA que se autoaprimoram, aprendendo a ser aprendizes adaptativos e contínuos.
A escalabilidade eficiente da automação de interface gráfica (GUI) é essencial para agentes de uso computacional (CUAs); no entanto, os trabalhos existentes focam-se principalmente na escalabilidade da ancoragem da GUI, e não no planeamento da GUI, que é mais crucial e exige uma recolha de dados mais sofisticada. Na realidade, o processo de exploração de um CUA através de aplicações/ambientes de trabalho/páginas web segue tipicamente uma estrutura em árvore, em que os pontos de entrada funcionais mais iniciais são geralmente explorados com maior frequência. Assim, organizar trajetórias de grande escala em estruturas arbóreas pode reduzir o custo dos dados e otimizar a escalabilidade de dados para o planeamento da GUI. Neste trabalho, propomos o TreeCUA para escalar eficientemente a automação de GUI com evolução verificável estruturada em árvore. Propomos uma estrutura colaborativa multiagente para explorar o ambiente, verificar ações, resumir trajetórias e avaliar a qualidade, a fim de gerar trajetórias de GUI escaláveis e de alta qualidade. Para melhorar a eficiência, concebemos uma nova topologia baseada em árvore para armazenar e reproduzir nós de exploração duplicados, e projetamos um algoritmo de exploração adaptativa para equilibrar a profundidade (ou seja, a dificuldade da trajetória) e a amplitude (ou seja, a diversidade da trajetória). Além disso, desenvolvemos orientação por conhecimento do mundo e retrocesso com memória global para evitar geração de baixa qualidade. Finalmente, estendemos naturalmente e propomos o método TreeCUA-DPO a partir da abundante informação dos nós da árvore, melhorando a capacidade de planeamento da GUI ao referenciar a informação dos ramos de trajetórias adjacentes. Os resultados experimentais mostram que o TreeCUA e o TreeCUA-DPO oferecem melhorias significativas, e estudos fora do domínio (OOD) demonstram ainda uma forte generalização. Toda a informação dos nós das trajetórias e o código estarão disponíveis em https://github.com/UITron-hub/TreeCUA.
O planeamento tornou-se uma capacidade central para os sistemas de agentes contemporâneos na navegação de tarefas complexas e de longo prazo. No entanto, as abordagens existentes dependem predominantemente de estruturas de planeamento fixas e artesanais que carecem da flexibilidade necessária para se adaptarem à diversidade estrutural de problemas abertos. Para superar esta limitação, introduzimos o TodoEvolve, um paradigma de metaplaneamento que sintetiza de forma autónoma e revê dinamicamente arquiteturas de planeamento específicas para cada tarefa. Especificamente, construímos primeiro a PlanFactory, um espaço de design modular que padroniza diversos paradigmas de planeamento dentro de uma base de código unificada, abrangendo topologia, inicialização, adaptação e navegação, fornecendo assim uma interface comum para padrões de planeamento heterogéneos. Aproveitando a PlanFactory, recolhemos trajetórias de planeamento de alta qualidade e treinamos o Todo-14B através da Otimização de Preferência Guiada por Impedância (IGPO), um objetivo de aprendizagem por reforço multiobjetivo que incentiva a geração de sistemas de planeamento que sejam performantes, estáveis e eficientes em termos de *tokens* em tarefas arbitrárias e *backbones* de agentes. Avaliações empíricas em cinco *benchmarks* de agentes demonstram que o TodoEvolve supera consistentemente módulos de planeamento cuidadosamente elaborados, mantendo custos de API económicos e sobrecarga de tempo de execução reduzida.
O aprendizado por reforço melhora substancialmente o raciocínio em modelos de linguagem de grande porte, mas também tende a alongar as cadeias de pensamento e aumentar o custo computacional durante o treinamento e a inferência. Embora métodos de controle de comprimento tenham sido propostos, ainda não está claro qual é o comprimento ideal de saída para equilibrar eficiência e desempenho. Neste trabalho, comparamos vários métodos de controle de comprimento em dois modelos, Qwen3-1.7B Base e DeepSeek-R1-Distill-Qwen-1.5B. Nossos resultados indicam que penalidades de comprimento podem prejudicar a aquisição de raciocínio, enquanto um controle de comprimento adequadamente ajustado pode melhorar a eficiência para modelos com forte capacidade de raciocínio prévia. Ao estender trabalhos anteriores para políticas treinadas por RL, identificamos dois modos de falha: 1) saídas longas aumentam a dispersão, e 2) saídas curtas levam ao sub-raciocínio.
O pensamento paralelo emergiu como um novo paradigma para grandes modelos de raciocínio (LRMs) na resolução de problemas complexos. Métodos recentes utilizam Aprendizagem por Reforço (RL) para aprimorar o pensamento paralelo, visando superar as limitações de recursos computacionais e eficácia encontradas com o ajuste fino supervisionado. No entanto, a maioria dos estudos existentes concentra-se principalmente na otimização da fase de agregação, com atenção limitada ao estágio de exploração de caminhos. Neste artigo, analisamos teoricamente a otimização do pensamento paralelo no contexto de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR), e identificamos que o gargalo de informação mútua entre os caminhos de exploração restringe fundamentalmente o desempenho geral. Para resolver isso, propomos a Exploração de Caminhos Guiada por Esboço (OPE), que particiona explicitamente o espaço de soluções através da geração de esboços de raciocínio diversos antes do raciocínio paralelo de caminhos, reduzindo assim a redundância de informação e melhorando a diversidade de informação capturada entre os caminhos de exploração. Implementamos a OPE com uma estratégia iterativa de RL que otimiza o planeamento de esboços e o raciocínio guiado por esboço de forma independente. Extensos experimentos em múltiplos benchmarks matemáticos desafiadores demonstram que a OPE melhora efetivamente o desempenho do raciocínio em diferentes estratégias de agregação, permitindo que os LRMs descubram soluções corretas de forma mais confiável.
A simulação tornou-se uma ferramenta fundamental para treinar e avaliar robôs domésticos em escala, no entanto, os ambientes existentes não conseguem capturar a diversidade e a complexidade física dos espaços interiores reais. Os métodos atuais de síntese de cenas produzem salas escassamente mobiliadas que carecem da desordem densa, dos móveis articulados e das propriedades físicas essenciais para a manipulação robótica. Apresentamos o SceneSmith, uma estrutura agentiva hierárquica que gera ambientes interiores prontos para simulação a partir de comandos em linguagem natural. O SceneSmith constrói cenas através de estágios sucessivos – desde o layout arquitetónico até à colocação de mobília e à população de pequenos objetos –, cada um implementado como uma interação entre agentes VLM: designer, crítico e orquestrador. A estrutura integra estreitamente a geração de *assets* através de síntese texto-para-3D para objetos estáticos, recuperação de conjuntos de dados para objetos articulados e estimativa de propriedades físicas. O SceneSmith gera 3 a 6 vezes mais objetos do que os métodos anteriores, com <2% de colisões entre objetos e 96% dos objetos permanecendo estáveis sob simulação física. Num estudo com 205 participantes, atinge taxas de vitória de 92% em realismo médio e 91% em fidelidade média ao comando face às *baselines*. Demonstramos ainda que estes ambientes podem ser usados num *pipeline* de ponta a ponta para avaliação automática de políticas robóticas.
Agentes de GUI de ponta a ponta para ambientes de desktop reais exigem grandes quantidades de dados de interação de alta qualidade. No entanto, a coleta de demonstrações humanas é dispendiosa e os pipelines sintéticos existentes frequentemente sofrem com diversidade limitada de tarefas ou trajetórias ruidosas e com desvio de objetivo. Apresentamos o Anchor, uma estrutura de expansão de trajetória que inicia a supervisão escalável de desktop a partir de um pequeno conjunto de demonstrações iniciais verificadas. A partir de cada semente, identificamos pontos de ramificação que correspondem a alterações de estado significativas e propomos novas variantes de tarefas fundamentadas no estado, condicionadas ao contexto atual da GUI. Um agente executor segue então as instruções propostas para gerar novas trajetórias, enquanto um verificador impõe a conclusão da tarefa por meio de verificações com consciência do estado e consistência a nível de trajetória. Para melhorar a qualidade da supervisão, aplicamos ainda uma filtragem a nível de etapa condicionada à tarefa para remover ações infundadas e removemos o ruído dos segmentos pós-ramificação para manter uma intenção coerente. Experimentos em benchmarks padrão de desktop, OSWorld e WindowsAgentArena, mostram que modelos ajustados com nosso corpus expandido alcançam melhorias consistentes em relação a agentes *zero-shot* e baselines de síntese representativos, e generalizam entre aplicações e sistemas operacionais.
Neste artigo, visamos estabelecer uma ponte entre o treinamento durante o teste e um novo tipo de memória paramétrica que pode ser flexivelmente descarregada ou fundida com os parâmetros do modelo. Apresentamos o Locas, uma memória paramétrica de Suporte Local que partilha a estrutura dos blocos FFN dos transformadores modernos, permitindo que seja flexivelmente permanentizada nos parâmetros do modelo, ao mesmo tempo que suporta uma aprendizagem contínua eficiente. Discutimos duas variantes principais do Locas: uma com um design convencional de MLP de duas camadas, que possui uma garantia teórica mais clara; e outra que partilha a mesma estrutura GLU-FFN com os LLMs de última geração, podendo ser facilmente acoplada a modelos existentes para uma aprendizagem contínua eficiente em termos de parâmetros e de computação. Crucialmente, demonstramos que uma inicialização adequada destas memórias de baixo rank, no estilo FFN lateral — realizada de forma fundamentada através da reutilização de parâmetros, ativações e/ou gradientes do modelo — é essencial para uma convergência rápida, uma generalização melhorada e a prevenção do esquecimento catastrófico. Validamos o mecanismo de memória proposto nas tarefas de modelagem de linguagem de livros inteiros PG-19 e de resposta a perguntas em diálogos de contexto longo LoCoMo. Com apenas 0,02% de parâmetros adicionais no caso mais reduzido, o Locas-GLU é capaz de armazenar informações do contexto anterior, mantendo uma janela de contexto muito menor. Adicionalmente, também testamos a perda de capacidade geral do modelo após memorizar um livro inteiro com o Locas, através de uma avaliação comparativa MMLU. Os resultados mostram a capacidade promissora do Locas em permanentizar o contexto passado em conhecimento paramétrico, com uma minimização do esquecimento catastrófico do conhecimento interno existente do modelo.
A descodificação por difusão paralela pode acelerar a inferência de modelos de linguagem de difusão ao desmascarar múltiplos tokens por passo, mas um paralelismo agressivo prejudica frequentemente a qualidade. A descodificação revogável mitiga isto ao reverificar tokens anteriores, contudo, observamos que os esquemas de verificação existentes desencadeiam frequentemente oscilações de "flip-flop", onde tokens são remascarados e posteriormente restaurados inalterados. Este comportamento atrasa a inferência de duas formas: remascarar posições verificadas enfraquece o contexto de condicionamento para o rascunho paralelo, e ciclos repetidos de remascaragem consomem o orçamento de revisão com pouco progresso líquido. Propomos o COVER (Verificação por Substituição de Cache para Revisão Eficiente), que realiza verificação "leave-one-out" e rascunho estável numa única passagem direta. O COVER constrói duas visões de atenção via substituição da cache KV: sementes selecionadas são mascaradas para verificação, enquanto os seus estados de chave-valor em cache são injetados para todas as outras consultas para preservar informação contextual, com uma correção diagonal de forma fechada a prevenir auto-fuga nas posições de semente. O COVER prioriza ainda as sementes usando uma pontuação consciente da estabilidade que equilibra incerteza, influência a jusante e deriva da cache, e adapta o número de sementes verificadas por passo. Em vários benchmarks, o COVER reduz marcadamente revisões desnecessárias e produz descodificação mais rápida, preservando a qualidade da saída.
A utilização de codificadores de representação para modelagem generativa oferece um caminho para síntese eficiente e de alta fidelidade. No entanto, os transformadores de difusão padrão não conseguem convergir diretamente nessas representações. Embora trabalhos recentes atribuam isso a um gargalo de capacidade, propondo o escalonamento computacionalmente caro da largura dos transformadores de difusão, demonstramos que a falha é fundamentalmente geométrica. Identificamos a Interferência Geométrica como a causa raiz: o fluxo euclidiano padrão força os caminhos de probabilidade através do interior de baixa densidade do espaço de características hipersféricas dos codificadores de representação, em vez de seguir a superfície da variedade. Para resolver isso, propomos o Emparelhamento de Fluxo Riemanniano com Regularização de Jacobi (RJF). Ao restringir o processo generativo às geodésicas da variedade e corrigir a propagação de erro induzida pela curvatura, o RJF permite que arquiteturas padrão de Transformadores de Difusão convirjam sem escalonamento de largura. Nosso método RJF permite que a arquitetura padrão DiT-B (131M de parâmetros) convirja efetivamente, alcançando um FID de 3.37, onde métodos anteriores falham em convergir. Código: https://github.com/amandpkr/RJF
A autocorreção é essencial para resolver problemas complexos de raciocínio em modelos de visão e linguagem (VLMs). No entanto, os métodos existentes de aprendizagem por reforço (RL) lutam para aprendê-la, uma vez que comportamentos eficazes de autocorreção emergem apenas raramente, tornando os sinais de aprendizagem extremamente esparsos. Para enfrentar este desafio, propomos *correction-specific rollouts* (Octopus), uma estrutura de aumento de rollouts de RL que sintetiza exemplos densos de autocorreção recombinando rollouts existentes. Esta ampliação melhora simultaneamente a eficiência da amostragem devido à reutilização de rollouts e estabiliza a otimização de RL por meio de supervisão equilibrada. Além disso, introduzimos uma estratégia de mascaramento de resposta que desacopla a autocorreção do raciocínio direto, evitando conflitos de sinal e permitindo que ambos os comportamentos sejam aprendidos de forma eficaz. Com base nisso, introduzimos o Octopus-8B, um VLM de raciocínio com capacidade controlável de autocorreção. Em 7 benchmarks, ele alcança desempenho SoTA entre os VLMs de código aberto, superando a melhor linha de base RLVR por 1,0 ponto, enquanto requer apenas 0,72 vezes o tempo de treinamento por etapa.
Agentes de IA equipados com capacidades de chamada de ferramentas são suscetíveis a ataques de Injeção Indireta de Prompt (IPI). Neste cenário de ataque, comandos maliciosos ocultos em conteúdos não confiáveis enganam o agente, levando-o a executar ações não autorizadas. As defesas existentes podem reduzir o sucesso do ataque, mas frequentemente sofrem do dilema da superdefesa: elas implementam uma sanitização custosa e sempre ativa, independentemente da ameaça real, degradando assim a utilidade e a latência mesmo em cenários benignos. Revisitamos a IPI através de uma perspectiva de ablação causal: uma injeção bem-sucedida manifesta-se como uma mudança de dominância, onde a solicitação do usuário deixa de fornecer suporte decisivo para a ação privilegiada do agente, enquanto um segmento não confiável específico, como um documento recuperado ou a saída de uma ferramenta, fornece uma influência atribuível desproporcional. Com base nesta assinatura, propomos o CausalArmor, uma estrutura de defesa seletiva que (i) calcula atribuições leves baseadas em ablação "leave-one-out" em pontos de decisão privilegiados, e (ii) aciona uma sanitização direcionada apenas quando um segmento não confiável domina a intenção do usuário. Adicionalmente, o CausalArmor empreme o mascaramento retroativo de Cadeia de Pensamento (Chain-of-Thought) para impedir que o agente aja com base em traços de raciocínio "envenenados". Apresentamos uma análise teórica que mostra que a sanitização baseada nas margens de atribuição condicionalmente produz um limite superior exponencialmente pequeno para a probabilidade de selecionar ações maliciosas. Experimentos no AgentDojo e no DoomArena demonstram que o CausalArmor iguala a segurança das defesas agressivas, ao mesmo tempo que melhora a explicabilidade e preserva a utilidade e a latência dos agentes de IA.
Os agentes de codificação baseados em LLM têm demonstrado um forte desempenho em benchmarks de resolução automatizada de problemas (*issues*), no entanto, as avaliações existentes concentram-se maioritariamente no sucesso final da tarefa, fornecendo uma visão limitada sobre como os agentes recuperam e utilizam o contexto do código durante a resolução de problemas. Apresentamos o ContextBench, uma avaliação orientada ao processo da recuperação de contexto em agentes de codificação. O ContextBench é composto por 1.136 tarefas de resolução de problemas, provenientes de 66 repositórios e abrangendo oito linguagens de programação, cada uma aumentada com contextos de ouro anotados manualmente. Implementamos ainda uma estrutura de avaliação automatizada que monitoriza as trajetórias dos agentes e mede a recuperação de contexto (*recall*), a precisão (*precision*) e a eficiência ao longo de toda a resolução do problema. Utilizando o ContextBench, avaliamos quatro LLMs de ponta e cinco agentes de codificação. Os nossos resultados mostram que a sofisticação da estrutura do agente (*sophisticated agent scaffolding*) produz apenas ganhos marginais na recuperação de contexto ("A Lição Amarga" dos agentes de codificação), que os LLMs privilegiam consistentemente a recuperação em detrimento da precisão, e que existem lacunas substanciais entre o contexto explorado e o contexto utilizado. O ContextBench complementa os benchmarks *end-to-end* existentes com métricas intermédias de contexto de ouro que permitem analisar o processo de resolução de problemas. Estes contextos oferecem sinais intermédios valiosos para orientar o raciocínio dos LLMs em tarefas de software.
Os métodos de decomposição de ativação em modelos de linguagem estão intimamente ligados a pressupostos geométricos sobre como os conceitos são realizados no espaço de ativação. As abordagens existentes buscam direções globais individuais, assumindo implicitamente a separabilidade linear, o que negligencia conceitos com estrutura não linear ou multidimensional. Neste trabalho, utilizamos Misturas de Analisadores Fatoriais (MFA) como uma alternativa escalável e não supervisionada que modela o espaço de ativação como uma coleção de regiões Gaussianas com sua estrutura de covariância local. O MFA decompõe as ativações em dois objetos geométricos composicionais: o centróide da região no espaço de ativação e a variação local em relação ao centróide. Treinamos MFAs em larga escala para os modelos Llama-3.1-8B e Gemma-2-2B e mostramos que eles capturam estruturas complexas e não lineares no espaço de ativação. Além disso, avaliações em benchmarks de localização e direcionamento mostram que o MFA supera as linhas de base não supervisionadas, é competitivo com métodos de localização supervisionados e frequentemente alcança desempenho de direcionamento superior ao dos autoencoders esparsos. Em conjunto, nossos resultados posicionam a geometria local, expressa por meio de subespaços, como uma unidade de análise promissora para a descoberta escalável de conceitos e o controle de modelos, levando em conta estruturas complexas que direções isoladas não conseguem capturar.
Embora o *flow matching* seja elegante, sua dependência de velocidades condicionais de amostra única leva a objetivos de treinamento de alta variância que desestabilizam a otimização e retardam a convergência. Ao caracterizar explicitamente essa variância, identificamos 1) um regime de alta variância próximo ao prior, onde a otimização é desafiadora, e 2) um regime de baixa variância próximo à distribuição de dados, onde as velocidades condicionais e marginais quase coincidem. Aproveitando essa percepção, propomos Stable Velocity, uma estrutura unificada que melhora tanto o treinamento quanto a amostragem. Para o treinamento, introduzimos Stable Velocity Matching (StableVM), um objetivo imparcial de redução de variância, juntamente com o Variance-Aware Representation Alignment (VA-REPA), que fortalece adaptativamente a supervisão auxiliar no regime de baixa variância. Para inferência, mostramos que as dinâmicas no regime de baixa variância admitem simplificações de forma fechada, permitindo a Stable Velocity Sampling (StableVS), uma aceleração sem *finetuning*. Experimentos extensos no ImageNet 256×256 e em grandes modelos pré-treinados de texto para imagem e texto para vídeo, incluindo SD3.5, Flux, Qwen-Image e Wan2.2, demonstram melhorias consistentes na eficiência do treinamento e amostragem mais de 2 vezes mais rápida dentro do regime de baixa variância, sem degradar a qualidade da amostra. Nosso código está disponível em https://github.com/linYDTHU/StableVelocity.
Os grandes modelos de linguagem (LLMs) estão sendo cada vez mais implantados em domínios de alto risco, onde falhas raras, porém graves, podem resultar em danos irreversíveis. No entanto, os *benchmarks* de avaliação predominantes frequentemente reduzem o risco social complexo a pontuações escalares centradas na média, obscurecendo assim a estrutura distributiva, as interações cruzadas entre dimensões e o comportamento no pior cenário. Este artigo apresenta a Análise de Dano Social via Perfis de Risco (SHARP), uma estrutura para avaliação multidimensional e consciente da distribuição de danos sociais. O SHARP modela o dano como uma variável aleatória multivariada e integra uma decomposição explícita em viés, justiça, ética e confiabilidade epistêmica com uma agregação de união de falhas reparametrizada como risco cumulativo logarítmico aditivo. A estrutura emprega ainda estatísticas distribucionais sensíveis ao risco, com o Valor Condicional em Risco (CVaR95) como métrica primária, para caracterizar o comportamento do modelo no pior caso. A aplicação do SHARP a onze LLMs de fronteira, avaliados em um *corpus* fixo de n=901 *prompts* socialmente sensíveis, revela que modelos com risco médio similar podem exibir diferenças superiores ao dobro na exposição e volatilidade da cauda da distribuição. Entre os modelos, o comportamento marginal da cauda varia sistematicamente entre as dimensões de dano, com o viés exibindo as severidades de cauda mais fortes, os riscos epistêmicos e de justiça ocupando regimes intermediários, e o desalinhamento ético consistentemente menor; em conjunto, esses padrões revelam estruturas de falha heterogêneas e dependentes do modelo que os *benchmarks* escalares agregam indevidamente. Essas descobertas indicam que a avaliação e a governança responsáveis dos LLMs exigem ir além das médias escalares em direção a um mapeamento de risco multidimensional e sensível à cauda da distribuição.
A injeção indireta de instruções (indirect prompt injection) ameaça os agentes de LLM ao incorporar comandos maliciosos em conteúdo externo, permitindo ações não autorizadas e roubo de dados. Os agentes de LLM mantêm memória de trabalho através da sua janela de contexto, que armazena o histórico de interações para a tomada de decisões. Os agentes convencionais acumulam indiscriminadamente todos os resultados de ferramentas e rastros de raciocínio nesta memória, criando duas vulnerabilidades críticas: (1) as instruções injetadas persistem durante todo o fluxo de trabalho, concedendo aos atacantes múltiplas oportunidades para manipular o comportamento, e (2) conteúdo verboso e não essencial degrada as capacidades de decisão. As defesas existentes tratam a memória inchada como um dado adquirido e focam em permanecer resilientes, em vez de reduzir o acúmulo desnecessário para prevenir o ataque. Apresentamos o AgentSys, uma estrutura que se defende contra a injeção indireta de instruções através de gestão explícita de memória. Inspirado pelo isolamento de memória de processos em sistemas operativos, o AgentSys organiza os agentes hierarquicamente: um agente principal cria agentes trabalhadores (workers) para chamadas de ferramentas, cada um executando num contexto isolado e podendo criar workers aninhados para subtarefas. Os dados externos e os rastros das subtarefas nunca entram na memória do agente principal; apenas valores de retorno validados por esquema podem cruzar os limites através de análise JSON determinística. Ablações mostram que o isolamento por si só reduz o sucesso do ataque para 2,19%, e adicionar um validador/sanitizador melhora ainda mais a defesa com verificações acionadas por eventos, cuja sobrecarga escala com as operações e não com o comprimento do contexto. No AgentDojo e no ASB, o AgentSys alcança 2,78% e 4,25% de sucesso de ataque, enquanto melhora ligeiramente a utilidade em cenários benignos em relação às linhas de base indefesas. Mantém-se robusto contra atacantes adaptativos e em vários modelos base, demonstrando que a gestão explícita de memória permite arquiteturas de agentes de LLM dinâmicas e seguras. O nosso código está disponível em: https://github.com/ruoyaow/agentsys-memory.
Os modelos generativos em tempo contínuo, como modelos de difusão, correspondência de fluxo e fluxo retificado, aprendem campos vetoriais dependentes do tempo, mas são tipicamente treinados com objetivos que tratam os intervalos de tempo de forma independente, resultando em alta variância do estimador e amostragem ineficiente. Abordagens anteriores mitigam isso por meio de penalidades de suavidade explícitas, regularização de trajetória ou modificação de caminhos de probabilidade e solvers. Introduzimos o Princípio de Consistência Temporal de Pares (TPC), um princípio leve de redução de variância que acopla previsões de velocidade em intervalos de tempo pareados ao longo do mesmo caminho de probabilidade, operando inteiramente no nível do estimador sem modificar a arquitetura do modelo, o caminho de probabilidade ou o solver. Apresentamos uma análise teórica demonstrando que o TPC induz uma regularização quadrática acoplada à trajetória que comprovadamente reduz a variância do gradiente enquanto preserva o objetivo subjacente de correspondência de fluxo. Instanciado dentro da correspondência de fluxo, o TPC melhora a qualidade e eficiência da amostragem no CIFAR-10 e ImageNet em múltiplas resoluções, alcançando FID mais baixo com custo computacional idêntico ou inferior aos métodos anteriores, e estende-se perfeitamente a pipelines modernos no estilo SOTA com treinamento aumentado por ruído, desruído baseado em pontuação e fluxo retificado.
Os Modelos de Visão e Linguagem (VLMs) alcançaram desempenho impressionante na compreensão multimodal entre entradas textuais e visuais, porém os benchmarks existentes concentram-se predominantemente em consultas de texto puro. Em cenários do mundo real, a linguagem também aparece frequentemente como texto visualizado incorporado em imagens, levantando a questão de saber se os VLMs atuais lidam com tais solicitações de entrada de forma comparável. Apresentamos o VISTA-Bench, um benchmark sistemático que abrange desde domínios de percepção multimodal e raciocínio até compreensão unimodal. Ele avalia a compreensão de texto visualizado contrastando questões de texto puro e texto visualizado sob condições controladas de renderização. Uma avaliação extensa de mais de 20 VLMs representativos revela uma lacuna de modalidade pronunciada: modelos que se saem bem em consultas de texto puro frequentemente apresentam degradação substancial quando conteúdo semântico equivalente é apresentado como texto visualizado. Essa lacuna é ainda amplificada pelo aumento da dificuldade perceptual, destacando a sensibilidade a variações de renderização apesar da semântica inalterada. No geral, o VISTA-Bench fornece uma estrutura de avaliação fundamentada para diagnosticar essa limitação e orientar o progresso em direção a representações de linguagem mais unificadas entre texto tokenizado e pixels. O conjunto de dados fonte está disponível em https://github.com/QingAnLiu/VISTA-Bench.
Executar LLMs com raciocínio estendido em todos os problemas é dispendioso, mas determinar quais entradas realmente requerem computação adicional permanece um desafio. Investigamos se a própria probabilidade de sucesso deles é recuperável a partir de suas representações internas antes da geração, e se este sinal pode orientar uma inferência mais eficiente. Treinamos sondas lineares nas ativações pré-geração para prever o sucesso específico da política em tarefas de matemática e codificação, superando substancialmente características superficiais, como o comprimento da pergunta e TF-IDF. Usando o E2H-AMC, que fornece desempenho humano e do modelo em problemas idênticos, mostramos que os modelos codificam uma noção de dificuldade específica do modelo que é distinta da dificuldade humana, e que essa distinção aumenta com o raciocínio estendido. Aproveitando essas sondas, demonstramos que o roteamento de consultas em um conjunto de modelos pode superar o modelo de melhor desempenho, reduzindo o custo de inferência em até 70% no MATH, mostrando que as representações internas permitem ganhos práticos de eficiência, mesmo quando divergem das intuições humanas sobre dificuldade. Nosso código está disponível em: https://github.com/KabakaWilliam/llms_know_difficulty
O Agrupamento de Grafos com Atributos (AGC) é uma tarefa fundamental não supervisionada que integra a topologia estrutural e os atributos dos nós para revelar padrões latentes em dados estruturados em grafos. Apesar de sua importância em aplicações industriais como detecção de fraudes e segmentação de usuários, um abismo significativo persiste entre a pesquisa acadêmica e a implantação no mundo real. Os protocolos de avaliação atuais sofrem com conjuntos de dados de citações de pequena escala e alta homofilia, paradigmas de treinamento em lote completo não escaláveis e uma dependência de métricas supervisionadas que não refletem o desempenho em ambientes com escassez de rótulos. Para preencher essas lacunas, apresentamos o PyAGC, uma biblioteca e benchmark abrangente e pronto para produção, projetado para testar rigorosamente métodos de AGC em diversas escalas e propriedades estruturais. Unificamos metodologias existentes em uma estrutura modular Codificar-Agrupamento-Otimizar e, pela primeira vez, fornecemos implementações eficientes em memória, com mini-lotes, para uma ampla gama de algoritmos state-of-the-art de AGC. Nosso benchmark reúne 12 conjuntos de dados diversos, variando de 2,7K a 111M de nós, incorporando especificamente grafos industriais com características tabulares complexas e baixa homofilia. Além disso, defendemos um protocolo de avaliação holístico que exige métricas estruturais não supervisionadas e análise de eficiência, juntamente com métricas supervisionadas tradicionais. Testado em fluxos de trabalho industriais de alto risco no Ant Group, este benchmark oferece à comunidade uma plataforma robusta, reproduzível e escalável para avançar a pesquisa em AGC em direção a uma implantação realista. O código e os recursos estão publicamente disponíveis via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) e Documentação (https://pyagc.readthedocs.io).
O treinamento em tempo de teste (TTT) adapta modelos de linguagem através de atualizações baseadas em gradiente durante a inferência. Mas será que a adaptação é a estratégia correta? Estudamos estratégias computacionalmente ótimas para tarefas de execução fundamentada e verificável (VEG), domínios como a otimização de *kernels* de GPU, onde um avaliador determinístico fornece sinais de recompensa densos e contínuos. Usando o KernelBench como nossa plataforma de teste e um modelo de 120B de parâmetros (GPT-OSS-120B com adaptação LoRA), descobrimos que a busca supera a adaptação mínima (1-5 passos de gradiente): a amostragem *Best-of-N* atinge 90% de sucesso na tarefa (18/20 tarefas) com K=64 em todo o conjunto de avaliação L1 do KernelBench, enquanto o melhor *checkpoint* do TTT atinge apenas 30,6% (média de 3 *seeds*), com o "K equivalente" do TTT ficando abaixo de 1, pior do que a inferência de amostra única. O modo de falha é o excesso de *sharpening*: as atualizações de gradiente colapsam a diversidade em direção a soluções medianas em vez de descobrir as ótimas. Nossa principal contribuição é a seleção guiada por surpresa: selecionar a amostra correta com maior surpresa (menor confiança) resulta em 80% de sucesso contra 50% para a seleção mais confiante, uma melhoria de 30%. Estendendo para os 3 principais guiados por surpresa, iguala-se o desempenho do *oráculo* em 100%. Esta estratégia de custo zero, validada através de análise controlada por comprimento, recupera o desempenho do *oráculo*. Para tarefas VEG com recompensa densa, o poder computacional deve ser alocado para a diversidade de amostras e seleção inteligente, em vez de adaptação por gradiente. O princípio de seleção guiada por surpresa pode generalizar-se para outros domínios de execução fundamentada onde as soluções ótimas ocupam a cauda da distribuição.
As implantações modernas exigem que os LLMs apliquem políticas de segurança em escala, mas muitos controles dependem de intervenções no momento da inferência, que adicionam custos recorrentes de computação e complexidade no serviço. A orientação por ativação é amplamente utilizada, mas requer *hooks* em tempo de execução e escala o custo com o número de gerações; variantes condicionais melhoram a seletividade ao controlar quando a orientação é aplicada, mas ainda mantêm um caminho de controle em tempo de inferência. Perguntamo-nos se a recusa seletiva pode ser movida inteiramente para *offline*: será que uma compreensão mecanicista da recusa específica por categoria pode ser destilada numa atualização de pesos restrita a circuitos que seja implantada como um *checkpoint* padrão? Propomos C-Δθ: Aritmética de Pesos com Restrição de Circuito, que (i) localiza a computação causal da recusa como um circuito esparso usando EAP-IG e (ii) calcula uma atualização de pesos restrita ΔθC suportada apenas nesse circuito (tipicamente <5% dos parâmetros). A aplicação de ΔθC produz um *checkpoint* editado de substituição direta, sem *hooks* em tempo de inferência, transferindo o custo da intervenção por solicitação para uma atualização única e offline. Avaliamos a seletividade direcionada por categoria e a retenção de capacidade em benchmarks de recusa e utilidade.
Com a implantação generalizada de Agentes de Uso de Computador (CUAs) em ambientes complexos do mundo real, os riscos prevalecentes de longo prazo frequentemente levam a consequências graves e irreversíveis. A maioria dos mecanismos de proteção existentes para CUAs adota uma abordagem reativa, restringindo o comportamento do agente apenas dentro do espaço de observação atual. Embora essas proteções possam prevenir riscos imediatos de curto prazo (por exemplo, clicar em um link de phishing), elas não podem evitar proativamente riscos de longo prazo: ações aparentemente razoáveis podem levar a consequências de alto risco que surgem com um atraso (por exemplo, limpar logs leva a futuras auditorias sendo intrastáveis), as quais as proteções reativas não conseguem identificar dentro do espaço de observação atual. Para lidar com essas limitações, propomos uma abordagem de proteção preditiva, com a ideia central de alinhar riscos futuros previstos com decisões atuais. Com base nessa abordagem, apresentamos o SafePred, uma estrutura de proteção preditiva para CUAs que estabelece um ciclo de risco-decisão para garantir um comportamento seguro do agente. O SafePred suporta duas habilidades principais: (1) Previsão de riscos de curto e longo prazo: ao usar políticas de segurança como base para a previsão de riscos, o SafePred aproveita a capacidade de previsão do modelo mundial para gerar representações semânticas de riscos de curto e longo prazo, identificando e podando assim ações que levam a estados de alto risco; (2) Otimização de decisão: traduzindo riscos previstos em orientações de decisão segura acionáveis por meio de intervenções a nível de passo e replanejamento a nível de tarefa. Experimentos extensivos mostram que o SafePred reduz significativamente comportamentos de alto risco, atingindo mais de 97,6% de desempenho de segurança e melhorando a utilidade da tarefa em até 21,4% em comparação com as linhas de base reativas.