Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Step 3.5 Flash, um modelo esparso de Mistura de Especialistas (MoE) que une inteligência agentiva de nível de fronteira e eficiência computacional. Focamos no que mais importa na construção de agentes: raciocínio aguçado e execução rápida e confiável. O Step 3.5 Flash combina uma base de 196 bilhões de parâmetros com apenas 11 bilhões de parâmetros ativos para inferência eficiente. Ele é otimizado com atenção intercalada de janela deslizante/global (3:1) e Predição Multi-Token (MTP-3) para reduzir a latência e o custo de interações agentivas multi-turno. Para atingir inteligência de nível de fronteira, projetamos uma estrutura escalável de aprendizado por reforço que combina sinais verificáveis com feedback de preferência, mantendo-se estável sob treinamento *off-policy* em larga escala, permitindo uma autoaprimoração consistente em matemática, código e uso de ferramentas. O Step 3.5 Flash demonstra desempenho sólido em tarefas de agente, codificação e matemática, alcançando 85,4% no IMO-AnswerBench, 86,4% no LiveCodeBench-v6 (2024.08-2025.05), 88,2% no tau2-Bench, 69,0% no BrowseComp (com gerenciamento de contexto) e 51,0% no Terminal-Bench 2.0, resultados comparáveis a modelos de fronteira como o GPT-5.2 xHigh e o Gemini 3.0 Pro. Ao redefinir a fronteira de eficiência, o Step 3.5 Flash fornece uma base de alta densidade para implantar agentes sofisticados em ambientes industriais do mundo real.
Estudos recentes adaptaram Modelos de Linguagem Multimodais Generativos (MLLMs) para atuarem como extratores de *embeddings* em tarefas de visão, geralmente por meio de *fine-tuning* para produzir representações universais. No entanto, o seu desempenho em vídeo permanece inferior ao dos Modelos de Base para Vídeo (VFMs). Neste artigo, focamos no aproveitamento de MLLMs para *embedding* e recuperação de vídeo-texto. Primeiro, realizamos uma análise sistemática por camadas, demonstrando que as camadas intermediárias (pré-treinadas) dos MLLMs já codificam informações substanciais relevantes para a tarefa. Aproveitando esta perceção, demonstramos que combinar os *embeddings* de camadas intermediárias com um cabeçalho de MLLM calibrado produz um forte desempenho de recuperação *zero-shot* sem qualquer treino. Com base nestas descobertas, introduzimos uma estratégia leve de alinhamento baseada em texto que mapeia legendas densas de vídeo para resumos curtos e permite a aprendizagem de *embeddings* vídeo-texto relacionados com a tarefa sem supervisão visual. Notavelmente, sem qualquer *fine-tuning* além do texto, o nosso método supera os métodos atuais, frequentemente por uma margem substancial, alcançando resultados de última geração em benchmarks comuns de recuperação de vídeo.
Os Modelos Multimodais Unificados (UMMs) têm demonstrado progressos notáveis na geração visual. No entanto, os *benchmarks* existentes avaliam predominantemente a Inteligência Cristalizada, que depende da recordação de conhecimento acumulado e de esquemas aprendidos. Este foco negligencia a Inteligência Fluida Gerativa (GFI): a capacidade de induzir padrões, raciocinar através de restrições e adaptar-se a cenários novos em tempo real. Para avaliar rigorosamente esta capacidade, introduzimos o GENIUS (*GEN Fluid Intelligence EvalUation Suite*). Formalizamos a GFI como uma síntese de três primitivas. Estas incluem a Indução de Padrões Implícitos (ex.: inferir preferências visuais personalizadas), a Execução de Restrições *Ad-hoc* (ex.: visualizar metáforas abstratas) e a Adaptação a Conhecimento Contextual (ex.: simular física contra-intuitiva). Coletivamente, estas primitivas desafiam os modelos a resolver problemas inteiramente baseados no contexto imediato. A nossa avaliação sistemática de 12 modelos representativos revela défices de desempenho significativos nestas tarefas. Crucialmente, a nossa análise diagnóstica desagrega estes modos de falha. Ela demonstra que os défices resultam de uma compreensão contextual limitada, e não de uma capacidade gerativa intrínseca insuficiente. Para colmatar esta lacuna, propomos uma estratégia de intervenção de atenção sem necessidade de treino. Em última análise, o GENIUS estabelece um padrão rigoroso para a GFI, orientando a área para lá da utilização de conhecimento, em direção a um raciocínio dinâmico e de propósito geral. O nosso conjunto de dados e código serão disponibilizados em: https://github.com/arctanxarc/GENIUS.
Com o rápido desenvolvimento de modelos multimodais de grande escala, modelos confiáveis de juiz e crítico tornaram-se essenciais para avaliação de respostas abertas e alinhamento de preferências, fornecendo preferências pareadas, pontuações numéricas e justificativas explicativas para avaliar respostas geradas por modelos. No entanto, os críticos existentes são principalmente treinados em domínios visuais gerais, como legendagem ou resposta a perguntas sobre imagens, deixando as tarefas de IA física que envolvem percepção, raciocínio causal e planeamento largamente inexploradas. Apresentamos o PhyCritic, um modelo crítico multimodal otimizado para IA física através de um pipeline RLVR em duas etapas: uma etapa de aquecimento de competências físicas que aprimora a perceção e o raciocínio orientados para a física, seguida de um afinamento crítico autorreferencial, onde o crítico gera a sua própria previsão como referência interna antes de julgar respostas candidatas, melhorando a estabilidade do julgamento e a correção física. Tanto em benchmarks de juízes multimodais físicos como de propósito geral, o PhyCritic alcança fortes ganhos de desempenho em relação às linhas de base de código aberto e, quando aplicado como modelo de política, melhora ainda mais a perceção e o raciocínio em tarefas com base física.
A adaptação de agentes de LLM para a chamada de ferramentas específicas de domínio continua notavelmente frágil sob interfaces em evolução. A engenharia de prompts e esquemas é fácil de implantar, mas frequentemente frágil sob mudanças de distribuição e analisadores rigorosos, enquanto o *fine-tuning* contínuo e eficiente em parâmetros melhora a confiabilidade ao custo de treinamento, manutenção e possível esquecimento. Identificamos um modo crítico de falha do Agente Preguiçoso, onde a necessidade da ferramenta é quase perfeitamente decodificável a partir de ativações de camadas intermediárias, mas o modelo permanece conservador ao entrar no modo de ferramenta, revelando uma lacuna entre representação e comportamento. Propomos o *Activation Steering Adapter* (ASA), um controlador sem treinamento, operando em tempo de inferência, que realiza uma intervenção única em camada intermediária e direciona domínios de ferramentas via uma mistura condicionada por roteador de vetores de direcionamento, com um portão sinalizado guiado por sonda para amplificar a intenção real enquanto suprime gatilhos espúrios. No MTU-Bench com Qwen2.5-1.5B, o ASA melhora o F1 estrito de uso de ferramentas de 0,18 para 0,50 enquanto reduz a taxa de falsos positivos de 0,15 para 0,05, usando apenas cerca de 20 KB de recursos portáteis e sem atualizações de pesos.
Avanços recentes em modelos de base produziram sistemas de raciocínio capazes de alcançar um padrão de medalha de ouro na Olimpíada Internacional de Matemática. A transição da resolução de problemas de nível competitivo para a pesquisa profissional, no entanto, requer navegar por uma vasta literatura e construir provas de longo horizonte. Neste trabalho, introduzimos Aletheia, um agente de pesquisa matemática que gera, verifica e revisa soluções iterativamente de forma integral em linguagem natural. Especificamente, Aletheia é impulsionado por uma versão avançada do Gemini Deep Think para problemas de raciocínio desafiadores, uma nova lei de escalonamento no tempo de inferência que se estende para além de problemas de nível olímpico, e uso intensivo de ferramentas para navegar pelas complexidades da pesquisa matemática. Demonstramos a capacidade do Aletheia desde problemas olímpicos até exercícios de nível de doutorado e, mais notavelmente, através de vários marcos distintos na pesquisa matemática assistida por IA: (a) um artigo de pesquisa (Feng26) gerado por IA sem qualquer intervenção humana no cálculo de certas constantes de estrutura em geometria aritmética chamadas eigenweights; (b) um artigo de pesquisa (LeeSeo26) demonstrando colaboração humano-IA na prova de limites para sistemas de partículas interagentes chamados conjuntos independentes; e (c) uma avaliação semi-autónoma extensiva (Feng et al., 2026a) de 700 problemas em aberto na base de dados Bloom's Erdos Conjectures, incluindo soluções autónomas para quatro questões em aberto. Para ajudar o público a compreender melhor os desenvolvimentos relativos à IA e à matemática, sugerimos codificar níveis padrão que quantifiquem a autonomia e a novidade dos resultados assistidos por IA. Concluímos com reflexões sobre a colaboração humano-IA em matemática.
Embora o raciocínio sobre contextos longos seja crucial para diversas aplicações do mundo real, ele continua a ser um desafio para os grandes modelos de linguagem (LLMs), uma vez que estes sofrem de degradação de desempenho à medida que o comprimento do contexto aumenta. O trabalho recente MemAgent tentou abordar este problema processando o contexto fragmento a fragmento num ciclo semelhante a uma RNN e atualizando uma memória textual para a resposta final. No entanto, esta atualização de memória recorrente ingénua enfrenta duas desvantagens cruciais: (i) a memória pode explodir rapidamente porque pode atualizar indiscriminadamente, mesmo em fragmentos sem evidências; e (ii) o ciclo carece de um mecanismo de saída, levando a computação desnecessária mesmo após a recolha de evidências suficientes. Para resolver estas questões, propomos o GRU-Mem, que incorpora duas portas controladas por texto para um raciocínio de contexto longo mais estável e eficiente. Especificamente, no GRU-Mem, a memória só atualiza quando a porta de atualização está aberta e o ciclo recorrente termina imediatamente assim que a porta de saída se abre. Para dotar o modelo de tais capacidades, introduzimos dois sinais de recompensa, r^{atualizar} e r^{sair}, dentro de um esquema de Aprendizagem por Reforço de ponta a ponta, recompensando os comportamentos corretos de atualização e saída, respetivamente. Experiências em várias tarefas de raciocínio de contexto longo demonstram a eficácia e eficiência do GRU-Mem, que geralmente supera o MemAgent básico com acelerações de velocidade de inferência de até 400%.
Este artigo propõe a Descrição Densa Omni (Omni Dense Captioning), uma nova tarefa concebida para gerar narrativas áudio-visuais contínuas, refinadas e estruturadas com carimbos de tempo explícitos. Para garantir uma cobertura semântica densa, introduzimos um esquema estrutural de seis dimensões para criar legendas "semelhantes a roteiros", permitindo que os leitores imaginem vividamente o conteúdo do vídeo cena a cena, análogo a um roteiro cinematográfico. Para fomentar a pesquisa, construímos o OmniDCBench, um benchmark de alta qualidade anotado manualmente, e propomos o SodaM, uma métrica unificada que avalia descrições detalhadas com consciência temporal, mitigando a ambiguidade dos limites das cenas. Adicionalmente, construímos um conjunto de dados de treinamento, o TimeChatCap-42K, e apresentamos o TimeChat-Captioner-7B, uma linha de base robusta treinada via SFT (Supervised Fine-Tuning) e GRPO (Group Relative Policy Optimization) com recompensas específicas da tarefa. Experimentos extensivos demonstram que o TimeChat-Captioner-7B atinge um desempenho de ponta, superando o Gemini-2.5-Pro, enquanto as suas descrições densas geradas impulsionam significativamente as capacidades subsequentes em raciocínio áudio-visual (DailyOmni e WorldSense) e enraizamento temporal (Charades-STA). Todos os conjuntos de dados, modelos e código serão disponibilizados publicamente em https://github.com/yaolinli/TimeChat-Captioner.
Os modelos de linguagem de grande porte (LLMs) apenas descodificadores estão a ser cada vez mais utilizados como codificadores comportamentais para a aprendizagem de representação de utilizadores, contudo o impacto da máscara de atenção na qualidade das incorporações (embeddings) de utilizador permanece pouco explorado. Neste trabalho, realizamos um estudo sistemático de máscaras de atenção causais, híbridas e bidirecionais dentro de uma estrutura unificada de aprendizagem contrastiva, treinada com dados em larga escala do mundo real do Alipay que integram comportamentos heterogéneos de utilizadores de longo horizonte. Para melhorar a dinâmica de treino na transição da atenção causal para a bidirecional, propomos o Mascaramento Suave Guiado por Gradiente (Gradient-Guided Soft Masking), um pré-aquecimento baseado em gradiente aplicado antes de um programador linear que abre gradualmente a atenção futura durante a otimização. Avaliado em 9 benchmarks industriais de cognição de utilizador que abrangem tarefas de previsão, preferência e sensibilidade de marketing, a nossa abordagem produz consistentemente um treino mais estável e representações bidirecionais de maior qualidade em comparação com linhas de base causais, híbridas e apenas com programador, mantendo-se compatível com o pré-treino do descodificador. Globalmente, os nossos resultados destacam a importância do design de mascaramento e da transição de treino na adaptação de LLMs apenas descodificadores para uma aprendizagem eficaz de representação de utilizador. O nosso código está disponível em https://github.com/JhCircle/Deepfind-GGSM.
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham demonstrado potencial recentemente no Projeto Automatizado de Heurísticas (AHD), as abordagens existentes geralmente formulam o AHD em torno de regras de prioridade construtivas ou de orientação de busca local parametrizada, restringindo assim o espaço de busca a formas heurísticas fixas. Tais projetos oferecem capacidade limitada para exploração estrutural, dificultando a escape de ótimos locais profundos em Problemas de Otimização Combinatória (COPs) complexos. Neste trabalho, propomos o G-LNS, um framework evolutivo generativo que estende o AHD baseado em LLMs para o projeto automatizado de operadores de Busca em Grande Vizinhança (LNS). Diferente de métodos anteriores que evoluem heurísticas isoladamente, o G-LNS aproveita os LLMs para co-evoluir pares fortemente acoplados de operadores de destruição e reparo. Um mecanismo de avaliação cooperativa captura explicitamente sua interação, permitindo a descoberta de lógicas operacionais complementares que realizam conjuntamente uma disruptura e reconstrução estrutural eficazes. Experimentos extensos em benchmarks desafiadores de COPs, como o Problema do Caixeiro-Viajante (TSP) e o Problema de Roteamento de Veículos com Capacidade (CVRP), demonstram que o G-LNS supera significativamente os métodos de AHD baseados em LLMs, bem como solvers clássicos robustos. As heurísticas descobertas não apenas alcançam soluções quase ótimas com orçamentos computacionais reduzidos, mas também exibem generalização robusta através de distribuições de instâncias diversas e não vistas durante o treinamento.
Os agentes alimentados por grandes modelos de linguagem (LLMs) estão sendo cada vez mais adotados na indústria de software, contribuindo com código como colaboradores ou até mesmo como desenvolvedores autônomos. À medida que sua presença cresce, torna-se importante avaliar os limites atuais de suas habilidades de codificação. No entanto, os benchmarks existentes para codificação agêntica cobrem um escopo limitado de tarefas, por exemplo, correção de bugs dentro de um único *pull request* (PR), e frequentemente dependem de avaliações não executáveis ou carecem de uma abordagem automatizada para atualizar continuamente a cobertura da avaliação. Para resolver tais problemas, propomos o FeatureBench, um benchmark projetado para avaliar o desempenho da codificação agêntica no desenvolvimento de software orientado a funcionalidades (*features*) de ponta a ponta. O FeatureBench incorpora um protocolo de avaliação baseado em execução e um método escalável orientado a testes que deriva tarefas automaticamente a partir de repositórios de código com esforço humano mínimo. Ao rastrear a partir de testes unitários ao longo de um grafo de dependências, nossa abordagem pode identificar tarefas de codificação em nível de funcionalidade, abrangendo múltiplos *commits* e PRs dispersos pela linha do tempo de desenvolvimento, garantindo ao mesmo tempo o funcionamento adequado de outras funcionalidades após a separação. Usando esta estrutura, curamos 200 tarefas de avaliação desafiadoras e 3825 ambientes executáveis a partir de 24 repositórios de código aberto na primeira versão do nosso benchmark. A avaliação empírica revela que o modelo agêntico estado da arte, como o Claude 4.5 Opus, que alcança uma taxa de resolução de 74,4% no SWE-bench, tem sucesso em apenas 11,0% das tarefas, abrindo novas oportunidades para o avanço da codificação agêntica. Além disso, beneficiando-se do nosso kit de ferramentas de coleta automática de tarefas, o FeatureBench pode ser facilmente dimensionado e atualizado ao longo do tempo para mitigar o vazamento de dados. A verificabilidade inerente dos ambientes construídos também torna nosso método potencialmente valioso para o treinamento de agentes.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem eficaz para aprimorar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). Apesar de sua eficácia, o RLVR enfrenta um gargalo de meta-aprendizado: ele carece de mecanismos para atribuição de erro e internalização de experiência intrínsecos ao ciclo de aprendizado humano, indo além da prática e verificação, limitando assim a atribuição de crédito refinada e a formação de conhecimento reutilizável. Denominamos tais representações de conhecimento reutilizável, derivadas de erros passados, como meta-experiência. Com base nessa percepção, propomos o Aprendizado por Meta-Experiência (MEL), uma estrutura inovadora que incorpora a meta-experiência auto-destilada na memória paramétrica do modelo. Com base no RLVR padrão, introduzimos um projeto adicional que aproveita a capacidade de autoverificação do LLM para conduzir uma análise contrastiva em trajetórias corretas e incorretas pareadas, identificar os pontos de bifurcação precisos onde os erros de raciocínio surgem e resumi-los em meta-experiência generalizável. A meta-experiência é ainda mais internalizada na memória paramétrica do LLM pela minimização da log-verossimilhança negativa, o que induz um sinal de recompensa modelado pela linguagem que conecta trajetórias de raciocínio corretas e incorretas e facilita a reutilização eficaz do conhecimento. Resultados experimentais demonstram que o MEL alcança melhorias consistentes em benchmarks, obtendo ganhos de 3,92% a 4,73% no Pass@1 em diversos tamanhos de modelo.
No cenário atual dos Modelos de Linguagem de Grande Porte (LLMs), a curadoria de dados de treinamento em larga escala e de alta qualidade é um dos principais impulsionadores do desempenho do modelo. Um elemento-chave é a "receita de dados", que compreende um *pipeline* de processamento para transformar fontes brutas em corpora de treinamento. Apesar do uso crescente de LLMs para automatizar etapas individuais de processamento de dados, como síntese e filtragem de dados, o projeto geral das receitas de dados permanece amplamente manual e intensivo em mão de obra, exigindo substancial expertise humana e iteração. Para preencher essa lacuna, formulamos a geração de receitas de dados de ponta a ponta para adaptação de LLMs. Dado um *benchmark* alvo e um conjunto de fontes de dados disponíveis, um modelo é necessário para produzir uma receita de dados completa que adapte um LLM base à tarefa alvo. Apresentamos o DataChef-32B, que realiza aprendizado por reforço online usando uma recompensa *proxy* que prevê o desempenho *downstream* para receitas candidatas. Em seis tarefas retidas para teste, o DataChef-32B produz receitas práticas que atingem desempenho *downstream* comparável àquelas curadas por especialistas humanos. Notavelmente, a receita do DataChef-32B adapta o Qwen3-1.7B-Base para o domínio matemático, alcançando 66,7 na AIME'25 e superando o Qwen3-1.7B. Este trabalho lança nova luz sobre a automação do treinamento de LLMs e o desenvolvimento de sistemas de IA com auto-evolução.
Apresentamos o ROCKET, um método de compressão de modelos sem necessidade de treinamento que atinge um desempenho de última geração em comparação com métodos base em fatoração, esparsificação estruturada e compressão dinâmica. Operando sob um orçamento global de compressão, o ROCKET compreende duas inovações principais: Primeiro, formula a alocação de compressão por camada como um problema da mochila com múltiplas escolhas, selecionando o nível ótimo de compressão para cada camada para minimizar o erro total de reconstrução, respeitando um tamanho de modelo alvo. Segundo, introduz uma fatoração de matriz esparsa em passo único, inspirada na aprendizagem de dicionários: usando apenas um pequeno conjunto de calibração, ele esparsifica os coeficientes de peso com base na sensibilidade ativação-peso e, em seguida, atualiza o dicionário de forma fechada via mínimos quadrados, contornando completamente a otimização iterativa, a codificação esparsa ou a retropropagação. O ROCKET supera consistentemente as abordagens de compressão existentes em diferentes arquiteturas de modelo em taxas de compressão de 20-50%. Notavelmente, ele retém mais de 90% do desempenho do modelo original a 30% de compressão, sem qualquer ajuste fino. Além disso, ao aplicar uma fase leve de ajuste fino, a recuperação é substancialmente melhorada: por exemplo, comprimir o Qwen3-14B para um modelo de 8B de parâmetros e recuperá-lo com apenas 30 milhões de tokens resulta num desempenho quase equivalente ao do Qwen3-8B original. O código do ROCKET está disponível em github.com/mts-ai/ROCKET/tree/main.
O aprendizado por reforço para modelos de linguagem de grande escala sofre com altas variâncias nas taxas de amostragem por importância (IS) a nível de token, o que desestabilizaria a otimização da política em larga escala. Para melhorar a estabilidade, métodos recentes geralmente utilizam uma taxa de IS fixa a nível de sequência para todos os tokens em uma sequência ou ajustam a taxa de IS de cada token separadamente, negligenciando assim a derivação temporal *off-policy* entre os tokens em uma sequência. Neste artigo, primeiro identificamos empiricamente que o desvio *off-policy* local é estruturalmente inconsistente a nível de token, o que pode distorcer as atualizações do gradiente da política entre tokens adjacentes e levar a um colapso no treinamento. Para resolver o problema, propomos a Filtragem de Kalman Causal Online para Otimização de Política estável e eficaz (KPO). Concretamente, modelamos a taxa de IS desejada como um estado latente que evolui através dos tokens e aplicamos um filtro de Kalman para atualizar este estado online e autoregressivamente com base nos estados dos tokens passados, independentemente de tokens futuros. As taxas de IS filtradas resultantes preservam a variação local consciente da estrutura a nível de token enquanto suavizam fortemente picos de ruído, produzindo atualizações de política mais estáveis e eficazes. Experimentalmente, o KPO alcança resultados superiores em conjuntos de dados desafiadores de raciocínio matemático em comparação com as contrapartes state-of-the-art.
Os Transformers em Loop emergiram como uma classe eficiente e poderosa de modelos para raciocínio no domínio da linguagem. Estudos recentes mostram que esses modelos alcançam um desempenho sólido em tarefas algorítmicas e de raciocínio, sugerindo que as arquiteturas em loop possuem um viés indutivo em direção ao raciocínio latente. No entanto, abordagens anteriores fixam o número de iterações do loop durante o treinamento e a inferência, deixando em aberto a questão de se esses modelos podem adaptar flexivelmente sua profundidade computacional sob orçamentos de computação variáveis. Apresentamos o LoopFormer, um Transformer em loop treinado em trajetórias de comprimento variável para permitir o raciocínio condicionado ao orçamento computacional. Nossa principal contribuição é um esquema de treinamento por consistência de atalho que alinha trajetórias de diferentes comprimentos, garantindo que loops mais curtos produzam representações informativas enquanto loops mais longos continuam a refiná-las. O LoopFormer condiciona cada loop ao tempo atual e ao tamanho do passo, permitindo que as representações evoluam consistentemente através de trajetórias de comprimento variável, em vez de sofrerem desvio ou estagnação. Empiricamente, o LoopFormer demonstra um desempenho robusto em benchmarks de modelagem de linguagem e raciocínio, mesmo sob restrições computacionais agressivas, enquanto escala de forma graciosa com orçamento adicional. Esses resultados mostram que os Transformers em loop são inerentemente adequados para a modelagem de linguagem adaptativa, abrindo um caminho para grandes modelos de linguagem controláveis e conscientes do orçamento computacional.
Apesar dos rápidos avanços em agentes de codificação, o progresso nas suas contrapartes multimodais tem ficado para trás. Um desafio fundamental é a escassez de bancos de teste de avaliação que combinem a complexidade do desenvolvimento de software com a necessidade de uma compreensão multimodal profunda. O desenvolvimento de jogos fornece um banco de teste, pois os agentes devem navegar por bases de código grandes e densas, manipulando ativos intrinsecamente multimodais, como shaders, sprites e animações, dentro de uma cena de jogo visual. Apresentamos o GameDevBench, o primeiro benchmark para avaliar agentes em tarefas de desenvolvimento de jogos. O GameDevBench consiste em 132 tarefas derivadas de tutoriais da web e em vídeo. As tarefas exigem uma compreensão multimodal significativa e são complexas — a solução média requer mais de três vezes a quantidade de linhas de código e alterações de arquivo em comparação com benchmarks anteriores de desenvolvimento de software. Os agentes ainda têm dificuldades com o desenvolvimento de jogos, com o melhor agente resolvendo apenas 54,5% das tarefas. Encontramos uma forte correlação entre a dificuldade percebida da tarefa e a complexidade multimodal, com as taxas de sucesso caindo de 46,9% em tarefas orientadas para a jogabilidade para 31,6% em tarefas de gráficos 2D. Para melhorar a capacidade multimodal, introduzimos dois mecanismos simples de feedback baseados em imagem e vídeo para agentes. Apesar da sua simplicidade, estes métodos melhoram consistentemente o desempenho, sendo a maior mudança um aumento no desempenho do Claude Sonnet 4.5 de 33,3% para 47,7%. Lançamos publicamente o GameDevBench para apoiar mais pesquisas sobre o desenvolvimento de jogos por agentes.
O ajuste fino supervisionado (SFT) em dados de cadeia de raciocínio é uma etapa essencial pós-treinamento para modelos de linguagem de raciocínio. A intuição padrão do aprendizado de máquina sugere que treinar com mais amostras de treinamento únicas produz melhor generalização. Contraintuitivamente, demonstramos que o SFT beneficia-se da repetição: sob um orçamento fixo de atualizações, treinar por mais épocas em conjuntos de dados menores supera o treinamento de época única em conjuntos de dados maiores. Nos benchmarks AIME'24/25 e GPQA, o Olmo3-7B treinado por 128 épocas em 400 amostras supera o equivalente de 1 época em 51200 amostras em 12-26 pontos percentuais, sem esquecimento catastrófico adicional. Descobrimos que a precisão por token de treinamento sinaliza de forma confiável quando a repetição está saturada; as melhorias de épocas adicionais estabilizam-se na memorização completa, um padrão consistente em todas as configurações. Essas descobertas fornecem uma abordagem prática para o SFT de raciocínio, onde a escalonagem de épocas com a precisão por token como critério de parada pode substituir a escalonagem de dados não direcionada e dispendiosa. Apresentamos a vantagem da repetição, onde a memorização completa coincide com a generalização melhorada, como um novo problema aberto para a comunidade na compreensão da dinâmica de treinamento de grandes modelos de linguagem.
O Group Relative Policy Optimization (GRPO) atribui uma única vantagem escalar a todos os tokens em uma conclusão. Para gerações estruturadas com segmentos e objetivos explícitos, isso acopla sinais de recompensa não relacionados entre os segmentos, levando a interferência de objetivos e crédito mal atribuído. Propomos a Estimativa de Vantagem por Blocos, uma família de métodos compatíveis com GRPO que atribui a cada objetivo sua própria vantagem e a aplica apenas aos tokens no bloco de texto correspondente, reduzindo a dependência de recompensas escalares projetadas manualmente e escalando naturalmente para objetivos adicionais. Um desafio fundamental é estimar vantagens para blocos posteriores, cujas recompensas são condicionadas a prefixos amostrados; abordagens padrão não enviesadas exigem rollouts aninhados dispendiosos a partir de estados intermediários. Concretamente, introduzimos uma Linha de Base Condicionada ao Resultado que aproxima os valores de estado intermediário usando apenas estatísticas intragrupo, estratificando as amostras de acordo com um resultado intermediário derivado do prefixo. Em tarefas matemáticas com estimativa de incerteza, nosso método mitiga a interferência de recompensa, é competitivo com uma abordagem state-of-the-art baseada em recompensa projetada e preserva os ganhos em tempo de teste provenientes do ensemble ponderado por confiança. De forma mais ampla, ele fornece uma receita modular para otimizar objetivos sequenciais em gerações estruturadas sem rollouts adicionais.
No mundo de Harry Potter, quando a mente de Dumbledore fica sobrecarregada, ele extrai memórias para uma Penseira para revisitá-las posteriormente. No mundo da IA, embora possuamos a Penseira - bancos de dados maduros e sistemas de recuperação - nossos modelos inexplicavelmente carecem da "varinha" para operá-la. Eles permanecem como um Dumbledore sem agência, aceitando passivamente um contexto manualmente elaborado como sua memória total. Este trabalho finalmente coloca a varinha na mão do modelo. Apresentamos o StateLM, uma nova classe de modelos fundamentais dotados de um loop interno de raciocínio para gerenciar seu próprio estado. Equipamos nosso modelo com um conjunto de ferramentas de memória, como poda de contexto, indexação de documentos e anotações, e o treinamos para gerenciar ativamente essas ferramentas. Ao aprender a elaborar dinamicamente seu próprio contexto, nosso modelo liberta-se da prisão arquitetônica de uma janela fixa. Experimentos em vários tamanhos de modelo demonstram a eficácia do StateLM em diversos cenários. Em tarefas de QA com documentos longos, os StateLMs superam consistentemente os LLMs padrão em todas as escalas de modelo; na tarefa de memória de chat, eles alcançam melhorias de precisão absoluta de 10% a 20% sobre os LLMs padrão. Na tarefa de pesquisa profunda BrowseComp-Plus, a diferença de desempenho torna-se ainda mais pronunciada: o StateLM atinge até 52% de precisão, enquanto os LLMs padrão equivalentes lutam em torno de 5%. Por fim, nossa abordagem transforma os LLMs de preditores passivos em agentes conscientes do estado, onde o raciocínio se torna um processo com estado e gerenciável.
A implantação de Modelos de Língua Grande (LLMs) em contextos clínicos de alto risco exige uma avaliação rigorosa e confiável. No entanto, os benchmarks médicos existentes permanecem estáticos, sofrendo de duas limitações críticas: (1) contaminação de dados, onde conjuntos de teste vazam inadvertidamente para os corpora de treinamento, levando a estimativas de desempenho inflacionadas; e (2) desalinhamento temporal, falhando em capturar a rápida evolução do conhecimento médico. Além disso, as métricas de avaliação atuais para o raciocínio clínico de resposta aberta frequentemente dependem de sobreposição lexical superficial (por exemplo, ROUGE) ou da pontuação subjetiva por um LLM como Juiz, ambas inadequadas para verificar a correção clínica. Para preencher essas lacunas, apresentamos o LiveMedBench, um benchmark continuamente atualizado, livre de contaminação e baseado em rubricas, que colhe semanalmente casos clínicos do mundo real de comunidades médicas online, garantindo uma separação temporal rigorosa dos dados de treinamento do modelo. Propomos uma Estrutura de Curadoria Clínica Multiagente que filtra o ruído dos dados brutos e valida a integridade clínica com base em princípios médicos baseados em evidências. Para avaliação, desenvolvemos uma Estrutura de Avaliação Automatizada Baseada em Rubricas que decompõe as respostas médicas em critérios granulares e específicos de cada caso, alcançando um alinhamento substancialmente maior com médicos especialistas do que o método de LLM como Juiz. Até o momento, o LiveMedBench compreende 2.756 casos do mundo real abrangendo 38 especialidades médicas e vários idiomas, emparelhados com 16.702 critérios de avaliação únicos. A avaliação extensiva de 38 LLMs revela que mesmo o modelo de melhor desempenho atinge apenas 39,2%, e 84% dos modelos exibem degradação de desempenho em casos pós-corte, confirmando os riscos generalizados de contaminação de dados. A análise de erros identifica ainda a aplicação contextual - e não o conhecimento factual - como o principal gargalo, com 35-48% das falhas decorrendo da incapacidade de adaptar o conhecimento médico às restrições específicas do paciente.
O aprendizado por reforço (RL) é uma etapa crítica no pós-treinamento de grandes modelos de linguagem (LLMs), envolvendo a interação repetida entre a geração de rollouts, avaliação de recompensa e aprendizado centralizado. Distribuir a execução de rollouts oferece oportunidades para aproveitar recursos de inferência mais econômicos, mas introduz desafios na coordenação de área ampla e na disseminação de políticas. Apresentamos o ECHO-2, uma estrutura de RL distribuída para pós-treinamento com workers de inferência remotos e latência de disseminação não negligenciável. O ECHO-2 combina aprendizado centralizado com rollouts distribuídos e trata a obsolescência limitada da política como um parâmetro controlado pelo usuário, permitindo que a geração de rollouts, a disseminação e o treinamento se sobreponham. Introduzimos um modelo de capacidade baseado em sobreposição que relaciona o tempo de treinamento, a latência de disseminação e a taxa de transferência de rollouts, resultando em uma regra prática de provisionamento para sustentar a utilização do aprendiz. Para mitigar gargalos de disseminação e reduzir custos, o ECHO-2 emprega broadcast em pipeline com assistência de pares e ativação consciente do custo de workers heterogêneos. Experimentos no pós-treinamento GRPO de modelos de 4B e 8B sob regimes de banda larga de área ampla real mostram que o ECHO-2 melhora significativamente a eficiência de custo, preservando uma recompensa de RL comparável a bases de referência sólidas.
Os Modelos de Linguagem de Grande Escala (LLMs) capazes de melhorar continuamente para além dos seus orçamentos de treinamento conseguem resolver problemas cada vez mais difíceis através da adaptação no momento do teste, uma propriedade que designamos por extrapolação. No entanto, o Reforço de Aprendizagem (RL) padrão opera sobre distribuições de problemas e orçamentos de treinamento fixos, o que limita a extrapolação perante uma mudança de distribuição no momento do teste. Para resolver isto, introduzimos o RC, um algoritmo de descodificação iterativa que substitui a descodificação autoregressiva padrão, tanto durante o treinamento como durante a inferência. O RC explora uma assimetria entre as capacidades de geração de respostas e de sumarização dos LLMs para construir cadeias de raciocínio que melhoram consistentemente ao longo das iterações. Os modelos treinados para usar o RC podem extrapolar e melhorar continuamente ao longo de horizontes de raciocínio mais de uma ordem de magnitude maiores do que os observados durante o treinamento. Empiricamente, treinar um modelo de 4B com RC usando um orçamento de treinamento de 16k *tokens* melhora o desempenho no HMMT 2025 de 40% para quase 70% com 0,5 milhões de *tokens* no momento do teste, superando tanto modelos de tamanho comparável como muitos LLMs de raciocínio maiores. Por fim, também mostramos que os modelos treinados com RC podem aproveitar mais eficazmente os *scaffolds* existentes para escalar ainda mais o desempenho no momento do teste, devido às capacidades melhoradas de geração condicionada por sumários aprendidas através do treinamento.
Os grandes modelos de linguagem omni-modais (OLLMs) visam unificar a compreensão e geração multimodal, porém a incorporação da fala com animação facial 3D permanece amplamente inexplorada, apesar de sua importância para a interação natural. Um desafio fundamental surge do descompasso de representação entre o raciocínio semântico discreto a nível de tokens nos LLMs e as dinâmicas temporais densas e refinadas necessárias para o movimento facial 3D, o que dificulta a otimização da modelagem direta sob dados limitados. Propomos o Expressive Omni (Ex-Omni), um framework omni-modal de código aberto que amplia os OLLMs com animação facial 3D acompanhada de fala. O Ex-Omni reduz a dificuldade de aprendizado ao desacoplar o raciocínio semântico da geração temporal, utilizando unidades de fala como estruturação temporal e um mecanismo unificado de fusão controlada por consulta de token (TQGF) para injeção semântica controlada. Introduzimos ainda o InstructEx, um conjunto de dados que visa facilitar o aprimoramento de OLLMs com animação facial 3D acompanhada de fala. Experimentos extensivos demonstram que o Ex-Omni apresenta desempenho competitivo frente aos OLLMs de código aberto existentes, enquanto permite a geração estável e alinhada de fala e animação facial.
O planejamento de longo horizonte é amplamente reconhecido como uma capacidade central de agentes autónomos baseados em LLM; no entanto, as estruturas de avaliação atuais pecam por serem largamente episódicas, específicas de domínio ou insuficientemente fundamentadas em dinâmicas económicas persistentes. Apresentamos a EcoGym, uma referência generalizável para a tomada de decisão contínua de planeamento e execução em economias interativas. A EcoGym compreende três ambientes diversos: Vending, Freelance e Operation, implementados num processo unificado de tomada de decisão com interfaces padronizadas e ações orçamentadas ao longo de um horizonte efetivamente ilimitado (1000+ passos, equivalentes a ciclos de 365 dias para avaliação). A avaliação na EcoGym baseia-se em resultados relevantes para negócios (ex: património líquido, rendimento e DAU), visando a coerência estratégica de longo prazo e a robustez sob observabilidade parcial e estocasticidade. Experiências com onze LLMs líderes expõem uma tensão sistemática: nenhum modelo único domina em todos os três cenários. Criticamente, descobrimos que os modelos exibem suboptimalidade significativa, seja em estratégias de alto nível ou na execução eficiente de ações. A EcoGym é disponibilizada como uma plataforma de testes aberta e extensível para avaliação transparente de agentes de longo horizonte e para estudar compromissos entre controlabilidade e utilidade em contextos económicos realistas.
A codificação agentiva requer que os agentes interajam eficazmente com ambientes de execução, por exemplo, interfaces de linha de comandos (CLI), para completar tarefas como resolver problemas de dependências, corrigir problemas do sistema, etc. No entanto, continua pouco explorado como essas tarefas intensivas em ambiente podem ser obtidas em escala para melhorar as capacidades dos agentes. Para resolver isso, com base numa analogia entre o Dockerfile e a tarefa agentiva, propomos empregar agentes para simular e explorar históricos de ambiente, orientados por *feedback* de execução. Ao rastrear os históricos de um ambiente saudável, o seu estado pode ser invertido para um anterior com falhas de execução, a partir do qual uma tarefa pode ser derivada através do empacotamento do estado com *bugs* e das mensagens de erro correspondentes. Com o nosso método, denominado CLI-Gym, foram derivadas um total de 1.655 tarefas intensivas em ambiente, constituindo a maior coleção do género. Além disso, com trajetórias de sucesso curadas, o nosso modelo afinado, denominado LiberCoder, alcança melhorias absolutas substanciais de +21,1% (para 46,1%) no Terminal-Bench, superando várias *baselines* robustas. Até onde sabemos, este é o primeiro *pipeline* público para derivação escalável de tarefas intensivas em ambiente.
Os ativos 3D com rigging são fundamentais para deformação e animação 3D. No entanto, os métodos existentes de geração 3D enfrentam desafios na criação de geometria animável, enquanto as técnicas de rigging carecem de controle estrutural refinado sobre a criação do esqueleto. Para superar essas limitações, apresentamos o Stroke3D, uma nova estrutura que gera malhas com rigging diretamente a partir de entradas do utilizador: traços desenhados em 2D e uma descrição textual. A nossa abordagem pioneira consiste num pipeline de duas etapas que separa a geração em: 1) Geração Controlável do Esqueleto, onde empregamos o Skeletal Graph VAE (Sk-VAE) para codificar a estrutura de grafo do esqueleto num espaço latente, e o Skeletal Graph DiT (Sk-DiT) gera um *embedding* esquelético. O processo de geração é condicionado tanto pelo texto (para semântica) como pelos traços 2D (para controlo estrutural explícito), sendo que o descodificador do VAE reconstrói o esqueleto 3D final de alta qualidade; e 2) Síntese Aumentada de Malha via TextuRig e SKA-DPO, onde sintetizamos uma malha texturizada condicionada pelo esqueleto gerado. Para esta etapa, primeiro aprimoramos um modelo existente de esqueleto-para-malha, aumentando os seus dados de treino com o TextuRig: um conjunto de dados de malhas texturizadas e com rigging, legendadas e curadas a partir do Objaverse-XL. Adicionalmente, empregamos uma estratégia de otimização de preferências, o SKA-DPO, guiada por uma pontuação de alinhamento esqueleto-malha, para melhorar ainda mais a fidelidade geométrica. Em conjunto, a nossa estrutura permite um fluxo de trabalho mais intuitivo para criar conteúdo 3D pronto para animar. Até onde sabemos, o nosso trabalho é o primeiro a gerar malhas 3D com rigging condicionadas por traços 2D desenhados pelo utilizador. Experimentos extensivos demonstram que o Stroke3D produz esqueletos plausíveis e malhas de alta qualidade.
À medida que os Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implementados em aplicações de língua polaca, a necessidade de classificadores de segurança de conteúdo eficientes e precisos tornou-se primordial. Apresentamos o Bielik Guard, uma família de classificadores de segurança compactos para a língua polaca, composta por duas variantes de modelo: um modelo de 0,1B de parâmetros baseado no MMLW-RoBERTa-base e um modelo de 0,5B de parâmetros baseado no PKOBP/polish-roberta-8k. Ajustados finamente num conjunto de dados anotado pela comunidade de 6.885 textos polacos, estes modelos classificam o conteúdo em cinco categorias de segurança: Ódio/Agressão, Vulgaridades, Conteúdo Sexual, Crime e Automutilação. A nossa avaliação demonstra que ambos os modelos alcançam um forte desempenho em múltiplos benchmarks. A variante de 0,5B oferece a melhor capacidade geral de discriminação com pontuações F1 de 0,791 (micro) e 0,785 (macro) no conjunto de teste, enquanto a variante de 0,1B demonstra uma eficiência excecional. Note-se que o Bielik Guard 0.1B v1.1 atinge uma precisão superior (77,65%) e uma taxa de falsos positivos muito baixa (0,63%) em prompts de utilizadores reais, superando o HerBERT-PL-Guard (31,55% de precisão, 4,70% FPR) apesar do tamanho idêntico do modelo. Os modelos estão publicamente disponíveis e foram concebidos para fornecer respostas adequadas em vez de um simples bloqueio de conteúdo, particularmente para categorias sensíveis como a automutilação.
O Processamento de Consultas (QP) estabelece a ponte entre a intenção do utilizador e o fornecimento de conteúdo nos motores de busca de grande escala dos Serviços de Redes Sociais (SNS). Os sistemas tradicionais de QP baseiam-se em pipelines de modelos discriminativos isolados (por exemplo, BERT), sofrendo de compreensão semântica limitada e elevada sobrecarga de manutenção. Embora os Grandes Modelos de Linguagem (LLMs) ofereçam uma solução potencial, as abordagens existentes frequentemente otimizam sub-tarefas de forma isolada, negligenciando a sinergia semântica intrínseca e necessitando de iterações independentes. Além disso, os métodos generativos padrão frequentemente carecem de enquadramento em cenários de SNS, falhando em colmatar a lacuna entre os corpora de domínio aberto e os padrões linguísticos informais das SNS, ao mesmo tempo que lutam para aderir a definições empresariais rigorosas. Apresentamos o QP-OneModel, um LLM Generativo Unificado para Compreensão de Consultas Multi-Tarefa no domínio das SNS. Reformulamos sub-tarefas heterogéneas num paradigma unificado de geração de sequência, adotando uma estratégia de alinhamento progressiva em três fases que culmina em Aprendizagem por Reforço multi-recompensa. Adicionalmente, o QP-OneModel gera descrições de intenção como um novo sinal semântico de alta fidelidade, aumentando eficazmente tarefas subsequentes como a reformulação de consultas e a ordenação de resultados. Avaliações offline mostram que o QP-OneModel alcança um ganho global de 7,35% face a linhas de base discriminativas, com melhorias significativas de F1 no Reconhecimento de Entidades Nomeadas (+9,01%) e na Ponderação de Termos (+9,31%). Exibe também uma generalização superior, superando um modelo de 32B em 7,60% de precisão em tarefas não vistas. Totalmente implementado no Xiaohongshu, testes A/B online confirmam o seu valor industrial, otimizando a relevância na recuperação (DCG) em 0,21% e aumentando a retenção de utilizadores em 0,044%.
Os recentes avanços nos grandes modelos de edição de imagens têm deslocado o paradigma das instruções baseadas em texto para a edição por _prompts_ visuais, onde a intenção do usuário é inferida diretamente a partir de entradas visuais, como marcas, setas e _prompts_ visuo-textuais. Embora esse paradigma expanda consideravelmente a usabilidade, ele também introduz um risco crítico e pouco explorado de segurança: a própria superfície de ataque torna-se visual. Neste trabalho, propomos o Ataque de _Jailbreak_ Centrado na Visão (VJA), o primeiro ataque de _jailbreak_ visual-a-visual que transmite instruções maliciosas puramente por meio de entradas visuais. Para estudar sistematicamente essa ameaça emergente, introduzimos o IESBench, um _benchmark_ voltado para a segurança de modelos de edição de imagens. Experimentos extensivos no IESBench demonstram que o VJA compromete efetivamente modelos comerciais de última geração, atingindo taxas de sucesso de ataque de até 80,9% no Nano Banana Pro e 70,1% no GPT-Image-1.5. Para mitigar essa vulnerabilidade, propomos uma defesa sem necessidade de treinamento baseada em raciocínio multimodal introspectivo, que melhora substancialmente a segurança de modelos com alinhamento deficiente para um nível comparável aos sistemas comerciais, sem modelos guardiões auxiliares e com sobrecarga computacional insignificante. Nossas descobertas expõem novas vulnerabilidades e fornecem tanto um _benchmark_ quanto uma defesa prática para avançar os sistemas modernos de edição de imagens de forma segura e confiável. Aviso: Este artigo contém imagens ofensivas criadas por grandes modelos de edição de imagens.
Os Grafos de Conhecimento (KGs) armazenam conhecimento factual estruturado ao conectar entidades por meio de relações, sendo cruciais para muitas aplicações. Essas aplicações dependem da precisão factual do KG, tornando a verificação de fatos essencial, embora desafiadora. A verificação manual por especialistas é ideal, mas impraticável em larga escala. Métodos automatizados são promissores, mas não estão prontos para KGs do mundo real. Os Modelos de Linguagem de Grande Porte (LLMs) oferecem potencial devido à sua compreensão semântica e acesso ao conhecimento, mas sua adequação e eficácia para a validação de fatos em KGs permanecem amplamente inexploradas. Neste artigo, apresentamos o FactCheck, um benchmark projetado para avaliar LLMs na validação de fatos em KGs em três dimensões principais: (1) o conhecimento interno dos LLMs; (2) evidências externas via Geração Aumentada por Recuperação (RAG); e (3) conhecimento agregado empregando uma estratégia de consenso multi-modelo. Avaliamos LLMs de código aberto e comerciais em três KGs reais e diversos. O FactCheck também inclui um conjunto de dados RAG com mais de 2 milhões de documentos específico para validação de fatos em KGs. Adicionalmente, oferecemos uma plataforma de exploração interativa para analisar decisões de verificação. As análises experimentais demonstram que, embora os LLMs produzam resultados promissores, eles ainda não são suficientemente estáveis e confiáveis para serem usados em cenários reais de validação de KGs. A integração de evidências externas por meio de métodos RAG resulta em desempenho flutuante, fornecendo melhorias inconsistentes em relação a abordagens mais simples – a um custo computacional mais alto. Da mesma forma, estratégias baseadas em consenso multi-modelo não superam consistentemente modelos individuais, destacando a falta de uma solução universal. Essas descobertas reforçam ainda mais a necessidade de um benchmark como o FactCheck para avaliar sistematicamente e impulsionar o progresso nesta tarefa difícil, porém crucial.
Embora o Chain-of-Thought (CoT) explícito forneça aos Grandes Modelos de Linguagem (LLMs) capacidades de raciocínio robustas, ele exige que os modelos verbalizem cada passo intermediário em *tokens* de texto, restringindo os pensamentos do modelo ao espaço discreto do vocabulário. Recentemente, o raciocínio em espaço latente contínuo surgiu como uma alternativa promissora, permitindo uma inferência mais robusta e computação flexível para além das restrições dos *tokens* discretos. No entanto, os paradigmas latentes atuais frequentemente sofrem com colapso de características e instabilidade, decorrentes de incompatibilidades de distribuição ao usar estados ocultos recursivamente como *embeddings* de entrada, ou de problemas de alinhamento ao depender de modelos assistentes. Para resolver isso, propomos o Latent Thoughts Tuning (LT-Tuning), um quadro que redefine como os pensamentos latentes são construídos e implantados. Em vez de depender exclusivamente de estados ocultos brutos, nosso método introduz um mecanismo de Fusão de Contexto-Predição que aproveita conjuntamente estados ocultos contextuais e orientação semântica preditiva do espaço de *embedding* do vocabulário. Combinado com um *pipeline* de aprendizado curricular progressivo em três estágios, o LT-Tuning também permite alternar dinamicamente entre modos de pensamento latente e explícito. Experimentos demonstram que nosso método supera as bases de raciocínio latente existentes, mitigando efetivamente o colapso de características e alcançando uma precisão de raciocínio robusta.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem fortalecido recentemente o raciocínio de LLMs, mas o seu foco na correção da resposta final deixa uma lacuna crítica: ele não garante a robustez do próprio processo de raciocínio. Adotamos uma visão filosófica simples: um raciocínio robusto deve permanecer útil para além da mente que o produziu, e tratamos o raciocínio como uma forma de transferência de significado que deve sobreviver a truncamento, reinterpretação e continuação. Com base neste princípio, introduzimos o Aprendizado por Reforço com Recompensa Transferível (RLTR), que operacionaliza a robustez por meio de uma recompensa de transferência que testa se um prefixo de raciocínio parcial de um modelo pode guiar um modelo separado para a resposta correta. Isso incentiva os LLMs a produzirem raciocínios que são estáveis, interpretáveis e genuinamente generalizáveis. Nossa abordagem melhora a consistência da amostragem enquanto aumenta a precisão da resposta final, e atinge um desempenho comparável em substancialmente menos etapas de treinamento. Por exemplo, no MATH500, o RLTR alcança um ganho de +3,6%p em Maj@64 em comparação com o RLVR e iguala a precisão média do RLVR com aproximadamente 2,5 vezes menos etapas de treinamento, fornecendo um raciocínio mais confiável e significativamente mais eficiente em termos de amostragem.
Os modelos de raciocínio aprimoram a resolução de problemas através da escalabilidade do poder computacional em tempo de teste, mas enfrentam um paradoxo crítico: tokens de pensamento excessivos frequentemente degradam o desempenho em vez de melhorá-lo. Atribuímos isso a uma falha arquitetônica fundamental: os LLMs padrão operam como motores de "alocação exclusiva" (malloc-only), acumulando continuamente etapas válidas e redundantes sem um mecanismo para podar informações obsoletas. Para romper este ciclo, propomos o Free()LM, um modelo que introduz uma capacidade intrínseca de auto-esquecimento através do Free-Module, um adaptador LoRA plug-and-play. Ao alternar iterativamente entre modos de raciocínio e limpeza, o Free()LM identifica e elimina dinamicamente fragmentos de contexto inúteis, mantendo um estado compacto e livre de ruído. Extensos experimentos demonstram que o Free()LM proporciona melhorias consistentes em todas as escalas de modelo (8B a 685B). Ele alcança uma melhoria média de 3,3% sobre as melhores baselines de raciocínio, estabelecendo até mesmo um novo estado da arte no IMOanswerBench usando o DeepSeek V3.2-Speciale. Mais notavelmente, em tarefas de longo horizonte onde o modelo padrão Qwen3-235B-A22B sofre um colapso total (0% de precisão), o Free()LM restaura o desempenho para 50%. Nossas descobertas sugerem que a inteligência sustentável requer tanto a liberdade de esquecer quanto o poder de pensar.
Os agentes baseados em modelos de linguagem de grande escala (LLM) são cada vez mais esperados para negociar, coordenar e transacionar autonomamente, no entanto, os benchmarks existentes carecem de configurações fundamentadas para avaliar a interação económica mediada por linguagem entre múltiplos agentes. Apresentamos o AgenticPay, um benchmark e framework de simulação para negociação multiagente entre comprador e vendedor, orientada por linguagem natural. O AgenticPay modela mercados nos quais compradores e vendedores possuem restrições privadas e valorações dependentes do produto, e devem chegar a acordos através de negociação linguística multi-turno, e não apenas através de licitações numéricas. O framework suporta um conjunto diversificado de mais de 110 tarefas, que vão desde a barganha bilateral até mercados muitos-para-muitos, com extração estruturada de ações e métricas para viabilidade, eficiência e bem-estar. A avaliação de LLMs de última geração, proprietários e de pesos abertos, revela lacunas substanciais no desempenho de negociação e destaca desafios no raciocínio estratégico de longo horizonte, estabelecendo o AgenticPay como uma base para estudar o comércio agentivo e a interação de mercado baseada em linguagem. O código e o conjunto de dados estão disponíveis no link: https://github.com/SafeRL-Lab/AgenticPay.
Os agentes de código baseados em Large Language Models (LLMs) estão resolvendo cada vez mais problemas em nível de repositório por meio da edição iterativa de código, invocação de ferramentas e validação de correções candidatas. Nestes fluxos de trabalho, os agentes frequentemente escrevem testes de forma dinâmica, um paradigma adotado por muitos agentes bem posicionados na leaderboard do SWE-bench. No entanto, observamos que o GPT-5.2, que praticamente não escreve novos testes, pode alcançar um desempenho comparável aos agentes de topo. Isto levanta uma questão crítica: se tais testes melhoram significativamente a resolução de problemas ou se apenas imitam as práticas de teste humanas, consumindo um orçamento substancial de interações. Para revelar o impacto dos testes escritos por agentes, apresentamos um estudo empírico que analisa trajetórias de agentes em seis LLMs state-of-the-art no SWE-bench Verified. Nossos resultados mostram que, embora a escrita de testes seja comumente adotada, tarefas resolvidas e não resolvidas dentro do mesmo modelo exibem frequências similares de escrita de testes. Além disso, estes testes normalmente servem como canais de feedback observacional, onde os agentes preferem declarações de impressão (print statements) que revelam valores significativamente mais do que verificações formais baseadas em asserções. Com base nestes insights, realizamos um experimento controlado revisando os prompts de quatro agentes para aumentar ou reduzir a escrita de testes. Os resultados sugerem que mudanças no volume de testes escritos por agentes não alteram significativamente os resultados finais. Em conjunto, nosso estudo revela que as práticas atuais de escrita de testes podem oferecer uma utilidade marginal em tarefas autônomas de engenharia de software.
Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados para geração de código em fluxos de trabalho de desenvolvimento rápidos e informais, frequentemente designados por *vibe coding*, onde a velocidade e a conveniência são priorizadas e os requisitos de segurança raramente são explicitados. Neste contexto, os modelos produzem frequentemente código funcionalmente correto, mas inseguro, criando um risco de segurança crescente. As abordagens existentes para melhorar a segurança do código baseiam-se no *fine-tuning* completo dos parâmetros ou em adaptações com eficiência de parâmetros, que são ou dispendiosas e propensas ao esquecimento catastrófico, ou operam com uma granularidade grossa, com interpretabilidade e controlo limitados. Apresentamos o GoodVibe, uma estrutura a nível neuronal para melhorar a segurança dos modelos de linguagem para código por padrão. O GoodVibe baseia-se na perceção fundamental de que o raciocínio relevante para a segurança está localizado num pequeno subconjunto de neurónios. Identificamos estes neurónios usando atribuição baseada em gradientes a partir de uma tarefa de segurança supervisionada e realizamos um *fine-tuning* neuronal seletivo que atualiza apenas este subespaço crítico para a segurança. Para reduzir ainda mais o custo de treino, introduzimos o agrupamento de neurónios orientado por ativação, permitindo atualizações estruturadas com sobrecarga mínima. Avaliamos o GoodVibe em seis LLMs abrangendo linguagens de programação críticas para a segurança, incluindo C++, Java, Swift e Go. O GoodVibe melhora substancialmente a segurança do código gerado, preservando a utilidade geral do modelo, alcançando uma melhoria até 2,5x em relação aos modelos base, equiparando ou excedendo o *fine-tuning* completo com mais de 4700x menos parâmetros treináveis e reduzindo a computação de treino em mais de 3,6x comparativamente à linha de base com eficiência de parâmetros (LoRA). Os nossos resultados demonstram que a otimização a nível neuronal oferece uma abordagem eficaz e escalável para garantir a segurança da geração de código sem sacrificar a eficiência ou a generalidade.
A memória de auto-evolução serve como parâmetros treináveis para agentes baseados em Modelos de Linguagem de Grande Porte (LLMs), onde a extração (destilação de insights a partir da experiência) e a gestão (atualização do banco de memória) devem estar estritamente coordenadas. Os métodos existentes otimizam predominantemente a gestão da memória enquanto tratam a extração de memória como um processo estático, resultando em baixa generalização, onde os agentes acumulam ruído específico da instância em vez de memórias robustas. Para resolver isso, propomos o Gerenciamento e Extração de Memória Unificada (UMEM), uma estrutura de agente auto-evolutiva que otimiza conjuntamente um Modelo de Linguagem de Grande Porte para extrair e gerenciar memórias simultaneamente. Para mitigar o sobreajuste a instâncias específicas, introduzimos a Modelagem de Vizinhança Semântica e otimizamos o modelo com uma recompensa de utilidade marginal a nível de vizinhança via GRPO. Esta abordagem garante a generalização da memória ao avaliar a utilidade da memória em clusters de consultas semanticamente relacionadas. Extensos experimentos em cinco benchmarks demonstram que o UMEM supera significativamente baselines altamente competitivos, alcançando uma melhoria de até 10,67% em tarefas interativas multi-turno. Além disso, o UMEM mantém uma curva de crescimento monotônico durante a evolução contínua. Os códigos e modelos serão disponibilizados publicamente.
Robots em ambientes dinâmicos centrados no ser humano devem seguir instruções linguísticas mantendo simultaneamente controlo reativo em tempo real. Os modelos visão-linguagem-ação (VLA) oferecem uma estrutura promissora, mas partem do princípio de um raciocínio e controlo temporalmente alinhados, apesar de a inferência semântica ser inerentemente atrasada relativamente à ação em tempo real. Apresentamos o TIC-VLA, uma estrutura consciente da latência que modela explicitamente o raciocínio semântico atrasado durante a geração de ações. O TIC-VLA define uma interface semântica de controlo atrasado que condiciona a geração de ações a estados semânticos visão-linguagem atrasados e a metadados de latência explícitos, para além das observações atuais, permitindo que as políticas compensem o raciocínio assíncrono. Propomos ainda um pipeline de treino consistente com a latência que injeta atrasos de inferência de raciocínio durante a aprendizagem por imitação e a aprendizagem por reforço online, alinhando o treino com a implantação assíncrona. Para suportar uma avaliação realista, apresentamos o DynaNav, um conjunto de simulações foto-realistas com precisão física para navegação guiada por linguagem em ambientes dinâmicos. Experiências extensivas em simulação e num robô real mostram que o TIC-VLA supera consistentemente os modelos VLA anteriores, mantendo um controlo robusto em tempo real sob latências de raciocínio de vários segundos. Site do projeto: https://ucla-mobility.github.io/TIC-VLA/
Os modelos de difusão alcançaram uma qualidade de geração notável, mas sofrem com um custo de inferência significativo devido à sua dependência de múltiplas etapas sequenciais de remoção de ruído, motivando esforços recentes para destilar esse processo de inferência em um regime de poucas etapas. No entanto, os métodos de destilação existentes normalmente aproximam a trajetória do professor usando atalhos lineares, o que dificulta a correspondência com suas direções tangentes em constante mudança à medida que as velocidades evoluem ao longo dos intervalos de tempo, levando assim à degradação da qualidade. Para superar essa limitação, propomos o ArcFlow, uma estrutura de destilação de poucas etapas que emprega explicitamente trajetórias de fluxo não-lineares para aproximar trajetórias de professores pré-treinados. Concretamente, o ArcFlow parametriza o campo de velocidade subjacente à trajetória de inferência como uma mistura de processos de momento contínuos. Isso permite que o ArcFlow capture a evolução da velocidade e extrapole velocidades coerentes para formar uma trajetória não-linear contínua dentro de cada etapa de remoção de ruído. Importante, essa parametrização admite uma integração analítica dessa trajetória não-linear, o que contorna erros de discretização numérica e resulta em uma aproximação de alta precisão da trajetória do professor. Para treinar essa parametrização em um gerador de poucas etapas, implementamos o ArcFlow via destilação de trajetória em modelos professores pré-treinados usando adaptadores leves. Essa estratégia garante convergência rápida e estável, preservando diversidade e qualidade gerativa. Construído em modelos de grande escala (Qwen-Image-20B e FLUX.1-dev), o ArcFlow sintoniza finamente menos de 5% dos parâmetros originais e alcança uma aceleração de 40x com 2 NFEs sobre os professores multi-etapa originais sem degradação significativa de qualidade. Experimentos em benchmarks mostram a eficácia do ArcFlow tanto qualitativa quanto quantitativamente.
A rápida adoção de arquiteturas Mixture-of-Experts (MoE) marca uma grande mudança na implantação de Grandes Modelos de Linguagem (LLMs). Os LLMs MoE melhoram a eficiência de escalonamento ao ativar apenas um pequeno subconjunto de parâmetros por token, mas a sua estrutura de roteamento introduz novas superfícies de ataque à segurança. Descobrimos que comportamentos críticos para a segurança em LLMs MoE (por exemplo, recusa) estão concentrados em um pequeno conjunto de especialistas, em vez de serem uniformemente distribuídos. Com base nisso, propomos a Lobotomia de Grandes Modelos de Linguagem (L^3), um ataque agnóstico à arquitetura e sem necessidade de treinamento que compromete o alinhamento de segurança explorando a dinâmica de roteamento dos especialistas. A L^3 aprende padrões de roteamento que se correlacionam com a recusa, atribui o comportamento de segurança a especialistas específicos e silencia de forma adaptativa os especialistas mais relevantes para a segurança até que sejam produzidas saídas prejudiciais. Avaliamos a L^3 em oito LLMs MoE de código aberto de última geração e mostramos que o nosso silenciamento adaptativo de especialistas aumenta o sucesso médio do ataque de 7,3% para 70,4%, atingindo até 86,3%, superando métodos anteriores de *jailbreak* para MoE sem treinamento. Além disso, contornar as salvaguardas normalmente requer silenciar menos de 20% dos especialistas por camada, preservando em grande parte a utilidade linguística geral. Estes resultados revelam uma tensão fundamental entre o projeto MoE orientado para a eficiência e um alinhamento de segurança robusto, e motivam a distribuição de mecanismos de segurança de forma mais robusta em futuros LLMs MoE com métodos conscientes da arquitetura e do roteamento.
O paradigma predominante no desenvolvimento de grandes modelos de linguagem (LLMs) envolve o pré-treinamento de um modelo base, seguido por treinamento adicional para melhorar o desempenho e o comportamento do modelo. No entanto, a otimização de hiperparâmetros e as leis de escala têm sido estudadas principalmente a partir da perspectiva da perda de validação do modelo base, ignorando a adaptabilidade a tarefas subsequentes. Neste trabalho, estudamos o pré-treinamento a partir da perspectiva da plasticidade do modelo, ou seja, a capacidade do modelo base de se adaptar com sucesso a tarefas subsequentes por meio do ajuste fino. Focamos no papel do *weight decay* (decadência de pesos), um parâmetro de regularização fundamental durante o pré-treinamento. Por meio de experimentos sistemáticos, mostramos que modelos treinados com valores maiores de *weight decay* são mais plásticos, o que significa que exibem ganhos de desempenho maiores quando ajustados em tarefas subsequentes. Este fenômeno pode levar a trade-offs contra-intuitivos, nos quais modelos base com pior desempenho após o pré-treinamento podem ter um desempenho superior após o ajuste fino. Uma investigação mais aprofundada dos efeitos mecanicistas do *weight decay* no comportamento do modelo revela que ele incentiva representações linearmente separáveis, regulariza as matrizes de atenção e reduz o sobreajuste nos dados de treinamento. Em conclusão, este trabalho demonstra a importância de usar métricas de avaliação além da perda de entropia cruzada para a otimização de hiperparâmetros e lança luz sobre o papel multifacetado que um único hiperparâmetro de otimização desempenha na moldagem do comportamento do modelo.
Os agentes de uso computacional (CUAs) têm feito progressos extraordinários no último ano, mas ainda produzem frequentemente ações desalinhadas que se desviam da intenção original do utilizador. Tais ações desalinhadas podem surgir de ataques externos (por exemplo, injeção indireta de instruções) ou de limitações internas (por exemplo, raciocínio erróneo). Elas não só expõem os CUAs a riscos de segurança, como também degradam a eficiência e a fiabilidade das tarefas. Este trabalho faz o primeiro esforço para definir e estudar a deteção de ações desalinhadas em CUAs, com uma cobertura abrangente de ações desalinhadas induzidas externamente e surgidas internamente. Identificamos ainda três categorias comuns na implementação de CUAs no mundo real e construímos o MisActBench, um benchmark de trajetórias realistas com rótulos de alinhamento a nível de ação, anotados por humanos. Além disso, propomos o DeAction, um guardrail prático e universal que deteta ações desalinhadas antes da execução e as corrige iterativamente através de feedback estruturado. O DeAction supera todas as linhas de base existentes em avaliações offline e online com sobrecarga de latência moderada: (1) No MisActBench, supera as linhas de base em mais de 15% absolutos no score F1; (2) Na avaliação online, reduz a taxa de sucesso de ataques em mais de 90% em ambientes adversariais, preservando ou mesmo melhorando a taxa de sucesso de tarefas em ambientes benignos.
Na última década, a IA explicável concentrou-se principalmente na interpretação de previsões individuais de modelos, produzindo explicações pós-hoc que relacionam entradas e saídas sob uma estrutura de decisão fixa. Avanços recentes em modelos de linguagem grande (LLMs) permitiram sistemas de IA agentes cujo comportamento se desenrola em trajetórias de múltiplos passos. Nestes contextos, o sucesso e o fracasso são determinados por sequências de decisões, e não por uma única saída. Embora úteis, permanece incerto como as abordagens de explicação concebidas para previsões estáticas se traduzem em contextos agentes onde o comportamento emerge ao longo do tempo. Neste trabalho, colmatamos o fosso entre a explicabilidade estática e a agente, comparando explicações baseadas em atribuição com diagnósticos baseados em traços em ambos os contextos. Para tornar esta distinção explícita, comparamos empiricamente explicações baseadas em atribuição usadas em tarefas de classificação estática com diagnósticos baseados em traços usados em benchmarks agentes (TAU-bench Airline e AssistantBench). Os nossos resultados mostram que, embora os métodos de atribuição atinjam classificações de características estáveis em contextos estáticos (Spearman ρ= 0,86), eles não podem ser aplicados de forma fiável para diagnosticar falhas a nível de execução em trajetórias agentes. Em contraste, a avaliação por rubrica baseada em traços para contextos agentes localiza consistentemente colapsos de comportamento e revela que a inconsistência no rastreamento de estado é 2,7 vezes mais prevalente em execuções falhadas e reduz a probabilidade de sucesso em 49%. Estes resultados motivam uma mudança para a explicabilidade a nível de trajetória para sistemas agentes na avaliação e diagnóstico do comportamento autónomo da IA. Recursos: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
O Aprendizado Federado (FL) permite que múltiplas partes treinem modelos de aprendizado de máquina de forma colaborativa sem compartilhar dados brutos. No entanto, antes do treinamento, os dados devem ser pré-processados para lidar com valores ausentes, formatos inconsistentes e escalas de características heterogêneas. Esta etapa de pré-processamento é crítica para o desempenho do modelo, mas é largamente negligenciada na pesquisa em FL. Em sistemas práticos de FL, as restrições de privacidade impedem a centralização de dados brutos, enquanto a eficiência de comunicação introduz desafios adicionais para o pré-processamento distribuído. Apresentamos o FedPS, uma estrutura unificada para pré-processamento de dados federado baseada em estatísticas agregadas. O FedPS aproveita técnicas de esboço de dados para resumir eficientemente conjuntos de dados locais, preservando informações estatísticas essenciais. Com base nestes resumos, projetamos algoritmos federados para escalonamento de características, codificação, discretização e imputação de valores ausentes, e estendemos modelos relacionados ao pré-processamento, como k-Means, k-Vizinhos Mais Próximos e Regressão Linear Bayesiana, para configurações de FL horizontais e verticais. O FedPS fornece pipelines de pré-processamento flexíveis, eficientes em comunicação e consistentes para implantações práticas de FL.
A recomendação generativa via modelos autorregressivos unificou recuperação e classificação em uma estrutura única de geração condicional. No entanto, o ajuste fino desses modelos com Aprendizagem por Reforço (RL) frequentemente sofre de um desalinhamento fundamental entre probabilidade e recompensa. A decodificação convencional dominada por verossimilhança (ex.: busca em feixe) exibe um viés míope em relação a prefixos localmente prováveis, causando duas falhas críticas: (1) exploração insuficiente, onde itens de alta recompensa em ramos de baixa probabilidade são podados prematuramente e raramente amostrados, e (2) compressão de vantagem, onde trajetórias que compartilham prefixos de alta probabilidade recebem recompensas altamente correlacionadas com baixa variância intragrupo, produzindo um sinal comparativo fraco para RL. Para enfrentar esses desafios, propomos o V-STAR, uma estrutura de Amostragem Guiada por Valor e Reforço de Vantagem com Estrutura em Árvore. O V-STAR forma um ciclo de auto-evolução por meio de dois componentes sinérgicos. Primeiro, uma Decodificação Eficiente Guiada por Valor (VED) é desenvolvida para identificar nós decisivos e aprofundar seletivamente prefixos de alto potencial. Isso melhora a eficiência da exploração sem uma busca exaustiva em árvore. Segundo, propomos o Sibling-GRPO, que explora a topologia de árvore induzida para calcular vantagens relativas entre irmãos e concentra os sinais de aprendizado em decisões de ramificação decisivas. Experimentos extensos em conjuntos de dados offline e online demonstram que o V-STAR supera os baselines state-of-the-art, oferecendo precisão superior e diversidade no conjunto de candidatos sob restrições rigorosas de latência.
O Problema de Escalonamento em Máquinas Paralelas Não Relacionadas (UPMSP) com datas de liberação, preparações e restrições de elegibilidade representa um desafio multiobjetivo significativo. Os métodos tradicionais lutam para equilibrar a minimização do Atraso Total Ponderado (TWT) e do Tempo Total de Preparação (TST). Este artigo propõe uma estrutura de Aprendizagem por Reforço Profundo utilizando a Otimização de Políticas Proximais (PPO) e uma Rede Neural de Grafos (GNN). A GNN representa eficazmente o estado complexo de tarefas, máquinas e preparações, permitindo que o agente PPO aprenda uma política de escalonamento direta. Orientado por uma função de recompensa multiobjetivo, o agente minimiza simultaneamente o TWT e o TST. Resultados experimentais em instâncias de referência demonstram que nosso agente PPO-GNN supera significativamente uma regra de despacho padrão e uma metaheurística, alcançando um equilíbrio superior entre ambos os objetivos. Isso fornece uma solução robusta e escalável para o escalonamento complexo na manufatura.
Os detectores de texto gerado por IA enfrentam um desafio crítico de robustez: ataques de paráfrase adversarial que preservam a semântica enquanto evadem a detecção. Apresentamos o StealthRL, uma estrutura de aprendizagem por reforço que testa a robustez dos detectores sob condições adversarial realistas. O StealthRL treina uma política de paráfrase contra um conjunto de múltiplos detectores usando o Group Relative Policy Optimization (GRPO) com adaptadores LoRA no modelo Qwen3-4B, otimizando uma recompensa composta que equilibra a evasão do detector com a preservação semântica. Avaliamos seis configurações de ataque (M0-M5) contra três famílias de detectores (RoBERTa, FastDetectGPT e Binoculars) no ponto de operação clinicamente relevante de taxa de falsos positivos de 1%. O StealthRL alcança detecção próxima de zero (TPR@1%FPR média de 0,001), reduz a AUROC média de 0,74 para 0,27 e atinge uma taxa de sucesso de ataque de 99,9%. Criticamente, os ataques transferem-se para uma família de detectores excluída não vista durante o treinamento, revelando vulnerabilidades arquitetónicas partilhadas em vez de fragilidades específicas de um detector. Adicionalmente, conduzimos uma avaliação de qualidade baseada em LLM através de pontuação Likert, analisamos as distribuições de pontuação dos detectores para explicar por que a evasão é bem-sucedida e fornecemos a AUROC por detector com intervalos de confiança de *bootstrap*. Os nossos resultados expõem lacunas significativas de robustez na detecção atual de texto de IA e estabelecem o StealthRL como um protocolo de avaliação adversarial fundamentado. O código e o *pipeline* de avaliação estão publicamente disponíveis em https://github.com/suraj-ranganath/StealthRL.