Artigos de pesquisa em IA selecionados diariamente com traduções
A geração em poucos passos tem sido um objetivo de longa data, com métodos recentes de geração em um único passo, exemplificados pelo MeanFlow, alcançando resultados notáveis. A pesquisa existente sobre o MeanFlow concentra-se principalmente na geração de classe para imagem. No entanto, uma direção intuitiva e ainda inexplorada é estender a condição de rótulos de classe fixos para entradas de texto flexíveis, permitindo uma criação de conteúdo mais rica. Em comparação com os rótulos de classe limitados, as condições de texto impõem desafios maiores à capacidade de compreensão do modelo, exigindo a integração eficaz de poderosos codificadores de texto na estrutura do MeanFlow. Surpreendentemente, embora a incorporação de condições de texto pareça direta, descobrimos que a integração de poderosos codificadores de texto baseados em LLM usando estratégias de treinamento convencionais resulta em desempenho insatisfatório. Para descobrir a causa subjacente, realizamos análises detalhadas e revelamos que, devido ao número extremamente limitado de etapas de refinamento na geração do MeanFlow, como apenas uma etapa, as representações de características de texto são obrigadas a possuir uma discriminabilidade suficientemente alta. Isso também explica por que características de classe discretas e facilmente distinguíveis têm um bom desempenho dentro da estrutura do MeanFlow. Guiados por essas percepções, aproveitamos um poderoso codificador de texto baseado em LLM, validado para possuir as propriedades semânticas necessárias, e adaptamos o processo de geração do MeanFlow a essa estrutura, resultando em uma síntese eficiente condicionada por texto pela primeira vez. Além disso, validamos nossa abordagem no modelo de difusão amplamente utilizado, demonstrando melhorias significativas no desempenho da geração. Esperamos que este trabalho forneça uma referência geral e prática para pesquisas futuras sobre geração de MeanFlow condicionada por texto. O código está disponível em https://github.com/AMAP-ML/EMF.
O raciocínio em Cadeia de Pensamento (CoT) tornou-se um poderoso impulsionador da previsão de trajetória na condução autónoma baseada em VLA, mas a sua natureza autoregressiva impõe um custo de latência proibitivo para implantação em tempo real. Os métodos de CoT latente tentam colmatar esta lacuna comprimindo o raciocínio em estados ocultos contínuos, mas ficam consistentemente aquém das suas contrapartes explícitas. Sugerimos que isto se deve a representações latentes puramente linguísticas comprimirem uma abstração simbólica do mundo, em vez das dinâmicas causais que realmente governam a condução. Assim, apresentamos o OneVL (Raciocínio e planeamento latente em um passo com explicações visão-linguagem), uma estrutura unificada de VLA e Modelo Mundial que encaminha o raciocínio através de tokens latentes compactos supervisionados por descodificadores auxiliares duplos. Paralelamente a um descodificador de linguagem que reconstrói o CoT textual, introduzimos um descodificador de modelo visual mundial que prevê tokens de frames futuros, forçando o espaço latente a internalizar as dinâmicas causais da geometria da estrada, movimento de agentes e mudanças ambientais. Um pipeline de treino em três etapas alinha progressivamente estes elementos latentes com objetivos de trajetória, linguagem e visão, garantindo uma otimização conjunta estável. Na inferência, os descodificadores auxiliares são descartados e todos os tokens latentes são pré-preenchidos num único passo paralelo, igualando a velocidade da previsão apenas de resposta. Em quatro benchmarks, o OneVL torna-se o primeiro método de CoT latente a superar o CoT explícito, oferecendo precisão de ponta à latência de apenas resposta, e fornecendo evidência direta de que uma compressão mais apertada, quando orientada por supervisão tanto de linguagem como de modelo mundial, produz representações mais generalizáveis do que o raciocínio verboso token-a-token. Página do Projeto: https://xiaomi-embodied-intelligence.github.io/OneVL
Os grandes modelos de linguagem são cada vez mais esperados para atuar como agentes de propósito geral que interagem com ambientes externos de ferramentas com estado. O Model Context Protocol (MCP) e as habilidades mais amplas de agentes oferecem uma interface unificada para conectar agentes a serviços do mundo real escaláveis, mas o treinamento de agentes robustos continua limitado pela falta de ambientes realistas e mecanismos fundamentados para aprendizado contínuo. Neste artigo, apresentamos o Agent-World, uma arena de treinamento de auto-evolução para avançar a inteligência geral de agentes por meio de ambientes escaláveis. O Agent-World possui dois componentes principais: (1) Descoberta Autônoma de Ambientes e Tarefas, que explora autonomamente bancos de dados alinhados por tópico e ecossistemas de ferramentas executáveis a partir de milhares de temas de ambiente do mundo real, e sintetiza tarefas verificáveis com dificuldade controlável; e (2) Treinamento Contínuo de Auto-Evolução de Agentes, que combina aprendizado por reforço multi-ambiente com uma arena de agentes de auto-evolução que identifica automaticamente lacunas de capacidade através da síntese dinâmica de tarefas e impulsiona o aprendizado direcionado, permitindo a co-evolução de políticas de agentes e ambientes. Em 23 benchmarks desafiadores de agentes, o Agent-World-8B e 14B superaram consistentemente modelos proprietários robustos e linhas de base de escalonamento de ambiente. Análises adicionais revelam tendências de escalonamento em relação à diversidade de ambientes e rodadas de auto-evolução, oferecendo insights para a construção de inteligência geral de agentes.
O desenvolvimento de jogos situa-se na interseção entre o design criativo e a engenharia de software complexa, exigindo a orquestração conjunta de motores de jogo, loops em tempo real e estados fortemente acoplados distribuídos por muitos ficheiros. Embora os Modelos de Linguagem de Grande Porte (LLMs) e agentes de código agora resolvam tarefas de programação isoladas com facilidade, eles tropeçam consistentemente quando solicitados a produzir um jogo totalmente jogável a partir de um design de alto nível, sucumbindo a inconsistências entre ficheiros, ligações de cena quebradas e incoerência lógica. Nós preenchemos esta lacuna com o OpenGame, o primeiro framework agentivo de código aberto explicitamente concebido para a criação de jogos web de ponta a ponta. No seu núcleo está a Game Skill, uma capacidade reutilizável e em evolução composta por uma Template Skill, que desenvolve uma biblioteca de esqueletos de projeto a partir da experiência, e uma Debug Skill, que mantém um protocolo dinâmico de correções verificadas - permitindo em conjunto que o agente estruture arquiteturas estáveis e repare erros de integração de forma sistemática, em vez de corrigir bugs de sintaxe isolados. A alimentar este framework está o GameCoder-27B, um LLM de código especializado no domínio de motores de jogo através de um pipeline de três fases: pré-treinamento contínuo, afinação supervisionada e aprendizagem por reforço baseada na execução. Uma vez que verificar a jogabilidade interativa é fundamentalmente mais difícil do que verificar código estático, introduzimos ainda o OpenGame-Bench, um pipeline de avaliação que classifica a geração agentiva de jogos ao longo de três eixos - Saúde da Build, Usabilidade Visual e Alinhamento de Intenção - através de execução headless num browser e avaliação por Modelos de Linguagem Visual (VLM). Através de 150 prompts de jogos diversos, o OpenGame estabelece um novo estado da arte. Esperamos que o OpenGame impulsione os agentes de código para além de problemas discretos de engenharia de software e em direção à construção de aplicações interativas complexas do mundo real. O nosso framework será totalmente disponibilizado em código aberto.
Os modelos de mundo em vídeo alcançaram sucesso notável na simulação da dinâmica ambiental em resposta a ações de usuários ou agentes. Eles são modelados como sistemas de geração de vídeo condicionados por ações que recebem quadros históricos e ações atuais como entrada para prever quadros futuros. No entanto, a maioria das abordagens existentes limita-se a cenários de agente único e não consegue capturar as interações complexas inerentes aos sistemas multiagente do mundo real. Apresentamos o MultiWorld, uma estrutura unificada para modelagem de mundo multiagente e multivista que permite o controle preciso de múltiplos agentes mantendo a consistência multivista. Introduzimos o Módulo de Condição Multiagente para alcançar controlabilidade multiagente precisa, e o Codificador de Estado Global para garantir observações coerentes entre diferentes vistas. O MultiWorld suporta escalonamento flexível de contagens de agentes e vistas, e sintetiza diferentes vistas em paralelo para alta eficiência. Experimentos em ambientes de jogos multijogador e tarefas de manipulação multirobô demonstram que o MultiWorld supera as linhas de base em fidelidade de vídeo, capacidade de seguimento de ação e consistência multivista. Página do projeto: https://multi-world.github.io/
O aprendizado por reforço com recompensas verificáveis (RLVR) demonstrou eficácia notável na melhoria das capacidades de raciocínio de grandes modelos de linguagem. À medida que os modelos evoluem para arquiteturas multimodalmente nativas, estender o RLVR para a compreensão de vídeo torna-se cada vez mais importante, mas permanece amplamente inexplorado, devido à diversidade de tipos de tarefas de vídeo, à sobrecarga computacional de decodificar e pré-processar repetidamente entradas visuais de alta dimensão e à dificuldade de avaliação reproduzível entre numerosos hiperparâmetros sensíveis. As estruturas de treinamento RL de código aberto existentes fornecem infraestrutura sólida para cenários de texto e imagem, mas carecem de otimizações sistemáticas adaptadas à modalidade de vídeo. Neste trabalho, apresentamos o EasyVideoR1, uma estrutura completa e eficiente de aprendizado por reforço projetada especificamente para treinar grandes modelos visão-linguagem em tarefas de compreensão de vídeo. O EasyVideoR1 oferece as seguintes contribuições: (1) um pipeline completo de treinamento RL para vídeo com pré-processamento offline e armazenamento em cache de tensores que elimina a decodificação redundante de vídeo e produz um ganho de throughput de 1,47 vezes; (2) um sistema de recompensa abrangente e consciente da tarefa, cobrindo 11 tipos distintos de problemas de vídeo e imagem com roteamento unificado e extensão modular; (3) um paradigma de treinamento de dados misto offline-online que combina trajetórias curadas de alta qualidade com exploração on-policy, beneficiando a aprendizagem de tarefas mais desafiadoras; (4) treinamento conjunto de imagem-vídeo com orçamentos de pixels independentemente configuráveis, permitindo que as duas modalidades se reforcem mutuamente; e (5) uma estrutura de avaliação assíncrona multi-benchmark abrangendo 22 benchmarks principais de compreensão de vídeo, com precisão reproduzida alinhada de perto com as pontuações oficialmente relatadas.
Os grandes modelos de linguagem são tipicamente pós-treinados usando ajuste fino supervisionado (SFT) e aprendizado por reforço (RL), porém unificar eficientemente a injeção de conhecimento com uma generalização robusta permanece um desafio. Neste trabalho, fornecemos uma análise da dinâmica de treinamento demonstrando que o SFT pode ser interpretado como um caso especial de otimização por gradiente de política com uma recompensa implícita extremamente esparsa e ponderação inversa de probabilidade instável, que juntas levam à dependência de caminho único, colapso de entropia e explosão do gradiente. Motivados por este diagnóstico, propomos o Ajuste Fino em Grupo (GFT), um framework unificado de pós-treinamento que aborda essas limitações intrínsecas através de dois mecanismos: o Aprendizado de Vantagem em Grupo, que constrói grupos de resposta diversos e deriva supervisão contrastiva normalizada para aliviar a esparsidade da recompensa, e a Retificação de Coeficiente Dinâmico, que limita adaptivamente os pesos de probabilidade inversa para estabilizar a otimização enquanto preserva a injeção eficiente de conhecimento. Experimentos demonstram que o GFT supera consistentemente métodos baseados em SFT e produz políticas que se integram mais suavemente com o treinamento subsequente de RL.
Os grandes modelos de linguagem estão evoluindo rapidamente para agentes de codificação interativos capazes de programação web de ponta a ponta, no entanto, os benchmarks existentes avaliam apenas fatias estreitas dessa capacidade, tipicamente a geração condicionada por texto com métricas de correção estática, deixando a fidelidade visual, a qualidade da interação e o raciocínio em nível de base de código amplamente não mensurados. Apresentamos o WebCompass, um benchmark multimodal que fornece avaliação unificada do ciclo de vida da capacidade de engenharia web. Reconhecendo que a codificação web do mundo real é um ciclo iterativo de geração, edição e correção, o WebCompass abrange três modalidades de entrada (texto, imagem, vídeo) e três tipos de tarefas (geração, edição, reparo), resultando em sete categorias de tarefas que espelham fluxos de trabalho profissionais. Por meio de um pipeline multiestágio com intervenção humana, curamos instâncias que cobrem 15 domínios de geração, 16 tipos de operação de edição e 11 tipos de defeito para reparo, cada um anotado em níveis Fácil/Médio/Difícil. Para avaliação, adotamos um protocolo de LLM-como-Juiz guiado por checklist para edição e reparo, e propomos um novo paradigma de Agente-como-Juiz para geração que executa autonomamente os websites gerados em um navegador real, explora comportamentos interativos via Model Context Protocol (MCP) e sintetiza iterativamente casos de teste direcionados, aproximando-se estreitamente dos testes de aceitação humana. Avaliamos modelos representativos de código fechado e aberto e observamos que: (1) os modelos de código fechado permanecem substancialmente mais fortes e equilibrados; (2) edição e reparo exibem perfis de dificuldade distintos, com o reparo preservando melhor a interatividade, mas permanecendo desafiador em termos de execução; (3) a estética é o gargalo mais persistente, especialmente para modelos de código aberto; e (4) a escolha do framework afeta materialmente os resultados, com Vue sendo consistentemente desafiador, enquanto React e Vanilla/HTML apresentam desempenho mais forte dependendo do tipo de tarefa.
A construção de ambientes para treinar e avaliar agentes semelhantes a garras continua a ser um processo manual e intensivo em recursos humanos que não é escalável. Argumentamos que o necessário não é apenas um conjunto de dados, mas um *pipeline* automatizado capaz de gerar ambientes diversos e verificados sob demanda. Para esse fim, apresentamos o ClawEnvKit, um *pipeline* de geração autónoma que instancia este formalismo a partir de descrições em linguagem natural. O *pipeline* compreende três módulos: (1) um analisador que extrai parâmetros estruturados de geração a partir da entrada em linguagem natural; (2) um gerador que produz a especificação da tarefa, a interface da ferramenta e a configuração de pontuação; e (3) um validador que impõe viabilidade, diversidade, validade estrutural e consistência interna em todos os ambientes gerados. Usando o ClawEnvKit, construímos o Auto-ClawEval, o primeiro *benchmark* em larga escala para agentes semelhantes a garras, compreendendo 1.040 ambientes em 24 categorias. Empiricamente, o Auto-ClawEval iguala ou supera ambientes curados por humanos em coerência e clareza a um custo 13.800 vezes menor. Avaliado em 4 famílias de modelos e 8 *frameworks* de agentes, descobrimos que a engenharia de *harness* aumenta o desempenho em até 15,7 pontos percentuais em relação a uma linha de base ReAct simples, a conclusão permanece sendo o principal eixo de variação sem que nenhum modelo sature o *benchmark*, e a geração automatizada permite a avaliação em uma escala anteriormente inviável. Para além da avaliação estática, o ClawEnvKit permite a avaliação em tempo real: os utilizadores descrevem uma capacidade desejada em linguagem natural e obtêm um ambiente verificado sob demanda, transformando a avaliação num processo contínuo e orientado pelo utilizador. O mesmo mecanismo serve como um gerador de ambientes de treino sob demanda, produzindo distribuições de tarefas que se adaptam às fraquezas atuais de um agente, em vez de serem limitadas por registos de utilizador existentes.
Os modelos de linguagem de grande escala alcançaram melhorias significativas de raciocínio através do aprendizado por reforço com recompensas verificáveis (RLVR). No entanto, à medida que as capacidades dos modelos aumentam, a construção de sinais de recompensa de alta qualidade torna-se cada vez mais difícil, tornando-se essencial entender quando o RLVR pode ter sucesso sob formas mais fracas de supervisão. Realizamos um estudo empírico sistemático em diversas famílias de modelos e domínios de raciocínio sob três configurações de supervisão fraca: dados escassos, recompensas ruidosas e recompensas proxy auto supervisionadas. Descobrimos que a generalização é governada pela dinâmica de saturação da recompensa de treinamento: modelos que generalizam exibem uma fase prolongada de pré-saturação durante a qual a recompensa de treinamento e o desempenho subsequente aumentam em conjunto, enquanto modelos que saturam rapidamente memorizam em vez de aprender. Identificamos a fidedignidade do raciocínio, definida como a extensão em que as etapas intermediárias suportam logicamente a resposta final, como a propriedade pré-RL que prevê em qual regime um modelo se enquadra, enquanto a diversidade de saída por si só não é informativa. Motivados por essas descobertas, separamos as contribuições do pré-treinamento contínuo e do ajuste fino supervisionado, descobrindo que o SFT em trajetórias de raciocínio explícitas é necessário para a generalização sob supervisão fraca, enquanto o pré-treinamento contínuo em dados do domínio amplifica o efeito. Aplicadas em conjunto ao Llama3.2-3B-Base, essas intervenções permitem a generalização em todas as três configurações onde o modelo base anteriormente falhava.
À medida que a fronteira de capacidade dos agentes autônomos continua a se expandir, eles se tornam cada vez mais capazes de completar tarefas especializadas por meio de habilidades externas do tipo "plug-and-play". No entanto, os benchmarks atuais testam principalmente se os modelos podem usar habilidades fornecidas, deixando em aberto a questão de se eles podem descobrir habilidades a partir da experiência, repará-las após falhas e manter uma biblioteca coerente ao longo do tempo. Apresentamos o SkillFlow, um benchmark composto por 166 tarefas distribuídas em 20 famílias, no qual a construção de tarefas dentro de cada família segue um Fluxo de Execução Agnóstico a Domínios (DAEF) que define uma estrutura de fluxo de trabalho para o agente, permitindo que essas tarefas compartilhem um fluxo de trabalho consistente. Os agentes são avaliados sob um protocolo de Aprendizado Contínuo Agentivo, no qual começam sem habilidades, resolvem tarefas sequencialmente dentro de cada família, externalizam lições aprendidas por meio de correções de habilidade baseadas em trajetórias e rubricas, e carregam a biblioteca atualizada adiante. Os experimentos revelam uma lacuna substancial de capacidade. Para o Claude Opus 4.6, a evolução contínua de habilidades melhora a taxa de sucesso nas tarefas de 62,65% para 71,08% (+8,43 pontos). No entanto, um alto uso de habilidades não implica necessariamente alta utilidade: o Kimi K2.5 ganha apenas +0,60 pontos, apesar de um uso de habilidades de 66,87%, enquanto o Qwen-Coder-Next atinge apenas uma taxa de conclusão de tarefas de 44,58% e ainda regride em relação à configuração padrão (vanilla). O SkillFlow contribui com um ambiente de teste estruturado para essa direção de pesquisa e uma análise empírica detalhada da descoberta, correção, transferência de habilidades e seus modos de falha sob avaliação contínua.
A fusão de adaptadores LoRA treinados separadamente é uma alternativa prática ao treinamento multitarefa conjunto, mas frequentemente prejudica o desempenho. Os métodos existentes geralmente tratam a atualização LoRA ΔW = BA como um único objeto e não distinguem as duas matrizes LoRA. Mostramos que a principal fonte de interferência na fusão LoRA vem da matriz B do lado da saída. Entre tarefas, B reutiliza repetidamente um pequeno conjunto de direções compartilhadas, enquanto A permanece muito mais específica para a tarefa. Como resultado, o adaptador fundido enfatiza excessivamente essas direções compartilhadas, e a informação específica da tarefa é perdida. Propomos o Pico (Calibração de interferência pré-fusão no espaço de saída), um método livre de dados que calibra B antes da fusão, reduzindo a escala das direções excessivamente compartilhadas e depois reescalonando a atualização fundida. O Pico conecta-se diretamente a métodos de fusão existentes, como Task Arithmetic, TIES e TSV-M. Em oito benchmarks diferentes das áreas de matemática, programação, finanças e medicina, o Pico melhora a precisão média em 3,4 a 8,3 pontos em relação ao método base correspondente e alcança o melhor desempenho médio geral. O Pico também permite que adaptadores fundidos superem o LoRA treinado com todos os dados da tarefa. Esses resultados mostram que a fusão LoRA funciona melhor quando as duas matrizes LoRA são tratadas separadamente.
A destilação sob a mesma política (OPD) é um paradigma cada vez mais importante para o pós-treinamento de modelos de linguagem. No entanto, identificamos uma Lei de Escala de Descalibração generalizada: embora a OPD melhore efetivamente a precisão da tarefa, ela sistematicamente prende os modelos em uma severa superconfiança. Rastreamos essa falha até um descompasso de informação: a supervisão do professor é formada sob um contexto privilegiado disponível durante o treinamento, enquanto o modelo implantado deve relatar confiança usando apenas informações disponíveis no momento da implantação. Formalizamos essa perspectiva teoricamente, mostrando que o sucesso condicionado ao professor geralmente não é um alvo válido para a confiança no momento da implantação e que um contexto privilegiado útil induz um colapso da entropia e um viés de otimismo sistemático. Para resolver isso, propomos uma estrutura OPD consciente da calibração, a CaOPD, que estima a confiança empírica a partir de rollouts do modelo, substitui a confiança autorrelatada por este alvo fundamentado no aluno e destila a resposta revisada por meio do mesmo pipeline de autodestilação. Experimentos em vários modelos e domínios mostram que a CaOPD alcança uma calibração Pareto-ótima, mantendo uma capacidade competitiva e generalizando de forma robusta sob condições fora da distribuição e de aprendizado contínuo. Nossas descobertas destacam que a destilação de capacidade não implica confiança calibrada e que a confiança deve ser tratada como um objetivo essencial no pós-treinamento. Código: https://github.com/SalesforceAIResearch/CaOPD
Os Modelos Visão-Linguagem demonstram capacidades notáveis, mas frequentemente apresentam dificuldades com o raciocínio composicional, exibindo vulnerabilidades em relação à ordem das palavras e à vinculação de atributos. Esta limitação surge da escassez de amostras informativas necessárias para diferenciar variações semânticas subtis durante o pré-treinamento contrastivo. Embora a mineração de negativos difíceis ofereça um remédio promissor, os métodos existentes carecem de mecanismos explícitos para ditar quais elementos linguísticos sofrem modificação. Em vez de desenvolver arquiteturas generativas, este estudo estabelece a concretude lexical como um determinante fundamental da eficácia da amostra negativa. Modificar termos altamente concretos gera discrepâncias estruturais e visuais mais pronunciadas, fornecendo um sinal de aprendizagem substancialmente mais forte. Aproveitando este princípio, o ConcretePlant é proposto para isolar e manipular sistematicamente conceitos perceptualmente fundamentados. Análises da função InfoNCE revelam ainda um grave desequilíbrio de gradientes, onde pares facilmente distinguíveis dominam desproporcionalmente o processo de otimização e restringem a largura de banda disponível para uma aprendizagem nuances. Para resolver esta degradação, a função de perda Cement é formulada utilizando uma abordagem baseada em margens. Ao correlacionar escores psicolinguísticos com a dificuldade da amostra, este objetivo calibra dinamicamente a penalização aplicada a pares de treino individuais. Avaliações abrangentes substantivam estas alegações teóricas. O framework integrado, designado como Slipform, atinge uma precisão state-of-the-art em diversos benchmarks de avaliação composicional, recuperação cruzada modal geral, e sondagem linear com etiqueta única e múltipla.
Os agentes de uso computacional têm melhorado rapidamente em tarefas do mundo real, como navegação na web, automação de desktop e interação com software, em alguns casos superando o desempenho humano. No entanto, mesmo quando a tarefa e o modelo permanecem inalterados, um agente que tem sucesso uma vez pode falhar na execução repetida da mesma tarefa. Isso levanta uma questão fundamental: se um agente pode executar uma tarefa com sucesso uma vez, o que impede que o faça de forma confiável? Neste trabalho, estudamos as fontes de falta de confiabilidade em agentes de uso computacional através de três fatores: a estocasticidade durante a execução, a ambiguidade na especificação da tarefa e a variabilidade no comportamento do agente. Analisamos esses fatores no OSWorld usando execuções repetidas da mesma tarefa em conjunto com testes estatísticos pareados que capturam mudanças em nível de tarefa em diferentes configurações. Nossa análise mostra que a confiabilidade depende tanto de como as tarefas são especificadas quanto de como o comportamento do agente varia entre as execuções. Essas descobertas sugerem a necessidade de avaliar os agentes sob execução repetida, permitir que os agentes resolvam ambiguidades de tarefas por meio de interação e favorecer estratégias que permaneçam estáveis entre execuções.
A resolução de problemas matemáticos continua a ser um teste desafiador de raciocínio para modelos de linguagem grandes e multimodais, mas os *benchmarks* existentes são limitados em tamanho, cobertura linguística e diversidade de tarefas. Apresentamos o MathNet, um conjunto de dados multimodal e multilíngue de alta qualidade e grande escala, composto por problemas matemáticos de nível olímpico, juntamente com um *benchmark* para avaliar o raciocínio matemático em modelos generativos e a recuperação matemática em sistemas baseados em incorporações (*embeddings*). O MathNet abrange 47 países, 17 idiomas e duas décadas de competições, compreendendo 30.676 problemas elaborados por especialistas, com soluções em diversas áreas. Além do conjunto de dados principal, construímos um *benchmark* de recuperação composto por pares de problemas matematicamente equivalentes e estruturalmente semelhantes, selecionados por especialistas humanos. O MathNet suporta três tarefas: (i) Resolução de Problemas, (ii) Recuperação com Consciência Matemática (*Math-Aware Retrieval*) e (iii) Resolução de Problemas Aumentada por Recuperação (*Retrieval-Augmented Problem Solving*). Resultados experimentais mostram que mesmo os modelos de raciocínio mais avançados (78,4% para o Gemini-3.1-Pro e 69,3% para o GPT-5) continuam a ser desafiados, enquanto os modelos de incorporação têm dificuldade em recuperar problemas equivalentes. Mostramos ainda que o desempenho da geração aumentada por recuperação é altamente sensível à qualidade da recuperação; por exemplo, o DeepSeek-V3.2-Speciale obtém ganhos de até 12%, alcançando as pontuações mais altas no *benchmark*. O MathNet fornece o maior conjunto de dados olímpicos de alta qualidade, juntamente com o primeiro *benchmark* para avaliar a recuperação de problemas matemáticos, e disponibilizamos publicamente tanto o conjunto de dados como o *benchmark* em https://mathnet.mit.edu.
Os recentes modelos de diálogo falado de ponta a ponta permitem uma interação natural. No entanto, à medida que as demandas dos usuários se tornam cada vez mais complexas, os modelos que dependem apenas de habilidades conversacionais geralmente têm dificuldades para acompanhar. Incorporar capacidades agentes é, portanto, essencial: ao permitir o uso de ferramentas, esses modelos podem estender seus limites de conhecimento e resolver melhor tarefas do mundo real. No entanto, a pesquisa existente concentrou-se amplamente na percepção e geração centrais, com uma exploração comparativamente limitada de tais extensões aumentadas por ferramentas. Para preencher essa lacuna, apresentamos o VoxMind, uma estrutura integrada projetada para equipar modelos de diálogo falado de ponta a ponta com capacidades agentes abrangentes. Aproveitando nosso conjunto de dados AgentChat curado de 470 horas, incorporamos um mecanismo "Pensar-Antes-de-Falar", permitindo que o modelo internalize o raciocínio estruturado como um pré-requisito crítico para o planejamento e a geração de respostas. Além disso, para mitigar os gargalos de latência causados pela integração de ferramentas em larga escala, propomos uma arquitetura de Gerenciamento Dinâmico de Ferramentas com Múltiplos Agentes. Ao delegar assincronamente tarefas de recuperação a um agente auxiliar alinhado com a trajetória de raciocínio do modelo principal, este sistema efetivamente desacopla a latência de inferência do tamanho do conjunto de ferramentas. Resultados experimentais confirmam que o VoxMind alcança melhorias significativas no desempenho do agente: em comparação com bases fortes, a taxa de conclusão de tarefas aumenta de 34,88% para 74,57%, superando o Gemini-2.5-Pro em tarefas de agente falado, preservando a qualidade conversacional geral. O código-fonte e os dados associados estão publicamente disponíveis em https://github.com/MM-Speech/VoxMind.
Os agentes de LLM (Large Language Model) de longo horizonte são fundamentalmente limitados pelo contexto. À medida que as interações se tornam mais longas, as descrições de ferramentas, as memórias recuperadas e o feedback ambiental bruto acumulam-se e excluem as informações necessárias para a tomada de decisões. Simultaneamente, a experiência útil obtida nas tarefas é frequentemente perdida entre episódios. Argumentamos que o desempenho de longo horizonte não é determinado pelo comprimento do contexto, mas pela quantidade de informações relevantes para a decisão que são mantidas dentro de um orçamento de contexto finito. Apresentamos o GenericAgent (GA), um sistema de agente LLM de propósito geral e auto-evolutivo construído em torno de um único princípio: a maximização da densidade de informação no contexto. O GA implementa isso através de quatro componentes intimamente conectados: um conjunto mínimo de ferramentas atômicas que mantém a interface simples, uma memória hierárquica sob demanda que mostra apenas uma visão geral de alto nível por padrão, um mecanismo de auto-evolução que transforma trajetórias passadas verificadas em POPs (Procedimentos Operacionais Padrão) reutilizáveis e código executável, e uma camada de truncamento e compressão de contexto que mantém a densidade de informação durante execuções longas. Em tarefas de conclusão, eficiência no uso de ferramentas, eficácia da memória, auto-evolução e navegação na web, o GA supera consistentemente os principais sistemas de agentes, utilizando significativamente menos tokens e interações, e continua a evoluir ao longo do tempo. Projeto: https://github.com/lsdefine/GenericAgent
Os modelos multimodais de grande capacidade linguística (MLLMs) atuais demonstraram capacidades notáveis na compreensão de vídeos de curta duração, mas a tradução de vídeos cinematográficos de longa duração em scripts detalhados e temporalmente fundamentados continua sendo um desafio significativo. Este artigo introduz a nova tarefa de vídeo-para-script (V2S), visando gerar scripts hierárquicos, cena a cena, abrangendo ações de personagens, diálogos, expressões e pistas de áudio. Para viabilizar isso, construímos um benchmark pioneiro anotado por humanos e propomos uma estrutura de avaliação hierárquica temporalmente consciente. Além disso, apresentamos o OmniScript, um modelo linguístico omni-modal (áudio-visual) com 8 bilhões de parâmetros, especializado na compreensão narrativa de longa duração. O OmniScript é treinado por meio de um pipeline progressivo que aproveita o ajuste fino supervisionado por corrente de pensamento para o raciocínio de enredo e personagens, seguido por aprendizado por reforço usando recompensas segmentadas temporalmente. Experimentos extensivos demonstram que, apesar de sua eficiência parametrizada, o OmniScript supera significativamente modelos de código aberto maiores e alcança desempenho comparável aos modelos proprietários de última geração, incluindo o Gemini 3-Pro, tanto na localização temporal quanto na precisão semântica de múltiplos campos.
Supõe-se que os agentes baseados em LLM (Large Language Models) integrem observações do ambiente em seu raciocínio: a descoberta de informações altamente relevantes, mas inesperadas, deveria naturalmente levar o modelo a explorar suas próprias descobertas. Mostramos que essa suposição é falsa para os agentes atuais baseados em LLM, que têm dificuldade em refletir ou reagir a informações inesperadas. Em três benchmarks (Terminal-Bench, SWE-Bench, AppWorld), injetamos soluções completas de tarefas nos ambientes dos agentes para expor deliberadamente a solução de uma tarefa a um modelo. Embora os agentes descubram essas soluções no Terminal-Bench em 79-81% das execuções, eles interagem ou as exploram em apenas 37-50% dos casos. Essa lacuna é mais acentuada no AppWorld: os agentes veem uma documentação afirmando que um comando "retorna a solução completa para esta tarefa" em mais de 90% das tentativas, mas exploram isso em menos de 7% dos testes. Mostramos que os agentes carecem do que chamamos de curiosidade ambiental: a capacidade de reconhecer e investigar observações inesperadas, porém relevantes, em resposta a estímulos ambientais. Identificamos três fatores principais que influenciam a curiosidade ambiental: as ferramentas disponíveis na estrutura do agente, o poder computacional em tempo de teste e a distribuição dos dados de treinamento. Nossas descobertas identificam que as configurações que maximizam a curiosidade também alcançam o melhor desempenho nos benchmarks não modificados. No entanto, mesmo os agentes com otimização conjunta ainda ignoram as soluções descobertas na maioria dos testes: os agentes atuais usam o ambiente para buscar informações esperadas, mas não para revisar sua estratégia ou explorar ao máximo estímulos úteis.
A decodificação visual a partir de sinais cerebrais é um desafio fundamental na intersecção entre visão computacional e neurociência, exigindo métodos que conectem representações neurais e modelos computacionais de visão. Um objetivo amplo da área é alcançar modelos generalizáveis e transversais a diferentes indivíduos. Um obstáculo significativo para essa meta é a variabilidade substancial nas representações neurais entre indivíduos, que até agora exigiu o treinamento de modelos personalizados ou o ajuste fino separado para cada sujeito. Para enfrentar esse desafio, introduzimos uma abordagem meta-otimizada para decodificação visual semântica a partir de fMRI que generaliza para novos indivíduos sem qualquer ajuste fino. Simplesmente condicionando o modelo a um pequeno conjunto de exemplos de imagens e ativações cerebrais do novo indivíduo, nosso modelo infere rapidamente seus padrões únicos de codificação neural para facilitar uma decodificação visual robusta e eficiente. Nossa abordagem é explicitamente otimizada para aprendizado contextual do modelo de codificação do novo sujeito e realiza a decodificação por inferência hierárquica, invertendo o codificador. Primeiro, para múltiplas regiões cerebrais, estimamos os parâmetros do codificador de resposta visual por voxel construindo um contexto sobre múltiplos estímulos e respostas. Segundo, construímos um contexto consistindo em parâmetros do codificador e valores de resposta em múltiplos voxels para realizar uma inversão funcional agregada. Demonstramos forte generalização entre indivíduos e entre diferentes scanners de ressonância magnética através de diversos *backbones* visuais, sem retreinamento ou ajuste fino. Além disso, nossa abordagem não requer nem alinhamento anatômico nem sobreposição de estímulos. Este trabalho representa um passo crítico em direção a um modelo de base generalizável para decodificação cerebral não invasiva.
A maioria dos agentes atuais "auto-evolui" seguindo recompensas e regras definidas por humanos. No entanto, esse processo permanece fundamentalmente dependente de supervisão externa; sem orientação humana, a evolução cessa. Neste trabalho, treinamos agentes para possuir uma capacidade intrínseca de meta-evolução, permitindo-lhes aprender espontaneamente sobre ambientes não vistos antes da execução da tarefa. Para incutir essa capacidade, projetamos um mecanismo de recompensa baseado em resultados que mede o quanto o conhecimento do mundo gerado pelo próprio agente melhora sua taxa de sucesso em tarefas subsequentes. Este sinal de recompensa é usado exclusivamente durante a fase de treinamento para ensinar o modelo a explorar e resumir efetivamente. No momento da inferência, o agente não requer recompensas externas ou instruções humanas. Ele realiza espontaneamente uma auto-evolução nativa para se adaptar a ambientes desconhecidos usando seus parâmetros internos. Quando aplicado aos modelos Qwen3-30B e Seed-OSS-36B, essa mudança para a evolução nativa resulta em um aumento de 20% no desempenho em WebVoyager e WebWalker. O mais notável é que o conhecimento do mundo gerado permite até mesmo que o modelo compacto Qwen3 de 14B supere o Gemini-2.5-Flash sem assistência, estabelecendo um novo paradigma para agentes verdadeiramente evolutivos.
Os jogos oferecem um paradigma convincente para desenvolver capacidades de raciocínio geral em modelos de linguagem, uma vez que exigem naturalmente planeamento estratégico, inferência probabilística e tomada de decisão adaptativa. No entanto, as abordagens existentes de auto-jogo dependem unicamente dos resultados finais do jogo, não fornecendo qualquer mecanismo para distinguir padrões de raciocínio transferíveis de heurísticas específicas do jogo. Apresentamos o STRATAGEM, que aborda duas barreiras fundamentais à transferência de raciocínio: a *especificidade de domínio*, onde padrões aprendidos permanecem ancorados na semântica do jogo, e a *estase contextual*, onde contextos de jogo estáticos não conseguem cultivar um raciocínio progressivo. O STRATAGEM reforça seletivamente trajetórias que exibem raciocínio abstrato e independente do domínio através de um Coeficiente de Transferibilidade de Raciocínio, enquanto incentiva o desenvolvimento de raciocínio adaptativo através de uma Recompensa de Evolução de Raciocínio. Experiências em benchmarks de raciocínio matemático, raciocínio geral e geração de código demonstram melhorias substanciais, com ganhos particularmente fortes em matemática de nível competitivo, onde o raciocínio multi-etapa é crítico. Estudos de ablação e avaliação humana confirmam que ambos os componentes contribuem para um raciocínio transferível.
Os LLMs multimodais conseguem perceber com precisão conteúdo numérico através de modalidades, mas falham em realizar multiplicações exatas de múltiplos dígitos quando o mesmo problema aritmético subjacente é apresentado como algarismos, palavras numéricas, imagens ou em formato de áudio. Como os benchmarks existentes frequentemente carecem de instâncias sistematicamente emparelhadas entre modalidades, permanece difícil comparar os limites aritméticos genuínos dentro e entre famílias de modelos. Introduzimos, portanto, um benchmark controlado de multiplicação multimodal que varia fatorialmente o comprimento dos dígitos, a esparsidade dos dígitos, a representação (por exemplo, algarismos vs. palavras numéricas) e a modalidade (texto, imagens renderizadas, áudio), com instâncias emparelhadas de um gerador reproduzível. Também definimos a carga aritmética, C, como o produto da contagem total de dígitos e da contagem de dígitos não zero, como um proxy compacto e mecanicamente motivado para a contagem de operações. Nas avaliações, a precisão cai acentuadamente à medida que C aumenta, frequentemente aproximando-se de zero para C > 100. De facto, C mantém-se preditivo do desempenho entre modalidades e modelos, com R-quadrado frequentemente > 0,5, aproximando-se do valor de medidas mais complexas de carga aritmética que contam o número de passos aritméticos intermédios. Uma decomposição separada de perceção versus computação mostra que a degradação multimodal é primariamente computacional e não perceptual: em verificações de perceção correspondente, os modelos são quase perfeitos (> 99%) em todas as modalidades, mesmo quando a precisão da multiplicação cai. Para além de medir quando os modelos falham, perguntamos quais os procedimentos que eles estão predispostos a seguir. Introduzimos uma sonda de perda de conclusão forçada que pontua prefixos de raciocínio específicos de heurísticas – incluindo multiplicação em coluna, decomposição distributiva e arredondamento/compensação. Aqui, a decomposição é favorecida tanto nas modalidades de texto como de visão; adaptadores LoRA específicos de heurísticas produzem atualizações quase ortogonais, mas degradam a precisão, indicando que o modelo base mantém um router interno bem sintonizado.
Apresentamos o SemanticQA, um conjunto de avaliação concebido para testar modelos de linguagem (ML) em tarefas de processamento de frases semânticas. O *benchmark* consolida recursos existentes de expressões multipalavra (EMPs) e reorganiza-os num banco de testes unificado. Abrange tanto fenómenos lexicais gerais, como colocações lexicais, como três categorias específicas: expressões idiomáticas, compostos nominais e construções verbais. Através do SemanticQA, avaliamos MLs de diversas arquiteturas e escalas em tarefas de extração, classificação e interpretação, bem como em composições sequenciais de tarefas. Revelamos uma variação substancial de desempenho, particularmente em tarefas que exigem raciocínio semântico, destacando diferenças na eficácia do raciocínio e na compreensão semântica dos MLs, fornecendo insights para impulsionar MLs com uma compreensão mais robusta de frases semânticas não triviais. O *harness* de avaliação e os dados do SemanticQA estão disponíveis em https://github.com/jacklanda/SemanticQA.
Ao contrário da conclusão de código, a depuração requer a localização de falhas e a aplicação de edições direcionadas. Observamos que os LLMs de fronteira frequentemente regeneram soluções corretas, mas supereditadas, durante a depuração. Para avaliar o quão distantes os LLMs estão de uma depuração precisa, introduzimos o framework Precise Debugging Benchmark (PDB), que converte automaticamente qualquer conjunto de dados de codificação em um benchmark de depuração com avaliação sensível à precisão. O PDB gera programas com bugs sintetizando falhas atômicas verificadas e as compondo em programas com múltiplos bugs. Definimos duas novas métricas, a precisão a nível de edição e o recall a nível de bug, que medem quantas edições necessárias são feitas e quantos bugs são resolvidos. Lançamos dois benchmarks de avaliação: PDB-Single-Hard, com bugs de linha única, e PDB-Multi, com bugs de múltiplas linhas. Experimentos mostram que modelos de fronteira, como GPT-5.1-Codex e DeepSeek-V3.2-Thinking, alcançam taxas de aprovação em testes unitários acima de 76%, mas exibem precisão abaixo de 45%, mesmo quando explicitamente instruídos a realizar uma depuração mínima. Por fim, demonstramos que estratégias de depuração iterativas e agentivas não melhoram substancialmente a precisão ou o recall, destacando a necessidade de repensar os pipelines de pós-treinamento para modelos de codificação.
Os Modelos de Linguagem de Grande Porte Omnimodais Nativos (OLLMs) evoluíram de arquiteturas de pipeline para espaços de representação unificados. No entanto, esta integração nativa dá origem a um fenómeno crítico, mas ainda pouco explorado: a preferência modal. Para colmatar esta lacuna, começamos por quantificar sistematicamente a preferência modal dos OLLMs utilizando um novo benchmark baseado em conflito e a métrica de taxa de seleção modal. A nossa avaliação de dez OLLMs representativos revela uma mudança de paradigma notável: ao contrário da "dominância textual" dos VLMs tradicionais, a maioria dos OLLMs exibe uma preferência visual pronunciada. Para compreender melhor o mecanismo subjacente, realizamos uma análise por camadas e demonstramos que esta preferência modal não é estática, mas emerge progressivamente nas camadas intermédias e finais. Com base nestas perceções, aproveitamos estes sinais internos para diagnosticar alucinações cross-modais, alcançando um desempenho competitivo em três benchmarks multimodais de downstream sem dados específicos da tarefa. O nosso trabalho fornece tanto uma compreensão mecanicista como uma ferramenta prática para a construção de OLLMs mais confiáveis. O nosso código e recursos relacionados estão publicamente disponíveis em: https://github.com/icip-cas/OmniPreference.
Os modelos de linguagem de grande escala (LLMs) são amplamente explorados para tarefas de pesquisa que exigem raciocínio complexo, no entanto, os recursos para testar se eles podem inferir conclusões científicas a partir de evidências biomédicas estruturadas permanecem limitados. Apresentamos o MedConclusion, um conjunto de dados em larga escala com 5,7 milhões de resumos estruturados da PubMed para a geração de conclusões biomédicas. Cada instância emparelha as seções não-conclusivas de um resumo com a conclusão original escrita pelo autor, fornecendo uma supervisão naturalmente ocorrente para o raciocínio de evidência-para-conclusão. O MedConclusion também inclui metadados em nível de revista, como categoria biomédica e SJR, permitindo análises de subgrupos entre domínios biomédicos. Como um estudo inicial, avaliamos diversos LLMs sob configurações de prompt para conclusão e resumo, e pontuamos as saídas com métricas baseadas em referência e usando LLM-como-juiz. Descobrimos que a redação de conclusões é comportamentalmente distinta da redação de resumos, modelos fortes permanecem intimamente agrupados sob as métricas automáticas atuais, e a identidade do juiz pode alterar substancialmente as pontuações absolutas. O MedConclusion fornece um recurso de dados reutilizável para estudar o raciocínio científico de evidência-para-conclusão. Nosso código e dados estão disponíveis em: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Os Grandes Modelos de Linguagem (LLMs) demonstraram desempenho excecional em diversos domínios, mas estão cada vez mais limitados pela elevada latência de inferência. A Saída Antecipada (Early Exit) surgiu como uma solução promissora para acelerar a inferência, contornando dinamicamente camadas redundantes. No entanto, em arquiteturas apenas de descodificação (decoder-only), a eficiência da Saída Antecipada é severamente limitada pelo problema da Ausência de Cache KV (KV Cache Absence), em que as camadas ignoradas não conseguem fornecer os estados históricos necessários para os tokens subsequentes. As soluções existentes, como a recomputação ou a mascaragem (masking), ou introduzem uma sobrecarga de latência significativa ou acarretam uma perda severa de precisão, não conseguindo colmatar o fosso entre a redução teórica de camadas e a aceleração prática em tempo real (wall-clock speedup). Neste artigo, propomos o River-LLM, uma estrutura (framework) isenta de treino (training-free) que permite uma Saída Antecipada perfeita ao nível do token. O River-LLM introduz um leve "Rio de Saída" de KV Partilhado (KV-Shared Exit River) que permite que a cache KV em falta do modelo principal (backbone) seja naturalmente gerada e preservada durante o processo de saída, eliminando a necessidade de operações de recuperação dispendiosas. Além disso, utilizamos a semelhança da transição de estado (state transition similarity) dentro dos blocos do descodificador para prever erros cumulativos de KV e orientar decisões de saída precisas. Experiências extensivas em tarefas de raciocínio matemático e geração de código demonstram que o River-LLM atinge uma aceleração prática de 1,71 a 2,16 vezes, mantendo uma alta qualidade de geração.
A engenharia genómica alcançou uma precisão notável a nível da sequência, mas prever o estado transcriptómico que uma célula irá ocupar após uma perturbação permanece um problema em aberto. Os ensaios CRISPR de célula única medem a distância que as células se afastam do seu estado não perturbado, mas esta magnitude do efeito ignora uma questão fundamental: as células movem-se em conjunto? Duas perturbações com magnitude idêntica podem produzir resultados qualitativamente diferentes se uma conduzir as células de forma coerente ao longo de uma trajetória partilhada, enquanto a outra as dispersa pelo espaço de expressão. Introduzimos uma métrica de estabilidade geométrica, Shesha, que quantifica a coerência direcional das respostas a perturbações em célula única como a similaridade do cosseno média entre os vetores de deslocamento de células individuais e a direção média da perturbação. Através de cinco conjuntos de dados CRISPR (mais de 2200 perturbações abrangendo CRISPRa, CRISPRi e ensaios em poço), a estabilidade correlaciona-se fortemente com a magnitude do efeito (Spearman ρ=0,75-0,97), com uma correlação calibrada entre conjuntos de dados de 0,97. Crucialmente, casos discordantes onde as duas métricas se dissociam expõem a arquitetura regulatória: reguladores mestres pleiotrópicos como CEBPA e GATA1 pagam um "imposto geométrico", produzindo desvios grandes mas incoerentes, enquanto fatores específicos de linhagem como KLF1 produzem respostas fortemente coordenadas. Após controlar para a magnitude, a instabilidade geométrica está independentemente associada a uma ativação elevada de chaperonas (HSPA5/BiP; ρ_parcial=-0,34 e -0,21 entre conjuntos de dados), e o quadrante de alta estabilidade/alta tensão está sistematicamente esgotado. A relação magnitude-estabilidade persiste em incorporações do modelo de base scGPT, confirmando que é uma propriedade do espaço de estado biológico e não uma projeção linear. A estabilidade da perturbação fornece um eixo complementar para a priorização de *hits* em ensaios, controlo de qualidade fenotípico na produção de células e avaliação de previsões de perturbação *in silico*.
A convergência entre grandes modelos de linguagem e agentes está a catalisar uma nova era de descoberta científica: a Ciência Agêntica. Embora o método científico seja inerentemente iterativo, as estruturas de agentes existentes são predominantemente estáticas, de âmbito restrito e carecem da capacidade de aprender com a tentativa e erro. Para colmatar esta lacuna, apresentamos o EvoMaster, uma estrutura fundamental de agentes em evolução, concebida especificamente para Ciência Agêntica em Escala. Guiada pelo princípio central da auto-evolução contínua, o EvoMaster capacita os agentes para refinar iterativamente hipóteses, autocriticar-se e acumular progressivamente conhecimento ao longo de ciclos experimentais, espelhando fielmente a investigação científica humana. Crucialmente, enquanto base agnóstica de domínio, o EvoMaster é excecionalmente fácil de escalar — permitindo que os desenvolvedores construam e implementem agentes científicos altamente capacitados e auto-evolutivos para disciplinas arbitrárias em aproximadamente 100 linhas de código. Com base no EvoMaster, incubámos o ecossistema SciMaster em domínios como aprendizagem automática, física e ciência geral. As avaliações em quatro benchmarks autorizados (Humanity's Last Exam, MLE-Bench Lite, BrowseComp e FrontierScience) demonstram que o EvoMaster atinge pontuações de ponta de 41,1%, 75,8%, 73,3% e 53,3%, respetivamente. Supera comprehensiveamente a base de referência de propósito geral OpenClaw com melhorias relativas que variam de +159% a +316%, validando de forma robusta a sua eficácia e generalidade como a principal estrutura fundamental para a próxima geração de descoberta científica autónoma. O EvoMaster está disponível em https://github.com/sjtu-sai-agents/EvoMaster.
Os recentes avanços na correspondência semântica baseiam-se em arquiteturas de codificador duplo, combinando DINOv2 com backbones de difusão. Embora precisos, esses modelos com milhares de milhões de parâmetros generalizam mal para além dos pontos-chave de treino, revelando uma lacuna entre o desempenho em benchmarks e a usabilidade no mundo real, onde os pontos consultados raramente coincidem com os observados durante o treino. Com base no DINOv2, introduzimos o MARCO, um modelo unificado para correspondência generalizável, impulsionado por uma nova estrutura de treino que melhora tanto a localização de granularidade fina como a generalização semântica. Ao acoplar um objetivo de coarse-to-fine que refina a precisão espacial a uma estrutura de auto-distilação, que expande a supervisão esparsa para além das regiões anotadas, a nossa abordagem transforma um punhado de pontos-chave em correspondências densas e semanticamente coerentes. O MARCO estabelece um novo estado da arte no SPair-71k, AP-10K e PF-PASCAL, com ganhos que se ampliam em limiares de localização de granularidade fina (+8,9 PCK@0.01), a mais forte generalização para pontos-chave não vistos (+5,1, SPair-U) e categorias (+4,7, MP-100), mantendo-se 3x menor e 10x mais rápido do que as abordagens baseadas em difusão. O código está disponível em https://github.com/visinf/MARCO.
Os utilizadores frequentemente omitem detalhes essenciais nos seus pedidos a agentes baseados em LLM, resultando em entradas subespecificadas para uso de ferramentas. Isto representa um desafio fundamental para agentes aumentados com ferramentas, uma vez que a execução de APIs normalmente requer argumentos completos, destacando a necessidade de chamadas de ferramentas personalizadas. Para estudar este problema, introduzimos o MPT, um benchmark composto por 265 diálogos multissessão que abrangem três desafios: Recuperação de Preferências, Indução de Preferências e Transferência de Preferências. Também propomos o PRefine, um método aumentado por memória em tempo de teste que representa as preferências do utilizador como hipóteses em evolução. Através de um ciclo gerar-verificar-refinar, ele extrai restrições reutilizáveis do histórico e melhora a precisão das chamadas de ferramentas, usando apenas 1,24% dos tokens necessários para o prompt de histórico completo. Estes resultados indicam que a personalização robusta em sistemas agenticos depende de uma memória que capture as razões por trás das escolhas do utilizador, e não apenas as escolhas em si.
A Conversa de Apoio Emocional (CAE) visa ajudar indivíduos em situação de angústia, gerando diálogos empáticos e de apoio. Embora trabalhos anteriores geralmente assumam que cada turno de suporte corresponde a uma única estratégia, a comunicação de apoio no mundo real frequentemente envolve múltiplas estratégias dentro de um único enunciado. Neste artigo, revisitamos a tarefa de CAE formulando-a como uma geração de enunciados multiestratégia, onde cada enunciado pode conter um ou mais pares estratégia-resposta. Propomos dois métodos de geração: *All-in-One* (Tudo-em-Um), que prevê todos os pares estratégia-resposta em uma única etapa de decodificação, e *One-by-One* (Um-a-Um), que gera iterativamente os pares estratégia-resposta até a conclusão. Ambos os métodos são ainda aprimorados com raciocínio cognitivo guiado por aprendizado por reforço para melhorar a seleção de estratégias e a composição da resposta. Avaliamos nossos modelos no conjunto de dados ESConv sob configurações tanto em nível de enunciado quanto em nível de diálogo. Resultados experimentais mostram que nossos métodos modelam efetivamente enunciados multiestratégia e resultam em uma qualidade de apoio e sucesso do diálogo aprimorados. Até onde sabemos, este trabalho fornece a primeira evidência empírica sistemática de que permitir múltiplas estratégias de apoio dentro de um único enunciado é tanto viável quanto benéfico para conversas de apoio emocional. Todo o código e dados estarão publicamente disponíveis em https://github.com/aliyun/qwen-dianjin.
A implantação confiável de modelos de linguagem requer duas capacidades que parecem distintas, mas compartilham uma base geométrica comum: prever se um modelo aceitará controle comportamental direcionado e detectar quando sua estrutura interna se degrada. Mostramos que a estabilidade geométrica, a consistência da estrutura de distâncias pareadas de uma representação, aborda ambas. Variantes supervisionadas de Shesha que medem a estabilidade geométrica alinhada à tarefa preveem a controlabilidade linear com precisão quase perfeita (ρ= 0,89-0,97) em 35-69 modelos de *embedding* e três tarefas de PLN, capturando variância única além da separabilidade de classes (ρ parcial= 0,62-0,76). Surge uma dissociação crítica: a estabilidade não supervisionada falha completamente para a previsão de controlabilidade em tarefas do mundo real (ρ≈ 0,10), revelando que o alinhamento à tarefa é essencial para essa previsão. No entanto, a estabilidade não supervisionada se destaca na detecção de *drift*, medindo uma mudança geométrica quase 2 vezes maior do que a CKA durante o alinhamento pós-treinamento (até 5,23 vezes no Llama), enquanto fornece um alerta mais precoce em 73% dos modelos e mantém uma taxa de falso alarme 6 vezes menor que o Procrustes. Juntas, a estabilidade supervisionada e a não supervisionada formam diagnósticos complementares para o ciclo de vida de implantação de LLMs: uma para avaliação da controlabilidade antes da implantação e outra para monitoramento pós-implantação.
Os Modelos de Visão-Linguagem (VLMs) são cada vez mais utilizados em diagnósticos clínicos, mas a sua robustez face a ataques adversários permanece largamente inexplorada, representando um risco sério. Os ataques médicos existentes concentram-se em objetivos secundários, como roubo de modelos ou *fine-tuning* adversário, enquanto os ataques transferíveis a partir de imagens naturais introduzem distorções visíveis que os clínicos podem detetar facilmente. Para resolver esta lacuna, propomos o MedFocusLeak, um ataque multimodal em caixa-negra altamente transferível que induz diagnósticos incorretos, mas clinicamente plausíveis, mantendo as perturbações impercetíveis. O método injeta perturbações coordenadas em regiões de fundo não diagnósticas e emprega um mecanismo de distração de atenção para desviar o foco do modelo das áreas patológicas. Avaliações extensas em seis modalidades de imagem médica mostram que o MedFocusLeak alcança um desempenho de ponta, gerando resultados diagnósticos enganosos, mas realistas, em diversos VLMs. Introduzimos ainda uma estrutura de avaliação unificada com novas métricas que capturam conjuntamente o sucesso do ataque e a fidelidade da imagem, revelando uma vulnerabilidade crítica nas capacidades de raciocínio dos VLMs clínicos modernos.
Os modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades impressionantes, mas frequentemente lutam para capturar efetivamente as informações textuais refinadas dentro das imagens, cruciais para uma tradução precisa de imagem. Isso frequentemente leva a uma lacuna de modalidade entre as entradas de texto visual e as entradas/saídas textuais para tradução de imagem. Os métodos existentes, que dependem principalmente do ajuste fino por instrução, arriscam a redundância de parâmetros do conhecimento pré-treinado, prejudicando o desempenho de generalização. Para resolver isso, introduzimos o ajuste fino com consciência de neurônios de modalidade (MNAFT), uma nova abordagem que aproveita os papéis especializados de neurônios individuais dentro dos MLLMs para uma tradução de imagem aprimorada. O MNAFT identifica neurônios independentes de idioma e específicos de idioma em módulos de visão e linguagem através de uma análise de ativação orientada por instrução, avaliando sua importância em várias tarefas de tradução. Em seguida, realizamos um ajuste fino seletivo, atualizando apenas os parâmetros dos neurônios específicos de idioma e independentes de idioma dentro das camadas selecionadas relevantes para a tarefa-alvo, enquanto preservamos o conhecimento codificado em outros neurônios e camadas. Nossos extensivos experimentos em múltiplos benchmarks demonstram que o MNAFT supera significativamente os métodos state-of-the-art de tradução de imagem, incluindo modelos em cascata, ajuste fino padrão completo e técnicas de ajuste com eficiência de parâmetros. Além disso, fornecemos uma análise abrangente, incluindo visualizações das ativações dos neurônios e padrões de agrupamento, para oferecer insights sobre os papéis de diferentes grupos de neurônios na mediação da compreensão cross-modal e na facilitação de uma tradução precisa e específica do idioma.
Compreender e antecipar atividades relacionadas a vulnerabilidades é um grande desafio na área de inteligência contra ameaças cibernéticas. Este trabalho investiga se a observação de vulnerabilidades, como lançamentos de prova de conceito, modelos de detecção ou discussões online, pode ser prevista ao longo do tempo. Com base no nosso trabalho anterior sobre o VLAI, um modelo baseado em *transformers* que prevê a gravidade de vulnerabilidades a partir de descrições textuais, examinamos se as pontuações de gravidade podem melhorar a previsão de séries temporais como variáveis exógenas. Avaliamos várias abordagens para a previsão de curto prazo de observações por vulnerabilidade. Primeiro, testamos modelos SARIMAX com e sem transformações log(x+1) e entradas de gravidade derivadas do VLAI. Embora esses ajustes ofereçam melhorias limitadas, o SARIMAX permanece pouco adequado para dados de vulnerabilidade esparsos, curtos e com picos de atividade. Na prática, as previsões frequentemente produzem intervalos de confiança excessivamente amplos e, por vezes, valores negativos irreais. Para capturar melhor a natureza discreta e orientada a eventos das observações, exploramos em seguida métodos baseados em contagem, como a regressão de Poisson. Resultados iniciais mostram que esses modelos produzem previsões mais estáveis e interpretáveis, especialmente quando as observações são agregadas semanalmente. Também discutimos alternativas operacionais mais simples, incluindo funções de decaimento exponencial para horizontes de previsão curtos, para estimar a atividade futura sem exigir longas séries históricas. No geral, este estudo destaca tanto o potencial quanto as limitações da previsão de eventos cibernéticos raros e com picos de atividade, e fornece orientações práticas para integrar análises preditivas nos fluxos de trabalho de inteligência de vulnerabilidades.
Os Modelos de Linguagem de Fala em Duplex Completo (FD-SLMs) permitem interações conversacionais sobrepostas em tempo real, oferecendo uma experiência de usuário mais dinâmica em comparação com os modelos tradicionais de semi-duplex. No entanto, os benchmarks existentes focam-se principalmente na avaliação de interações de rodada única, negligenciando as complexidades da comunicação multi-rodada. Avaliar FD-SLMs em cenários multi-rodada apresenta desafios significativos, incluindo limites de turno desfocados na comunicação e inconsistência contextual durante a inferência do modelo. Além disso, os benchmarks existentes frequentemente focam-se apenas na avaliação de características conversacionais, negligenciando outros aspetos críticos. Para colmatar estas lacunas, introduzimos o MTR-DuplexBench, um novo benchmark concebido para uma avaliação multi-rodada abrangente de FD-SLMs. O MTR-DuplexBench não apenas segmenta diálogos contínuos de duplex completo em turnos discretos para avaliação turno-a-turno, mas também incorpora várias dimensões de avaliação, incluindo características conversacionais, qualidade do diálogo, seguimento de instruções e segurança. Resultados experimentais revelam que os FD-SLMs atuais enfrentam dificuldades em manter um desempenho consistente em múltiplas rodadas e dimensões de avaliação, destacando a necessidade e eficácia do nosso benchmark. Código e dados estão disponíveis em: https://github.com/ZhangHe0918/MTR-DuplexBench
Apresentamos o Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), um compilador de quatro fases para a implantação de modelos *transformer* em hardware acelerador heterogêneo, validado no NPU Intel AI Boost. Frameworks existentes, como OpenVINO e ONNX Runtime, frequentemente utilizam *pipelines* de compilação opacos, com visibilidade limitada a nível de passos e gerenciamento fraco de *buffers*, o que pode resultar em maior custo de compilação e sobrecarga em tempo de execução. O Forge-UGC aborda estas limitações com um projeto independente de hardware que separa a captura do grafo, a otimização, a redução da representação intermediária e o agendamento do *backend*. A Fase 1 captura grafos com `torch.export` ao nível do operador ATen, suportando componentes modernos de *transformers*, como *rotary position embeddings*, *grouped-query attention* e SwiGLU, sem decomposição manual. A Fase 2 aplica seis passos de otimização: eliminação de código morto, eliminação de subexpressões comuns, dobramento de constantes, fusão de *attention*, fusão de operadores e otimização de *layout*, reduzindo a contagem de nós do grafo em 14,2 a 21,9%. A Fase 3 reduz o grafo otimizado para uma representação intermediária tipada com atribuições explícitas de registros virtuais. A Fase 4 realiza análise de vivacidade, alocação de *buffers* por *linear-scan* — reduzindo a contagem máxima de *buffers* em 30 a 48% — e agendamento por afinidade de dispositivo, reduzindo as transições NPU-CPU em 42 a 65%. Em seis famílias de modelos, variando de 125M a 8B de parâmetros, avaliadas no WikiText-103 e GLUE, o Forge-UGC proporciona uma compilação 6,9 a 9,2 vezes mais rápida que o OpenVINO e o ONNX Runtime, uma latência de inferência 18,2 a 35,7% menor e um consumo de energia por inferência 30,2 a 40,9% menor. A fidelidade é preservada, com diferenças absolutas máximas nos *logits* abaixo de 2,1e-5 e divergência KL abaixo de 8,4e-9. Também introduzimos o *Fusion Gain Ratio*, o *Compilation Efficiency Index* e a análise de execução por passo para avaliação sistemática de *pipelines* de compilação para NPUs.
As interações Genótipo-por-Ambiente (GxA) influenciam o desempenho dos genótipos em diversos ambientes, reduzindo a previsibilidade dos fenótipos nos ambientes-alvo. A análise aprofundada das interações GxA facilita a identificação de como as vantagens ou defeitos genéticos são expressos ou suprimidos sob condições ambientais específicas, permitindo assim a seleção genética e aprimorando as práticas de melhoramento. Este artigo introduz dois modelos-chave para a pesquisa de interações GxA. Especificamente, inclui a análise de significância baseada no modelo de efeitos mistos para determinar se genes ou interações GxA afetam significativamente as características fenotípicas; e a análise de estabilidade, que investiga mais a fundo as relações interativas entre genes e ambientes, bem como a superioridade ou inferioridade relativa dos genótipos entre ambientes. Adicionalmente, este artigo apresenta o RGxEStat, uma ferramenta interativa e leve, desenvolvida pelos autores e que integra a construção, solução e visualização dos modelos supracitados. Projetado para eliminar a necessidade de melhoristas e agrônomos aprenderem programação complexa em SAS ou R, o RGxEStat fornece uma interface amigável para a análise simplificada de dados de melhoramento, acelerando significativamente os ciclos de pesquisa. Códigos e conjuntos de dados estão disponíveis em https://github.com/mason-ching/RGxEStat.
Apresentamos o JuRe (Just Repair), uma rede de eliminação de ruído mínima para detecção de anomalias em séries temporais que revela uma descoberta central: a complexidade arquitetônica é desnecessária quando o objetivo de treinamento implementa corretamente o princípio de projeção na variedade. O JuRe consiste em um único bloco residual convolucional separável em profundidade com dimensão oculta 128, treinado para reparar janelas de séries temporais corrompidas e pontuado na inferência por uma função de discrepância estrutural fixa e livre de parâmetros. Apesar de não utilizar atenção, variáveis latentes ou componentes adversariais, o JuRe classifica-se em segundo lugar no benchmark multivariado TSB-AD (AUC-PR 0.404, 180 séries, 17 conjuntos de dados) e em segundo lugar no arquivo univariado UCR por AUC-PR (0.198, 250 séries), liderando todas as linhas de base neurais em AUC-PR e VUS-PR. A ablação de componentes no TSB-AD identifica a corrupção durante o treinamento como o fator dominante (ΔAUC-PR = 0.047 na remoção), confirmando que o objetivo de eliminação de ruído, e não a capacidade da rede, impulsiona a qualidade da detecção. Testes de Wilcoxon de postos sinalizados pareados estabelecem significância estatística contra 21 de 25 linhas de base no TSB-AD. O código está disponível no URL https://github.com/iis-esslingen/JuRe.
Lançamos o Terminal Wrench, um subconjunto de 331 ambientes de benchmark para agentes de terminal, copiados dos benchmarks abertos populares que são comprovadamente vulneráveis a reward hacking. O conjunto de dados inclui 3.632 trajetórias de hack e 2.352 trajetórias legítimas de base (baseline) em três modelos de fronteira (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Cada entrada preserva a definição original da tarefa juntamente com trajetórias completas de ataque que mostram como o verificador foi contornado. Também inclui casos em que a tarefa não foi resolvida conforme o planejado. As tarefas abrangem administração de sistemas, aprendizado de máquina, engenharia de software e desafios de segurança; as explorações variam de simples spoofing de saída a introspecção de stack frame, modificação de bibliotecas padrão e hijacking de binários no estilo rootkit. Crucialmente, essas explorações são específicas para cada tarefa, e não para o sistema de avaliação, tornando-as mais difíceis de corrigir. Também apresentamos um estudo de monitorabilidade no qual as trajetórias de hack são sanitizadas ou têm seus rastros de raciocínio removidos e, em seguida, são pontuadas por um juiz baseado em LLM, mostrando que a detecção se degrada significativamente quando a cadeia de pensamento (chain-of-thought) é removida (a AUC cai de 0,97 para 0,92). O conjunto de dados está publicamente disponível em https://github.com/few-sh/terminal-wrench.
O problema arquitetônico mais importante na IA não é o tamanho do modelo, mas a ausência de uma camada que perpetue o que o modelo compreendeu. As sessões terminam. As janelas de contexto enchem. As APIs de memória retornam factos planos que o modelo tem de reinterpretar do zero a cada leitura. O resultado é uma inteligência poderosa por sessão e amnésica ao longo do tempo. Este artigo de posição argumenta que a camada que resolve isto, a camada de continuidade, é a peça de infraestrutura mais consequente que a área ainda não construiu, e que o trabalho de engenharia para a construir começou publicamente. O quadro formal de avaliação para a propriedade aqui descrita é o benchmark ATANT (arXiv:2604.06710), publicado separadamente com resultados de avaliação num corpus de 250 histórias; um artigo complementar (arXiv:2604.10981) posiciona este quadro face aos benchmarks existentes de memória, contexto longo e memória agentiva. O artigo define continuidade como uma propriedade do sistema com sete características necessárias, distinta de memória e de recuperação; descreve um primitivo de armazenamento (Memória por Convergência de Traços Decompostos) cuja decomposição no momento de escrita e reconstrução no momento de leitura produzem essa propriedade; mapeia a arquitetura de engenharia para o padrão teológico de kenosis e o padrão simbólico de Alfa e Ómega, e argumenta que este mapeamento é estrutural e não metafórico; propõe um arco de desenvolvimento de quatro camadas, desde um SDK externo até a um nó de hardware e a uma infraestrutura humana de longo horizonte; examina por que os limites físicos que agora constrangem a camada do modelo tornam a camada de continuidade nova e consequentemente importante; e argumenta que a arquitetura de governança (privacidade implementada como física e não como política, ações de classe controladas pelo fundador em compromissos arquitetónicos não negociáveis) é inseparável do próprio produto.
As representações de grafos de cena permitem a compreensão visual estruturada através da modelação de objetos e das suas relações, sendo amplamente utilizadas para o raciocínio multivista e 3D de cenas. Métodos existentes, como o MSG, aprendem incorporações de grafos de cena no espaço euclidiano usando aprendizagem contrastiva e associação baseada em atenção. No entanto, a geometria euclidiana não capta explicitamente as relações de hierarquia e implicação entre locais e objetos, limitando a consistência estrutural das representações aprendidas. Para resolver esta limitação, propomos o Grafo de Cena Hiperbólico (HSG), que aprende incorporações de grafos de cena no espaço hiperbólico, onde as relações hierárquicas são naturalmente codificadas através da distância geométrica. Os nossos resultados mostram que o HSG melhora a qualidade da estrutura hierárquica, mantendo um forte desempenho na recuperação de informação. Os ganhos mais significativos são observados em métricas a nível do grafo: o HSG alcança um PP IoU de 33,17 e o Graph IoU mais alto de 33,51, superando a melhor variante do AoMSG (25,37) em 8,14, destacando a eficácia da aprendizagem de representações hiperbólicas para a modelação de grafos de cena. Código: https://github.com/AIGeeksGroup/HSG.
Os modelos de linguagem grandes (LLMs) do tipo "decoder-only" estão a substituir progressivamente as arquiteturas do estilo BERT como base para a recuperação densa, alcançando ganhos substanciais de desempenho e uma ampla adoção. No entanto, a robustez destes recuperadores baseados em LLM permanece pouco explorada. Neste artigo, apresentamos o primeiro estudo sistemático da robustez dos recuperadores densos de última geração baseados em LLM de código aberto, sob duas perspetivas complementares: generalização e estabilidade. Para a generalização, avaliamos a eficácia da recuperação em quatro benchmarks abrangendo 30 conjuntos de dados, utilizando modelos lineares de efeitos mistos para estimar o desempenho médio marginal e separar a capacidade intrínseca do modelo da heterogeneidade dos conjuntos de dados. A nossa análise revela que, embora os modelos ajustados por instrução geralmente se destaquem, aqueles otimizados para raciocínio complexo frequentemente sofrem uma "taxa de especialização", exibindo uma generalização limitada em contextos mais amplos. Para a estabilidade, avaliamos a resiliência do modelo contra variações de consulta não intencionais (por exemplo, paráfrases, erros tipográficos) e ataques adversariais maliciosos (por exemplo, envenenamento do *corpus*). Verificamos que os recuperadores baseados em LLM mostram uma robustez melhorada contra erros tipográficos e envenenamento do *corpus* em comparação com as linhas de base baseadas apenas em *encoders*, mas permanecem vulneráveis a perturbações semânticas como a substituição por sinónimos. Uma análise mais aprofundada mostra que a geometria dos *embeddings* (por exemplo, uniformidade angular) fornece sinais preditivos para a estabilidade lexical e sugere que a escalagem do tamanho do modelo geralmente melhora a robustez. Estas descobertas informam o futuro desenho de recuperadores com consciência da robustez e a criação de benchmarks fundamentados. O nosso código está publicamente disponível em https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Apresentamos a primeira versão do KWBench (Knowledge Work Bench), um benchmark para o reconhecimento não solicitado de problemas em modelos de linguagem grandes: pode um LLM identificar um cenário profissional antes de tentar resolvê-lo? Os benchmarks de fronteira existentes estão saturados, e a maioria das avaliações de trabalho intelectual até hoje se resume à extração ou conclusão de tarefas contra uma especificação. O KWBench visa a etapa anterior a essa: reconhecer a estrutura governante da situação a partir apenas de entradas brutas. O benchmark contém 223 tarefas originadas de profissionais das áreas de aquisições, negociações contratuais, farmácia clínica, política organizacional, análise de fraudes e design de incentivos. Cada tarefa codifica um padrão formal da teoria dos jogos (conflito principal-agente, sinalização, falha no *design* de mecanismos, omissão estratégica, dinâmicas coalizacionais, interdependência estratégica) e carrega uma *ground truth* estruturada que registra a leitura especializada da situação e os modos de falha antecipados. Os modelos recebem dados brutos e um *prompt* de tarefa sem qualquer indicação do tipo de problema. A pontuação segue uma rubrica de três níveis condicionada a uma verificação conjuntiva obrigatória. Os critérios obrigatórios codificam os caminhos errados previstos. Avaliamos 16 modelos. O melhor modelo é aprovado em 27,9% das tarefas. Os dois melhores modelos concordam em apenas 31,7% de suas aprovações. Entre os 8 primeiros, 44 tarefas são resolvidas por exatamente um modelo; o roteamento entre os 8 primeiros cobre 50,7% do *benchmark*, quase o dobro do melhor modelo individual. Condicionada à aprovação, as pontuações de qualidade convergem (aproximadamente 83% entre os modelos); as pontuações incondicionais não convergem. Os mesmos modelos articulam o conceito relevante da teoria dos jogos corretamente quando questionados, mas falham em aplicá-lo sem solicitação. Disponibilizamos o KWBench para mudar a forma como os modelos de fronteira são avaliados no trabalho intelectual, pontuando-os com base em se reconhecem o problema correto a partir apenas da situação, e não apenas em quão bem eles executam uma vez que o problema foi estruturado para eles.
Agentes de IA que interagem com seus ambientes por meio de ferramentas permitem aplicações poderosas, mas em contextos empresariais de alto risco, ações não intencionais podem causar danos inaceitáveis, como violações de privacidade e perdas financeiras. As mitigações existentes, como métodos baseados em treinamento e barreiras neurais, melhoram a confiabilidade do agente, mas não podem fornecer garantias. Estudamos barreiras simbólicas como um caminho prático para obter fortes garantias de segurança e proteção para agentes de IA. Nosso estudo de três partes inclui uma revisão sistemática de 80 benchmarks state-of-the-art de segurança e proteção de agentes para identificar as políticas que eles avaliam, uma análise de quais requisitos de política podem ser garantidos por barreiras simbólicas e uma avaliação de como as barreiras simbólicas afetam a segurança, proteção e sucesso do agente nos benchmarks τ²-Bench, CAR-bench e MedAgentBench. Descobrimos que 85% dos benchmarks carecem de políticas concretas, dependendo, em vez disso, de objetivos de alto nível mal especificados ou de senso comum. Entre as políticas especificadas, 74% dos requisitos de política podem ser aplicados por barreiras simbólicas, frequentemente usando mecanismos simples e de baixo custo. Essas barreiras melhoram a segurança e proteção sem sacrificar a utilidade do agente. No geral, nossos resultados sugerem que as barreiras simbólicas são uma maneira prática e eficaz de garantir alguns requisitos de segurança e proteção, especialmente para agentes de IA específicos de domínio. Disponibilizamos todos os códigos e artefatos em https://github.com/hyn0027/agent-symbolic-guardrails.
A destilação de conhecimento é uma técnica amplamente adotada para transferir capacidades de LLMs para modelos estudantis menores e mais eficientes. No entanto, o uso não autorizado da destilação de conhecimento tira vantagem injusta do considerável esforço e custo investidos no desenvolvimento de modelos de fronteira. Investigamos métodos para modificar traços de raciocínio gerados pelo professor para alcançar dois objetivos que impedem a destilação não autorizada: (1) antidestilação, ou degradar a utilidade para treinamento das respostas a consultas, e (2) marcação d'água de API, que incorpora assinaturas verificáveis em modelos estudantis. Introduzimos várias abordagens para reescrever dinamicamente os resultados de raciocínio de um professor, preservando a correção da resposta e a coerência semântica. Duas delas aproveitam as capacidades de reescrita dos LLMs, enquanto outras usam técnicas baseadas em gradiente. Nossos experimentos mostram que uma simples abordagem de reescrita baseada em instruções alcança um forte efeito de antidestilação, mantendo ou mesmo melhorando o desempenho do professor. Além disso, mostramos que nossa abordagem de reescrita também permite incorporar marcas d'água que podem ser detectadas de forma confiável com essencialmente nenhum falso alarme. Nosso código está disponível em https://github.com/xhOwenMa/trace-rewriting.