Artigos de pesquisa em IA selecionados diariamente com traduções
O OpenClaw rapidamente se estabeleceu como um runtime de agente autónomo de código aberto líder, oferecendo capacidades poderosas que incluem integração de ferramentas, acesso a ficheiros locais e execução de comandos de shell. No entanto, estes amplos privilégios operacionais introduzem vulnerabilidades de segurança críticas, transformando erros do modelo em ameaças tangíveis a nível de sistema, como fugas de dados sensíveis, escalada de privilégios e execução maliciosa de *skills* de terceiros. As medidas de segurança existentes para o ecossistema OpenClaw permanecem altamente fragmentadas, abordando apenas etapas isoladas do ciclo de vida do agente, em vez de fornecer uma proteção holística. Para colmatar esta lacuna, apresentamos o ClawKeeper, um quadro de segurança em tempo real que integra mecanismos de proteção multidimensionais em três camadas arquitetónicas complementares. (1) A proteção baseada em *skills* opera ao nível da instrução, injetando políticas de segurança estruturadas diretamente no contexto do agente para impor restrições específicas do ambiente e atravessar fronteiras entre plataformas. (2) A proteção baseada em *plugins* atua como um fiscal interno em tempo de execução, fornecendo reforço de configuração, deteção proativa de ameaças e monitorização comportamental contínua em todo o *pipeline* de execução. (3) A proteção baseada em *Watchers* introduz um *middleware* de segurança a nível de sistema, desacoplado e inovador, que verifica continuamente a evolução do estado do agente. Permite a intervenção em tempo real na execução sem acoplamento à lógica interna do agente, suportando operações como a paragem de ações de alto risco ou a imposição de confirmação humana. Argumentamos que este paradigma de *Watcher* tem um forte potencial para servir como um bloco de construção fundamental para a segurança de sistemas de agentes autónomos de próxima geração. Avaliações qualitativas e quantitativas extensivas demonstram a eficácia e robustez do ClawKeeper em diversos cenários de ameaça. Disponibilizamos o nosso código.
Tem havido um crescente interesse no desenvolvimento de agentes capazes de interagir com plataformas digitais para executar tarefas empresariais significativas de forma autónoma. Entre as abordagens exploradas estão agentes aumentados com ferramentas, construídos sobre abstrações como o Model Context Protocol (MCP), e agentes web que operam através de interfaces gráficas. No entanto, permanece pouco claro se tais sistemas agentivos complexos são necessários, dados os seus custos e sobrecarga operacional. Defendemos que um agente de programação equipado apenas com um terminal e um sistema de ficheiros pode resolver muitas tarefas empresariais de forma mais eficaz, interagindo diretamente com as APIs das plataformas. Avaliamos esta hipótese em diversos sistemas do mundo real e demonstramos que estes agentes de terminal de baixo nível igualam ou superam arquiteturas de agentes mais complexas. As nossas conclusões sugerem que interfaces programáticas simples, combinadas com modelos de base robustos, são suficientes para a automação empresarial prática.
Os recentes avanços nos sistemas de pesquisa profunda têm sido impressionantes, mas a avaliação ainda fica aquém das necessidades reais dos utilizadores. Os benchmarks existentes avaliam predominantemente relatórios finais usando rubricas fixas, falhando em avaliar o processo de pesquisa subjacente. A maioria também oferece cobertura multimodal limitada, depende de tarefas sintéticas que não refletem a complexidade de consultas do mundo real e não pode ser atualizada à medida que o conhecimento evolui. Para colmatar estas lacunas, apresentamos o MiroEval, um benchmark e framework de avaliação para sistemas de pesquisa profunda. O benchmark compreende 100 tarefas (70 apenas texto, 30 multimodais), todas fundamentadas em necessidades reais dos utilizadores e construídas através de um pipeline de duplo percurso que suporta atualizações periódicas, permitindo um ambiente dinâmico e em evolução. O conjunto de avaliação proposto avalia os sistemas de pesquisa profunda ao longo de três dimensões complementares: avaliação adaptativa da qualidade de síntese com rubricas específicas por tarefa, verificação de factualidade agentiva através de recuperação ativa e raciocínio sobre fontes web e anexos multimodais, e avaliação centrada no processo que audita como o sistema pesquisa, raciocina e refina ao longo da sua investigação. A avaliação de 13 sistemas produz três conclusões principais: as três dimensões de avaliação capturam aspetos complementares da capacidade do sistema, com cada uma a revelar pontos fortes e fracos distintos entre os sistemas; a qualidade do processo serve como um indicador fiável do resultado global, revelando fraquezas invisíveis para métricas de nível de output; e as tarefas multimodais apresentam desafios substancialmente maiores, com a maioria dos sistemas a registar quedas de 3 a 10 pontos. A série MiroThinker alcança o desempenho mais equilibrado, com o MiroThinker-H1 a classificar-se no topo geral em ambos os cenários. Os resultados de verificação humana e robustez confirmam a fiabilidade do benchmark e do framework de avaliação. O MiroEval fornece uma ferramenta de diagnóstico holística para a próxima geração de agentes de pesquisa profunda.
Por trás da impressionante fidelidade visual dos modelos modernos de Geração de Inteligência Artificial (AIGC) encontra-se um "deserto lógico", onde os sistemas falham em tarefas que exigem raciocínio físico, causal ou espacial complexo. As avaliações atuais baseiam-se amplamente em métricas superficiais ou benchmarks fragmentados, criando um "miragem de desempenho" que ignora o processo generativo. Para enfrentar esta questão, apresentamos o ViGoR (Vision-Generative Reasoning-centric Benchmark), um quadro unificado concebido para desmantelar esta miragem. O ViGoR distingue-se através de quatro inovações principais: 1) cobertura holística cross-modal que une tarefas de Imagem-para-Imagem e Vídeo; 2) um mecanismo de dupla via que avalia tanto os processos intermédios como os resultados finais; 3) um juiz automatizado baseado em evidências que garante uma elevada correspondência com a avaliação humana; e 4) uma análise de diagnóstico granular que decompõe o desempenho em dimensões cognitivas de alto detalhe. Experiências realizadas em mais de 20 modelos líderes revelam que mesmo os sistemas mais avançados apresentam défices significativos de raciocínio, estabelecendo o ViGoR como um "teste de stress" crítico para a próxima geração de modelos de visão inteligente. A demonstração está disponível em https://vincenthancoder.github.io/ViGoR-Bench/.
Os recentes avanços em modelos de linguagem de grande escala melhoraram as capacidades de agentes de codificação, porém a avaliação sistemática do desenvolvimento complexo e integral de websites permanece limitada. Para preencher essa lacuna, apresentamos o Vision2Web, um benchmark hierárquico para desenvolvimento visual de websites, abrangendo desde a geração estática de código a partir de UI, a reprodução de frontends interativos com múltiplas páginas, até o desenvolvimento full-stack de longo horizonte. O benchmark é construído a partir de websites do mundo real e compreende um total de 193 tarefas em 16 categorias, com 918 imagens de protótipo e 1.255 casos de teste. Para apoiar uma avaliação flexível, abrangente e confiável, propomos um paradigma de verificação de agentes baseado em fluxo de trabalho, fundamentado em dois componentes complementares: um verificador de agente de interface gráfica (GUI) e um juiz baseado em Modelos de Linguagem Visual (VLM). Avaliamos múltiplos modelos de linguagem visual instanciados sob diferentes frameworks de agentes de codificação, revelando lacunas substanciais de desempenho em todos os níveis de tarefa, com os modelos state-of-the-art ainda apresentando dificuldades no desenvolvimento full-stack.
A previsão de séries temporais é crítica em áreas como finanças, saúde e computação em nuvem, mas o progresso é limitado por um gargalo fundamental: a escassez de benchmarks em larga escala e de alta qualidade. Para preencher essa lacuna, apresentamos o QuitoBench, um benchmark balanceado por regime para previsão de séries temporais, com cobertura em oito regimes de tendência-sazonalidade-previsibilidade (TSF), projetado para capturar propriedades relevantes para a previsão, em vez de rótulos de domínio definidos por aplicação. O benchmark é construído sobre o Quito, um corpus de bilhões de séries temporais de tráfego de aplicações do Alipay, abrangendo nove domínios de negócio. Ao avaliar 10 modelos de aprendizado profundo, modelos de base (foundation models) e linhas de base estatísticas em 232.200 instâncias de avaliação, relatamos quatro descobertas principais: (i) um ponto de crossover no comprimento do contexto, onde modelos de aprendizado profundo lideram em contextos curtos (L=96), mas os modelos de base dominam em contextos longos (L ≥ 576); (ii) a previsibilidade é o principal fator de dificuldade, produzindo uma diferença de MAE 3,64 vezes maior entre os regimes; (iii) modelos de aprendizado profundo igualam ou superam os modelos de base com 59 vezes menos parâmetros; e (iv) escalar a quantidade de dados de treinamento oferece um benef substancialmente maior do que escalar o tamanho do modelo para ambas as famílias de modelos. Essas descobertas são validadas por uma forte consistência cruzada entre benchmarks e métricas. Nossa disponibilização em código aberto permite uma avaliação reproduzível e consciente dos regimes para a pesquisa em previsão de séries temporais.
Modelos de linguagem de grande escala (LLMs) que exibem comportamentos de escalonamento no momento do teste, como traços de raciocínio estendidos e autoverificação, demonstraram desempenho notável em tarefas complexas de raciocínio de longo prazo. No entanto, a robustez desses comportamentos de raciocínio permanece pouco explorada. Para investigar isso, realizamos uma avaliação sistemática de múltiplos modelos de raciocínio em três cenários: (1) problemas aumentados com contexto irrelevante e extenso; (2) ambientes conversacionais multiturno com tarefas independentes; e (3) problemas apresentados como uma subtarefa dentro de uma tarefa complexa. Observamos um fenômeno interessante: os modelos de raciocínio tendem a produzir traços de raciocínio muito mais curtos (até 50%) para o mesmo problema sob diferentes condições de contexto, em comparação com os traços produzidos quando o problema é apresentado isoladamente. Uma análise mais refinada revela que essa compressão está associada a uma diminuição nos comportamentos de autoverificação e gestão de incerteza, como a verificação dupla. Embora essa mudança comportamental não comprometa o desempenho em problemas diretos, ela pode afetar o desempenho em tarefas mais desafiadoras. Esperamos que nossas descobertas atraiam atenção adicional tanto para a robustez dos modelos de raciocínio quanto para o problema da gestão de contexto em LLMs e agentes baseados em LLM.
Os protocolos padrão de avaliação revelam um fenômeno contraintuitivo: em 7,7% dos problemas de benchmark abrangendo cinco conjuntos de dados, modelos de linguagem maiores têm desempenho inferior a modelos menores em 28,4 pontos percentuais, apesar de possuírem 10 a 100 vezes mais parâmetros. Através de uma avaliação sistemática de 31 modelos (0,5B a 405B de parâmetros) em 1.485 problemas, identificamos o mecanismo como uma verbosidade espontânea dependente de escala que introduz erros por meio de excesso de elaboração. Experimentos de intervenção causal demonstram que isso reflete um problema corrigível no *design* de *prompts*, e não uma limitação fundamental de capacidade. Restringir modelos grandes a produzir respostas breves melhora a precisão em 26 pontos percentuais e reduz as lacunas de desempenho em até dois terços. Mais criticamente, as restrições de brevidade revertem completamente as hierarquias de desempenho em *benchmarks* de raciocínio matemático e conhecimento científico, com modelos grandes alcançando vantagens de 7,7 a 15,9 pontos percentuais sobre modelos pequenos – inversões diretas das lacunas originais. Essas reversões provam que os modelos grandes possuem capacidades latentes superiores que são mascaradas por *prompts* universais. Validamos os resultados por meio de três testes independentes de contaminação e demonstramos que a escala inversa opera continuamente em todo o espectro de parâmetros, com escalas ótimas específicas para cada conjunto de dados variando de 0,5B a 3,0B de parâmetros. Nossos resultados estabelecem que maximizar o desempenho de modelos grandes requer uma engenharia de *prompts* consciente da escala, e não protocolos de avaliação universais, com implicações imediatas para a implantação: a adaptação de *prompts* melhora simultaneamente a precisão e reduz os custos computacionais.
Apresentamos o HippoCamp, um novo benchmark concebido para avaliar as capacidades de agentes na gestão multimodal de ficheiros. Ao contrário dos benchmarks de agentes existentes, que se concentram em tarefas como interação web, uso de ferramentas ou automação de software em ambientes genéricos, o HippoCamp avalia os agentes em ambientes centrados no utilizador para modelar perfis de utilizador individuais e pesquisar ficheiros pessoais massivos para um raciocínio contextual. O nosso benchmark instancia sistemas de ficheiros à escala de dispositivos sobre perfis do mundo real que abrangem diversas modalidades, compreendendo 42,4 GB de dados distribuídos por mais de 2 mil ficheiros reais. Com base nos ficheiros brutos, construímos 581 pares de perguntas e respostas (QA) para avaliar as capacidades dos agentes em pesquisa, perceção de evidências e raciocínio multi-etapas. Para facilitar uma análise granular, fornecemos 46,1 mil trajetórias estruturadas densamente anotadas para diagnóstico de falhas passo a passo. Avaliamos uma ampla gama de modelos de linguagem grandes multimodais (MLLMs) e métodos de agentes state-of-the-art no HippoCamp. As nossas experiências abrangentes revelam uma lacuna significativa de desempenho: mesmo os modelos comerciais mais avançados atingem apenas 48,3% de precisão na criação de perfis de utilizador, com dificuldades particularmente na recuperação de longo horizonte e no raciocínio cross-modal dentro de sistemas de ficheiros pessoais densos. Além disso, o nosso diagnóstico de falhas passo a passo identifica a perceção multimodal e a fundamentação em evidências como os principais estrangulamentos. Em última análise, o HippoCamp expõe as limitações críticas dos agentes atuais em ambientes realistas e centrados no utilizador e fornece uma base robusta para o desenvolvimento de assistentes de IA pessoais de próxima geração.
Apresentamos o PerceptionComp, um benchmark anotado manualmente para o raciocínio em vídeo complexo, de longo horizonte e centrado na percepção. O PerceptionComp foi concebido de modo que nenhum momento único seja suficiente: responder a cada pergunta requer múltiplas evidências visuais temporalmente separadas e restrições composicionais sob lógica conjuntiva e sequencial, abrangendo subtarefas perceptivas como objetos, atributos, relações, localizações, ações e eventos, e exigindo competências que incluem reconhecimento semântico, correspondência visual, raciocínio temporal e raciocínio espacial. O benchmark contém 1.114 perguntas altamente complexas sobre 279 vídeos de diversos domínios, incluindo passeios urbanos, visitas a villas interiores, videojogos e desportos radicais ao ar livre, com 100% de anotação manual. Estudos com humanos mostram que o PerceptionComp exige um pensamento substancial durante o teste e passos perceptivos repetidos: os participantes demoram muito mais tempo do que em benchmarks anteriores, e a precisão cai para quase aleatória (18,97%) quando a revisão dos vídeos não é permitida. Os MLLMs (Modelos de Linguagem Multimodal) de última geração também têm um desempenho substancialmente pior no PerceptionComp do que em benchmarks existentes: o melhor modelo na nossa avaliação, o Gemini-3-Flash, atinge apenas 45,96% de precisão na configuração de cinco escolhas, enquanto os modelos de código aberto permanecem abaixo dos 40%. Estes resultados sugerem que o raciocínio em vídeo de longo horizonte centrado na percepção continua a ser um grande obstáculo, e esperamos que o PerceptionComp ajude a impulsionar o progresso no raciocínio perceptual.
A ascensão do escalonamento no momento do teste (test-time scaling) aumentou notavelmente a proficiência de raciocínio e de agência dos Grandes Modelos de Linguagem (LLMs). No entanto, os Transformers padrão lutam para escalar o cálculo no momento da inferência de forma eficiente, uma vez que as estratégias convencionais de loop sofrem com alta sobrecarga computacional e um cache de Chave-Valor (KV) que infla juntamente com a profundidade do modelo. Apresentamos o Universal YOCO (YOCO-U), que combina a arquitetura decoder-decoder do YOCO com computação recursiva para alcançar um efeito sinérgico maior do que qualquer um dos dois isoladamente. Construído sobre a estrutura YOCO, o YOCO-U implementa um Auto-Decodificador Universal (Universal Self-Decoder) que realiza múltiplas iterações através do compartilhamento de parâmetros, confinando o processo iterativo a camadas de atenção eficiente e superficiais. Esta combinação resulta numa relação capacidade-eficiência favorável que nem o YOCO nem a recursão alcançam independentemente. A arquitetura YOCO fornece um cache KV global constante e um pré-preenchimento linear, enquanto a recursão parcial aumenta a profundidade representacional com sobrecarga limitada. Juntos, o YOCO-U melhora a utilidade dos tokens e o comportamento de escalonamento, mantendo uma inferência eficiente. Resultados empíricos confirmam que o YOCO-U mantém-se altamente competitivo em benchmarks gerais e de contexto longo, demonstrando que a integração de arquiteturas de atenção eficiente e computação recursiva é uma direção promissora para LLMs escaláveis.
Os avanços mais recentes na modelagem generativa 3D dependem de formulações baseadas em difusão ou *flow-matching*. Nós, em vez disso, exploramos uma alternativa totalmente autoregressiva e introduzimos o GaussianGPT, um modelo baseado em *transformer* que gera diretamente Gaussianas 3D via previsão do próximo *token*, facilitando assim a geração completa de cenas 3D. Primeiro, comprimimos as primitivas Gaussianas numa grelha latente discreta usando um autoencoder convolucional 3D esparso com quantização vetorial. Os *tokens* resultantes são serializados e modelados usando um *transformer* causal com incorporação posicional rotacional 3D, permitindo a geração sequencial da estrutura espacial e da aparência. Diferente dos métodos baseados em difusão que refinam cenas holisticamente, a nossa formulação constrói cenas passo a passo, suportando naturalmente tarefas como conclusão, extrapolação, amostragem controlável via temperatura e horizontes de geração flexíveis. Esta formulação aproveita os vieses indutivos composicionais e a escalabilidade da modelagem autoregressiva, enquanto opera em representações explícitas compatíveis com os *pipelines* modernos de renderização neural, posicionando os *transformers* autoregressivos como um paradigma complementar para a geração 3D controlável e consciente do contexto.
Um modelo de linguagem de grande escala (LLM) pode melhorar na geração de código usando apenas suas próprias saídas brutas, sem um verificador, um modelo professor ou aprendizado por reforço? Respondemos afirmativamente com a auto-distilação simples (SSD): amostramos soluções do modelo com certas configurações de temperatura e truncamento, e então ajustamos finamente nessas amostras com o ajuste fino supervisionado padrão. O SSD melhora o Qwen3-30B-Instruct de 42,4% para 55,3% em pass@1 no LiveCodeBench v6, com ganhos concentrados em problemas mais difíceis, e generaliza entre os modelos Qwen e Llama nas escalas de 4B, 8B e 30B, incluindo variantes de instrução e de raciocínio. Para entender por que um método tão simples pode funcionar, rastreamos esses ganhos até um conflito de precisão-exploração na decodificação do LLM e mostramos que o SSD remodela as distribuições de tokens de maneira dependente do contexto, suprimindo as caudas de distração onde a precisão é importante, enquanto preserva a diversidade útil onde a exploração é importante. Em conjunto, o SSD oferece uma direção complementar de pós-treinamento para melhorar a geração de código por LLMs.
Este artigo introduz o primeiro quadro de avaliação sistemática para quantificar a qualidade e os riscos de artigos escritos por agentes de codificação modernos. Embora a escrita de artigos orientada por IA tenha se tornado uma preocupação crescente, a avaliação rigorosa da qualidade e dos riscos potenciais de artigos escritos por IA permanece limitada, e ainda falta uma compreensão unificada sobre sua confiabilidade. Introduzimos a Avaliação por Reconstrução de Artigo (PaperRecon), um quadro de avaliação no qual um resumo estruturado (overview.md) é criado a partir de um artigo existente; em seguida, um agente gera um artigo completo com base neste resumo e em recursos adicionais mínimos, e o resultado é subsequentemente comparado com o artigo original. O PaperRecon desacopla a avaliação dos artigos escritos por IA em duas dimensões ortogonais, Apresentação e Alucinação, onde a Apresentação é avaliada por meio de uma rubrica e a Alucinação é avaliada via avaliação agentica fundamentada na fonte do artigo original. Para a avaliação, introduzimos o PaperWrite-Bench, um benchmark composto por 51 artigos de eventos de alto nível em diversas áreas, publicados após 2025. Nossos experimentos revelam uma clara relação de compensação: embora tanto o ClaudeCode quanto o Codex apresentem melhorias com os avanços do modelo, o ClaudeCode alcança maior qualidade de apresentação ao custo de mais de 10 alucinações por artigo em média, enquanto o Codex produz menos alucinações, mas com qualidade de apresentação inferior. Este trabalho dá um primeiro passo em direção ao estabelecimento de quadros de avaliação para a escrita de artigos orientada por IA e à melhoria da compreensão de seus riscos dentro da comunidade de pesquisa.
O Grounding Visual 3D (3D-VG) tem como objetivo localizar objetos em cenas 3D por meio de descrições em linguagem natural. Embora avanços recentes que utilizam Modelos de Visão e Linguagem (VLMs) tenham explorado possibilidades *zero-shot*, eles geralmente sofrem com um fluxo de trabalho estático que depende de nuvens de pontos 3D pré-processadas, essencialmente degradando a tarefa de *grounding* para uma correspondência de propostas. Para contornar essa dependência, nossa motivação central é desacoplar a tarefa: aproveitar VLMs 2D para resolver semântica espacial complexa, enquanto dependemos da geometria multi-visão determinística para instanciar a estrutura 3D. Guiados por essa intuição, propomos "Think, Act, Build (TAB)", uma estrutura agentiva dinâmica que reformula tarefas 3D-VG como um paradigma generativo de reconstrução 2D-para-3D que opera diretamente em fluxos brutos RGB-D. Especificamente, guiado por uma habilidade especializada em 3D-VG, nosso agente VLM invoca dinamicamente ferramentas visuais para rastrear e reconstruir o alvo através de quadros 2D. Crucialmente, para superar o déficit de cobertura multi-visão causado pelo rastreamento semântico estrito do VLM, introduzimos a Expansão Geométrica Ancorada Semanticamente, um mecanismo que primeiro ancora o alvo em um clipe de vídeo de referência e depois aproveita a geometria multi-visão para propagar sua localização espacial através de quadros não observados. Isso permite que o agente "Construa" a representação 3D do alvo agregando essas características multi-visão por meio de parâmetros da câmera, mapeando diretamente pistas visuais 2D para coordenadas 3D. Além disso, para garantir uma avaliação rigorosa, identificamos falhas como ambiguidade de referência e erros de categoria em *benchmarks* existentes e refinamos manualmente as consultas incorretas. Experimentos extensivos no ScanRefer e Nr3D demonstram que nossa estrutura, dependendo inteiramente de modelos de código aberto, supera significativamente os métodos *zero-shot* anteriores e até mesmo ultrapassa as linhas de base totalmente supervisionadas.
Agentes proativos que antecipam as necessidades dos utilizadores e executam tarefas de forma autónoma são assistentes digitais com grande potencial, mas a falta de estruturas realistas de simulação de utilizadores dificulta o seu desenvolvimento. As abordagens existentes modelam as aplicações como APIs planas de chamada de ferramentas, não captando a natureza com estado e sequencial da interação do utilizador em ambientes digitais, tornando inviável uma simulação realista do utilizador. Apresentamos o Proactive Agent Research Environment (Pare), uma estrutura para construir e avaliar agentes proativos em ambientes digitais. O Pare modela aplicações como máquinas de estados finitos com navegação com estado e espaço de ação dependente do estado para o simulador de utilizador, permitindo uma simulação ativa do utilizador. Com base nesta fundação, apresentamos o Pare-Bench, um benchmark com 143 tarefas diversificadas abrangendo aplicações de comunicação, produtividade, agendamento e estilo de vida, concebido para testar a observação de contexto, inferência de objetivos, timing de intervenção e orquestração multi-aplicação.
A destilação de conhecimento tornou-se um mecanismo primário para transferir capacidades de raciocínio e expertise de domínio de Modelos de Linguagem de Grande Porte (LLMs) de fronteira para estudantes menores e implantáveis. No entanto, o paradigma dominante permanece *off-policy*: os estudantes treinam em dados estáticos gerados pelo professor e nunca encontram seus próprios erros durante o aprendizado. Esta incompatibilidade entre treino e teste, uma instância do *exposure bias*, faz com que os erros de predição se acumulem autoregressivamente no momento da inferência. A Destilação *On-Policy* (OPD) aborda este problema ao permitir que o estudante gere suas próprias trajetórias e receba *feedback* do professor sobre essas saídas auto-geradas, ancorando a destilação na teoria do aprendizado por imitação interativo. Apesar do rápido crescimento, abrangendo minimização de divergência, aprendizado guiado por recompensa e *self-play*, a literatura sobre OPD permanece fragmentada, sem um tratamento unificado. Este estudo fornece a primeira visão geral abrangente da OPD para LLMs. Introduzimos uma estrutura unificada de divergência-f sobre amostras *on-policy* e organizamos o panorama ao longo de três dimensões ortogonais: sinal de *feedback* (baseado em *logits*, baseado em resultado ou *self-play*), acesso ao professor (*white-box*, *black-box* ou sem professor) e granularidade da perda (a nível de *token*, a nível de sequência ou híbrida). Analisamos sistematicamente métodos representativos, examinamos implantações industriais e identificamos problemas em aberto, incluindo leis de escala na destilação, *feedback* consciente da incerteza e destilação a nível de agente.
Os modelos Visão-Linguagem-Ação (VLA) visam controlar robôs para manipulação a partir de observações visuais e instruções em linguagem natural. No entanto, os paradigmas hierárquicos e autorregressivos existentes frequentemente introduzem sobrecarga arquitetônica, sofrem com inconsistência temporal e acumulação de erros de longo prazo, e carecem de um mecanismo para capturar a dinâmica do ambiente sem módulos extras. Para isso, apresentamos o MMaDA-VLA, um grande modelo VLA de difusão totalmente nativo e pré-treinado que unifica a compreensão e geração multimodal em uma única estrutura. Nossa ideia central é uma formulação de difusão discreta nativa que incorpora linguagem, imagens e controles contínuos de robôs em um único espaço de tokens discretos e treina uma única rede principal com desruído de tokens mascarados para gerar conjuntamente uma observação de objetivo futuro e um bloco de ações em paralelo. A desruído iterativa permite um refinamento global e independente de ordem, melhorando a consistência de longo prazo enquanto ancora as ações em resultados visuais futuros previstos, sem a necessidade de modelos mundiais auxiliares. Experimentos em benchmarks de simulação e tarefas do mundo real mostram desempenho de última geração, atingindo 98,0% de sucesso médio no LIBERO e comprimento médio de 4,78 no CALVIN.
Nos últimos anos, as leis de escalabilidade de modelos de recomendação têm atraído crescente atenção, as quais governam a relação entre desempenho e parâmetros/FLOPs dos sistemas de recomendação. Atualmente, existem três arquiteturas principais para alcançar escalabilidade em modelos de recomendação, nomeadamente métodos baseados em atenção, baseados em TokenMixer e baseados em máquina de fatoração, que apresentam diferenças fundamentais tanto na filosofia de design quanto na estrutura arquitetônica. Neste artigo, propomos uma arquitetura de escalabilidade unificada para sistemas de recomendação, denominada UniMixer, para melhorar a eficiência de escalabilidade e estabelecer um quadro teórico unificado que integre os blocos de escalabilidade predominantes. Ao transformar o TokenMixer baseado em regras em uma estrutura parametrizada equivalente, construímos um módulo parametrizado generalizado de combinação de características que permite que os padrões de combinação de tokens sejam otimizados e aprendidos durante o treinamento do modelo. Simultaneamente, a combinação parametrizada generalizada de tokens remove a restrição no TokenMixer que exige que o número de cabeças seja igual ao número de tokens. Adicionalmente, estabelecemos um quadro unificado de design de módulos de escalabilidade para sistemas de recomendação, que estabelece conexões entre métodos baseados em atenção, TokenMixer e máquina de fatoração. Para potencializar ainda mais o ROI de escalabilidade, foi projetado um módulo UniMixing leve, o UniMixing-Lite, que comprime ainda mais os parâmetros do modelo e o custo computacional, enquanto melhora significativamente o desempenho do modelo. As curvas de escalabilidade são mostradas na figura seguinte. Experimentos extensivos offline e online são conduzidos para verificar as habilidades superiores de escalabilidade do UniMixer.
Os agentes de compras baseados em LLM dependem cada vez mais de históricos de compras longos e interações multiturno para personalização, porém, anexar ingenuamente o histórico bruto aos *prompts* geralmente é ineficaz devido a ruído, extensão e incompatibilidade de relevância. Propomos o MemRerank, uma estrutura de memória de preferências que destila o histórico de compras do usuário em sinais concisos e independentes de consulta para rerranqueamento personalizado de produtos. Para estudar esse problema, construímos um *benchmark* de ponta a ponta e uma estrutura de avaliação centrados em uma tarefa de seleção 1-em-5 baseada em LLM, que mede tanto a qualidade da memória quanto a utilidade do rerranqueamento subsequente. Treinamos ainda o extrator de memória com aprendizado por reforço (RL), usando o desempenho do rerranqueamento subsequente como supervisão. Experimentos com dois rerranqueadores baseados em LLM mostram que o MemRerank supera consistentemente as linhas de base sem memória, com histórico bruto e de memória prontas, resultando em até +10,61 pontos absolutos na precisão 1-em-5. Esses resultados sugerem que a memória explícita de preferências é um bloco de construção prático e eficaz para personalização em sistemas de *e-commerce* agentivos.
Os pipelines de revisão multi-LLM, nos quais um segundo modelo revisa e melhora um rascunho produzido por um primeiro, são amplamente assumidos como derivando seus ganhos da correção genuína de erros. Questionamos essa suposição com um experimento de decomposição controlada que utiliza quatro condições equivalentes para separar os ganhos da segunda passagem em três componentes aditivos: re-resolução, scaffolding e conteúdo. Avaliamos esse projeto com dois pares de modelos em três benchmarks abrangendo MCQ intensivos em conhecimento e programação competitiva. Nossos resultados mostram que os ganhos da revisão multi-LLM não são monolíticos, mas dependem da estrutura da tarefa, da qualidade do rascunho e do tipo de informação do rascunho. Em tarefas de MCQ, onde o espaço de resposta é restrito e os rascunhos fornecem pouca orientação estrutural, a maioria dos ganhos é consistente com a re-resolução do modelo mais forte, e o roteamento direto de consultas para o modelo mais forte pode ser mais eficaz do que revisar um rascunho fraco. Em tarefas de geração de código, no entanto, a solicitação em dois estágios permanece útil porque mesmo rascunhos semanticamente nulos podem fornecer um scaffolding estrutural substancial, enquanto o conteúdo de rascunhos fracos pode ser prejudicial. Finalmente, experimentos com papéis invertidos mostram que rascunhos fortes claramente beneficiam revisores fracos. Em última análise, nossos achados demonstram que a utilidade da revisão multi-LLM é dinamicamente limitada pela estrutura da tarefa e pela qualidade do rascunho, necessitando de projetos de pipeline mais direcionados em vez de estratégias de revisão genéricas.
Os diagramas de montagem 2D são frequentemente abstratos e difíceis de seguir, criando a necessidade de assistentes inteligentes que possam monitorar o progresso, detectar erros e fornecer orientação passo a passo. Em ambientes de realidade mista, tais sistemas devem reconhecer etapas concluídas e em andamento a partir do fluxo da câmera e alinhá-las com as instruções do diagrama. Os Modelos de Linguagem Visual (VLMs) mostram potencial para essa tarefa, mas enfrentam uma lacuna de representação porque os diagramas de montagem e os quadros de vídeo compartilham poucas características visuais. Para avaliar sistematicamente essa lacuna, construímos o IKEA-Bench, um benchmark com 1.623 questões em 6 tipos de tarefas sobre 29 produtos de mobiliário IKEA, e avaliamos 19 VLMs (2B-38B) sob três estratégias de alinhamento. Nossas principais descobertas: (1) a compreensão das instruções de montagem é recuperável via texto, mas o texto simultaneamente degrada o alinhamento diagrama-vídeo; (2) a família arquitetônica prevê a precisão do alinhamento mais fortemente do que a contagem de parâmetros; (3) a compreensão de vídeo permanece um gargalo difícil não afetado pela estratégia. Uma análise mecanicista de três níveis revela ainda que diagramas e vídeo ocupam subespaços ViT disjuntos, e que adicionar texto desloca os modelos do raciocínio visual para o baseado em texto. Esses resultados identificam a codificação visual como o principal alvo para melhorar a robustez cruzada de representação. Página do projeto: https://ryenhails.github.io/IKEA-Bench/
Os modernos grandes modelos de linguagem (LLMs) dependem cada vez mais de mecanismos eficientes de processamento e geração de contexto longo, incluindo atenção esparsa, geração aumentada por recuperação (RAG) e memória contextual comprimida, para suportar raciocínios complexos. Demonstramos que essas otimizações podem ser unificadas em um pipeline de processamento de memória de quatro etapas: Preparar Memória, Calcular Relevância, Recuperação e Aplicação à Inferência. Através de uma análise sistemática, identificamos uma sobrecarga de 22% a 97% no processamento de memória durante a inferência de LLMs e uma forte heterogeneidade nas suas características computacionais. Motivados por esta perceção, argumentamos que sistemas heterogéneos são adequados para acelerar o processamento de memória e, consequentemente, a inferência de ponta a ponta. Demonstramos esta abordagem num sistema GPU-FPGA, descarregando operações esparsas, irregulares e limitadas por memória para FPGAs, enquanto mantemos as operações computacionalmente intensivas nas GPUs. Avaliado numa GPU AMD MI210 e numa FPGA Alveo U55C, o nosso sistema é 1,04 a 2,2 vezes mais rápido e requer 1,11 a 4,7 vezes menos energia em várias otimizações de inferência de LLMs em comparação com a linha de base da GPU (resultados semelhantes mantêm-se na NVIDIA A100). Estes resultados estabelecem os sistemas heterogéneos como uma direção prática para o processamento eficiente de memória em LLMs e informam o futuro desenvolvimento de hardware heterogéneo.
Com a implantação de agentes baseados em LLM em sistemas de produção, a compreensão da sua consistência comportamental (se produzem sequências de ações semelhantes quando recebem tarefas idênticas) torna-se crítica para a confiabilidade. Estudamos a consistência no contexto do SWE-bench, um benchmark desafiador de engenharia de software que requer raciocínio complexo e multi-etapas. Comparando Claude 4.5 Sonnet, GPT-5 e Llama-3.1-70B em 50 execuções cada (10 tarefas vezes 5 execuções), descobrimos que, entre os modelos, uma maior consistência está alinhada com uma maior precisão: Claude alcança a variância mais baixa (CV: 15,2%) e a maior precisão (58%), GPT-5 apresenta resultados intermediários (CV: 32,2%, precisão: 32%), e Llama mostra a maior variância (CV: 47,0%) com a menor precisão (4%). No entanto, dentro de um mesmo modelo, a consistência pode amplificar tanto interpretações corretas quanto incorretas. Nossa análise revela uma nuance crítica: a consistência amplifica os resultados em vez de garantir a correção. 71% das falhas do Claude originam-se de "interpretação incorreta consistente": fazer a mesma suposição incorreta em todas as execuções. Curiosamente, o GPT-5 atinge um acordo estratégico inicial semelhante ao do Claude (divergindo na etapa 3,4 vs. 3,2), mas exibe uma variância 2,1 vezes maior, sugerindo que o momento da divergência por si só não determina a consistência. Esses achados sugerem que, para a implantação em produção, a precisão da interpretação é mais importante do que a consistência da execução, com implicações para a avaliação e o treinamento de agentes.
Investigamos se os agentes de uso de telefone respeitam a privacidade ao executar tarefas móveis benignas. Esta questão tem permanecido difícil de responder porque o comportamento compatível com a privacidade não é operacionalizado para agentes de uso de telefone, e as aplicações comuns não revelam exatamente quais dados os agentes inserem em quais campos de formulário durante a execução. Para tornar esta questão mensurável, introduzimos o MyPhoneBench, uma estrutura de avaliação verificável para o comportamento de privacidade em agentes móveis. Operacionalizamos o uso do telefone respeitoso da privacidade como acesso permissionado, divulgação mínima e memória controlada pelo utilizador através de um contrato de privacidade mínimo, iMy, e emparelhamo-lo com aplicações simuladas instrumentadas mais auditoria baseada em regras que tornam pedidos de permissão desnecessários, redivulgação enganosa e preenchimento desnecessário de formulários observáveis e reproduzíveis. Em cinco modelos de vanguarda, testados em 10 aplicações móveis e 300 tarefas, descobrimos que o sucesso da tarefa, a conclusão da tarefa em conformidade com a privacidade e o uso posterior de preferências guardadas são capacidades distintas, e nenhum modelo único domina todas as três. A avaliação conjunta do sucesso e da privacidade reorganiza a ordenação dos modelos em relação a qualquer uma das métricas isoladamente. O modo de falha mais persistente entre os modelos é a minimização simples de dados: os agentes ainda preenchem campos pessoais opcionais que a tarefa não exige. Estes resultados mostram que as falhas de privacidade surgem de uma execução excessivamente prestativa de tarefas benignas, e que a avaliação apenas baseada no sucesso sobrestima a prontidão para implantação dos atuais agentes de uso de telefone. Todo o código, aplicações simuladas e trajetórias dos agentes estão publicamente disponíveis em~ https://github.com/tangzhy/MyPhoneBench.
Utilizando aproximadamente 48 soluções de treinamento do HumanEval verificadas por execução, o ajuste de uma única matriz de estado inicial por camada recorrente, sem sobrecarga de inferência, supera o LoRA em +10,8 pp (p < 0,001) no HumanEval. O método, que denominamos de S0 tuning, otimiza uma matriz de estado por camada recorrente enquanto mantém congelados todos os pesos do modelo. No Qwen3.5-4B (híbrido GatedDeltaNet), o S0 tuning melhora o pass@1 greedy em +23,6 +/- 1,7 pp (10 *seeds*). No FalconH1-7B (híbrido Mamba-2), o S0 atinge 71,8% +/- 1,3 e o LoRA atinge 71,4% +/- 2,4 (3 *seeds*), estatisticamente indistinguíveis neste tamanho de amostra, sem exigir fusão de pesos. A transferência de domínio cruzado é significativa no MATH-500 (+4,8 pp, p = 0,00002, 8 *seeds*) e no GSM8K (+2,8 pp, p = 0,0003, 10 *seeds*); uma avaliação de texto para SQL (Spider) não mostra transferência, consistente com o mecanismo de direcionamento de trajetória. Um controle de prefix-tuning em um Transformer puro (Qwen2.5-3B) degrada o desempenho em -13,9 pp em todas as nove configurações testadas. No Qwen3.5, uma variante de *offset* de estado por passo alcança +27,1 pp, acima tanto do S0 quanto do LoRA, mas com custo de inferência por passo. Em conjunto, os resultados mostram que a inicialização do estado recorrente é uma superfície de PEFT forte e sem sobrecarga de inferência para modelos de linguagem híbridos quando a supervisão verificada é escassa. O estado ajustado é um arquivo de ~48 MB; a troca de tarefas não requer fusão de pesos ou recarga do modelo. Código e biblioteca: https://github.com/jackyoung27/s0-tuning.
À medida que os agentes de LLM transitam da resolução de problemas curtos e estáticos para a execução de tarefas complexas e de longo prazo em ambientes dinâmicos, a capacidade de lidar com interrupções do utilizador, como a adição de requisitos ou a revisão de objetivos, durante a execução de tarefas está a tornar-se um requisito fundamental para uma implantação realista. No entanto, os benchmarks existentes assumem largamente um comportamento do agente ininterrupto ou estudam interrupções apenas em tarefas linguísticas curtas e sem restrições. Neste artigo, apresentamos o primeiro estudo sistemático de agentes interruptíveis em tarefas de navegação web de longo prazo e fundamentadas no ambiente, onde as ações induzem alterações de estado persistentes. Formalizamos três tipos realistas de interrupção, incluindo adição, revisão e retratação, e introduzimos o InterruptBench, um benchmark derivado do WebArena-Lite que sintetiza cenários de interrupção de alta qualidade sob restrições semânticas rigorosas. Utilizando uma estrutura unificada de simulação de interrupções, avaliamos seis modelos base de LLM robustos em configurações de interrupção de conversação única e múltipla, analisando tanto a sua eficácia na adaptação a intenções atualizadas como a sua eficiência na recuperação de alterações a meio da tarefa. Os nossos resultados mostram que lidar com interrupções do utilizador de forma eficaz e eficiente durante tarefas agentivas de longo prazo continua a ser um desafio para modelos de linguagem de grande escala poderosos. O código e o conjunto de dados estão disponíveis em https://github.com/HenryPengZou/InterruptBench.
Os grandes modelos de linguagem (LLMs) e suas aplicações, como agentes, são altamente vulneráveis a ataques de injeção de prompt. Os métodos de deteção de injeção de prompt mais avançados apresentam as seguintes limitações: (1) a sua eficácia degrada-se significativamente à medida que o comprimento do contexto aumenta, e (2) carecem de regras explícitas que definam o que constitui uma injeção de prompt, tornando as decisões de deteção implícitas, opacas e difíceis de fundamentar. Neste trabalho, propomos o AgentWatcher para abordar as duas limitações acima mencionadas. Para resolver a primeira limitação, o AgentWatcher atribui a saída do LLM (por exemplo, a ação de um agente) a um pequeno conjunto de segmentos de contexto causalmente influentes. Ao concentrar a deteção num texto relativamente curto, o AgentWatcher pode ser dimensionado para contextos longos. Para resolver a segunda limitação, definimos um conjunto de regras que especificam o que constitui e o que não constitui uma injeção de prompt, e utilizamos um LLM monitor para raciocinar sobre estas regras com base no texto atribuído, tornando as decisões de deteção mais explicáveis. Realizamos uma avaliação abrangente em benchmarks de agentes de uso de ferramentas e em conjuntos de dados de compreensão de contexto longo. Os resultados experimentais demonstram que o AgentWatcher pode detetar eficazmente a injeção de prompt e manter a utilidade sem ataques. O código está disponível em https://github.com/wang-yanting/AgentWatcher.
A estadiagem precisa do sono é essencial para diagnosticar AOS e hipopneia em pacientes com AVC. Embora a PSG seja confiável, é dispendiosa, exige muito trabalho e é pontuada manualmente. Embora a aprendizagem profunda permita a estadiagem automática do sono baseada em EEG em indivíduos saudáveis, nossa análise mostra uma fraca generalização para populações clínicas com sono perturbado. Utilizando interpretações Grad-CAM, demonstramos sistematicamente esta limitação. Apresentamos o iSLEEPS, um novo conjunto de dados de AVC isquémico anotado clinicamente (a ser disponibilizado publicamente), e avaliamos um modelo SE-ResNet mais LSTM bidirecional para estadiagem do sono com EEG de canal único. Como esperado, o desempenho em domínio cruzado entre indivíduos saudáveis e doentes é fraco. Visualizações de atenção, apoiadas por feedback de especialistas clínicos, mostram que o modelo se concentra em regiões de EEG fisiologicamente não informativas nos dados dos pacientes. Análises estatísticas e computacionais confirmam ainda diferenças significativas na arquitetura do sono entre coortes saudáveis e de AVC isquémico, destacando a necessidade de modelos conscientes do sujeito ou específicos da doença, com validação clínica antes da implementação. Um resumo do artigo e do código está disponível em https://himalayansaswatabose.github.io/iSLEEPS_Explainability.github.io/