HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

49 papers found

Extensão da Geração de Imagem em Uma Etapa a Partir de Rótulos de Classe para Texto via Representação Textual Discriminativa
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Apr 20

ByChenxi Zhao, Chen Zhu, Xiaokun Feng, Aiming Hao, Jiashu Zhu, Jiachen Lei, Jiahong Wu, Xiangxiang Chu, Jufeng Yang

A geração em poucos passos tem sido um objetivo de longa data, com métodos recentes de geração em um único passo, exemplificados pelo MeanFlow, alcançando resultados notáveis. A pesquisa existente sobre o MeanFlow concentra-se principalmente na geração de classe para imagem. No entanto, uma direção intuitiva e ainda inexplorada é estender a condição de rótulos de classe fixos para entradas de texto flexíveis, permitindo uma criação de conteúdo mais rica. Em comparação com os rótulos de classe limitados, as condições de texto impõem desafios maiores à capacidade de compreensão do modelo, exigindo a integração eficaz de poderosos codificadores de texto na estrutura do MeanFlow. Surpreendentemente, embora a incorporação de condições de texto pareça direta, descobrimos que a integração de poderosos codificadores de texto baseados em LLM usando estratégias de treinamento convencionais resulta em desempenho insatisfatório. Para descobrir a causa subjacente, realizamos análises detalhadas e revelamos que, devido ao número extremamente limitado de etapas de refinamento na geração do MeanFlow, como apenas uma etapa, as representações de características de texto são obrigadas a possuir uma discriminabilidade suficientemente alta. Isso também explica por que características de classe discretas e facilmente distinguíveis têm um bom desempenho dentro da estrutura do MeanFlow. Guiados por essas percepções, aproveitamos um poderoso codificador de texto baseado em LLM, validado para possuir as propriedades semânticas necessárias, e adaptamos o processo de geração do MeanFlow a essa estrutura, resultando em uma síntese eficiente condicionada por texto pela primeira vez. Além disso, validamos nossa abordagem no modelo de difusão amplamente utilizado, demonstrando melhorias significativas no desempenho da geração. Esperamos que este trabalho forneça uma referência geral e prática para pesquisas futuras sobre geração de MeanFlow condicionada por texto. O código está disponível em https://github.com/AMAP-ML/EMF.

OneVL: Raciocínio e Planeamento Latente em Um Passo com Explicação Visão-Linguagem
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Apr 20

ByJinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen

O raciocínio em Cadeia de Pensamento (CoT) tornou-se um poderoso impulsionador da previsão de trajetória na condução autónoma baseada em VLA, mas a sua natureza autoregressiva impõe um custo de latência proibitivo para implantação em tempo real. Os métodos de CoT latente tentam colmatar esta lacuna comprimindo o raciocínio em estados ocultos contínuos, mas ficam consistentemente aquém das suas contrapartes explícitas. Sugerimos que isto se deve a representações latentes puramente linguísticas comprimirem uma abstração simbólica do mundo, em vez das dinâmicas causais que realmente governam a condução. Assim, apresentamos o OneVL (Raciocínio e planeamento latente em um passo com explicações visão-linguagem), uma estrutura unificada de VLA e Modelo Mundial que encaminha o raciocínio através de tokens latentes compactos supervisionados por descodificadores auxiliares duplos. Paralelamente a um descodificador de linguagem que reconstrói o CoT textual, introduzimos um descodificador de modelo visual mundial que prevê tokens de frames futuros, forçando o espaço latente a internalizar as dinâmicas causais da geometria da estrada, movimento de agentes e mudanças ambientais. Um pipeline de treino em três etapas alinha progressivamente estes elementos latentes com objetivos de trajetória, linguagem e visão, garantindo uma otimização conjunta estável. Na inferência, os descodificadores auxiliares são descartados e todos os tokens latentes são pré-preenchidos num único passo paralelo, igualando a velocidade da previsão apenas de resposta. Em quatro benchmarks, o OneVL torna-se o primeiro método de CoT latente a superar o CoT explícito, oferecendo precisão de ponta à latência de apenas resposta, e fornecendo evidência direta de que uma compressão mais apertada, quando orientada por supervisão tanto de linguagem como de modelo mundial, produz representações mais generalizáveis do que o raciocínio verboso token-a-token. Página do Projeto: https://xiaomi-embodied-intelligence.github.io/OneVL

Agente-Mundo: Escalando a Síntese de Ambientes do Mundo Real para a Evolução da Inteligência Geral de Agentes
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Apr 20

ByGuanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou

Os grandes modelos de linguagem são cada vez mais esperados para atuar como agentes de propósito geral que interagem com ambientes externos de ferramentas com estado. O Model Context Protocol (MCP) e as habilidades mais amplas de agentes oferecem uma interface unificada para conectar agentes a serviços do mundo real escaláveis, mas o treinamento de agentes robustos continua limitado pela falta de ambientes realistas e mecanismos fundamentados para aprendizado contínuo. Neste artigo, apresentamos o Agent-World, uma arena de treinamento de auto-evolução para avançar a inteligência geral de agentes por meio de ambientes escaláveis. O Agent-World possui dois componentes principais: (1) Descoberta Autônoma de Ambientes e Tarefas, que explora autonomamente bancos de dados alinhados por tópico e ecossistemas de ferramentas executáveis a partir de milhares de temas de ambiente do mundo real, e sintetiza tarefas verificáveis com dificuldade controlável; e (2) Treinamento Contínuo de Auto-Evolução de Agentes, que combina aprendizado por reforço multi-ambiente com uma arena de agentes de auto-evolução que identifica automaticamente lacunas de capacidade através da síntese dinâmica de tarefas e impulsiona o aprendizado direcionado, permitindo a co-evolução de políticas de agentes e ambientes. Em 23 benchmarks desafiadores de agentes, o Agent-World-8B e 14B superaram consistentemente modelos proprietários robustos e linhas de base de escalonamento de ambiente. Análises adicionais revelam tendências de escalonamento em relação à diversidade de ambientes e rodadas de auto-evolução, oferecendo insights para a construção de inteligência geral de agentes.

OpenGame: Codificação Agente Aberta para Jogos
OpenGame: Open Agentic Coding for Games

Apr 20

ByYilei Jiang, Jinyuan Hu, Qianyin Xiao, Yaozhi Zheng, Ruize Ma, Kaituo Feng, Jiaming Han, Tianshuo Peng, Kaixuan Fan, Manyuan Zhang, Xiangyu Yue

O desenvolvimento de jogos situa-se na interseção entre o design criativo e a engenharia de software complexa, exigindo a orquestração conjunta de motores de jogo, loops em tempo real e estados fortemente acoplados distribuídos por muitos ficheiros. Embora os Modelos de Linguagem de Grande Porte (LLMs) e agentes de código agora resolvam tarefas de programação isoladas com facilidade, eles tropeçam consistentemente quando solicitados a produzir um jogo totalmente jogável a partir de um design de alto nível, sucumbindo a inconsistências entre ficheiros, ligações de cena quebradas e incoerência lógica. Nós preenchemos esta lacuna com o OpenGame, o primeiro framework agentivo de código aberto explicitamente concebido para a criação de jogos web de ponta a ponta. No seu núcleo está a Game Skill, uma capacidade reutilizável e em evolução composta por uma Template Skill, que desenvolve uma biblioteca de esqueletos de projeto a partir da experiência, e uma Debug Skill, que mantém um protocolo dinâmico de correções verificadas - permitindo em conjunto que o agente estruture arquiteturas estáveis e repare erros de integração de forma sistemática, em vez de corrigir bugs de sintaxe isolados. A alimentar este framework está o GameCoder-27B, um LLM de código especializado no domínio de motores de jogo através de um pipeline de três fases: pré-treinamento contínuo, afinação supervisionada e aprendizagem por reforço baseada na execução. Uma vez que verificar a jogabilidade interativa é fundamentalmente mais difícil do que verificar código estático, introduzimos ainda o OpenGame-Bench, um pipeline de avaliação que classifica a geração agentiva de jogos ao longo de três eixos - Saúde da Build, Usabilidade Visual e Alinhamento de Intenção - através de execução headless num browser e avaliação por Modelos de Linguagem Visual (VLM). Através de 150 prompts de jogos diversos, o OpenGame estabelece um novo estado da arte. Esperamos que o OpenGame impulsione os agentes de código para além de problemas discretos de engenharia de software e em direção à construção de aplicações interativas complexas do mundo real. O nosso framework será totalmente disponibilizado em código aberto.

MultiWorld: Modelos de Mundo Escaláveis para Vídeos Multi-Agentes e Multi-Vista
MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Apr 20

ByHaoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu

Os modelos de mundo em vídeo alcançaram sucesso notável na simulação da dinâmica ambiental em resposta a ações de usuários ou agentes. Eles são modelados como sistemas de geração de vídeo condicionados por ações que recebem quadros históricos e ações atuais como entrada para prever quadros futuros. No entanto, a maioria das abordagens existentes limita-se a cenários de agente único e não consegue capturar as interações complexas inerentes aos sistemas multiagente do mundo real. Apresentamos o MultiWorld, uma estrutura unificada para modelagem de mundo multiagente e multivista que permite o controle preciso de múltiplos agentes mantendo a consistência multivista. Introduzimos o Módulo de Condição Multiagente para alcançar controlabilidade multiagente precisa, e o Codificador de Estado Global para garantir observações coerentes entre diferentes vistas. O MultiWorld suporta escalonamento flexível de contagens de agentes e vistas, e sintetiza diferentes vistas em paralelo para alta eficiência. Experimentos em ambientes de jogos multijogador e tarefas de manipulação multirobô demonstram que o MultiWorld supera as linhas de base em fidelidade de vídeo, capacidade de seguimento de ação e consistência multivista. Página do projeto: https://multi-world.github.io/

EasyVideoR1: Aprendizado por Reforço Simplificado para Compreensão de Vídeo
EasyVideoR1: Easier RL for Video Understanding

Apr 18

ByChuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang

O aprendizado por reforço com recompensas verificáveis (RLVR) demonstrou eficácia notável na melhoria das capacidades de raciocínio de grandes modelos de linguagem. À medida que os modelos evoluem para arquiteturas multimodalmente nativas, estender o RLVR para a compreensão de vídeo torna-se cada vez mais importante, mas permanece amplamente inexplorado, devido à diversidade de tipos de tarefas de vídeo, à sobrecarga computacional de decodificar e pré-processar repetidamente entradas visuais de alta dimensão e à dificuldade de avaliação reproduzível entre numerosos hiperparâmetros sensíveis. As estruturas de treinamento RL de código aberto existentes fornecem infraestrutura sólida para cenários de texto e imagem, mas carecem de otimizações sistemáticas adaptadas à modalidade de vídeo. Neste trabalho, apresentamos o EasyVideoR1, uma estrutura completa e eficiente de aprendizado por reforço projetada especificamente para treinar grandes modelos visão-linguagem em tarefas de compreensão de vídeo. O EasyVideoR1 oferece as seguintes contribuições: (1) um pipeline completo de treinamento RL para vídeo com pré-processamento offline e armazenamento em cache de tensores que elimina a decodificação redundante de vídeo e produz um ganho de throughput de 1,47 vezes; (2) um sistema de recompensa abrangente e consciente da tarefa, cobrindo 11 tipos distintos de problemas de vídeo e imagem com roteamento unificado e extensão modular; (3) um paradigma de treinamento de dados misto offline-online que combina trajetórias curadas de alta qualidade com exploração on-policy, beneficiando a aprendizagem de tarefas mais desafiadoras; (4) treinamento conjunto de imagem-vídeo com orçamentos de pixels independentemente configuráveis, permitindo que as duas modalidades se reforcem mutuamente; e (5) uma estrutura de avaliação assíncrona multi-benchmark abrangendo 22 benchmarks principais de compreensão de vídeo, com precisão reproduzida alinhada de perto com as pontuações oficialmente relatadas.

GFT: Do Ajuste por Imitação ao Ajuste Fino por Recompensa com Vantagens de Grupo Não Tendenciosas e Retificação Dinâmica de Coeficientes
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Apr 15

ByWangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang

Os grandes modelos de linguagem são tipicamente pós-treinados usando ajuste fino supervisionado (SFT) e aprendizado por reforço (RL), porém unificar eficientemente a injeção de conhecimento com uma generalização robusta permanece um desafio. Neste trabalho, fornecemos uma análise da dinâmica de treinamento demonstrando que o SFT pode ser interpretado como um caso especial de otimização por gradiente de política com uma recompensa implícita extremamente esparsa e ponderação inversa de probabilidade instável, que juntas levam à dependência de caminho único, colapso de entropia e explosão do gradiente. Motivados por este diagnóstico, propomos o Ajuste Fino em Grupo (GFT), um framework unificado de pós-treinamento que aborda essas limitações intrínsecas através de dois mecanismos: o Aprendizado de Vantagem em Grupo, que constrói grupos de resposta diversos e deriva supervisão contrastiva normalizada para aliviar a esparsidade da recompensa, e a Retificação de Coeficiente Dinâmico, que limita adaptivamente os pesos de probabilidade inversa para estabilizar a otimização enquanto preserva a injeção eficiente de conhecimento. Experimentos demonstram que o GFT supera consistentemente métodos baseados em SFT e produz políticas que se integram mais suavemente com o treinamento subsequente de RL.

WebCompass: Rumo a uma Avaliação Multimodal de Codificação Web para Modelos de Linguagem de Código
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

Apr 20

ByXinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu

Os grandes modelos de linguagem estão evoluindo rapidamente para agentes de codificação interativos capazes de programação web de ponta a ponta, no entanto, os benchmarks existentes avaliam apenas fatias estreitas dessa capacidade, tipicamente a geração condicionada por texto com métricas de correção estática, deixando a fidelidade visual, a qualidade da interação e o raciocínio em nível de base de código amplamente não mensurados. Apresentamos o WebCompass, um benchmark multimodal que fornece avaliação unificada do ciclo de vida da capacidade de engenharia web. Reconhecendo que a codificação web do mundo real é um ciclo iterativo de geração, edição e correção, o WebCompass abrange três modalidades de entrada (texto, imagem, vídeo) e três tipos de tarefas (geração, edição, reparo), resultando em sete categorias de tarefas que espelham fluxos de trabalho profissionais. Por meio de um pipeline multiestágio com intervenção humana, curamos instâncias que cobrem 15 domínios de geração, 16 tipos de operação de edição e 11 tipos de defeito para reparo, cada um anotado em níveis Fácil/Médio/Difícil. Para avaliação, adotamos um protocolo de LLM-como-Juiz guiado por checklist para edição e reparo, e propomos um novo paradigma de Agente-como-Juiz para geração que executa autonomamente os websites gerados em um navegador real, explora comportamentos interativos via Model Context Protocol (MCP) e sintetiza iterativamente casos de teste direcionados, aproximando-se estreitamente dos testes de aceitação humana. Avaliamos modelos representativos de código fechado e aberto e observamos que: (1) os modelos de código fechado permanecem substancialmente mais fortes e equilibrados; (2) edição e reparo exibem perfis de dificuldade distintos, com o reparo preservando melhor a interatividade, mas permanecendo desafiador em termos de execução; (3) a estética é o gargalo mais persistente, especialmente para modelos de código aberto; e (4) a escolha do framework afeta materialmente os resultados, com Vue sendo consistentemente desafiador, enquanto React e Vanilla/HTML apresentam desempenho mais forte dependendo do tipo de tarefa.

ClawEnvKit: Geração Automática de Ambientes para Agentes Tipo-Garra
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Apr 20

ByXirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou

A construção de ambientes para treinar e avaliar agentes semelhantes a garras continua a ser um processo manual e intensivo em recursos humanos que não é escalável. Argumentamos que o necessário não é apenas um conjunto de dados, mas um *pipeline* automatizado capaz de gerar ambientes diversos e verificados sob demanda. Para esse fim, apresentamos o ClawEnvKit, um *pipeline* de geração autónoma que instancia este formalismo a partir de descrições em linguagem natural. O *pipeline* compreende três módulos: (1) um analisador que extrai parâmetros estruturados de geração a partir da entrada em linguagem natural; (2) um gerador que produz a especificação da tarefa, a interface da ferramenta e a configuração de pontuação; e (3) um validador que impõe viabilidade, diversidade, validade estrutural e consistência interna em todos os ambientes gerados. Usando o ClawEnvKit, construímos o Auto-ClawEval, o primeiro *benchmark* em larga escala para agentes semelhantes a garras, compreendendo 1.040 ambientes em 24 categorias. Empiricamente, o Auto-ClawEval iguala ou supera ambientes curados por humanos em coerência e clareza a um custo 13.800 vezes menor. Avaliado em 4 famílias de modelos e 8 *frameworks* de agentes, descobrimos que a engenharia de *harness* aumenta o desempenho em até 15,7 pontos percentuais em relação a uma linha de base ReAct simples, a conclusão permanece sendo o principal eixo de variação sem que nenhum modelo sature o *benchmark*, e a geração automatizada permite a avaliação em uma escala anteriormente inviável. Para além da avaliação estática, o ClawEnvKit permite a avaliação em tempo real: os utilizadores descrevem uma capacidade desejada em linguagem natural e obtêm um ambiente verificado sob demanda, transformando a avaliação num processo contínuo e orientado pelo utilizador. O mesmo mecanismo serve como um gerador de ambientes de treino sob demanda, produzindo distribuições de tarefas que se adaptam às fraquezas atuais de um agente, em vez de serem limitadas por registos de utilizador existentes.

Quando os LLMs Podem Aprender a Raciocinar com Supervisão Fraca?
When Can LLMs Learn to Reason with Weak Supervision?

Apr 20

BySalman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov

Os modelos de linguagem de grande escala alcançaram melhorias significativas de raciocínio através do aprendizado por reforço com recompensas verificáveis (RLVR). No entanto, à medida que as capacidades dos modelos aumentam, a construção de sinais de recompensa de alta qualidade torna-se cada vez mais difícil, tornando-se essencial entender quando o RLVR pode ter sucesso sob formas mais fracas de supervisão. Realizamos um estudo empírico sistemático em diversas famílias de modelos e domínios de raciocínio sob três configurações de supervisão fraca: dados escassos, recompensas ruidosas e recompensas proxy auto supervisionadas. Descobrimos que a generalização é governada pela dinâmica de saturação da recompensa de treinamento: modelos que generalizam exibem uma fase prolongada de pré-saturação durante a qual a recompensa de treinamento e o desempenho subsequente aumentam em conjunto, enquanto modelos que saturam rapidamente memorizam em vez de aprender. Identificamos a fidedignidade do raciocínio, definida como a extensão em que as etapas intermediárias suportam logicamente a resposta final, como a propriedade pré-RL que prevê em qual regime um modelo se enquadra, enquanto a diversidade de saída por si só não é informativa. Motivados por essas descobertas, separamos as contribuições do pré-treinamento contínuo e do ajuste fino supervisionado, descobrindo que o SFT em trajetórias de raciocínio explícitas é necessário para a generalização sob supervisão fraca, enquanto o pré-treinamento contínuo em dados do domínio amplifica o efeito. Aplicadas em conjunto ao Llama3.2-3B-Base, essas intervenções permitem a generalização em todas as três configurações onde o modelo base anteriormente falhava.

SkillFlow: Avaliação de Descoberta e Evolução Contínua de Habilidades para Agentes Autônomos
SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Apr 19

ByZiao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao

À medida que a fronteira de capacidade dos agentes autônomos continua a se expandir, eles se tornam cada vez mais capazes de completar tarefas especializadas por meio de habilidades externas do tipo "plug-and-play". No entanto, os benchmarks atuais testam principalmente se os modelos podem usar habilidades fornecidas, deixando em aberto a questão de se eles podem descobrir habilidades a partir da experiência, repará-las após falhas e manter uma biblioteca coerente ao longo do tempo. Apresentamos o SkillFlow, um benchmark composto por 166 tarefas distribuídas em 20 famílias, no qual a construção de tarefas dentro de cada família segue um Fluxo de Execução Agnóstico a Domínios (DAEF) que define uma estrutura de fluxo de trabalho para o agente, permitindo que essas tarefas compartilhem um fluxo de trabalho consistente. Os agentes são avaliados sob um protocolo de Aprendizado Contínuo Agentivo, no qual começam sem habilidades, resolvem tarefas sequencialmente dentro de cada família, externalizam lições aprendidas por meio de correções de habilidade baseadas em trajetórias e rubricas, e carregam a biblioteca atualizada adiante. Os experimentos revelam uma lacuna substancial de capacidade. Para o Claude Opus 4.6, a evolução contínua de habilidades melhora a taxa de sucesso nas tarefas de 62,65% para 71,08% (+8,43 pontos). No entanto, um alto uso de habilidades não implica necessariamente alta utilidade: o Kimi K2.5 ganha apenas +0,60 pontos, apesar de um uso de habilidades de 66,87%, enquanto o Qwen-Coder-Next atinge apenas uma taxa de conclusão de tarefas de 44,58% e ainda regride em relação à configuração padrão (vanilla). O SkillFlow contribui com um ambiente de teste estruturado para essa direção de pesquisa e uma análise empírica detalhada da descoberta, correção, transferência de habilidades e seus modos de falha sob avaliação contínua.

Aglomerado no Espaço-B: Calibrando Direções Compartilhadas para Fusão de LoRA
Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

Apr 18

ByYixuan Tang, Yi Yang

A fusão de adaptadores LoRA treinados separadamente é uma alternativa prática ao treinamento multitarefa conjunto, mas frequentemente prejudica o desempenho. Os métodos existentes geralmente tratam a atualização LoRA ΔW = BA como um único objeto e não distinguem as duas matrizes LoRA. Mostramos que a principal fonte de interferência na fusão LoRA vem da matriz B do lado da saída. Entre tarefas, B reutiliza repetidamente um pequeno conjunto de direções compartilhadas, enquanto A permanece muito mais específica para a tarefa. Como resultado, o adaptador fundido enfatiza excessivamente essas direções compartilhadas, e a informação específica da tarefa é perdida. Propomos o Pico (Calibração de interferência pré-fusão no espaço de saída), um método livre de dados que calibra B antes da fusão, reduzindo a escala das direções excessivamente compartilhadas e depois reescalonando a atualização fundida. O Pico conecta-se diretamente a métodos de fusão existentes, como Task Arithmetic, TIES e TSV-M. Em oito benchmarks diferentes das áreas de matemática, programação, finanças e medicina, o Pico melhora a precisão média em 3,4 a 8,3 pontos em relação ao método base correspondente e alcança o melhor desempenho médio geral. O Pico também permite que adaptadores fundidos superem o LoRA treinado com todos os dados da tarefa. Esses resultados mostram que a fusão LoRA funciona melhor quando as duas matrizes LoRA são tratadas separadamente.

A Ilusão da Certeza: Desacoplando Capacidade e Calibração na Destilação On-Policy
The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Apr 18

ByJiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu

A destilação sob a mesma política (OPD) é um paradigma cada vez mais importante para o pós-treinamento de modelos de linguagem. No entanto, identificamos uma Lei de Escala de Descalibração generalizada: embora a OPD melhore efetivamente a precisão da tarefa, ela sistematicamente prende os modelos em uma severa superconfiança. Rastreamos essa falha até um descompasso de informação: a supervisão do professor é formada sob um contexto privilegiado disponível durante o treinamento, enquanto o modelo implantado deve relatar confiança usando apenas informações disponíveis no momento da implantação. Formalizamos essa perspectiva teoricamente, mostrando que o sucesso condicionado ao professor geralmente não é um alvo válido para a confiança no momento da implantação e que um contexto privilegiado útil induz um colapso da entropia e um viés de otimismo sistemático. Para resolver isso, propomos uma estrutura OPD consciente da calibração, a CaOPD, que estima a confiança empírica a partir de rollouts do modelo, substitui a confiança autorrelatada por este alvo fundamentado no aluno e destila a resposta revisada por meio do mesmo pipeline de autodestilação. Experimentos em vários modelos e domínios mostram que a CaOPD alcança uma calibração Pareto-ótima, mantendo uma capacidade competitiva e generalizando de forma robusta sob condições fora da distribuição e de aprendizado contínuo. Nossas descobertas destacam que a destilação de capacidade não implica confiança calibrada e que a confiança deve ser tratada como um objetivo essencial no pós-treinamento. Código: https://github.com/SalesforceAIResearch/CaOPD

Selva de Concreto: Rumo à Mineração Contrastiva de Negativos Pavimentada pela Concretude para a Compreensão Composicional
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Apr 14

ByEun Woo Im, Dhruv Madhwal, Vivek Gupta

Os Modelos Visão-Linguagem demonstram capacidades notáveis, mas frequentemente apresentam dificuldades com o raciocínio composicional, exibindo vulnerabilidades em relação à ordem das palavras e à vinculação de atributos. Esta limitação surge da escassez de amostras informativas necessárias para diferenciar variações semânticas subtis durante o pré-treinamento contrastivo. Embora a mineração de negativos difíceis ofereça um remédio promissor, os métodos existentes carecem de mecanismos explícitos para ditar quais elementos linguísticos sofrem modificação. Em vez de desenvolver arquiteturas generativas, este estudo estabelece a concretude lexical como um determinante fundamental da eficácia da amostra negativa. Modificar termos altamente concretos gera discrepâncias estruturais e visuais mais pronunciadas, fornecendo um sinal de aprendizagem substancialmente mais forte. Aproveitando este princípio, o ConcretePlant é proposto para isolar e manipular sistematicamente conceitos perceptualmente fundamentados. Análises da função InfoNCE revelam ainda um grave desequilíbrio de gradientes, onde pares facilmente distinguíveis dominam desproporcionalmente o processo de otimização e restringem a largura de banda disponível para uma aprendizagem nuances. Para resolver esta degradação, a função de perda Cement é formulada utilizando uma abordagem baseada em margens. Ao correlacionar escores psicolinguísticos com a dificuldade da amostra, este objetivo calibra dinamicamente a penalização aplicada a pares de treino individuais. Avaliações abrangentes substantivam estas alegações teóricas. O framework integrado, designado como Slipform, atinge uma precisão state-of-the-art em diversos benchmarks de avaliação composicional, recuperação cruzada modal geral, e sondagem linear com etiqueta única e múltipla.

Sobre a Confiabilidade de Agentes de Uso de Computador
On the Reliability of Computer Use Agents

Apr 20

ByGonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang

Os agentes de uso computacional têm melhorado rapidamente em tarefas do mundo real, como navegação na web, automação de desktop e interação com software, em alguns casos superando o desempenho humano. No entanto, mesmo quando a tarefa e o modelo permanecem inalterados, um agente que tem sucesso uma vez pode falhar na execução repetida da mesma tarefa. Isso levanta uma questão fundamental: se um agente pode executar uma tarefa com sucesso uma vez, o que impede que o faça de forma confiável? Neste trabalho, estudamos as fontes de falta de confiabilidade em agentes de uso computacional através de três fatores: a estocasticidade durante a execução, a ambiguidade na especificação da tarefa e a variabilidade no comportamento do agente. Analisamos esses fatores no OSWorld usando execuções repetidas da mesma tarefa em conjunto com testes estatísticos pareados que capturam mudanças em nível de tarefa em diferentes configurações. Nossa análise mostra que a confiabilidade depende tanto de como as tarefas são especificadas quanto de como o comportamento do agente varia entre as execuções. Essas descobertas sugerem a necessidade de avaliar os agentes sob execução repetida, permitir que os agentes resolvam ambiguidades de tarefas por meio de interação e favorecer estratégias que permaneçam estáveis entre execuções.

MathNet: um Benchmark Global Multimodal para Raciocínio e Recuperação Matemática
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Apr 20

ByShaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

A resolução de problemas matemáticos continua a ser um teste desafiador de raciocínio para modelos de linguagem grandes e multimodais, mas os *benchmarks* existentes são limitados em tamanho, cobertura linguística e diversidade de tarefas. Apresentamos o MathNet, um conjunto de dados multimodal e multilíngue de alta qualidade e grande escala, composto por problemas matemáticos de nível olímpico, juntamente com um *benchmark* para avaliar o raciocínio matemático em modelos generativos e a recuperação matemática em sistemas baseados em incorporações (*embeddings*). O MathNet abrange 47 países, 17 idiomas e duas décadas de competições, compreendendo 30.676 problemas elaborados por especialistas, com soluções em diversas áreas. Além do conjunto de dados principal, construímos um *benchmark* de recuperação composto por pares de problemas matematicamente equivalentes e estruturalmente semelhantes, selecionados por especialistas humanos. O MathNet suporta três tarefas: (i) Resolução de Problemas, (ii) Recuperação com Consciência Matemática (*Math-Aware Retrieval*) e (iii) Resolução de Problemas Aumentada por Recuperação (*Retrieval-Augmented Problem Solving*). Resultados experimentais mostram que mesmo os modelos de raciocínio mais avançados (78,4% para o Gemini-3.1-Pro e 69,3% para o GPT-5) continuam a ser desafiados, enquanto os modelos de incorporação têm dificuldade em recuperar problemas equivalentes. Mostramos ainda que o desempenho da geração aumentada por recuperação é altamente sensível à qualidade da recuperação; por exemplo, o DeepSeek-V3.2-Speciale obtém ganhos de até 12%, alcançando as pontuações mais altas no *benchmark*. O MathNet fornece o maior conjunto de dados olímpicos de alta qualidade, juntamente com o primeiro *benchmark* para avaliar a recuperação de problemas matemáticos, e disponibilizamos publicamente tanto o conjunto de dados como o *benchmark* em https://mathnet.mit.edu.

VoxMind: Um Sistema de Diálogo Falado Agente de Ponta a Ponta
VoxMind: An End-to-End Agentic Spoken Dialogue System

Apr 17

ByTianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao

Os recentes modelos de diálogo falado de ponta a ponta permitem uma interação natural. No entanto, à medida que as demandas dos usuários se tornam cada vez mais complexas, os modelos que dependem apenas de habilidades conversacionais geralmente têm dificuldades para acompanhar. Incorporar capacidades agentes é, portanto, essencial: ao permitir o uso de ferramentas, esses modelos podem estender seus limites de conhecimento e resolver melhor tarefas do mundo real. No entanto, a pesquisa existente concentrou-se amplamente na percepção e geração centrais, com uma exploração comparativamente limitada de tais extensões aumentadas por ferramentas. Para preencher essa lacuna, apresentamos o VoxMind, uma estrutura integrada projetada para equipar modelos de diálogo falado de ponta a ponta com capacidades agentes abrangentes. Aproveitando nosso conjunto de dados AgentChat curado de 470 horas, incorporamos um mecanismo "Pensar-Antes-de-Falar", permitindo que o modelo internalize o raciocínio estruturado como um pré-requisito crítico para o planejamento e a geração de respostas. Além disso, para mitigar os gargalos de latência causados pela integração de ferramentas em larga escala, propomos uma arquitetura de Gerenciamento Dinâmico de Ferramentas com Múltiplos Agentes. Ao delegar assincronamente tarefas de recuperação a um agente auxiliar alinhado com a trajetória de raciocínio do modelo principal, este sistema efetivamente desacopla a latência de inferência do tamanho do conjunto de ferramentas. Resultados experimentais confirmam que o VoxMind alcança melhorias significativas no desempenho do agente: em comparação com bases fortes, a taxa de conclusão de tarefas aumenta de 34,88% para 74,57%, superando o Gemini-2.5-Pro em tarefas de agente falado, preservando a qualidade conversacional geral. O código-fonte e os dados associados estão publicamente disponíveis em https://github.com/MM-Speech/VoxMind.

Agente Genérico: Um Agente de LLM Autoevolutivo com Eficiência de Tokens via Maximização da Densidade Informacional Contextual (V1.0)
GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)

Apr 18

ByJiaqing Liang, Jinyi Han, Weijia Li, Xinyi Wang, Zhoujia Zhang, Zishang Jiang, Ying Liao, Tingyun Li, Ying Huang, Hao Shen, Hanyu Wu, Fang Guo, Keyi Wang, Zhonghua Hong, Zhiyu Lu, Lipeng Ma, Sihang Jiang, Yanghua Xiao

Os agentes de LLM (Large Language Model) de longo horizonte são fundamentalmente limitados pelo contexto. À medida que as interações se tornam mais longas, as descrições de ferramentas, as memórias recuperadas e o feedback ambiental bruto acumulam-se e excluem as informações necessárias para a tomada de decisões. Simultaneamente, a experiência útil obtida nas tarefas é frequentemente perdida entre episódios. Argumentamos que o desempenho de longo horizonte não é determinado pelo comprimento do contexto, mas pela quantidade de informações relevantes para a decisão que são mantidas dentro de um orçamento de contexto finito. Apresentamos o GenericAgent (GA), um sistema de agente LLM de propósito geral e auto-evolutivo construído em torno de um único princípio: a maximização da densidade de informação no contexto. O GA implementa isso através de quatro componentes intimamente conectados: um conjunto mínimo de ferramentas atômicas que mantém a interface simples, uma memória hierárquica sob demanda que mostra apenas uma visão geral de alto nível por padrão, um mecanismo de auto-evolução que transforma trajetórias passadas verificadas em POPs (Procedimentos Operacionais Padrão) reutilizáveis e código executável, e uma camada de truncamento e compressão de contexto que mantém a densidade de informação durante execuções longas. Em tarefas de conclusão, eficiência no uso de ferramentas, eficácia da memória, auto-evolução e navegação na web, o GA supera consistentemente os principais sistemas de agentes, utilizando significativamente menos tokens e interações, e continua a evoluir ao longo do tempo. Projeto: https://github.com/lsdefine/GenericAgent

OmniScript: Rumo à Geração de Roteiros Áudio-Visuais para Vídeos Cinematográficos de Longa Duração
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Apr 13

ByJunfu Pu, Yuxin Chen, Teng Wang, Ying Shan

Os modelos multimodais de grande capacidade linguística (MLLMs) atuais demonstraram capacidades notáveis na compreensão de vídeos de curta duração, mas a tradução de vídeos cinematográficos de longa duração em scripts detalhados e temporalmente fundamentados continua sendo um desafio significativo. Este artigo introduz a nova tarefa de vídeo-para-script (V2S), visando gerar scripts hierárquicos, cena a cena, abrangendo ações de personagens, diálogos, expressões e pistas de áudio. Para viabilizar isso, construímos um benchmark pioneiro anotado por humanos e propomos uma estrutura de avaliação hierárquica temporalmente consciente. Além disso, apresentamos o OmniScript, um modelo linguístico omni-modal (áudio-visual) com 8 bilhões de parâmetros, especializado na compreensão narrativa de longa duração. O OmniScript é treinado por meio de um pipeline progressivo que aproveita o ajuste fino supervisionado por corrente de pensamento para o raciocínio de enredo e personagens, seguido por aprendizado por reforço usando recompensas segmentadas temporalmente. Experimentos extensivos demonstram que, apesar de sua eficiência parametrizada, o OmniScript supera significativamente modelos de código aberto maiores e alcança desempenho comparável aos modelos proprietários de última geração, incluindo o Gemini 3-Pro, tanto na localização temporal quanto na precisão semântica de múltiplos campos.

Agentes Exploram, mas Agentes Ignoram: Os LLMs Carecem de Curiosidade Ambiental
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Apr 19

ByLeon Engländer, Sophia Althammer, Ahmet Üstün, Matthias Gallé, Tom Sherborne

Supõe-se que os agentes baseados em LLM (Large Language Models) integrem observações do ambiente em seu raciocínio: a descoberta de informações altamente relevantes, mas inesperadas, deveria naturalmente levar o modelo a explorar suas próprias descobertas. Mostramos que essa suposição é falsa para os agentes atuais baseados em LLM, que têm dificuldade em refletir ou reagir a informações inesperadas. Em três benchmarks (Terminal-Bench, SWE-Bench, AppWorld), injetamos soluções completas de tarefas nos ambientes dos agentes para expor deliberadamente a solução de uma tarefa a um modelo. Embora os agentes descubram essas soluções no Terminal-Bench em 79-81% das execuções, eles interagem ou as exploram em apenas 37-50% dos casos. Essa lacuna é mais acentuada no AppWorld: os agentes veem uma documentação afirmando que um comando "retorna a solução completa para esta tarefa" em mais de 90% das tentativas, mas exploram isso em menos de 7% dos testes. Mostramos que os agentes carecem do que chamamos de curiosidade ambiental: a capacidade de reconhecer e investigar observações inesperadas, porém relevantes, em resposta a estímulos ambientais. Identificamos três fatores principais que influenciam a curiosidade ambiental: as ferramentas disponíveis na estrutura do agente, o poder computacional em tempo de teste e a distribuição dos dados de treinamento. Nossas descobertas identificam que as configurações que maximizam a curiosidade também alcançam o melhor desempenho nos benchmarks não modificados. No entanto, mesmo os agentes com otimização conjunta ainda ignoram as soluções descobertas na maioria dos testes: os agentes atuais usam o ambiente para buscar informações esperadas, mas não para revisar sua estratégia ou explorar ao máximo estímulos úteis.

Meta-aprendizagem In-Context Permite Decodificação Cerebral Inter-sujeito Sem Treinamento
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Apr 9

ByMu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo

A decodificação visual a partir de sinais cerebrais é um desafio fundamental na intersecção entre visão computacional e neurociência, exigindo métodos que conectem representações neurais e modelos computacionais de visão. Um objetivo amplo da área é alcançar modelos generalizáveis e transversais a diferentes indivíduos. Um obstáculo significativo para essa meta é a variabilidade substancial nas representações neurais entre indivíduos, que até agora exigiu o treinamento de modelos personalizados ou o ajuste fino separado para cada sujeito. Para enfrentar esse desafio, introduzimos uma abordagem meta-otimizada para decodificação visual semântica a partir de fMRI que generaliza para novos indivíduos sem qualquer ajuste fino. Simplesmente condicionando o modelo a um pequeno conjunto de exemplos de imagens e ativações cerebrais do novo indivíduo, nosso modelo infere rapidamente seus padrões únicos de codificação neural para facilitar uma decodificação visual robusta e eficiente. Nossa abordagem é explicitamente otimizada para aprendizado contextual do modelo de codificação do novo sujeito e realiza a decodificação por inferência hierárquica, invertendo o codificador. Primeiro, para múltiplas regiões cerebrais, estimamos os parâmetros do codificador de resposta visual por voxel construindo um contexto sobre múltiplos estímulos e respostas. Segundo, construímos um contexto consistindo em parâmetros do codificador e valores de resposta em múltiplos voxels para realizar uma inversão funcional agregada. Demonstramos forte generalização entre indivíduos e entre diferentes scanners de ressonância magnética através de diversos *backbones* visuais, sem retreinamento ou ajuste fino. Além disso, nossa abordagem não requer nem alinhamento anatômico nem sobreposição de estímulos. Este trabalho representa um passo crítico em direção a um modelo de base generalizável para decodificação cerebral não invasiva.

Treinamento de Agentes LLM para Auto-Evolução Espontânea e Livre de Recompensas por meio da Exploração do Conhecimento Mundial
Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Apr 20

ByQifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

A maioria dos agentes atuais "auto-evolui" seguindo recompensas e regras definidas por humanos. No entanto, esse processo permanece fundamentalmente dependente de supervisão externa; sem orientação humana, a evolução cessa. Neste trabalho, treinamos agentes para possuir uma capacidade intrínseca de meta-evolução, permitindo-lhes aprender espontaneamente sobre ambientes não vistos antes da execução da tarefa. Para incutir essa capacidade, projetamos um mecanismo de recompensa baseado em resultados que mede o quanto o conhecimento do mundo gerado pelo próprio agente melhora sua taxa de sucesso em tarefas subsequentes. Este sinal de recompensa é usado exclusivamente durante a fase de treinamento para ensinar o modelo a explorar e resumir efetivamente. No momento da inferência, o agente não requer recompensas externas ou instruções humanas. Ele realiza espontaneamente uma auto-evolução nativa para se adaptar a ambientes desconhecidos usando seus parâmetros internos. Quando aplicado aos modelos Qwen3-30B e Seed-OSS-36B, essa mudança para a evolução nativa resulta em um aumento de 20% no desempenho em WebVoyager e WebWalker. O mais notável é que o conhecimento do mundo gerado permite até mesmo que o modelo compacto Qwen3 de 14B supere o Gemini-2.5-Flash sem assistência, estabelecendo um novo paradigma para agentes verdadeiramente evolutivos.

Estratagema: Aprendizado de Raciocínio Transferível via Autojogo com Modulação de Trajetória
Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Apr 20

ByXiachong Feng, Deyi Yin, Xiaocheng Feng, Yi Jiang, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Qiming Li, Yuxuan Gu, Bing Qin, Lingpeng Kong

Os jogos oferecem um paradigma convincente para desenvolver capacidades de raciocínio geral em modelos de linguagem, uma vez que exigem naturalmente planeamento estratégico, inferência probabilística e tomada de decisão adaptativa. No entanto, as abordagens existentes de auto-jogo dependem unicamente dos resultados finais do jogo, não fornecendo qualquer mecanismo para distinguir padrões de raciocínio transferíveis de heurísticas específicas do jogo. Apresentamos o STRATAGEM, que aborda duas barreiras fundamentais à transferência de raciocínio: a *especificidade de domínio*, onde padrões aprendidos permanecem ancorados na semântica do jogo, e a *estase contextual*, onde contextos de jogo estáticos não conseguem cultivar um raciocínio progressivo. O STRATAGEM reforça seletivamente trajetórias que exibem raciocínio abstrato e independente do domínio através de um Coeficiente de Transferibilidade de Raciocínio, enquanto incentiva o desenvolvimento de raciocínio adaptativo através de uma Recompensa de Evolução de Raciocínio. Experiências em benchmarks de raciocínio matemático, raciocínio geral e geração de código demonstram melhorias substanciais, com ganhos particularmente fortes em matemática de nível competitivo, onde o raciocínio multi-etapa é crítico. Estudos de ablação e avaliação humana confirmam que ambos os componentes contribuem para um raciocínio transferível.

Multiplicação em LLMs Multimodais: Computação com Entradas de Texto, Imagem e Áudio
Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Apr 20

BySamuel G. Balter, Ethan Jerzak, Connor T. Jerzak

Os LLMs multimodais conseguem perceber com precisão conteúdo numérico através de modalidades, mas falham em realizar multiplicações exatas de múltiplos dígitos quando o mesmo problema aritmético subjacente é apresentado como algarismos, palavras numéricas, imagens ou em formato de áudio. Como os benchmarks existentes frequentemente carecem de instâncias sistematicamente emparelhadas entre modalidades, permanece difícil comparar os limites aritméticos genuínos dentro e entre famílias de modelos. Introduzimos, portanto, um benchmark controlado de multiplicação multimodal que varia fatorialmente o comprimento dos dígitos, a esparsidade dos dígitos, a representação (por exemplo, algarismos vs. palavras numéricas) e a modalidade (texto, imagens renderizadas, áudio), com instâncias emparelhadas de um gerador reproduzível. Também definimos a carga aritmética, C, como o produto da contagem total de dígitos e da contagem de dígitos não zero, como um proxy compacto e mecanicamente motivado para a contagem de operações. Nas avaliações, a precisão cai acentuadamente à medida que C aumenta, frequentemente aproximando-se de zero para C > 100. De facto, C mantém-se preditivo do desempenho entre modalidades e modelos, com R-quadrado frequentemente > 0,5, aproximando-se do valor de medidas mais complexas de carga aritmética que contam o número de passos aritméticos intermédios. Uma decomposição separada de perceção versus computação mostra que a degradação multimodal é primariamente computacional e não perceptual: em verificações de perceção correspondente, os modelos são quase perfeitos (> 99%) em todas as modalidades, mesmo quando a precisão da multiplicação cai. Para além de medir quando os modelos falham, perguntamos quais os procedimentos que eles estão predispostos a seguir. Introduzimos uma sonda de perda de conclusão forçada que pontua prefixos de raciocínio específicos de heurísticas – incluindo multiplicação em coluna, decomposição distributiva e arredondamento/compensação. Aqui, a decomposição é favorecida tanto nas modalidades de texto como de visão; adaptadores LoRA específicos de heurísticas produzem atualizações quase ortogonais, mas degradam a precisão, indicando que o modelo base mantém um router interno bem sintonizado.

Revisitando uma Dor de Cabeça: Um Benchmark de Raciocínio Semântico para Modelos de Linguagem
Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models

Apr 17

ByYang Liu, Hongming Li, Melissa Xiaohui Qin, Qiankun Liu, Chao Huang

Apresentamos o SemanticQA, um conjunto de avaliação concebido para testar modelos de linguagem (ML) em tarefas de processamento de frases semânticas. O *benchmark* consolida recursos existentes de expressões multipalavra (EMPs) e reorganiza-os num banco de testes unificado. Abrange tanto fenómenos lexicais gerais, como colocações lexicais, como três categorias específicas: expressões idiomáticas, compostos nominais e construções verbais. Através do SemanticQA, avaliamos MLs de diversas arquiteturas e escalas em tarefas de extração, classificação e interpretação, bem como em composições sequenciais de tarefas. Revelamos uma variação substancial de desempenho, particularmente em tarefas que exigem raciocínio semântico, destacando diferenças na eficácia do raciocínio e na compreensão semântica dos MLs, fornecendo insights para impulsionar MLs com uma compreensão mais robusta de frases semânticas não triviais. O *harness* de avaliação e os dados do SemanticQA estão disponíveis em https://github.com/jacklanda/SemanticQA.

Benchmark de Depuração Preciso: Seu Modelo Está Depurando ou Regenerando?
Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Apr 19

ByWang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia

Ao contrário da conclusão de código, a depuração requer a localização de falhas e a aplicação de edições direcionadas. Observamos que os LLMs de fronteira frequentemente regeneram soluções corretas, mas supereditadas, durante a depuração. Para avaliar o quão distantes os LLMs estão de uma depuração precisa, introduzimos o framework Precise Debugging Benchmark (PDB), que converte automaticamente qualquer conjunto de dados de codificação em um benchmark de depuração com avaliação sensível à precisão. O PDB gera programas com bugs sintetizando falhas atômicas verificadas e as compondo em programas com múltiplos bugs. Definimos duas novas métricas, a precisão a nível de edição e o recall a nível de bug, que medem quantas edições necessárias são feitas e quantos bugs são resolvidos. Lançamos dois benchmarks de avaliação: PDB-Single-Hard, com bugs de linha única, e PDB-Multi, com bugs de múltiplas linhas. Experimentos mostram que modelos de fronteira, como GPT-5.1-Codex e DeepSeek-V3.2-Thinking, alcançam taxas de aprovação em testes unitários acima de 76%, mas exibem precisão abaixo de 45%, mesmo quando explicitamente instruídos a realizar uma depuração mínima. Por fim, demonstramos que estratégias de depuração iterativas e agentivas não melhoram substancialmente a precisão ou o recall, destacando a necessidade de repensar os pipelines de pós-treinamento para modelos de codificação.

Além da Dominância do Texto: Compreendendo a Preferência Modal de Modelos de Linguagem Grande Omnimodais
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Apr 18

ByXinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han

Os Modelos de Linguagem de Grande Porte Omnimodais Nativos (OLLMs) evoluíram de arquiteturas de pipeline para espaços de representação unificados. No entanto, esta integração nativa dá origem a um fenómeno crítico, mas ainda pouco explorado: a preferência modal. Para colmatar esta lacuna, começamos por quantificar sistematicamente a preferência modal dos OLLMs utilizando um novo benchmark baseado em conflito e a métrica de taxa de seleção modal. A nossa avaliação de dez OLLMs representativos revela uma mudança de paradigma notável: ao contrário da "dominância textual" dos VLMs tradicionais, a maioria dos OLLMs exibe uma preferência visual pronunciada. Para compreender melhor o mecanismo subjacente, realizamos uma análise por camadas e demonstramos que esta preferência modal não é estática, mas emerge progressivamente nas camadas intermédias e finais. Com base nestas perceções, aproveitamos estes sinais internos para diagnosticar alucinações cross-modais, alcançando um desempenho competitivo em três benchmarks multimodais de downstream sem dados específicos da tarefa. O nosso trabalho fornece tanto uma compreensão mecanicista como uma ferramenta prática para a construção de OLLMs mais confiáveis. O nosso código e recursos relacionados estão publicamente disponíveis em: https://github.com/icip-cas/OmniPreference.

MedConclusion: Um Benchmark para Geração de Conclusões Biomédicas a partir de Resumos Estruturados
MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Apr 7

ByWeiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang

Os modelos de linguagem de grande escala (LLMs) são amplamente explorados para tarefas de pesquisa que exigem raciocínio complexo, no entanto, os recursos para testar se eles podem inferir conclusões científicas a partir de evidências biomédicas estruturadas permanecem limitados. Apresentamos o MedConclusion, um conjunto de dados em larga escala com 5,7 milhões de resumos estruturados da PubMed para a geração de conclusões biomédicas. Cada instância emparelha as seções não-conclusivas de um resumo com a conclusão original escrita pelo autor, fornecendo uma supervisão naturalmente ocorrente para o raciocínio de evidência-para-conclusão. O MedConclusion também inclui metadados em nível de revista, como categoria biomédica e SJR, permitindo análises de subgrupos entre domínios biomédicos. Como um estudo inicial, avaliamos diversos LLMs sob configurações de prompt para conclusão e resumo, e pontuamos as saídas com métricas baseadas em referência e usando LLM-como-juiz. Descobrimos que a redação de conclusões é comportamentalmente distinta da redação de resumos, modelos fortes permanecem intimamente agrupados sob as métricas automáticas atuais, e a identidade do juiz pode alterar substancialmente as pontuações absolutas. O MedConclusion fornece um recurso de dados reutilizável para estudar o raciocínio científico de evidência-para-conclusão. Nosso código e dados estão disponíveis em: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

River-LLM: Saída Contínua de Modelos de Linguagem Grandes Baseada em Compartilhamento KV
River-LLM: Large Language Model Seamless Exit Based on KV Share

Apr 20

ByYingtao Shen, An Zou

Os Grandes Modelos de Linguagem (LLMs) demonstraram desempenho excecional em diversos domínios, mas estão cada vez mais limitados pela elevada latência de inferência. A Saída Antecipada (Early Exit) surgiu como uma solução promissora para acelerar a inferência, contornando dinamicamente camadas redundantes. No entanto, em arquiteturas apenas de descodificação (decoder-only), a eficiência da Saída Antecipada é severamente limitada pelo problema da Ausência de Cache KV (KV Cache Absence), em que as camadas ignoradas não conseguem fornecer os estados históricos necessários para os tokens subsequentes. As soluções existentes, como a recomputação ou a mascaragem (masking), ou introduzem uma sobrecarga de latência significativa ou acarretam uma perda severa de precisão, não conseguindo colmatar o fosso entre a redução teórica de camadas e a aceleração prática em tempo real (wall-clock speedup). Neste artigo, propomos o River-LLM, uma estrutura (framework) isenta de treino (training-free) que permite uma Saída Antecipada perfeita ao nível do token. O River-LLM introduz um leve "Rio de Saída" de KV Partilhado (KV-Shared Exit River) que permite que a cache KV em falta do modelo principal (backbone) seja naturalmente gerada e preservada durante o processo de saída, eliminando a necessidade de operações de recuperação dispendiosas. Além disso, utilizamos a semelhança da transição de estado (state transition similarity) dentro dos blocos do descodificador para prever erros cumulativos de KV e orientar decisões de saída precisas. Experiências extensivas em tarefas de raciocínio matemático e geração de código demonstram que o River-LLM atinge uma aceleração prática de 1,71 a 2,16 vezes, mantendo uma alta qualidade de geração.

Coerência Geométrica de Perturbações CRISPR de Célula Única Revela Arquitetura Regulatória e Prevê Estresse Celular
Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Apr 17

ByPrashant C. Raju

A engenharia genómica alcançou uma precisão notável a nível da sequência, mas prever o estado transcriptómico que uma célula irá ocupar após uma perturbação permanece um problema em aberto. Os ensaios CRISPR de célula única medem a distância que as células se afastam do seu estado não perturbado, mas esta magnitude do efeito ignora uma questão fundamental: as células movem-se em conjunto? Duas perturbações com magnitude idêntica podem produzir resultados qualitativamente diferentes se uma conduzir as células de forma coerente ao longo de uma trajetória partilhada, enquanto a outra as dispersa pelo espaço de expressão. Introduzimos uma métrica de estabilidade geométrica, Shesha, que quantifica a coerência direcional das respostas a perturbações em célula única como a similaridade do cosseno média entre os vetores de deslocamento de células individuais e a direção média da perturbação. Através de cinco conjuntos de dados CRISPR (mais de 2200 perturbações abrangendo CRISPRa, CRISPRi e ensaios em poço), a estabilidade correlaciona-se fortemente com a magnitude do efeito (Spearman ρ=0,75-0,97), com uma correlação calibrada entre conjuntos de dados de 0,97. Crucialmente, casos discordantes onde as duas métricas se dissociam expõem a arquitetura regulatória: reguladores mestres pleiotrópicos como CEBPA e GATA1 pagam um "imposto geométrico", produzindo desvios grandes mas incoerentes, enquanto fatores específicos de linhagem como KLF1 produzem respostas fortemente coordenadas. Após controlar para a magnitude, a instabilidade geométrica está independentemente associada a uma ativação elevada de chaperonas (HSPA5/BiP; ρ_parcial=-0,34 e -0,21 entre conjuntos de dados), e o quadrante de alta estabilidade/alta tensão está sistematicamente esgotado. A relação magnitude-estabilidade persiste em incorporações do modelo de base scGPT, confirmando que é uma propriedade do espaço de estado biológico e não uma projeção linear. A estabilidade da perturbação fornece um eixo complementar para a priorização de *hits* em ensaios, controlo de qualidade fenotípico na produção de células e avaliação de previsões de perturbação *in silico*.

EvoMaster: Uma Estrutura de Agente Fundamental para Construir Agentes Científicos Autónomos em Evolução em Escala
EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

Apr 19

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen

A convergência entre grandes modelos de linguagem e agentes está a catalisar uma nova era de descoberta científica: a Ciência Agêntica. Embora o método científico seja inerentemente iterativo, as estruturas de agentes existentes são predominantemente estáticas, de âmbito restrito e carecem da capacidade de aprender com a tentativa e erro. Para colmatar esta lacuna, apresentamos o EvoMaster, uma estrutura fundamental de agentes em evolução, concebida especificamente para Ciência Agêntica em Escala. Guiada pelo princípio central da auto-evolução contínua, o EvoMaster capacita os agentes para refinar iterativamente hipóteses, autocriticar-se e acumular progressivamente conhecimento ao longo de ciclos experimentais, espelhando fielmente a investigação científica humana. Crucialmente, enquanto base agnóstica de domínio, o EvoMaster é excecionalmente fácil de escalar — permitindo que os desenvolvedores construam e implementem agentes científicos altamente capacitados e auto-evolutivos para disciplinas arbitrárias em aproximadamente 100 linhas de código. Com base no EvoMaster, incubámos o ecossistema SciMaster em domínios como aprendizagem automática, física e ciência geral. As avaliações em quatro benchmarks autorizados (Humanity's Last Exam, MLE-Bench Lite, BrowseComp e FrontierScience) demonstram que o EvoMaster atinge pontuações de ponta de 41,1%, 75,8%, 73,3% e 53,3%, respetivamente. Supera comprehensiveamente a base de referência de propósito geral OpenClaw com melhorias relativas que variam de +159% a +316%, validando de forma robusta a sua eficácia e generalidade como a principal estrutura fundamental para a próxima geração de descoberta científica autónoma. O EvoMaster está disponível em https://github.com/sjtu-sai-agents/EvoMaster.

MARCO: Navegando o Espaço Invisível da Correspondência Semântica
MARCO: Navigating the Unseen Space of Semantic Correspondence

Apr 20

ByClaudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth

Os recentes avanços na correspondência semântica baseiam-se em arquiteturas de codificador duplo, combinando DINOv2 com backbones de difusão. Embora precisos, esses modelos com milhares de milhões de parâmetros generalizam mal para além dos pontos-chave de treino, revelando uma lacuna entre o desempenho em benchmarks e a usabilidade no mundo real, onde os pontos consultados raramente coincidem com os observados durante o treino. Com base no DINOv2, introduzimos o MARCO, um modelo unificado para correspondência generalizável, impulsionado por uma nova estrutura de treino que melhora tanto a localização de granularidade fina como a generalização semântica. Ao acoplar um objetivo de coarse-to-fine que refina a precisão espacial a uma estrutura de auto-distilação, que expande a supervisão esparsa para além das regiões anotadas, a nossa abordagem transforma um punhado de pontos-chave em correspondências densas e semanticamente coerentes. O MARCO estabelece um novo estado da arte no SPair-71k, AP-10K e PF-PASCAL, com ganhos que se ampliam em limiares de localização de granularidade fina (+8,9 PCK@0.01), a mais forte generalização para pontos-chave não vistos (+5,1, SPair-U) e categorias (+4,7, MP-100), mantendo-se 3x menor e 10x mais rápido do que as abordagens baseadas em difusão. O código está disponível em https://github.com/visinf/MARCO.

Modelagem de Preferências Latentes para Chamada de Ferramentas Personalizadas entre Sessões
Latent Preference Modeling for Cross-Session Personalized Tool Calling

Apr 20

ByYejin Yoon, Minseo Kim, Taeuk Kim

Os utilizadores frequentemente omitem detalhes essenciais nos seus pedidos a agentes baseados em LLM, resultando em entradas subespecificadas para uso de ferramentas. Isto representa um desafio fundamental para agentes aumentados com ferramentas, uma vez que a execução de APIs normalmente requer argumentos completos, destacando a necessidade de chamadas de ferramentas personalizadas. Para estudar este problema, introduzimos o MPT, um benchmark composto por 265 diálogos multissessão que abrangem três desafios: Recuperação de Preferências, Indução de Preferências e Transferência de Preferências. Também propomos o PRefine, um método aumentado por memória em tempo de teste que representa as preferências do utilizador como hipóteses em evolução. Através de um ciclo gerar-verificar-refinar, ele extrai restrições reutilizáveis do histórico e melhora a precisão das chamadas de ferramentas, usando apenas 1,24% dos tokens necessários para o prompt de histórico completo. Estes resultados indicam que a personalização robusta em sistemas agenticos depende de uma memória que capture as razões por trás das escolhas do utilizador, e não apenas as escolhas em si.

Modelagem de Múltiplas Estratégias de Apoio em um Único Turno para Conversas de Suporte Emocional
Modeling Multiple Support Strategies within a Single Turn for Emotional Support Conversations

Apr 20

ByJie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Jinsong Su, Chi Zhang, Fang Kong

A Conversa de Apoio Emocional (CAE) visa ajudar indivíduos em situação de angústia, gerando diálogos empáticos e de apoio. Embora trabalhos anteriores geralmente assumam que cada turno de suporte corresponde a uma única estratégia, a comunicação de apoio no mundo real frequentemente envolve múltiplas estratégias dentro de um único enunciado. Neste artigo, revisitamos a tarefa de CAE formulando-a como uma geração de enunciados multiestratégia, onde cada enunciado pode conter um ou mais pares estratégia-resposta. Propomos dois métodos de geração: *All-in-One* (Tudo-em-Um), que prevê todos os pares estratégia-resposta em uma única etapa de decodificação, e *One-by-One* (Um-a-Um), que gera iterativamente os pares estratégia-resposta até a conclusão. Ambos os métodos são ainda aprimorados com raciocínio cognitivo guiado por aprendizado por reforço para melhorar a seleção de estratégias e a composição da resposta. Avaliamos nossos modelos no conjunto de dados ESConv sob configurações tanto em nível de enunciado quanto em nível de diálogo. Resultados experimentais mostram que nossos métodos modelam efetivamente enunciados multiestratégia e resultam em uma qualidade de apoio e sucesso do diálogo aprimorados. Até onde sabemos, este trabalho fornece a primeira evidência empírica sistemática de que permitir múltiplas estratégias de apoio dentro de um único enunciado é tanto viável quanto benéfico para conversas de apoio emocional. Todo o código e dados estarão publicamente disponíveis em https://github.com/aliyun/qwen-dianjin.

O Canário Geométrico: Prevendo a Capacidade de Direcionamento e Detectando Deriva por meio da Estabilidade Representacional
The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Apr 20

ByPrashant C. Raju

A implantação confiável de modelos de linguagem requer duas capacidades que parecem distintas, mas compartilham uma base geométrica comum: prever se um modelo aceitará controle comportamental direcionado e detectar quando sua estrutura interna se degrada. Mostramos que a estabilidade geométrica, a consistência da estrutura de distâncias pareadas de uma representação, aborda ambas. Variantes supervisionadas de Shesha que medem a estabilidade geométrica alinhada à tarefa preveem a controlabilidade linear com precisão quase perfeita (ρ= 0,89-0,97) em 35-69 modelos de *embedding* e três tarefas de PLN, capturando variância única além da separabilidade de classes (ρ parcial= 0,62-0,76). Surge uma dissociação crítica: a estabilidade não supervisionada falha completamente para a previsão de controlabilidade em tarefas do mundo real (ρ≈ 0,10), revelando que o alinhamento à tarefa é essencial para essa previsão. No entanto, a estabilidade não supervisionada se destaca na detecção de *drift*, medindo uma mudança geométrica quase 2 vezes maior do que a CKA durante o alinhamento pós-treinamento (até 5,23 vezes no Llama), enquanto fornece um alerta mais precoce em 73% dos modelos e mantém uma taxa de falso alarme 6 vezes menor que o Procrustes. Juntas, a estabilidade supervisionada e a não supervisionada formam diagnósticos complementares para o ciclo de vida de implantação de LLMs: uma para avaliação da controlabilidade antes da implantação e outra para monitoramento pós-implantação.

Quando o Plano de Fundo Importa: Quebrando Modelos de Linguagem Visual Médica com Ataques Transferíveis
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Apr 19

ByAkash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen

Os Modelos de Visão-Linguagem (VLMs) são cada vez mais utilizados em diagnósticos clínicos, mas a sua robustez face a ataques adversários permanece largamente inexplorada, representando um risco sério. Os ataques médicos existentes concentram-se em objetivos secundários, como roubo de modelos ou *fine-tuning* adversário, enquanto os ataques transferíveis a partir de imagens naturais introduzem distorções visíveis que os clínicos podem detetar facilmente. Para resolver esta lacuna, propomos o MedFocusLeak, um ataque multimodal em caixa-negra altamente transferível que induz diagnósticos incorretos, mas clinicamente plausíveis, mantendo as perturbações impercetíveis. O método injeta perturbações coordenadas em regiões de fundo não diagnósticas e emprega um mecanismo de distração de atenção para desviar o foco do modelo das áreas patológicas. Avaliações extensas em seis modalidades de imagem médica mostram que o MedFocusLeak alcança um desempenho de ponta, gerando resultados diagnósticos enganosos, mas realistas, em diversos VLMs. Introduzimos ainda uma estrutura de avaliação unificada com novas métricas que capturam conjuntamente o sucesso do ataque e a fidelidade da imagem, revelando uma vulnerabilidade crítica nas capacidades de raciocínio dos VLMs clínicos modernos.

MNAFT: Ajuste Fino com Consciência de Neurônios de Modalidade para Modelos de Linguagem Multimodais Grandes na Tradução de Imagens
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Apr 18

ByBo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen

Os modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades impressionantes, mas frequentemente lutam para capturar efetivamente as informações textuais refinadas dentro das imagens, cruciais para uma tradução precisa de imagem. Isso frequentemente leva a uma lacuna de modalidade entre as entradas de texto visual e as entradas/saídas textuais para tradução de imagem. Os métodos existentes, que dependem principalmente do ajuste fino por instrução, arriscam a redundância de parâmetros do conhecimento pré-treinado, prejudicando o desempenho de generalização. Para resolver isso, introduzimos o ajuste fino com consciência de neurônios de modalidade (MNAFT), uma nova abordagem que aproveita os papéis especializados de neurônios individuais dentro dos MLLMs para uma tradução de imagem aprimorada. O MNAFT identifica neurônios independentes de idioma e específicos de idioma em módulos de visão e linguagem através de uma análise de ativação orientada por instrução, avaliando sua importância em várias tarefas de tradução. Em seguida, realizamos um ajuste fino seletivo, atualizando apenas os parâmetros dos neurônios específicos de idioma e independentes de idioma dentro das camadas selecionadas relevantes para a tarefa-alvo, enquanto preservamos o conhecimento codificado em outros neurônios e camadas. Nossos extensivos experimentos em múltiplos benchmarks demonstram que o MNAFT supera significativamente os métodos state-of-the-art de tradução de imagem, incluindo modelos em cascata, ajuste fino padrão completo e técnicas de ajuste com eficiência de parâmetros. Além disso, fornecemos uma análise abrangente, incluindo visualizações das ativações dos neurônios e padrões de agrupamento, para oferecer insights sobre os papéis de diferentes grupos de neurônios na mediação da compreensão cross-modal e na facilitação de uma tradução precisa e específica do idioma.

Modelagem de Observações de Vulnerabilidades Esparsas e Sazonalmente Concentradas: Previsão sob Restrições de Dados
Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Apr 17

ByCedric Bonhomme, Alexandre Dulaunoy

Compreender e antecipar atividades relacionadas a vulnerabilidades é um grande desafio na área de inteligência contra ameaças cibernéticas. Este trabalho investiga se a observação de vulnerabilidades, como lançamentos de prova de conceito, modelos de detecção ou discussões online, pode ser prevista ao longo do tempo. Com base no nosso trabalho anterior sobre o VLAI, um modelo baseado em *transformers* que prevê a gravidade de vulnerabilidades a partir de descrições textuais, examinamos se as pontuações de gravidade podem melhorar a previsão de séries temporais como variáveis exógenas. Avaliamos várias abordagens para a previsão de curto prazo de observações por vulnerabilidade. Primeiro, testamos modelos SARIMAX com e sem transformações log(x+1) e entradas de gravidade derivadas do VLAI. Embora esses ajustes ofereçam melhorias limitadas, o SARIMAX permanece pouco adequado para dados de vulnerabilidade esparsos, curtos e com picos de atividade. Na prática, as previsões frequentemente produzem intervalos de confiança excessivamente amplos e, por vezes, valores negativos irreais. Para capturar melhor a natureza discreta e orientada a eventos das observações, exploramos em seguida métodos baseados em contagem, como a regressão de Poisson. Resultados iniciais mostram que esses modelos produzem previsões mais estáveis e interpretáveis, especialmente quando as observações são agregadas semanalmente. Também discutimos alternativas operacionais mais simples, incluindo funções de decaimento exponencial para horizontes de previsão curtos, para estimar a atividade futura sem exigir longas séries históricas. No geral, este estudo destaca tanto o potencial quanto as limitações da previsão de eventos cibernéticos raros e com picos de atividade, e fornece orientações práticas para integrar análises preditivas nos fluxos de trabalho de inteligência de vulnerabilidades.

MTR-DuplexBench: Rumo a uma Avaliação Abrangente de Conversas Multirround para Modelos de Linguagem de Fala Full-Duplex
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Apr 17

ByHe Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King

Os Modelos de Linguagem de Fala em Duplex Completo (FD-SLMs) permitem interações conversacionais sobrepostas em tempo real, oferecendo uma experiência de usuário mais dinâmica em comparação com os modelos tradicionais de semi-duplex. No entanto, os benchmarks existentes focam-se principalmente na avaliação de interações de rodada única, negligenciando as complexidades da comunicação multi-rodada. Avaliar FD-SLMs em cenários multi-rodada apresenta desafios significativos, incluindo limites de turno desfocados na comunicação e inconsistência contextual durante a inferência do modelo. Além disso, os benchmarks existentes frequentemente focam-se apenas na avaliação de características conversacionais, negligenciando outros aspetos críticos. Para colmatar estas lacunas, introduzimos o MTR-DuplexBench, um novo benchmark concebido para uma avaliação multi-rodada abrangente de FD-SLMs. O MTR-DuplexBench não apenas segmenta diálogos contínuos de duplex completo em turnos discretos para avaliação turno-a-turno, mas também incorpora várias dimensões de avaliação, incluindo características conversacionais, qualidade do diálogo, seguimento de instruções e segurança. Resultados experimentais revelam que os FD-SLMs atuais enfrentam dificuldades em manter um desempenho consistente em múltiplas rodadas e dimensões de avaliação, destacando a necessidade e eficácia do nosso benchmark. Código e dados estão disponíveis em: https://github.com/ZhangHe0918/MTR-DuplexBench

Forge-UGC: Otimização de FX e mecanismo de grafo de registros para compilador universal de grafos
Forge-UGC: FX optimization and register-graph engine for universal graph compiler

Apr 14

BySatyam Kumar, Saurabh Jha

Apresentamos o Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), um compilador de quatro fases para a implantação de modelos *transformer* em hardware acelerador heterogêneo, validado no NPU Intel AI Boost. Frameworks existentes, como OpenVINO e ONNX Runtime, frequentemente utilizam *pipelines* de compilação opacos, com visibilidade limitada a nível de passos e gerenciamento fraco de *buffers*, o que pode resultar em maior custo de compilação e sobrecarga em tempo de execução. O Forge-UGC aborda estas limitações com um projeto independente de hardware que separa a captura do grafo, a otimização, a redução da representação intermediária e o agendamento do *backend*. A Fase 1 captura grafos com `torch.export` ao nível do operador ATen, suportando componentes modernos de *transformers*, como *rotary position embeddings*, *grouped-query attention* e SwiGLU, sem decomposição manual. A Fase 2 aplica seis passos de otimização: eliminação de código morto, eliminação de subexpressões comuns, dobramento de constantes, fusão de *attention*, fusão de operadores e otimização de *layout*, reduzindo a contagem de nós do grafo em 14,2 a 21,9%. A Fase 3 reduz o grafo otimizado para uma representação intermediária tipada com atribuições explícitas de registros virtuais. A Fase 4 realiza análise de vivacidade, alocação de *buffers* por *linear-scan* — reduzindo a contagem máxima de *buffers* em 30 a 48% — e agendamento por afinidade de dispositivo, reduzindo as transições NPU-CPU em 42 a 65%. Em seis famílias de modelos, variando de 125M a 8B de parâmetros, avaliadas no WikiText-103 e GLUE, o Forge-UGC proporciona uma compilação 6,9 a 9,2 vezes mais rápida que o OpenVINO e o ONNX Runtime, uma latência de inferência 18,2 a 35,7% menor e um consumo de energia por inferência 30,2 a 40,9% menor. A fidelidade é preservada, com diferenças absolutas máximas nos *logits* abaixo de 2,1e-5 e divergência KL abaixo de 8,4e-9. Também introduzimos o *Fusion Gain Ratio*, o *Compilation Efficiency Index* e a análise de execução por passo para avaliação sistemática de *pipelines* de compilação para NPUs.

Análise de Significância e Estabilidade da Interação Gene-Ambiente utilizando o RGxEStat
Significance and Stability Analysis of Gene-Environment Interaction using RGxEStat

Apr 3

ByMeng'en Qin, Zhe Li, Xiaohui Yang

As interações Genótipo-por-Ambiente (GxA) influenciam o desempenho dos genótipos em diversos ambientes, reduzindo a previsibilidade dos fenótipos nos ambientes-alvo. A análise aprofundada das interações GxA facilita a identificação de como as vantagens ou defeitos genéticos são expressos ou suprimidos sob condições ambientais específicas, permitindo assim a seleção genética e aprimorando as práticas de melhoramento. Este artigo introduz dois modelos-chave para a pesquisa de interações GxA. Especificamente, inclui a análise de significância baseada no modelo de efeitos mistos para determinar se genes ou interações GxA afetam significativamente as características fenotípicas; e a análise de estabilidade, que investiga mais a fundo as relações interativas entre genes e ambientes, bem como a superioridade ou inferioridade relativa dos genótipos entre ambientes. Adicionalmente, este artigo apresenta o RGxEStat, uma ferramenta interativa e leve, desenvolvida pelos autores e que integra a construção, solução e visualização dos modelos supracitados. Projetado para eliminar a necessidade de melhoristas e agrônomos aprenderem programação complexa em SAS ou R, o RGxEStat fornece uma interface amigável para a análise simplificada de dados de melhoramento, acelerando significativamente os ciclos de pesquisa. Códigos e conjuntos de dados estão disponíveis em https://github.com/mason-ching/RGxEStat.

De Volta ao Reparo: Uma Rede de Desruído Mínima para Detecção de Anomalias em Séries Temporais
Back to Repair: A Minimal Denoising Network\ for Time Series Anomaly Detection

Apr 19

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Apresentamos o JuRe (Just Repair), uma rede de eliminação de ruído mínima para detecção de anomalias em séries temporais que revela uma descoberta central: a complexidade arquitetônica é desnecessária quando o objetivo de treinamento implementa corretamente o princípio de projeção na variedade. O JuRe consiste em um único bloco residual convolucional separável em profundidade com dimensão oculta 128, treinado para reparar janelas de séries temporais corrompidas e pontuado na inferência por uma função de discrepância estrutural fixa e livre de parâmetros. Apesar de não utilizar atenção, variáveis latentes ou componentes adversariais, o JuRe classifica-se em segundo lugar no benchmark multivariado TSB-AD (AUC-PR 0.404, 180 séries, 17 conjuntos de dados) e em segundo lugar no arquivo univariado UCR por AUC-PR (0.198, 250 séries), liderando todas as linhas de base neurais em AUC-PR e VUS-PR. A ablação de componentes no TSB-AD identifica a corrupção durante o treinamento como o fator dominante (ΔAUC-PR = 0.047 na remoção), confirmando que o objetivo de eliminação de ruído, e não a capacidade da rede, impulsiona a qualidade da detecção. Testes de Wilcoxon de postos sinalizados pareados estabelecem significância estatística contra 21 de 25 linhas de base no TSB-AD. O código está disponível no URL https://github.com/iis-esslingen/JuRe.

Terminal Wrench: Um Conjunto de Dados com 331 Ambientes Suscetíveis a Recompensa Indevida e 3.632 Trajetórias de Exploração
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Apr 19

ByIvan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong

Lançamos o Terminal Wrench, um subconjunto de 331 ambientes de benchmark para agentes de terminal, copiados dos benchmarks abertos populares que são comprovadamente vulneráveis a reward hacking. O conjunto de dados inclui 3.632 trajetórias de hack e 2.352 trajetórias legítimas de base (baseline) em três modelos de fronteira (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Cada entrada preserva a definição original da tarefa juntamente com trajetórias completas de ataque que mostram como o verificador foi contornado. Também inclui casos em que a tarefa não foi resolvida conforme o planejado. As tarefas abrangem administração de sistemas, aprendizado de máquina, engenharia de software e desafios de segurança; as explorações variam de simples spoofing de saída a introspecção de stack frame, modificação de bibliotecas padrão e hijacking de binários no estilo rootkit. Crucialmente, essas explorações são específicas para cada tarefa, e não para o sistema de avaliação, tornando-as mais difíceis de corrigir. Também apresentamos um estudo de monitorabilidade no qual as trajetórias de hack são sanitizadas ou têm seus rastros de raciocínio removidos e, em seguida, são pontuadas por um juiz baseado em LLM, mostrando que a detecção se degrada significativamente quando a cadeia de pensamento (chain-of-thought) é removida (a AUC cai de 0,97 para 0,92). O conjunto de dados está publicamente disponível em https://github.com/few-sh/terminal-wrench.

A Camada de Continuidade: Por que a Inteligência Precisa de uma Arquitetura para o que Ela Transporta para a Frente
The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

Apr 19

BySamuel Sameer Tanguturi

O problema arquitetônico mais importante na IA não é o tamanho do modelo, mas a ausência de uma camada que perpetue o que o modelo compreendeu. As sessões terminam. As janelas de contexto enchem. As APIs de memória retornam factos planos que o modelo tem de reinterpretar do zero a cada leitura. O resultado é uma inteligência poderosa por sessão e amnésica ao longo do tempo. Este artigo de posição argumenta que a camada que resolve isto, a camada de continuidade, é a peça de infraestrutura mais consequente que a área ainda não construiu, e que o trabalho de engenharia para a construir começou publicamente. O quadro formal de avaliação para a propriedade aqui descrita é o benchmark ATANT (arXiv:2604.06710), publicado separadamente com resultados de avaliação num corpus de 250 histórias; um artigo complementar (arXiv:2604.10981) posiciona este quadro face aos benchmarks existentes de memória, contexto longo e memória agentiva. O artigo define continuidade como uma propriedade do sistema com sete características necessárias, distinta de memória e de recuperação; descreve um primitivo de armazenamento (Memória por Convergência de Traços Decompostos) cuja decomposição no momento de escrita e reconstrução no momento de leitura produzem essa propriedade; mapeia a arquitetura de engenharia para o padrão teológico de kenosis e o padrão simbólico de Alfa e Ómega, e argumenta que este mapeamento é estrutural e não metafórico; propõe um arco de desenvolvimento de quatro camadas, desde um SDK externo até a um nó de hardware e a uma infraestrutura humana de longo horizonte; examina por que os limites físicos que agora constrangem a camada do modelo tornam a camada de continuidade nova e consequentemente importante; e argumenta que a arquitetura de governança (privacidade implementada como física e não como política, ações de classe controladas pelo fundador em compromissos arquitetónicos não negociáveis) é inseparável do próprio produto.

HSG: Grafo de Cena Hiperbólico
HSG: Hyperbolic Scene Graph

Apr 19

ByLiyang Wang, Zeyu Zhang, Hao Tang

As representações de grafos de cena permitem a compreensão visual estruturada através da modelação de objetos e das suas relações, sendo amplamente utilizadas para o raciocínio multivista e 3D de cenas. Métodos existentes, como o MSG, aprendem incorporações de grafos de cena no espaço euclidiano usando aprendizagem contrastiva e associação baseada em atenção. No entanto, a geometria euclidiana não capta explicitamente as relações de hierarquia e implicação entre locais e objetos, limitando a consistência estrutural das representações aprendidas. Para resolver esta limitação, propomos o Grafo de Cena Hiperbólico (HSG), que aprende incorporações de grafos de cena no espaço hiperbólico, onde as relações hierárquicas são naturalmente codificadas através da distância geométrica. Os nossos resultados mostram que o HSG melhora a qualidade da estrutura hierárquica, mantendo um forte desempenho na recuperação de informação. Os ganhos mais significativos são observados em métricas a nível do grafo: o HSG alcança um PP IoU de 33,17 e o Graph IoU mais alto de 33,51, superando a melhor variante do AoMSG (25,37) em 8,14, destacando a eficácia da aprendizagem de representações hiperbólicas para a modelação de grafos de cena. Código: https://github.com/AIGeeksGroup/HSG.

Sobre a Robustez dos Recuperadores Densos Baseados em LLM: Uma Análise Sistemática da Generalizabilidade e da Estabilidade
On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Apr 17

ByYongkang Li, Panagiotis Eustratiadis, Yixing Fan, Evangelos Kanoulas

Os modelos de linguagem grandes (LLMs) do tipo "decoder-only" estão a substituir progressivamente as arquiteturas do estilo BERT como base para a recuperação densa, alcançando ganhos substanciais de desempenho e uma ampla adoção. No entanto, a robustez destes recuperadores baseados em LLM permanece pouco explorada. Neste artigo, apresentamos o primeiro estudo sistemático da robustez dos recuperadores densos de última geração baseados em LLM de código aberto, sob duas perspetivas complementares: generalização e estabilidade. Para a generalização, avaliamos a eficácia da recuperação em quatro benchmarks abrangendo 30 conjuntos de dados, utilizando modelos lineares de efeitos mistos para estimar o desempenho médio marginal e separar a capacidade intrínseca do modelo da heterogeneidade dos conjuntos de dados. A nossa análise revela que, embora os modelos ajustados por instrução geralmente se destaquem, aqueles otimizados para raciocínio complexo frequentemente sofrem uma "taxa de especialização", exibindo uma generalização limitada em contextos mais amplos. Para a estabilidade, avaliamos a resiliência do modelo contra variações de consulta não intencionais (por exemplo, paráfrases, erros tipográficos) e ataques adversariais maliciosos (por exemplo, envenenamento do *corpus*). Verificamos que os recuperadores baseados em LLM mostram uma robustez melhorada contra erros tipográficos e envenenamento do *corpus* em comparação com as linhas de base baseadas apenas em *encoders*, mas permanecem vulneráveis a perturbações semânticas como a substituição por sinónimos. Uma análise mais aprofundada mostra que a geometria dos *embeddings* (por exemplo, uniformidade angular) fornece sinais preditivos para a estabilidade lexical e sugere que a escalagem do tamanho do modelo geralmente melhora a robustez. Estas descobertas informam o futuro desenho de recuperadores com consciência da robustez e a criação de benchmarks fundamentados. O nosso código está publicamente disponível em https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

KWBench: Medição do Reconhecimento Não Solicitado de Problemas no Trabalho do Conhecimento
KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Apr 17

ByAnkit Maloo

Apresentamos a primeira versão do KWBench (Knowledge Work Bench), um benchmark para o reconhecimento não solicitado de problemas em modelos de linguagem grandes: pode um LLM identificar um cenário profissional antes de tentar resolvê-lo? Os benchmarks de fronteira existentes estão saturados, e a maioria das avaliações de trabalho intelectual até hoje se resume à extração ou conclusão de tarefas contra uma especificação. O KWBench visa a etapa anterior a essa: reconhecer a estrutura governante da situação a partir apenas de entradas brutas. O benchmark contém 223 tarefas originadas de profissionais das áreas de aquisições, negociações contratuais, farmácia clínica, política organizacional, análise de fraudes e design de incentivos. Cada tarefa codifica um padrão formal da teoria dos jogos (conflito principal-agente, sinalização, falha no *design* de mecanismos, omissão estratégica, dinâmicas coalizacionais, interdependência estratégica) e carrega uma *ground truth* estruturada que registra a leitura especializada da situação e os modos de falha antecipados. Os modelos recebem dados brutos e um *prompt* de tarefa sem qualquer indicação do tipo de problema. A pontuação segue uma rubrica de três níveis condicionada a uma verificação conjuntiva obrigatória. Os critérios obrigatórios codificam os caminhos errados previstos. Avaliamos 16 modelos. O melhor modelo é aprovado em 27,9% das tarefas. Os dois melhores modelos concordam em apenas 31,7% de suas aprovações. Entre os 8 primeiros, 44 tarefas são resolvidas por exatamente um modelo; o roteamento entre os 8 primeiros cobre 50,7% do *benchmark*, quase o dobro do melhor modelo individual. Condicionada à aprovação, as pontuações de qualidade convergem (aproximadamente 83% entre os modelos); as pontuações incondicionais não convergem. Os mesmos modelos articulam o conceito relevante da teoria dos jogos corretamente quando questionados, mas falham em aplicá-lo sem solicitação. Disponibilizamos o KWBench para mudar a forma como os modelos de fronteira são avaliados no trabalho intelectual, pontuando-os com base em se reconhecem o problema correto a partir apenas da situação, e não apenas em quão bem eles executam uma vez que o problema foi estruturado para eles.

Barreiras Simbólicas para Agentes de Domínio Específico: Garantias de Segurança Mais Robustas Sem Sacrificar a Utilidade
Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Apr 16

ByYining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner

Agentes de IA que interagem com seus ambientes por meio de ferramentas permitem aplicações poderosas, mas em contextos empresariais de alto risco, ações não intencionais podem causar danos inaceitáveis, como violações de privacidade e perdas financeiras. As mitigações existentes, como métodos baseados em treinamento e barreiras neurais, melhoram a confiabilidade do agente, mas não podem fornecer garantias. Estudamos barreiras simbólicas como um caminho prático para obter fortes garantias de segurança e proteção para agentes de IA. Nosso estudo de três partes inclui uma revisão sistemática de 80 benchmarks state-of-the-art de segurança e proteção de agentes para identificar as políticas que eles avaliam, uma análise de quais requisitos de política podem ser garantidos por barreiras simbólicas e uma avaliação de como as barreiras simbólicas afetam a segurança, proteção e sucesso do agente nos benchmarks τ²-Bench, CAR-bench e MedAgentBench. Descobrimos que 85% dos benchmarks carecem de políticas concretas, dependendo, em vez disso, de objetivos de alto nível mal especificados ou de senso comum. Entre as políticas especificadas, 74% dos requisitos de política podem ser aplicados por barreiras simbólicas, frequentemente usando mecanismos simples e de baixo custo. Essas barreiras melhoram a segurança e proteção sem sacrificar a utilidade do agente. No geral, nossos resultados sugerem que as barreiras simbólicas são uma maneira prática e eficaz de garantir alguns requisitos de segurança e proteção, especialmente para agentes de IA específicos de domínio. Disponibilizamos todos os códigos e artefatos em https://github.com/hyn0027/agent-symbolic-guardrails.

Protegendo Modelos de Linguagem Contra a Destilação Não Autorizada por Meio de Reescrevimento de Traços
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Apr 16

ByXinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

A destilação de conhecimento é uma técnica amplamente adotada para transferir capacidades de LLMs para modelos estudantis menores e mais eficientes. No entanto, o uso não autorizado da destilação de conhecimento tira vantagem injusta do considerável esforço e custo investidos no desenvolvimento de modelos de fronteira. Investigamos métodos para modificar traços de raciocínio gerados pelo professor para alcançar dois objetivos que impedem a destilação não autorizada: (1) antidestilação, ou degradar a utilidade para treinamento das respostas a consultas, e (2) marcação d'água de API, que incorpora assinaturas verificáveis em modelos estudantis. Introduzimos várias abordagens para reescrever dinamicamente os resultados de raciocínio de um professor, preservando a correção da resposta e a coerência semântica. Duas delas aproveitam as capacidades de reescrita dos LLMs, enquanto outras usam técnicas baseadas em gradiente. Nossos experimentos mostram que uma simples abordagem de reescrita baseada em instruções alcança um forte efeito de antidestilação, mantendo ou mesmo melhorando o desempenho do professor. Além disso, mostramos que nossa abordagem de reescrita também permite incorporar marcas d'água que podem ser detectadas de forma confiável com essencialmente nenhum falso alarme. Nosso código está disponível em https://github.com/xhOwenMa/trace-rewriting.