HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

72 papers found

Crafter: Um Arnês Multiagente para Geração de Figuras Científicas Editáveis a partir de Entradas Diversas
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

May 28

ByHaozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang

107

As figuras científicas estão entre os meios mais eficazes de comunicar ideias complexas de pesquisa, mas produzir ilustrações com qualidade para publicação continua a ser uma das partes mais trabalhosas da preparação de artigos. Os sistemas automatizados existentes visam cada um um único tipo de figura com entrada apenas de texto, deixando sem abordar a diversidade de tipos e condições que os pesquisadores realmente utilizam; suas saídas raster, além disso, não podem ser revisadas localmente. Como as figuras científicas são composições estruturadas de componentes semânticos discretos, os erros localizados que os geradores produzem em tais layouts exigem não uma espinha dorsal mais forte, mas um arcabouço. Materializamos este arcabouço em dois sistemas complementares: Crafter, um arcabouço multiagente para geração de figuras que generaliza entre tipos de figuras e condições de entrada sem alterações arquitetônicas, e CraftEditor, que aplica o mesmo padrão para converter saídas raster em SVGs editáveis. Além disso, apresentamos o CraftBench, um benchmark abrangendo três tipos de figuras e quatro condições de entrada com anotação de qualidade humana. Experimentos mostram que Crafter supera substancialmente tanto geradores autônomos quanto a linha de base agentiva no PaperBanana-Bench e no CraftBench, com ablações confirmando a contribuição independente de cada componente; CraftEditor converte fielmente saídas em SVGs editáveis que superam todas as linhas de base. Nosso código e benchmark estão disponíveis em https://github.com/HaozheZhao/Crafter.

Sobre o Escalonamento do PEFT: Rumo a Milhões de Modelos Pessoais de Trilhões de Parâmetros
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Jun 1

ByMind Lab, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang

O ajuste fino eficiente em parâmetros (PEFT) é geralmente tratado como uma alternativa mais barata ao ajuste fino completo. Estudamos um papel mais amplo: pequenos adaptadores treináveis como estado local persistente sobre modelos de base compartilhados e robustos. Nesse enquadramento, o modelo base fornece competência compartilhada, enquanto os adaptadores carregam comportamentos específicos da instância, como preferências, habilidades, hábitos de ferramentas e atualizações semelhantes à memória. Organizamos o problema em torno de três eixos de escalabilidade: Aumento de Escala (Scale Up), onde prioridades compartilhadas mais fortes tornam pequenas atualizações locais mais úteis; Redução de Escala (Scale Down), onde estudamos quão pequenos os adaptadores podem ser enquanto permanecem confiáveis; e Expansão de Escala (Scale Out), onde muitas instâncias adaptadas persistentes coexistem. O MinT fornece um exemplo de infraestrutura para gerenciar identidade, revisão, proveniência, avaliação e residência de serviço do adaptador. Em conjunto, os resultados sugerem que o PEFT pode ser um substrato compacto para modelos pessoais persistentes, em vez de apenas um substituto econômico para o ajuste fino completo.

Uma Questão de TASTE: Melhorando a Cobertura e Dificuldade de Benchmarks de Agentes
A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

May 27

ByTomer Keren, Nitay Calderon, Asaf Yehudai, Yotam Perlitz, Michal Shmueli-Scheuer, Roi Reichert

À medida que as capacidades dos agentes avançam, benchmarks existentes, como o τ²-Bench, estão se tornando cada vez mais saturados. No entanto, construir novas tarefas de benchmark continua complexo, custoso e trabalhoso. Além disso, a abordagem padrão, na qual os cenários são primeiro escritos em linguagem natural e depois mapeados para sequências de ferramentas, captura apenas um subconjunto restrito dos padrões de uso de ferramentas que os agentes executam. Neste artigo, abordamos esses problemas invertendo o processo de construção de tarefas. Propomos o TASTE: Síntese de Tarefas a partir da Evolução de Sequências de Ferramentas, um método automático que gera tarefas desafiadoras com cobertura mais ampla de uso de ferramentas. O TASTE utiliza um modelo adaptativo de n-gramas contrastivos treinado em sinais de validade julgados por LLMs. Isso permite amostrar sequências válidas de ferramentas que cobrem uma vasta gama de combinações de ferramentas. O TASTE então seleciona sequências representativas do conjunto via clusterização, instancia-as em tarefas completas de benchmark e as refina por meio de evolução iterativa de dificuldade. Usando o TASTE, construímos o τ^c-Bench, uma extensão desafiadora para os três domínios do τ²-Bench. Avaliamos 11 pares de agente/LLM usuário e descobrimos que modelos que quase saturam o τ²-Bench sofrem quedas severas de desempenho em nossas tarefas (por exemplo, Gemini-3-Flash cai de 0,82–0,94 para 0,28–0,61). Além de aumentar a dificuldade, nossas tarefas geradas mais que dobram o número de combinações únicas de ferramentas que os agentes precisam executar. Nossos resultados sugerem que pontuações altas em benchmarks existentes frequentemente refletem saturação, e não uma capacidade robusta de resolução de tarefas. Ao automatizar a geração de benchmarks difíceis e de alta cobertura, o TASTE possibilita uma avaliação contínua e escalável de agentes futuros.

K-BrowseComp: Um Benchmark para Agentes de Navegação na Web Fundamentado em Contextos Coreanos
K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

Jun 1

ByNahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

As avaliações de modelos de fronteira estão se deslocando de capacidades fundamentais (como seguir instruções e raciocínio) para capacidades composicionais e agentivas, mas benchmarks agentivos coreanos ainda são escassos. Apresentamos o K-BrowseComp, um benchmark de agente de navegação na web contextualizado ao ambiente coreano, composto por 400 problemas. O subconjunto K-BrowseComp-Verified, com 300 problemas, foi manualmente construído e validado por falantes nativos de coreano. Nesse subconjunto, LLMs de fronteira, incluindo GPT-5.5, DeepSeek-V4-Pro e GLM-5.1, alcançam apenas 30,00–45,67%, uma queda substancial em relação ao BrowseComp, enquanto LLMs coreanos lançados por meio do programa Korea's Proprietary AI Foundation Model obtêm apenas 0,00–10,33%. Construímos ainda uma divisão sintética de 100 problemas usando exemplares few-shot difíceis e geração direcionada a modos de falha, a fim de explorar a assimetria entre resolver e criar problemas de navegação na web. Na divisão sintética de diagnóstico filtrada adversarialmente, o modelo mais forte atinge apenas 26,00%, e reportamos essa divisão separadamente como um teste de estresse direcionado. Disponibilizamos publicamente nossos dados e código.

Harness-1: Aprendizagem por Reforço para Agentes de Busca com Arneses de Externalização de Estado
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Jun 1

ByPengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han

Agentes de busca são frequentemente treinados como políticas sobre transcrições crescentes: o modelo deve decidir como buscar enquanto também se lembra do que viu, quais evidências são úteis, quais restrições permanecem em aberto e quais alegações foram efetivamente verificadas. Argumentamos que essa formulação coloca excesso de gerenciamento de estado rotineiro dentro da política: o aprendizado por reforço é forçado a otimizar tanto decisões semânticas de busca quanto a contabilidade recuperável que o ambiente pode manter de forma mais confiável. Apresentamos o Harness-1, um agente de busca (subagente de recuperação) de 20B treinado com aprendizado por reforço dentro de uma estrutura de busca com estado (harness). A estrutura mantém uma memória de trabalho no lado do ambiente, incluindo um conjunto de candidatos, um conjunto selecionado com marcação de importância, links de evidência compactos, registros de verificação, observações comprimidas e deduplicadas, e renderização de contexto consciente de orçamento. A política retém as decisões semânticas: o que buscar, quais documentos manter ou descartar, o que verificar e quando parar. Em oito benchmarks de recuperação abrangendo web, finanças, patentes e QA multi-salto, o Harness-1 alcança 0,730 de recall selecionado médio, superando o próximo subagente de busca aberta mais forte em +11,4 pontos e mantendo-se competitivo com agentes de busca de modelos de fronteira muito maiores. Seus ganhos são especialmente fortes em benchmarks de transferência não vistos, sugerindo que o aprendizado por reforço sobre estados de busca explícitos pode produzir comportamentos de recuperação que generalizam além dos domínios de treinamento. Nosso código está disponível em https://github.com/pat-jj/harness-1.

Draft-OPD: Destilação On-Policy para Modelos de Rascunho Especulativo
Draft-OPD: On-Policy Distillation for Speculative Draft Models

May 28

ByHaodi Lei, Yafy Li, Haoran Zhang, Shunkai Zhang, Qianjia Cheng, Xiaoye Qu, Ganqu Cui, Bowen Zhou, Ning Ding, Yun Luo, Yu Cheng

A decodificação especulativa acelera a inferência de modelos de linguagem de grande escala ao combinar um modelo alvo com um modelo rascunho leve, cujos tokens propostos são verificados em paralelo. Uma maneira comum de construir modelos rascunho, como EAGLE3 ou DFlash, é o ajuste fino supervisionado (SFT) em trajetórias geradas pelo alvo. No entanto, observamos que o SFT atinge rapidamente um platô: o comprimento de aceitação do modelo rascunho em dados de teste para de melhorar. A razão é uma incompatibilidade entre offline e inferência: no SFT, o rascunho aprende a partir de trajetórias fixas geradas pelo alvo, enquanto durante a decodificação especulativa ele é avaliado em blocos propostos sob sua própria política. Isso motiva a destilação on-policy (OPD), onde o modelo alvo supervisiona o rascunho em estados induzidos pelo rascunho. No entanto, a OPD continua difícil para modelos rascunho, pois eles não conseguem gerar sequências completas de forma confiável e independente, enquanto a geração assistida pelo alvo faz com que as sequências coletadas sigam a distribuição alvo, eliminando assim o sinal on-policy. Portanto, propomos o Draft-OPD, que utiliza a geração assistida pelo alvo para continuações estáveis e reproduz o rascunho a partir das posições de erro expostas pela verificação. Isso permite que o rascunho aprenda com o feedback do alvo tanto em propostas aceitas quanto rejeitadas, concentrando o treinamento nos erros induzidos pelo rascunho que limitam a aceitação especulativa. Experimentos mostram que o Draft-OPD alcança mais de 5 vezes de aceleração sem perdas para modelos de pensamento em diversas tarefas, melhorando em 23% e 13% em relação ao EAGLE-3 e ao DFlash, respectivamente.

Domino: Desacoplamento da Modelagem Causal da Geração Autoregressiva de Rascunhos na Decodificação Especulativa
Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

May 28

ByJianuo Huang, Yaojie Zhang, Qituan Zhang, Hao Lin, Hanlin Xu, Linfeng Zhang

A decodificação especulativa acelera a inferência de LLMs ao gerar múltiplos tokens candidatos e verificá-los em paralelo com o modelo alvo. No entanto, sua aceleração prática é limitada pelo compromisso entre a qualidade dos rascunhos e o custo de sua geração: rascunhadores autorregressivos modelam dependências causais entre tokens candidatos, mas incorrem em sobrecarga sequencial, enquanto rascunhadores paralelos reduzem o custo de geração, mas enfraquecem a modelagem de dependências intra-bloco. Neste artigo, propomos o Domino, uma estrutura de decodificação especulativa que desacopla a modelagem de dependências causais da execução autorregressiva cara. O Domino primeiro usa uma espinha dorsal paralela de rascunho para produzir distribuições preliminares de rascunho para todo o bloco e, em seguida, aplica uma cabeça Domino leve para refiná-las com informações causais dependentes do prefixo. Para estabilizar a codificação causal forçada pelo professor, introduzimos adicionalmente um currículo de treinamento ancorado na base que primeiro fortalece a espinha dorsal paralela e, gradualmente, desloca a otimização em direção à distribuição final corrigida causalmente. Experimentos com modelos Qwen3 mostram que o Domino atinge até 5,49× de aceleração ponta a ponta sob o backend Transformers e até 5,8× de aceleração na taxa de transferência sob o serviço SGLang.

Ensembles Lineares Removem Marcas d'Água: Sobre a Fragilidade de Perturbações Distribucionais em LLMs
Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

May 28

ByZhihao Wu, Gracia Gong, Qinglin Zhu, Yudong Chen, Runcong Zhao

Marcação d'água insere assinaturas estatísticas em texto gerado por IA para detecção e atribuição. Revelamos uma vulnerabilidade fundamental: quando os usuários acessam múltiplos modelos (realidade atual), as marcações d'água falham trivialmente. Marcações d'água perturbam as distribuições de saída em relação à original e, em mercados competitivos, essas perturbações são tipicamente independentes entre provedores. Provamos teoricamente que a média das distribuições de probabilidade de saída recupera a distribuição não marcada com um termo de erro de até segunda ordem. Empiricamente, simplesmente calcular a média de 3 a 5 modelos cancela essas perturbações. Apresentamos o WASH (Watermark Attenuation via Statistical Hybridisation – Atenuação de Marcação d'Água via Hibridização Estatística), que resolve desafios práticos na geração de ensembles: desalinhamento de vocabulário e diferenças de tokenização entre modelos heterogêneos. Experimentos abrangendo seis esquemas de marcação d'água e três LLMs mostram que a média entre 3 modelos reduz os escores z de detecção de 5–300 para abaixo de 2 (abaixo do limiar de detecção de 4) e a TPR a 5% de FPR para abaixo de 50%, ao mesmo tempo que melhora a qualidade em 27,5% e é executado 6 vezes mais rápido que a melhor linha de base na geração de sequências longas. Nossos resultados sugerem que a detecção robusta de texto por IA via marcação d'água exige aceitar essa vulnerabilidade fundamental ou uma coordenação sem precedentes entre provedores de modelos.

NITP: Predição do Próximo Token Implícito para o Pré-treinamento de LLMs
NITP: Next Implicit Token Prediction for LLM Pre-training

May 24

ByXiangdong Zhang, Debing Zhang, Shaofeng Zhang, Xiaohan Qin, Yu Cheng, Junchi Yan

A predição padrão do próximo token (NTP) supervisiona modelos de linguagem unicamente por meio de rótulos discretos no espaço de logits de saída. Argumentamos que essa supervisão esparsa de um vetor one-hot deixa o espaço de representação latente sub-condicionado, permitindo que estados ocultos derivem para configurações degeneradas e anisotrópicas que podem limitar a generalização. Para lidar com esse problema, propomos a Predição do Próximo Token Implícito (NITP), que complementa a predição discreta com supervisão densa contínua diretamente no espaço de representação. O NITP treina o modelo para prever o conteúdo semântico implícito do próximo token, utilizando representações de camadas superficiais do próprio modelo como alvos autossupervisionados estáveis. Fornecemos análise teórica mostrando que o NITP regulariza a paisagem de otimização ao mitigar graus de liberdade sub-condicionados e incentivar uma geometria de representação compacta e estruturada. Empiricamente, em modelos densos e MoE variando de 0,5B a 9B parâmetros, o NITP melhora consistentemente o desempenho downstream com custo computacional negligenciável. Em um modelo MoE de 9B, o NITP alcança uma melhoria absoluta de 5,7% no MMLU-Pro, junto com ganhos de 6,4% no C3 e 4,3% no CommonsenseQA, com aproximadamente 2% adicionais de FLOPs de treinamento e nenhum custo adicional de inferência. Nossa implementação está disponível em https://github.com/aHapBean/NITP.

VLMs são Bons Professores para Raciocínio em Vídeo via Otimização Adaptativa em Tempo de Teste
VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

Jun 1

ByJunhao Cheng, Liang Hou, Tianxiong Zhong, Xin Tao, Pengfei Wan, Kun Gai, Jing Liao

O recente paradigma "Raciocínio com Vídeo" utiliza Modelos de Geração de Vídeo (VGMs) para gerar trajetórias visuais temporalmente coerentes com o objetivo de completar tarefas de raciocínio. Embora os VGMs de última geração se destaquem na qualidade visual, eles frequentemente têm dificuldade em compreender e seguir regras específicas das tarefas, levando a falhas lógicas em diversos cenários de raciocínio. Esforços existentes tentam utilizar Modelos de Visão e Linguagem (VLMs) como pré-resolvedores de problemas para produzir ou refinar orientações textuais para o VGM. No entanto, descrições textuais não conseguem capturar detalhes espaço-temporais intrincados, e os VGMs frequentemente têm dificuldade em executar fielmente instruções detalhadas ou de cauda longa, mesmo com um plano válido. Embora os VLMs tenham dificuldade como resolvedores, eles possuem fortes capacidades de percepção para avaliar a satisfação de restrições de processo e a realização do objetivo final. Aproveitando essa vantagem, introduzimos uma mudança de paradigma que transiciona o papel dos VLMs para "professores". Especificamente, um professor VLM extrai regras específicas da tarefa para formular recompensas diferenciáveis, guiando um Raciocinador VGM por meio de otimização online em tempo de teste de um módulo LoRA leve. Essa estratégia permite otimização adaptativa em tempo de teste e estende as capacidades de raciocínio para além dos limites intrínsecos do VGM. Avaliações em benchmarks de raciocínio de vídeo simbólico (VBVR-Bench) e de propósito geral (RULER-Bench) mostram que o método proposto produz um ganho médio de desempenho de 16,7 pontos, superando o paradigma VLM-como-Resolvedor (+0,4 pontos) e o escalonamento Best-of-N (+2,2 pontos) por uma margem considerável, a um custo de tempo de teste comparável. Essas descobertas revelam que integrar VLMs como professores em tempo de teste oferece um paradigma promissor para alcançar raciocínio de vídeo generalizável. Página do Projeto: https://VLM-as-Teacher.github.io/

X-Stream: Explorando MLLMs como Multiplexadores para Compreensão Multi-Fluxo
X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

Jun 1

ByPeiwen Sun, Xudong Lu, Huadai Liu, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Rui Liu, Xiangyu Yue

Embora a compreensão de streaming de vídeo tenha feito avanços significativos, aplicações do mundo real, como transmissão esportiva ao vivo, direção autônoma e colaboração em múltiplas telas, demandam inerentemente interações contínuas e com múltiplos fluxos. No entanto, os benchmarks existentes estão confinados a paradigmas de fluxo único, deixando uma lacuna crítica na avaliação do raciocínio online entre fluxos. Para preencher essa lacuna, apresentamos o X-Stream, o primeiro benchmark dedicado à compreensão de streaming multifluxo. Composto por 4.220 pares de perguntas e respostas rigorosamente selecionados em 932 vídeos, o X-Stream avalia 11 subtarefas em cenários de múltiplas janelas, múltiplas visualizações e múltiplos dispositivos. Crucialmente, nosso conjunto de dados é construído usando um novo pipeline de dupla verificação que evita a dependência excessiva de um único fluxo. Além disso, pioneirizamos a conceituação de modelos de linguagem de grande escala multimodais (MLLMs) como multiplexadores ingênuos, avaliando sistematicamente seu desempenho através da lente da Teoria de Multiplexação de Sinais. Nossos extensos experimentos de inferência online revelam uma realidade nítida: MLLMs de ponta têm dificuldades significativas com fluxos concorrentes, alcançando apenas cerca de 50% de pontuação e exibindo baixa capacidade proativa. Por fim, o X-Stream expõe o trade-off dos esquemas atuais de multiplexação, fornecendo tanto um protocolo de avaliação prático quanto orientação empírica para agentes multifluxo de próxima geração.

VideoMLA: Cache KV Latente de Baixo Posto para Difusão de Vídeo Autoregressiva em Escala de Minutos
VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

May 28

ByHidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Hoda Eldardiry, Pinar Yanardag

A difusão de vídeo causal com longas sequências convergiu para um cache KV de janela deslizante de tamanho fixo, com avanços recentes inovando dentro desse layout ao alterar quais tokens ocupam a janela ou como suas posições são codificadas. O próprio layout KV por cabeça, um contribuinte dominante para a memória e latência de streaming, permaneceu praticamente inalterado. Neste artigo, apresentamos o primeiro estudo da Atenção Latente Multi-Cabeça (MLA) em difusão de vídeo. O VideoMLA substitui chaves e valores por cabeça por um latente de conteúdo de posto baixo compartilhado e uma chave posicional 3D-RoPE desacoplada compartilhada, reduzindo a memória KV por token em 92,7% em cada camada em cache. Investigamos ainda por que o MLA tem sucesso na difusão de vídeo, embora a suposição espectral frequentemente usada para motivá-lo em modelos de linguagem não se sustente: a atenção de vídeo pré-treinada não é de posto baixo, com posto efetivo de 99% de energia muito acima de qualquer dimensão latente prática. O VideoMLA mantém a qualidade em taxas de compressão onde a aproximação espectral direta preveria grande erro de reconstrução. Mostramos que o gargalo do MLA, e não o espectro pré-treinado, determina o posto efetivo: tanto a inicialização espectral quanto a aleatória ocupam quase todo o orçamento de posto desde a inicialização, e o treinamento preserva esse orçamento enquanto se adapta dentro dele. No VBench, o VideoMLA iguala as linhas de base de difusão de vídeo em streaming de curto horizonte, alcança a melhor pontuação geral em horizontes longos entre os métodos avaliados e melhora a vazão em 1,23x em um único B200.

SkillAdaptor: Habilidades Autoadaptáveis para Agentes de LLM a partir de Trajetórias
SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

May 31

ByZhuoyun Yu, Xin Xie, Wuguannan Yao, Chenxi Wang, Lei Liang, Xiang Qi, Shumin Deng

Os agentes baseados em modelos de linguagem de grande porte (LLM) dependem cada vez mais de habilidades externas reutilizáveis para resolver tarefas interativas de longo horizonte. Os pipelines existentes de adaptação de habilidades livres de treinamento geralmente atualizam habilidades a partir de trajetórias completas ou feedback em nível de sessão, o que torna a atribuição de falhas grosseira e frequentemente produz revisões instáveis ou excessivamente amplas. Propomos o SkillAdaptor, uma estrutura livre de treinamento para adaptação de habilidades em nível de passo com atribuição explícita de falhas, que pode ser integrada a sistemas de agentes da classe OpenClaw. Dada uma trajetória com falha, o SkillAdaptor identifica o primeiro passo de falha acionável, associa a responsabilidade a habilidades candidatas e aplica atualizações direcionadas sob verificações explícitas de aceitação, mantendo a estrutura principal congelada. Avaliamos no WebShop, PinchBench e Claw-Eval com Kimi-K2.5, GLM-5 e GPT-5.2. O SkillAdaptor supera as linhas de base sem habilidades e com adaptação de habilidades em todos os três conjuntos de testes, com as maiores melhorias em métrica única de +1,5 pontos no PinchBench Avg Score%, +1,8 no Claw-Eval Avg Score e +1,7 na taxa de sucesso do WebShop. Esses resultados indicam que a atribuição em nível de passo suporta uma manutenção de habilidades livre de treinamento mais estável e auditável. O código será disponibilizado em https://github.com/zjunlp/SkillAdaptor.

Onde Olhar: Os Modelos de Fundação Podem Atingir um Ponto de Vista Alvo Através de Exploração Ativa?
Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

May 31

ByLiyang Li, Muzhi Zhu, Zhiyue Zhao, Hengyu Zhao, Ke Liu, Linhao Zhong, Hao Chen, Chunhua Shen

Os humanos podem reproduzir o ponto de vista especificado por uma imagem alvo através de movimento ativo da cabeça e do corpo; no entanto, a inteligência espacial em modelos fundamentais tem sido amplamente estudada como compreensão passiva de observações pré-coletadas. Apresentamos a Reprodução de Ponto de Vista Alvo (TVR) — uma tarefa ativa onde um agente ajusta seu ponto de vista em um ambiente 3D até que sua observação corresponda a uma imagem alvo dada — e o TVRBench, um benchmark de simulação interna abrangendo escala de cena e riqueza visual da vista alvo. O TVR está longe de ser resolvido: na divisão de avaliação, os modelos mais fortes de código aberto e fechado alcançam apenas 7,8% e 12,0% de sucesso. Uma análise detalhada identifica dois gargalos consistentes: modelos prontos para uso têm dificuldade com histórico visual de múltiplas etapas, e o desempenho cai drasticamente quando a reprodução do ponto de vista requer translação do corpo em vez de rotação no lugar, expondo uma lacuna no mapeamento de discrepâncias espaciais para movimento incorporado. Para estudar a redução dessa lacuna, construímos um framework unificado de pós-treinamento do TVR que abrange SFT de trajetória especialista, CoT-SFT supervisionado por raciocínio, GRPO de turno único offline e GRPO de múltiplos turnos *on-policy* a partir de simulações ao vivo. SFT de ação visual fornece o principal ganho, elevando um modelo de código aberto de 9B para 50,8% de sucesso; GRPO de múltiplos turnos fornece refinamento direcionado para múltiplas salas e atinge 51,4% no geral, enquanto a supervisão CoT e o GRPO de turno único degradam o desempenho em malha fechada. Esses resultados estabelecem o TVRBench como um ambiente de teste para medir e treinar modelos fundamentais que percebem e agem ativamente em ambientes 3D. Nosso código, dados e modelos estão disponíveis em https://github.com/aim-uofa/TVRBench.

Qual Paradigma de Pré-treinamento Melhor Atende à Inteligência Espacial? Uma Comparação Empírica entre Modelos de Visão-Linguagem e Geração de Vídeo
Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

May 27

ByHaozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin

A inteligência espacial requer representações visuais que capturem tanto objetos semânticos quanto a estrutura geométrica do mundo físico. Para apoiar isso, dois grandes esquemas de pré-treinamento são hoje amplamente utilizados como backbones fundamentais: Modelos Visão-Linguagem (MVLs), que usam supervisão de linguagem para alinhar observações visuais com conceitos semânticos, e Modelos de Geração de Vídeo (MGVs), que aprendem a partir de mundos visuais em evolução temporal. No entanto, ainda não está claro qual esquema de pré-treinamento fornece um substrato de representação mais adequado para a inteligência espacial. Neste artigo, apresentamos o primeiro estudo sistemático de sondagem de características congeladas de MVLs e MGVs em três eixos representativos da inteligência espacial: rotulagem semântica, agrupamento de instâncias e predição de geometria 3D. Utilizando uma sonda leve, nossa estrutura permite uma comparação controlada de quais informações já estão codificadas em representações congeladas provenientes das duas famílias de modelos. Os resultados experimentais revelam uma clara complementaridade: MVLs são mais fortes em rotulagem semântica e agrupamento de instâncias, enquanto MGVs fornecem sinais mais acessíveis para geometria densa e movimento de câmera. Além disso, uma fusão ingênua dos dois já produz uma representação que se destaca tanto em geometria quanto em semântica, sugerindo um caminho promissor para construir backbones de inteligência espacial mais robustos por meio da integração eficaz de características de ambas as famílias de modelos. Nosso código está disponível em https://github.com/om-ai-lab/Probing-VLM-VGM.

Mascarar Observações Obsoletas Ajuda Agentes de Busca – Até Que Não Ajuda: Um Mapa de Regime e Seu Mecanismo
Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

May 29

ByHaoxiang Zhang, Qixin Xu, Zhuofeng Li, Lei Zhang, Pengcheng Jiang, Yu Zhang, Julian McAuley

Agentes de busca de longo horizonte acumulam grandes quantidades de conteúdo recuperado ao longo de muitas chamadas de ferramentas, tornando a eficiência do orçamento de contexto cada vez mais importante. Uma intervenção mínima é mascarar observações obsoletas do contexto à medida que a trajetória progride, mas ainda não está claro quando essa forma de gerenciamento de contexto ajuda e por quê. Estudamos o mascaramento de observações por meio de uma varredura sistemática sobre vários backbones de agentes (de 4B a 284B parâmetros) e três recuperadores em benchmarks de busca agentiva offline e na web ao vivo. Descobrimos que o ganho de precisão do mascaramento segue uma forma de U invertido assimétrica quando plotado contra a precisão do modelo sem gerenciamento de contexto: um platô sob recuperadores fracos, um pico quando um recuperador forte encontra um modelo de capacidade média e um colapso abrupto quando o modelo está saturado. Esse padrão reflete a interação entre a revocação do recuperador e a capacidade de filtragem implícita do modelo, em vez de qualquer fator isoladamente. Mecanicamente, o mascaramento implementa uma troca de tokens por turnos: ele remove observações nas quais o modelo deixou amplamente de prestar atenção e páginas que o agente raramente reabre. Os turnos adicionados ajudam quando convertem falhas em sucessos, mas falham quando o mascaramento remove evidências que o modelo teria usado de outra forma. Portanto, reformulamos o gerenciamento de contexto como uma intervenção dependente de regime e fornecemos uma perspectiva holística para analisar o uso de contexto em busca agentiva profunda. Disponibilizamos nosso arcabouço e trajetórias aqui (https://github.com/i-DeepSearch/observation-masking) para apoiar pesquisas futuras.

ESPO: Otimização de Política Proximal com Parada Antecipada
ESPO: Early-Stopping Proximal Policy Optimization

May 28

ByZihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye

Quando um modelo de linguagem de grande escala submetido a aprendizagem por reforço comete uma etapa de raciocínio incorreta no início de uma trajetória, os algoritmos padrão o obrigam a continuar gerando até o horizonte máximo, gastando computação em tokens que nunca recebem recompensa positiva e poluindo as estimativas de vantagem com ruído pós-falha. Propomos ESPO (Proximal Policy Optimization com Parada Antecipada), que detecta falhas na trajetória em tempo real e encerra as rolagens (rollouts) precocemente. A cada etapa de geração, o ESPO calcula um arrependimento substituto usando apenas os logits já computados durante a amostragem e interrompe a geração quando o arrependimento cumulativo suavizado excede significativamente seus valores estimados. Trajetórias truncadas são tratadas como estados de falha absorventes com uma recompensa terminal, concentrando erros negativos de diferença temporal (TD) próximos à etapa de falha detectada, sem exigir qualquer modelo de recompensa adicional ou anotação humana. No DeepSeek-R1-Distill-Qwen-7B treinado para raciocínio matemático, o ESPO supera o PPO no AIME 2024 (46,28% vs. 45,25%), no AMC 2023 (85,83% vs. 82,94%) e no MATH-500 (87,42% vs. 85,43%), economizando mais de 20% dos tokens de rolagem cumulativamente.

Quando o Aprendizado por Reforço Multiagente Melhora os Fluxos de Trabalho com LLMs? Compensações entre Fluxo de Trabalho, Escala e Compartilhamento de Políticas
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

May 22

ByYifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang

Fluxos de trabalho de LLM multiagente roteiam inferência por meio de papéis especializados para aumentar a precisão da tarefa final, mas o treinamento conjunto desses papéis com aprendizado por reforço é instável de maneiras pouco compreendidas. Estudamos quando o treinamento RL ponta a ponta de fluxos de trabalho de LLM multiagente melhora em relação aos seus modelos base, comparando o treinamento de Política Compartilhada, onde todos os papéis atualizam uma política, com o treinamento de Política Isolada, onde cada papel tem seus próprios parâmetros. Nossa matriz experimental abrange fluxos de trabalho Eval-Opt, Voting e Orch-Workers, tarefas de matemática e código, e três escalas de modelo (0,6B, 1,7B, 4B). Descobrimos que o RL multiagente geralmente melhora em relação aos modelos base, mas os ganhos dependem conjuntamente do fluxo de trabalho, da tarefa e da escala, não apenas do compartilhamento de políticas. A Política Isolada tende a atingir maior precisão de pico, mas com mais frequência cai de um penhasco terminal de precisão, enquanto o treinamento de Política Compartilhada não elimina falhas; ele redistribui as falhas em padrões qualitativamente diferentes. Em seguida, explicamos o mais forte desses padrões por meio de dinâmicas de gradiente no nível do papel induzidas pela topologia do fluxo de trabalho e pelo roteamento de políticas: sob Política Isolada, agentes paralelos do mesmo papel em prompts compartilhados amplificam os gradientes por papel e impulsionam a degradação terminal em fluxos de trabalho Voting e Orch-Workers; sob Política Compartilhada, a massa de gradiente assimétrica por etapa faz com que a política compartilhada seja capturada pelo papel dominante, produzindo assinaturas de falha diferentes por tarefa e fluxo de trabalho. Juntos, o mapa empírico e seus mecanismos subjacentes mostram que o compartilhamento de políticas roteia a pressão de treinamento por meio de canais diferentes, em vez de oferecer estabilidade uniforme, tornando-o uma escolha de projeto com tradeoffs condicionais ao fluxo de trabalho e à tarefa.

MCP-Persona: Avaliação Comparativa de Agentes LLM em Aplicações Pessoais do Mundo Real por Meio de Simulação de Ambiente
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

Jun 1

ByWenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

O Protocolo de Contexto de Modelo (MCP) emergiu como um padrão transformador para conectar grandes modelos de linguagem (LLMs) a fontes de dados e ferramentas externas, e tem sido rapidamente adotado em aplicações pessoais e plataformas de desenvolvimento. No entanto, os benchmarks existentes focam predominantemente em ferramentas genéricas de busca de informações e não capturam os desafios práticos impostos por aplicações sociais pessoais, onde as ferramentas interagem com contas individuais ou bancos de dados locais. Para preencher essa lacuna crítica, introduzimos o MCP-Persona, o primeiro benchmark especificamente projetado para avaliar o desempenho de agentes em ferramentas MCP personalizadas do mundo real. O MCP-Persona abrange um conjunto diversificado de aplicações amplamente utilizadas, desde plataformas de mídia social como Reddit e Xiaohongshu (Rednote) até suítes de colaboração empresarial como Lark (Feishu) e Slack. Nossos extensos experimentos com vários agentes de estado da arte (SOTA) demonstram suas dificuldades significativas com o uso de ferramentas personalizadas, destacando assim o papel crucial do benchmark em identificar e abordar essas limitações. O MCP-Persona está disponível publicamente em https://github.com/wwh0411/MCP-Persona.

LVSA: Atenção Esparsa Sem Treinamento para Difusão de Vídeos Longos
LVSA: Training-Free Sparse Attention for Long Video Diffusion

May 29

ByGael Glorian, Ioannis Lamprou, Zhen Zhang, Yujie Yuan, Hongsheng Liu

A auto-atenção densa é o gargalo computacional e de qualidade da inferência de difusão de vídeos longos: o custo cresce quadraticamente com o comprimento da sequência e, além do horizonte de treinamento, o modelo converge para uma saída quase estática, ou seja, um vídeo repetitivo "congelado". As abordagens de ponta são muito caras, por exemplo, requerem retreinamento, ou não conseguem atender aos objetivos de desempenho e qualidade de forma escalável. Para isso, apresentamos a Atenção Esparsa de Vídeo Longo (do inglês, *Long Video Sparse Attention*, LVSA), uma atenção bloco-esparsa independente de modelo e sem necessidade de treinamento para transformadores de difusão de vídeo, que combina um padrão de janela estruturado com âncoras globais rotativas, eliminando assim o viés de grade fixa que causa artefatos temporais de longo alcance. A LVSA, combinada com um kernel FlashInfer, reduz o custo computacional em até 3,17x no Wan 2.1 1.3B em um horizonte 6x, 2,98x no Wan 2.1 14B em um horizonte 6x e 3,33x no HunyuanVideo 1.5 em um horizonte 1,5x, em comparação com a atenção densa. Além de reduzir o custo computacional, a LVSA permite a geração do HunyuanVideo 1.5 em um horizonte 2x, o que, de outra forma, extrapolaria a memória em uma única GPU. Ademais, a LVSA proporciona acelerações de até 2,41x em comparação com o RIFLEx e 3,27x em comparação com o UltraViCo no Wan 2.1 1.3B. Para demonstrar a aplicabilidade em diversas plataformas, aplicamos a LVSA em NPUs e obtivemos acelerações de até 2,71x no Wan 2.2 A14B e 3,24x no Wan 2.1 1.3B em comparação com a atenção densa. Para avaliar a qualidade de forma justa, apresentamos o VQeval, uma ferramenta que pontua adequadamente falhas de vídeo repetitivas (*loopy*), as quais, em contrapartida, são recompensadas em avaliadores de ponta como o VBench-Long. A LVSA é neutra em termos de qualidade para geração no comprimento do horizonte de treinamento e positiva em termos de qualidade para comprimentos estendidos.

Aprendizagem Conjunta de Memória do Agente e Exploração via Sinais de Novidade
Joint Agent Memory and Exploration Learning via Novelty Signals

Jun 1

ByShizuo Tian, Xiaohong Weng, Rui Kong, Yuxuan Chen, Guohong Liu, Yuebing Song, Jiacheng Liu, Yuchen Li, Dawei Yin, Ting Cao, Yunxin Liu, Yuanchun Li

Em ambientes abertos, a exploração é fundamental para agentes autônomos, mas os agentes atuais baseados em modelos de linguagem têm dificuldade com isso. Uma exploração eficaz requer memória, porém reter históricos brutos de interação é computacionalmente caro ao longo de trajetórias longas. Embora a memória latente ofereça uma solução para comprimir históricos de interação, seu treinamento carece de sinais de supervisão confiáveis. Apresentamos o Joint Agent Memory and Exploration Learning (JAMEL), uma estrutura que treina conjuntamente a memória do agente e a política de exploração por meio de interação orientada por novidade. Observamos que memória e exploração formam um ciclo mutuamente dependente: a exploração sustentada requer memória para distinguir comportamentos esgotados dos não vistos, enquanto a interação em busca de novidade fornece a supervisão necessária para tornar a memória útil para explorações futuras. Ao utilizar sinais de novidade determinísticos e persistentes, como cobertura de código no domínio de GUI, fornecemos supervisão natural e sem anotação para o módulo de memória. Avaliações empíricas demonstram que o \ours generaliza com sucesso para ambientes não vistos. Sua capacidade de exploração supera as linhas de base de pesos abertos e rivaliza com a profundidade de exploração de um modelo de código fechado, ao mesmo tempo que reduz o consumo de tokens. Nosso código e modelo estão disponíveis como código aberto em https://github.com/MobileLLM/JAMEL.

LongLive-RAG: Uma Estrutura Geral Aumentada por Recuperação para Geração de Vídeos Longos
LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

Jun 1

ByQixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen

A difusão de vídeo autorregressivo (AR) permite a síntese de duração variável, mas a geração de horizontes longos frequentemente sofre com erros acumulados e desvio de identidade. Para eficiência, métodos existentes comumente adotam atenção de janela deslizante durante a geração. Isso cria uma trajetória de geração irreversível: uma vez que a janela ativa acumula erros de aparência, as gerações subsequentes só podem condicionar-se a essa trajetória degradada e desviar-se ainda mais. Abordamos essa limitação formulando a geração de vídeos longos como um problema de geração aumentada por recuperação (RAG). Em vez de depender apenas da janela recente, tratamos os latentes gerados anteriormente como um histórico dinâmico e pesquisável. Propomos o LongLive-RAG, uma estrutura de recuperação geral para geração de vídeo AR. Em cada novo bloco, o LongLive-RAG usa uma incorporação de consulta para recuperar latentes históricos relevantes. Essa etapa leve de recuperação adiciona apenas uma pequena sobrecarga em relação à geração e permite que o gerador se condicione a contexto não local, em vez de apenas à janela recente. Para tornar a recuperação mais discriminativa, introduzimos a Perda de Delta Temporal da Janela, que suprime a similaridade local redundante e incentiva as incorporações a capturar mudanças temporais significativas. Juntos, esses componentes ajudam a reduzir o acúmulo de erros causado pela atenção de janela deslizante. Experimentos em múltiplos backbones AR e comprimentos de geração mostram melhoria na qualidade de vídeos longos e a melhor classificação média no VBench-Long. Até onde sabemos, entre os métodos abertos de geração de vídeo longo AR, o LongLive-RAG é o primeiro a formular o histórico latente autogerado como memória de recuperação endereçável por conteúdo. O código está disponível em https://github.com/qixinhu11/LongLive-RAG.

Brain-IT-VQA: Dos Sinais Cerebrais às Respostas
Brain-IT-VQA: From Brain Signals to Answers

May 28

ByRoman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani

Decodificar o conteúdo visual de sinais de fMRI registrados enquanto uma pessoa visualiza imagens, e especificamente responder a perguntas sobre as imagens vistas, é um desafio de longa data. Embora avanços significativos tenham sido alcançados nos últimos anos na resposta visual a perguntas (VQA) a partir de fMRI, o desempenho ainda é limitado. Além disso, embora modelos recentes consigam fazer previsões cada vez mais precisas, eles raramente foram utilizados como ferramentas para compreender a estrutura das representações visuais no cérebro. Apresentamos o Brain-IT-VQA, uma estrutura para resposta visual a perguntas a partir de fMRI. Baseando-se no Brain Interaction Transformer (Brain-IT), nosso método decodifica tokens de linguagem a partir da atividade cerebral e os integra a um modelo de linguagem para responder a perguntas visuais. Nosso modelo supera substancialmente abordagens anteriores de legendagem e VQA baseadas em fMRI. Introduzimos ainda o NSD-VQA, um novo conjunto de dados e referência para resposta visual a perguntas a partir de fMRI. Diferentemente dos conjuntos de dados existentes de VQA imagem-fMRI, que geralmente fornecem apenas algumas perguntas amplas e fracamente controladas por imagem, o NSD-VQA oferece, em média, 20 pares pergunta-resposta por imagem em 20 categorias de perguntas controladas que desagregam múltiplos níveis de compreensão visual. Isso possibilita uma avaliação mais confiável e interpretável, apesar dos dados limitados de teste de fMRI. Em conjunto, o Brain-IT-VQA e o NSD-VQA fornecem tanto uma estrutura preditiva robusta quanto uma ferramenta para estudar representações cerebrais. Utilizando essa referência, quantificamos quais formas de informação visual e semântica podem ser decodificadas de forma confiável a partir de respostas de fMRI a imagens naturais. Analisamos ainda as contribuições de diferentes regiões cerebrais entre os tipos de perguntas.

StreamChar: Geração de Áudio-Vídeo de Personagens em Streaming de Longo Horizonte com Orquestração Desacoplada
StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

May 25

ByLinrui Tian, Qi Wang, Bang Zhang

Geração conjunta de áudio e vídeo em streaming em tempo real para animação de personagens requer que um gerador fale a transcrição solicitada, mantenha a identidade visual entre segmentos e opere dentro de um orçamento estrito de reprodução. Esses requisitos são difíceis de satisfazer simultaneamente: a geração autoregressiva segmento a segmento pode acumular desalinhamento entre transcrição e áudio e deriva visual, enquanto a destilação de poucos passos necessária para baixa latência frequentemente degrada a diversidade espacial e a qualidade temporal. Apresentamos o StreamChar, um framework de streaming que separa a orquestração de longo horizonte do denoising de áudio e vídeo em janela curta. Um orquestrador baseado em LLM utiliza a transcrição e o contexto histórico para produzir condições de áudio alinhadas aos quadros, e um DiT conjunto de áudio e vídeo realiza denoising bidirecional local com condicionamento de referência e quadro de movimento. Para implantação eficiente, utilizamos um pipeline de destilação em dois estágios que primeiro comprime o amostrador e depois ajusta finamente o aluno sob execuções de segmentos online. Um ponteiro ciente do progresso alinha transcrições parciais com áudio gerado durante o treinamento de rollout, e uma memória de segmento âncora fornece uma âncora visual persistente para reduzir a deriva de longo horizonte. Experimentos em protocolos de clipe curto e longo horizonte mostram que o StreamChar opera em tempo real em uma única GPU H100 e oferece um trade-off favorável em nível de sistema entre fidelidade da transcrição, sincronização audiovisual, qualidade visual e estabilidade de streaming em comparação com baselines conjuntos e orientados por áudio recentes.

Habilidade Não é Tamanho Único: Alinhamento de Habilidades Consciente do Modelo para Agentes LLM
Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

May 29

ByJianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li

Agentes LLM cada vez mais recuperam habilidades externamente curadas—instruções processuais recuperadas no momento da decisão—para melhorar o desempenho em tarefas interativas de horizonte longo. Bibliotecas de habilidades existentes são tipicamente tratadas como agnósticas em relação ao modelo, reutilizando as mesmas formulações de habilidades em diferentes backbones com capacidades e comportamentos substancialmente distintos. No entanto, nossos experimentos controlados em múltiplas escalas de modelo mostram que a eficácia das habilidades é fortemente dependente do modelo: uma habilidade que beneficia um backbone pode prejudicar outro. Motivados por essa observação, propomos o MASA (Model-Aware Skill Alignment), uma estrutura que adapta habilidades a cada backbone alvo sem modificar os pesos do agente. O MASA opera em dois estágios: (1) um pipeline hierárquico de evolução de habilidades que reescreve iterativamente habilidades gerais e específicas de tarefas usando hill climbing e busca em árvore orientada por UCB, guiado por feedback do ambiente e perfis de capacidade do modelo; e (2) um reescritor de habilidades leve e condicionado ao modelo, treinado em trajetórias de evolução para reproduzir a adaptação em uma única passagem direta. Experimentos em três ambientes interativos e quatro backbones mostram que o MASA atinge consistentemente o melhor desempenho geral, com ganhos de até 25,8 pontos sobre a linha de base mais forte. O reescritor aprendido ainda generaliza para tarefas e ambientes não vistos sem busca adicional, superando consistentemente um LLM professor muito maior a uma fração do custo de inferência.

OpenWebRL: Desmistificando o Aprendizado por Reforço Online de Múltiplas Etapas para Agentes Web Visuais
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

Jun 1

ByRui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

Construir agentes visuais web capazes requer raciocínio de longo horizonte, fundamentação precisa e interação robusta com sites dinâmicos do mundo real. Apesar do rápido progresso, os sistemas mais fortes permanecem amplamente proprietários, enquanto os agentes abertos ainda dependem fortemente de pós-treinamento supervisionado sobre grandes coleções de trajetórias web curadas. Essa dependência cria um gargalo de escalabilidade significativo: demonstrações de alta qualidade são caras de coletar, e conjuntos de dados estáticos oferecem cobertura limitada da web aberta diversa e em constante mudança. Embora o RL online tenha se mostrado promissor para agentes baseados em texto, seu potencial para treinar agentes visuais web diretamente em sites ao vivo permanece amplamente inexplorado. Neste artigo, apresentamos o OpenWebRL, uma estrutura aberta para treinar agentes visuais web com RL online multiturno em sites reais. O OpenWebRL abrange todo o pipeline de treinamento, incluindo infraestrutura escalável de navegador ao vivo, inicialização supervisionada, gerenciamento de contexto multimodal, avaliação de sucesso em nível de trajetória e otimização eficiente de políticas multiturno. Utilizando essa estrutura, treinamos o OpenWebRL-4B, que estabelece um novo estado da arte de código aberto em benchmarks web ao vivo desafiadores. Com apenas 0,4 mil trajetórias de inicialização e 2,2 mil tarefas de treinamento RL abertas, o OpenWebRL-4B atinge 67,0% de sucesso no Online-Mind2Web e 64,0% no DeepShop, superando agentes abertos anteriores de escala similar ou maior e mantendo-se competitivo com sistemas proprietários, incluindo OpenAI CUA e Gemini CUA. Além do forte desempenho em benchmarks, estudamos sistematicamente as principais escolhas de design que tornam o RL online eficaz para agentes visuais web e analisamos como o RL melhora o raciocínio agentivo. No geral, nosso trabalho oferece um caminho prático para construir agentes web abertos mais capazes, reproduzíveis e econômicos. Disponibilizaremos nossos dados de treinamento, modelos e código para apoiar pesquisas futuras.

Decodificação Especulativa em Pipeline: Maior Precisão e Especulação Sem Bolhas via Paralelismo de Pipeline
Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

May 29

ByYijiong Yu, Huazheng Wang, Shuai Yuan, Ruilong Ren, Ji Pei

A Decodificação Especulativa (Speculative Decoding, SD) acelera a inferência de LLMs com baixa concorrência por meio de um paradigma de rascunho e verificação. No entanto, os métodos convencionais geralmente dependem da predição de múltiplos tokens, o que introduz dificuldade crescente de predição e latência de elaboração serial. Para resolver esses problemas, propomos a Decodificação Especulativa em Pipeline (Speculative Pipeline Decoding, SPD), uma estrutura inovadora que desbloqueia o verdadeiro potencial do paralelismo de pipeline. Ao particionar o LLM alvo em n estágios de pipeline, o SPD permite que o LLM processe n tokens em paralelo para acelerar a decodificação. Para preencher continuamente o pipeline na decodificação de sequência única, um módulo de especulação agrega características intermediárias em diferentes profundidades de pipeline para prever o próximo token, executando estritamente em paralelo com a etapa de pipeline do modelo alvo, a fim de obter dificuldade limitada, taxas de aceitação mais altas e bolhas de latência zero. Nossos experimentos demonstram que o SPD atinge um ganho de velocidade teórico significativamente maior em comparação com as linhas de base convencionais, oferecendo uma solução altamente escalável para a aceleração da decodificação de LLMs. Nosso código está disponível em https://github.com/yuyijiong/speculative_pipeline_decoding.

Co-treinamento de Política e Modelagem do Mundo para Agentes de Linguagem
Policy and World Modeling Co-Training for Language Agents

Jun 1

ByNing Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

A aprendizagem por reforço (RL) melhora agentes baseados em modelos de linguagem de grande porte (LLMs) ao ensinar quais ações geram altas recompensas, mas fornece pouca supervisão sobre o que essas ações causam no ambiente. A modelagem de mundo (WM) pode preencher essa lacuna, porém abordagens existentes frequentemente exigem simuladores separados, etapas adicionais de treinamento ou computação extra durante a inferência. Observamos que os rollouts de RL on-policy já contêm o sinal necessário: cada transição emparelha uma ação com a observação resultante subsequente. Com base nessa observação, propomos PaW, uma estrutura de co-treinamento de política e modelagem de mundo que adiciona supervisão auxiliar de WM à mesma política durante a RL, sem alterar o paradigma de inferência. Para tornar a supervisão auxiliar de WM informativa e estável, o PaW introduz três componentes: seleção de dados de WM baseada em entropia de ação, perda de WM tolerante a ruído e balanceamento adaptativo de perda baseado em recompensa. Experimentos em três conjuntos de tarefas agentivas mostram melhorias consistentes em relação a fortes linhas de base de RL em diferentes modelos e algoritmos de RL. Esses resultados sugerem que rollouts padrão de RL são uma fonte prática de supervisão de WM para o treinamento de agentes linguísticos.

AFUN: Rumo a um Modelo Fundamental de Affordância para a Compreensão de Funcionalidade
AFUN: Towards an Affordance Foundation Model for Functionality Understanding

Jun 1

ByZhaoning Wang, Yi Zhong, Jiawei Fu, Henrik I. Christensen, Jun Gao

A compreensão de affordances conecta a percepção visual à ação física, servindo como uma interface explicável para a manipulação robótica em ambientes reais abertos e não estruturados. No entanto, construir um modelo fundamental de affordances que não apenas entenda onde e como a interação deve ocorrer, mas também generalize entre diversos ambientes, objetos e tarefas, continua sendo um desafio de pesquisa de longa data. Métodos existentes geralmente abordam apenas parte desse desafio, seja localizando regiões relevantes para a tarefa sem especificar movimentos executáveis, seja prevendo movimentos com escalabilidade limitada. Neste artigo, apresentamos o *ourmodel*, um passo em direção a um modelo fundamental de affordances para compreensão de funcionalidades. A partir de uma única observação RGB-D e uma descrição de tarefa em linguagem, o *ourmodel* prevê uma máscara funcional condicionada à tarefa (onde interagir) e uma curva de movimento 3D pós-contato (como interagir). Para apoiar a generalização em mundo aberto, construímos um pipeline de dados padronizado em larga escala que converte dados heterogêneos de robôs, humanos, simulações e escaneamentos do mundo real em um esquema compartilhado de affordances com linguagem, máscaras e rótulos de movimento 3D centrados no objeto. Avaliamos o *ourmodel* em três aspectos: para segmentação de affordances, o *ourmodel* supera todas as linhas de base com grande margem em 8 conjuntos de teste de 4 benchmarks, melhorando a média gIoU/cIoU em +23,9/+26,3; para previsão de pontos de contato, ele prevê pontos substancialmente mais precisos, com um ganho de taxa de acerto de 12,7–61,3% sobre a melhor linha de base; e para movimento 3D, alcança o melhor desempenho em todos os três conjuntos de teste. O *ourmodel* pode ser implantado para manipulação robótica em mundo real sem ajuste fino para a corporeidade do robô ou uso de heurísticas específicas de tarefa, demonstrando a capacidade de se adaptar a tarefas de affordances em mundo aberto. Página do projeto: https://www.zhaoningwang.com/AFUN

Habilidades de agente devem ir além do texto: o caso das habilidades visuais
Agent Skills Should Go Beyond Text: The Case for Visual Skills

May 31

ByBinxiao Xu, Ruichuan An, Bocheng Zou, Hang Hua

Habilidades reutilizáveis são um mecanismo chave para expandir as capacidades de agentes, permitindo-lhes acumular experiência e resolver tarefas cada vez mais complexas. No entanto, a maioria dos métodos existentes de aprendizado de habilidades armazena experiência reutilizável exclusivamente como ativos textuais, como instruções, traços de raciocínio ou trajetórias resumidas. Argumentamos que esse paradigma exclusivamente textual cria um gargalo fundamental para tarefas centradas em visão, onde o conhecimento reutilizável frequentemente depende de layout espacial, ancoramento visual, aparência refinada e mudanças de estado localizadas. Para superar essa limitação, propomos \NAME, um paradigma de habilidade multimodal que combina lógica textual declarativa com suporte visual explícito. Distinguimos três formas reutilizáveis: priores estáticos para convenções espaciais estáveis, priores dinâmicos para memória de trabalho visual in situ, e habilidades visuais intercaladas que vinculam etapas textuais ordenadas aos quadros de origem, capturas de tela ou regiões de página que as justificam. Em vez de apenas descrever o que fazer, as habilidades visuais também codificam onde olhar, como inspecionar e como verificar resultados visuais. Para escalar a construção de habilidades visuais, introduzimos \SYSTEM, um sistema automático que converte experiência do agente em habilidades multimodais reutilizáveis, preservando raciocínio textual, referências espaciais, limites visuais e padrões de interação das trajetórias das tarefas. Experimentos em GUI e outras tarefas centradas em visão mostram que habilidades visuais superam consistentemente habilidades exclusivamente textuais, particularmente quando o sucesso requer correspondência espacial, evidência visual e interação ciente do estado. Esses resultados sustentam nossa posição central: habilidades reutilizáveis de agentes devem ir além do texto e se tornar ativos multimodais para futuros agentes multimodais.

RoboStressBench: Avaliação comparativa da robustez do VLM a estresse visual físico em cenas corporizadas
RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

May 30

ByLeyi Wu, Yifan Zhao, Jinjie Zhang, Suzeyu Chen, Wosong Chen, Zhifei Chen, Tianshuo Xu, Qingchun He, Hongxin Hu, Haojian Huang, Yangkai Wei, Wenqian Li, Yinchuan Li, Ying-Cong Chen

Modelos de Visão-Linguagem (VLMs) demonstram forte compreensão visual e estão cada vez mais empregados em sistemas de IA incorporada, onde a percepção confiável sob condições reais é essencial. No entanto, os referenciais existentes avaliam VLMs utilizando imagens limpas ou perturbações isoladas, em vez de tensões causadas pela formação de cenas físicas. Esse projeto apresenta duas limitações: abrange apenas um subconjunto restrito de tensões visuais cotidianas, e algumas perturbações raramente aparecem em cenas incorporadas realistas. Essa lacuna levanta uma questão fundamental: como definir estresse visual de forma fundamentada que capture os diversos fatores encontrados em ambientes físicos? Para abordar essa questão, formulamos a percepção visual a partir de uma perspectiva de gráficos inversos e introduzimos o RoboStressBench, um referencial para avaliar a robustez de VLMs ao estresse visual físico em cenas incorporadas. Inspirado pela equação de renderização física, o RoboStressBench decompõe o estresse visual em quatro dimensões fisicamente fundamentadas: Material (M), Ponto de Vista (V), Iluminação (L) e Geometria (G). Esse projeto permite que o RoboStressBench cubra uma ampla gama de estresses visuais em ambientes do mundo real, ao mesmo tempo que possibilita uma análise controlada de seus efeitos sobre capacidades dos VLMs, como reconhecimento visual, raciocínio e planejamento. Por meio de avaliações abrangentes de VLMs de última geração, identificamos modos de falha específicos a cada estresse e revelamos que diferentes fatores físicos degradam diferentes capacidades incorporadas, frequentemente obscurecidas pela precisão agregada. Introduzimos ainda um solucionador agentivo consciente de estresse que detecta estressores visuais e invoca habilidades de edição visual antes do raciocínio, melhorando a robustez em cenários de alto estresse. No geral, o RoboStressBench fornece um referencial de avaliação fundamentado para diagnosticar e melhorar a percepção de VLMs sob estresse físico do mundo real, apoiando o desenvolvimento de sistemas de IA incorporada mais confiáveis.

PARCEL: Reamostragem Ancorada em Pool com Consultas Elásticas Condicionadas para Compreensão Eficiente Visão-Linguagem
PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

May 28

BySelim Kuzucu, Alessio Tonioni, Vasile Lup, Bernt Schiele, Federico Tombari, Muhammad Ferjad Naeem

Grandes Modelos de Visão-Linguagem (GMVLs) mapeiam entradas visuais em sequências densas de tokens, impondo um gargalo computacional quadrático para inferência. A compressão elástica de tokens visuais aborda esse problema treinando um único modelo que pode operar com múltiplos orçamentos de tokens visuais. No entanto, as abordagens existentes enfrentam dificuldades sob compressão agressiva. A compressão apenas espacial, como no pooling aninhado, comporta-se como um filtro passa-baixas imperfeito e induz aliasing espectral que obscurece detalhes finos. A compressão apenas de consulta, como na reamostragem de consultas aninhada, substitui tokens alinhados à grade explícita por sumários não locais e degrada substancialmente a ancoragem espacial. Para resolver esse conflito representacional, apresentamos o PARCEL (Reamostragem Ancorada em Pool com Consultas Elásticas Condicionadas para Compreensão Eficiente de Visão-Linguagem), uma arquitetura de tokenização visual que particiona dinamicamente o trabalho de extração de características. O PARCEL estabelece tokens de pool espaciais como âncoras de layout de baixa frequência e condiciona tokens de consulta elásticos a essas âncoras por meio da Reamostragem de Consultas Condicionada ao Pool. Isso incentiva os tokens de consulta a focar em características visuais complementares, em vez de mapeamento espacial redundante. Avaliações extensivas em 27 benchmarks mostram que o PARCEL melhora a fronteira de Pareto de desempenho-eficiência, superando consistentemente as linhas de base matrioshka existentes em diferentes orçamentos de tokens visuais, preservando ao mesmo tempo o paradigma "treine uma vez, implante em qualquer lugar".

MineExplorer: Avaliando a Exploração em Mundo Aberto de Agentes MLLM no Minecraft
MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

May 29

ByTianjie Ju, Yueqing Sun, Zheng Wu, Wei Zhang, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Gongshen Liu, Zhuosheng Zhang

Modelos de linguagem grandes multimodais (MLLMs) demonstram capacidades robustas em percepção, raciocínio e geração de ações. No entanto, sua capacidade de sustentar exploração em mundos abertos dinâmicos ainda não está clara. Benchmarks incorporados e baseados em jogos existentes frequentemente comprimem a interação em tarefas de horizonte curto ou misturam o sucesso com mecânicas de jogo específicas do domínio. Neste artigo, apresentamos o benchmark MineExplorer para avaliar as capacidades de exploração em mundo aberto de agentes MLLM no Minecraft. Primeiro, filtramos tarefas atômicas cujas soluções dependem fortemente de conhecimento específico do Minecraft para melhor refletir o raciocínio geral em mundo aberto. Em seguida, organizamos o benchmark em torno de uma formulação de capacidade no estilo ReAct e compomos tarefas atômicas em tarefas implícitas de múltiplos saltos. Para construir instâncias confiáveis, o MineExplorer utiliza um fluxo de trabalho de síntese multiagente que projeta conjuntamente gráficos de tarefas, cenários em sandbox e avaliadores de marcos baseados em regras. A avaliação humana mostra que o fluxo de trabalho de síntese multiagente produz instâncias significativamente mais confiáveis do que uma linha de base de agente único. Experimentos com agentes MLLM avançados mostram que a exploração em mundo aberto continua desafiadora, pois modelos robustos lidam com muitas tarefas de salto único, mas degradam-se acentuadamente quando pré-requisitos ocultos precisam ser coordenados ao longo de trajetórias mais longas. Análises adicionais revelam que a dificuldade da tarefa acompanha a conclusão do agente, e modelos maiores ou modos de raciocínio não se traduzem consistentemente em melhor desempenho. Código e conjunto de dados estão disponíveis em https://github.com/Jometeorie/MineExplorer.

RoboSemanticBench: Diagnóstico da Ancoragem Semântica na Predição de Ações para Modelos VLA
RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

Jun 1

ByBin Yu, Yao Zhang, Haishan Liu, Shijie Lian, Yuliang Wei, Xiaopeng Lin, Zhaolong Shen, Changti Wu, Ruina Hu, Bailing Wang, Cong Huang, Kai Chen

Modelos de visão-linguagem-ação (VLA) são construídos sobre a premissa de que a compreensão semântica proveniente de backbones de linguagem ou visão-linguagem pré-treinados deve guiar a predição de ações robóticas. No entanto, o ajuste fino robótico é otimizado como imitação sobre distribuições de ações específicas da tarefa, e muitas avaliações podem ser resolvidas por meio de atalhos visuais ou de instrução-ação. Apresentamos o RoboSemanticBench (RSB), um benchmark incorporado para diagnosticar a fundamentação semântica na predição de ações: se modelos VLA pós-treinados conseguem usar a semântica complexa de instruções para selecionar e manipular o alvo físico correto. Em cada episódio, um robô recebe uma pergunta de múltipla escolha de matemática ou conhecimento geral, observa blocos de respostas candidatas e deve agarrar o bloco correspondente à resposta correta. O RSB abrange aritmética controlada, compreensão matemática de nível escolar básico e compreensão de senso comum ou factual em suítes de quatro e dez escolhas. Através de modelos VLA representativos, descobrimos que muitas políticas aprendem a agarrar blocos candidatos, mas selecionam o bloco semanticamente correto em taxas próximas ao aleatório ou abaixo dele, após controlar pelo sucesso da ação de agarrar, revelando uma lacuna persistente entre a competência semântica no nível do backbone e a predição de ações.

LLMs Prontos para Uso como Avaliadores de Processo: Alternativa sem Treinamento aos PRMs para Raciocínio Matemático
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Jun 1

ByAtoosa Chegini, Soheil Feizi

Selecionar a melhor resposta a partir de múltiplas amostras de um modelo pequeno usando um avaliador mais forte é uma estratégia simples em tempo de inferência, mas falha quando o modelo pequeno já se comprometeu com caminhos de raciocínio incorretos. A busca guiada por PRM evita isso ao pontuar continuações candidatas durante a geração, mas requer um modelo de recompensa treinado com rótulos no nível de etapa. Propomos a Geração Guiada por Nível de Bloco, uma alternativa sem treinamento que utiliza um modelo de linguagem grande disponível como avaliador de processo. A cada passo, um modelo pequeno amostra k blocos candidatos de comprimento fixo, enquanto o modelo maior pontua os candidatos usando verossimilhanças sem gerar nenhum texto. O bloco selecionado é comprometido antes do próximo passo, direcionando a geração antes que erros possam se propagar. Instanciamos este arcabouço com duas regras de seleção: Seleção Guiada por Verossimilhança (SGV), que seleciona o bloco com a maior log-probabilidade normalizada por comprimento do modelo grande, e Seleção Guiada por Contraste (SGC), que subtrai a log-probabilidade do modelo pequeno para favorecer blocos onde a preferência do modelo grande diverge da do modelo pequeno. Mostramos que pontuar passos de raciocínio de comprimento variável com verossimilhanças de modelos grandes é não confiável devido a um viés sistemático de comprimento que persiste mesmo após a normalização por comprimento, e que blocos de comprimento fixo evitam essa confusão. Em GSM8K, MATH, Minerva Math, AMC23 e AIME24 com Qwen2.5-1.5B guiado por Qwen2.5-32B e Llama-3.2-1B guiado por Llama-3.1-70B, a SGC supera a votação majoritária em até 28 pp e, sob orçamentos de orientação equivalentes, iguala ou supera a busca guiada por Qwen2.5-Math-PRM-72B na maioria dos benchmarks sem treinamento de modelo de recompensa. Com Qwen2.5-7B guiado por Qwen2.5-72B, a SGC atinge 81,8% no MATH e 63,6% no Minerva Math com k=16, superando a votação majoritária em 4–6 pp. Finalmente, a Geração Guiada por Nível de Bloco produz traços de raciocínio substancialmente mais curtos do que a busca guiada por PRM.

Uso de Computador Multiagente
Multi-Agent Computer Use

Jun 1

ByJing Yu Koh, Ruslan Salakhutdinov, Daniel Fried

Hoje, os agentes de uso de computador (CUAs) são majoritariamente implantados como agentes seriais únicos. Essa configuração é subótima para tarefas complexas de horizonte longo, que se beneficiam da decomposição de tarefas, execução paralela e replanejamento consistente com base em novas informações. Neste artigo, argumentamos que devemos avançar em direção à avaliação e construção de sistemas multiagente de uso de computador (MACU). Esses sistemas, que enfatizam o planejamento e a execução paralela, aliviam muitas das limitações dos CUAs de agente único. Propomos uma configuração multiagente geral na qual um modelo gerente decompõe tarefas de uso de computador em um grafo acíclico dirigido (DAG), codificando dependências e metas relevantes para os subagentes. A cada iteração, o gerente despacha subagentes CUA paralelos para executar nós na fronteira pronta do DAG e revisa continuamente o DAG (adicionando, cancelando ou reescrevendo nós) à medida que novas descobertas chegam dos subagentes. Esse design trata o ambiente parcialmente observável do uso de computador como um desafio de primeira classe: informações que agentes downstream podem não conseguir reobservar são retidas e passadas adiante por meio do gerente e da estrutura do DAG. Demonstramos que o MACU melhora consistentemente bases fortes de agente único em 3,4–25,5% nos benchmarks de desktop (OSWorld) e navegação web (Online-Mind2Web, WebTailBench, Odysseys), exibe um escalonamento em tempo de teste mais favorável e resolve tarefas complexas de horizonte longo nas quais CUAs de agente único travam. No Odysseys, um benchmark de navegação web de horizonte longo, o MACU melhora o tempo médio real de conclusão de tarefas em aproximadamente 1,5 vezes, demonstrando sua eficácia em acelerar pipelines de CUA tradicionalmente lentos. Nossos achados destacam que a coordenação multiagente é um eixo promissor para escalar agentes de uso de computador a fim de trabalharem por mais tempo e de forma mais produtiva. Disponibilizamos todo o código e visualizações interativas em https://jykoh.com/multi-agent-computer-use.

SOCO: Avaliação Comparativa de Correspondência Semântica de Objetos em Modelos Fundamentais de Visão
SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

May 29

ByOlaf Dünkel, Basavaraj Sunagad, Haoran Wang, David T. Hoffmann, Christian Theobalt, Adam Kortylewski

Medir a compreensão de objetos estruturados em modelos de base de visão continua sendo desafiador devido a protocolos de avaliação inconsistentes e à supervisão limitada em nível de partes. A correspondência semântica (CS) avalia essa capacidade testando se partes de objetos podem ser associadas entre instâncias e categorias, sob grandes variações de aparência, ponto de vista e geometria. Para possibilitar uma avaliação sistemática de CS, apresentamos o SOCO, um novo benchmark para Correspondência Semântica de Objetos que introduz uma taxonomia de tipos de correspondência e fornece anotações de pontos-chave consistentes e funcionalmente significativas em 100 categorias e mais de 1 milhão de pares de correspondência. Além disso, o SOCO inclui descrições textuais dos pontos-chave, permitindo a avaliação de grandes modelos de visão e linguagem (LVLMs) e sua compreensão refinada em nível de partes. Experimentos abrangentes revelam que (i) backbones de modelos de base de visão codificam forte estrutura semântica, mas transferem mal as correspondências entre categorias relacionadas e capturam apenas parcialmente a posição das partes dos objetos; (ii) os LVLMs são mais robustos na localização de partes baseada em texto do que na correspondência entre imagens por referência visual, expondo uma lacuna entre a localização fundamentada em linguagem e a correspondência visual refinada; e (iii) o desempenho em correspondência prediz o desempenho em tarefas densas subsequentes — incluindo segmentação, rastreamento, estimativa de pose 3D e detecção 3D — de forma mais forte do que a classificação do ImageNet. Em conjunto, esses resultados posicionam o SOCO como um benchmark para a qualidade de representação estruturada em nível de partes em modelos de base de visão e multimodais.

Medindo a Profundidade do Esquecimento de LLMs via Patching de Ativação
Measuring the Depth of LLM Unlearning via Activation Patching

May 23

ByJaeung Lee, Dohyun Kim, Jaemin Jo

A desaprendizagem de modelos de linguagem de grande porte (LLMs) emergiu como um mecanismo pós-hoc crucial para proteção de privacidade e segurança de IA, no entanto, auditar se o conhecimento alvo foi verdadeiramente apagado permanece desafiador. As métricas existentes de nível de saída falham em detectar quando esse conhecimento permanece recuperável a partir de representações internas. Estudos recentes de caixa branca revelam esse conhecimento residual, mas frequentemente dependem de treinamento auxiliar ou adaptações específicas de conjunto de dados, não deixando uma métrica generalizável. Para abordar essas limitações, propomos o Unlearning Depth Score (UDS), uma métrica que quantifica a profundidade mecanicista da desaprendizagem via patching de ativação. O UDS primeiro identifica camadas que codificam o conhecimento alvo usando um modelo de retenção de linha de base, em seguida mede o quanto dele é apagado no modelo desaprendido em uma escala de 0 a 1. Em uma meta-avaliação com 20 métricas em 150 modelos desaprendidos abrangendo 8 métodos, o UDS alcança a maior fidelidade e robustez, confirmando nossa abordagem causal como a mais confiável para avaliação de desaprendizagem. Estudos de caso revelam ainda que métricas de caixa branca podem discordar no nível de camada e que a profundidade de apagamento varia entre exemplos. Fornecemos diretrizes para integrar o UDS em estruturas de benchmarking existentes e simplificar o pipeline de avaliação. Código e dados estão disponíveis em https://github.com/gnueaj/unlearning-depth-score.

HakushoBench: Um Benchmark de VQA para Gráficos e Tabelas Japonesas a partir de Livros Brancos Governamentais
HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

May 31

ByIssa Sugiura, Shuhei Kurita, Yusuke Oda, Naoaki Okazaki

Compreender imagens de gráficos e tabelas é essencial para aplicar modelos de visão-linguagem (VLMs) à compreensão de documentos no mundo real. Embora os benchmarks em inglês tenham avançado rapidamente, equivalentes em outros idiomas permanecem escassos, deixando incerto se esse progresso se generaliza entre línguas. Um obstáculo fundamental é a dificuldade de coletar imagens realistas e diversas de gráficos e tabelas em outros idiomas em grande escala. Para enfrentar isso, aproveitamos os white papers governamentais como uma fonte escalável para a construção de benchmarks além do inglês, pois eles contêm gráficos e tabelas naturalmente ocorrentes em diversos formatos e domínios, sendo livremente acessíveis em muitos países. Como primeira instanciação, apresentamos o HakushoBench, um desafiador benchmark de VQA (Visual Question Answering) para gráficos e tabelas em japonês, construído a partir de 33 white papers governamentais. O HakushoBench contém 2.053 imagens abrangendo mais de 10 tipos de imagem, com pares de perguntas e respostas anotados manualmente, projetados para avaliar a compreensão profunda e holística de gráficos e tabelas, em vez de apenas pistas visuais locais. Experimentos com uma ampla gama de VLMs demonstram que o HakushoBench continua desafiador para modelos de pesos abertos: o melhor modelo de pesos abertos alcança apenas 58,6% de precisão, e uma diferença de 34,9 pontos percentuais entre modelos de pesos abertos e proprietários destaca a necessidade substancial de melhorias na compreensão complexa de gráficos e tabelas. Disponibilizamos nosso conjunto de dados e código.

SVI-Bench: Um Micromundo Dinâmico para Inteligência Estratégica de Vídeo
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29

ByYulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius

A verdadeira inteligência de vídeo exige mais do que reconhecer o que é visível: requer raciocinar sobre por que os eventos se desenrolam, prever o que mudaria sob diferentes condições e decidir o que fazer a seguir. Referimo-nos a essa progressão, da percepção através do raciocínio causal e simulação até o planejamento estratégico, como Inteligência de Vídeo Estratégica (SVI, na sigla em inglês). Nenhum padrão de referência existente avalia essa pilha de capacidades: vídeos do mundo real carecem de ground truth verificável para perguntas causais e estratégicas, enquanto ambientes sintéticos sacrificam a complexidade dos sistemas multiagentes reais. Para preencher essa lacuna, apresentamos o SVI-Bench, um benchmark de grande escala que utiliza esportes coletivos como um micromundo dinâmico, combinando a complexidade da interação multiagente do mundo real (10 a 22 agentes tomando decisões coordenadas sob pressão adversária) com a verificabilidade de regras explícitas e resultados definitivos. O SVI-Bench compreende aproximadamente 35 mil horas de vídeo transmitido, 15 milhões de ações anotadas, 15 mil horas de comentários de especialistas, 23 mil relatórios de jogos e 103 mil registros estatísticos estruturados em basquete, futebol e hóquei, todos construídos por meio de um mecanismo de dados que transforma dados brutos de jogos em um corpus denso e com referências cruzadas. Organizamos a avaliação em 9 tarefas distribuídas em uma hierarquia progressiva de quatro pilares: Compreensão Dinâmica de Cena, Raciocínio Causal, Simulação Estratégica e Síntese Agencial. Ao avaliar bases de referência multimodais e agenciais robustas, encontramos um precipício de capacidade: os modelos têm desempenho competente em tarefas perceptivas, alcançando aproximadamente 73% em perguntas e respostas de ações refinadas, mas degradam-se acentuadamente em cada nível cognitivo sucessivo. As tarefas agenciais mostraram-se as mais difíceis: o modelo mais forte atinge apenas 5% de precisão quando precisa reunir e integrar evidências de forma autônoma em um corpus de 1,8 milhão de clipes.

FineVerify: Escalando a Computação em Tempo de Teste com Auto-Verificação de Granulação Fina para Busca Agentiva
FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

May 30

ByJames Xu Zhao, Hui Chen, Bryan Hooi, See-Kiong Ng

A busca agentiva exige que agentes de linguagem explorem múltiplas fontes e respondam a perguntas complexas de obtenção de informação. Ampliar a computação em tempo de teste é uma abordagem promissora para aprimorar esses agentes, mas as estratégias atuais podem falhar, pois respostas corretas são frequentemente esparsas e a seleção baseada em pontuação depende da calibragem do modelo. Propomos o FineVerify, uma estrutura de autoverificação de granularidade fina que decompõe cada pergunta em subquestões verificáveis, verifica candidatos amostrados em relação a cada subquestão e seleciona o candidato com a maior pontuação agregada. Essa estrutura por verificação transforma a seleção em julgamentos locais mais simples e produz pontuações sob os mesmos critérios explícitos. Em quatro referenciais de busca agentiva e dois modelos, o FineVerify supera consistentemente as linhas de base padrão de escalonamento. Com apenas quatro trajetórias amostradas, ele melhora o GPT-5-mini em 8,2 pontos de acurácia e o Gemini-3-flash em 5,6% em média. Com 12 amostras, o FineVerify permite que o GPT-5-mini supere o GPT-5 de fronteira no BrowseComp-Plus. Além da acurácia, o FineVerify produz traços de verificação interpretáveis que auxiliam na auditoria de erros nos referenciais, sugerindo aplicações mais amplas para inspeção de sistemas de busca agentiva. Código e dados estão disponíveis em https://github.com/XuZhao0/fineverify.

Falhas Silenciosas na IA Física: Uma Revisão da Literatura sobre Autorização de Ações em Tempo de Execução para Sistemas Autônomos
Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

May 23

ByBarak Or

Sistemas de IA Física estão cada vez mais mapeando observações multimodais, instruções em linguagem natural e representações aprendidas do mundo em ações com consequências físicas. Modelos fundacionais de robótica, modelos visão-linguagem-ação e sistemas autônomos baseados em modelos do mundo podem condicionar decisões que movimentam veículos, robôs, drones e máquinas industriais. Essa transição expõe um problema de segurança que não é totalmente capturado pela moderação tradicional de conteúdo de IA nem pela segurança robótica clássica: um modelo de caixa preta pode emitir uma ação com consequências físicas aparentando ser confiante, plausível e semanticamente alinhada. A falha resultante pode ser silenciosa, originando-se de deriva de sensor, oclusão, erro de estimação de estado, mudança de distribuição, affordances alucinados ou suposições físicas inválidas, antes que os controladores de hardware a jusante detectem uma violação. Entre modelos fundacionais incorporados, modelos do mundo, simulação robótica, benchmarks de segurança incorporada, controle seguro, garantia em tempo de execução, estimação de incerteza, verificação e avaliação de guardrails, as capacidades dos modelos e os mecanismos de segurança avançaram ao longo de trilhas técnicas amplamente separadas. Uma lacuna recorrente sintetizada aqui é que nenhum fluxo individual pesquisado nesta revisão fornece um limite completo de autorização em tempo de execução entre modelos de IA Física de caixa preta e a execução física. A análise resultante desenvolve uma formulação de problema delimitada, uma definição de falha silenciosa de ação física, uma taxonomia de funções de guardrail em tempo de execução e requisitos de avaliação para comparar guardrails como mecanismos de garantia de IA Física.

Não apenas onde, mas quando: Agendamento Temporal para RLVR
Not only where, But when: Temporal Scheduling for RLVR

May 25

ByJinghao Zhang, Ruilin Li, Feng Zhao, Jiaqi Wang

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica central para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs). Embora a otimização de política seja impulsionada por todos os tokens amostrados sob uma recompensa escalar globalmente transmitida, os comportamentos heterogêneos de política exibidos ao longo das trajetórias são amplamente negligenciados, sem diferenciação. Trabalhos existentes abordam isso por meio da alocação de crédito, incluindo reatribuição de vantagem em nível de token e otimização seletiva de tokens; no entanto, os critérios de alocação permanecem essencialmente estagnados ao longo do treinamento, limitando a evolução resiliente da política. Neste trabalho, argumentamos que *quando* os sinais de aprendizado são programados pode ser tão importante quanto *onde* eles são alocados entre os tokens, e introduzimos a dimensão temporal, que agenda os critérios de alocação de crédito ao longo da otimização RLVR. Descobrimos que priorizar tokens específicos enfatizados com comportamentos de política particulares, e atenuar gradualmente em direção à otimização geral, leva a uma dinâmica de aprendizado mais estável e eficiente. Além disso, mostramos que percentis simples de trajetória fornecem uma perspectiva natural para distinguir comportamentos de política e funcionam de forma eficaz com o agendamento temporal. Nossa análise revela que a otimização padrão sacrifica substancialmente a entropia da política ao acomodar simultaneamente comportamentos heterogêneos, enquanto o agendamento temporal produz uma dinâmica de evolução da política mais saudável. Experimentos em benchmarks de raciocínio matemático e geral demonstram melhorias consistentes, sugerindo que o agendamento temporal constitui uma dimensão de otimização promissora.

Adaptação de modelos de embedding multilíngues para o turco via cirurgia de tokenizador cross-lingual e destilação offline
Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation

May 28

ByM. Ali Bayram, Banu Diri, Savaş Yıldırım

Embeddings de frases são um componente fundamental para busca semântica, agrupamento, classificação e geração aumentada por recuperação. Este artigo apresenta o embeddingmagibu-200m, um modelo de embedding de frases focado em turco que produz vetores normalizados por L2 com 768 dimensões e suporta uma janela de contexto de 8.192 tokens, superando em muito o limite de 512 tokens dos codificadores turcos anteriores baseados em BERT. Em vez de um pré-treinamento completo, é introduzido um pipeline eficiente de adaptação em três estágios: (1) construir um tokenizador multilíngue otimizado para turco com um vocabulário de 131.072 tokens, podando tokens redundantes do vocabulário do modelo professor e incorporando tokens multilíngues via análise de frequência em um corpus de 40 idiomas; (2) clonar um modelo de embedding professor, preservando os pesos do backbone do transformer e inicializando uma tabela de embeddings compatível para o novo vocabulário via mapeamento de tokens por composição de médias; e (3) realizar destilação de embeddings offline a partir de vetores pré-computados do professor, utilizando um objetivo de similaridade cosseno sobre um corpus equilibrado da Wikipédia em 40 idiomas. O modelo aluno resultante possui aproximadamente 200 milhões de parâmetros e é treinado em cerca de quatro horas em uma única GPU, evitando inferência online do professor durante o treinamento, a um custo total de 5 a 20 dólares. Empiricamente, são obtidas correlações de Pearson/Spearman de 77,55%/77,45% no STSbTR, superando o modelo professor de 300 milhões de parâmetros (73,84%/72,92%). No TR-MTEB (26 tarefas), é alcançada uma pontuação média de 63,9% (7º lugar entre 26 modelos), proporcionando uma relação custo-qualidade competitiva com 33% menos parâmetros que o professor. Para facilitar a reprodutibilidade e o uso downstream, todos os artefatos são disponibilizados, incluindo pesos do modelo, arquivos do tokenizador, conjuntos de dados de embeddings pré-computados e ferramentas de clonagem e destilação de código aberto.

3DCodeBench: Benchmarking de Modelagem 3D Procedural com Agentes via Código
3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

May 31

ByYipeng Gao, Lei Shu, Genzhi Ye, Xi Xiong, Ameesh Makadia, Meiqi Guo, Laurent Itti, Jindong Chen

A modelagem 3D procedural por meio de código está emergindo como um paradigma versátil, oferecendo ativos determinísticos, prontos para motor gráfico e editáveis com precisão, características que os geradores neurais 3D inerentemente não possuem. No entanto, a criação de tal conteúdo procedural exige profunda expertise em APIs de software 3D, design paramétrico e raciocínio geométrico em nível de código. Neste artigo, propomos o 3DCodeBench, um benchmark sistemático para avaliar agentes de modelo de visão-linguagem (VLM) para geração procedural 3D em softwares de modelagem 3D. Especificamente, o 3DCodeBench avalia a eficácia com que 12 VLMs avançados podem atuar como modeladores procedurais 3D, traduzindo referências de texto e imagem em código procedural para software de modelagem 3D. Reconhecendo que métricas automatizadas podem não capturar totalmente a qualidade perceptual de formas 3D, construímos o 3DCodeArena, uma plataforma de ranqueamento baseada em preferências humanas pareadas sobre as saídas 3D geradas. A partir de avaliações e resultados extensivos, observamos que: (1) As falhas decorrem principalmente de incompatibilidades de API, enquanto as renderizações bem-sucedidas ainda sofrem com componentes geométricos 3D desconectados ou flutuantes. (2) O escalonamento em tempo de teste, como maiores orçamentos de pensamento e refinamento em múltiplas interações, melhora o desempenho geral. Nossos achados destacam uma necessidade crítica de dados de codificação procedural de alta qualidade para avançar VLMs comerciais. Além disso, a modelagem procedural 3D eficaz requer um ambiente de execução robusto que forneça feedback de alta fidelidade para refinamento iterativo. Disponibilizamos o 3DCodeBench, incluindo o conjunto de dados curado em larga escala de prompts multimodais (texto/imagem), código procedural, trios de objetos 3D, protocolo de avaliação e a plataforma pública 3DCodeArena como um kit de ferramentas fundamental para explorar modeladores procedurais 3D baseados em VLM.

LongAttnComp: Compressão de Contexto Entre Famílias para Raciocínio em Contextos Longos
LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

May 31

ByMengmeng Ji, Ravi Shanker Raju, Jonathan Lingjie Li, Chen Wu

À medida que aplicações do mundo real exigem cada vez mais o processamento de entradas com mais de 100 mil tokens, a lacuna entre o comprimento do contexto e a eficiência da inferência tornou-se um gargalo crítico. A compressão de contexto oferece uma maneira de reduzir os custos de prefill enquanto preserva a precisão da tarefa. No entanto, os métodos existentes baseados em atenção e sem treinamento deixam lacunas substanciais em tarefas exigentes de contexto longo, como raciocínio sobre código. Apresentamos o LongAttnComp, uma adaptação para contexto longo do AttnComp que ajusta finamente uma camada leve de pontuação de atenção cruzada e introduz chunking em nível de token, um algoritmo top-p com orçamento de tokens, reordenação posicional e um analisador de consultas agnóstico de formato. Projetamos ainda uma receita de ajuste fino em dois estágios para o compressor: o Estágio 1 constrói uma base geral de recuperação a partir de dados no estilo NIAH, e o Estágio 2 a expande com dados de múltiplos saltos (multi-hop) e raciocínio para uma cobertura mais ampla de tarefas de contexto longo. No InfiniteBench Code-Debug, o LongAttnComp iguala ou excede a precisão do contexto completo, supera substancialmente as linhas de base sem treinamento e transfere-se entre quatro modelos alvo de três famílias. No LongBench v2, a receita de dois estágios reduz amplamente a lacuna do Estágio 1 em raciocínio com múltiplos documentos, preservando o desempenho no Code-Debug.

EVA01: Compreensão e Geração 3D Nativas Unificadas via Mixture-of-Transformers
EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

May 16

ByZongyuan Yang, Mingjing Yi, Wanli Ma, Chenzhuo Fan, Bocheng Li, Baolin Liu, Yuke Lou, Yingde Song, Yongping Xiong, Zhengdong Guo, Shimu Wang

Este artigo aborda o desafio de integrar malhas 3D como uma modalidade nativa em Modelos de Linguagem Grandes e Multimodais (MLLMs). Modelos de reconstrução grandes baseados em difusão dissociam a compreensão semântica do raciocínio geométrico, operando como reconstrutores sem estado condicionados a priores densos de pixel 2D. Métodos recentes baseados em MLLMs tratam a modalidade 3D como uma saída externa, em vez de um componente nativo da sequência multimodal, realizando adaptações incrementais sem uma análise sistemática de como as variedades geométricas se alinham com os espaços de características dos MLLMs. Apresentamos o EVA01, uma estrutura unificada que expande o limite de modalidade dos MLLMs para incorporar nativamente a compreensão, geração e edição sensível ao contexto de malhas 3D. Construído sobre uma arquitetura de Mistura de Transformers (MoT), o EVA01 dissocia o modelo em um Especialista em Compreensão pré-treinado (E_{und}) e um Especialista em Geração estruturalmente espelhado (E_{gen}), acoplados por meio de autoatenção global compartilhada com roteamento de modalidade rígido. Este design alinha o espaço latente semântico da espinha dorsal do MLLM com a variedade geométrica, permitindo a transferência direta de priores multimodais sem representações 2D intermediárias. Os resultados mostram que o EVA01 alcança fidelidade de geração nativa texto-para-3D de última geração e desbloqueia edição geométrica robusta em contexto longo e de múltiplas rodadas com preservação de identidade, uma capacidade fundamentalmente inacessível para pipelines de reconstrução sem estado. Nossas descobertas oferecem ainda insights arquiteturais para integrar modelos fundamentais 2D com tarefas 3D, informando o design de sistemas multimodais nativos em 3D. Página do Projeto: https://www.seeles.ai/research/pages/EVA01

ACL-Verbatim: resposta a perguntas livre de alucinações para pesquisa
ACL-Verbatim: hallucination-free question answering for research

May 20

ByGábor Recski, Szilveszter Tóth, Nadia Verdha, István Boros, Ádám Kovács

Pesquisadores acadêmicos precisam de métodos eficientes e confiáveis para coletar informações de alta qualidade de fontes confiáveis, mas as ferramentas modernas para pesquisa assistida por IA ainda sofrem da tendência dos Modelos de Linguagem de Grande Escala (LLMs) de produzir saídas factualmente imprecisas ou sem sentido, comumente chamadas de alucinações. Aplicamos o sistema de resposta a perguntas extrativo VerbatimRAG a artigos de pesquisa da ACL Anthology, mapeando diretamente consultas de usuários para trechos textuais literais em documentos recuperados. Contribuímos com um novo conjunto de dados de referência para a tarefa de mapear consultas de usuários para trechos textuais relevantes em artigos de pesquisa, e o utilizamos para treinar e avaliar uma variedade de modelos extrativos. A anotação humana é realizada por pesquisadores de PLN e baseia-se em consultas sintéticas de usuários geradas por meio de um pipeline personalizado fundamentado na metodologia ScIRGen, combinadas com trechos de artigos de pesquisa recuperados pelo VerbatimRAG. Nesse benchmark, um classificador de tokens ModernBERT de 150M de parâmetros treinado com supervisão silver do nosso pipeline alcança o melhor F1 a nível de palavra (53,6), superando o extrator LLM mais forte avaliado (48,7).

SwiGLU Adaptativo por Confiança para Mistura de Especialistas
Confidence-Adaptive SwiGLU for Mixture-of-Experts

May 30

ByShaohua Li, Xiuchao Sui, Xiaobing Sun, Yuhang Wu, Liangli Zhen, Yong Liu, Rick Siow Mong Goh

O SwiGLU tornou-se uma ativação com portão padrão nos MLPs modernos de Transformers, mas sua nitidez de portão — a suavidade e seletividade da função de portão — é tipicamente fixa durante o treinamento. Neste trabalho, propomos o SwiGLU Ciente da Confiança (κ-SwiGLU), uma variante do SwiGLU para modelos de Mistura de Especialistas (MoE) que ajusta a nitidez do portão do especialista de acordo com a confiança do roteamento em nível de token. Especificamente, o κ-SwiGLU parametriza o coeficiente de nitidez do portão SiLU como uma função aprendível do logit do roteador, permitindo que cada unidade de portão do especialista interpole entre um portão suave e amplamente ativo e um portão nítido e seletivo. Avaliamos o κ-SwiGLU no conjunto de dados FineWeb-Edu em modelos Transformer MoE variando de 8 a 28 camadas. Nessas configurações, o κ-SwiGLU melhora o desempenho médio do CORE, adicionando parâmetros desprezíveis e incorrendo apenas em uma pequena sobrecarga computacional, demonstrando que a nitidez de portão ciente da confiança é um mecanismo promissor para melhorar MLPs MoE. O código está disponível em https://github.com/askerlee/kappa-swiglu.

TVIR: Construindo Agentes de Pesquisa Profunda para Geração de Relatórios Intercalados Texto-Visuais
TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

Jun 1

ByXinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu

Agentes de Pesquisa Profunda têm demonstrado forte capacidade na recuperação de informações em múltiplas etapas, no raciocínio e na geração de relatórios longos, mas os benchmarks e sistemas existentes permanecem predominantemente centrados em texto, com avaliação limitada sobre se os elementos visuais são confiáveis factualmente e bem alinhados com a análise circundante. Para preencher essa lacuna, apresentamos o TVIR (Geração de Relatórios Intercalados Texto-Visuais), que inclui o TVIR-Bench, um benchmark composto por 100 tarefas de pesquisa profunda multimodal curadas por especialistas, que exigem elementos visuais para atender a subobjetivos analíticos específicos, e o TVIR-Agent, um framework hierárquico multiagente que serve como uma linha de base forte para a construção de esboços, recuperação de imagens, geração de gráficos com fontes rastreáveis e composição de relatórios por meio de escrita sequencial consciente do contexto. Desenvolvemos ainda um framework de avaliação de dupla via que combina Avaliação Textual e Avaliação Visual. Experimentos em nove sistemas de pesquisa profunda mostram que o TVIR-Agent alcança um desempenho geral robusto, ressaltando a importância do design multimodal explícito e da avaliação para a geração de relatórios baseada em evidências.

MindZero: Aprendizagem de Raciocínio Mental Online com Zero Anotações
MindZero: Learning Online Mental Reasoning With Zero Annotations

May 29

ByShunchi Zhang, Jin Lu, Chuanyang Jin, Yichao Zhou, Zhining Zhang, Tianmin Shu

Para fornecer assistência eficaz no mundo real, agentes de IA precisam de uma Teoria da Mente (ToM) robusta: inferir estados mentais humanos a partir de seu comportamento. Apesar dos avanços recentes, vários desafios fundamentais persistem, incluindo (1) inferência online com atualizações robustas de incerteza sobre múltiplas hipóteses; (2) raciocínio eficiente adequado para assistência em tempo real; e (3) a falta de anotações de estado mental de referência em domínios do mundo real. Abordamos esses desafios apresentando o MindZero, uma estrutura de aprendizado por reforço autossupervisionado que treina modelos de linguagem grandes multimodais (MLLMs) para raciocínio mental online eficiente e robusto. Durante o treinamento, o modelo é recompensado por gerar hipóteses de estado mental que maximizam a verossimilhança das ações observadas, estimada por um planejador, de forma similar ao raciocínio de ToM baseado em modelo. Esse método elimina, portanto, a necessidade de anotações explícitas de estado mental. Após o treinamento, o MindZero internaliza o raciocínio baseado em modelo em uma inferência rápida de passagem única. Avaliamos o MindZero em comparação com linhas de base em tarefas desafiadoras de raciocínio mental e assistência de IA nos domínios de mundo grade e doméstico. Descobrimos que apenas LLMs são insuficientes; métodos baseados em modelo melhoram a precisão, mas são lentos, custosos e limitados pela capacidade do MLLM base. Em contraste, o MindZero aprimora a capacidade intrínseca de ToM dos MLLMs e supera significativamente os métodos baseados em modelo tanto em precisão quanto em eficiência, demonstrando que o raciocínio mental pode ser efetivamente aprendido como uma habilidade autossupervisionada.

Geração composicional de texto para imagem via otimização direta de preferência bimodal consciente de região
Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

May 27

ByZhuohan Liu, Wujian Peng, Yitong Chen, Zuxuan Wu

Apesar do rápido progresso dos modelos de texto para imagem (T2I), a geração de imagens que reflitam com precisão prompts composicionais complexos (abrangendo ligações de atributos, relações entre objetos e contagem) ainda permanece desafiadora. Para abordar isso, propomos o BiDPO, uma estrutura para aprimorar a capacidade dos modelos T2I na geração composicional de texto para imagem. Iniciamos apresentando um pipeline cuidadosamente projetado para construir um conjunto de dados de preferência em larga escala, o BiComp, com controle de qualidade rigoroso. Em seguida, estendemos o Diffusion DPO para otimizar conjuntamente as preferências de imagem e texto, o que se mostrou extremamente eficaz em melhorar a capacidade dos modelos de seguir prompts textuais complexos na geração. Para aprimorar ainda mais os modelos quanto ao alinhamento refinado, empregamos um método de orientação em nível de região para focar em regiões relevantes para conceitos composicionais. Resultados experimentais demonstram que nosso BiDPO melhora substancialmente a fidelidade composicional, superando consistentemente métodos anteriores em múltiplos benchmarks. Nossa abordagem destaca o potencial do ajuste fino baseado em preferência para tarefas complexas de texto para imagem, oferecendo uma alternativa flexível e escalável às técnicas existentes.

StressDream: Direcionando Modelos de Mundo em Vídeo para Avaliação e Melhoria Robustas de Políticas
StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

May 29

ByJunwon Seo, Sushant Veer, Ran Tian, Wenhao Ding, Apoorva Sharma, Karen Leung, Edward Schmerling, Marco Pavone, Andrea Bajcsy

Modelos mundiais de vídeo (MMs) têm demonstrado potencial para avaliação e melhoria de políticas ao imaginar observações futuras realistas condicionadas a ações do robô-ego. Embora MMs possam modelar distribuições sobre futuros, a avaliação e melhoria de políticas geralmente dependem de imaginações nominais, que podem perder resultados de alto impacto das ações do robô, a menos que um número proibitivo de amostras seja obtido. Para possibilitar uma avaliação e melhoria robustas de políticas sobre imaginações de MMs, propomos o StressDream, que direciona as imaginações para resultados de alto impacto e plausíveis, especificados no momento da inferência, otimizando o ruído inicial de MMs baseados em difusão. No entanto, otimizar ruídos de alta dimensão é desafiador: a otimização deve raciocinar sobre eventos-alvo matizados e dependentes da cena em vídeos gerados, evitando ruídos fora da distribuição (OOD) que produzem imaginações implausíveis. Abordamos isso com dois objetivos complementares: um objetivo semântico com um Modelo de Visão e Linguagem que fornece gradientes informativos ao raciocinar sobre o vídeo gerado, e um objetivo de plausibilidade que impede que o ruído otimizado se desvie da distribuição. Com modelos mundiais de vídeo de última geração para direção autônoma e manipulação robótica, mostramos que o StressDream direciona efetivamente as imaginações para resultados de alto impacto e plausíveis, especificados por texto no momento da inferência, como falhas de tarefas, possibilitando uma avaliação e melhoria robustas de políticas ao identificar ações cujos futuros plausíveis incluem resultados indesejáveis. Resultados em vídeo estão disponíveis em https://junwon.me/StressDream/.

Leis de Escala Neurais Unificadas
Unified Neural Scaling Laws

May 25

ByEthan Caballero, Priyank Jaini, David Krueger, Irina Rish

Apresentamos uma forma funcional (a que nos referimos como Lei de Escala Neural Unificada (UNSL)) que modela e extrapola com precisão os comportamentos de escala de redes neurais profundas à medida que múltiplas dimensões variam simultaneamente (ou seja, como a métrica de avaliação de interesse varia ao se variar simultaneamente o número de parâmetros do modelo, o tamanho do conjunto de dados de treinamento, o número de passos de treinamento, o número de passos de inferência, a quantidade de computação e vários hiperparâmetros) para diversas arquiteturas e para cada uma das várias tarefas dentro de um conjunto variado de tarefas upstream e downstream. Este conjunto inclui visão, linguagem, matemática e aprendizado por reforço em larga escala. Quando comparada a outras formas funcionais para escala neural, esta forma funcional produz extrapolações do comportamento de escala que são consideravelmente mais precisas neste conjunto.

Podem as Dinâmicas Previstas Existir no Mundo Físico?
Can Predicted Dynamics Exist in the Physical World?

May 23

ByBarak Or

Sistemas de IA Física Preditiva geram rollouts de estado, blocos de ação e planos latentes, porém um baixo erro quadrático médio (RMSE) não implica que uma proposta específica seja fisicamente executável. Formulamos a admissibilidade física como uma interface de previsão-controle: antes da execução, uma proposta decodificada é tratada como dinâmica candidata e avaliada utilizando condições cinemáticas, dinâmicas e de horizonte direto-para-composto. A aprovação não é um certificado de sucesso da tarefa; a rejeição identifica a violação do envelope físico especificado e fornece uma razão em nível de componente. No Hugging Face LeRobot PushT, a falsificação controlada mostra que o RMSE de previsão de um passo e os resíduos de dinâmica padronizados atingem área sob a curva característica de operação do receptor (AUC) 0,982 e 0,972, condições exclusivamente cinemáticas atingem AUC 0,592, e o portão completo atinge AUC 0,957 com atribuição em nível de condição. Em experimentos de intervenção baseados em replay, filtros baseados em resíduos e o portão completo de admissibilidade física previnem 87%-89% das propostas inválidas, preservando o progresso médio próximo a 0,998.

Raciocínio Latente Geométrico Induz Gerações Mais Curtas em LLMs
Geometric Latent Reasoning Induces Shorter Generations in LLMs

Jun 1

ByShashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro

Modelos de linguagem de grande escala resolvem problemas complexos gerando longas cadeias de tokens de raciocínio explícito. Embora eficaz, essa abordagem torna o raciocínio caro, sensível ao comprimento e restrito à linguagem natural (discreta). Embora o raciocínio latente ofereça uma alternativa contínua, determinar estruturas úteis para estados latentes intermediários continua sendo um desafio em aberto. Neste artigo, formulamos o raciocínio latente como um problema de aproximação geométrica de caminhos no espaço de embeddings de tokens pré-treinados do modelo. Introduzimos o Raciocínio Latente Geométrico (GLR), que utiliza uma cabeça de transição leve para prever atualizações iterativas de direção no espaço de embeddings. Usando trilhas textuais de cadeia de pensamento como âncoras, o GLR aprende a aproximar trajetórias de raciocínio discretas, ao mesmo tempo que permite desvios contínuos dos embeddings exatos de tokens. Avaliações em benchmarks de raciocínio matemático usando modelos Qwen3 revelam um fenômeno emergente: o raciocínio latente geométrico induz gerações substancialmente mais curtas sem um objetivo explícito de comprimento. Ao substituir o raciocínio explícito inicial por etapas latentes contínuas, os modelos frequentemente alcançam respostas corretas usando um número substancialmente menor de etapas de geração totais. Esses achados sugerem que trajetórias contínuas atuam como estados intermediários de raciocínio compactos, expondo um novo trade-off entre orçamento computacional latente, comprimento da saída e precisão.

ChartArena: Avaliação Comparativa de Análise de Gráficos em Diferentes Idiomas, Cenários e Formatos
ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats

May 31

ByShangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

Gráficos são um meio primário para transmitir informações quantitativas e relacionais, no entanto, avaliar sistematicamente modelos de interpretação de gráficos continua sendo difícil. Os benchmarks existentes focam em tipos restritos de gráficos e deixam estruturas diagramáticas, como fluxogramas e mapas mentais, em grande parte não abordadas, enquanto os modelos produzem saídas em formatos incompatíveis, e os conjuntos de dados raramente incluem as imagens impressas ou desenhadas à mão encontradas na prática. Para abordar essas questões, apresentamos o ChartArena, um benchmark bilíngue abrangente que cobre oito famílias de gráficos, abrangendo tanto gráficos numéricos quanto estruturas diagramáticas, cada um avaliado em três cenários visuais: renderizações digitais, fotos impressas e fotos desenhadas à mão. O conjunto de dados é construído por meio de um pipeline de anotação colaborativa humano-agente com verificação humana em múltiplas etapas para garantir a confiabilidade das anotações. Para permitir uma comparação justa entre modelos, projetamos ainda um protocolo de avaliação independente de formato que mapeia saídas heterogêneas em dois espaços semânticos canônicos: uma visão de triplas normalizada e uma visão de grafo direcionado, e os pontua com métricas sensíveis à estrutura. Por meio de uma avaliação extensa de 26 MLLMs líderes, observamos três achados consistentes: (i) modelos proprietários de ponta como o Gemini 3.1 Pro lideram no geral, mas os sistemas de código aberto mais fortes estão rapidamente fechando a lacuna; (ii) modelos de interpretação de documentos lidam razoavelmente com gráficos numéricos, mas ficam muito atrás em estruturas diagramáticas; e (iii) interpretadores especializados de gráficos permanecem limitados a famílias restritas de gráficos. Em todos os modelos, gráficos de radar e cenários desenhados à mão permanecem especialmente desafiadores. Esses achados mostram que o ChartArena expõe lacunas claras de capacidade e fornece uma base unificada para o progresso futuro. O ChartArena está disponível publicamente em https://github.com/pspdada/ChartArena.

Pensando no Blender: Gráficos Inversos Executáveis em Etapas com Modelos de Visão e Linguagem
Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

Jun 1

ByGuangzhao He, Rundong Luo, Wei-Chiu Ma, Hadar Averbuch-Elor

Gráficos inversos é um problema antigo e altamente subdeterminado que busca reconstruir imagens como cenas 3D editáveis que possam ser renderizadas, reiluminadas e manipuladas. Neste trabalho, investigamos se modelos de visão-linguagem (VLMs) pré-treinados podem realizar gráficos inversos executáveis diretamente a partir de uma única imagem, reconstruindo uma cena como um programa Blender editável, sem depender de modelos fundamentais 2D ou 3D especializados, renderização diferenciável ou supervisão multivista. Apresentamos o Staged Executable Inverse Graphics (SEIG), uma estrutura agentiva que reconstrói uma cena 3D a partir de uma única imagem, refinando progressivamente os fatores da cena — incluindo geometria, materiais, composição e iluminação — diretamente no espaço de código executável do Blender. Avaliamos nossa estrutura em diversas cenas usando uma variedade de métricas de reconstrução que abrangem fidelidade em nível de pixel, perceptiva e semântica. Nossos experimentos mostram que a reconstrução em etapas melhora substancialmente a fidelidade da reconstrução, destacando a importância da decomposição de tarefas para gráficos inversos executáveis com VLMs de propósito geral. Por fim, demonstramos várias aplicações downstream possibilitadas pelas cenas Blender editáveis reconstruídas.

Uma Biblioteca Formalmente Verificada de Finanças Matemáticas em Lean 4
A Formally Verified Library of Mathematical Finance in Lean 4

May 31

ByRaphael Coelho

Descrevemos uma biblioteca de finanças matemáticas construída no assistente de prova Lean 4, sobre o Mathlib e o pacote BrownianMotion. Ela é ampla: mais de duzentos teoremas livres de 'sorry' em onze áreas, desde os fundamentos da teoria da medida do cálculo estocástico em tempo contínuo até a precificação de derivativos, passando pela teoria aplicada de risco, portfólio e renda fixa, e, até onde sabemos, o desenvolvimento verificado por máquina mais abrangente de finanças matemáticas até o momento. A abrangência é o contexto, não o foco. Dois aspectos a tornam mais do que um catálogo. Ela adentra a teoria contínua o suficiente para construir a integral de Itô L² como uma isometria linear limitada e para derivar, em vez de assumir, a medida de precificação neutra ao risco. E audita sua própria fidelidade: todo resultado é classificado pela forma como sua declaração em Lean se relaciona com a matemática que afirma, e um mecanismo de verificação imposto pela compilação fixa os axiomas que cada prova realmente utiliza, de modo que o leitor possa ver precisamente o que foi provado e o que foi provado apenas sob hipóteses adicionais. Concluímos com uma constatação sincera: uma base formal sobre as finanças matemáticas clássicas produz uma unificação certificada de resultados conhecidos, em vez de uma nova teoria financeira. A contribuição é, portanto, metodológica e infraestrutural: fundamentos verificados reutilizáveis para finanças matemáticas, juntamente com a auditoria de fidelidade.

FreeForm: Simulação Deformável de Ordem Reduzida a partir de Modos Próprios de Skinagem Baseada em Partículas
FreeForm: Reduced-Order Deformable Simulation from Particle-Based Skinning Eigenmodes

May 28

ByDonglai Xiang, Vismay Modi, Rishit Dagli, Ty Trusty, Gilles Daviet, Anka He Chen, Nicholas Sharp, David I. W. Levin

Apresentamos uma nova formulação para simulação sem malha e de ordem reduzida de objetos hiperelásticos deformáveis. Trabalhos existentes em simulação elastodinâmica de ordem reduzida representam a geometria de entrada por malhas, que podem ser difíceis de obter devido aos desafios na digitalização e triangularização de formas complexas, ou por campos neurais que exigem otimização por forma. Propomos adotar uma representação baseada no Método de Partículas com Kernel Reprodutivo (RKPM), que permite a construção de pesos de skinning de ordem reduzida por meio da resolução de um sistema de autovalores generalizado sobre a matriz Hessiana da energia elástica. Demonstramos que essa formulação não apenas leva a uma aceleração de 40 vezes no treinamento em comparação com a otimização por forma de campos neurais, mas também atinge menor erro de simulação quando avaliada em relação aos resultados convergidos do método dos elementos finitos. Apresentamos nossos resultados de simulação em uma ampla variedade de objetos em diferentes representações, incluindo malhas e splats gaussianos, bem como a aplicação do nosso método na tarefa subsequente de simulação robótica.

Avaliação de Qualidade Baseada em Modelos para Dados Paralelos Massivamente Multilíngues
Model-Based Quality Assessment for Massively Multilingual Parallel Data

May 29

ByAbdelaziz M. A. Ibrahim, Zihao Li, Jörg Tiedemann, Shaoxiong Ji

O bitexto multilíngue em larga escala frequentemente apresenta dois problemas distintos: pares de frases não paralelos e traduções de baixa qualidade. Decompomos a avaliação baseada em modelo para tais dados em dois componentes independentes: avaliação de paralelismo com incorporações multilíngues e estimativa de qualidade (QE) sem referência. Para o paralelismo, avaliamos quatro modelos de incorporação nas tarefas de recuperação do FLORES-200 e BOUQuET, abrangendo 6.654 direções fonte–alvo em nosso inventário de pares de idiomas alvo. Para QE, avaliamos nove avaliadores sem referência em traduções profissionais do FLORES-200 em 41.412 direções fonte–alvo ordenadas. Os resultados mostram que nenhum modelo é universalmente confiável em todas as direções de tradução. Conjuntos ingênuos de QE diluem sinais fortes dos modelos, enquanto a cobertura documentada do idioma alvo está fortemente associada a pontuações mais altas de QE. No geral, esses resultados sugerem que a avaliação de dados paralelos multilíngues é melhor abordada como um problema de roteamento e calibração ciente da direção, onde não se espera que uma única métrica universal seja suficiente para todos os idiomas.

A Cadeia se Mantém, a Resposta se Dobra: Dissociação Traço-Resposta em Modelos de Raciocínio sob Pressão Adversarial
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

May 27

ByYubo Li, Ramayya Krishnan, Rema Padman

Modelos de raciocínio são avaliados em benchmarks de turno único, mas implantados em diálogos multi-turno, onde os usuários contestam respostas corretas. Sob pressão adversarial sustentada, encontramos um modo de falha anteriormente não documentado: a cadeia de pensamento permanece factualmente correta do primeiro ao último turno, enquanto a resposta emitida se torna incorreta. Chamamos isso de capitulação infiel (CI) e a isolamos com uma estrutura latente versus comportamental 2x2, que tanto as métricas de taxa de inversão quanto os testes de fidelidade de turno único deixam de capturar. Em três conjuntos de dados (MT-Consistency, MMLU-Pro, GSM8K), a taxa de correção latente no ponto de inversão comportamental se agrupa perto de 50% no modo de pensar e cai para 11-15% no modo sem_pensar – evidência causal pareada dentro do modelo de que o raciocínio cria essa lacuna. Entre modelos, o efeito acompanha o canal de raciocínio (alto no Qwen3-32B e GPT-OSS-20B, baixo no inline-CoT Gemma-4-31B-it). Um avaliador independente GPT-4o corrobora 86% das marcações de CI; um teste a nível de token mostra que o argmax do slot de resposta está correto em 84% das células de CI; e uma defesa ingênua baseada em rastreamento sai pela culatra. Disponibilizamos todas as trajetórias, rastros e marcações do avaliador.

Mesma Pergunta, Fonte Diferente, Resposta Diferente: Auditoria da Dependência de Fontes em RAG Médico de Múltiplas Fontes
Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

May 27

ByYubo Li, Rema Padman, Ramayya Krishnan

Um sistema de geração aumentada por recuperação (RAG) implantado sobre um corpus institucional de múltiplos autores pode dar uma resposta diferente para a mesma pergunta, dependendo de qual fonte ele recupera — um modo de falha que o paradigma dominante de resposta única de ouro não consegue diagnosticar. Argumentamos que a dependência de fonte é um eixo faltante da avaliação em PLN, e que auditá-la significa deslocar a unidade de avaliação da correção da resposta para a relação entre fontes. Tornamos isso concreto na educação de pacientes transplantados, onde fontes institucionais demonstravelmente discordam, liberando três artefatos: TransplantQA, um referencial de perguntas reais de pacientes, cada uma respondida fundamentando a geração em múltiplos manuais institucionais como fontes candidatas; HERO-QA, uma estratégia de recuperação hierárquica que fundamenta e audita cada resposta; e um avaliador de saída estruturada que pontua relações entre fontes em uma taxonomia validada de 5 rótulos. Em escala, uma recuperação melhor revela muito mais discordância do que estimativas anteriores sugeriam — subestimando sua prevalência, não sua intensidade. O arcabouço é agnóstico em relação ao domínio e se transfere para RAG jurídico e educacional: medir a dependência de fonte é uma responsabilidade para o PLN multi-fonte implantado em geral.

Review Arcade: Sobre o Alinhamento Humano e a Jogabilidade das Revisões de LLMs
Review Arcade: On the Human Alignment and Gameability of LLM Reviews

May 27

ByHans Ole Hatzel, Sebastian Steindl, Jan Strich

Avaliações geradas por LLM para artigos científicos estão ganhando considerável força e estão até sendo testadas oficialmente por grandes conferências. Temos que assumir que não apenas revisores estão usando assistência de LLM, mas também que autores usam LLMs para revisar seus artigos antes da submissão. Neste trabalho, realizamos experimentos empíricos em artigos do ACL Rolling Review (ARR) de 2025 para avaliar revisões de LLM tanto da perspectiva do autor quanto do revisor. Primeiro, identificamos um alinhamento limitado das revisões de LLM com as revisões humanas. No melhor cenário, o alinhamento é razoável. No entanto, também descobrimos que o alinhamento entre LLM e humanos varia substancialmente entre prompts e modelos. Finalmente, investigamos o cenário em que o autor utiliza um fluxo de trabalho iterativo de rascunho e revisão para melhorar a submissão de acordo com a revisão do LLM. Descobrimos que essa "manipulação" das revisões de LLM pode ser eficaz em cenários específicos, levando a um aumento estatisticamente significativo das pontuações gerais em até 35% dos artigos. Publicamos nosso código: https://github.com/uhh-hcds/reviewarcade.

IA, assuma o volante: O que impulsiona a delegação e a confiança na resposta cooperativa a perguntas entre humanos e computadores?
AI, Take the Wheel: What Drives Delegation and Trust in Human-Computer Cooperative Question Answering?

May 27

ByMaharshi Gor, Yoo Yeon Sung, Yu Hou, Eve Fleisig, Irene Ying, Tianyi Zhou, Jordan Boyd-Graber

Os sistemas de IA são falíveis, e os humanos podem cometer erros ao decidir se devem confiar na IA em detrimento do seu próprio julgamento. Assim, melhorar a colaboração humano-IA requer compreender quando, porquê e como os humanos decidem confiar na IA. Estudamos duas decisões de confiança distintas: a escolha de delegação — decidir quando deixar a IA agir autonomamente sem conhecer o seu resultado, e a escolha de adoção — avaliar as sugestões da IA e decidir como utilizá-las. Ambos os padrões de confiança dissociados moldam a colaboração, mas trabalhos anteriores raramente os estudam em conjunto em cenários realistas com os mesmos utilizadores. Abordamos esta lacuna estudando equipas colaborativas humano-IA que competem num jogo de perguntas e respostas, no qual os humanos podem escolher quando e como trabalhar com agentes de IA para vencer. Os nossos 24 jogos emparelham 23 especialistas humanos com 16 agentes de IA, capturando 387 decisões de delegação e 1440 de adoção. Embora a colaboração humano-IA tenha um desempenho superior ao da IA ou dos humanos isoladamente, os humanos tomam decisões de colaboração subótimas, tanto subconfiando em sugestões corretas da IA (3,9% de oportunidades perdidas) como superconfiando quando a IA os induz em erro (1,7%). Ambas as partes contribuem com respostas erradas: a confiança reportada do modelo aproxima-se do acaso quando humanos e IA discordam, enquanto o viés de confirmação impulsiona uma maior subconfiança (64,5%) quando uma sugestão da IA coincide com a resposta inicial incorreta do humano. Para superar esta lacuna, recomendamos confiança calibrada, explicações baseadas em evidências e mecanismos que ajudem os utilizadores a refinar a confiança.

A Teoria de Hamilton-Jacobi do Aprendizado Profundo
The Hamilton-Jacobi Theory of Deep Learning

May 27

ByJose Marie Antonio Miñoza, Erika Fille T. Legara, Christopher P. Monterola

Neste artigo, o treinamento de uma rede neural é identificado, exatamente, como uma busca por problemas de valor inicial de Hamilton–Jacobi: cada passo de gradiente seleciona os dados iniciais de uma equação de Hamilton–Jacobi viscosa cujo propagador de Hopf–Cole melhor se ajusta às observações; na inferência, a entrada é o ponto espacial no qual essa solução é avaliada e a condição inicial já está codificada nos pesos. A correspondência é exata para camadas log-sum-exp e estrutural para arquiteturas mais amplas: redes residuais, transformadores e arquiteturas recorrentes (RNNs, LSTMs, SSMs) cada uma discretiza a mesma classe de equações de Hamilton–Jacobi, com Hamiltoniano e viscosidade dependentes da arquitetura. Um único parâmetro de deformação varepsilon unifica todas as quatro perspectivas (rede, álgebra tropical, EDP viscosa, otimização convexa) em um diagrama comutativo fechado sob condições de Lipschitz. As consequências quantitativas incluem: a taxa de generalização ótima minimax O(n^{-1/(d+2)}) para t fixo; robustez adversarial controlada por varepsilon; retropropagação como a equação de coestado do sistema Hamiltoniano para redes residuais (Princípio do Máximo de Pontryagin); expoentes de escala consistentes com a dimensão intrínseca dos dados via quadratura de EDP; e uma função de influência de forma fechada O(N) (pesos de atribuição softmax π_j) cuja paisagem de entropia sofre bifurcações de dobra à medida que varepsilon aumenta, cada uma fundindo bacias de atribuição.

Perdido na Tradução? Explorando a Mudança do Gênero Gramatical do Latim ao Occitano
Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan

May 26

ByAhan Chatterjee, Matthias Schöffel, Matthias Aßenmacher, Marinus Wiedner, Esteban Garces Arias

A evolução diacrônica do latim para as línguas românicas envolveu uma reestruturação do sistema de gênero gramatical, passando de uma configuração tripartida (masculino, feminino, neutro) para uma bipartida (masculino, feminino) na maioria das línguas românicas. Neste trabalho, introduzimos um framework de aprendizado profundo interpretável para investigar esse fenômeno tanto no nível lexical quanto no contextual. Primeiramente, mostramos que as estratégias convencionais de tokenização não são suficientemente robustas para esse contexto histórico de poucos recursos, e que nosso tokenizador proposto melhora o desempenho em relação a essas referências. No nível lexical, avaliamos a contribuição das características morfológicas para a predição de gênero. No nível contextual, quantificamos as contribuições de diferentes categorias de classes gramaticais para a predição de gênero gramatical. Em conjunto, essas análises caracterizam a distribuição da informação de gênero entre o lema e seu contexto sentencial. Disponibilizamos publicamente nosso código, conjuntos de dados e resultados em https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.

DOT-MoE: Transporte Ótimo Diferenciável para MoEficação
DOT-MoE: Differentiable Optimal Transport for MoEfication

Jun 1

ByUdbhav Bamba, Arnav Chavan, Aryamaan Thakur, Steve Teig, Deepak Gupta

O escalonamento dos Modelos de Linguagem de Grande Porte (LLMs) impulsionou ganhos significativos de desempenho, mas criou desafios substanciais na eficiência de inferência. Embora as arquiteturas de Mistura de Especialistas (MoEs) abordem isso ao desacoplar o tamanho do modelo do custo de inferência, treinar MoEs do zero é frequentemente instável e computacionalmente intensivo. A conversão de modelos densos pré-treinados em MoEs esparsas surgiu como uma solução alternativa; no entanto, os métodos existentes geralmente dependem de agrupamento heurístico de neurônios ou divisão aleatória para particionar a Rede Feed-Forward (FFN) em especialistas. Neste trabalho, propomos o DOT-MoE, uma nova estrutura que formula a decomposição de camadas densas como um problema de Transporte Ótimo Diferenciável (DOT). Em vez de heurísticas estáticas, modelamos a atribuição de neurônios como um problema de transporte balanceado, utilizando iterações diferenciáveis de Sinkhorn-Knopp para impor restrições estritas de capacidade dos especialistas. Além disso, utilizamos Estimadores Straight-Through (STE) para aprender conjuntamente a atribuição discreta de neurônios a especialistas e a política de roteamento de tokens para especialistas de ponta a ponta. Extensos experimentos em múltiplas arquiteturas e benchmarks demonstram que o DOT-MoE supera significativamente as linhas de base de poda estruturada, agrupamento heurístico e divisão aleatória, mantendo 90% do desempenho do modelo denso original enquanto reduz os parâmetros ativos em 50%.

Âncoras semânticas de movimento: Unindo movimento e significado em gestos co-fala
Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures

Jun 1

ByVarsha Suresh, Mohammad Mahdi Abootorabi, Mohamed Salman, M. Hamza Mughal, Christian Theobalt, Ashwin Ram, Jürgen Steimle, Vera Demberg

Aprender uma representação compartilhada entre texto falado e gesto é central para a recuperação, síntese e compreensão de gestos co-fala, mas continua sendo desafiador para gestos semanticamente significativos, cuja intenção comunicativa não é capturada apenas pelo movimento. O alinhamento contrastivo direto entre transcrições e embeddings contínuos de movimento frequentemente superenfatiza a cinemática de baixo nível e perde o conteúdo simbólico dos gestos semânticos. Propomos âncoras semânticas de movimento, abstrações em linguagem natural do gesto que capturam a forma física e a intenção comunicativa. Nosso método discretiza gestos 3D em primitivas de movimento corpo-mão, verbaliza-as em descrições estruturadas e as ancora na transcrição para fornecer supervisão contrastiva auxiliar. No BEAT2, nosso método melhora o R@1 de texto para gesto em 8,2% em relação a uma linha de base direta de texto-movimento e supera abordagens anteriores de recuperação nas direções de recuperação de texto para gesto e gesto para texto. Além das métricas agregadas de recuperação, a supervisão por âncoras semânticas de movimento ajuda a recuperar gestos semanticamente significativos para a consulta falada, em vez de recorrer a padrões genéricos de movimento. Um estudo de geração de gestos aumentada por recuperação mostrou que os usuários preferiram significativamente os gestos recuperados pela nossa abordagem em comparação com uma linha de base de geração aumentada por recuperação, demonstrando que a recuperação semanticamente fundamentada se traduz em gestos que transmitem melhor a intenção comunicativa na geração subsequente.

Quem Anota em PLN? Uma Avaliação em Grande Escala do Relato de Anotações Humanas entre 2018 e 2025
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025

Jun 1

ByMaria Kunilovskaya, Gagan Bhatia, Lisa Sophie Albertelli, Yanran Chen, Christian Greisinger, Lotta Kiefer, Christoph Leiter, Subhadeep Roy, Tewodros Achamaleh, Muhammad Arslan Manzoor, Sebastian Pohl, Yufang Hou, Steffen Eger

A anotação humana é o fundamento empírico de grande parte da pesquisa em PLN, desde a construção de conjuntos de dados até a avaliação de modelos, mas os artigos frequentemente deixam obscuro quem produziu as anotações e como o processo de anotação foi controlado. Apresentamos a primeira auditoria em larga escala, no nível de tarefa, da documentação de anotação humana nos principais veículos de PLN, investigando quais detalhes da anotação são documentados, quais estão ausentes e como a documentação varia ao longo do tempo, tópico, veículo e uso pretendido do julgamento humano. Introduzimos uma taxonomia unificada de práticas de documentação de anotação e validamos um pipeline de extração assistido por LLM contra o Annotated-gold, um padrão ouro adjudicado por humanos composto por 41 artigos e 72 tarefas de anotação, onde o melhor modelo atinge concordância comparável à humana com os rótulos adjudicados, com alfa de Krippendorff de 0,606 contra 0,585 para concordância humano-humano. Utilizando esse pipeline, construímos o Annotated-llm, um conjunto de dados que abrange artigos dos veículos da ACL de 2018 a 2025, com 2.667 tarefas de anotação extraídas de 1.603 artigos, e descobrimos que os artigos frequentemente relatam detalhes operacionais, como estratégias de recrutamento, expertise dos anotadores e volume de anotação, mas omitem frequentemente detalhes necessários para avaliar a validade da anotação, incluindo treinamento, proficiência linguística, compensação, dados sociodemográficos, adjudicação e valores de concordância, especialmente em estudos de avaliação de modelos. Nossos resultados mostram que a documentação de anotação em PLN melhorou ao longo do tempo, mas permanece desigual, e estabelecem uma estrutura escalável e recomendações mínimas de documentação para tornar a anotação humana mais confiável, reproduzível e interpretável.

τ_0-WM: Um Modelo de Mundo Unificado de Vídeo-Ação para Manipulação Robótica
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation

May 31

ByPengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo

A manipulação robótica requer modelos que gerem ações executáveis enquanto antecipam e avaliam suas consequências futuras antes da execução física. Apresentamos o τ_0-World Model (τ_0-WM), um modelo mundial de vídeo-ação unificado que integra aprendizado de políticas, predição de vídeo e avaliação de ações em um único arcabouço preditivo do futuro. Construído sobre um backbone de difusão de vídeo compartilhado, o τ_0-WM oferece duas interfaces complementares. Primeiro, um modelo de vídeo-ação prevê conjuntamente latentes visuais futuros e pedaços contínuos de ação a partir de observações multivisão, instruções em linguagem natural e estado do robô. Segundo, um simulador de vídeo condicionado à ação executa pedaços de ação candidatos em futuros multivisão e prediz pontuações densas de progresso da tarefa. O modelo é treinado em aproximadamente 27.300 horas de teleoperação real de robôs, interação no estilo UMI, vídeos humanos egocêntricos e trajetórias de execução ou falha, utilizando máscaras de supervisão específicas de modalidade. No tempo de inferência, o τ_0-WM usa computação em tempo de teste para amostrar candidatos a ação, classificá-los por consistência de re-denoising e invocar retificação baseada em simulador para candidatos de baixa qualidade. Em tarefas desafiadoras de manipulação robótica de longo horizonte e granularidade fina, o τ_0-WM apresenta desempenho superior em comparação com outras baselines relevantes.

Mostre, não conte: Detecção Explicável de Texto Gerado por IA
Show, Don't TELL: Explainable AI-Generated Text Detection

May 27

ByAldan Creo, Suraj Ranganath

A pesquisa sobre detecção de texto gerado por IA apresentou diversas abordagens para distinguir prosa humana de artificial, algumas das quais alcançando alto desempenho dentro da distribuição. No entanto, a aplicabilidade no mundo real estagnou porque seus resultados não estão alinhados às necessidades dos usuários, como professores, que recebem uma pontuação numérica sem qualquer explicação associada. Abordamos esse problema com uma nova arquitetura, TELL, que incorpora explicabilidade desde a concepção. Embora nosso sistema ainda ofereça uma pontuação numérica como outros detectores para fins de comparabilidade, o TELL adota uma abordagem fundamentalmente diferente, na qual buscamos mostrar ao usuário as "pistas" pelas quais o modelo acredita que um texto seja escrito por IA ou humano, capacitando o usuário a decidir quem escreveu um texto usando seu próprio julgamento e compreensão do contexto da escrita e de seu suposto autor. Treinamos o TELL em um conjunto de dados SFT personalizado com anotações de autoria específicas ao domínio, e refinamos ainda mais o sistema usando GRPO com aprendizagem curricular para melhorar o desempenho. Alcançamos desempenho competitivo com detectores de última geração (AUROC 0,927), ao mesmo tempo que fornecemos nativamente anotações que explicam a base da decisão do detector. Avaliamos ainda a qualidade de nossas explicações usando um conjunto de dados de anotações humanas e relatamos uma alta taxa de vitória (média de 72,3%) em concretude, falseabilidade, coerência, plausibilidade e fundamentação das anotações, permitindo que os usuários pensem criticamente e decidam por si mesmos. Assim, nosso trabalho reformula o problema da detecção de texto gerado por IA sob uma perspectiva centrada no ser humano e abre caminho para uma nova família de detectores focados em explicabilidade nativa.