HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

49 papers found

DVAO: Otimização de Vantagem Adaptativa à Variância Dinâmica para Aprendizado por Reforço com Múltiplas Recompensas
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

May 25

ByGuochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

116

O Aprendizado por Reforço tornou-se um paradigma padrão para alinhar Modelos de Linguagem de Grande Porte com a intenção humana e os requisitos de tarefas. Embora a Otimização Política Relativa a Grupos ofereça uma alternativa eficiente e livre de modelo de valor à Otimização Política Proximal, sua adaptação a cenários reais com múltiplas recompensas permanece desafiadora. Práticas padrão de escalarização, como Combinação de Recompensas e Combinação de Vantagens, apresentam desvantagens significativas: a Combinação de Recompensas frequentemente gera vantagens com magnitudes quadráticas excessivamente grandes que levam à instabilidade no treinamento, enquanto a Combinação de Vantagens depende de hiperparâmetros estáticos e ignora correlações entre objetivos. Para lidar com essas limitações, propomos a Otimização Dinâmica de Vantagens com Variância Adaptativa (DVAO), que ajusta dinamicamente os pesos de combinação com base na variância empírica da recompensa de cada objetivo dentro de um grupo de rolagem, aumentando efetivamente o peso de objetivos com um sinal de aprendizado mais forte enquanto suprime os ruidosos. Provamos matematicamente que o DVAO mantém magnitudes de vantagem limitadas para treinamento estável e introduz um mecanismo de regularização auto-adaptativa entre objetivos. Experimentos extensivos em benchmarks de raciocínio matemático e uso de ferramentas, utilizando os modelos Qwen3 e Qwen2.5, demonstram que o DVAO supera significativamente os métodos de base, alcançando uma fronteira de Pareto multiobjetivo superior e robusta estabilidade de treinamento.

WBench: Um Benchmark Abrangente de Múltiplas Interações para Avaliação de Modelos de Mundo de Vídeo Interativo
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25

ByKaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding

Os modelos de mundo interativos estão avançando rapidamente, no entanto, os benchmarks existentes cobrem apenas parte das competências necessárias, não havendo um padrão unificado para avaliação sistemática. Para preencher essa lacuna, apresentamos o WBench, um benchmark abrangente e multiturno para avaliação de modelos de mundo interativos ao longo de cinco dimensões: qualidade de vídeo, aderência ao cenário, aderência à interação, consistência e conformidade com a física. O WBench contém 289 casos de teste e 1.058 turnos de interação, onde cada caso especifica um cenário mundial e uma sequência de interação multiturno, abrangendo diversas cenas, estilos, sujeitos e perspectivas tanto em primeira quanto em terceira pessoa, juntamente com quatro tipos de interação: navegação, ação do sujeito, edição de eventos e alternância de perspectiva. Para navegação, o WBench unifica texto, pose de 6 GDL e controle de ação discreta, permitindo a avaliação de modelos com diferentes interfaces de entrada nativas. A avaliação utiliza 22 submétricas automáticas que combinam modelos de visão especialistas com modelos multimodais grandes, e todas as métricas são validadas por julgamentos humanos. Em 20 modelos de última geração, constatamos que nenhum modelo individual apresenta bom desempenho em todas as dimensões. Fornecemos insights diagnósticos detalhados sobre os pontos fortes, fracos e desafios em aberto característicos de cada modelo. O código e os dados estão disponíveis em https://github.com/meituan-longcat/WBench.

Macaron-A2UI: Um Modelo para UI Generativa em Agentes Pessoais
Macaron-A2UI: A Model for Generative UI in Personal Agents

May 24

ByFancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang, Hao Fu, Gene Jin, Song Cao, Kaijie Chen, Andrew Chen, Pony Ma

À medida que os agentes pessoais evoluem para lidar com tarefas complexas centradas no usuário, o chat estático de texto simples rapidamente se torna um gargalo. A IU Generativa surge como a nova camada de interface necessária, sintetizando dinamicamente os controles, opções e estados adequados a partir do contexto de interação em tempo real. Apresentamos o Macaron-A2UI, um modelo de IU Generativa para agentes pessoais. Nosso objetivo é ir além da interação exclusivamente textual, permitindo que os agentes gerem linguagem natural juntamente com ações de IU leves e executáveis para coleta de informações, refinamento de preferências, confirmação e organização de múltiplos objetivos. Construímos um corpus de IU Generativa em larga escala a partir de fontes heterogêneas de diálogo, introduzimos o A2UI-Bench para avaliação controlada e treinamos modelos de 30B, 235B e 754B com ajuste fino supervisionado baseado em LoRA com eficiência de parâmetros, seguido de aprendizado por reforço orientado por recompensa. O melhor modelo Macaron-A2UI alcançou 75,6 no geral no A2UI-Bench sem dicas explícitas de esquema, superando a linha de base de fronteira mais forte com esquema completo. Disponibilizamos os modelos, o benchmark e o protocolo de avaliação para apoiar trabalhos futuros sobre IU Generativa para agentes pessoais.

Protocolo de Fundação: Uma Camada de Coordenação para a Sociedade de Agentes
Foundation Protocol: A Coordination Layer for Agentic Society

May 22

ByBang Liu, Yongfeng Gu, Jiayi Zhang, Zhaoyang Yu, Sirui Hong, Maojia Song, Xiaoqiang Wang, Mingyi Deng, Zijie Zhuang, Ronghao Wang, Mingzhe Cao, Yutong Zhu, Xingjian Li, Yifan Wu, Jianhao Ruan, Yiran Peng, Shuangrui Chen, Jinlin Wang, Yizhang Lin, Dongjie Zhang, Dekun Wu, Chen Ma, Lizi Liao, Han Yu, Jian Pei, Heng Ji, Qiang Yang, Yuyu Luo, Chenglin Wu

Agentes autônomos estão transitando de ferramentas para uma camada de infraestrutura social: eles navegam, compram, implantam software, gerenciam sistemas e, cada vez mais, interagem entre si. À medida que esses sistemas escalam, o gargalo se desloca da capacidade bruta do modelo para a coordenação. Os agentes precisam estabelecer relações confiáveis, organizar trabalho multiagente, trocar valor, sustentar uma economia de IA e permanecer seguros e responsáveis sob supervisão no mundo real. Este artigo apresenta o Foundation Protocol (FP), uma camada de coordenação baseada em grafos para uma sociedade humano-IA emergente. O FP unifica entidades heterogêneas, incluindo agentes, ferramentas, recursos, humanos, instituições e organizações, e oferece suporte nativo à organização multipartidária e à colaboração baseada em eventos. Também fornece primitivas econômicas para medição, recibos e liquidação, e trata políticas, procedência e auditoria como preocupações de primeira classe. O FP é projetado para envolver e conectar protocolos existentes, em vez de substituí-los, permitindo adoção incremental e reduzindo a sobrecarga de integração e governança. O objetivo é manter a agência autônoma composável, enquanto mantém a responsabilidade inegociável, de modo que a própria coordenação possa se tornar uma infraestrutura compartilhada para uma sociedade humano-IA que seja aberta, pluralista e governável.

TriSplat: Reconstrução de Cenas 3D Feed-Forward Pronta para Simulação
TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25

ByWeijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang

A reconstrução 3D de visão esparsa é cada vez mais abordada com redes de splatting feed-forward que predizem primitivas explícitas diretamente a partir de imagens. No entanto, a maioria dos métodos existentes permanece centrada em primitivas Gaussianas e expõe superfícies apenas indiretamente: extrair uma malha utilizável para simulação downstream, raciocínio físico ou interação incorporada ainda requer etapas posteriores dispendiosas que quebram a promessa feed-forward. Essa limitação é especialmente pronunciada em configurações sem pose, onde a estrutura da cena e os parâmetros da câmera devem ser estimados conjuntamente a partir de observações esparsas. Apresentamos o TriSplat, uma rede de reconstrução feed-forward que representa cenas com primitivas triangulares orientadas e exporta diretamente cenas de malha prontas para simulação a partir de uma única passagem forward. Dadas imagens de entrada, a rede prediz mapas de pontos 3D locais, atributos dos triângulos, poses da câmera e parâmetros intrínsecos opcionais. Em vez de regredir a orientação dos triângulos como uma variável latente não restrita, nossa abordagem constrói normais geométricas a partir dos mapas de pontos preditos, refina-as com uma cabeça de normais condicionada à imagem e as converte em quadros locais estáveis para a parametrização dos triângulos. Uma programação de bootstrap mono-normal estabiliza ainda mais o treinamento inicial, enquanto a programação de opacidade e desfoque refina progressivamente a representação de superfície aprendida para extração direta de malha. Experimentos em RealEstate10K e DL3DV mostram que essa representação produz reconstruções mais fiéis à geometria do que as bases feed-forward Gaussianas, mantendo qualidade competitiva de renderização de vistas novas. Como as primitivas de renderização são, elas mesmas, triângulos de superfície, a saída pode ser diretamente ingerida por motores físicos, detectores de colisão e pipelines de renderização padrão, sem qualquer conversão, tornando-a uma solução prática e pronta para simulação para reconstrução feed-forward de cenas 3D.

Rumo à Modelagem Multimodal Nativa: Um Roteiro
Toward Native Multimodal Modeling: A Roadmap

May 25

BySiyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun

A modelagem multimodal representa um passo vital do raciocínio agnóstico em relação à modalidade em direção à modelagem do mundo. Embora as abordagens iniciais se baseiem predominantemente na fusão tardia, que reúne codificadores e backbones de linguagem congelados com cabeças de saída, esforços recentes deslocaram o paradigma em direção à modelagem multimodal nativa (NMM) com a integração intrínseca das modalidades para um desempenho multimodal superior. Apesar de seu potencial, o espaço de projeto de arquiteturas nativas permanece insuficientemente definido. Neste artigo, apresentamos à comunidade um roteiro formalizado para essa transição. Especificamente, definimos formalmente a naticidade arquitetural, distinguindo a fusão intermediária e a fusão precoce dos paradigmas não nativos. Organizamos ainda os modelos nativos existentes através da lente da dualidade entrada-saída em três categorias: (i) Multi-to-Text para compreensão cross-modal com saída apenas de texto; (ii) Multi-to-Target para geração orientada a cenários, por exemplo, geração de imagens, áudio e vídeo; e (iii) Multi-to-Multi para modelagem unificada com entrada-saída simétrica. Realizamos uma investigação abrangente e de nível industrial sobre a transição para o framework NMM definitivo, onde compreensão e geração coexistem perfeitamente dentro de um paradigma de transformer unificado. Desempacotamos sistematicamente o pipeline ponta a ponta sob perspectivas industriais, desde coordenação arquitetural, curadoria massiva de dados, até receitas de treinamento full-stack, inferência e implantação, e a avaliação abrangente para uma modelagem verdadeiramente nativa.

ParaVT: Superando o Paradoxo do Prior de Ferramentas para Uso Paralelo de Ferramentas no Aprendizado por Reforço com Vídeo para Agentes
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

May 19

ByZuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

Treinar modelos multimodais grandes (LMMs) via aprendizagem por reforço (RL) para invocar nativamente ferramentas de processamento de vídeo (e.g., recorte) tornou-se uma rota promissora para a compreensão de vídeos longos. No entanto, os métodos nativos de RL existentes despacham chamadas de ferramentas sequencialmente (ou seja, uma por turno): um único recorte errado propaga erros sem correção entre pares, chamadas de ferramentas em múltiplos turnos corrompem o contexto, e o custo de inferência escala linearmente com o número de turnos. Apresentamos o ParaVT, o primeiro framework multiagente treinado com RL de ponta a ponta para Chamada Paralela de Ferramentas de Vídeo, despachando múltiplos recortes de janelas temporais em um único turno para um contexto mais limpo e melhor tolerância a falhas. No entanto, aplicar RL padrão ao ParaVT revela um obstáculo que denominamos Paradoxo da Prioridade da Ferramenta: as prioridades pré-treinadas das ferramentas que permitem a exploração de ferramentas também desestabilizam o formato estrutural iniciado a frio e expõem o atalho de recompensa por ignorar a ferramenta sob amostragem por temperatura. Uma comparação entre modelos em um LMM com prioridade mais fraca corrobora essa afirmação: o formato permanece estável, mas a RL não elicita nenhuma chamada de ferramenta, indicando que a força da prioridade é o fator compartilhado tanto do colapso do formato quanto da exploração de ferramentas. Propomos o PARA-GRPO (GRPO Ancorado em Parseabilidade e Limitado por Razão), que aumenta a RL padrão com dois mecanismos complementares: (i) uma recompensa de formato direcionada aplicada apenas nas posições de tokens estruturais mais propensas ao colapso, e (ii) uma randomização do orçamento de quadros por prompt que cria prompts de treinamento onde chamar a ferramenta produz um sinal de recompensa mensurável em relação a ignorá-la. Em seis benchmarks de compreensão de vídeos longos, o ParaVT melhora a linha de base Qwen3-VL em +7,9% em média, com o PARA-GRPO elevando a conformidade de formato durante o treinamento de 0,13 para 0,64. À medida que as capacidades das ferramentas se tornam cada vez mais internalizadas nos LMMs modernos, a RL deve cooperar com as prioridades resultantes, e o ParaVT oferece uma receita geral para RL agentiva. Código, dados e pesos do modelo estão disponíveis publicamente.

QUEST: Treinando Agentes de Pesquisa Profunda de Fronteira com Tarefas Totalmente Sintéticas
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

May 22

ByJian Xie, Tianhe Lin, Zilu Wang, Yuting Ning, Yuekun Yao, Tianci Xue, Zhehao Zhang, Zhongyang Li, Kai Zhang, Yufan Wu, Shijie Chen, Boyu Gou, Mingzhe Han, Yifei Wang, Vint Lee, Xinpeng Wei, Xiangjun Wang, Yu Su, Huan Sun

Agentes de pesquisa profunda estendem o papel dos motores de busca, desde a recuperação de páginas correspondentes a palavras-chave até a síntese de conhecimento, mudando fundamentalmente como os humanos interagem com a informação. No entanto, os sistemas de fronteira permanecem proprietários, enquanto os agentes abertos existentes frequentemente generalizam mal entre diferentes tipos de tarefa, deixando incerto como treinar um agente de pesquisa profunda amplamente capaz. Lançamos o QUEST, uma família de modelos abertos (variando de 2B a 35B) que servem como agentes de pesquisa profunda de propósito geral, projetados para lidar com uma ampla gama de tarefas de busca de longo horizonte, com fortes capacidades em busca de fatos, fundamentação de citações e síntese de relatórios. Para construir o QUEST, propomos uma receita de treinamento eficaz que combina treinamento intermediário, ajuste fino supervisionado e aprendizado por reforço. Central para esta receita é um pipeline de síntese de dados curados baseado em árvores de rubrica unificadas, que se aplica a diferentes tipos de tarefa e permite sintetizar dados de treinamento com recompensas verificáveis sem anotação humana. Além disso, o QUEST incorpora um mecanismo de gerenciamento de contexto integrado que possibilita raciocínio de longo horizonte e síntese de conhecimento eficazes. Usando apenas 8 mil tarefas sintetizadas, o QUEST se aproxima ou até supera agentes de fronteira de código fechado em oito benchmarks de pesquisa profunda que abrangem diversos tipos de tarefa, e alcança o melhor desempenho geral entre agentes de peso aberto recentes. Disponibilizamos tudo: modelos, dados e scripts de treinamento.

ThriftAttention: Precisão Mista Seletiva para Atenção FP4 de Contexto Longo
ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

May 21

ByJoe Sharratt

Algoritmos de atenção eficientes são cruciais para mitigar o custo quadrático da atenção em cargas de trabalho de contexto longo. Trabalhos anteriores utilizam técnicas de quantização em escala de bloco em GPUs Blackwell para mover o cálculo da atenção para precisão de 4 bits, acelerando a inferência. No entanto, essas técnicas resultam em degradação significativa da qualidade em contextos longos. Mostramos que o impacto do erro de quantização na saída é altamente não uniforme e aumenta com a importância de cada interação consulta-chave, concentrando erros funcionalmente relevantes em um pequeno número de blocos de atenção que contêm os tokens mais importantes. Propomos o ThriftAttention, uma variante de atenção de baixa precisão que oferece qualidade de contexto longo próxima ao FP16 com eficiência de inferência FP4. Essa abordagem ocorre em duas etapas. Primeiro, uma heurística seleciona rapidamente um pequeno número de pares de blocos consulta-chave importantes para precisão FP16. Segundo, os blocos selecionados são calculados em FP16 e os blocos restantes em FP4, com ambos os caminhos mesclados via softmax online em uma única saída. Demonstramos, em benchmarks de contexto longo e famílias de modelos, que, ao calcular apenas 5% dos blocos consulta-chave em FP16, o ThriftAttention recupera, em média, 89,1% da lacuna de desempenho entre FP4 e FP16. Mostramos que a vantagem do ThriftAttention cresce com o comprimento da sequência, mitigando a degradação sistemática de qualidade FP4 observada em contextos mais longos. O código está disponível em https://github.com/joesharratt1229/ThriftAttention.

AutoResearch AI: Rumo à Automação de Pesquisa Impulsionada por IA para Descoberta Científica
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

May 22

ByGuiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng, Xueyang Zhou, Daizong Liu, Pan Zhou, Yongchao Chen, Ran Xu, Lifang He, Qingsong Wen, Manling Li, Cong Lu, Shuai Li, Pengtao Xie, Yixuan Yuan, Rui Meng, Lei Xing, Lichao Sun, Caiming Xiong, Philip S. Yu, Jianfeng Gao

A pesquisa científica está sendo remodelada por sistemas de IA que transcendem o suporte isolado, direcionando-se a fluxos de trabalho de horizonte mais longo, abrangendo fundamentação bibliográfica, geração de hipóteses, experimentação, validação, relato e revisão. Essa mudança marca uma transição da IA de nível de tarefa para a automação de pesquisa em nível de fluxo de trabalho. No entanto, os sistemas atuais permanecem fragmentados, diferindo em autonomia, escopo de domínio, ambiente de execução, mecanismo de validação e supervisão humana, ao mesmo tempo em que ainda enfrentam dificuldades com preservação de evidências, reprodutibilidade, rejeição de direções fracas, rastreamento de proveniência, robustez entre domínios e encerramento científico responsável. Esta pesquisa examina esses desenvolvimentos por meio da AutoResearch, definida como o espectro evolutivo da automação de fluxos de trabalho científicos impulsionada por IA. Dentro dela, Vibe Research denota a região orientada por humanos, de assistência baseada em prompts e execução verificada por humanos, enquanto sistemas emergentes liderados por IA coordenam porções maiores do ciclo de descoberta sem alcançar autonomia robusta. Analisamos como os sistemas de pesquisa redistribuem controle, evidências, execução, validação e responsabilidade ao longo dos fluxos de trabalho, organizando o campo em torno de cinco condições de fluxo de trabalho: fundamentação bibliográfica e de pesquisa; formulação e planejamento de hipóteses; experimentação e uso de ferramentas; feedback, validação e revisão; e relato e comunicação do conhecimento. Ademais, sintetizamos sistemas de cientistas de IA, estruturas de co-pesquisa de iniciativa mista, benchmarks, implantações em domínios e infraestruturas de código aberto. Por fim, propomos cinco dimensões de avaliação — novidade, validade, impacto, confiabilidade e proveniência — e mostramos que a autonomia da AutoResearch é condicionada ao domínio, sendo mais credível em ambientes estruturados, executáveis e rapidamente verificáveis, porém limitada em contextos incorporados, atrasados, heterogêneos, éticos ou institucionalmente responsáveis.

Seu modelo de embeddings é mais inteligente do que você imagina.
Your Embedding Model is SMARTer Than You Think

May 24

ByJianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee

A recuperação multimodal depende fortemente de recuperadores de vetor único, que comprimem sequências ricas e sequenciais de tokens em uma única representação global. Embora eficientes, eles descartam evidências locais e refinadas, essenciais para tarefas de recuperação densa. Abordagens multivetoriais foram introduzidas como solução, mas exigem treinamento estrito e muitas ignoram a necessidade de uma representação sumarizadora global. Para resolver isso, apresentamos o SMART, um framework que desbloqueia as capacidades multivetoriais latentes de modelos padrão de vetor único. Primeiro, demonstramos que o treinamento contrastivo padrão na incorporação agregada molda implicitamente a geometria de recuperação dos estados ocultos precedentes por meio de fluxo gradiente. Ao aplicar interação tardia diretamente sobre esses estados ocultos congelados durante a inferência, o SMART atua como uma atualização plug-and-play que melhora consistentemente o desempenho em diversas modalidades, aprimorando até mesmo modelos estado da arte no MMEB-V2. Também revelamos o desempenho superior do SMART, já que um pós-treinamento leve e simples não apenas economiza tempo e computação, mas também traz melhorias adicionais na recuperação de documentos visuais, permitindo que um modelo de vetor único supere equivalentes multivetoriais estado da arte. Por fim, o SMART oferece tanto um aprimoramento de inferência altamente eficiente quanto uma técnica poderosa de ajuste fino para recuperação multimodal. Disponibilizamos nosso código e pesos em https://github.com/HanSolo9682/SMART.

Pantheon360: Dominando a Geração de Gêmeos Digitais via Difusão de Vídeo 360° com Consciência 3D
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25

ByTing-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren

Gerar gêmeos digitais completos a partir de vídeos requer controle preciso da câmera, cobertura global da cena e restrições rigorosas de consistência espaço-temporal, que permanecem desafiadoras para geradores de vídeo em perspectiva devido ao seu campo de visão (FoV) limitado. Seu FoV estreito força trajetórias longas ou multivisuais, amplificando a inconsistência entre vistas e o desvio temporal. Argumentamos que a geração de vídeos em 360° oferece uma solução natural: a cobertura panorâmica simplifica o design de trajetórias e fornece um contexto global robusto para manter a coerência. Apresentamos o Pantheon360: Dominando a Geração de Gêmeos Digitais via Difusão de Vídeos 360° Consciente em 3D, uma estrutura controlável de geração de vídeos em 360° que sintetiza vídeos de alta fidelidade a partir de entradas 360° esparsas. A ideia central é um Cache 3D explícito, reconstruído a partir da entrada, que serve como uma estrutura geométrica para qualquer trajetória de câmera definida pelo usuário. Isso permite que o modelo de difusão se concentre no refinamento fotorrealista de texturas, enquanto o Cache 3D impõe consistência geométrica global. Experimentos mostram que o Pantheon360 alcança qualidade visual superior e coerência geométrica incomparável, possibilitando a geração confiável e flexível de cenas em 360° para aplicações downstream de simulação e gêmeos digitais.

CUA-Gym: Escalando Ambientes e Tarefas de Treinamento Verificáveis para Agentes de Uso de Computador
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

May 25

ByBowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu

Aprendizado por reforço com recompensas verificáveis (RLVR) impulsionou avanços em domínios como matemática, uso de ferramentas e engenharia de software, mas sua extensão para agentes de uso de computador (CUAs) tem sido limitada pela escassez de dados de treinamento escaláveis com recompensas determinísticas. Construir tais dados para CUAs requer instruções de tarefa consistentes, ambientes executáveis e recompensas verificáveis. No entanto, benchmarks curados manualmente alcançam alta fidelidade de recompensa, mas abrangem poucas aplicações, enquanto conjuntos de dados baseados em LLM como juiz escalam amplamente, mas carecem de verificação confiável. Apresentamos o CUA-Gym, um pipeline escalável que co-gera instruções de tarefa, estados de ambiente e funções de recompensa. Concretamente, um Agente Gerador constrói os estados de ambiente iniciais e dourados, e um Agente Discriminador separado escreve a função de recompensa a partir da especificação da tarefa. Um agente orquestrador conduz ambos por meio de rodadas iterativas durante a execução. As tuplas geradas passam então por um filtro final que combina votação majoritária de LLM e execuções do agente, garantindo qualidade além do loop adversarial por tarefa. Para lidar com a escassez de ambientes de treinamento, sintetizamos ainda o CUA-Gym-Hub, um amplo conjunto de aplicações web simuladas de alta fidelidade, fundamentadas em distribuições reais de uso de software, expandindo a escala dos dados de RLVR para CUAs por uma ordem de magnitude. Usando este pipeline, construímos o CUA-Gym, um conjunto de dados de 32.112 tuplas de treinamento RLVR verificadas, fundamentadas em 110 ambientes. Treinados com GSPO no CUA-Gym, nossos CUA-Gym-A3B e CUA-Gym-A17B alcançam 62,1% e 72,6% no OSWorld-Verified, superando CUAs open-source anteriores em escalas comparáveis, com desempenho escalando suavemente tanto no volume de dados quanto na diversidade de ambientes. Os mesmos checkpoints também melhoram no benchmark WebArena reservado, indicando transferência além dos ambientes de treinamento. Disponibilizaremos como código aberto o pipeline completo de síntese, o conjunto de dados, os ambientes do CUA-Gym-Hub e os modelos.

ControlLight: Rumo à Melhoria de Baixa Luminosidade Controlável, Consistente e Generalizável
ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

May 25

ByYufeng Yang, Jianzhuang Liu, Jisheng Chu, Yuqi Peng, Xianfang Zeng, Jiancheng Huang, Shifeng Chen

Os métodos existentes de realce de pouca luz baseados em aprendizado profundo são tipicamente treinados em conjuntos de dados limitados com alvos únicos de realce, o que restringe sua capacidade de generalização e controlabilidade em aplicações do mundo real. Para superar essas limitações, propomos o ControlLight, uma estrutura controlável, consistente e generalizável para realce de pouca luz. Primeiro, construímos um conjunto de dados em grande escala de imagens degradadas do mundo real com supervisão contínua de intensidade de iluminação. Para garantir ainda mais saídas consistentes sob diferentes intensidades de controle, introduzimos uma perda de correspondência de fluxo ponderada sensível a desalinhamentos que preserva a estrutura da imagem em intensidades de realce contínuas. O ControlLight permite que os usuários editem imagens degradadas de pouca luz do mundo real em direção a resultados de realce satisfatórios, controlando flexivelmente a intensidade, enquanto preservam a consistência visual e o realismo. Experimentos extensivos mostram que o ControlLight alcança desempenho de estado da arte em relação às abordagens existentes de realce de pouca luz, demonstrando forte controlabilidade contínua e generalização para cenários do mundo real.

Claw-Anything: Benchmarking de Assistentes Pessoais Sempre Ativos com Acesso Ampliado ao Mundo Digital do Usuário
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

May 25

ByYusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

Os agentes de modelos de linguagem de grande escala são cada vez mais concebidos como assistentes pessoais sempre ativos, com acesso a qualquer informação relevante no mundo digital do usuário. No entanto, os sistemas atuais operam apenas sobre fatias estreitas desse mundo, limitando o raciocínio sensível ao contexto e a assistência eficaz. Os referenciais existentes também fornecem apenas um estado parcial do usuário e, portanto, não conseguem capturar o desempenho em um cenário tão amplo e sempre ativo. Para preencher essa lacuna, apresentamos o Claw-Anything, um referencial que expande o contexto do agente em três dimensões: históricos de atividades de longo prazo, serviços de backend interdependentes e interação integrada entre GUI e CLI em múltiplos dispositivos. Para instanciar esse cenário, simulamos meses de atividade do usuário por meio de injeção de eventos em múltiplas rodadas, produzindo estados de mundo complexos e ruído realista, incluindo eventos irrelevantes e sinais conflitantes. Os agentes devem raciocinar sobre ambientes contextuais ricos, mantendo-se robustos a esse ruído. Esse escopo expandido também permite a avaliação de assistência proativa, exigindo que os agentes antecipem as necessidades do usuário e ofereçam recomendações oportunas. Experimentos mostram que o GPT-5.5 alcança apenas 34,5% de pass@1, substancialmente abaixo dos referenciais anteriores, destacando uma lacuna entre as capacidades atuais dos agentes e as demandas da assistência pessoal sempre ativa. Juntamente com o referencial, disponibilizamos um pipeline automatizado de geração de dados que produz 2.000 ambientes de treinamento e melhora o modelo base em 23,7%, demonstrando a utilidade de uma infraestrutura de dados escalável.

Antecipar e Aprender: Liberando o Processamento em Tempo Ocioso em Agentes Proativos
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

May 25

ByHaoyi Hu, Qirong Lyu, Xianghan Kong, Weiwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu

Embora agentes de IA demonstrem capacidades notáveis em raciocínio e uso de ferramentas, eles permanecem fundamentalmente reativos: calculam respostas apenas após solicitações explícitas do usuário. Esse paradigma ignora uma oportunidade crítica: o tempo ocioso entre interações é amplamente desperdiçado, deixando os agentes incapazes de se preparar para necessidades futuras do usuário. Para superar essa lacuna, apresentamos o ProAct, uma arquitetura de agente proativa que aproveita a computação em tempo ocioso para antecipar e atender a prováveis necessidades futuras do usuário. Ao analisar o histórico de diálogo em evolução juntamente com memória persistente, o ProAct prevê necessidades futuras e adquire informações iterativamente, permitindo que o agente resolva lacunas de conhecimento e prepare evidências antes que o usuário inicie uma consulta. Para avaliar rigorosamente as capacidades proativas, também introduzimos o ProActEval, um benchmark abrangente composto por 200 cenários em 40 domínios, apresentando cadeias de necessidades previsíveis e diversos perfis cognitivos de usuários. Resultados empíricos demonstram vantagens significativas sobre linhas de base reativas. O ProAct acelera a conclusão de tarefas ao reduzir as rodadas necessárias em 14,8%, diminui o esforço do usuário em 11,7% e reduz as taxas de alucinação em 28,1% no ProActEval. Além disso, avaliações no MemBench confirmam que o ProAct atinge precisão reflexiva de ponta, ressaltando seu desempenho sustentado e robusto.

Destilação de Fluxo Adversarial On-Policy para Geração Autoregressiva de Vídeo
On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

May 25

ByYang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You

Geradores de vídeo autorregressivos são atrativos para aplicações de streaming, de longo horizonte e interativas, mas destilar professores black-box fortes em alunos causais continua sendo difícil. O aluno deve aprender sob sua própria distribuição de rollout, enquanto professores práticos podem expor apenas vídeos completos condicionados a prompts e podem diferir em arquitetura, capacidade, design temporal e cronograma de amostragem. Essa interface torna o ajuste fino supervisionado fora da política, a destilação baseada em scores inaplicável e a imitação adversarial direta muito esparsa para atribuição de crédito no tempo de denoising. Propomos a Destilação de Fluxo Adversarial (AFD), uma estrutura on-policy para destilação de vídeo black-box heterogênea. A AFD consulta o professor e executa o rollout do aluno atual nos mesmos prompts, treina um discriminador Bradley-Terry pareado com prompts para estimar a discrepância professor-aluno em amostras limpas e converte a vantagem on-policy resultante em atualizações de flow-matching no processo forward nos estados ruidosos do próprio aluno. Assim, a AFD fornece supervisão densa do campo de velocidade sem exigir scores, latentes, trajetórias de denoising, alinhamento de etapas ou aprendizado por reforço em cadeia reversa do professor. Experimentos em duas famílias de alunos AR causais mostram que a AFD melhora consistentemente a geração sensível a movimento e física, preservando a qualidade geral do vídeo, e ablações validam a importância do feedback adaptativo on-policy e da atribuição de crédito no processo forward. O método requer apenas vídeos limpos do professor e rollouts do aluno, fornecendo uma rota prática para destilar geradores de vídeo proprietários ou heterogêneos em alunos autorregressivos eficientes.

SkillEvolBench: Benchmarking da Evolução da Experiência Episódica para Habilidades Processuais
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

May 22

ByYingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Agentes baseados em modelos de linguagem de grande porte acumulam trajetórias episódicas ricas ao resolver tarefas do mundo real, mas ainda não está claro se tais experiências podem ser destiladas em habilidades procedurais reutilizáveis. Apresentamos o SkillEvolBench, um benchmark diagnóstico para avaliar essa transição do reuso de experiências para a formação de habilidades. Ele contém 180 tarefas distribuídas em seis ambientes de agentes do mundo real, organizadas em famílias de tarefas condicionadas por papéis, com procedimentos latentes compartilhados. Os agentes aprendem a partir de tarefas de aquisição, atualizam uma biblioteca externa de habilidades usando trajetórias compactadas e feedback do verificador, e então enfrentam tarefas de implantação congeladas que testam mudanças de contexto, atalhos adversários e composição. Ao comparar a evolução de habilidades autogeradas e com ponto de partida curado contra controles sem habilidades e com trajetórias brutas, o SkillEvolBench separa a abstração procedural da capacidade base, conhecimento prévio curado e reuso direto de traços episódicos. Em dez configurações de modelo e três arcabouços de agentes, descobrimos que os agentes atuais frequentemente se adaptam localmente, mas raramente formam habilidades robustas e reutilizáveis. Condições baseadas em habilidades podem melhorar a aquisição ou repetição, e modelos individuais às vezes ganham em eixos específicos de implantação, mas esses ganhos são instáveis sob implantação congelada. O reuso de trajetórias brutas frequentemente supera as habilidades destiladas, sugerindo que os procedimentos atuais de abstração descartam pistas contextuais e procedurais que permanecem úteis para tarefas futuras. Análises de capacidade e custo mostram ainda que escrever mais habilidades ou maiores bibliotecas de recursos do Nível 3 não é suficiente: atualizações adicionais podem melhorar a cobertura, mas introduzem deriva específica de episódios e desordem procedural. Esses achados posicionam o SkillEvolBench como um ambiente de teste para medir quando uma experiência pontual se torna conhecimento procedural durável, e não memória local de tarefa.

Quantização Vetorial por Canal
Channel-wise Vector Quantization

May 25

ByWei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

Apresentamos a Quantização Vetorial por Canal (CVQ), um novo paradigma de tokenização de imagens que substitui tokens por patch por tokens por canal. Diferentemente da quantização vetorial convencional, que atribui um token discreto a cada vetor de características de patch, a CVQ quantiza cada canal do mapa de características. Essa formulação representa uma imagem como níveis discretos de detalhes visuais, em vez de uma grade de patches espaciais. Com base na CVQ, introduzimos um novo framework autoregressivo visual com "predição do próximo canal". Em vez de renderizar imagens patch por patch em ordem raster, nosso modelo Autoregressivo por Canal (CAR) prediz canais de imagem sequencialmente, produzindo detalhes visuais progressivamente enriquecidos. Especificamente, ele primeiro esboça a estrutura global e depois refina atributos de granularidade fina, semelhante ao fluxo de trabalho de um artista humano. Empiricamente, mostramos que: (1) a CVQ alcança 100% de utilização do codebook com um tamanho de codebook de 16K+ sem nenhum artifício adicional, e melhora substancialmente a qualidade da reconstrução em relação à VQ convencional; e (2) o CAR atinge uma pontuação DPG de 86,7 e uma pontuação GenEval de 0,79, demonstrando forte eficácia para geração de texto para imagem.

MemForest: Um Sistema de Memória de Agente Eficiente com Indexação Temporal Hierárquica
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

May 16

ByHan Chen, Zining Zhang, Wenqi Pei, Bingsheng He, Ming Wu, Jason Zeng, Michael Heinrich, Wei Wu, Hongbao Zhang

A memória é um componente fundamental para habilitar agentes de LLM de contexto longo, suportando estado persistente entre interações através de um ciclo contínuo de serviço e atualização. Apesar de trabalhos anteriores substanciais, os sistemas existentes sofrem de sobrecarga significativa de manutenção devido a duas limitações principais: gerenciamento de estado de granularidade grossa e pipelines de atualização inerentemente sequenciais. Em particular, as atualizações são frequentemente fortemente acopladas à inferência do LLM e exigem reescritas completas do estado, levando a baixa escalabilidade e latência crescente à medida que a memória se acumula. Para enfrentar esses desafios, apresentamos o MemForest, um framework de memória que reformula a memória do agente como um problema de gerenciamento de dados temporal eficiente em escrita. O MemForest quebra o gargalo sequencial por meio de extração paralela de chunks, desacoplando a construção da memória em operações concorrentes e independentes. Para eliminar ainda mais a manutenção de granularidade grossa, introduzimos o MemTree, um índice temporal hierárquico que organiza a memória como árvores ordenadas no tempo, em vez de sumários globais planos. Esse design substitui reescritas completas do estado por atualizações localizadas por nó, reduzindo o custo de manutenção aos caminhos de árvore afetados, enquanto preserva naturalmente estados que evoluem temporalmente. Avaliamos o MemForest em dois benchmarks de memória de contexto longo, LongMemEval-S e LoCoMo. No LongMemEval-S, o MemForest alcança o melhor desempenho geral entre as linhas de base com estado, atingindo 79,8% de precisão pass@1, enquanto sustenta uma taxa de transferência de construção de memória aproximadamente 6 vezes maior do que abordagens de ponta, incluindo EverMemOS.

Correspondência de Fluxo de Imagem Consciente da Geometria
Geometry-Aware Image Flow Matching

May 24

ByJunho Lee, Kwanseok Kim, Joonseok Lee

Avanços recentes em modelos generativos destacam o poder da modelagem consciente da geometria em configurações restritas por variedades. No entanto, para imagens naturais, o campo permanece confinado a suposições euclidianas, não explorando o potencial das estruturas geométricas intrínsecas presentes nos dados. Neste trabalho, investigamos a geometria de imagens naturais e observamos que a informação semântica é predominantemente codificada em componentes direcionais, enquanto as componentes de norma podem ser aproximadas pela média global. Essa propriedade se mantém tanto em espaços RGB quanto latentes, sugerindo que imagens naturais podem ser efetivamente modeladas em uma hiperesfera. Com base nessa descoberta, introduzimos a Combinação de Fluxo por Transporte Ótimo Esférico (SOT-CFM), que utiliza distância angular, e a Combinação de Fluxo Esférico (SFM), que restringe a dinâmica diretamente na variedade. Nossos experimentos demonstram que esses métodos conscientes da geometria alcançam desempenho superior em relação às linhas de base euclidianas. Por fim, este trabalho oferece uma nova perspectiva que preenche a lacuna entre a modelagem baseada em variedades Riemannianas e a geração de imagens naturais.

InstructSAM: Segmentar Qualquer Instância com Quaisquer Instruções
InstructSAM: Segment Any Instance with Any Instructions

May 25

ByYuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang

Neste artigo, introduzimos o InstructSAM, uma estrutura unificada e simplificada projetada para segmentação multi-instância sob instruções arbitrárias. Formulamos a segmentação de instância orientada por instrução como um problema de previsão de consultas estruturadas em conjunto e propomos uma interface explícita de raciocínio para consulta de instância que conecta elegantemente um modelo de visão-linguagem (VLM) e o SAM3. Especificamente, um banco de consultas de instância aprendíveis é injetado no VLM e contextualizado com informações de instrução e visuais, permitindo que cada consulta atue como um slot ciente da instância. Um mecanismo de atenção híbrida promove ainda mais a interação entre essas consultas, tokens visuais e tokens de instrução, melhorando a enumeração de instâncias e reduzindo previsões duplicadas. As consultas resultantes condicionadas pelo LLM são projetadas no espaço de consultas do detector do SAM3 para gerar segmentação multi-instância precisa em uma única passagem direta. Esse design equipa o SAM3 com compreensão de instruções de alto nível, raciocínio composicional e previsão de conjuntos em nível de instância sem modificar sua arquitetura central. Para apoiar o treinamento e a avaliação, construímos ainda o Inst2Seg, um conjunto de dados e referência de segmentação de instância baseada em instruções de alta qualidade e grande escala, que combina instruções de formato livre com máscaras em nível de instância. Experimentos extensivos mostram que o InstructSAM, com apenas 2B de parâmetros, alcança resultados robustos em benchmarks complexos de segmentação referencial orientada por instrução e em nível de frase, superando métodos anteriores de ponta a ponta e o pipeline de agente do SAM3, ao mesmo tempo que possibilita previsão multi-instância eficiente em passagem única.

Métricas de Fidelidade Não Medem Fidelidade: Uma Meta-Avaliação com Verdade Fundamental
Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

May 24

ByYoav Gur-Arieh, Ana Marasović, Mor Geva

Cadeias de pensamento (CoTs) tornaram-se centrais na interpretação e auditoria de comportamentos de grandes modelos de linguagem. No entanto, evidências crescentes sugerem que esses rastros frequentemente não representam fielmente os cálculos subjacentes às previsões de um modelo. Várias métricas de fidedignidade foram propostas, mas se elas realmente medem a fidedignidade permanece desconhecido. Responder a isso requer rótulos de verdade fundamental, que são difíceis de obter, pois os cálculos internos não são diretamente observáveis. Consequentemente, a maioria dos trabalhos que propõem métricas relata apenas pontuações absolutas ou comparações com métricas anteriores, e os poucos benchmarks existentes dependem de proxies como plausibilidade ou importância, propriedades ortogonais à fidedignidade que podem enganar sobre se uma CoT pode ser confiável. Abordamos esse desafio construindo tarefas cujos resultados revelam quais cálculos intermediários devem tê-los produzido, e desenvolvendo um pipeline de rotulagem automatizada que gera rótulos de fidedignidade de verdade fundamental tanto no nível de etapas quanto no de CoT. Com base nessa metodologia, apresentamos o BonaFide, um benchmark com 3.066 CoTs rotuladas em 13 tarefas e 10 modelos, e o utilizamos para conduzir a primeira avaliação sistemática de métricas proeminentes de fidedignidade. Nossos experimentos mostram que a maioria das métricas apresenta desempenho próximo ao aleatório, exibe fortes vieses de predição e se degrada em CoTs mais longas. A melhor métrica atinge apenas 0,70 de AUROC no nível de CoT, enquanto outra atinge 0,59 no nível de etapa, com nenhuma delas transferindo entre configurações, além de implicarem custos computacionais proibitivamente altos. Nossos resultados expõem lacunas fundamentais na avaliação atual de fidedignidade e clamam pelo desenvolvimento de métricas mais confiáveis e eficientes.

Modelos de Linguagem Precisam de Sono
Language Models Need Sleep

May 25

BySangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

Modelos de linguagem de grande escala baseados em Transformers são cada vez mais utilizados para tarefas de longo horizonte; no entanto, seu mecanismo de atenção escala de forma deficiente com o comprimento do contexto. Para lidar com isso, estudamos um mecanismo de consolidação semelhante ao sono, no qual um modelo converte periodicamente o contexto recente em pesos rápidos persistentes antes de limpar seu cache de chave-valor. Durante o sono, o modelo realiza N passagens recorrentes offline sobre o contexto acumulado e atualiza os pesos rápidos em seus blocos de modelo de espaço de estados (SSM) por meio de uma regra local aprendida. Durante a inferência, isso desloca o custo computacional extra para o sono, preservando a latência da predição em estado de vigília. Testamos nosso método em tarefas sintéticas controladas, incluindo autômatos celulares e recuperação em grafo com múltiplos saltos, bem como em uma tarefa realista de raciocínio matemático, na quais um Transformer comum e modelos híbridos de SSM com atenção falham. Em seguida, mostramos que aumentar a duração do sono N em nossos modelos melhora o desempenho, com os maiores ganhos ocorrendo em exemplos que exigem raciocínio mais profundo.

Helix4D: Geração de Malhas 4D Complexas
Helix4D: Complex 4D Mesh Generation

May 25

ByJiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang

Os métodos atuais de vídeo para 4D enfrentam dificuldades com mudanças topológicas complexas, materiais transparentes, estruturas finas e superfícies internas. Apresentamos o Helix4D, uma estrutura de geração de malhas dinâmicas que herda a representação expressiva do Trellis2, adaptando-a de geração de imagem para 3D para geração de 4D condicionada a vídeo. Nosso projeto surge de duas questões-chave: (a) como permitir que a atenção local ao quadro do Trellis2 compartilhe informações entre quadros enquanto preserva sua qualidade pré-treinada em casos raros, como objetos transparentes e superfícies internas, e (b) como injetar informação temporal em uma codificação posicional puramente 3D sem comprometer as capacidades pré-treinadas. Abordamos (a) com uma atenção cruzada entre quadros com janela deslizante e âncora no primeiro quadro. O primeiro quadro é gerado pelo modelo base Trellis2 e injetado em nosso modelo, permitindo que ele herde a qualidade do Trellis2 em casos raros através da atenção cruzada entre quadros. Abordamos (b) com uma codificação temporal 4D que reaproveita bandas RoPE espaciais redundantes de baixa frequência para o tempo, estendendo a codificação do 3D sem parâmetros adicionais. Extensos experimentos mostram a eficácia do Helix4D para geração de malhas dinâmicas de alta qualidade no ActionBench e em nosso próprio conjunto desafiador de dinâmicas complexas.

CRONOS: Benchmarking de Consistência Física Contrafactual em Modelos de Vídeo
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22

ByLeón Begiristain, Olaf Dünkel, Adam Kortylewski

A previsão de vídeos é cada vez mais vista como um caminho para modelos de mundo generalizáveis, porém ainda não está claro se esses sistemas aprendem a estrutura causal subjacente ou meramente exploram correlações visuais superficiais para a previsão futura. Apresentamos o CRONOS, um benchmark baseado em intervenções projetado para avaliar a consistência física contrafactual: se as previsões de eventos físicos de um modelo respondem adequadamente a mudanças controladas na entrada visual, como variações de contexto da cena, ponto de vista, aparência do objeto e categoria do objeto. Construído em um ambiente fotorrealista do Unreal Engine, o CRONOS permite a geração controlada e de alta fidelidade de vídeos em diversas cenas e dinâmicas. Em contraste com benchmarks anteriores, o CRONOS intervém sistematicamente em quatro fatores-chave — ponto de vista, cena, categoria do objeto e aparência do objeto — mantendo fixo o tipo de evento físico subjacente, como colisão, oclusão ou queda. Nossa avaliação de geradores de vídeo open-source recentes revela falhas substanciais na consistência física contrafactual: a qualidade da previsão para o mesmo tipo de evento físico é afetada pela aparência, ambiente e, particularmente, por mudanças de ponto de vista. O CRONOS fornece um ambiente de teste controlado e reprodutível para diagnosticar como a qualidade dos vídeos gerados muda para diferentes intervenções, estabelecendo um alvo concreto para o desenvolvimento de modelos que tenham desempenho consistente em mudanças de múltiplas condições. O conjunto de dados e o código estão disponíveis em nossa página do projeto.

MetaphorVU: Rumo à Compreensão de Vídeos Metafóricos
MetaphorVU: Towards Metaphorical Video Understanding

May 25

ByZhuoqun Li, Boxi Cao, Guiping Jiang, Fangrui Lv, Ruotong Pan, Jianan Wang, Xiangyu Wu, Hongyu Lin, Yaojie Lu, Yong Du, Ruyin Jia, Liyan, Tingting Gao, Han Li, Xianpei Han, Le Sun

Vídeos metafóricos são prevalentes em diversos cenários do mundo real para transmitir ideias complexas, e compreendê-los geralmente exige capacidades cognitivas de alta ordem. A ausência de estudos sistemáticos sobre a compreensão de vídeos metafóricos não apenas limita a aplicabilidade prática dos MLLMs, mas também dificulta a avaliação aprofundada de suas capacidades cognitivas de alta ordem. Para preencher essa lacuna, propomos o MetaphorVU-Bench, o primeiro benchmark sistemático e abrangente dedicado à compreensão de vídeos metafóricos. Por meio de experimentos, constatamos que os atuais MLLMs enfrentam dificuldades na compreensão precisa de vídeos metafóricos, ficando muito aquém do nível humano, principalmente devido a falhas no mapeamento entre domínios. Motivados por essa descoberta, construímos um grafo de conhecimento metafórico como aprimoramento de mapeamento e propomos o MetaphorBoost, uma estrutura de aprimoramento em tempo de inferência que alcança melhorias consistentes de desempenho. Nosso benchmark, análise e método fornecem insights úteis e uma base para pesquisas futuras no avanço dos MLLMs.

Rumo ao Role-Play Multimodal Personalizado
Towards Customized Multimodal Role-Play

May 1

ByChao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

Modelos unificados de compreensão e geração multimodal possibilitam uma interação humano-AI mais rica. No entanto, personalizar conjuntamente a persona, o estilo de diálogo e a identidade visual de um personagem, mantendo a consistência da saída entre modalidades, permanece amplamente inexplorado. Para mitigar essa lacuna, introduzimos uma nova tarefa, Role-Play Multimodal Personalizado (CMRP). Construímos o conjunto de dados RoleScape-20, composto por 20 personagens, incluindo dados de treinamento e avaliação que abrangem persona, descrições estilísticas, dicas visuais/expressivas e interações texto-imagem. Baseando-se em um modelo unificado, concebemos o UniCharacter, uma estrutura de treinamento em dois estágios contendo Finetuning Supervisionado Unificado (Unified-SFT) e otimização de política relativa a grupo específica de personagem (Character-GRPO). Com apenas 10 imagens mais exemplos de interação correspondentes, o modelo adquire o personagem alvo e exibe persona, estilo e identidade visual coerentes tanto no texto quanto nas imagens geradas. Esse processo leva cerca de 100 horas de GPU. Experimentos no conjunto de dados RoleScape-20 mostram que o método proposto supera substancialmente as abordagens anteriores. Estudos de ablação validam ainda mais a eficácia do nosso design de consistência cross-modal e da estratégia de personalização few-shot. Argumentamos que o CMRP, combinado com modelagem unificada, fornece uma base para agentes interativos imersivos e cheios de personalidade da próxima geração.

Injetando Orientação de Imagem em Modelos de Difusão Condicionados por Texto na Inferência
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference

May 24

ByAgata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik

Modelos de difusão texto-imagem como o Stable Diffusion geram imagens de alta qualidade a partir de texto, mas carecem de uma forma de injetar orientação visual (por exemplo, esboços, estilos) durante a inferência sem retreinamento. Métodos existentes exigem ajuste fino computacionalmente caro ou dependem de técnicas de transferência de estilo que correm o risco de desalinhamento semântico com os prompts textuais. Apresentamos a Fusão de Conceitos Visuais (VCF), o primeiro método que oferece condicionamento duplo tanto em uma imagem quanto em um prompt textual no momento da inferência, sem qualquer treinamento específico de conceito. O VCF possibilita a injeção de conceitos visuais no Stable Diffusion alinhando características de imagem do CLIP com o espaço de embeddings de texto. O VCF consiste em três componentes: (1) um alinhador leve que mapeia tokens de imagem para a variedade de embeddings de texto usando InfoNCE e perdas de reconstrução por atenção cruzada, (2) uma estratégia de fusão que preserva tanto a semântica textual quanto a visual, e (3) um módulo opcional de Otimização de Ruído do Prompt (PNO) para refinamento em tempo de teste. Nossos experimentos demonstram que o VCF transfere com sucesso atributos visuais, incluindo estilo, composição e paleta de cores de imagens de referência, mantendo a aderência ao prompt. Resultados quantitativos mostram um trade-off entre alinhamento textual (pontuação CLIP) e correspondência visual (LPIPS), com o VCF superando as linhas de base em fidelidade de referência.

Colorindo o Ruído: Alinhamento Adversarial de Sobolev para Super-resolução de Imagem Fiel
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

May 22

ByHongbo Wang, Huaibo Huang, Pin Wang, Jinhua Hao, Chao Zhou, Ran He

Os priors generativos em Super-Resolução de Imagens (SR) frequentemente comprometem a restauração fiel; atribuímos essa limitação a um desalinhamento espectral fundamental entre objetivos isotrópicos e a variedade intrínseca de imagens naturais. Embora a Otimização Direta de Preferências ofereça um caminho para o alinhamento, sua dependência de ruído Gaussiano espectralmente plano falha em distinguir detalhes autênticos de alta frequência de alucinações. Para preencher essa lacuna geométrica, propomos o ASASR, uma estrutura teoricamente fundamentada que reformula o fluxo generativo em uma geometria Riemanniana induzida por Sobolev, colorindo explicitamente o kernel de transição de ruído para espelhar a decadência espectral natural. Conduzindo esse alinhamento geométrico, integramos um adversário paramétrico fundamentado no Teorema da Representação de Riesz, que sintetiza amostras negativas direcionadas equivalentes a gradientes de Sobolev de pior caso para direcionar a otimização ao longo do espaço tangente de falhas estruturais plausíveis. Avaliações extensivas demonstram que o ASASR supera as principais linhas de base generativas, particularmente na preservação da consistência espectral e fidelidade estrutural, oferecendo uma solução robusta que mitiga efetivamente artefatos.

SEAL: Coevolução Sinérgica de Agentes e Ambientes de Aprendizagem
SEAL: Synergistic Co-Evolution of Agents and Learning Environments

May 23

ByYihao Hu, Zhihao Wen, Xiujin Liu, Pan Wang, Xin Zhang, Wei Wu

Os agentes de Modelos de Linguagem de Grande Porte (LLM) são cada vez mais aprimorados por meio da interação, no entanto, a maioria dos métodos de autoevolução adapta isoladamente a política ou o ambiente de aprendizado. Identificamos essa lacuna estrutural como Desalinhamento Agente-Ambiente: a fronteira de capacidade do agente muda durante o treinamento, enquanto o ambiente que fornece supervisão permanece estático ou apenas fracamente acoplado às falhas reveladas do agente. Propomos SEAL, uma estrutura de coevolução em malha fechada para agentes interativos de uso de ferramentas. O SEAL coleta trajetórias on-policy sob verificação executável, diagnostica execuções falhas em rótulos de falha por turno e utiliza esses diagnósticos como um sinal compartilhado tanto para a adaptação no lado do ambiente quanto para a otimização da política no lado do modelo. O ambiente evolui sua interface de aprendizado em tempo de treinamento, expondo dicas de affordance de ferramentas mais claras, informações de restrição e feedback orientado à recuperação, enquanto a política é atualizada com re-ponderação de vantagem guiada por diagnóstico. Extensos experimentos em avaliações de uso de ferramentas em múltiplos turnos dentro e fora da distribuição mostram que o SEAL melhora o aprendizado do agente com poucos recursos: com apenas 400 amostras de treinamento, ele produz ganhos de +8,25 a +26,25 pontos médios em três arquiteturas base e exibe transferência positiva fora da distribuição. Esses resultados demonstram o valor de adaptar conjuntamente o aprendiz e seu substrato de aprendizado em tempo de treinamento para agentes LLM robustos e autoaprimoráveis.

CoSPlay: Auto-Jogo Cooperativo em Tempo de Teste com Código Autogerado e Teste Unitário
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22

ByZhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue

Recentemente, o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e o Escalonamento em Tempo de Teste (TTS) avançaram a geração de código por LLMs por meio de verificação executável. No entanto, os Testes Unitários com Verdade Absoluta (GT UTs) permanecem um gargalo: métodos RLVR de ponta os exigem para treinamento custoso, enquanto métodos TTS existentes perdem competitividade sem eles. Isso motiva o TTS livre de GT, onde métodos existentes usam diretamente UTs autogerados para refinar e selecionar candidatos de código. Porém, tais UTs são frequentemente ruidosos ou acoplados de forma espúria a códigos errados, e a qualidade dos UTs, por sua vez, não pode ser validada sem código confiável. O principal desafio, portanto, é melhorar ambos conjuntamente. Para isso, apresentamos o CoSPlay, uma estrutura livre de GT e de treinamento que melhora conjuntamente códigos e UTs por meio de autointeração cooperativa. Primeiro, ele explora diversas ideias de solução e identifica seus potenciais modos de falha para produzir ideias discriminativas de UT. Em seguida, usa sinais bidirecionais de contagem de aprovação provenientes da matriz de execução Código-UT para podar ou corrigir iterativamente códigos fracos e atualizar ou substituir UTs não confiáveis, permitindo que os dois conjuntos coevoluam. Finalmente, quando múltiplos códigos permanecem empatados na maior contagem de aprovação, ele seleciona o código final a partir do maior cluster de consenso de saída, uma vez que códigos corretos concordam nas mesmas entradas enquanto códigos errados divergem. Experimentos em quatro benchmarks desafiadores mostram que o CoSPlay no Qwen2.5-7B-Instruct melhora a média BoN de 22,1% para 33,2% e a precisão dos UTs de 14,6% para 78,3%, igualando ou superando o modelo RLVR CURE-7B. Quando aplicado ao CURE-7B, melhora ainda mais o BoN em 5,7%. O CoSPlay também generaliza para diferentes backbones e supera as linhas de base de TTS livre de GT sob orçamentos de tokens comparáveis, com ganhos contínuos à medida que o orçamento aumenta. Esses resultados sugerem uma estratégia de inferência escalável para geração competitiva de código sem quaisquer dados GT.

Reforçando Geradores de Poucos Passos via Correspondência de Distribuição com Viés de Recompensa
Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

May 25

ByYushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang

Avanços recentes na destilação de difusão em poucas etapas possibilitaram a geração eficiente de imagens, porém alinhar esses modelos às preferências humanas ainda é desafiador. Propomos a Destilação por Correspondência de Distribuição com Inclinação para Recompensa (RTDMD, na sigla em inglês), uma estrutura em dois estágios que unifica a destilação por correspondência de distribuição com aprendizado por reforço guiado por recompensa para geradores de fluxo em poucas etapas. Mostramos que minimizar a divergência KL para uma distribuição do professor inclinada para recompensa decompõe-se naturalmente em um termo de correspondência de distribuição e um termo de maximização de recompensa. No primeiro estágio, introduzimos a Destilação por Correspondência de Distribuição com Consistência Ambiental (AC-DMD, na sigla em inglês), que realiza correspondência de distribuição por subintervalo e aumenta o objetivo de escore falso com um regularizador de consistência para ajudar o modelo de escore falso a acompanhar a distribuição do gerador em mudança sob atualizações limitadas. No segundo estágio, otimizamos ambos os termos conjuntamente: para o termo de maximização de recompensa, derivamos um gradiente de política híbrido que combina um estimador estilo GRPO para as transições intermediárias estocásticas com a retropropagação direta da recompensa através da etapa final determinística, e introduzimos ainda o GRPO por subconjunto de etapas (SubGRPO) para reduzir a variância. Experimentos em SD3, SD3.5 e FLUX.2 demonstram que o RTDMD estabelece novos resultados de última geração em métricas de preferência, estética e composicionalidade com apenas 4 etapas de inferência, superando métodos anteriores de geração de texto para imagem em poucas etapas. O código e os modelos estão disponíveis em https://github.com/Harahan/RTDMD.

Até Onde Eles Irão? Red-Teaming de Influência Online com Grandes Modelos de Linguagem
How Far Will They Go? Red-Teaming Online Influence with Large Language Models

May 20

ByDaniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

Agentes baseados em grandes modelos de linguagem (LLMs) participam cada vez mais do discurso online, sendo fundamental, para a integridade informacional, realizar testes de adversário (red-teaming) sobre sua capacidade de apoiar campanhas de influência política. Com esse objetivo, focamos em LLMs de código aberto implantados localmente, em vez de modelos de fronteira exclusivos por API, dada sua maior adequação às restrições operacionais de atores maliciosos preocupados com a privacidade em ambientes de mídia social. Apresentamos uma estrutura empírica de red-teaming para medir as Janelas de Overton (JOs) dos LLMs, definidas como o espectro de opiniões políticas que um modelo pode expressar confiavelmente sobre tópicos controversos, e para quantificar como jailbreaks simples em linguagem natural expandem esse espectro. Avaliamos mais de 30 LLMs abrangendo 10 famílias de modelos e cinco países de origem. Encontramos assimetrias sistemáticas na expressividade política: LLMs de código aberto geralmente estão mais dispostos a gerar conteúdo de mídia social de inclinação esquerdista; as JOs tendem a se contrair inversamente ao tamanho do modelo; e as diferenças regionais são substanciais, apesar da representação desigual no ecossistema de código aberto. A potência dos jailbreaks também varia acentuadamente entre famílias de modelos, motivando um fluxo de trabalho para identificar combinações eficazes de técnicas de jailbreak. Em conjunto, nossos resultados estabelecem uma estrutura prática para auditar a direcionabilidade política de LLMs de código aberto e para auxiliar futuros pesquisadores no desenvolvimento de contramedidas mais robustas contra campanhas de influência habilitadas por LLMs.

Alinhamento Direcional Mitiga o Hacking de Recompensa no Aprendizado por Reforço para Modelos de Linguagem
Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

May 24

ByWenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park

O reward hacking ocorre quando um modelo melhora uma recompensa proxy explorando atalhos em vez de resolver a tarefa pretendida. Estudamos esse modo de falha através da geometria das atualizações de aprendizado por reforço em modelos de linguagem e argumentamos que o hacking emerge quando a otimização se desvia de uma trajetória de aprendizado estável e de baixa dimensão. Analisamos esse desvio através das direções singulares dominantes das atualizações de parâmetros e mostramos que execuções com reward hacking apresentam mudança direcional substancialmente maior do que execuções limpas. Motivados por essa observação, introduzimos a projeção de direção confiável (trusted-direction projection), que restringe os gradientes a permanecerem dentro de um subespaço de referência limpo. Em experimentos de reward hacking em raciocínio matemático, a abordagem proposta atrasa a exploração de atalhos e preserva melhor o desempenho da tarefa.

SemBridge: Transferência de Linguagem em Codificadores Esparsos via Pontes Semânticas Multilíngues
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges

May 25

BySeongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim

Codificadores esparsos oferecem recuperação de alta precisão ao representar a importância dos termos em um espaço de vocabulário, porém suas estruturas centradas no inglês impõem um obstáculo crítico à transferência linguística para idiomas não ingleses. Para superar essa limitação estrutural, propomos SemBridge, um novo método de inicialização de embeddings projetado para adaptação multilíngue em codificadores esparsos, utilizando modelos ponte multilíngues. O SemBridge estabelece alinhamentos semânticos entre vocabulários de origem e destino empregando embeddings densos multilíngues como ponte. Em vez de depender diretamente de todos os tokens de origem, o SemBridge seleciona um pequeno conjunto de tokens semanticamente relacionados da língua fonte e os utiliza para inicializar cada token da língua alvo, filtrando efetivamente o ruído semântico e reconstruindo os tokens alvo como combinações lineares precisas de sinônimos principais. Isso acelera a convergência durante o ajuste fino e melhora a eficiência do treinamento. Experimentos extensivos em cinco idiomas e quatro arquiteturas esparsas demonstram que o SemBridge alcança desempenho superior em recuperação zero-shot e melhora consistentemente o desempenho de recuperação após o ajuste fino em comparação com as linhas de base existentes. Esses resultados validam o SemBridge como uma solução prática para implantar sistemas de recuperação esparsa de alto desempenho em diversos ambientes linguísticos.

SimuWoB: Simulando Aplicativos Móveis do Mundo Real para Benchmarking Rápido e Fiel de Agentes GUI
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

May 24

ByGuohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

Agentes de GUI móvel impulsionados por grandes modelos de linguagem têm progredido rapidamente, criando necessidades urgentes de avaliação realista e abrangente. Os benchmarks existentes priorizam a reprodutibilidade, mas frequentemente se limitam a aplicativos de código aberto ou tarefas de manipulação de arquivos devido à dificuldade de construir recompensas em aplicações reais, deixando uma lacuna entre as configurações de benchmark e o uso no mundo real. Além disso, a maioria dos benchmarks foca em fundamentação e navegação básicas, com cobertura limitada de interações complexas e de longo horizonte. Para enfrentar essas limitações, apresentamos o SimuWoB, um benchmark totalmente sintético para agentes de GUI móvel com 120 tarefas desafiadoras que abrangem diversos tipos e níveis de dificuldade. Construímos uma estrutura robusta de geração de ambiente virtual que sintetiza tarefas e ambientes de alta fidelidade, e fornece automaticamente recompensas válidas para cada tarefa. Cada ambiente é implantado como uma página web sem necessidade de backend, acessível por URL, permitindo uma avaliação eficiente e reprodutível. Realizamos experimentos abrangentes com vários agentes de GUI móvel de última geração. A taxa média de sucesso é de apenas 27,92%, caindo para 17,82% em tarefas de longo horizonte, o que revela fraquezas substanciais nos agentes atuais em cenários complexos. A comparação dos resultados da avaliação com tarefas de amostra do mundo real demonstra que as avaliações de agentes baseadas em nosso ambiente sintético generalizam bem. Fornecemos ainda insights diagnósticos em dimensões-chave de capacidade e discutimos implicações para o desenvolvimento futuro de agentes de GUI móvel.

Representação em vez de Roteamento: Superando o Hacking de Substituto no PPO com Múltiplas Escalas Temporais
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

May 21

ByJing Sun

A atribuição de crédito temporal no aprendizado por reforço há muito tempo constitui um desafio central. Inspirada pela codificação em múltiplas escalas temporais do sistema dopaminérgico na neurobiologia, pesquisas recentes têm buscado introduzir múltiplos fatores de desconto em arquiteturas Ator-Crítico, como a Otimização de Política Proximal (PPO), para equilibrar respostas de curto prazo com planejamento de longo prazo. No entanto, este artigo revela que a fusão cega de sinais de múltiplas escalas temporais em tarefas complexas de recompensa atrasada pode levar a patologias algorítmicas graves. Demonstramos sistematicamente que expor um mecanismo de roteamento de atenção temporal a gradientes de política resulta em manipulação de objetivo substituto, enquanto a adoção de ponderação de incerteza livre de gradiente desencadeia degeneração míope irreversível, fenômeno que denominamos Paradoxo da Incerteza Temporal. Para resolver esses problemas, propomos uma arquitetura de Desacoplamento de Alvo: no lado do Crítico, mantemos previsões de múltiplas escalas temporais para impor aprendizado de representação auxiliar, enquanto no lado do Ator, isolamos estritamente sinais de curto prazo e atualizamos a política com base apenas em vantagens de longo prazo. Avaliações empíricas rigorosas, realizadas com múltiplas sementes aleatórias independentes no ambiente LunarLander-v2, demonstram que a arquitetura proposta alcança melhorias de desempenho estatisticamente significativas. Sem depender de manipulação de hiperparâmetros, ela supera consistentemente o limiar de "Ambiente Resolvido" com variância mínima, elimina completamente o colapso de política e escapa dos ótimos locais pairantes que aprisionam as linhas de base de escala temporal única. O código-fonte para reproduzir nossos experimentos está disponível publicamente em https://github.com/ben-dlwlrma/Representation-Over-Routing.

Desacoplamento entre Comunicação e Política: MARL Robusto sob Restrições de Largura de Banda
Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

May 20

ByAlexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

A comunicação possibilita a coordenação na aprendizagem por reforço multiagente (MARL), mas muitas aplicações do mundo real, como operações de busca e resgate com enxames de drones, operam sob severas restrições de largura de banda. Muitas arquiteturas de comunicação ainda apresentam um gargalo acoplado, no qual uma representação latente compartilhada é utilizada tanto para a execução da política quanto para a comunicação entre agentes. Consequentemente, reduzir o tamanho da mensagem limita diretamente o espaço latente da política, frequentemente levando a uma degradação significativa do desempenho. Abordamos esse problema com duas contribuições. Primeiro, introduzimos β, um orçamento normalizado de largura de banda por agente que unifica esparsidade, rodadas e dimensão da mensagem em uma única restrição comparável. Segundo, fornecemos SLIM, uma arquitetura mínima que desacopla o caminho de comunicação da representação latente da política, permitindo isolar o efeito da largura de banda do efeito da capacidade da política, ao mesmo tempo que nos beneficiamos da comunicação em etapas. Avaliamos nosso método em vários benchmarks de MARL parcialmente observáveis, onde a comunicação é essencial. Nossa abordagem atinge desempenho de ponta e exige escalabilidade e robustez sob comunicação limitada, com apenas degradação marginal à medida que a largura de banda é reduzida.

Rumo à Engenharia de Avaliação: Um Estudo Empírico de Arcabouços de Avaliação de ML no Mundo Real
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild

May 22

ByZhimin Zhao, Zehao Wang, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

Sistemas de orquestração de avaliação são softwares que coordenam a avaliação de modelos gerenciando a invocação de modelos, o carregamento de dados, o cálculo de métricas e a geração de relatórios. Apesar de seu papel crítico na infraestrutura de aprendizado de máquina, seus desafios operacionais e questões de engenharia têm recebido pouca atenção até o momento. Apresentamos um estudo empírico de 57 sistemas de orquestração de avaliação, derivando um modelo de cinco estágios e classificando 16.560 problemas por estágio do fluxo de trabalho e causa raiz. A maioria dos desafios operacionais dos sistemas concentra-se no estágio de Especificação (41,4% dos problemas), onde os sistemas integram modelos externos, conjuntos de dados e juízes de pontuação. As três causas raiz mais frequentes dos desafios operacionais são funcionalidades não implementadas (24,3%), lacunas na documentação (20,3%) e validação de entrada ausente (17,2%), que juntas respondem por 61,7% dos problemas classificados, abrangendo tanto defeitos na funcionalidade existente quanto lacunas de capacidade que bloqueiam os fluxos de trabalho pretendidos. As causas raiz também variam conforme o estágio do fluxo de trabalho: incompatibilidade de ambiente e quebra de dependências externas respondem por 36,2% dos problemas de provisionamento, enquanto erro algorítmico (25,9%) e lacuna de validação (22,5%) dominam os problemas de avaliação. Juntas, essas contribuições estabelecem uma base empírica para tratar a engenharia de avaliação como uma preocupação distinta da engenharia de software.

ECHO: Agentes Terminais Aprendem Modelos do Mundo Gratuitamente
ECHO: Terminal Agents Learn World Models for Free

May 23

ByVaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos

Agentes CLI são a aproximação mais próxima que modelos de linguagem têm de um ambiente corporificado: o modelo emite comandos, o terminal os executa e o fluxo retornado — stdout, erros, arquivos, logs e rastros — registra as consequências. Argumentamos que esse fluxo constitui um sinal de supervisão, mas o RL padrão de agentes o descarta: o treinamento no estilo GRPO atualiza tokens de ação com recompensas esparsas em nível de resultado, ignorando as respostas do ambiente já presentes no rollout. Rollouts fracassados fornecem pouco sinal de gradiente de política, apesar de conterem evidências ricas sobre como o ambiente responde. Apresentamos ECHO (Environment Cross-entropy Hybrid Objective), uma função objetivo híbrida que combina a perda padrão de gradiente de política nos tokens de ação com uma perda auxiliar que treina a política a prever os tokens de observação do ambiente resultantes de suas próprias ações. O ECHO reutiliza a mesma passagem direta do GRPO, não requer rollouts adicionais e transforma o feedback do terminal em supervisão densa para todos os rollouts. O ECHO dobra o pass@1 do GRPO no TerminalBench-2.0: Qwen3-8B melhora de 2,70% para 5,17%, e Qwen3-14B de 5,17% para 10,79%. O ECHO também produz políticas que melhor preveem a dinâmica do terminal, mesmo em trajetórias que não geraram: em rollouts separados, reduz drasticamente a entropia cruzada dos tokens do ambiente, enquanto o GRPO sozinho mal a altera. Partindo do Qwen3-8B base, o ECHO iguala o desempenho de expert-SFT seguido de GRPO em tarefas de terminal separadas, sem necessidade de demonstrações de especialistas, e recupera aproximadamente metade do benefício da inicialização por expert-SFT no TerminalBench-2.0. Em algumas configurações, apenas a perda de predição do ambiente possibilita autoaperfeiçoamento sem verificador, permitindo que políticas melhorem em tarefas OOD não vistas ao aprender apenas com interações com o ambiente. Em conjunto, esses resultados sugerem que as observações do ambiente não são meramente contexto para ações futuras, mas um sinal de supervisão denso e on-policy já presente em todo rollout.

Ampliando o Acesso a Dados de Segurança de Transporte com IA Generativa: Um Framework Baseado em Esquema para Consultas Espaciais em Linguagem Natural
Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

May 20

ByMahdi Azhdari, Eric J. Gonzales

A análise de segurança no transporte exige a integração de registros de acidentes, atributos viários e dados geoespaciais por meio de fluxos de trabalho baseados em SIG, mas o acesso permanece desigual entre agências e partes interessadas da comunidade. Pré-requisitos técnicos criam uma lacuna entre as ferramentas analíticas essenciais ao planejamento de segurança e os profissionais capazes de utilizá-las. Agências locais, comitês escolares e moradores podem ter preocupações com segurança, mas capacidade limitada para recuperar, filtrar, mapear e analisar dados relevantes. A IA generativa oferece uma forma de reduzir essa disparidade, mas seu uso no setor público levanta questões sobre confiabilidade, reprodutibilidade e governança. Este artigo apresenta uma interface de linguagem natural fundamentada em esquema para análise de segurança no transporte, utilizando um modelo de linguagem de grande escala (LLM) para interpretar a intenção do usuário, ao mesmo tempo que preserva uma execução determinística e auditável sobre um banco de dados autoritativo. As consultas do usuário são traduzidas em quadros semânticos estruturados, validadas por uma camada baseada em regras, compiladas em um grafo acíclico dirigido tipado de operações espaciais e executadas contra um banco de dados PostGIS. Esse projeto delimitado separa a interpretação da linguagem da execução determinística, mantendo os resultados reprodutíveis e fundamentados no esquema, enquanto remove barreiras de acesso. O framework é avaliado usando um banco de dados estadual de segurança no transporte de Massachusetts, que integra registros de acidentes, atributos viários e camadas geoespaciais, incluindo escolas, pontos de ônibus, faixas de pedestres e limites municipais. Todas as consultas foram executadas com sucesso; a camada de validação corrige erros em 29% das consultas de avaliação, refletindo a lacuna entre a linguagem natural flexível e os requisitos rigorosos fundamentados em esquema. Os resultados sugerem que combinar acessibilidade por linguagem natural com execução determinística é uma direção prática para ampliar o acesso a dados de segurança no transporte, com implicações para a IA confiável no planejamento do setor público.

HorizonStream: Atenção de Longo Horizonte para Reconstrução 3D em Streaming
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22

ByChong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang

Reconstrução 3D online exige estimar a pose da câmera e a geometria da cena sob restrições estritas de causalidade e memória limitada. Métodos existentes frequentemente sofrem com deriva, oscilação ou colapso em sequências longas. Atribuímos essas falhas a uma incompatibilidade fundamental. A geometria em streaming é inerentemente heterogênea temporalmente, com evidências que variam de correspondências de curta duração a escalas globais persistentes. No entanto, arquiteturas atuais impõem padrões de influência uniformes e patológicos. Por exemplo, janelas deslizantes impõem cortes abruptos, enquanto recorrência sem portão e atenção causal causam saturação de cache e sumidouros de atenção em forma de pico. Para resolver isso, formalizamos a propagação geométrica como um kernel de influência de evidência e propomos o HorizonStream, um Transformer de longo horizonte que fatora explicitamente esse kernel. Para o fator temporal de longo alcance, a Atenção Linear Geométrica aprende taxas de decaimento por canal, permitindo propagação limitada e multi-escala de evidência geométrica. Para o fator espacial de curto alcance, a Atenção Local Geométrica com RoPE Espaço-Temporal realiza correspondência 3D confiável enquanto suprime sumidouros de atenção. Finalmente, Tokens de Leitura Métrica recuperam escala estável e pose rígida diretamente do estado geométrico persistente. Experimentos extensivos mostram que o HorizonStream, treinado apenas com clipes de 48 quadros, generaliza de forma estável para sequências que excedem 10.000 quadros com memória constante e tempo linear, alcançando desempenho de ponta em reconstrução 3D em streaming. Página do Projeto: https://3dagentworld.github.io/horizonstream/

RankJudge: Um Gerador de Benchmark Sintético Multiturno com LLM como Juiz
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

May 20

ByZhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell

À medida que aplicações interativas baseadas em modelos de linguagem de grande escala (LLMs) são criadas e refinadas, os desenvolvedores de modelos precisam avaliar a qualidade do texto gerado ao longo de vários eixos possíveis. Para sistemas mais simples, a avaliação humana pode ser prática, mas em sistemas complexos, como chatbots conversacionais, a quantidade de texto gerado pode sobrecarregar os recursos de anotação humana. Desenvolvedores de modelos passaram a depender fortemente da autoavaliação, em que LLMs também são usados para julgar a qualidade da geração. No entanto, os benchmarks existentes de LLM como juiz concentram-se amplamente em tarefas simples de perguntas e respostas que não correspondem à complexidade das conversas de múltiplas rodadas. Apresentamos o RankJudge, um gerador de benchmarks para avaliar o LLM como juiz em conversas de múltiplas rodadas fundamentadas em documentos de referência. O RankJudge cria pares de conversas nos quais uma conversa possui uma única falha injetada em uma rodada. Essa construção permite que os pares de conversas sejam rotulados de forma inequívoca como melhores ou piores, e isola precisamente as categorias de falha em rodadas individuais, possibilitando um critério rigoroso de correção conjunta para o julgamento. Implementamos o RankJudge nos domínios de aprendizado de máquina, biomedicina e finanças, avaliamos 21 LLMs juízes de ponta e classificamos esses juízes por meio do modelo Bradley-Terry. Nossa formulação também permite classificar cada par de conversas com classificações de dificuldade, que usamos para organizar dinamicamente a fatia de avaliação, reduzindo o ruído de rótulo, conforme confirmado por anotação humana. Constatamos que as classificações dos juízes são estáveis sob observabilidade parcial, critérios de correção mais grosseiros e um algoritmo alternativo de classificação por passeio aleatório.

MotiMotion: Geração de Vídeo Controlada por Movimento com Raciocínio Visual
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

May 21

ByLee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu

Os atuais modelos de geração de imagem-para-vídeo controlados por movimento seguem rigidamente trajetórias fornecidas pelo usuário, que muitas vezes são esparsas, imprecisas e causalmente incompletas. Essa dependência frequentemente produz resultados não naturais ou implausíveis, especialmente ao omitir consequências causais secundárias. Para lidar com isso, apresentamos o MotiMotion, uma nova estrutura que reformula o controle de movimento como um problema de raciocínio-seguido-de-geração. Para promover interações causalmente fundamentadas e consistentes com o senso comum, utilizamos um raciocinador de visão-linguagem livre de treinamento para refinar coordenadas de espaço de imagem de trajetórias primárias e alucinar movimentos secundários plausíveis. Para melhorar ainda mais a naturalidade do movimento, propomos um esquema de controle consciente de confiança que modula a intensidade da orientação, permitindo que o modelo siga rigorosamente planos de alta confiança enquanto corrige artefatos sob entradas de baixa confiança com seus próprios priores generativos internos. Para apoiar uma avaliação sistemática, criamos um novo benchmark de imagem-para-vídeo, o MotiBench, composto por cenas centradas em interação onde novos eventos são acionados pelo movimento. Tanto a avaliação baseada em VLM quanto um estudo humano no MotiBench demonstram que o MotiMotion produz vídeos com comportamentos e interações de objetos mais plausíveis, sendo preferido em relação às abordagens existentes.

Avaliação de Deterioração do Pavimento em Nível de Pixel Usando Segmentação de Instâncias
Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25

ByLogan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed

A avaliação automatizada de deterioração de pavimentos exige mais do que classificação em nível de imagem ou detecção aproximada por caixas delimitadoras, demandando localização precisa de trincas finas, ramificadas e irregulares para alcançar a precisão geométrica necessária à quantificação relevante para manutenção. Este artigo apresenta um sistema de análise de deterioração de pavimentos baseado em visão, fundamentado na segmentação de instâncias Mask R-CNN, e o avalia no UWGB-StreetCrack, um conjunto de dados personalizado de imagens de vias coletadas em campo com um smartphone montado em veículo e anotado manualmente com rótulos poligonais para trincas longitudinais, trincas transversais, trincas de couro de jacaré e buracos. Foram consideradas cinco variantes de backbone Mask R-CNN baseadas em Detectron2, sob um protocolo consistente de ajuste fino. O modelo de melhor desempenho, Mask R-CNN com backbone ResNet-101 FPN, alcançou 84,23% de precisão, 90,04% de revocação e escore F1 de 87,04% no protocolo de correspondência por caixas delimitadoras específico do projeto. O mesmo modelo produziu uma fração agregada de área de trinca prevista de 2,164%, muito próxima da fração de área de trinca real (ground-truth) de 2,170%. Para contextualizar o sistema de segmentação em relação a uma alternativa orientada a detecção, um detector YOLO baseado em CSPDarknet53 também foi adaptado e retreinado no conjunto de dados, atingindo 27,5% de precisão e 20,7% de revocação no protocolo de validação. Os resultados mostram que a segmentação de instâncias é uma direção prática para imagens de pavimento em campo e estimativa agregada de área de trinca, ao mesmo tempo que expõem desafios em aberto relacionados à consistência de anotação, desbalanceamento de classes, rejeição de fatores de confusão e benchmarking em nível de máscara.

ClaimDiff-RL: Aprendizado por Reforço de Legendas de Granularidade Fina através da Comparação de Alegações Visuais
ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

May 24

ByTianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng

O problema de granularidade de recompensa no RL para legendagem de imagens longas: as legendas são avaliadas como sequências completas, enquanto os erros importantes ocorrem no nível de afirmações visuais individuais. Uma boa legenda densa deve ser fiel e informativa, evitando alucinações sem omitir detalhes salientes. No entanto, preferências pareadas, métricas baseadas em referência e recompensas escalares holísticas comprimem esses erros locais em um único sinal no nível da sequência, obscurecendo o tradeoff entre factualidade e cobertura. Apresentamos o ClaimDiff-RL, uma estrutura que utiliza diferenças atômicas de afirmações condicionadas à referência como unidade de recompensa para RL de legendas. Dada uma imagem, uma legenda do ator e uma legenda de referência, um juiz multimodal enumera diferenças visualmente fundamentadas, verifica cada diferença em relação à imagem, atribui tipos de erro de vocabulário aberto e níveis de gravidade, e produz estatísticas por diferença para composição da recompensa. Isso torna afirmações alucinadas e fatos salientes omitidos separadamente mensuráveis e ajustáveis. Experimentos mostram que recompensas escalares holísticas podem reduzir alucinações aumentando fatos ausentes, enquanto o ClaimDiff-RL expõe esse tradeoff entre fidelidade e cobertura e permite pontos de operação mais equilibrados. Em um benchmark diagnóstico anotado por humanos com 160 imagens, benchmarks públicos de legendagem e benchmarks de VQA, o ClaimDiff-RL melhora o equilíbrio entre alucinação e fatos ausentes, preserva a capacidade geral e até supera o Gemini-3-Pro-Preview em várias dimensões de capacidade refinada, como contagem de objetos, relações espaciais e reconhecimento de cena. Esses resultados sugerem que diferenças de afirmações tipadas e verificáveis são uma unidade de recompensa eficaz para RL de legendas granulada e diagnosticável.

Decodificando o mecanismo de crítica em grandes modelos de raciocínio
Decoding the Critique Mechanism in Large Reasoning Models

May 22

ByHoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan

Modelos de Raciocínio de Grande Escala (LRMs) exibem mecanismos de retrocesso e autoverificação que lhes permitem revisar etapas intermediárias e chegar a soluções corretas, resultando em desempenho robusto em benchmarks lógicos complexos. Hipotetizamos que tais comportamentos são benéficos apenas quando o modelo possui capacidade de “crítica” suficientemente forte para detectar seus próprios erros. Este trabalho investiga sistematicamente como os LRMs atuais se recuperam de erros ao inserir equívocos aritméticos em suas etapas intermediárias de raciocínio. Notavelmente, descobrimos um fenômeno peculiar, porém importante: apesar de o erro se propagar por toda a cadeia de pensamento (CoT) sem qualquer correção verbalizada, o modelo ainda chega à resposta final correta após o término do processo de raciocínio. Essa recuperação implica a existência de um mecanismo interno que ajuda o modelo a detectar erros e desencadear autocorreção, ao qual denominamos capacidade de crítica oculta. Com base na análise do espaço de características, identificamos um vetor de crítica altamente interpretável que representa esse comportamento. Experimentos extensos em múltiplas escalas e famílias de modelos demonstram que orientar representações latentes com esse vetor melhora a capacidade de detecção de erros do modelo e aprimora o desempenho do escalonamento em tempo de teste, sem custo adicional de treinamento. Nossos achados fornecem uma compreensão valiosa do comportamento de crítica dos LRMs, sugerindo uma direção promissora para controlar e melhorar seu mecanismo de autoverificação. Nosso código está disponível em: https://github.com/mail-research/lrm-critique-vectors.

Vendo a agulha no palheiro: rumo à localização fracamente supervisionada de anomalias em instâncias de log via perturbação contrafactual
Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

May 9

ByYutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

A detecção de anomalias em logs é uma tarefa crítica para a operação de sistemas e garantia de segurança. No entanto, em sistemas em rede em larga escala, os dados de log são gerados em escala massiva, enquanto as anotações em nível de instância são proibitivamente caras, impondo grandes dificuldades à localização refinada de anomalias. Para enfrentar esse desafio, propomos LogMILP (Localização de anomalias em logs baseada em Aprendizado Multi-Instância aprimorado por protótipos e Perturbação), uma estrutura fracamente supervisionada que possibilita tanto a detecção de anomalias em nível de saco quanto a localização em nível de instância usando apenas rótulos em nível de saco. Nosso método orienta o modelo a identificar as entradas críticas de log por meio de modelagem estrutural guiada por protótipos com regularização de consistência de perturbação contrafactual, melhorando assim a confiabilidade da localização e a interpretabilidade sob supervisão de granulação grossa. Resultados experimentais em três conjuntos de dados públicos demonstram que o LogMILP atinge desempenho competitivo de detecção, ao mesmo tempo que produz localização em nível de instância significativamente mais confiável. Nosso código está disponível em acesso aberto em https://github.com/YUK1207/LogMILP.