HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

41 papers found

Repensando a Generalização no Raciocínio via Aprendizado Supervisionado por Fino Ajuste: Uma Análise Condicional sobre Otimização, Dados e Capacidade do Modelo
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Apr 8

ByQihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

302

Uma narrativa predominante no pós-treinamento de LLMs sustenta que o ajuste fino supervisionado (SFT) memoriza, enquanto o aprendizado por reforço (RL) generaliza. Revisitamos essa afirmação para o SFT de raciocínio com supervisão de longa cadeia de pensamento (CoT) e descobrimos que a generalização entre domínios não está ausente, mas é condicional, moldada conjuntamente pela dinâmica de otimização, pelos dados de treinamento e pela capacidade do modelo base. Alguns fracassos relatados são artefatos de subotimização: o desempenho entre domínios primeiro se degrada antes de se recuperar e melhorar com o treinamento estendido (um padrão de queda e recuperação), portanto, checkpoints de treinamento curto podem subestimar a generalização. A qualidade e a estrutura dos dados são importantes: soluções de baixa qualidade prejudicam amplamente a generalização, enquanto rastros de CoT longos e verificados produzem ganhos consistentes entre domínios. A capacidade do modelo é essencial: modelos mais fortes internalizam padrões procedimentais transferíveis (por exemplo, retrocesso) mesmo a partir de um jogo aritmético simples, enquanto os mais fracos imitam a verbosidade superficial. No entanto, essa generalização é assimétrica: o raciocínio melhora enquanto a segurança se degrada, reformulando a questão de *se* o SFT de raciocínio generaliza para *sob quais condições* e *a que custo*.

SkillClaw: Deixe as Habilidades Evoluírem Coletivamente com o Agente Evolutivo
SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Apr 9

ByZiyu Ma, Shidong Yang, Yuxiang Ji, Xucong Wang, Yong Wang, Yiming Hu, Tongwen Huang, Xiangxiang Chu

264

Agentes de modelo de linguagem grande (LLM), como o OpenClaw, dependem de habilidades reutilizáveis para executar tarefas complexas, mas essas habilidades permanecem amplamente estáticas após a implantação. Como resultado, fluxos de trabalho similares, padrões de uso de ferramentas e modos de falha são redescobertos repetidamente entre os usuários, impedindo que o sistema melhore com a experiência. Embora as interações de diferentes usuários forneçam sinais complementares sobre quando uma habilidade funciona ou falha, os sistemas existentes carecem de um mecanismo para converter tais experiências heterogêneas em atualizações confiáveis das habilidades. Para resolver essas questões, apresentamos o SkillClaw, uma estrutura para evolução coletiva de habilidades em ecossistemas de agentes multiutilizador, que trata as interações entre usuários e ao longo do tempo como o sinal primário para melhorar as habilidades. O SkillClaw agrega continuamente trajetórias geradas durante o uso e as processa com um evolucionador autónomo, que identifica padrões comportamentais recorrentes e os traduz em atualizações do conjunto de habilidades, refinando as existentes ou estendendo-as com novas capacidades. As habilidades resultantes são mantidas num repositório partilhado e sincronizadas entre os usuários, permitindo que melhorias descobertas num contexto se propaguem por todo o sistema sem exigir esforço adicional dos usuários. Ao integrar a experiência multiutilizador em atualizações contínuas de habilidades, o SkillClaw permite a transferência de conhecimento entre usuários e a melhoria cumulativa de capacidades. Experimentos no WildClawBench mostram que, com interação e *feedback* limitados, ele melhora significativamente o desempenho do Qwen3-Max em cenários reais de agentes.

ClawBench: Os Agentes de IA Podem Realizar Tarefas Online do Dia a Dia?
ClawBench: Can AI Agents Complete Everyday Online Tasks?

Apr 9

ByYuxuan Zhang, Yubo Wang, Yipeng Zhu, Penghui Du, Junwen Miao, Xuan Lu, Wendong Xu, Yunzhuo Hao, Songcheng Cai, Xiaochen Wang, Huaisong Zhang, Xian Wu, Yi Lu, Minyi Lei, Kai Zou, Huifeng Yin, Ping Nie, Liang Chen, Dongfu Jiang, Wenhu Chen, Kelsey R. Allen

245

Os agentes de IA podem automatizar sua caixa de entrada, mas serão capazes de automatizar outros aspectos rotineiros da sua vida? Tarefas online cotidianas oferecem um campo de testes realista e ainda não solucionado para avaliar a próxima geração de agentes de IA. Para isso, apresentamos o ClawBench, uma estrutura de avaliação com 153 tarefas simples que as pessoas precisam realizar regularmente em suas vidas e trabalho, abrangendo 144 plataformas ativas em 15 categorias – desde completar compras e marcar compromissos até enviar candidaturas a empregos. Essas tarefas exigem capacidades além dos benchmarks existentes, como obter informações relevantes de documentos fornecidos pelo usuário, navegar por fluxos de trabalho de múltiplas etapas em diversas plataformas e operações com grande demanda de escrita, como preencher formulários detalhados corretamente. Diferente dos benchmarks existentes que avaliam agentes em ambientes offline com páginas estáticas, o ClawBench opera em sites de produção, preservando toda a complexidade, natureza dinâmica e desafios da interação real na web. Uma camada de intercepção leve captura e bloqueia apenas a requisição final de envio, garantindo avaliação segura sem efeitos colaterais no mundo real. Nossas avaliações de 7 modelos de ponta mostram que tanto modelos proprietários quanto de código aberto conseguem completar apenas uma pequena parte dessas tarefas. Por exemplo, o Claude Sonnet 4.6 atinge apenas 33,3%. O progresso no ClawBench nos aproxima de agentes de IA que possam funcionar como assistentes generalistas confiáveis.

HY-Embodied-0.5: Modelos de Fundação Corporificados para Agentes do Mundo Real
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Apr 8

ByTencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao

157

Apresentamos a família HY-Embodied-0.5, uma série de modelos de base projetados especificamente para agentes corporificados no mundo real. Para preencher a lacuna entre os Modelos de Visão e Linguagem (VLMs) gerais e as demandas dos agentes corporificados, nossos modelos foram desenvolvidos para aprimorar as capacidades centrais exigidas pela inteligência corporificada: percepção visual espacial e temporal, juntamente com raciocínio corporificado avançado para previsão, interação e planejamento. A suíte HY-Embodied-0.5 compreende duas variantes principais: um modelo eficiente com 2 bilhões de parâmetros ativados, projetado para implantação em dispositivos de borda, e um modelo potente com 32 bilhões de parâmetros ativados, voltado para raciocínio complexo. Para suportar a percepção visual refinada, essencial para tarefas corporificadas, adotamos uma arquitetura de Mistura de Transformers (MoT) para permitir computação específica por modalidade. Ao incorporar tokens latentes, este projeto aprimora efetivamente a representação perceptual dos modelos. Para melhorar as capacidades de raciocínio, introduzimos um paradigma de pós-treinamento iterativo e auto-evolutivo. Além disso, empregamos destilação baseada em política (*on-policy distillation*) para transferir as capacidades avançadas do modelo grande para a variante menor, maximizando assim o potencial de desempenho do modelo compacto. Avaliações extensas em 22 benchmarks, abrangendo percepção visual, raciocínio espacial e compreensão corporificada, demonstram a eficácia da nossa abordagem. Nosso modelo MoT-2B supera modelos state-of-the-art de tamanho similar em 16 benchmarks, enquanto a variante de 32B alcança desempenho comparável a modelos de fronteira, como o Gemini 3.0 Pro. Em experimentos de controle robótico downstream, aproveitamos nossa base robusta de VLM para treinar um modelo eficaz de Visão-Linguagem-Ação (VLA), alcançando resultados convincentes em avaliações físicas do mundo real. O código e os modelos são de código aberto em https://github.com/Tencent-Hunyuan/HY-Embodied.

Quando os Números Falam: Alinhando Numerais Textuais e Instâncias Visuais em Modelos de Difusão Texto-para-Vídeo
When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Apr 9

ByZhengyang Sun, Yu Chen, Xin Zhou, Xiaofan Li, Xiwu Chen, Dingkang Liang, Xiang Bai

109

Os modelos de difusão texto-para-vídeo permitiram a síntese aberta de vídeos, mas frequentemente lutam para gerar o número correto de objetos especificados em um prompt. Apresentamos o NUMINA, uma estrutura de identificação e orientação que não requer treinamento para melhorar o alinhamento numérico. O NUMINA identifica inconsistências entre o prompt e o layout selecionando cabeças de auto-atenção e atenção cruzada discriminativas para derivar um layout latente contável. Em seguida, refina este layout de forma conservadora e modula a atenção cruzada para orientar a regeneração. No CountBench introduzido, o NUMINA melhora a precisão de contagem em até 7,4% no Wan2.1-1.3B, e em 4,9% e 5,5% nos modelos de 5B e 14B, respectivamente. Além disso, o alinhamento CLIP é melhorado enquanto mantém a consistência temporal. Estes resultados demonstram que a orientação estrutural complementa a busca por sementes e o aprimoramento de prompts, oferecendo um caminho prático para a difusão texto-para-vídeo com contagem precisa. O código está disponível em https://github.com/H-EmbodVis/NUMINA.

MegaStyle: Construindo um Conjunto de Dados de Estilo Diversificado e Escalável por Meio de Mapeamento Consistente de Estilo Texto-para-Imagem
MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Apr 9

ByJunyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang

Neste artigo, apresentamos o MegaStyle, um pipeline novo e escalável de curadoria de dados que constrói um conjunto de dados de estilo consistente intra-estilo, diversificado inter-estilo e de alta qualidade. Alcançamos isso aproveitando a capacidade consistente de mapeamento de estilo texto-imagem dos atuais grandes modelos generativos, que podem gerar imagens no mesmo estilo a partir de uma descrição de estilo fornecida. Com base nesse fundamento, curamos uma galeria diversificada e equilibrada de *prompts* com 170 mil *prompts* de estilo e 400 mil *prompts* de conteúdo, e geramos um conjunto de dados de estilo em larga escala, o MegaStyle-1.4M, através de combinações de *prompts* de conteúdo e estilo. Com o MegaStyle-1.4M, propomos o aprendizado contrastivo supervisionado por estilo para ajustar um codificador de estilo, o MegaStyle-Encoder, para extrair representações expressivas e específicas de estilo, e também treinamos um modelo de transferência de estilo baseado em FLUX, o MegaStyle-FLUX. Experimentos extensivos demonstram a importância de manter a consistência intra-estilo, a diversidade inter-estilo e a alta qualidade para um conjunto de dados de estilo, bem como a eficácia do MegaStyle-1.4M proposto. Além disso, quando treinados no MegaStyle-1.4M, o MegaStyle-Encoder e o MegaStyle-FLUX fornecem uma medição confiável de similaridade de estilo e uma transferência de estilo generalizável, representando uma contribuição significativa para a comunidade de transferência de estilo. Mais resultados estão disponíveis em nosso site do projeto: https://jeoyal.github.io/MegaStyle/.

LPM 1.0: Modelo de Performance de Personagens Baseado em Vídeo
LPM 1.0: Video-based Character Performance Model

Apr 9

ByAiling Zeng, Casper Yang, Chauncey Ge, Eddie Zhang, Garvey Xu, Gavin Lin, Gilbert Gu, Jeremy Pi, Leo Li, Mingyi Shi, Sheng Bi, Steven Tang, Thorn Hang, Tobey Guo, Vincent Li, Xin Tong, Yikang Li, Yuchen Sun, Yue, Zhao, Yuhan Lu, Yuwei Li, Zane Zhang, Zeshi Yang, Zi Ye

A performance, a externalização da intenção, emoção e personalidade através de comportamentos visuais, vocais e temporais, é o que torna uma personagem viva. Aprender tal performance a partir de vídeo é uma alternativa promissora aos tradicionais pipelines 3D. No entanto, os modelos de vídeo existentes lutam para alcançar conjuntamente alta expressividade, inferência em tempo real e estabilidade de identidade em longos horizontes temporais, uma tensão que denominamos de trilema da performance. A conversação é o cenário de performance mais abrangente, pois as personagens falam, ouvem, reagem e expressam emoções simultaneamente, mantendo a identidade ao longo do tempo. Para resolver isso, apresentamos o LPM 1.0 (Large Performance Model), focando na performance conversacional audiovisual *full-duplex* para uma única pessoa. Concretamente, construímos um conjunto de dados multimodal centrado no ser humano através de filtragem rigorosa, emparelhamento áudio-vídeo de fala-escuta, compreensão da performance e extração *multi-reference* com consciência de identidade; treinamos um *Diffusion Transformer* com 17B de parâmetros (Base LPM) para uma performance altamente controlável e consistente em identidade através de condicionamento multimodal; e o destilamos num gerador causal de *streaming* (Online LPM) para interação de baixa latência e duração infinita. Na inferência, dada uma imagem de personagem com referências conscientes da identidade, o LPM 1.0 gera vídeos de escuta a partir do áudio do utilizador e vídeos de fala a partir de áudio sintetizado, com *prompts* de texto para controlo de movimento, tudo a uma velocidade em tempo real com geração de identidade estável e duração infinita. O LPM 1.0 serve, assim, como um motor visual para agentes conversacionais, personagens de *live streaming* e NPCs de jogos. Para avaliar sistematicamente este cenário, propomos o LPM-Bench, o primeiro *benchmark* para performance interativa de personagens. O LPM 1.0 alcança resultados state-of-the-art em todas as dimensões avaliadas, mantendo a inferência em tempo real.

OpenVLThinkerV2: Um Modelo Generalista de Raciocínio Multimodal para Tarefas Visuais em Múltiplos Domínios
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Apr 9

ByWenbo Hu, Xin Chen, Yan Gao-Tian, Yihe Deng, Nanyun Peng, Kai-Wei Chang

O Group Relative Policy Optimization (GRPO) emergiu como o objetivo de facto de Aprendizagem por Reforço (RL) que impulsiona os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala. No entanto, estender este sucesso a modelos generalistas multimodais de código aberto permanece severamente limitado por dois desafios principais: a variância extrema nas topologias de recompensa entre diversas tarefas visuais e a dificuldade inerente de equilibrar a perceção de alto detalhe com capacidades de raciocínio de múltiplos passos. Para resolver estas questões, introduzimos o Gaussian GRPO (G²RPO), um novo objetivo de treino de RL que substitui a escala linear padrão por correspondência distribucional não linear. Ao forçar matematicamente a distribuição de vantagem de qualquer tarefa a convergir estritamente para uma distribuição normal padrão, N(0,1), o G²RPO garante teoricamente equidade de gradiente entre tarefas, mitiga vulnerabilidades a *outliers* de cauda pesada e oferece uma atualização simétrica para recompensas positivas e negativas. Aproveitando a estabilidade de treino melhorada fornecida pelo G²RPO, introduzimos dois mecanismos de modelação a nível de tarefa para equilibrar harmoniosamente a perceção e o raciocínio. Primeiro, a modelação do comprimento da resposta elicia dinamicamente cadeias de raciocínio estendidas para consultas complexas, enquanto aplica saídas diretas para reforçar o fundamento visual. Segundo, a modelação da entropia limita estritamente a zona de exploração do modelo, prevenindo eficazmente tanto o colapso como a explosão de entropia. Integrando estas metodologias, apresentamos o OpenVLThinkerV2, um modelo multimodal de propósito geral altamente robusto. Avaliações extensas em 18 *benchmarks* diversos demonstram o seu desempenho superior face a fortes modelos de código aberto e a modelos proprietários líderes de fronteira.

DMax: Decodificação Paralela Agressiva para dLLMs
DMax: Aggressive Parallel Decoding for dLLMs

Apr 9

ByZigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

Apresentamos o DMax, um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes. Ele mitiga o acúmulo de erros na decodificação paralela, permitindo um paralelismo agressivo na decodificação enquanto preserva a qualidade da geração. Diferente dos dLLMs mascarados convencionais, que decodificam através de uma transição binária de máscara para token, o DMax reformula a decodificação como um autorrefinamento progressivo de *embeddings* de máscara para *embeddings* de token. O cerne de nossa abordagem é o Treinamento Uniforme Baseado em Política (*On-Policy Uniform Training*), uma nova estratégia de treinamento que unifica eficientemente dLLMs mascarados e uniformes, capacitando o modelo para recuperar tokens limpos tanto a partir de entradas mascaradas quanto de suas próprias previsões errôneas. Com base nesse fundamento, propomos ainda a Decodificação Paralela Suave (*Soft Parallel Decoding*). Representamos cada estado intermediário de decodificação como uma interpolação entre o *embedding* de token previsto e o *embedding* de máscara, permitindo uma autorevisão iterativa no espaço de *embeddings*. Extensivos experimentos em uma variedade de benchmarks demonstram a eficácia do DMax. Em comparação com o LLaMA-2.0-mini original, nosso método melhora o TPF no GSM8K de 2,04 para 5,47, mantendo a precisão. No MBPP, ele aumenta o TPF de 2,71 para 5,86, mantendo um desempenho comparável. Em duas GPUs H200, nosso modelo alcança uma média de 1.338 TPS com tamanho de lote 1. O código está disponível em: https://github.com/czg1225/DMax

Externalização em Agentes de LLM: Uma Revisão Unificada de Memória, Habilidades, Protocolos e Engenharia de Aproveitamento
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

Apr 9

ByChenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song, Tianyi Xu, Yingxuan Yang, Aofan Yu, Weiming Zhang, Congming Zheng, Jiachen Zhu, Zeyu Zheng, Zhuosheng Zhang, Xingyu Lou, Changwang Zhang, Zhihui Fu, Jun Wang, Weiwen Liu, Jianghao Lin, Weinan Zhang

Os agentes de modelos de linguagem de grande escala (LLM) estão cada vez menos sendo construídos pela alteração dos pesos do modelo e mais pela reorganização do ambiente de execução em torno deles. Capacidades que os sistemas anteriores esperavam que o modelo recuperasse internamente são agora externalizadas em armazenamentos de memória, habilidades reutilizáveis, protocolos de interação e no *harness* circundante que torna esses módulos confiáveis na prática. Este artigo revisa essa mudança através da lente da externalização. Baseando-nos no conceito de artefatos cognitivos, argumentamos que a infraestrutura do agente é importante não apenas porque adiciona componentes auxiliares, mas porque transforma cargas cognitivas complexas em formas que o modelo pode resolver com maior confiabilidade. Sob esta perspectiva, a memória externaliza o estado ao longo do tempo, as habilidades externalizam a expertise procedural, os protocolos externalizam a estrutura de interação e a engenharia do *harness* serve como a camada de unificação que os coordena em uma execução governada. Traçamos uma progressão histórica dos pesos para o contexto e depois para o *harness*, analisamos a memória, as habilidades e os protocolos como três formas distintas mas acopladas de externalização, e examinamos como elas interagem dentro de um sistema de agente maior. Discutimos ainda a relação de compromisso entre capacidade paramétrica e externalizada, identificamos direções emergentes, como *harnesses* de auto-evolução e infraestrutura de agente compartilhada, e debatemos desafios em aberto na avaliação, governança e na coevolução de longo prazo dos modelos com a infraestrutura externa. O resultado é uma estrutura de nível sistêmico para explicar por que o progresso prático dos agentes depende cada vez mais não apenas de modelos mais robustos, mas também de uma melhor infraestrutura cognitiva externa.

KnowU-Bench: Rumo à Avaliação Interativa, Proativa e Personalizada de Agentes Móveis
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Apr 9

ByTongbo Chen, Zhengxi Lu, Zhan Xu, Guocheng Shao, Shaohan Zhao, Fei Tang, Yong Du, Kaitao Song, Yizhou Liu, Yuchen Yan, Wenqi Zhang, Xu Tan, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

Agentes móveis personalizados que inferem preferências do usuário e calibram assistência proativa têm grande potencial como assistentes digitais do quotidiano, mas os benchmarks existentes não conseguem capturar o que isso exige. Trabalhos anteriores avaliam a recuperação de preferências a partir de históricos estáticos ou a previsão de intenções a partir de contextos fixos. Nenhum deles testa se um agente pode elicitar preferências em falta através da interação, nem se pode decidir quando intervir, solicitar consentimento ou permanecer silencioso num ambiente gráfico (GUI) ativo. Apresentamos o KnowU-Bench, um benchmark online para agentes móveis personalizados, construído sobre um ambiente de emulação Android reproduzível, abrangendo 42 tarefas gerais de GUI, 86 tarefas personalizadas e 64 tarefas proativas. Diferentemente de trabalhos anteriores que tratam as preferências do usuário como contexto estático, o KnowU-Bench oculta o perfil do usuário do agente e expõe apenas registos comportamentais, forçando uma inferência genuína de preferências em vez de uma simples consulta de contexto. Para suportar a elicitação de preferências em múltiplos turnos, ele instancia um simulador de usuário baseado em LLM e ancorado em perfis estruturados, permitindo diálogos realistas de clarificação e gestão proativa de consentimento. Para além da personalização, o KnowU-Bench fornece uma avaliação abrangente da cadeia de decisão proativa completa, incluindo execução fundamentada em GUI, negociação de consentimento e contenção pós-rejeição, avaliada através de um protocolo híbrido que combina verificação baseada em regras com pontuação por LLM-como-Juiz. As nossas experiências revelam uma degradação impressionante: agentes que se destacam na execução explícita de tarefas caem para abaixo de 50% de eficácia sob instruções vagas que exigem inferência de preferências do usuário ou calibração de intervenção, mesmo para modelos de ponta como o Claude Sonnet 4.6. Os principais estrangulamentos não são a navegação na GUI, mas a aquisição de preferências e a calibração da intervenção, expondo uma lacuna fundamental entre a operação competente da interface e uma assistência pessoal verdadeiramente confiável.

Agir com Sabedoria: Cultivando o Uso de Ferramentas Meta-Cognitivas em Modelos Multimodais Autônomos
Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Apr 9

ByShilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou

O advento de modelos multimodais agentivos capacitou sistemas a interagir ativamente com ambientes externos. No entanto, os agentes atuais padecem de um profundo déficit metacognitivo: eles lutam para arbitrar entre aproveitar o conhecimento interno e consultar utilitários externos. Consequentemente, frequentemente tornam-se vítimas de invocações cegas de ferramentas, recorrendo à execução reflexiva de ferramentas mesmo quando as consultas são resolvíveis a partir do contexto visual bruto. Este comportamento patológico precipita graves gargalos de latência e injeta ruído extrínseco que descarrila o raciocínio sólido. Os protocolos existentes de aprendizagem por reforço tentam mitigar isto através de uma recompensa escalarizada que penaliza o uso de ferramentas. No entanto, esta formulação acoplada cria um dilema de otimização irreconciliável: uma penalidade agressiva suprime o uso essencial de ferramentas, enquanto uma penalidade branda é inteiramente subsumida pela variância da recompensa de precisão durante a normalização da vantagem, tornando-a impotente contra o uso excessivo de ferramentas. Para transcender este gargalo, propomos o HDPO, uma estrutura que reformula a eficiência de ferramentas de um objetivo escalar concorrente para um estritamente condicional. Ao evitar a escalarização de recompensas, o HDPO mantém dois canais de otimização ortogonais: um canal de precisão que maximiza a correção da tarefa, e um canal de eficiência que impõe a economia de execução exclusivamente dentro de trajetórias precisas através de uma estimativa de vantagem condicional. Esta arquitetura desacoplada induz naturalmente um currículo cognitivo — forçando o agente a primeiro dominar a resolução da tarefa antes de refinar a sua autossuficiência. Avaliações extensivas demonstram que o nosso modelo resultante, Metis, reduz as invocações de ferramentas em ordens de magnitude enquanto simultaneamente eleva a precisão do raciocínio.

MolmoWeb: Agente Web Visual Aberto e Dados Abertos para a Web Aberta
MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

Apr 9

ByTanmay Gupta, Piper Wolters, Zixian Ma, Peter Sushko, Rock Yuren Pang, Diego Llanes, Yue Yang, Taira Anderson, Boyuan Zheng, Zhongzheng Ren, Harsh Trivedi, Taylor Blanton, Caleb Ouellette, Winson Han, Ali Farhadi, Ranjay Krishna

Agentes web – sistemas autônomos que navegam e executam tarefas na web em nome dos usuários – têm o potencial de transformar a forma como as pessoas interagem com o mundo digital. No entanto, os agentes web mais capazes atualmente dependem de modelos proprietários com dados e receitas de treinamento não divulgados, limitando a compreensão científica, a reprodutibilidade e o progresso impulsionado pela comunidade. Acreditamos que os agentes para a web aberta devem ser construídos abertamente. Para esse fim, introduzimos (1) MolmoWebMix, uma mistura grande e diversificada de demonstrações de tarefas em navegador e dados de percepção de GUI web, e (2) MolmoWeb, uma família de agentes web multimodais totalmente abertos. Especificamente, o MolmoWebMix combina mais de 100 mil trajetórias de tarefas sintéticas de múltiplos pipelines de geração complementares com mais de 30 mil demonstrações humanas, trajetórias de habilidades web atômicas e dados de percepção de GUI, incluindo a ancoragem de expressões referenciais e a resposta a perguntas baseadas em capturas de tela. Os agentes MolmoWeb operam como políticas de ação visuo-linguísticas condicionadas por instruções: dada uma instrução de tarefa e uma captura de tela de uma página web, eles preveem a próxima ação do navegador, sem exigir acesso a HTML, árvores de acessibilidade ou APIs especializadas. Disponíveis nos tamanhos 4B e 8B, em benchmarks de uso de navegador como WebVoyager, Online-Mind2Web e DeepShop, os agentes MolmoWeb alcançam resultados de última geração, superando modelos abertos apenas em pesos de escala similar, como Fara-7B, UI-Tars-1.5-7B e Holo1-7B. O MolmoWeb-8B também supera agentes baseados em marcas (SoM) construídos sobre modelos fechados de fronteira muito maiores, como o GPT-4o. Demonstramos ainda ganhos consistentes por meio de escalonamento no momento do teste via rollouts paralelos com seleção best-of-N, alcançando 94,7% e 60,5% de pass@4 (comparado a 78,2% e 35,3% de pass@1) no WebVoyager e no Online-Mind2Web, respectivamente. Liberaremos *checkpoints* do modelo, dados de treinamento, código e um *harness* de avaliação unificado para permitir a reprodutibilidade e acelerar a pesquisa aberta sobre agentes web.

OpenSpatial: Uma Plataforma de Dados Fundamentada para Capacitar a Inteligência Espacial
OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Apr 8

ByJianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi

A compreensão espacial é um pilar fundamental da inteligência de nível humano. No entanto, a pesquisa atual concentra-se predominantemente na produção de dados específicos de domínio, deixando um vazio crítico: a ausência de um mecanismo de código aberto e baseado em princípios, capaz de libertar todo o potencial dos dados espaciais de alta qualidade. Para colmatar esta lacuna, elucidamos os princípios de conceção de um sistema robusto de geração de dados e introduzimos o OpenSpatial – um motor de dados de código aberto, projetado para alta qualidade, escalabilidade extensiva, diversidade ampla de tarefas e eficiência otimizada. O OpenSpatial adota *bounding boxes* 3D como primitiva fundamental para construir uma hierarquia de dados abrangente em cinco tarefas fundamentais: Medição Espacial (ME), Relação Espacial (RE), Perceção de Câmara (PC), Consistência Multi-vista (CM) e Raciocínio Consciente da Cena (RCC). Aproveitando esta infraestrutura escalável, criámos o OpenSpatial-3M, um conjunto de dados em larga escala que compreende 3 milhões de amostras de alta fidelidade. Avaliações extensivas demonstram que modelos versáteis treinados no nosso conjunto de dados alcançam desempenho de ponta numa ampla gama de *benchmarks* de raciocínio espacial. Notablemente, o modelo de melhor desempenho exibe uma melhoria média substancial de 19 por cento, em termos relativos. Adicionalmente, fornecemos uma análise sistemática de como os atributos dos dados influenciam a perceção espacial. Ao disponibilizar em código aberto tanto o motor como o conjunto de dados à escala de 3 milhões, fornecemos uma base robusta para acelerar a pesquisa futura em inteligência espacial.

OmniJigsaw: Aprimorando o Raciocínio Omnimodal por meio do Reordenamento Orquestrado por Modalidade
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

Apr 9

ByYiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen

Para estender o paradigma de pós-treinamento por reforço a modelos omni-modais, com o objetivo de fortalecer simultaneamente a compreensão áudio-visual e o raciocínio colaborativo, propomos o OmniJigsaw, uma estrutura genérica de auto-supervisão baseada numa tarefa proxy de reordenação temporal. Centrado na reconstrução cronológica de *clips* áudio-visuais embaralhados, este paradigma orquestra estrategicamente sinais visuais e auditivos para compelir a integração multimodal através de três estratégias distintas: Integração Conjunta de Modalidades, Seleção de Modalidade a Nível de Amostra e Mascaramento de Modalidade a Nível de *Clip*. Reconhecendo que a eficácia de tais tarefas proxy está fundamentalmente ligada à qualidade do *puzzle*, concebemos um *pipeline* de filtragem de dados em dois estágios (do grosso para o fino), que facilita a adaptação eficiente do OmniJigsaw a dados omni-modais maciços e não anotados. A nossa análise revela um "fenómeno de atalho bimodal" na integração conjunta de modalidades e demonstra que o mascaramento de modalidade a nível de *clip* (mais fino) mitiga este problema, superando a seleção de modalidade a nível de amostra. Avaliações extensivas em 15 *benchmarks* mostram ganhos substanciais em raciocínio de vídeo, áudio e colaborativo, validando o OmniJigsaw como um paradigma escalável para aprendizagem omni-modal auto-supervisionada.

Gráfico de Competências: Recuperação Estrutural com Consciência de Dependências para Competências Maciças de Agentes
Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

Apr 7

ByDawei Li, Zongxia Li, Hongyang Du, Xiyang Wu, Shihang Gui, Yongbei Kuang, Lichao Sun

A utilização de competências tornou-se um componente central dos sistemas de agentes modernos e pode melhorar substancialmente a capacidade dos agentes para concluir tarefas complexas. Em ambientes do mundo real, onde os agentes devem monitorizar e interagir com inúmeras aplicações pessoais, navegadores web e outras interfaces de ambiente, as bibliotecas de competências podem escalar para milhares de competências reutilizáveis. A escalabilidade para conjuntos de competências maiores introduz dois desafios principais. Primeiro, carregar o conjunto completo de competências satura a janela de contexto, aumentando os custos de *tokens*, alucinações e latência. Neste artigo, apresentamos o Grafo de Competências (GoS), uma camada de recuperação estrutural em tempo de inferência para grandes bibliotecas de competências. O GoS constrói offline um grafo de competências executável a partir de pacotes de competências e, no momento da inferência, recupera um pacote de competências delimitado e com consciência de dependências através de sementeamento híbrido semântico-léxico, *PageRank* Personalizado com Pesos Reversos e hidratação com orçamento de contexto. No SkillsBench e no ALFWorld, o GoS melhora a recompensa média em 43,6% em relação à linha de base simples de carregamento total de competências, enquanto reduz os *tokens* de entrada em 37,8%, e generaliza-se em três famílias de modelos: Claude Sonnet, GPT-5.2 Codex e MiniMax. Estudos de ablação adicionais em bibliotecas de competências que variam de 200 a 2.000 competências demonstram ainda que o GoS supera consistentemente tanto o carregamento simples de competências quanto a recuperação vetorial simples no equilíbrio entre recompensa, eficiência de *tokens* e tempo de execução.

FIT: Um Conjunto de Dados em Larga Escala para Experimentação Virtual com Consciência de Ajuste
FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

Apr 9

ByJohanna Karras, Yuanhao Wang, Yingwei Li, Ira Kemelmacher-Shlizerman

Dado uma pessoa e uma imagem de uma peça de roupa, o _virtual try-on_ (VTO) visa sintetizar uma imagem realista da pessoa usando a peça, preservando sua pose e identidade originais. Embora os métodos recentes de VTO se destaquem na visualização da aparência da roupa, eles ignoram em grande parte um aspeto crucial da experiência de experimentação: a precisão do caimento da roupa — por exemplo, retratar como uma camisa de tamanho extra-grande fica numa pessoa de tamanho extra-pequeno. Um obstáculo fundamental é a ausência de conjuntos de dados que forneçam informações precisas sobre o tamanho do corpo e da roupa, particularmente para casos de "mau caimento", onde as roupas são significativamente grandes ou pequenas demais. Consequentemente, os métodos atuais de VTO optam por gerar resultados bem ajustados, independentemente do tamanho da roupa ou da pessoa. Neste artigo, damos os primeiros passos para resolver este problema em aberto. Apresentamos o FIT (_Fit-Inclusive Try-on_), um conjunto de dados de VTO em larga escala que compreende mais de 1,13 milhões de triplos de imagens de experimentação, acompanhados por medições precisas do corpo e da roupa. Superamos os desafios da recolha de dados através de uma estratégia sintética escalável: (1) Geramos programaticamente roupas 3D usando o GarmentCode e as drapeamos através de simulação física para capturar o caimento realista da roupa. (2) Empregamos uma nova estrutura de retexturização para transformar renderizações sintéticas em imagens fotorrealistas, preservando estritamente a geometria. (3) Introduzimos a preservação da identidade da pessoa no nosso modelo de retexturização para gerar imagens pareadas de pessoas (a mesma pessoa, roupas diferentes) para treino supervisionado. Por fim, aproveitamos o nosso conjunto de dados FIT para treinar um modelo de base de VTO consciente do caimento. Os nossos dados e resultados estabelecem o novo estado da arte para o _virtual try-on_ consciente do caimento, além de oferecerem um benchmark robusto para pesquisas futuras. Disponibilizaremos todos os dados e código publicamente na nossa página do projeto: https://johannakarras.github.io/FIT.

Destilação Estruturada de Capacidades de Agentes Web Permite Generalização
Structured Distillation of Web Agent Capabilities Enables Generalization

Apr 9

ByXing Han Lù, Siva Reddy

Os LLMs de ponta conseguem navegar em sites complexos, mas seu custo e dependência de APIs de terceiros tornam a implantação local inviável. Apresentamos o conceito de Agente-como-Anotadores, uma estrutura que organiza a geração sintética de trajetórias para agentes web por analogia com funções humanas de anotação, substituindo o Designer de Tarefas, o Anotador e o Supervisor por componentes modulares de LLM. Utilizando o Gemini 3 Pro como professor, geramos 3.000 trajetórias em seis ambientes web e refinamos um estudante de 9 bilhões de parâmetros com aprendizado supervisionado puro nas 2.322 que passam no filtro de qualidade. O modelo resultante atinge 41,5% no WebArena, superando modelos proprietários como Claude 3.5 Sonnet (36,0%) e GPT-4o (31,5%) sob o mesmo protocolo de avaliação, e quase dobrando o melhor resultado anterior de código aberto (Go-Browse, 21,7%). As capacidades transferem-se para ambientes não vistos, com um ganho de 18,2 pontos percentuais no WorkArena L1 (uma plataforma empresarial nunca vista durante o treinamento) e melhorias consistentes em três benchmarks adicionais. Ablações confirmam que cada componente do pipeline contribui significativamente, sendo que a filtragem do Juiz, dicas de avaliação e rastros de raciocínio representam ganhos mensuráveis. Estes resultados demonstram que a síntese estruturada de trajetórias a partir de um único professor de ponta é suficiente para produzir agentes web competitivos e implantáveis localmente. Página do projeto: https://agent-as-annotators.github.io

ViVa: Um Modelo de Valor Generativo de Vídeo para Aprendizagem por Reforço em Robótica
ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Apr 9

ByJindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv, Guan Huang

Os modelos visão-linguagem-ação (VLA) têm avançado a manipulação robótica através de pré-treinamento em larga escala, mas a implantação no mundo real permanece desafiadora devido à observabilidade parcial e ao feedback atrasado. O aprendizado por reforço aborda isso através de funções de valor, que avaliam o progresso da tarefa e orientam a melhoria da política. No entanto, os modelos de valor existentes baseados em modelos de visão e linguagem (VLMs) lutam para capturar dinâmicas temporais, prejudicando a estimativa de valor confiável em tarefas de longo horizonte. Neste artigo, propomos ViVa, um modelo de valor video-generativo que reaproveita um gerador de vídeo pré-treinado para estimativa de valor. Tomando a observação atual e a propriocepção do robô como entrada, o ViVa prevê conjuntamente a propriocepção futura e um valor escalar para o estado atual. Ao alavancar os prévios espaço-temporais de um gerador de vídeo pré-treinado, nossa abordagem ancora a estimativa de valor na dinâmica antecipada da corporificação, indo além de instantâneos estáticos para acoplar intrinsecamente valor com previsão. Integrado ao RECAP, o ViVa oferece melhorias substanciais na montagem de caixas no mundo real. A análise qualitativa em todas as três tarefas confirma que o ViVa produz sinais de valor mais confiáveis, refletindo com precisão o progresso da tarefa. Ao aproveitar prévios espaço-temporais de corpora de vídeo, o ViVa também generaliza para novos objetos, destacando a promessa de modelos video-generativos para estimativa de valor.

Pequenos Modelos de Visão e Linguagem são Compressores Inteligentes para Compreensão de Vídeos Longos
Small Vision-Language Models are Smart Compressors for Long Video Understanding

Apr 9

ByJunjie Fei, Jun Chen, Zechun Liu, Yunyang Xiong, Chong Zhou, Wei Wen, Junlin Han, Mingchen Zhuge, Saksham Suri, Qi Qian, Shuming Liu, Lemeng Wu, Raghuraman Krishnamoorthi, Vikas Chandra, Mohamed Elhoseiny, Chenchen Zhu

A adaptação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para vídeos de longa duração é limitada pelas restrições de contexto. Fluxos visuais densos saturam o orçamento de tokens e exacerbam o fenômeno "lost-in-the-middle" (perdido-no-meio). Heurísticas existentes, como amostragem esparsa ou *pooling* uniforme, sacrificam cegamente a fidelidade ao descartar momentos decisivos e desperdiçar largura de banda em planos de fundo irrelevantes. Propomos o Tempo, uma estrutura eficiente e consciente da consulta que comprime vídeos longos para compreensão subsequente. O Tempo aproveita um Pequeno Modelo de Linguagem Visual (SVLM) como um compressor temporal local, transformando a redução de tokens num processo inicial de destilação multimodal para gerar representações compactas e alinhadas com a intenção numa única passagem direta. Para impor orçamentos rigorosos sem quebrar a causalidade, introduzimos a Alocação Adaptativa de Tokens (ATA). Explorando o *prior* de relevância *zero-shot* e a carga antecipada semântica do SVLM, a ATA atua como um roteador dinâmico O(1) sem necessidade de treino. Ela aloca largura de banda densa a segmentos críticos para a consulta, enquanto comprime redundâncias em âncoras temporais mínimas para manter a narrativa global. Experimentos extensivos mostram que nossa arquitetura de 6B atinge desempenho de última geração com compressão dinâmica agressiva (0.5-16 tokens/frame). No LVBench de extrema duração (4101s), o Tempo obtém 52.3 sob um rigoroso orçamento visual de 8K, superando o GPT-4o e o Gemini 1.5 Pro. Escalar para 2048 *frames* atinge 53.7. Crucialmente, o Tempo comprime vídeos de longa duração substancialmente abaixo dos limites teóricos, provando que a verdadeira compreensão de vídeos de formato longo depende de eficiência orientada pela intenção, e não de janelas de contexto greedily preenchidas.

SIM1: Simulador Alinhado à Física como Escalonador de Dados Zero-Shot em Mundos Deformáveis
SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

Apr 9

ByYunsong Zhou, Hangxu Liu, Xuekun Jiang, Xing Shen, Yuanzhen Zhou, Hui Wang, Baole Fang, Yang Tian, Mulin Yu, Qiaojun Yu, Li Ma, Hengjie Li, Hanqing Wang, Jia Zeng, Jiangmiao Pang

A manipulação robótica com objetos deformáveis representa um regime de aprendizagem incorporada intensivo em dados, onde forma, contacto e topologia coevoluem de maneiras que superam em muito a variabilidade dos objetos rígidos. Embora a simulação prometa alívio face ao custo da aquisição de dados do mundo real, os *pipelines* predominantes de *sim-to-real* permanecem enraizados em abstrações de corpos rígidos, produzindo geometria desencontrada, dinâmicas de materiais moles frágeis e primitivas de movimento pouco adequadas para interação com tecidos. Defendemos que a simulação falha não por ser sintética, mas por ser desenraizada da realidade. Para resolver isto, introduzimos o SIM1, um motor de dados *real-to-sim-to-real* alinhado com a física que ancora a simulação no mundo físico. Dadas demonstrações limitadas, o sistema digitaliza cenas em gémeos digitais metricamente consistentes, calibra a dinâmica deformável através de modelação elástica e expande comportamentos via geração de trajetórias baseada em difusão com filtragem de qualidade. Este *pipeline* transforma observações esparsas em supervisão sintética escalada com fidelidade próxima da demonstração. Experiências mostram que políticas treinadas exclusivamente com dados sintéticos atingem paridade com linhas de base de dados reais numa razão de equivalência de 1:15, ao mesmo tempo que alcançam 90% de sucesso *zero-shot* e ganhos de 50% na generalização em implementação no mundo real. Estes resultados validam a simulação alinhada com a física como uma supervisão escalável para manipulação deformável e um caminho prático para a aprendizagem de políticas eficiente em dados.

Flux Attention: Atenção Híbrida Consciente do Contexto para Inferência Eficiente em LLMs
Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Apr 8

ByQuantong Qiu, Zhiyi Hong, Yi Yang, Haitian Wang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang

A complexidade computacional quadrática dos mecanismos de atenção padrão representa um grave gargalo de escalabilidade para LLMs em cenários de contexto longo. Embora os mecanismos de atenção híbrida que combinam Atenção Plena (FA) e Atenção Esparsa (SA) ofereçam uma solução potencial, os métodos existentes geralmente dependem de razões de alocação estáticas que não conseguem acomodar as demandas variáveis de recuperação de diferentes tarefas. Além disso, a esparsidade dinâmica a nível de cabeças frequentemente introduz grave desequilíbrio de carga computacional e longas caudas de sincronização, que dificultam a aceleração por hardware durante a decodagem autoregressiva. Para preencher esta lacuna, introduzimos o Flux Attention, uma estrutura consciente do contexto que otimiza dinamicamente o cálculo de atenção a nível de camada. Ao integrar um Roteador de Camada leve em LLMs pré-treinados e congelados, o método proposto encaminha adaptativamente cada camada para FA ou SA com base no contexto de entrada. Este roteamento por camada preserva a recuperação de informação de alta fidelidade, enquanto garante acesso contíguo à memória, traduzindo reduções teóricas de computação em acelerações práticas de tempo de execução. Como uma abordagem eficiente em parâmetros, nossa estrutura requer apenas 12 horas de treinamento em 8 GPUs A800. Experimentos extensos em múltiplos benchmarks de contexto longo e raciocínio matemático demonstram que o Flux Attention alcança um equilíbrio superior entre desempenho e velocidade de inferência em comparação com os modelos de base, com melhorias de velocidade de até 2,8× e 2,0× nas fases de preenchimento e decodagem, respectivamente.

Automatizando a Síntese de Código para Funções Nativas de Banco de Dados com LLMs
Automating Database-Native Function Code Synthesis with LLMs

Apr 2

ByWei Zhou, Xuanhe Zhou, Qikang He, Guoliang Li, Bingsheng He, Quanqing Xu, Fan Wu

Os sistemas de banco de dados incorporam um número crescente de funções em seus núcleos (também conhecidas como funções nativas do banco de dados) para cenários como suporte a novas aplicações e migração de negócios. Este crescimento causa uma demanda urgente por síntese automática de funções nativas de banco de dados. Embora os avanços recentes na geração de código baseada em LLM (por exemplo, Claude Code) mostrem potencial, eles são muito genéricos para o desenvolvimento específico de bancos de dados. Eles frequentemente alucinam ou negligenciam contexto crítico porque a síntese de funções de banco de dados é inerentemente complexa e propensa a erros, onde sintetizar uma única função pode envolver registrar múltiplas unidades de função, vincular referências internas e implementar a lógica corretamente. Para isso, propomos o DBCooker, um sistema baseado em LLM para sintetizar automaticamente funções nativas de banco de dados. Ele consiste em três componentes. Primeiro, o módulo de caracterização de funções agrega declarações de múltiplas fontes, identifica unidades de função que requerem codificação especializada e rastreia dependências entre unidades. Segundo, projetamos operações para abordar os principais desafios de síntese: (1) um gerador de plano de codificação baseado em pseudocódigo que constrói esqueletos de implementação estruturados identificando elementos-chave como funções referenciadas reutilizáveis; (2) um modelo híbrido de preenchimento de lacunas guiado por prévias probabilísticas e consciência de componentes para integrar lógica central com rotinas reutilizáveis; e (3) validação progressiva de três níveis, incluindo verificação de sintaxe, conformidade com padrões e verificação semântica guiada por LLM. Finalmente, uma estratégia de orquestração adaptativa unifica estas operações com ferramentas existentes e as sequencia dinamicamente através do histórico de orquestração de funções similares. Resultados mostram que o DBCooker supera outros métodos em SQLite, PostgreSQL e DuckDB (34,55% maior precisão em média), e pode sintetizar novas funções ausentes no SQLite mais recente (v3.50).

Rumo à Simulação do Comportamento Humano no Mundo Real: Avaliação de Modelos de Linguagem de Grande Escala em Traços Comportamentais de Longo Prazo, Cenários Cruzados e Heterogêneos
Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Apr 9

ByJiawei Chen, Ruoxi Xu, Boxi Cao, Ruotong Pan, Yunfei Zhang, Yifei Hu, Yong Du, Tingting Gao, Yaojie Lu, Yingfei Sun, Xianpei Han, Le Sun, Xiangyu Wu, Hongyu Lin

O surgimento dos Grandes Modelos de Linguagem (LLMs) iluminou o potencial para um simulador de usuário de propósito geral. No entanto, os benchmarks existentes permanecem limitados a cenários isolados, espaços de ação restritos ou dados sintéticos, falhando em capturar a natureza holística do comportamento humano autêntico. Para preencher esta lacuna, introduzimos o OmniBehavior, o primeiro benchmark de simulação de usuário construído inteiramente a partir de dados do mundo real, integrando padrões comportamentais de longo prazo, cross-cenário e heterogêneos em uma estrutura unificada. Com base neste benchmark, fornecemos primeiro evidências empíricas de que conjuntos de dados anteriores com cenários isolados sofrem de visão em túnel, enquanto a tomada de decisão no mundo real depende de cadeias causais de longo prazo e entre cenários. Avaliações extensivas dos LLMs state-of-the-art revelam que os modelos atuais lutam para simular com precisão esses comportamentos complexos, com o desempenho estabilizando-se mesmo com a expansão das janelas de contexto. Crucialmente, uma comparação sistemática entre comportamentos simulados e autênticos revela um viés estrutural fundamental: os LLMs tendem a convergir para uma pessoa média positiva, exibindo hiperatividade, homogeneização de persona e um viés utópico. Isso resulta na perda de diferenças individuais e comportamentos de cauda longa, destacando direções críticas para futuras pesquisas de simulação de alta fidelidade.

Treinamento de um Especialista Estudante via Destilação Semi-Supervisionada de Modelo de Base
Training a Student Expert via Semi-Supervised Foundation Model Distillation

Apr 4

ByPardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu

Os modelos de base oferecem percepção robusta, mas geralmente são computacionalmente pesados demais para implantação, e sua adaptação normalmente requer anotações custosas. Introduzimos uma estrutura de destilação de conhecimento semissupervisionada (SSKD) que comprime modelos de base de visão (VFMs) pré-treinados em especialistas compactos usando dados limitados rotulados e abundantes não rotulados, e a instanciamos para segmentação de instância, onde rótulos por pixel são particularmente caros. A estrutura desdobra-se em três etapas: (1) adaptação de domínio do(s) VFM(s) via auto-treinamento com calibração contrastiva, (2) transferência de conhecimento por meio de uma perda multiobjetivo unificada, e (3) refinamento do estudante para mitigar viés residual de pseudo-rótulos. Central à nossa abordagem é uma perda contrastiva pixel a pixel consciente da instância, que funde pontuações de máscara e classe para extrair negativos informativos e impor margens claras entre instâncias. Ao manter este sinal contrastivo tanto na adaptação quanto na destilação, alinhamos os embeddings do professor e do estudante e aproveitamos mais efetivamente imagens não rotuladas. No Cityscapes e ADE20K, nosso estudante aproximadamente 11 vezes menor supera seu(s) professor(es) VFM de disparo zero em +11,9 e +8,6 AP, supera o(s) professor(es) adaptado(s) em +3,4 e +1,5 AP, e supera métodos state-of-the-art de SSKD em benchmarks.

Geração de Vídeo Fundamentada em Iluminação com Raciocínio de Agente Baseado em Renderizador
Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Apr 9

ByZiqi Cai, Taoyu Yang, Zheng Chang, Si Li, Han Jiang, Shuchen Weng, Boxin Shi

Os modelos de difusão alcançaram progressos notáveis na geração de vídeos, mas sua controlabilidade permanece uma grande limitação. Fatores-chave de cena, como layout, iluminação e trajetória da câmera, frequentemente se encontram entrelaçados ou apenas fracamente modelados, restringindo sua aplicabilidade em domínios como cinematografia e produção virtual, onde o controle explícito da cena é essencial. Apresentamos o LiVER, uma estrutura baseada em difusão para geração de vídeo com controle de cena. Para isso, introduzimos uma nova estrutura que condiciona a síntese de vídeo a propriedades explícitas de cena 3D, apoiada por um novo conjunto de dados em larga escala com anotações densas de layout de objetos, iluminação e parâmetros de câmera. Nosso método desembaraça essas propriedades renderizando sinais de controle a partir de uma representação 3D unificada. Propomos um módulo de condicionamento leve e uma estratégia de treinamento progressivo para integrar esses sinais em um modelo de difusão de vídeo fundamental, garantindo convergência estável e alta fidelidade. Nossa estrutura permite uma ampla gama de aplicações, incluindo síntese de imagem para vídeo e vídeo para vídeo, onde a cena 3D subjacente é totalmente editável. Para melhorar ainda mais a usabilidade, desenvolvemos um agente de cena que traduz automaticamente instruções de alto nível do usuário nos sinais de controle 3D necessários. Experimentos mostram que o LiVER alcança um fotorrealismo e uma consistência temporal de última geração, permitindo um controle preciso e desacoplado sobre os fatores da cena, estabelecendo um novo padrão para a geração de vídeo controlável.

A Hipótese da Chave Mestra: Desbloqueando a Transferência de Capacidade entre Modelos via Alinhamento de Subespaços Lineares
The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Apr 7

ByRishab Balasubramanian, Pin-Jie Lin, Rituraj Sharma, Anjie Fang, Fardin Abdi, Viktor Rozgic, Zheng Du, Mohit Bansal, Tu Vu

Investigamos se as capacidades adquiridas após o treinamento podem ser transferidas entre modelos sem necessidade de retreinamento, com foco na transferência entre diferentes escalas de modelos. Propomos a Hipótese da Chave-Mestra, que afirma que as capacidades do modelo correspondem a direções em um subespaço latente de baixa dimensão que induzem comportamentos específicos e são transferíveis entre modelos por meio de alinhamento linear. Com base nessa hipótese, introduzimos o UNLOCK, uma estrutura livre de treinamento e de rótulos que extrai uma direção de capacidade contrastando as ativações entre variantes da Fonte com e sem a capacidade, alinha-a com um modelo de Destino por meio de uma transformação linear de baixa classificação e aplica-a no momento da inferência para eliciar o comportamento. Experimentos com comportamentos de raciocínio, incluindo Cadeia de Pensamento (CoT) e raciocínio matemático, demonstram melhorias substanciais entre escalas de modelos sem treinamento. Por exemplo, transferir o raciocínio CoT do Qwen1.5-14B para o Qwen1.5-7B resulta em um ganho de precisão de 12,1% no conjunto MATH, e transferir uma direção de raciocínio matemático do Qwen3-4B-Base para o Qwen3-14B-Base melhora a precisão no AGIEval Math de 61,1% para 71,3%, superando os 67,8% alcançados pelo modelo de 14B pós-treinado. Nossa análise mostra que o sucesso da transferência depende das capacidades aprendidas durante o pré-treinamento e que nossa intervenção amplifica as capacidades latentes ao aguçar a distribuição de saída em direção a trajetórias de raciocínio bem-sucedidas.

GRPO Fiel: Aprimorando o Raciocínio Espacial Visual em Modelos de Linguagem Multimodais por meio de Otimização de Políticas com Restrições
Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Apr 9

BySai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu

Os modelos de raciocínio multimodal (MRMs) treinados com aprendizagem por reforço com recompensas verificáveis (RLVR) demonstram maior precisão em benchmarks de raciocínio visual. No entanto, observamos que os ganhos de precisão frequentemente ocorrem à custa da qualidade do raciocínio: os traços de Cadeia de Pensamento (CoT) gerados são frequentemente inconsistentes com a resposta final e pouco fundamentados na evidência visual. Estudamos sistematicamente este fenômeno em sete benchmarks desafiadores de raciocínio espacial do mundo real e descobrimos que ele afeta MRMs contemporâneos como ViGoRL-Spatial, TreeVGR, bem como nossos próprios modelos treinados com a Otimização de Política Relativa de Grupo (GRPO) padrão. Caracterizamos a qualidade do raciocínio CoT ao longo de dois eixos complementares: "consistência lógica" (a CoT implica a resposta final?) e "fundamentação visual" (cada etapa do raciocínio descreve com precisão objetos, atributos e relações espaciais na imagem?). Para resolver isso, propomos o Faithful GRPO (FGRPO), uma variante do GRPO que impõe a consistência e a fundamentação como restrições via subida dual Lagrangiana. O FGRPO incorpora restrições de consistência e fundamentação a nível de *batch* no cálculo da vantagem dentro de um grupo, ajustando adaptativamente a importância relativa das restrições durante a otimização. Avaliamos o FGRPO em backbones Qwen2.5-VL-7B e 3B em sete conjuntos de dados espaciais. Nossos resultados mostram que o FGRPO melhora substancialmente a qualidade do raciocínio, reduzindo a taxa de inconsistência de 24,5% para 1,7% e melhorando as pontuações de fundamentação visual em +13%. Ele também melhora a precisão da resposta final em relação ao GRPO simples, demonstrando que um raciocínio fidedigno permite respostas melhores.

Fantasma: Geração de Vídeo Infundida com Física por meio da Modelagem Conjunta de Dinâmicas Visuais e Latentes Físicas
Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Apr 9

ByYing Shen, Jerry Xiong, Tianjiao Yu, Ismini Lourentzou

Os recentes avanços na modelagem generativa de vídeo, impulsionados por conjuntos de dados em larga escala e arquiteturas poderosas, têm produzido um realismo visual notável. No entanto, evidências emergentes sugerem que simplesmente escalar os dados e o tamanho do modelo não confere a esses sistemas uma compreensão das leis físicas subjacentes que governam a dinâmica do mundo real. As abordagens existentes frequentemente falham em capturar ou impor essa consistência física, resultando em movimento e dinâmica irreais. Em nosso trabalho, investigamos se a integração da inferência de propriedades físicas latentes diretamente no processo de geração de vídeo pode dotar os modelos da capacidade de produzir vídeos fisicamente plausíveis. Para esse fim, propomos o Phantom, um modelo de Geração de Vídeo Infundido por Física que modela conjuntamente o conteúdo visual e a dinâmica física latente. Condicionado a quadros de vídeo observados e estados físicos inferidos, o Phantom prevê conjuntamente a dinâmica física latente e gera quadros de vídeo futuros. O Phantom aproveita uma representação de vídeo consciente da física que serve como uma incorporação abstrata, porém informativa, da física subjacente, facilitando a previsão conjunta da dinâmica física juntamente com o conteúdo do vídeo, sem exigir uma especificação explícita de um conjunto complexo de dinâmicas e propriedades físicas. Ao integrar a inferência da representação de vídeo consciente da física diretamente no processo de geração, o Phantom produz sequências de vídeo que são visualmente realistas e fisicamente consistentes. Resultados quantitativos e qualitativos em benchmarks padrão de geração de vídeo e conscientes da física demonstram que o Phantom não apenas supera os métodos existentes em termos de aderência à dinâmica física, mas também oferece uma fidelidade perceptual competitiva.

PokeGym: Um Benchmark Visual de Longo Horizonte para Modelos de Visão e Linguagem
PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

Apr 9

ByRuizhi Zhang, Ye Huang, Yuangang Pan, Chuanfu Shen, Zhilin Liu, Ting Xie, Wen Li, Lixin Duan

Embora os Modelos de Visão e Linguagem (VLMs) tenham alcançado progressos notáveis na compreensão visual estática, sua implantação em ambientes complexos de embodiamento 3D permanece severamente limitada. Os benchmarks existentes sofrem de quatro deficiências críticas: (1) tarefas de percepção passiva contornam as dinâmicas interativas; (2) ambientes 2D simplificados falham em avaliar a percepção de profundidade; (3) o vazamento de estado privilegiado ignora o processamento visual genuíno; e (4) a avaliação humana é proibitivamente cara e não escalável. Apresentamos o PokeGym, um benchmark visual de longo horizonte instanciado dentro de Pokemon Legends: Z-A, um jogo de RPG de mundo aberto 3D visualmente complexo. O PokeGym aplica um isolamento rigoroso a nível de código: os agentes operam exclusivamente em observações RGB brutas, enquanto um avaliador independente verifica o sucesso via varredura de memória, garantindo uma tomada de decisão baseada puramente na visão e uma avaliação automatizada e escalável. O benchmark compreende 30 tarefas (30-220 passos) abrangendo cenários de navegação, interação e mistos, com três granularidades de instrução (Guiado Visualmente, Guiado por Etapas, Apenas Objetivo) para desconstruir sistematicamente as capacidades de fundamentação visual, raciocínio semântico e exploração autónoma. Nossa avaliação revela uma limitação fundamental dos VLMs atuais: a recuperação de *deadlocks* físicos, em vez do planeamento de alto nível, constitui o principal gargalo, com os *deadlocks* mostrando uma forte correlação negativa com o sucesso da tarefa. Além disso, descobrimos uma divergência metacognitiva: modelos mais fracos sofrem predominantemente de *Deadlocks Inconscientes* (alheios ao aprisionamento), enquanto modelos avançados exibem *Deadlocks Conscientes* (reconhecem o aprisionamento, mas falham em recuperar). Essas descobertas destacam a necessidade de integrar intuição espacial explícita nas arquiteturas de VLM. O código e o benchmark estarão disponíveis no GitHub.

AnomalyVFM -- Transformando Modelos de Fundação Visuais em Detectores de Anomalias Zero-Shot
AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

Apr 9

ByMatic Fučka, Vitjan Zavrtanik, Danijel Skočaj

A detecção de anomalias zero-shot tem como objetivo detetar e localizar regiões anómalas numa imagem sem acesso a quaisquer imagens de treino do domínio. Embora as abordagens recentes aproveitem modelos visão-linguagem (VLM), como o CLIP, para transferir conhecimento de conceitos de alto nível, os métodos baseados puramente em modelos de base visuais (VFM), como o DINOv2, têm ficado atrás em desempenho. Argumentamos que esta lacuna decorre de dois problemas práticos: (i) diversidade limitada nos conjuntos de dados auxiliares de deteção de anomalias existentes e (ii) estratégias de adaptação de VFM excessivamente superficiais. Para enfrentar ambos os desafios, propomos o AnomalyVFM, uma estrutura geral e eficaz que transforma qualquer VFM pré-treinado num detetor de anomalias zero-shot robusto. A nossa abordagem combina um esquema robusto de geração de conjuntos de dados sintéticos em três estágios com um mecanismo de adaptação eficiente em parâmetros, utilizando adaptadores de características de baixo rank e uma perda de pixel ponderada por confiança. Em conjunto, estes componentes permitem que os VFM modernos superem substancialmente os métodos state-of-the-art atuais. Mais especificamente, com o RADIO como backbone, o AnomalyVFM alcança uma AUROC média a nível de imagem de 94,1% em 9 conjuntos de dados diversos, superando os métodos anteriores em significativos 3,3 pontos percentuais. Página do Projeto: https://maticfuc.github.io/anomaly_vfm/

QEIL v2: Computação Heterogênea para Inteligência na Borda via Modelagem de Energia Pareto-Otimal Derivada de Roofline e Orquestração Multiobjetivo
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

Apr 5

BySatyam Kumar, Saurabh Jha

A implantação de grandes modelos de linguagem (LLMs) em dispositivos de *edge* heterogéneos exige estruturas que otimizem conjuntamente a eficiência energética, a qualidade da inferência e a confiabilidade. A nossa versão anterior, QEIL v1 (Kumar & Jha, 2026), alcançou uma melhoria de 4,82x no IPW, mas dependia de fatores de eficiência estáticos, otimização gananciosa e seleção não verificada de candidatos. O QEIL v2 substitui todas as heurísticas estáticas por modelos fundamentados na física e adaptativos em tempo de execução. Introduzimos três métricas de dispositivo-carga de trabalho: DASI (utilização de computação derivada do modelo *roofline*), CPQ (pressão de memória da teoria de alocação) e Phi (rendimento térmico da física de fugas CMOS), formando uma equação de energia unificada com cada coeficiente rastreável à física dos semicondutores. Para otimização, o PGSAM (Recozimento Simulado Guiado por Pareto com Momento) minimiza simultaneamente a energia, a latência e a subutilização do dispositivo. No momento da inferência, a cascata de seleção EAC/ARDE com paragem antecipada CSVET fornece verificação progressiva entre amostras repetidas. Avaliado no WikiText-103, GSM8K e ARC-Challenge em sete famílias de modelos (125M-8B parâmetros, incluindo uma variante pré-quantizada), o QEIL v2 alcança 75,7% de pass@k a 63,8W (IPW=0,9749), uma melhoria de 2,86x em relação à inferência padrão. Quando aplicado a um Llama-3.1-8B de 4 bits, o encaminhamento fundamentado na física do QEIL v2 atinge IPW=1,024 a 54,8W — sendo o primeiro sistema de orquestração de *edge* a superar a marca de referência empírica IPW=1,0, com o ganho atribuível inteiramente à alocação de dispositivos adaptativa à carga de trabalho do QEIL v2 num modelo com requisitos de largura de banda de memória reduzidos. A energia total diminui 75,6% em comparação com o padrão, com uma redução de latência de 38,3%, zero *throttling* térmico e recuperação de falhas de 100% em todos os *benchmarks* e famílias de modelos.

Sondagem Estrutural de Grafos em Modelos de Visão e Linguagem
Structural Graph Probing of Vision-Language Models

Mar 28

ByHaoyu He, Yue Zhuo, Yu Zheng, Qi R. Wang

Os modelos visão-linguagem (VLMs) alcançam um forte desempenho multimodal, mas a forma como o cálculo é organizado através de populações de neurónios permanece pouco compreendida. Neste trabalho, estudamos os VLMs através da lente da topologia neural, representando cada camada como um grafo de correlação intra-camada derivado de co-ativações neurónio-neurónio. Esta perspetiva permite-nos questionar se a estrutura ao nível da população é comportamentalmente significativa, como é que esta muda entre modalidades e profundidade, e se identifica componentes internos causalmente influentes sob intervenção. Mostramos que a topologia de correlação transporta um sinal comportamental recuperável; além disso, a estrutura cross-modal consolida-se progressivamente com a profundidade em torno de um conjunto compacto de neurónios centrais recorrentes, cuja perturbação direcionada altera substancialmente a saída do modelo. A topologia neural surge assim como uma escala intermédia significativa para a interpretabilidade dos VLMs: mais rica do que a atribuição local, mais tratável do que a recuperação completa do circuito, e empiricamente ligada ao comportamento multimodal. O código está publicamente disponível em https://github.com/he-h/vlm-graph-probing.

POS-ISP: Otimização de Pipeline em Nível de Sequência para ISP Consciente da Tarefa
POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP

Apr 8

ByJiyun Won, Heemin Yang, Woohyeok Kim, Jungseul Ok, Sunghyun Cho

Trabalhos recentes têm explorado a otimização de pipelines de processamento de sinal de imagem (ISP) para várias tarefas através da composição de módulos predefinidos e da sua adaptação a objetivos específicos. No entanto, a otimização conjunta de sequências e parâmetros dos módulos continua a ser um desafio. As abordagens existentes baseiam-se em pesquisa de arquitetura neural (NAS) ou em aprendizagem por reforço (RL) passo a passo, mas a NAS sofre de uma incompatibilidade entre treino e inferência, enquanto a RL passo a passo leva a um treino instável e a uma elevada sobrecarga computacional devido à tomada de decisão faseada. Propomos o POS-ISP, um quadro de RL a nível de sequência que formula a otimização modular do ISP como um problema global de previsão de sequência. O nosso método prevê toda a sequência de módulos e os seus parâmetros numa única passagem direta e otimiza o pipeline usando uma recompensa de tarefa terminal, eliminando a necessidade de supervisão intermédia e execuções redundantes. Experiências em várias tarefas a jusante mostram que o POS-ISP melhora o desempenho da tarefa enquanto reduz o custo computacional, destacando a otimização a nível de sequência como um paradigma estável e eficiente para ISP consciente da tarefa. A página do projeto está disponível em https://w1jyun.github.io/POS-ISP.

Personalização da Geração de Texto para Imagem de Acordo com o Gosto Individual
Personalizing Text-to-Image Generation to Individual Taste

Apr 8

ByAnne-Sofie Maerten, Juliane Verwiebe, Shyamgopal Karthik, Ameya Prabhu, Johan Wagemans, Matthias Bethge

Os modelos modernos de texto para imagem (T2I) geram visuais de alta fidelidade, mas permanecem indiferentes às preferências individuais do utilizador. Embora os modelos de recompensa existentes otimizem para o apelo humano "médio", eles não conseguem capturar a subjectividade inerente ao julgamento estético. Neste trabalho, introduzimos um novo conjunto de dados e uma estrutura preditiva, denominada PAMELA, concebida para modelar avaliações de imagem personalizadas. O nosso conjunto de dados compreende 70.000 classificações de 5.000 imagens diversas geradas por modelos de última geração (Flux 2 e Nano Banana). Cada imagem é avaliada por 15 utilizadores únicos, fornecendo uma distribuição rica de preferências subjectivas em domínios como arte, design, moda e fotografia cinematográfica. Aproveitando estes dados, propomos um modelo de recompensa personalizado treinado em conjunto com as nossas anotações de alta qualidade e subconjuntos existentes de avaliação estética. Demonstramos que o nosso modelo prevê o gosto individual com maior precisão do que a maioria dos métodos atuais de última geração prevê as preferências a nível populacional. Utilizando o nosso preditor personalizado, demonstramos como métodos simples de optimização de *prompts* podem ser usados para orientar as gerações para as preferências individuais do utilizador. Os nossos resultados destacam a importância da qualidade dos dados e da personalização para lidar com a subjectividade das preferências do utilizador. Disponibilizamos o nosso conjunto de dados e modelo para facilitar a investigação padronizada no alinhamento personalizado de T2I e na avaliação subjectiva da qualidade visual.

Appear2Meaning: Um Benchmark Intercultural para Inferência Estruturada de Metadados Culturais a partir de Imagens
Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Apr 8

ByYuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou

Avanços recentes em modelos visão-linguagem (VLMs) têm aprimorado a descrição de imagens para o património cultural. No entanto, a inferência de metadados culturais estruturados (por exemplo, criador, origem, período) a partir de entrada visual permanece pouco explorada. Apresentamos uma referência de avaliação multicultural e multicategoria para esta tarefa e avaliamos VLMs usando uma estrutura LLM-como-Juiz que mede o alinhamento semântico com anotações de referência. Para avaliar o raciocínio cultural, relatamos precisão de correspondência exata, correspondência parcial e a nível de atributo entre regiões culturais. Os resultados mostram que os modelos capturam sinais fragmentados e exibem variação substancial de desempenho entre culturas e tipos de metadados, levando a previsões inconsistentes e pouco fundamentadas. Estas descobertas destacam as limitações dos VLMs atuais na inferência de metadados culturais estruturados para além da perceção visual.

Além da Exploração Estocástica: O Que Torna os Dados de Treinamento Valiosos para a Busca Agêntica
Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Apr 9

ByChuzhan Hao, Wenfeng Feng, Guochao Jiang, Guofeng Quan, Guohua Liu, Yuewei Zhang

O aprendizado por reforço (RL) tornou-se uma abordagem eficaz para avançar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs) através da integração estratégica de motores de busca externos. No entanto, os agentes de busca baseados em RL atuais frequentemente dependem de um processo de exploração estocástica orientado por recompensas de resultado cuidadosamente elaboradas, resultando em trajetórias de raciocínio ineficientes e treinamento instável. Para resolver essas questões, propomos uma nova estrutura, a Experiência Hierárquica (HiExp), para melhorar o desempenho e a estabilidade do treinamento de agentes de busca. Especificamente, extraímos conhecimento empírico através de análise contrastiva e um mecanismo de agrupamento multinível, transformando trajetórias de raciocínio brutas em conhecimento de experiência hierárquica. Ao aproveitar o treinamento alinhado com a experiência, regularizamos efetivamente a exploração estocástica, evoluindo-a para um processo de busca estratégico e orientado pela experiência. Avaliações extensas em múltiplos benchmarks complexos de busca agentiva e raciocínio matemático demonstram que nossa abordagem não apenas alcança ganhos substanciais de desempenho, mas também exibe forte generalização cruzada entre tarefas e algoritmos.

ImplicitMemBench: Medindo a Adaptação Comportamental Inconsciente em Modelos de Linguagem de Grande Porte
ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Apr 9

ByChonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong

Os benchmarks de memória existentes para agentes de LLM avaliam a recordação explícita de fatos, mas negligenciam a memória implícita, na qual a experiência se torna comportamento automatizado sem recuperação consciente. Esta lacuna é crítica: assistentes eficazes devem aplicar automaticamente procedimentos aprendidos ou evitar ações mal-sucedidas sem lembretes explícitos. Apresentamos o ImplicitMemBench, o primeiro benchmark sistemático a avaliar a memória implícita através de três construtos fundamentados na cognição, extraídos de relatos padrão da ciência cognitiva sobre memória não declarativa: Memória Procedimental (aquisição de habilidade única após interferência), *Priming* (viés orientado por tema através de pares de instâncias experimentais/controle) e Condicionamento Clássico (associações Estímulo Condicionado – Estímulo Incondicionado (EC–EI) que moldam as primeiras decisões). Nosso conjunto de 300 itens emprega um protocolo unificado de Aprendizagem/*Priming*-Interferência-Teste com pontuação na primeira tentativa. A avaliação de 17 modelos revela limitações severas: nenhum modelo excede 66% no geral, com os melhores desempenhos sendo DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) e GPT-5 (63,0%) muito abaixo das *baselines* humanas. A análise descobre assimetrias dramáticas (inibição 17,6% vs. preferência 75,0%) e gargalos universais que exigem inovações arquitetônicas além do escalonamento de parâmetros. O ImplicitMemBench reformula a avaliação de "o que os agentes recordam" para "o que eles automaticamente executam".

RewardFlow: Gerar Imagens Otimizando o Que Você Recompensa
RewardFlow: Generate Images by Optimizing What You Reward

Apr 9

ByOnkar Susladkar, Dong-Hwan Jang, Tushar Prakash, Adheesh Juvekar, Vedant Shah, Ayush Barik, Nabeel Bashir, Muntasir Wahed, Ritish Shrirao, Ismini Lourentzou

Apresentamos o RewardFlow, uma estrutura livre de inversão que direciona modelos pré-treinados de difusão e *flow-matching* durante a inferência por meio de dinâmica de Langevin multi-recompensa. O RewardFlow unifica recompensas diferenciáveis complementares para alinhamento semântico, fidelidade perceptual, ancoragem localizada, consistência de objetos e preferência humana, e ainda introduz uma recompensa diferenciada baseada em VQA que fornece supervisão semântica refinada através de raciocínio linguagem-visão. Para coordenar esses objetivos heterogêneos, projetamos uma política adaptativa consciente do *prompt* que extrai primitivas semânticas da instrução, infere a intenção de edição e modula dinamicamente os pesos de recompensa e os tamanhos de passo ao longo da amostragem. Em diversos benchmarks de edição de imagem e geração composicional, o RewardFlow oferece fidelidade de edição e alinhamento composicional de última geração.

Sobre o Alinhamento Fotométrico Global para Visão Computacional de Baixo Nível
On the Global Photometric Alignment for Low-Level Vision

Apr 9

ByMingjia Li, Tianle Du, Hainuo Wang, Qiming Hu, Xiaojie Guo

Os modelos supervisionados de visão de baixo nível dependem de perdas pixel a pixel contra referências pareadas, porém conjuntos de treinamento pareados exibem inconsistência fotométrica por par – ou seja, diferentes pares de imagens exigem mapeamentos distintos de brilho global, cor ou balanço de branco. Essa inconsistência surge através de transferência fotométrica intrínseca à tarefa (ex.: realce de baixa luminosidade) ou de variações não intencionais de aquisição (ex.: remoção de chuva), e em ambos os casos causa uma patologia de otimização. As perdas de reconstrução padrão alocam um orçamento de gradiente desproporcional para metas fotométricas conflitantes por par, prejudicando a restauração de conteúdo. Neste artigo, investigamos esse problema e provamos que, sob decomposição por mínimos quadrados, os componentes fotométrico e estrutural do resíduo predição-alvo são ortogonais, e que o componente fotométrico espacialmente denso domina a energia do gradiente. Motivados por essa análise, propomos a Perda de Alinhamento Fotométrico (PAL). Este objetivo de supervisão flexível desconta discrepâncias fotométricas perturbadoras via alinhamento afim de cores de forma fechada, preservando a supervisão relevante para restauração, exigindo apenas estatísticas de covariância e uma pequena inversão de matriz com sobrecarga insignificante. Em 6 tarefas, 16 conjuntos de dados e 16 arquiteturas, a PAL melhora consistentemente as métricas e a generalização. A implementação está no apêndice.

CylinderDepth: Atenção Espacial Cilíndrica para Estimativa de Profundidade de Entorno Autossupervisionada com Consistência Multi-Vista
CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

Apr 8

BySamer Abualhanud, Christian Grannemann, Max Mehltretter

A estimativa de profundidade autossupervisionada com visão de 360° permite uma percepção 3D densa e de baixo custo com um campo de visão completo a partir de múltiplas imagens com sobreposição mínima. No entanto, a maioria dos métodos existentes sofre com estimativas de profundidade inconsistentes entre as imagens sobrepostas. Para superar esta limitação, propomos um novo método guiado por geometria para *rigs* de multicâmaras calibradas e sincronizadas no tempo, que prevê profundidade métrica densa. Nossa abordagem visa duas fontes principais de inconsistência: o campo receptivo limitado nas regiões de borda da estimativa de profundidade de imagem única e a dificuldade de correspondência de *correspondences*. Mitigamos estes dois problemas estendendo o campo receptivo através das vistas e restringindo a atenção cruzada a uma pequena vizinhança. Para tal, estabelecemos as relações de vizinhança entre as imagens mapeando as posições dos *features* específicos de cada imagem num cilindro compartilhado. Com base nas posições cilíndricas, aplicamos um mecanismo explícito de atenção espacial, com ponderação não aprendida, que agrega *features* entre imagens de acordo com as suas distâncias no cilindro. Os *features* modulados são então decodificados num mapa de profundidade para cada vista. Avaliado nos conjuntos de dados DDAD e nuScenes, o nosso método melhora tanto a consistência da profundidade entre vistas como a precisão geral da profundidade em comparação com as abordagens state-of-the-art. O código está disponível em https://abualhanud.github.io/CylinderDepthPage.