HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

34 papers found

Das Competências ao Talento: Organizando Agentes Heterogêneos como uma Empresa do Mundo Real
From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

Apr 24

ByZhengxu Yu, Yu Fu, Zhiyuan He, Yuxuan Huang, Lee Ka Yiu, Meng Fang, Weilin Luo, Jun Wang

As capacidades dos agentes individuais avançaram rapidamente através de módulos de competências e integrações de ferramentas, no entanto, os sistemas multiagente permanecem limitados por estruturas de equipa fixas, lógica de coordenação fortemente acoplada e aprendizagem vinculada à sessão. Argumentamos que isto reflete uma ausência mais profunda: uma camada organizacional fundamentada que governa como uma força de trabalho de agentes é montada, governada e melhorada ao longo do tempo, dissociada do que os agentes individuais sabem. Para preencher esta lacuna, introduzimos a OneManCompany (OMC), uma estrutura que eleva os sistemas multiagente ao nível organizacional. A OMC encapsula competências, ferramentas e configurações de tempo de execução em identidades de agentes portáteis chamadas Talentos, orquestradas através de interfaces organizacionais tipados que abstraem *backends* heterogéneos. Um Mercado de Talentos orientado pela comunidade permite o recrutamento sob demanda, permitindo que a organização colme lacunas de capacidade e se reconfigurar dinamicamente durante a execução. A tomada de decisão organizacional é operacionalizada através de uma pesquisa em árvore Explorar-Executar-Rever (E²R), que unifica o planeamento, a execução e a avaliação num único ciclo hierárquico: as tarefas são decompostas de cima para baixo em unidades responsáveis e os resultados da execução são agregados de baixo para cima para impulsionar uma revisão e um refinamento sistemáticos. Este ciclo fornece garantias formais sobre terminação e ausência de *deadlocks*, ao mesmo tempo que espelha os mecanismos de *feedback* das empresas humanas. Em conjunto, estas contribuições transformam os sistemas multiagente de *pipelines* estáticos e pré-configurados em organizações de IA auto-organizáveis e auto-melhoráveis, capazes de se adaptarem a tarefas de natureza aberta em diversos domínios. A avaliação empírica no PRDBench mostra que a OMC atinge uma taxa de sucesso de 84,67%, superando o estado da arte em 15,48 pontos percentuais, com estudos de caso transdomínio a demonstrarem ainda mais a sua generalidade.

World-R1: Reforçando Restrições 3D para Geração de Vídeo a Partir de Texto
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Apr 27

ByWeijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang

Os modelos de fundação de vídeo recentes demonstram síntese visual impressionante, mas frequentemente apresentam inconsistências geométricas. Embora os métodos existentes tentem injetar conhecimentos prévios de 3D através de modificações arquiteturais, eles geralmente incorrem em altos custos computacionais e limitam a escalabilidade. Propomos o World-R1, uma estrutura que alinha a geração de vídeo com restrições 3D através de aprendizado por reforço. Para facilitar esse alinhamento, introduzimos um conjunto de dados especializado de texto puro adaptado para simulação mundial. Utilizando Flow-GRPO, otimizamos o modelo usando feedback de modelos de fundação 3D pré-treinados e modelos visão-linguagem para impor coerência estrutural sem alterar a arquitetura subjacente. Empregamos ainda uma estratégia de treinamento periódico desacoplado para equilibrar a consistência geométrica rígida com a fluidez dinâmica da cena. Avaliações extensivas revelam que nossa abordagem melhora significativamente a consistência 3D enquanto preserva a qualidade visual original do modelo de fundação, efetivamente preenchendo a lacuna entre geração de vídeo e simulação mundial escalável.

ReVSI: Reconstruindo a Avaliação da Inteligência Espacial Visual para uma Análise Precisa do Raciocínio 3D em VLMs
ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Apr 27

ByYiming Zhang, Jiacheng Chen, Jiaqi Tan, Yongsen Mao, Wenhu Chen, Angel X. Chang

As avaliações atuais de inteligência espacial podem ser sistematicamente inválidas sob configurações modernas de modelos de visão e linguagem (VLM). Primeiro, muitos benchmarks derivam pares pergunta-resposta (QA) de anotações 3D baseadas em nuvem de pontos originalmente criadas para percepção 3D tradicional. Quando tais anotações são tratadas como verdade fundamental para avaliação baseada em vídeo, artefatos de reconstrução e anotação podem omitir objetos claramente visíveis no vídeo, rotular incorretamente identidades de objetos ou corromper respostas dependentes de geometria (por exemplo, tamanho), produzindo pares QA incorretos ou ambíguos. Segundo, as avaliações frequentemente assumem acesso à cena completa, enquanto muitos VLMs operam com quadros amostrados esparsamente (por exemplo, 16-64), tornando muitas questões efetivamente impossíveis de responder sob as entradas reais do modelo. Melhoramos a validade da avaliação introduzindo o ReVSI, um benchmark e protocolo que garante que cada par QA seja respondível e correto sob as entradas reais do modelo. Para tanto, reanotamos objetos e geometria em 381 cenas de 5 conjuntos de dados para melhorar a qualidade dos dados, e regeneramos todos os pares QA com rigorosa mitigação de viés e verificação humana usando ferramentas profissionais de anotação 3D. Ainda aprimoramos a controlabilidade da avaliação fornecendo variantes em múltiplos orçamentos de quadros (16/32/64/todos) e metadados de visibilidade de objetos granular, permitindo análises diagnósticas controladas. Avaliações de VLMs gerais e específicos de domínio no ReVSI revelam modos de falha sistemáticos que são obscurecidos por benchmarks anteriores, produzindo uma avaliação mais confiável e diagnóstica da inteligência espacial.

Tuna-2: Incorporação de Pixels Supera Codificadores Visuais para Compreensão e Geração Multimodal
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Apr 27

ByZhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong

Os modelos multimodais unificados geralmente dependem de codificadores de visão pré-treinados e utilizam representações visuais separadas para compreensão e geração, criando um desalinhamento entre as duas tarefas e impedindo uma otimização totalmente de ponta a ponta a partir de pixels brutos. Apresentamos o Tuna-2, um modelo multimodal unificado nativo que realiza compreensão e geração visual diretamente com base em embeddings de pixels. O Tuna-2 simplifica drasticamente a arquitetura do modelo ao empregar camadas simples de embedding de patches para codificar a entrada visual, descartando completamente os designs modulares de codificadores de visão, como o VAE ou o codificador de representações. Experimentos mostram que o Tuna-2 alcança desempenho de ponta em benchmarks multimodais, demonstrando que a modelagem unificada no espaço de pixels pode competir plenamente com abordagens no espaço latente para geração de imagens de alta qualidade. Além disso, embora a variante baseada em codificador convirja mais rapidamente no pré-treinamento inicial, o design livre de codificador do Tuna-2 alcança uma compreensão multimodal mais robusta em escala, particularmente em tarefas que exigem percepção visual refinada. Estes resultados mostram que codificadores de visão pré-treinados não são necessários para modelagem multimodal, e a aprendizagem de ponta a ponta no espaço de pixels oferece um caminho escalável para representações visuais mais robustas tanto para geração quanto para percepção.

Segurança Visão-Linguagem-Ação: Ameaças, Desafios, Avaliações e Mecanismos
Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Apr 26

ByQi Li, Bo Yin, Weiqi Huang, Ruhao Liu, Bojun Zou, Runpeng Yu, Jingwen Ye, Weihao Yu, Xinchao Wang

Os modelos Visão-Linguagem-Ação (VLA) estão a emergir como um substrato unificado para a inteligência incorporada. Esta mudança levanta uma nova classe de desafios de segurança, decorrentes da natureza incorporada dos sistemas VLA, incluindo consequências físicas irreversíveis, uma superfície de ataque multimodal através da visão, linguagem e estado, restrições de latência em tempo real na defesa, propagação de erros em trajetórias de longo horizonte e vulnerabilidades na cadeia de fornecimento de dados. No entanto, a literatura permanece fragmentada entre a aprendizagem robótica, a aprendizagem automática adversária, o alinhamento da IA e a segurança de sistemas autónomos. Este estudo fornece uma visão geral unificada e atualizada sobre a segurança em modelos Visão-Linguagem-Ação. Organizamos o campo ao longo de dois eixos temporais paralelos: *timing* do ataque (*training-time* vs. *inference-time*) e *timing* da defesa (*training-time* vs. *inference-time*), ligando cada classe de ameaça à fase em que pode ser mitigada. Primeiro, definimos o âmbito da segurança VLA, distinguindo-a da segurança de LLMs apenas de texto e da segurança robótica clássica, e revemos os fundamentos dos modelos VLA, incluindo arquiteturas, paradigmas de treino e mecanismos de inferência. De seguida, examinamos a literatura através de quatro lentes: Ataques, Defesas, Avaliação e Implementação. Analisamos ameaças durante o treino, como envenenamento de dados e *backdoors*, bem como ataques durante a inferência, incluindo *patches* adversariais, perturbações multimodais, *jailbreaks* semânticos e ataques de congelamento. Revemos defesas durante o treino e em tempo de execução, analisamos *benchmarks* e métricas existentes e discutimos os desafios de segurança em seis domínios de implementação. Por fim, destacamos problemas em aberto fundamentais, incluindo robustez certificada para trajetórias incorporadas, defesas fisicamente realizáveis, treino com consciência de segurança, arquiteturas de segurança unificadas em tempo de execução e avaliação padronizada.

ClawMark: Um Benchmark do Mundo Vivo para Agentes Colaborativos Multimodais, Multi-turno e Multi-dia
ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Apr 26

ByFanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh

Os agentes baseados em modelos de linguagem são cada vez mais utilizados como colegas de trabalho persistentes que auxiliam os usuários em múltiplos dias de trabalho. Durante esses fluxos de trabalho, o ambiente circundante pode mudar independentemente do agente: novos e-mails chegam, entradas de calendário são alteradas, registros de base de conhecimento são atualizados e evidências surgem em imagens, PDFs digitalizados, áudio, vídeo e planilhas. Os benchmarks existentes não avaliam adequadamente esse cenário, pois normalmente operam em um único episódio estático e permanecem majoritariamente centrados em texto. Apresentamos um benchmark para agentes colegas de trabalho construído em torno de tarefas multiturno e multidia, um ambiente de serviço sandbox com estado cujo estado evolui entre as interações e verificação baseada em regras. A versão atual contém 100 tarefas abrangendo 13 cenários profissionais, executadas contra cinco serviços sandbox com estado (sistema de arquivos, e-mail, calendário, base de conhecimento, planilha) e pontuadas por 1537 verificadores determinísticos em Python sobre o estado do serviço pós-execução; nenhum LLM-como-juiz é invocado durante a pontuação. Avaliamos sete sistemas de agente de fronteira. O modelo mais forte atinge 75,8 de pontuação ponderada, mas o melhor Sucesso de Tarefa estrito é de apenas 20,0%, indicando que o progresso parcial é comum enquanto a conclusão completa de fluxos de trabalho fim a fim permanece rara. A análise no nível de interação mostra que o desempenho cai após a primeira atualização exógena do ambiente, destacando a adaptação a mudanças de estado como um desafio aberto fundamental. Disponibilizamos o benchmark, o conjunto de ferramentas de avaliação e o pipeline de construção para apoiar a avaliação reprodutível de agentes colegas de trabalho.

SketchVLM: Modelos de linguagem visual podem anotar imagens para explicar pensamentos e orientar usuários
SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Apr 23

ByBrandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen

Ao responder perguntas sobre imagens, os seres humanos apontam, rotulam e desenham naturalmente para explicar seu raciocínio. Em contraste, modelos modernos de visão e linguagem (VLMs), como o Gemini-3-Pro e o GPT-5, respondem apenas com texto, o que pode ser difícil para os usuários verificarem. Apresentamos o SketchVLM, uma estrutura *model-agnostic* que não requer treinamento e permite que os VLMs produzam sobreposições SVG não destrutivas e editáveis na imagem de entrada para explicar visualmente suas respostas. Em sete benchmarks abrangendo raciocínio visual (navegação em labirintos, previsão de trajetória de queda de bola e contagem de objetos) e desenho (rotulagem de partes, ligar os pontos e desenhar formas ao redor de objetos), o SketchVLM melhora a precisão da tarefa de raciocínio visual em até +28,5 pontos percentuais e a qualidade da anotação em até 1,48x em relação às *baselines* de edição de imagem e desenho com *fine-tuning*, produzindo também anotações mais fiéis à resposta declarada do modelo. Verificamos que a geração em *single-turn* já atinge alta precisão e qualidade de anotação, e a geração em *multi-turn* abre mais oportunidades para colaboração humano-IA. Uma demonstração interativa e o código estão disponíveis em https://sketchvlm.github.io/.

Recompensando o Processo Científico: Modelagem de Recompensa em Nível de Processo para Análise de Dados Autônoma
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Apr 27

ByZhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen

Os Modelos de Recompensa de Processo (PRMs) têm alcançado sucesso notável em aumentar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) em domínios estáticos, como a matemática. No entanto, o seu potencial em tarefas de análise de dados dinâmicos permanece pouco explorado. Neste trabalho, apresentamos primeiro um estudo empírico que revela que os PRMs de domínio geral têm dificuldade em supervisionar agentes de análise de dados. Especificamente, eles falham em detetar erros silenciosos – falhas lógicas que produzem resultados incorretos sem desencadear exceções do interpretador – e penalizam erroneamente ações exploratórias, confundindo a exploração necessária de tentativa e erro com falhas de fundamentação (grounding). Para colmatar esta lacuna, introduzimos o DataPRM, um novo modelo de recompensa de processo generativo e consciente do ambiente que (1) pode funcionar como um verificador ativo, interagindo autonomamente com o ambiente para sondar estados de execução intermédios e detetar erros silenciosos, e (2) emprega uma estratégia de recompensa ternária consciente da reflexão, que distingue entre erros de fundamentação corrigíveis e erros irrecuperáveis. Projetamos um pipeline escalável para construir mais de 8 mil instâncias de treino de alta qualidade para o DataPRM através de geração de trajetórias orientada para a diversidade e anotação a nível de passo aumentada por conhecimento. Resultados experimentais demonstram que o DataPRM melhora os LLMs de política subsequentes em 7,21% no ScienceAgentBench e 11,28% no DABStep usando inferência Best-of-N. Notavelmente, com apenas 4B de parâmetros, o DataPRM supera linhas de base fortes e exibe uma robusta generalização através de diversas estratégias de Escalonamento no Tempo de Teste (Test-Time Scaling). Adicionalmente, a integração do DataPRM no Aprendizado por Reforço produz ganhos substanciais em comparação com linhas de base de recompensa por resultado, atingindo 78,73% no DABench e 64,84% no TableBench, validando a eficácia da supervisão de recompensa de processo. O código está disponível em https://github.com/zjunlp/DataMind.

For-Value: Avaliação de Dados Eficiente e Unidirecional para o Ajuste Fino de LLMs e VLMs
For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Apr 25

ByWenlong Deng, Qi Zeng, Jiaming Zhang, Minghui Chen, Zixin Ding, Christos Thrampoulidis, Boying Gong, Xiaoxiao Li

A valoração de dados é essencial para aumentar a transparência e a responsabilidade dos grandes modelos de linguagem (LLMs) e modelos visão-linguagem (VLMs). No entanto, os métodos existentes geralmente dependem de cálculos de gradiente, tornando-os computacionalmente proibitivos para modelos com bilhões de parâmetros e impedindo a paralelização em lote. Neste trabalho, apresentamos o For-Value, uma estrutura de valoração de dados baseada apenas no *forward pass* que permite uma estimativa de valor eficiente e escalável em lote, mantendo a eficácia. Aproveitando o poder expressivo dos LLMs/VLMs pré-treinados, demonstramos teoricamente que a valoração de dados pode ser capturada pelo alinhamento entre as representações ocultas finais e os erros de predição na última camada. Diante dessa percepção, o For-Value calcula o valor dos dados usando uma simples expressão de forma fechada com um único *forward pass*, eliminando a necessidade de retropropagação custosa e permitindo um cálculo eficiente em lote em escala. Experimentos extensivos mostram que o For-Value iguala ou supera as linhas de base baseadas em gradiente na detecção de dados influentes e dados rotulados incorretamente, enquanto alcança melhorias significativas de eficiência.

Domando a Assimetria Ator-Observador em Agentes por meio do Alinhamento Dialético
Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

Apr 21

ByBobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu

Os agentes de Modelos de Linguagem de Grande Porte evoluíram rapidamente de geradores de texto estáticos para sistemas dinâmicos capazes de executar fluxos de trabalho autónomos complexos. Para aumentar a confiabilidade, são cada vez mais adotadas arquiteturas multiagente que atribuem funções especializadas para permitir a autorreflexão e a auditoria mútua. Embora esse role-playing aproveite eficazmente o conhecimento especializado de domínio, verificamos que ele simultaneamente induz um viés cognitivo semelhante ao humano, conhecido como Assimetria Ator-Observador (AAO). Especificamente, um agente a atuar como ator (durante a autorreflexão) tende a atribuir falhas a fatores externos, enquanto um observador (durante a auditoria mútua) atribui os mesmos erros a falhas internas. Quantificamos este fenómeno usando o nosso novo Ambiguous Failure Benchmark, que revela que a simples troca de perspetivas desencadeia o efeito AAO em mais de 20% dos casos para a maioria dos modelos. Para domar este viés, introduzimos o ReTAS (Raciocínio via Tese-Antítese-Síntese), um modelo treinado através de alinhamento dialético para impor um raciocínio invariante à perspetiva. Ao integrar uma cadeia de pensamento dialética com a Otimização de Política Relativa de Grupo, o ReTAS orienta os agentes a sintetizar pontos de vista conflituantes num consenso objetivo. Experiências demonstram que o ReTAS mitiga eficazmente a inconsistência na atribuição de causas e melhora significativamente as taxas de resolução de falhas em cenários ambíguos.

Avaliação Eficiente de Agentes por meio de Simulação de Utilizadores Orientada pela Diversidade
Efficient Agent Evaluation via Diversity-Guided User Simulation

Apr 23

ByItay Nakash, George Kour, Ateret Anaby-Tavor

Os modelos de linguagem de grande escala (LLMs) estão cada vez mais a ser implementados como agentes de atendimento ao cliente, mas a avaliação da sua fiabilidade continua a ser um desafio devido à natureza estocástica das interações multi-turnos. Os protocolos de avaliação atuais baseiam-se em rollouts de Monte Carlo lineares de conversas completas entre agente e utilizador para estimar o sucesso. No entanto, esta abordagem é computacionalmente ineficiente, pois regenera repetidamente prefixos iniciais idênticos, e frequentemente não consegue detetar modos de falha profundos que surgem de comportamentos raros do utilizador. Apresentamos o DIVERT (Avaliação Induzida por Diversidade via Ramificação de Trajetórias), um quadro de simulação de utilizador eficiente, baseado em snapshots e orientado para a cobertura, para a exploração sistemática de interações agente-utilizador. O DIVERT captura o estado completo do agente-ambiente em pontos de decisão críticos e retoma a execução a partir desses snapshots, permitindo a reutilização de prefixos de conversa partilhados e reduzindo a computação redundante. A partir de cada junção, o quadro ramifica-se utilizando respostas do utilizador direcionadas e indutoras de diversidade, permitindo a exploração dirigida de caminhos de interação alternativos. Ao concentrar a avaliação em trajetórias semanticamente diversas e subexploradas, o DIVERT melhora tanto a eficiência como a cobertura. Resultados empíricos mostram que ele descobre mais falhas por token em comparação com os protocolos padrão de rollout linear, ao mesmo tempo que expande o conjunto de tarefas nas quais as falhas são identificadas.

OmniShotCut: Detecção Holística de Limites de Corte Relacional com Transformador de Consulta de Corte
OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

Apr 27

ByBoyang Wang, Guangyi Xu, Zhipeng Tang, Jiahui Zhang, Zezhou Cheng

A Detecção de Limites de Plano (SBD) visa identificar automaticamente as mudanças de plano e dividir um vídeo em planos coerentes. Embora a SBD tenha sido amplamente estudada na literatura, os métodos state-of-the-art existentes frequentemente produzem limites não interpretáveis nas transições, omitem descontinuidades sutis, porém prejudiciais, e dependem de anotações ruidosas, de baixa diversidade e de benchmarks desatualizados. Para mitigar essas limitações, propomos o OmniShotCut, que formula a SBD como uma previsão relacional estruturada, estimando conjuntamente os intervalos dos planos com relações intra-plano e relações inter-plano, por meio de um Transformer de vídeo denso baseado em consultas de plano. Para evitar a rotulagem manual imprecisa, adotamos um pipeline de síntese de transição totalmente sintético que reproduz automaticamente as principais famílias de transições com limites precisos e variantes parametrizadas. Também introduzimos o OmniShotCutBench, um benchmark moderno e de amplo domínio que permite uma avaliação holística e diagnóstica.

Por que o Ajuste Fino Incentiva Alucinações e Como Corrigi-lo
Why Fine-Tuning Encourages Hallucinations and How to Fix It

Apr 16

ByGuy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz

Os modelos de linguagem de grande escala são propensos a alucinações, produzindo afirmações factualmente incorretas. Uma fonte fundamental desses erros é a exposição a novas informações factuais por meio do ajuste fino supervisionado (SFT), que pode aumentar as alucinações em relação ao conhecimento adquirido durante o pré-treinamento. Neste trabalho, investigamos se as alucinações induzidas pelo SFT podem ser mitigadas utilizando ferramentas consolidadas da literatura de aprendizado contínuo, uma vez que elas surgem como um subproduto da degradação do conhecimento durante o treinamento. Propomos um método de SFT baseado em autodistilação que facilita a aprendizagem factual eficaz, minimizando as alucinações sobre o conhecimento pré-existente, por meio da regularização do desvio da distribuição de saída. Também demonstramos que, em cenários onde a aquisição de novo conhecimento é desnecessária, suprimir a plasticidade factual através do congelamento de grupos de parâmetros pode preservar o desempenho da tarefa enquanto reduz as alucinações. Por fim, investigamos o mecanismo por trás das alucinações induzidas pelo SFT por meio de três hipóteses: limitações de capacidade, clonagem de comportamento e interferência localizada. Nossos experimentos mostram que um dos principais fatores é a interferência entre representações semânticas sobrepostas e que a autodistilação tem sucesso por mitigar essa interferência.

Sapiens2
Sapiens2

Apr 23

ByRawal Khirodkar, He Wen, Julieta Martinez, Yuan Dong, Su Zhaoen, Shunsuke Saito

Apresentamos a Sapiens2, uma família de modelos de transformers de alta resolução para visão centrada no ser humano, focada em generalização, versatilidade e saídas de alta fidelidade. Nossos modelos variam em tamanho de 0,4 a 5 bilhões de parâmetros, com resolução nativa de 1K e variantes hierárquicas que suportam 4K. A Sapiens2 apresenta uma melhoria substancial em relação à sua predecessora, tanto no pré-treinamento quanto no pós-treinamento. Primeiro, para aprender características que capturam detalhes de baixo nível (para predição densa) e semântica de alto nível (para configurações de *zero-shot* ou poucos rótulos), combinamos a reconstrução de imagem mascarada com objetivos contrastivos auto-destilados. Nossas avaliações mostram que este objetivo de pré-treinamento unificado é mais adequado para uma gama mais ampla de tarefas subsequentes. Segundo, no eixo dos dados, realizamos o pré-treinamento em um conjunto de dados curado de 1 bilhão de imagens humanas de alta qualidade e melhoramos a qualidade e a quantidade das anotações de tarefas. Terceiro, em termos arquiteturais, incorporamos avanços de modelos de fronteira que permitem cronogramas de treinamento mais longos com maior estabilidade. Nossos modelos 4K adotam atenção com janelas para raciocinar sobre contextos espaciais mais longos e são pré-treinados com resolução de saída de 2K. A Sapiens2 estabelece um novo estado da arte e supera a primeira geração em pose (+4 mAP), segmentação de partes do corpo (+24,3 mIoU), estimativa de normais (45,6% menor erro angular) e se estende a novas tarefas, como estimativa de *pointmap* e *albedo*. Código: https://github.com/facebookresearch/sapiens2

UniGeo: Unificação da Orientação Geométrica para Edição de Imagens Controlável por Câmera através de Modelos de Vídeo
UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Apr 19

ByHong Jiang, Wensong Song, Zongxing Yang, Ruijie Quan, Yi Yang

A edição de imagens controlável por câmera visa sintetizar novas visualizações de uma determinada cena sob diferentes poses de câmera, preservando rigorosamente a consistência geométrica entre vistas. No entanto, os métodos existentes geralmente dependem de orientação geométrica fragmentada, como apenas injetar nuvens de pontos no nível de representação, apesar dos modelos conterem múltiplos níveis, e baseiam-se principalmente em modelos de difusão de imagem que operam em mapeamentos de vista discretos. Essas duas limitações conduzem conjuntamente a deriva geométrica e degradação estrutural sob movimento contínuo da câmera. Observamos que, embora a utilização de modelos de vídeo forneça priors de ponto de vista contínuos para a edição de imagens controlável por câmera, eles ainda lutam para formar uma compreensão geométrica estável se a orientação geométrica permanecer fragmentada. Para abordar isso sistematicamente, injetamos orientação geométrica unificada em três níveis que determinam conjuntamente a saída generativa: representação, arquitetura e função de perda. Para esse fim, propomos o UniGeo, uma nova estrutura de edição controlável por câmera. Especificamente, no nível de representação, o UniGeo incorpora um mecanismo de injeção de referência geométrica com quadros desacoplados para fornecer contexto geométrico robusto entre vistas. No nível arquitetural, introduz a atenção com âncora geométrica para alinhar características multivista. No nível da função de perda, propõe uma estratégia de supervisão geométrica de ponto-final de trajetória para reforçar explicitamente a fidelidade estrutural das vistas-alvo. Experimentos abrangentes em vários benchmarks públicos, abrangendo configurações de movimento de câmera extensivas e limitadas, demonstram que o UniGeo supera significativamente os métodos existentes tanto em qualidade visual quanto em consistência geométrica.

TexOCR: Avançando Modelos de OCR de Documentos para Reconstrução Página-para-LaTeX Compilável
TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Apr 24

ByChengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao

A OCR de documentos existente visa principalmente texto simples ou Markdown, descartando as propriedades estruturais e executáveis que tornam o LaTeX essencial para a publicação científica. Estudamos a reconstrução a nível de página de PDFs científicos em LaTeX compilável e introduzimos o TexOCR-Bench, um benchmark, e o TexOCR-Train, um corpus de treino em larga escala, para esta tarefa. O TexOCR-Bench apresenta uma suite de avaliação multidimensional que avalia conjuntamente a fidelidade da transcrição, a fidelidade estrutural e a compilabilidade de ponta a ponta. Aproveitando o TexOCR-Train, treinamos um modelo de 2B de parâmetros, TexOCR, usando *fine-tuning* supervisionado (SFT) e aprendizagem por reforço (RL) com recompensas verificáveis derivadas de testes unitários de LaTeX que aplicam diretamente a compilabilidade e a integridade referencial. Experiências com 21 modelos de ponta no TexOCR-Bench mostram que os sistemas existentes violam frequentemente invariantes-chave do documento, incluindo estrutura consistente de secções, colocação correta de *floats* e links válidos de etiqueta-referência, o que prejudica a fiabilidade de compilação e a usabilidade em tarefas subsequentes. A nossa análise revela ainda que o RL com recompensas verificáveis produz melhorias consistentes face ao uso exclusivo de SFT, particularmente em métricas estruturais e de compilação.

Quanto Vale Uma Recorrência? Leis de Escala de Iso-Profundidade para Modelos de Linguagem com Loop
How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

Apr 27

ByKristian Schwethelm, Daniel Rueckert, Georgios Kaissis

Medimos o valor de uma recorrência adicional para um modelo de linguagem em loop (com recorrência em profundidade), expresso em parâmetros únicos equivalentes. A partir de uma varredura iso-depth de 116 execuções de pré-treinamento abrangendo contagens de recorrência r em {1, 2, 4, 8} e um intervalo de ~50x no custo computacional de treinamento, ajustamos uma lei de escala conjunta L = E + A.(N_once + r^φ N_rec)^{-α} + B.D^{-β} e obtemos um novo expoente de equivalência de recorrência φ= 0,46. Intuitivamente, φ indica se executar um bloco em loop r vezes é equivalente em perda de validação a r blocos únicos de um modelo sem loop (equivalência total, φ=1) ou a um único bloco executado repetidamente sem ganho de capacidade (φ=0). Nosso φ= 0,46 situa-se no meio termo, de modo que cada recorrência adicional aumenta previsivelmente a perda de validação para um mesmo custo computacional de treinamento. Por exemplo, em r=4, um modelo em loop com 410M de parâmetros tem desempenho equivalente a um modelo sem loop de 580M, mas incorre no custo de treinamento de um modelo sem loop de 1B. Demonstramos a utilidade de φ como ferramenta de medição em duas sondagens. A retropropagação truncada reduz φ para 0,38, indicando que o mecanismo de loop é mal treinado sob truncamento, mesmo que a perda de validação diminua. Por outro lado, as hiperconexões elevam φ para 0,65, representando um ganho genuíno de capacidade. Nosso método aplica-se a qualquer modelo de linguagem em loop e separa melhorias reais no loop de ganhos orçamentários de *tokens*.

Estabilizando o Raciocínio Eficiente com Seleção de Vantagem a Nível de Etapa
Stabilizing Efficient Reasoning with Step-Level Advantage Selection

Apr 27

ByHan Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu

Os modelos de linguagem de grande escala (LLMs) alcançam um forte desempenho de raciocínio alocando computação substancial no tempo de inferência, frequentemente gerando traços de raciocínio longos e verbosos. Embora trabalhos recentes sobre raciocínio eficiente reduzam essa sobrecarga por meio de recompensas baseadas em comprimento ou poda, muitas abordagens são pós-treinadas sob um contexto muito mais curto do que o treinamento do modelo base, um fator cujo efeito não foi isolado sistematicamente. Primeiro, mostramos que o pós-treinamento de contexto curto por si só, usando o GRPO padrão sem qualquer objetivo consciente do comprimento, já induz uma compressão substancial do raciocínio – mas às custas de dinâmicas de treinamento cada vez mais instáveis e degradação da precisão. Para resolver isso, propomos a Seleção de Vantagem a Nível de Etapa (SAS), que opera ao nível da etapa de raciocínio e atribui uma vantagem zero a etapas de baixa confiança em rollouts corretos e a etapas de alta confiança em rollouts com falha do verificador, onde as falhas geralmente surgem de truncamento ou problemas do verificador, e não de raciocínio incorreto. Em diversos benchmarks de raciocínio matemático e geral, o SAS melhora a precisão média Pass@1 em 0,86 pontos sobre a linha de base mais forte consciente do comprimento, enquanto reduz o comprimento médio do raciocínio em 16,3%, resultando em um melhor compromisso entre precisão e eficiência.

PageGuide: Extensão de navegador para auxiliar usuários na navegação de páginas web e localização de informações
PageGuide: Browser extension to assist users in navigating a webpage and locating information

Apr 26

ByTin Nguyen, Thang T. Truong, Runtao Zhou, Trung Bui, Chirag Agarwal, Anh Totti Nguyen

Os utilizadores que navegam diariamente na web enfrentam dificuldades em localizar rapidamente informações relevantes em páginas desorganizadas, completar tarefas multi-etapa desconhecidas e manter o foco em meio a conteúdos distractivos. Os assistentes de IA de última geração (ex: ChatGPT, Gemini, Claude) e agentes de navegador (ex: OpenAI Operator, Browser Use) podem responder a perguntas e automatizar ações, mas devolvem respostas sem mostrar a origem da informação na página, forçando os utilizadores a verificar manualmente os resultados e a confiar cegamente em cada passo automatizado. Apresentamos o PageGuide, uma extensão de navegador que ancora as respostas de LLM diretamente no DOM HTML através de sobreposições visuais, abordando três necessidades centrais dos utilizadores: (a) Localizar - identificar e destacar evidências relevantes in-situ para que os utilizadores possam verificar instantaneamente as respostas na página; (b) Guiar - mostrar instruções passo a passo (ex: como alterar a palavra-passe) uma de cada vez para que os utilizadores possam seguir e executar ações autonomamente; e (c) Ocultar - esconder conteúdos distractivos, dando aos utilizadores a opção de decidir ocultar um elemento ou não. Num estudo com utilizadores (N=94), o PageGuide superou a navegação não assistida em todos os modos: a precisão de Ocultar melhorou 26 pontos percentuais (ganho relativo de 86,7%) e o tempo de conclusão de tarefas reduziu 70%; a taxa de conclusão de Guiar aumentou 30 pontos percentuais; e Localizar reduziu o esforço de pesquisa manual, com o uso de Ctrl+F a diminuir 80% e o tempo de tarefa a reduzir 19%. Código e demonstração disponíveis em: pageguide.github.io.

Aprendizado para Identificação de Objetos Fora da Distribuição na Segmentação de Anomalias em LiDAR 3D
Learning to Identify Out-of-Distribution Objects for 3D LiDAR Anomaly Segmentation

Apr 26

BySimone Mosco, Daniel Fusaro, Alberto Pretto

A compreensão do ambiente circundante é fundamental na condução autónoma e na perceção robótica. Distinguir entre classes conhecidas e objetos previamente não observados é crucial em ambientes do mundo real, como é feito na Segmentação de Anomalias. No entanto, a investigação no campo 3D permanece limitada, com a maioria das abordagens existentes a aplicar técnicas de pós-processamento da visão 2D. Para colmatar esta lacuna, propomos uma nova abordagem eficiente que opera diretamente no espaço de características, modelando a distribuição de características das classes *inlier* para restringir amostras anómalas. Além disso, o único conjunto de dados público disponível para segmentação de anomalias em LiDAR 3D contém cenários simples, com poucas instâncias de anomalias, e exibe uma lacuna de domínio significativa devido à resolução do seu sensor. Para preencher esta lacuna, introduzimos um conjunto de dados mistos real-sintéticos para segmentação de anomalias em LiDAR 3D, construídos com base em benchmarks estabelecidos de segmentação semântica, com múltiplos objetos fora da distribuição e ambientes diversos e complexos. Experiências extensivas demonstram que a nossa abordagem atinge resultados de última geração e competitivos, respetivamente, no conjunto de dados do mundo real existente e nos novos conjuntos de dados mistos introduzidos, validando a eficácia do nosso método e a utilidade dos conjuntos de dados propostos. O código e os conjuntos de dados estão disponíveis em https://simom0.github.io/lido-page/.

ProEval: Descoberta Proativa de Falhas e Estimativa Eficiente de Desempenho para Avaliação de IA Generativa
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Apr 25

ByYizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang

A avaliação de modelos de IA generativa está a tornar-se cada vez mais dispendiosa em termos de recursos devido à inferência lenta, ao custo elevado dos avaliadores humanos e a um panorama de modelos e benchmarks em rápido crescimento. Propomos o ProEval, um quadro de avaliação proativa que aproveita a aprendizagem por transferência para estimar eficientemente o desempenho e identificar casos de falha. O ProEval utiliza Processos Gaussianos (PGs) pré-treinados como substitutos (surrogates) para a função de pontuação de desempenho, mapeando as entradas do modelo para métricas como a gravidade dos erros ou violações de segurança. Ao enquadrar a estimativa de desempenho como quadratura bayesiana (QB) e a descoberta de falhas como amostragem de conjuntos de nível superior, desenvolvemos estratégias de decisão conscientes da incerteza que selecionam ou sintetizam ativamente entradas altamente informativas para teste. Do ponto de vista teórico, provamos que o nosso estimador de QB baseado em PGs pré-treinados é não enviesado e limitado. Empiricamente, experiências extensas em benchmarks de raciocínio, alinhamento de segurança e classificação demonstram que o ProEval é significativamente mais eficiente do que os métodos baselines concorrentes. São necessárias 8 a 65 vezes menos amostras para obter estimativas dentro de 1% do valor real (ground truth), revelando simultaneamente casos de falha mais diversos sob um orçamento de avaliação mais rigoroso.

ATTN-FIQA: Avaliação Interpretável da Qualidade de Imagens de Rosto Baseada em Atenção com Transformers de Visão
ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Marco Huber, Andrea Atzori, Naser Damer, Fadi Boutros

A Avaliação da Qualidade de Imagens de Rosto (FIQA) tem como objetivo avaliar a utilidade para reconhecimento de amostras faciais e é essencial para sistemas de reconhecimento facial (FR) confiáveis. As abordagens existentes requerem procedimentos computacionalmente dispendiosos, como múltiplas passagens diretas, retropropagação ou treinamento adicional, e apenas trabalhos recentes focaram no uso de Vision Transformers. Estudos recentes destacaram que essas arquiteturas funcionam inerentemente como aprendizes de saliência, com padrões de atenção codificando naturalmente a importância espacial. Este trabalho propõe o ATTN-FIQA, uma nova abordagem livre de treinamento que investiga se as pontuações de atenção pré-softmax de modelos de reconhecimento facial baseados em Vision Transformer pré-treinados podem servir como indicadores de qualidade. Nossa hipótese é que as magnitudes de atenção codificam intrinsecamente a qualidade: imagens de alta qualidade com características faciais discriminativas permitem alinhamentos fortes entre consulta e chave, produzindo padrões de atenção focados e de alta magnitude, enquanto imagens degradadas geram padrões difusos e de baixa magnitude. O ATTN-FIQA extrai matrizes de atenção pré-softmax do bloco final do transformer, agrega informações de atenção multi-head em todos os patches e calcula pontuações de qualidade em nível de imagem por meio de uma simples média, exigindo apenas uma única passagem direta através de modelos pré-treinados, sem modificações arquiteturais, retropropagação ou treinamento adicional. Por meio de uma avaliação abrangente em oito conjuntos de dados de referência e quatro modelos de FR, este trabalho demonstra que as pontuações de qualidade baseadas em atenção correlacionam-se efetivamente com a qualidade da imagem facial e fornecem interpretabilidade espacial, revelando quais regiões faciais contribuem mais para a determinação da qualidade.

Aprendizado de Robôs Desacoplado via Pré-treinamento Separado de Dinâmica Direta e Inversa
Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

Mar 27

ByWenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang

Os modelos visão-linguagem-ação (VLA) têm demonstrado grande potencial na construção de robôs generalistas, mas ainda enfrentam um dilema: o desalinhamento entre a previsão de imagens 2D e a predição de ações 3D. Além disso, essa forma de treinamento entrelaçada entre visão e ação limita a capacidade do modelo de aprender a partir de dados de vídeo da web em larga escala e livres de ações. Para resolver esses problemas, propomos o DeFI, uma nova estrutura que Desacopla o pré-treinamento de dinâmicas visuais Diretas e Inversas para explorar respectivas fontes de dados, na qual a geração de vídeo e a predição de ação são dissociadas. Introduzimos o Modelo de Dinâmica Direta Geral (GFDM), pré-treinado em diversos vídeos de humanos e robôs para previsão futura, e o Modelo de Dinâmica Inversa Geral (GIDM), treinado via aprendizado auto supervisionado para inferir ações latentes a partir de transições de vídeo não rotuladas. Esses modelos são então integrados em uma arquitetura unificada para ajuste fino de ponta a ponta em tarefas subsequentes. Dessa forma, o GFDM e o GIDM primeiro se destacam separadamente e depois cooperam para benefício mútuo. Experimentos extensivos no CALVIN ABC-D e no SimplerEnv demonstram desempenho de última geração, com o DeFI alcançando um comprimento médio de tarefa de 4,51 para o CALVIN, taxa de sucesso de 51,2% no benchmark SimplerEnv-Fractal e 81,3% de taxa de sucesso em implantação no mundo real, superando significativamente métodos anteriores.

IndustryAssetEQA: Um Sistema de Inteligência Operacional Neurosimbólica para Resposta a Perguntas Corporificadas na Manutenção de Ativos Industriais
IndustryAssetEQA: A Neurosymbolic Operational Intelligence System for Embodied Question Answering in Industrial Asset Maintenance

Apr 25

ByChathurangi Shyalika, Dhaval Patel, Amit Sheth

Os ambientes de manutenção industrial dependem cada vez mais de sistemas de IA para auxiliar os operadores na compreensão do comportamento dos ativos, no diagnóstico de falhas e na avaliação de intervenções. Embora os grandes modelos de linguagem (LLMs) permitam uma interação fluente em linguagem natural, os assistentes de manutenção implantados produzem rotineiramente explicações genéricas que são pouco fundamentadas em telemetria, omitem proveniência verificável e não oferecem suporte testável para raciocínios contrafactuais ou orientados à ação, o que mina a confiança em contextos de segurança crítica. Apresentamos o IndustryAssetEQA, um sistema de inteligência operacional neurosimbólico que combina representações episódicas de telemetria com um Grafo de Conhecimento de Análise de Modo e Efeito de Falha (FMEA-KG) para permitir a Resposta a Perguntas Corporificadas (EQA) sobre ativos industriais. Avaliamos em quatro conjuntos de dados que abrangem quatro tipos de ativos industriais, incluindo máquinas rotativas, motores turbofan, sistemas hidráulicos e sistemas de produção ciber-físicos. Em comparação com linhas de base baseadas apenas em LLMs, o IndustryAssetEQA melhora a validade estrutural em até 0,51, a precisão contrafactual em até 0,47 e a implicação explicativa em 0,64, enquanto reduz as superafirmações graves avaliadas por especialistas de 28% para 2% (redução de aproximadamente 93%). Código, conjuntos de dados e o FMEA-KG estão disponíveis em https://github.com/IBM/AssetOpsBench/tree/IndustryAssetEQA/IndustryAssetEQA.

Melhorando a Robustez da Recuperação Tabular por meio da Estabilidade Representacional
Improving Robustness of Tabular Retrieval via Representational Stability

Apr 27

ByKushal Raj Bhandari, Adarsh Singh, Jianxi Gao, Soham Dan, Vivek Gupta

Os sistemas de recuperação de tabelas baseados em Transformers aplanam tabelas estruturadas em sequências de tokens, tornando a recuperação sensível à escolha da serialização, mesmo quando a semântica da tabela permanece inalterada. Demonstramos que serializações semanticamente equivalentes, como CSV, TSV, HTML, Markdown e DDL, podem produzir *embeddings* e resultados de recuperação substancialmente diferentes em múltiplos *benchmarks* e famílias de recuperadores. Para abordar esta instabilidade, tratamos o *embedding* de serialização como vistas ruidosas de um sinal semântico partilhado e usamos o seu centróide como uma representação alvo canónica. Mostramos que a média do centróide suprime a variação específica do formato e pode recuperar o conteúdo semântico comum a diferentes serializações quando as mudanças induzidas pelo formato diferem entre tabelas. Empiricamente, as representações de centróide superam formatos individuais em comparações pareadas agregadas em MPNet, BGE-M3, ReasonIR e SPLADE. Introduzimos ainda um adaptador de estrangulamento residual leve sobre um codificador congelado que mapeia *embeddings* de serialização única para alvos de centróide, preservando a variância e aplicando regularização de covariância. O adaptador melhora a robustez para vários recuperadores densos, embora os ganhos sejam dependentes do modelo e mais fracos para a recuperação léxica esparsa. Estes resultados identificam a sensibilidade à serialização como uma fonte major de variância na recuperação e mostram o potencial da correção geométrica *post hoc* para a recuperação de tabelas invariante à serialização. O nosso código, conjuntos de dados e modelos estão disponíveis em https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval.

Melhorando Modelos de Visão e Linguagem com Modelos de Recompensa de Processo Centrados na Percepção
Improving Vision-language Models with Perception-centric Process Reward Models

Apr 27

ByYingqian Min, Kun Zhou, Yifan Li, Yuhuan Wu, Han Peng, Yifan Du, Wayne Xin Zhao, Min Yang, Ji-Rong Wen

Os recentes avanços no reforço de aprendizagem com recompensas verificáveis (RLVR) melhoraram significativamente a capacidade de raciocínio complexo dos modelos visão-linguagem (VLMs). No entanto, a sua supervisão a nível de resultados é demasiado grosseira para diagnosticar e corrigir erros dentro da cadeia de raciocínio. Para tal, propomos o Perceval, um modelo de recompensa de processo (PRM) que permite a localização de erros a nível de token, capaz de extrair afirmações relacionadas com a imagem da resposta e compará-las uma a uma com a evidência visual na imagem, retornando, por fim, as afirmações que contêm erros perceptivos. O Perceval é treinado com dados de treino supervisionados intensivos em percepção. Em seguida, integramos o Perceval no processo de treino de RL para treinar os modelos de política. Especificamente, em comparação com o GRPO tradicional, que aplica vantagens a nível de sequência, nós aplicamos vantagens a nível de token, direcionando penalizações para os segmentos alucinados identificados pelo Perceval, permitindo assim sinais de supervisão de granularidade fina. Para além de aumentar o processo de treino, o Perceval também pode auxiliar os VLMs durante a fase de inferência. Utilizando o Perceval, podemos truncar as porções erróneas da resposta do modelo e, em seguida, fazer com que o modelo regenere a resposta diretamente ou induzi-lo a refletir sobre a sua saída anterior. Este processo pode ser repetido várias vezes para alcançar um escalamento em tempo de teste. Experiências mostram melhorias significativas em benchmarks de vários domínios em múltiplos VLMs de raciocínio treinados com RL, destacando o potencial da supervisão centrada na perceção como uma estratégia de propósito geral. Para o escalamento em tempo de teste, também demonstra ganhos de desempenho consistentes face a outras estratégias, como a votação majoritária. O nosso código e dados serão publicamente disponibilizados em https://github.com/RUCAIBox/Perceval.

RaV-IDP: Uma Estrutura de Reconstrução como Validação para Processamento Inteligente Fidedigno de Documentos
RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing

Apr 26

ByPritesh Jha

Os pipelines de processamento inteligente de documentos extraem entidades estruturadas (tabelas, imagens e texto) de documentos para uso em sistemas downstream, como bases de conhecimento, geração aumentada por recuperação e análises. Uma limitação persistente dos pipelines existentes é que a saída da extração é produzida sem qualquer mecanismo intrínseco para verificar se representa fielmente a fonte. As pontuações de confiança internas do modelo medem a certeza da inferência, não a correspondência com o documento, e os erros de extração passam silenciosamente para os consumidores downstream. Apresentamos o Reconstruction as Validation (RaV-IDP), um pipeline de processamento de documentos que introduz a reconstrução como um componente arquitetônico de primeira classe. Após a extração de cada entidade, um reconstruidor dedicado renderiza a representação extraída de volta para uma forma comparável à região original do documento, e um comparador pontua a fidelidade entre a reconstrução e o recorte da fonte não modificado. Esta pontuação de fidelidade é um sinal de qualidade fundamentado e livre de rótulos. Quando a fidelidade cai abaixo de um limite por tipo de entidade, um fallback estruturado do GPT-4.1 Vision é acionado e o ciclo de validação se repete. Implantamos uma restrição de *bootstrap*: o comparador sempre ancora a avaliação na região original do documento, nunca na extração, impedindo que a validação se torne circular. Propomos ainda uma estrutura de avaliação por estágio, emparelhando cada componente do pipeline com um benchmark apropriado. O pipeline de código está publicamente disponível em https://github.com/pritesh-2711/RaV-IDP para experimentação e uso.

EX-FIQA: Aproveitamento de Representações Intermediárias de Saída Antecipada em Transformadores de Visão para Avaliação da Qualidade de Imagens de Rosto
EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer

A Avaliação da Qualidade de Imagens de Rosto é crucial para sistemas confiáveis de reconhecimento facial, no entanto, as abordagens existentes baseadas em Vision Transformers dependem exclusivamente de representações da camada final, ignorando informações relevantes para a qualidade capturadas em profundidades intermediárias da rede. Este artigo apresenta a primeira investigação abrangente sobre como as representações intermediárias dentro dos ViTs contribuem para a avaliação da qualidade facial por meio de mecanismos de saída antecipada e estratégias de fusão de scores. Analisamos sistematicamente todos os doze blocos do transformador das arquiteturas ViT-FIQA, demonstrando que diferentes profundidades capturam informações distintas e complementares relevantes para a qualidade, conforme evidenciado por padrões de atenção variados e características de desempenho em diferentes camadas da rede. Propomos um framework de fusão de scores que combina previsões de qualidade de múltiplos blocos do transformador sem modificações arquiteturais ou treinamento adicional. Nossa análise de saída antecipada revela trade-offs ótimos entre desempenho e eficiência, permitindo economias computacionais significativas enquanto mantém um desempenho competitivo. Por meio de uma avaliação extensa em oito conjuntos de dados de referência usando quatro modelos de reconhecimento facial, demonstramos que nossa estratégia de fusão supera as abordagens de saída única. Nossa abordagem proposta de fusão de qualidade emprega uma média ponderada por profundidade que atribui importância progressivamente maior aos blocos mais profundos do transformador, alcançando o melhor desempenho de avaliação de qualidade ao aproveitar efetivamente a natureza hierárquica do aprendizado de características nos ViTs. Nosso trabalho desafia a sabedoria convencional de que apenas características profundas importam para a análise facial, revelando que as representações intermediárias contêm informações valiosas para a avaliação da qualidade. O framework proposto oferece benefícios práticos para sistemas biométricos do mundo real ao permitir computação adaptativa com base em restrições de recursos, mantendo capacidades competitivas de avaliação de qualidade.

Roteamento KV Estocástico: Permitindo o Compartilhamento Adaptativo de Cache em Profundidade
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Apr 3

ByAnastasiia Filippova, David Grangier, Marco Cuturi, João Monteiro

A otimização do throughput no serviço de modelos de linguagem baseados em transformers requer o *caching* de pares Chave-Valor (KVs) para evitar computação redundante durante a geração autoregressiva. A pegada de memória do cache de KVs é significativa e impacta fortemente os custos de serviço. Este trabalho propõe a redução desses requisitos de memória. Enquanto pesquisas recentes abordaram a redução do cache de KV principalmente por meio de compressão e evição ao longo do eixo temporal, argumentamos que a dimensão de profundidade oferece uma via de otimização ortogonal e robusta. Embora estudos anteriores sugiram que um cache completo para cada camada é redundante, a implementação do compartilhamento de cache entre camadas permanece um desafio prático; os métodos existentes geralmente sofrem com throughput reduzido ou aumento do tempo para o primeiro *token*. Neste artigo, demonstramos que descartar o cache de uma camada oferece uma otimização eficiente sem perda de informação. Propomos uma abordagem de treinamento simples: atenção cross-layer aleatória. Durante o treinamento, as camadas escolhem aleatoriamente atentar aos seus próprios estados de KV ou aos de uma camada precedente. Este processo estocástico adapta o modelo a ser robusto para várias estratégias de compartilhamento de cache na dimensão de profundidade, garantindo flexibilidade para restrições de hardware desconhecidas no momento da implantação. Nossas avaliações mostram que aplicar este esquema durante o pré-treinamento ou *fine-tuning* permite o compartilhamento de cache em profundidade para várias famílias de modelos. Além disso, para modelos maiores em contextos com restrição de dados, esta abordagem sugere um efeito similar à regularização, frequentemente preservando ou melhorando o desempenho enquanto reduz significativamente a pegada de memória do cache.

Descobrindo Especificações de Segurança Agêntica a partir de Sinais de Perigo de 1 Bit
Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Apr 25

ByVíctor Gallego

Os agentes de modelos de linguagem de grande porte podem descobrir objetivos de segurança ocultos apenas por meio da experiência? Apresentamos o EPO-Safe (Otimização de Prompt Experiencial para Agentes Seguros), uma estrutura na qual um LLM gera iterativamente planos de ação, recebe alertas esparsos de perigo binários e evolui uma especificação comportamental em linguagem natural por meio de reflexão. Diferente dos métodos padrão de reflexão de LLM que dependem de *feedback* textual rico (por exemplo, erros de compilação ou respostas detalhadas do ambiente), o EPO-Safe demonstra que os LLMs podem realizar raciocínio de segurança a partir de um sinal estritamente empobrecido em ambientes estruturados e de baixa dimensionalidade: o agente nunca observa a função de desempenho oculta R^*, apenas um único bit por intervalo de tempo indicando que uma ação era insegura. Avaliamos em cinco *AI Safety Gridworlds* (Leike et al., 2017) e cinco análogos de cenários baseados em texto onde a recompensa visível R pode divergir de R^*. O EPO-Safe descobre comportamentos seguros dentro de 1-2 rodadas (5-15 episódios), produzindo especificações legíveis por humanos com hipóteses explicativas corretas sobre perigos (por exemplo, "células X são perigosas direcionalmente: entrar pelo norte é perigoso"). Criticalmente, mostramos que a reflexão padrão orientada por recompensa degrada ativamente a segurança: agentes que refletem apenas sobre a recompensa usam o loop para justificar e acelerar a exploração de recompensas (*reward hacking*), provando que a reflexão deve ser emparelhada com um canal de segurança dedicado para descobrir restrições ocultas. Avaliamos ainda a robustez a oráculos ruidosos: mesmo quando 50% dos passos não perigosos produzem alertas espúrios, o desempenho médio de segurança degrada-se apenas 15% em média, embora a sensibilidade dependa do ambiente, uma vez que a reflexão entre episódios filtra naturalmente sinais inconsistentes. Cada especificação evoluída funciona como um conjunto auditável de regras comportamentais fundamentadas, descobertas autonomamente por meio da interação, em vez de serem escritas por humanos como na *Inteligência Artificial Constitucional* (Bai et al., 2022).

Zero-to-CAD: Síntese Agente de Programas CAD Interpretáveis em Escala de Milhões sem Dados Reais
Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Apr 27

ByMohammadmehdi Ataei, Farzaneh Askari, Kamal Rahimi Malekshan, Pradeep Kumar Jayaraman

Os modelos de projeto assistido por computador (CAD) são definidos por seu histórico de construção: uma receita paramétrica que codifica a intenção de design. No entanto, os conjuntos de dados 3D em larga escala existentes consistem predominantemente em representações de fronteira (B-Reps) ou malhas, removendo essas informações procedurais críticas. Para enfrentar essa escassez, apresentamos o Zero-to-CAD, uma estrutura escalável para sintetizar sequências de construção de CAD executáveis. Enquadramos a síntese como um problema de busca agentiva: ao incorporar um modelo de linguagem de grande porte (LLM) em um ambiente de CAD orientado por feedback, nosso sistema gera, executa e valida código iterativamente, usando ferramentas e consulta a documentações para promover validade geométrica e diversidade de operações. Essa abordagem agentiva permite a síntese de aproximadamente um milhão de sequências de CAD executáveis, legíveis e editáveis, abrangendo um vocabulário rico de operações além dos fluxos de trabalho de esboço e extrusão. Também disponibilizamos um subconjunto curado de 100.000 modelos de alta qualidade selecionados por sua diversidade geométrica. Para demonstrar a utilidade do conjunto de dados, afinamos um modelo de visão e linguagem em nossos dados sintéticos para reconstruir programas de CAD editáveis a partir de imagens multiviais, superando bases de comparação sólidas, incluindo o GPT-5.2, e inicializando efetivamente as capacidades de geração de sequências sem dados de treinamento com histórico de construção real. O Zero-to-CAD preenche a lacuna entre escala geométrica e interpretabilidade paramétrica, oferecendo um recurso vital para a próxima geração de IA para CAD.

Vantagem do Kernel Quântico sobre o Colapso Clássico em Incorporações de Modelos de Fundação Médica
Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings

Apr 27

BySebastian Cajas Ordóñez, Felipe Ocampo Osorio, Dax Enshan Koh, Rafi Al Attrach, Aldo Marzullo, Ariel Guerra-Adames, J. Alejandro Andrade, Siong Thye Goh, Chi-Yu Chen, Rahul Gorijavolu, Xue Yang, Noah Dane Hebdon, Leo Anthony Celi

Apresentamos evidências de vantagem de kernel quântico sob simulação livre de ruído na classificação binária de seguros em radiografias torácicas do MIMIC-CXR usando máquinas de vetores de suporte quânticas (QSVM) com *embeddings* congelados de três modelos fundamentais médicos (MedSigLIP-448, RAD-DINO, ViT-patch32). Propomos uma estrutura de comparação justa de dois níveis na qual ambos os classificadores recebem recursos PCA-q idênticos. No Nível 1 (QSVM não ajustada vs. SVM linear não ajustada, C = 1 em ambos os lados), a QSVM vence em F1 da classe minoritária em todas as 18 configurações testadas (17 com p < 0,001, 1 com p < 0,01). O kernel linear clássico colapsa para a predição da classe majoritária em 90-100% das sementes em todas as contagens de qubits, enquanto a QSVM mantém *recall* não trivial. Em q = 11 (centro do platô MedSigLIP-448), a QSVM alcança F1 médio = 0,343 vs. F1 clássico = 0,050 (ganho de F1 = +0,293, p < 0,001) sem ajuste de hiperparâmetros. Sob o Nível 2 (QSVM não ajustada vs. SVM com RBF com C ajustado), a QSVM vence todas as sete configurações testadas (ganho médio +0,068, máximo +0,112). A análise do espectro próprio revela que o posto efetivo do kernel quântico atinge 69,80 em q = 11, excedendo em muito o posto do kernel linear, enquanto o colapso clássico permanece invariante a C. Uma varredura completa de qubits revela o início da concentração dependente da arquitetura entre os modelos. Código: https://github.com/sebasmos/qml-medimage

Modelos de Gargalo Conceitual Credais para Decomposição de Incerteza Epistêmica-Aleatória
Credal Concept Bottleneck Models for Epistemic-Aleatoric Uncertainty Decomposition

Apr 27

ByTanmoy Mukherjee, Thomas Bailleux, Pierre Marquis, Zied Bouraoui

Os Modelos de Gargalo de Conceitos (CBMs) realizam previsões por meio de conceitos interpretáveis por humanos, mas normalmente produzem probabilidades pontuais para os conceitos, o que funde a incerteza epistêmica (subespecificação redutível do modelo) com a incerteza aleatória (ambiguidade irreversível da entrada). Isso torna a incerteza a nível de conceito difícil de interpretar e, mais importante, difícil de agir. Apresentamos o CREDENCE (Credal Ensemble Concept Estimation), uma estrutura de CBM que decompõe a incerteza do conceito por construção. O CREDENCE representa cada conceito como uma previsão credal (um intervalo de probabilidade), deriva a incerteza epistêmica do desacordo entre diversas cabeças de conceito e estima a incerteza aleatória por meio de uma saída de ambiguidade dedicada, treinada para corresponder ao desacordo dos anotadores quando disponível. Os sinais resultantes apoiam decisões prescritivas: automatizar casos de baixa incerteza, priorizar a coleta de dados para casos de alta incerteza epistêmica, encaminhar casos de alta incerteza aleatória para revisão humana e abster-se quando ambas são altas. Em várias tarefas, mostramos que a incerteza epistêmica está positivamente associada a erros de previsão, enquanto a incerteza aleatória acompanha de perto o desacordo dos anotadores, fornecendo orientação além da correlação de erros. Nossa implementação está disponível no seguinte link: https://github.com/Tankiit/Credal_Sets/tree/ensemble-credal-cbm

A Personalidade Molda o Viés de Gênero em Narrativas de LLMs Condicionadas por Personagens no Inglês e no Hindi: Uma Investigação Empírica
Personality Shapes Gender Bias in Persona-Conditioned LLM Narratives Across English and Hindi: An Empirical Investigation

Apr 26

ByTanay Kumar, Shreya Gautam, Aman Chadha, Vinija Jain, Francesco Pierri

Os Grandes Modelos de Linguagem (LLMs) estão cada vez mais sendo implantados em aplicações baseadas em personas, como educação, atendimento ao cliente e plataformas sociais, onde os modelos são instruídos a adotar personas específicas ao interagir com os usuários. Embora o condicionamento por persona possa melhorar a experiência e o engajamento do usuário, ele também levanta preocupações sobre como os indícios de personalidade podem interagir com vieses e estereótipos de gênero. Neste trabalho, apresentamos um estudo controlado de geração de histórias condicionadas por persona em inglês e hindi, onde cada história retrata um profissional em atividade na Índia produzindo artefatos específicos de contexto (por exemplo, planos de aula, relatórios, cartas) sob variações sistemáticas de gênero da persona, função ocupacional e traços de personalidade das estruturas HEXACO e Tríade Sombria. Em 23.400 histórias geradas por seis LLMs state-of-the-art, descobrimos que os traços de personalidade estão significativamente associados tanto à magnitude quanto à direção do viés de gênero. Em particular, os traços de personalidade da Tríade Sombria estão consistentemente associados a representações mais estereotipadas em termos de gênero em comparação com os traços socialmente desejáveis do HEXACO, embora essas associações variem entre os modelos e idiomas. Nossos achados demonstram que o viés de gênero nos LLMs não é estático, mas dependente do contexto. Isso sugere que os sistemas condicionados por persona usados em aplicações do mundo real podem introduzir danos representacionais desiguais, reforçando estereótipos de gênero em conteúdos gerados para fins educacionais, profissionais ou sociais.