HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

34 papers found

MinerU-Diffusion: Repensando o OCR de Documentos como Renderização Inversa via Decodificação por Difusão
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23

ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He

110

A reconhecimento óptico de caracteres (OCR) evoluiu da transcrição ao nível de linha para a análise estruturada de documentos, exigindo que os modelos recuperem sequências de longo formato contendo layout, tabelas e fórmulas. Apesar dos recentes avanços em modelos de visão e linguagem, a maioria dos sistemas existentes depende de decodificação autoregressiva, o que introduz latência sequencial e amplifica a propagação de erros em documentos longos. Neste trabalho, revisitamos o OCR de documentos a partir de uma perspectiva de renderização inversa, argumentando que a geração causal da esquerda para a direita é um artefato de serialização em vez de uma propriedade intrínseca da tarefa. Motivados por esta percepção, propomos o MinerU-Diffusion, um framework unificado baseado em difusão que substitui a decodificação sequencial autoregressiva por desnudamento de difusão paralela sob condicionamento visual. O MinerU-Diffusion emprega um decodificador de difusão em blocos e uma estratégia de aprendizagem curricular orientada por incerteza para permitir treinamento estável e inferência eficiente de longas sequências. Experimentos extensivos demonstram que o MinerU-Diffusion melhora consistentemente a robustez enquanto alcança decodificação até 3,2x mais rápida em comparação com linhas de base autoregressivas. Avaliações no benchmark proposto Semantic Shuffle confirmam ainda sua reduzida dependência de prévias linguísticas e capacidade visual de OCR mais forte.

WildWorld: Um Grande Conjunto de Dados para Modelagem Dinâmica do Mundo com Ações e Estado Explícito voltado para ARPG Generativo
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24

ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang

A teoria dos sistemas dinâmicos e o aprendizado por reforço encaram a evolução do mundo como dinâmicas de estados latentes impulsionadas por ações, com observações visuais fornecendo informações parciais sobre o estado. Modelos de mundo em vídeo recentes tentam aprender essa dinâmica condicionada por ação a partir de dados. No entanto, os conjuntos de dados existentes raramente atendem ao requisito: normalmente carecem de espaços de ação diversificados e semanticamente significativos, e as ações estão diretamente vinculadas a observações visuais em vez de serem mediadas por estados subjacentes. Como resultado, as ações frequentemente se entrelaçam com mudanças a nível de pixel, dificultando que os modelos aprendam dinâmicas mundiais estruturadas e mantenham uma evolução consistente em horizontes longos. Neste artigo, propomos WildWorld, um conjunto de dados em larga escala para modelagem de mundo condicionada por ação com anotações explícitas de estado, coletado automaticamente de um jogo de ação e RPG realista AAA (Monster Hunter: Wilds). O WildWorld contém mais de 108 milhões de quadros e apresenta mais de 450 ações, incluindo movimento, ataques e lançamento de habilidades, juntamente com anotações sincronizadas por quadro de esqueletos de personagens, estados do mundo, poses de câmera e mapas de profundidade. Derivamos ainda o WildBench para avaliar modelos por meio de Seguimento de Ação e Alinhamento de Estado. Experimentos extensivos revelam desafios persistentes na modelagem de ações semanticamente ricas e na manutenção da consistência de estado em longo prazo, destacando a necessidade de geração de vídeo com consciência de estado. A página do projeto é https://shandaai.github.io/wildworld-project/.

SpecEyes: Acelerando LLMs Multimodais Agênticos por meio de Percepção e Planejamento Especulativos
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24

ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo

Os modelos de linguagem grandes multimodais agentivos (MLLMs) (por exemplo, OpenAI o3 e Gemini Agentic Vision) alcançam capacidades de raciocínio notáveis por meio da invocação iterativa de ferramentas visuais. No entanto, os ciclos em cascata de percepção, raciocínio e chamada de ferramentas introduzem uma sobrecarga sequencial significativa. Essa sobrecarga, denominada profundidade agentiva, incorre em latência proibitiva e limita seriamente a concorrência a nível de sistema. Para tal, propomos o SpecEyes, uma estrutura de aceleração especulativa a nível agentivo que quebra este gargalo sequencial. A nossa principal perceção é que um MLLM leve e sem ferramentas pode servir como um planeador especulativo para prever a trajetória de execução, permitindo a terminação antecipada de cadeias de ferramentas dispendiosas sem sacrificar a precisão. Para regular este planeamento especulativo, introduzimos um mecanismo de portão cognitivo baseado na separabilidade de respostas, que quantifica a confiança do modelo para autoverificação sem exigir etiquetas de referência. Adicionalmente, projetamos um funil paralelo heterogéneo que explora a concorrência sem estado do modelo pequeno para mascarar a execução serial com estado do modelo grande, maximizando a produtividade do sistema. Experiências extensivas no V* Bench, HR-Bench e POPE demonstram que o SpecEyes alcança uma aceleração de 1.1-3.35x em relação à linha de base agentiva, preservando ou mesmo melhorando a precisão (até +6.7%), impulsionando assim a produtividade de serviço sob cargas de trabalho concorrentes.

De Modelos Estáticos a Grafos de Execução Dinâmicos: Um Estudo sobre Otimização de Fluxos de Trabalho para Agentes de LLM
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23

ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan

Os sistemas baseados em modelos de linguagem de grande escala (LLM) estão se tornando cada vez mais populares para resolver tarefas através da construção de fluxos de trabalho executáveis que intercalam chamadas de LLM, recuperação de informação, uso de ferramentas, execução de código, atualizações de memória e verificação. Esta pesquisa revisa métodos recentes para projetar e otimizar tais fluxos de trabalho, que tratamos como grafos de computação agentivos (ACGs). Organizamos a literatura com base em quando a estrutura do fluxo de trabalho é determinada, onde "estrutura" se refere a quais componentes ou agentes estão presentes, como eles dependem uns dos outros e como a informação flui entre eles. Esta lente distingue métodos estáticos, que fixam um arcabouço de fluxo de trabalho reutilizável antes da implantação, de métodos dinâmicos, que selecionam, geram ou revisam o fluxo de trabalho para uma execução específica antes ou durante a execução. Organizamos ainda o trabalho anterior ao longo de três dimensões: quando a estrutura é determinada, qual parte do fluxo de trabalho é otimizada e quais sinais de avaliação orientam a otimização (por exemplo, métricas de tarefa, sinais de verificador, preferências ou feedback derivado de *traces*). Também distinguimos modelos de fluxo de trabalho reutilizáveis, grafos realizados específicos da execução e *traces* de execução, separando escolhas de projeto reutilizáveis das estruturas realmente implantadas em uma determinada execução e do comportamento em tempo de execução realizado. Por fim, delineamos uma perspectiva de avaliação consciente da estrutura que complementa as métricas de tarefa *downstream* com propriedades em nível de grafo, custo de execução, robustez e variação estrutural entre entradas. Nosso objetivo é fornecer um vocabulário claro, uma estrutura unificada para posicionar novos métodos, uma visão mais comparável do corpo de literatura existente e um padrão de avaliação mais reproduzível para trabalhos futuros em otimizações de fluxo de trabalho para agentes de LLM.

PEARL: Modelo Personalizado para Compreensão de Vídeos em Streaming
PEARL: Personalized Streaming Video Understanding Model

Mar 20

ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang

A cognição humana de novos conceitos é inerentemente um processo contínuo: reconhecemos continuamente novos objetos ou identidades e atualizamos nossas memórias ao longo do tempo. No entanto, os métodos atuais de personalização multimodal estão amplamente limitados a imagens estáticas ou vídeos offline. Isso desconecta a entrada visual contínua do feedback instantâneo do mundo real, limitando sua capacidade de fornecer respostas personalizadas interativas e em tempo real, essenciais para futuros assistentes de IA. Para preencher essa lacuna, propomos e definimos formalmente a nova tarefa de Compreensão de Vídeo em Fluxo Personalizado (PSVU). Para facilitar a pesquisa nessa nova direção, apresentamos o PEARL-Bench, o primeiro benchmark abrangente projetado especificamente para avaliar esse cenário desafiador. Ele avalia a capacidade de um modelo de responder a conceitos personalizados em carimbos de tempo exatos sob dois modos: (1) Nível de Frame, focando em uma pessoa ou objeto específico em frames discretos, e (2) um novo Nível de Vídeo, focando em ações personalizadas que se desenrolam em frames contínuos. O PEARL-Bench compreende 132 vídeos únicos e 2.173 anotações refinadas com carimbos de tempo precisos. A diversidade de conceitos e a qualidade da anotação são rigorosamente garantidas por meio de um pipeline combinado de geração automatizada e verificação humana. Para enfrentar esse novo e desafiador cenário, propomos ainda o PEARL, uma estratégia plug-and-play, sem necessidade de treinamento, que serve como uma linha de base sólida. Avaliações extensas em 8 modelos offline e online demonstram que o PEARL alcança desempenho de ponta. Notavelmente, ele traz melhorias consistentes de PSVU quando aplicado a 3 arquiteturas distintas, provando ser uma estratégia altamente eficaz e robusta. Esperamos que este trabalho avance a personalização de modelos de visão e linguagem (VLM) e inspire mais pesquisas sobre assistentes de IA personalizados em fluxo contínuo. O código está disponível em https://github.com/Yuanhong-Zheng/PEARL.

DA-Flow: Estimação de Fluxo Óptico Consciente da Degradação com Modelos de Difusão
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24

ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim

Os modelos de fluxo óptico treinados em dados de alta qualidade frequentemente degradam-se severamente ao confrontar corrupções do mundo real, como desfoque, ruído e artefatos de compressão. Para superar esta limitação, formulamos o Fluxo Óptico Consciente da Degradação, uma nova tarefa que visa a estimativa precisa de correspondência densa a partir de vídeos corrompidos do mundo real. Nossa principal percepção é que as representações intermediárias dos modelos de difusão para restauração de imagem são inerentemente conscientes da corrupção, mas carecem de consciência temporal. Para resolver esta limitação, elevamos o modelo para atender a quadros adjacentes via atenção espaço-temporal completa, e demonstramos empiricamente que as características resultantes exibem capacidades de correspondência de disparo zero. Com base nesta descoberta, apresentamos o DA-Flow, uma arquitetura híbrida que funde estas características de difusão com características convolucionais dentro de uma estrutura de refinamento iterativo. O DA-Flow supera substancialmente os métodos de fluxo óptico existentes sob degradação severa em múltiplos benchmarks.

SIMART: Decompondo Malhas Monolíticas em Ativos Articulados Prontos para Simulação via MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24

ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang

Ativos 3D articulados de alta qualidade são indispensáveis para a IA incorporada e simulação física, mas a geração 3D ainda se concentra em malhas estáticas, deixando uma lacuna em objetos interativos "prontos para simulação". A maioria dos métodos recentes de criação de objetos articulados depende de pipelines de múltiplos estágios que acumulam erros em módulos desacoplados. Alternativamente, os MLLMs unificados oferecem um caminho de estágio único para o entendimento conjunto de ativos estáticos e a geração de ativos prontos para simulação. No entanto, a tokenização 3D densa baseada em voxels produz longas sequências de tokens 3D e alta sobrecarga de memória, limitando a escalabilidade para objetos articulados complexos. Para resolver isso, propomos o SIMART, uma estrutura MLLM unificada que realiza conjuntamente a decomposição em nível de parte e a previsão cinemática. Ao introduzir um Sparse 3D VQ-VAE, o SIMART reduz a contagem de tokens em 70% em comparação com tokens de voxels densos, permitindo montagens de múltiplas partes de alta fidelidade. O SIMART alcança desempenho de ponta no PartNet-Mobility e em conjuntos de dados AIGC do mundo real, e permite simulação robótica baseada em física.

UniGRPO: Otimização de Políticas Unificada para Geração Visual Orientada por Raciocínio
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24

ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang

Modelos unificados capazes de geração intercalada surgiram como um paradigma promissor, com a comunidade convergindo cada vez mais na modelagem autoregressiva para texto e no *flow matching* para geração de imagens. Para avançar nesta direção, propomos uma estrutura unificada de aprendizagem por reforço adaptada para geração intercalada. Validamos nossa abordagem na sua unidade fundamental: uma única rodada de geração de imagens orientada por raciocínio, na qual o modelo primeiro expande a instrução do usuário através de raciocínio, seguido pela síntese da imagem. Formulando este processo de geração multimodal como um Processo de Decisão Markoviano com recompensas terminais esparsas, introduzimos o UniGRPO para otimizar conjuntamente as políticas de geração de texto e imagem usando GRPO. Adotando uma metodologia minimalista para evitar *over-design*, aproveitamos receitas de treinamento consolidadas para ambas as modalidades, integrando perfeitamente o GRPO padrão para o raciocínio e o FlowGRPO para a síntese visual. Para garantir escalabilidade para a geração intercalada multi-rodada, introduzimos duas modificações críticas ao FlowGRPO original: (1) eliminamos a orientação livre de classificador (*classifier-free guidance*) para manter *rollouts* lineares e sem ramificação, o que é essencial para escalar para cenários complexos envolvendo interações multi-turno e geração multi-condição (por exemplo, edição); e (2) substituímos a penalidade KL latente padrão por uma penalidade MSE diretamente nos campos de velocidade, fornecendo um sinal de regularização mais robusto e direto para mitigar efetivamente a exploração de recompensas (*reward hacking*). Nossos experimentos demonstram que esta receita de treinamento unificada melhora significativamente a qualidade da geração de imagens através do raciocínio, fornecendo uma base robusta e escalável para o futuro pós-treinamento de modelos totalmente intercalados.

RealMaster: Transformando Cenas Renderizadas em Vídeo Foto-realista
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24

ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar

Os modelos de geração de vídeo de última geração produzem um realismo fotográfico notável, mas carecem do controle preciso necessário para alinhar o conteúdo gerado com requisitos específicos da cena. Além disso, sem uma geometria explícita subjacente, esses modelos não podem garantir consistência 3D. Por outro lado, os motores 3D oferecem controle granular sobre cada elemento da cena e fornecem consistência 3D nativa por design, mas sua saída frequentemente permanece presa no "vale da estranheza". Preencher essa lacuna entre simulação e realidade requer tanto precisão estrutural, onde a saída deve preservar exatamente a geometria e a dinâmica da entrada, quanto transformação semântica global, onde materiais, iluminação e texturas devem ser transformados holisticamente para alcançar o realismo fotográfico. Apresentamos o RealMaster, um método que aproveita modelos de difusão de vídeo para elevar vídeos renderizados a vídeos foto-realistas, mantendo o alinhamento total com a saída do motor 3D. Para treinar este modelo, geramos um conjunto de dados pareados por meio de uma estratégia de propagação baseada em âncoras, onde o primeiro e o último quadros são aprimorados para realismo e propagados pelos quadros intermediários usando pistas de condicionamento geométrico. Em seguida, treinamos um IC-LoRA nesses vídeos pareados para destilar as saídas de alta qualidade do pipeline em um modelo que generaliza além das restrições do pipeline, lidando com objetos e personagens que aparecem no meio da sequência e permitindo inferência sem exigir quadros âncora. Avaliado em sequências complexas do GTA-V, o RealMaster supera significativamente as bases de comparação de edição de vídeo existentes, melhorando o realismo fotográfico enquanto preserva a geometria, a dinâmica e a identidade especificadas pelo controle 3D original.

2Xplat: Dois Especialistas São Melhores que Um Generalista
2Xplat: Two Experts Are Better Than One Generalist

Mar 22

ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park

O 3D Gaussian Splatting (3DGS) *feed-forward* livre de poses abriu uma nova fronteira para a modelagem 3D rápida, permitindo que representações Gaussianas de alta qualidade sejam geradas a partir de imagens de múltiplas vistas não calibradas em uma única passagem direta. A abordagem dominante neste espaço adota arquiteturas monolíticas unificadas, frequentemente construídas sobre modelos fundamentais 3D centrados na geometria, para estimar conjuntamente as poses da câmera e sintetizar representações 3DGS dentro de uma única rede. Embora arquitetonicamente simplificados, tais projetos "tudo-em-um" podem ser subótimos para a geração de 3DGS de alta fidelidade, uma vez que eles entrelaçam o raciocínio geométrico e a modelagem de aparência dentro de uma representação compartilhada. Neste trabalho, introduzimos o 2Xplat, um framework 3DGS *feed-forward* livre de poses baseado em um design de dois especialistas que separa explicitamente a estimativa de geometria da geração Gaussiana. Um especialista em geometria dedicado primeiro prevê as poses da câmera, que são então explicitamente passadas para um poderoso especialista em aparência que sintetiza os Gaussianos 3D. Apesar de sua simplicidade conceitual, sendo largamente inexplorada em trabalhos anteriores, a abordagem proposta mostra-se altamente eficaz. Em menos de 5.000 iterações de treinamento, o *pipeline* proposto de dois especialistas supera substancialmente as abordagens anteriores de 3DGS *feed-forward* livre de poses e alcança um desempenho equivalente ao dos métodos state-of-the-art que utilizam poses. Estes resultados desafiam o paradigma unificado predominante e sugerem as vantagens potenciais dos princípios de design modular para tarefas complexas de estimativa geométrica 3D e síntese de aparência.

Repensando a Otimização de Políticas em Nível de Token para Cadeia de Pensamento Multimodal
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24

ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng

A Raciocínio em Cadeia de Pensamento (CoT) Multimodal exige que grandes modelos de visão e linguagem construam trajetórias de raciocínio que intercalem a fundamentação perceptual com inferência em múltiplos passos. No entanto, os métodos existentes de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) normalmente otimizam o raciocínio a uma granularidade grosseira, tratando o CoT de forma uniforme sem distinguir seus diferentes graus de fundamentação visual. Neste trabalho, conduzimos uma análise a nível de token das trajetórias de raciocínio multimodal e mostramos que o raciocínio bem-sucedido é caracterizado por dinâmicas estruturadas de tokens que refletem tanto a fundamentação perceptual quanto a inferência exploratória. Com base nesta análise, propomos a Otimização de Políticas de Percepção-Exploração (PEPO), que deriva um prior de percepção a partir da similaridade de estados ocultos e o integra com a entropia de tokens através de um mecanismo de gateamento suave para produzir vantagens a nível de token. O PEPO integra-se perfeitamente com estruturas RLVR existentes, como GRPO e DAPO, não requerendo supervisão adicional nem ramificações auxiliares. Experimentos extensos em diversos benchmarks multimodais demonstram melhorias consistentes e robustas sobre fortes linhas de base de RL, abrangendo raciocínio geométrico, fundamentação visual, resolução de quebra-cabeças visuais e classificação com poucos exemplos, mantendo ao mesmo tempo dinâmicas de treinamento estáveis. Código: https://github.com/xzxxntxdy/PEPO

Atenda Antes da Atenção: Compreensão de Vídeo Eficiente e Escalável por meio de Observação Autoregressiva
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12

ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

Os modelos de linguagem de grande escala multimodais (MLLMs) avançaram na compreensão de vídeo de propósito geral, mas lutam com vídeos longos e de alta resolução — eles processam cada pixel igualmente em seus vision transformers (ViTs) ou LLMs, apesar da significativa redundância espaço-temporal. Apresentamos o AutoGaze, um módulo leve que remove *patches* redundantes antes que sejam processados por um ViT ou um MLLM. Treinado com previsão do próximo token e aprendizado por reforço, o AutoGaze seleciona autoregressivamente um conjunto mínimo de *patches* multi-escala que podem reconstruir o vídeo dentro de um limite de erro especificado pelo usuário, eliminando a redundância enquanto preserva a informação. Empiricamente, o AutoGaze reduz os tokens visuais em 4x-100x e acelera ViTs e MLLMs em até 19x, permitindo escalar MLLMs para vídeos de 4K com 1K *frames* e alcançando resultados superiores em *benchmarks* de vídeo (por exemplo, 67,0% no VideoMME). Além disso, introduzimos o HLVid: o primeiro *benchmark* de Q&A para vídeos longos e de alta resolução, com vídeos de 5 minutos em 4K, onde um MLLM escalado com AutoGaze melhora a linha de base em 10,1% e supera o melhor MLLM anterior em 4,5%. Página do projeto: https://autogaze.github.io/.

VP-VLA: Prompt Visual como Interface para Modelos Visão-Linguagem-Ação
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23

ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia

Os modelos Visão-Linguagem-Ação (VLA) mapeiam tipicamente observações visuais e instruções linguísticas diretamente para sinais de controle robótico. Este mapeamento de "caixa preta" força uma única passagem direta a lidar simultaneamente com a interpretação de instruções, a ancoragem espacial e o controle de baixo nível, frequentemente resultando em baixa precisão espacial e robustez limitada em cenários fora da distribuição. Para enfrentar estas limitações, propomos o VP-VLA, uma estrutura de sistema dual que desacopla o raciocínio de alto nível e a execução de baixo nível através de uma interface estruturada de *prompting* visual. Especificamente, um "Planejador do Sistema 2" decompõe instruções complexas em subtarefas e identifica objetos-alvo relevantes e localizações de objetivo. Estas âncoras espaciais são então sobrepostas diretamente nas observações visuais como *prompts* visuais estruturados, como retículos e caixas delimitadoras. Guiado por estes *prompts* e aprimorado por um novo objetivo auxiliar de ancoragem visual durante o treinamento, um "Controlador do Sistema 1" gera de forma confiável movimentos de execução de baixo nível precisos. Experiências no benchmark Robocasa-GR1-Tabletop e na simulação SimplerEnv demonstram que o VP-VLA melhora as taxas de sucesso em 5% e 8,3%, superando linhas de base competitivas, incluindo QwenOFT e GR00T-N1.6.

ThinkJEPA: Capacitando Modelos Mundiais Latentes com Grandes Modelos de Raciocínio Visuo-Linguístico
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23

ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu

Os recentes avanços em modelos de mundo latente (por exemplo, V-JEPA) têm demonstrado capacidades promissoras na previsão de estados futuros do mundo a partir de observações em vídeo. No entanto, a previsão densa a partir de uma janela de observação curta limita o contexto temporal e pode enviesar os preditores para uma extrapolação local e de baixo nível, dificultando a captura de semântica de longo prazo e reduzindo a utilidade para tarefas subsequentes. Em contraste, os modelos de visão e linguagem (VLMs) fornecem uma base semântica robusta e conhecimento geral ao raciocinar sobre quadros amostrados uniformemente, mas não são ideais como preditores densos autónomos devido à amostragem esparsa motivada por restrições computacionais, a um gargalo de saída em linguagem que comprime estados de interação de granularidade fina em representações orientadas a texto, e a um desajuste de regime de dados ao adaptarem-se a conjuntos de dados pequenos e condicionados por ações. Propomos uma estrutura de modelação de mundo latente no estilo JEPA guiada por VLM que combina a modelação de dinâmica de quadros densos com orientação semântica de longo prazo através de uma via de dupla temporalidade: um ramo JEPA denso para pistas de movimento e interação de granularidade fina, e um ramo "pensante" VLM, amostrado uniformemente com um *stride* temporal maior, para orientação rica em conhecimento. Para transferir eficazmente os sinais de raciocínio progressivo do VLM, introduzimos um módulo de extração de representação em pirâmide hierárquica que agrega representações de múltiplas camadas do VLM em características de orientação compatíveis com a previsão latente. Experiências na previsão de trajetórias de manipulação manual mostram que o nosso método supera tanto uma linha de base forte baseada apenas em VLM como uma linha de base de preditor JEPA, e produz um comportamento de *rollout* de longo prazo mais robusto.

AgentSLR: Automatizando Revisões Sistemáticas da Literatura em Epidemiologia com IA Agênte
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20

ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi

As revisões sistemáticas da literatura são essenciais para sintetizar evidências científicas, mas são dispendiosas, difíceis de dimensionar e demoradas, criando estrangulamentos para políticas baseadas em evidências. Investigamos se os grandes modelos de linguagem podem automatizar o fluxo de trabalho completo de revisão sistemática, desde a recuperação de artigos, triagem de artigos, extração de dados até à síntese do relatório. Aplicado a revisões epidemiológicas de nove patógenos prioritários designados pela OMS e validado com base em dados de referência curados por especialistas, o nosso *pipeline* agentivo de código aberto (AgentSLR) atua com um desempenho comparável ao de investigadores humanos, reduzindo o tempo de revisão de aproximadamente 7 semanas para 20 horas (uma aceleração de 58 vezes). A nossa comparação de cinco modelos de ponta revela que o desempenho em Revisões Sistemáticas da Literatura é menos influenciado pelo tamanho do modelo ou custo de inferência do que pelas capacidades distintivas de cada modelo. Através de uma validação com intervenção humana (*human-in-the-loop*), identificámos os principais modos de falha. Os nossos resultados demonstram que a IA agentiva pode acelerar substancialmente a síntese de evidências científicas em domínios especializados.

CanViT: Rumo a Modelos Fundamentais de Visão Ativa
CanViT: Toward Active-Vision Foundation Models

Mar 23

ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna

A visão computacional ativa promete uma percepção eficiente e biologicamente plausível através de vislumbres sequenciais e localizados, mas carece de arquiteturas de propósito geral escaláveis e pipelines de pré-treinamento. Como resultado, os Modelos de Fundação de Visão Ativa (AVFMs) permaneceram inexplorados. Apresentamos o CanViT, o primeiro AVFM agnóstico a tarefas e políticas. O CanViT usa RoPE relativo à cena para vincular um *backbone* Vision Transformer retinotópico e um espaço latente de escopo global da cena (*workspace*), a tela. A interação eficiente com esta memória de trabalho de alta capacidade é suportada pela Canvas Attention, um novo mecanismo de atenção cruzada assimétrica. Desacoplamos o pensamento (nível do *backbone*) da memória (nível da tela), eliminando a auto-atenção e as camadas totalmente conectadas no lado da tela para alcançar inferência sequencial de baixa latência e escalabilidade para cenas grandes. Propomos um esquema de pré-treinamento de visão ativa sem rótulos, a destilação latente densa passiva-para-ativa agnóstica a políticas: reconstruir *embeddings* DINOv3 de escopo global a partir de sequências de vislumbres de baixa resolução com localizações, níveis de zoom e comprimentos aleatórios. Pré-treinamos o CanViT-B a partir de uma inicialização aleatória em 13,2 milhões de cenas do ImageNet-21k — uma ordem de grandeza a mais do que os modelos ativos anteriores — e 1 bilhão de vislumbres aleatórios, em 166 horas em um único H100. Na segmentação ADE20K, um CanViT-B congelado alcança 38,5% de mIoU em um único vislumbre de baixa resolução, superando os 27,6% do melhor modelo ativo com 19,5x menos FLOPs de inferência e sem *fine-tuning*, bem como o seu professor DINOv3 com FLOPs ou entrada equivalentes. Com vislumbres adicionais, o CanViT-B atinge 45,9% de mIoU no ADE20K. Na classificação do ImageNet-1k, o CanViT-B atinge 81,2% de precisão *top-1* com sondas do professor congeladas. O CanViT generaliza para *rollouts* mais longos, cenas maiores e novas políticas. O nosso trabalho fecha a grande lacuna entre a visão passiva e ativa na segmentação semântica e demonstra o potencial dos AVFMs como um novo eixo de pesquisa.

Divisões justas viram a tabela de classificação: CHANRG revela generalização limitada na previsão de estrutura secundária de RNA
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20

ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu

A previsão precisa da estrutura secundária do RNA sustenta a anotação do transcriptoma, a análise mecanicista de RNAs não codificantes e o desenvolvimento de terapêuticas baseadas em RNA. Os avanços recentes provenientes de aprendizagem profunda e modelos de base para RNA são difíceis de interpretar, pois os atuais benchmarks podem superestimar a generalização entre famílias de RNA. Apresentamos a Anotação Hierárquica Abrangente de Grupos de RNA não Codificante (CHANRG), um benchmark de 170.083 RNAs estruturalmente não redundantes, curados a partir de mais de 10 milhões de sequências do Rfam 15.0 utilizando desduplicação com consciência estrutural, divisão de dados com consciência genómica e avaliação estrutural multiescala. Entre 29 preditores, os métodos baseados em modelos de base alcançaram a maior precisão em dados retidos (held-out), mas perderam a maior parte dessa vantagem fora da distribuição, enquanto os descodificadores estruturados e os preditores neurais diretos permaneceram notavelmente mais robustos. Esta lacuna persistiu após o controlo do comprimento da sequência e refletiu tanto a perda de cobertura estrutural quanto a fiação incorreta de estruturas de ordem superior. Em conjunto, o CHANRG e uma pilha de avaliação sem preenchimento (padding) e com consciência de simetria fornecem uma estrutura mais rigorosa e invariante a lotes (batch-invariant) para o desenvolvimento de preditores de estrutura de RNA com robustez fora da distribuição demonstrável.

MultiBind: Um Benchmark para Vinculação Incorreta de Atributos na Geração Multiassunto
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23

ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang

A geração de imagens orientada por sujeito é cada vez mais esperada para oferecer controlo de granularidade fina sobre múltiplas entidades numa única imagem. Em fluxos de trabalho com múltiplas referências, os utilizadores podem fornecer várias imagens de sujeitos, uma referência de fundo e instruções longas indexadas por entidade para controlar várias pessoas numa única cena. Neste contexto, um modo de falha crítico é a atribuição incorreta de atributos entre sujeitos: os atributos são preservados, editados ou transferidos para o sujeito errado. Os *benchmarks* e métricas existentes enfatizam maioritariamente a fidelidade holística ou a auto-semelhança por sujeito, tornando tais falhas difíceis de diagnosticar. Apresentamos o MultiBind, um *benchmark* construído a partir de fotografias reais de múltiplas pessoas. Cada instância fornece recortes de sujeitos ordenados por *slot* com máscaras e caixas delimitadoras, referências canónicas dos sujeitos, uma referência de fundo reconstituído e uma instrução densa indexada por entidade, derivada de anotações estruturadas. Propomos também um protocolo de avaliação de confusão dimensional que corresponde os sujeitos gerados aos *slots* de verdade fundamental e mede a semelhança entre *slots* usando especialistas para identidade facial, aparência, pose e expressão. Ao subtrair as matrizes de semelhança de verdade fundamental correspondentes, o nosso método separa a autodegradação da verdadeira interferência entre sujeitos e expõe padrões de falha interpretáveis, como deriva, troca, dominância e mistura. Experiências com geradores modernos de múltiplas referências mostram que o MultiBind revela falhas de vinculação que as métricas convencionais de reconstrução não detetam.

VTAM: Modelos de Vídeo-Tato-Ação para Interação Física Complexa Além dos VLAs
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24

ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou

Os Modelos de Ação por Vídeo (VAMs) surgiram como uma estrutura promissora para a inteligência incorporada, aprendendo dinâmicas implícitas do mundo a partir de fluxos de vídeo brutos para produzir previsões de ações temporalmente consistentes. Embora esses modelos demonstrem um forte desempenho em tarefas de longo horizonte por meio do raciocínio visual, eles permanecem limitados em cenários ricos em contato, onde os estados críticos de interação são apenas parcialmente observáveis apenas pela visão. Em particular, a modulação de força de alta granularidade e as transições de contato não são codificadas de forma confiável em tokens visuais, levando a comportamentos instáveis ou imprecisos. Para preencher essa lacuna, apresentamos o Modelo de Ação Tátil-Visual (VTAM), uma estrutura de modelagem mundial multimodal que incorpora a percepção tátil como um sinal de aterramento complementar. O VTAM aumenta um transformador de vídeo pré-treinado com fluxos táteis por meio de um ajuste fino de transferência de modalidade leve, permitindo um aprendizado de representação multimodal eficiente sem dados pareados tátil-linguagem ou pré-treinamento tátil independente. Para estabilizar a fusão multimodal, introduzimos uma perda de regularização tátil que impõe uma atenção multimodal equilibrada, prevenindo o domínio latente visual no modelo de ação. O VTAM demonstra desempenho superior na manipulação rica em contato, mantendo uma taxa de sucesso robusta de 90% em média. Em cenários desafiadores, como a coleta e colocação de batatas chips que requerem consciência de força de alta fidelidade, o VTAM supera a linha de base de 0,5π em 80%. Nossas descobertas demonstram que a integração do feedback tátil é essencial para corrigir erros de estimativa visual em modelos de ação mundial, fornecendo uma abordagem escalável para modelos de fundação incorporados fisicamente fundamentados.

Escassos mas Críticos: Uma Análise ao Nível de Tokens das Mudanças Distribucionais no Ajuste Fino RLVR de LLMs
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23

ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou

O aprendizado por reforço com recompensas verificáveis (RLVR) melhorou significativamente o raciocínio em grandes modelos de linguagem (LLMs), embora os mecanismos em nível de token subjacentes a essas melhorias permaneçam pouco claros. Apresentamos um estudo empírico sistemático dos efeitos distribucionais do RLVR organizado em torno de três análises principais: (1) caracterização em nível de token dos deslocamentos distribucionais entre os modelos base e RL, (2) o impacto dos deslocamentos distribucionais em nível de token no desempenho do raciocínio em nível sequencial por meio de intervenções de amostragem cruzada, e (3) a mecânica refinada desses deslocamentos em nível de token. Constatamos que o ajuste fino por RL induz mudanças altamente esparsas e direcionadas, com apenas uma pequena fração das distribuições de token exibindo divergência significativa entre as políticas base e RL. Caracterizamos ainda mais a estrutura e a evolução desses deslocamentos por meio de análises de entropia do token, concentração posicional e realocação da massa de probabilidade. Para avaliar a importância funcional dessas mudanças esparsas, conduzimos experimentos de amostragem cruzada que trocam seletivamente as escolhas de token entre os modelos base e RL com orçamentos de intervenção variados. Mostramos que a inserção de apenas uma pequena fração de tokens amostrados por RL nas gerações base recupera progressivamente os ganhos de desempenho do RL, enquanto a injeção de um número igualmente pequeno de escolhas de token base em sequências geradas por RL reduz o desempenho aos níveis base, isolando um pequeno conjunto de decisões em nível de token diretamente responsáveis pelos ganhos de desempenho do RLVR. Finalmente, exploramos variantes do sinal de vantagem ponderadas pela divergência como uma intervenção de diagnóstico, constatando que elas podem produzir melhorias em relação às linhas de base. Juntos, nossos resultados esclarecem as mudanças distribucionais induzidas pelo RLVR e fornecem uma lente refinada, em nível de token, para compreender o ajuste fino do RLVR como um processo de refinamento direcionado.

TrajLoom: Geração Densa de Trajetórias Futuras a partir de Vídeo
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23

ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao

A previsão de movimentos futuros é crucial para a compreensão de vídeos e a geração de vídeos controláveis. Trajetórias densas de pontos são uma representação de movimento compacta e expressiva, mas modelar sua evolução futura a partir de vídeos observados permanece um desafio. Propomos um framework que prevê trajetórias futuras e visibilidade a partir de trajetórias passadas e do contexto do vídeo. Nosso método possui três componentes: (1) Codificação de Deslocamento por Âncora de Grade, que reduz o viés dependente da localização representando cada ponto como um deslocamento em relação à sua âncora no centro do pixel; (2) TrajLoom-VAE, que aprende um espaço latente espaço-temporal compacto para trajetórias densas com reconstrução mascarada e um regularizador de consistência espaço-temporal; e (3) TrajLoom-Flow, que gera trajetórias futuras no espaço latente via *flow matching*, com pistas de contorno e *fine-tuning* K-step *on-policy* para amostragem estável. Também introduzimos o TrajLoomBench, um *benchmark* unificado abrangendo vídeos reais e sintéticos com uma configuração padronizada alinhada a *benchmarks* de geração de vídeo. Em comparação com métodos state-of-the-art, nossa abordagem estende o horizonte de previsão de 24 para 81 quadros, melhorando o realismo e a estabilidade do movimento em diversos conjuntos de dados. As trajetórias previstas suportam diretamente a geração e edição de vídeos subsequentes. Código, *checkpoints* de modelo e conjuntos de dados estão disponíveis em https://trajloom.github.io/.

Abstração como um Viés Indutivo Eficiente em Memória para Aprendizado Contínuo
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17

ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani

O mundo real é não estacionário e infinitamente complexo, exigindo que agentes inteligentes aprendam continuamente sem o custo proibitivo de retreinamento a partir do zero. Embora a aprendizagem contínua online ofereça uma estrutura para este cenário, a aquisição de novas informações frequentemente interfere no conhecimento previamente adquirido, causando esquecimento e degradação da generalização. Para resolver isso, propomos o Treinamento Aumentado por Abstração (AAT), uma modificação a nível de função de perda que incentiva os modelos a capturar a estrutura relacional latente compartilhada entre exemplos. Ao otimizar conjuntamente instâncias concretas e suas representações abstratas, o AAT introduz um viés indutivo eficiente em memória que estabiliza a aprendizagem em fluxos de dados estritamente online, eliminando a necessidade de um buffer de replay. Para capturar a natureza multifacetada da abstração, introduzimos e avaliamos o AAT em dois benchmarks: um conjunto de dados relacionais controlado onde a abstração é realizada através de mascaramento de entidades, e um conjunto de dados narrativos onde a abstração é expressa através de provérbios compartilhados. Nossos resultados mostram que o AAT alcança um desempenho comparável ou superior às fortes baselines de experiência por replay (ER), apesar de exigir zero memória adicional e apenas alterações mínimas no objetivo de treinamento. Este trabalho destaca a abstração estrutural como uma alternativa poderosa e livre de memória ao ER.

VISion Sob Demanda: Eficiência Aprimorada de VLLM com Interações Visão-Linguagem Esparsas e Dinamicamente Selecionadas
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24

ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos

As abordagens existentes para melhorar a eficiência dos Grandes Modelos de Linguagem e Visão (LVLMs) baseiam-se amplamente no conceito de redução de tokens visuais. No entanto, essa abordagem cria um gargalo de informação que prejudica o desempenho, especialmente em tarefas complexas que exigem compreensão e raciocínio de alto nível de detalhe. Neste trabalho, desafiamos esse paradigma introduzindo o VISion On Request (VISOR), um método que reduz o custo de inferência sem descartar informações visuais. Em vez de comprimir a imagem, o VISOR melhora a eficiência através da esparsificação da interação entre tokens de imagem e texto. Especificamente, o modelo de linguagem acede ao conjunto completo de tokens visuais de alta resolução através de um pequeno conjunto de camadas de atenção estrategicamente posicionadas: o contexto visual geral é fornecido por uma atenção cruzada eficiente entre texto e imagem, enquanto algumas camadas de auto-atenção bem posicionadas e selecionadas dinamicamente refinam as próprias representações visuais, permitindo raciocínio complexo e de alta resolução quando necessário. Com base neste princípio, primeiro treinamos uma única rede universal para uma variedade de orçamentos computacionais, variando o número de camadas de auto-atenção, e depois introduzimos um mecanismo de política leve que aloca dinamicamente o cálculo visual com base na complexidade de cada amostra. Experimentos extensivos mostram que o VISOR reduz drasticamente o custo computacional enquanto iguala ou supera os resultados de ponta em um conjunto diversificado de benchmarks, e se destaca em tarefas desafiadoras que exigem compreensão visual detalhada.

Uma Visão é Suficiente! Treinamento Monocular para Geração de Novas Perspectivas em Ambientes Não Controlados
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24

ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard

A síntese de novas vistas a partir de imagens monoculares sempre exigiu pares de imagens multi-vista para supervisão, limitando a escala e diversidade dos dados de treinamento. Argumentamos que isso não é necessário: uma vista é suficiente. Apresentamos o OVIE, treinado inteiramente em imagens não pareadas da internet. Utilizamos um estimador de profundidade monocular como arcabouço geométrico durante o treinamento: elevamos uma imagem de origem para 3D, aplicamos uma transformação de câmera amostrada e projetamos para obter uma pseudo-vista de destino. Para lidar com desoclusões, introduzimos uma formulação de treinamento mascarado que restringe as perdas geométricas, perceptuais e texturais a regiões válidas, permitindo o treinamento em 30 milhões de imagens não curadas. Na inferência, o OVIE é livre de geometria, não exigindo nenhum estimador de profundidade ou representação 3D. Treinado exclusivamente em imagens do mundo real, o OVIE supera métodos anteriores em um cenário de *zero-shot*, sendo 600x mais rápido que a segunda melhor baseline. Código e modelos estão publicamente disponíveis em https://github.com/AdrienRR/ovie.

Ego2Web: Um Benchmark de Agentes Web Baseado em Vídeos Egocêntricos
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23

ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong

Os agentes de IA multimodal estão automatizando cada vez mais fluxos de trabalho complexos do mundo real que envolvem execução web online. No entanto, os benchmarks atuais para agentes web sofrem de uma limitação crítica: eles se concentram inteiramente na interação e percepção baseadas na web, carecendo de ancoragem no ambiente físico real do usuário. Essa limitação impede a avaliação em cenários cruciais, como quando um agente deve usar a percepção visual egocêntrica (por exemplo, via óculos de realidade aumentada) para reconhecer um objeto no entorno do usuário e, em seguida, completar uma tarefa relacionada online. Para preencher essa lacuna, introduzimos o Ego2Web, o primeiro benchmark projetado para fazer a ponte entre a percepção de vídeo egocêntrica e a execução de agentes web. O Ego2Web emparelha gravações de vídeo em primeira pessoa do mundo real com tarefas web que exigem compreensão visual, planejamento de tarefas web e interação em um ambiente online para uma conclusão bem-sucedida. Utilizamos um pipeline de geração automática de dados combinado com verificação e refinamento humano para selecionar pares vídeo-tarefa bem construídos e de alta qualidade em diversos tipos de tarefas web, incluindo comércio eletrônico, recuperação de mídia, consulta de conhecimento, etc. Para facilitar uma avaliação precisa e escalável para o nosso benchmark, também desenvolvemos um novo método de avaliação automática LLM-como-Juiz, o Ego2WebJudge, que alcança aproximadamente 84% de concordância com o julgamento humano, substancialmente superior aos métodos de avaliação existentes. Experimentos com diversos agentes SoTA no nosso Ego2Web mostram que o seu desempenho é fraco, com margem substancial de melhoria em todas as categorias de tarefas. Também realizamos um estudo de ablação abrangente sobre o design de tarefas, destacando a necessidade de uma compreensão precisa de vídeo na tarefa proposta e as limitações dos agentes atuais. Esperamos que o Ego2Web possa ser um novo recurso crítico para o desenvolvimento de assistentes de IA verdadeiramente capazes que possam ver, compreender e agir perfeitamente entre os mundos físico e digital.

Alinhamento Composicional Guiado pela Incerteza com Representatividade Semântica Parte-Todo em Modelos Visão-Linguagem Hiperbólicos
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23

ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun

Embora os Modelos de Visão e Linguagem (VLMs) tenham alcançado um desempenho notável, seus *embeddings* euclidianos permanecem limitados na captura de relações hierárquicas, como estruturas parte-todo ou pai-filho, e frequentemente enfrentam desafios em cenários composicionais multiobjeto. Os VLMs Hiperbólicos mitigam essa questão ao preservar melhor as estruturas hierárquicas e modelar relações parte-todo (ou seja, a cena inteira e suas imagens constituintes) através do *entailment*. No entanto, as abordagens existentes não modelam o facto de que cada parte tem um nível diferente de representatividade semântica em relação ao todo. Propomos o Alinhamento Hiperbólico Composicional Guiado por Incerteza (UNCHA) para aprimorar os VLMs hiperbólicos. O UNCHA modela a representatividade semântica parte-todo com incerteza hiperbólica, atribuindo menor incerteza a partes mais representativas e maior incerteza a partes menos representativas para a cena como um todo. Esta representatividade é então incorporada no objetivo contrastivo com pesos guiados pela incerteza. Finalmente, a incerteza é ainda calibrada com uma função de perda de *entailment* regularizada por um termo baseado em entropia. Com as funções de perda propostas, o UNCHA aprende *embeddings* hiperbólicos com uma ordenação parte-todo mais precisa, capturando a estrutura composicional subjacente numa imagem e melhorando a sua compreensão de cenas complexas com múltiplos objetos. O UNCHA alcança um desempenho estado da arte em benchmarks de classificação *zero-shot*, recuperação e classificação multi-rótulo. O nosso código e modelos estão disponíveis em: https://github.com/jeeit17/UNCHA.git.

ABot-PhysWorld: Modelo de Fundação de Mundo Interativo para Manipulação Robótica com Alinhamento Físico
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24

ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu

Os modelos de mundo baseados em vídeo oferecem um paradigma poderoso para simulação e planejamento corporificados, porém os modelos de última geração frequentemente geram manipulações fisicamente implausíveis - como penetração de objetos e movimento anti-gravitacional - devido ao treinamento em dados visuais genéricos e objetivos baseados em verossimilhança que ignoram as leis físicas. Apresentamos o ABot-PhysWorld, um modelo Diffusion Transformer de 14B que gera vídeos visualmente realistas, fisicamente plausíveis e controláveis por ações. Construído sobre um conjunto de dados curado de três milhões de clipes de manipulação com anotação consciente da física, ele utiliza uma nova estrutura de pós-treinamento baseada em DPO com discriminadores desacoplados para suprimir comportamentos não físicos enquanto preserva a qualidade visual. Um bloco de contexto paralelo permite a injeção precisa de ações espaciais para controle de encarnação cruzada. Para melhor avaliar a generalização, introduzimos o EZSbench, o primeiro benchmark de zero-shot corporificado independente do treinamento, combinando combinações inéditas de robô-tarefa-cena reais e sintéticas. Ele emprega um protocolo desacoplado para avaliar separadamente o realismo físico e o alinhamento de ações. O ABot-PhysWorld alcança um novo desempenho de última geração no PBench e no EZSbench, superando o Veo 3.1 e o Sora v2 Pro em plausibilidade física e consistência de trajetória. Liberaremos o EZSbench para promover a avaliação padronizada na geração de vídeo corporificada.

Raciocínio ou Retórica? Uma Análise Empírica das Explicações de Raciocínio Moral em Modelos de Linguagem de Grande Escala
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23

ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain

Os grandes modelos de linguagem raciocinam moralmente ou apenas parecem fazê-lo? Investigamos se as respostas de LLMs a dilemas morais exibem uma progressão desenvolvimental genuína através dos estágios do desenvolvimento moral de Kohlberg, ou se o treinamento de alinhamento produz, em vez disso, outputs semelhantes a raciocínio que se assemelham superficialmente a julgamentos morais maduros sem a trajetória desenvolvimental subjacente. Utilizando um *pipeline* de pontuação com LLM-como-juiz validado em três modelos juízes, classificamos mais de 600 respostas de 13 LLMs abrangendo uma variedade de arquiteturas, escalas de parâmetros e regimes de treinamento em seis dilemas morais clássicos, e conduzimos dez análises complementares para caracterizar a natureza e a coerência interna dos padrões resultantes. Nossos resultados revelam uma inversão impressionante: as respostas correspondem esmagadoramente ao raciocínio pós-convencional (Estágios 5-6), independentemente do tamanho do modelo, arquitetura ou estratégia de *prompting*, o inverso efetivo das normas desenvolvimentais humanas, onde o Estágio 4 domina. Mais notavelmente, um subconjunto de modelos exibe *desacoplamento moral*: inconsistência sistemática entre a justificação moral declarada e a escolha de ação, uma forma de incoerência lógica que persiste através da escala e da estratégia de *prompting* e representa uma falha direta de consistência do raciocínio, independente da sofisticação retórica. A escala do modelo tem um efeito estatisticamente significativo, mas praticamente pequeno; o tipo de treinamento não tem um efeito principal independente significativo; e os modelos exibem uma consistência quase robótica entre dilemas, produzindo respostas logicamente indistinguíveis em problemas morais semanticamente distintos. Posicionamos que estes padrões constituem evidência para o *ventriloquismo moral*: a aquisição, através do treinamento de alinhamento, das convenções retóricas do raciocínio moral maduro sem a trajetória desenvolvimental subjacente que essas convenções pretendem representar.

Regulamentação de Agentes de IA
Regulating AI Agents

Mar 24

ByKathrin Gardhouse, Amin Oueslati, Noam Kolt

Os agentes de IA — sistemas capazes de agir de forma autónoma para perseguir objetivos complexos com supervisão humana limitada — tornaram-se mainstream. Estes sistemas são agora amplamente utilizados para produzir software, conduzir atividades empresariais e automatizar tarefas pessoais quotidianas. Embora os agentes de IA envolvam diversas áreas do direito, desde o direito da representação e os contratos até à responsabilidade civil extracontratual e ao direito do trabalho, colocam questões particularmente prementes para a regulamentação de IA com maior impacto global: a Lei de IA da União Europeia. Promulgada antes do desenvolvimento e uso generalizado de agentes de IA, a Lei de IA da UE enfrenta obstáculos significativos para responder aos desafios de governação decorrentes desta tecnologia transformadora, como falhas de desempenho na execução autónoma de tarefas, o risco de utilização indevida de agentes por parte de atores maliciosos e o acesso desigual às oportunidades económicas proporcionadas pelos agentes de IA. Analisamos sistematicamente a resposta da Lei de IA da UE a estes desafios, focando-nos tanto nas disposições substantivas do regulamento como, crucialmente, nos quadros institucionais que visam apoiar a sua implementação. A nossa análise da afetação de responsabilidades de monitorização e aplicação pela Lei, da sua dependência da autorregulação da indústria e do nível de recursos governamentais ilustra como um quadro regulamentar concebido para sistemas de IA convencionais pode ser inadequado para agentes de IA. No seu conjunto, as nossas conclusões sugerem que os decisores políticos na UE e além terão de mudar de rumo, e em breve, se quiserem governar eficazmente a próxima geração de tecnologia de IA.

Memória de Risco de Sessão (SRM): Autorização Temporal para Portas de Segurança de Pré-Execução Determinística
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22

ByFlorin Adrian Chitan

Portões de segurança determinísticos de pré-execução avaliam se ações individuais de agentes são compatíveis com suas funções atribuídas. Embora eficazes na autorização por ação, esses sistemas são estruturalmente cegos a ataques distribuídos que decompõem intenções maliciosas em múltiplas etapas individualmente conformes. Este artigo apresenta o Memória de Risco de Sessão (SRM), um módulo determinístico de baixo custo computacional que estende os portões de execução sem estado com autorização em nível de trajetória. O SRM mantém um centróide semântico compacto que representa o perfil comportamental em evolução de uma sessão de agente e acumula um sinal de risco através da média móvel exponencial sobre as saídas dos portões subtraídas da linha de base. Ele opera na mesma representação vetorial semântica do portão subjacente, não requerendo componentes de modelo adicionais, treinamento ou inferência probabilística. Avaliamos o SRM em um benchmark multi-turn de 80 sessões contendo cenários de exfiltração lenta, escalação gradual de privilégios e desvio de conformidade. Os resultados mostram que ILION+SRM alcança F1 = 1,0000 com 0% de taxa de falsos positivos, comparado ao ILION sem estado com F1 = 0,9756 e 5% de FPR, enquanto mantém 100% de taxa de detecção para ambos os sistemas. Criticalmente, o SRM elimina todos os falsos positivos com uma sobrecarga por turno inferior a 250 microssegundos. O framework introduz uma distinção conceitual entre consistência de autorização espacial (avaliada por ação) e consistência de autorização temporal (avaliada ao longo da trajetória), fornecendo uma base fundamentada para a segurança em nível de sessão em sistemas agentivos.

Agente STEM: Uma Arquitetura Autoajustável, Habilitada para Ferramentas e Extensível para Sistemas de Agentes de IA Multi-Protocolo
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22

ByAlfred Shen, Aaron Shen

Os atuais frameworks de agentes de IA comprometem-se prematuramente com um único protocolo de interação, uma estratégia fixa de integração de ferramentas e modelos de usuário estáticos, limitando sua implantação em diversos paradigmas de interação. Para enfrentar essas limitações, introduzimos o STEM Agent (Self-adapting, Tool-enabled, Extensible, Multi-agent), uma arquitetura modular inspirada na pluripotência biológica, na qual um núcleo de agente indiferenciado se diferencia em manipuladores de protocolo especializados, vinculações de ferramentas e subsistemas de memória que se combinam para formar um sistema de IA totalmente funcional. O framework unifica cinco protocolos de interoperabilidade (A2A, AG-UI, A2UI, UCP e AP2) por trás de um único gateway, introduz um Perfilador de Chamadas que aprende continuamente as preferências do usuário em mais de vinte dimensões comportamentais, externaliza todas as capacidades de domínio por meio do Model Context Protocol (MCP) e implementa um sistema de aquisição de habilidades biologicamente inspirado, no qual padrões recorrentes de interação se cristalizam em habilidades de agente reutilizáveis por meio de um ciclo de vida de maturação análogo à diferenciação celular. Complementando essas capacidades, o sistema de memória incorpora mecanismos de consolidação, incluindo poda episódica, desduplicação semântica e extração de padrões, projetados para crescimento sublinear sob interação sustentada. Uma suíte abrangente de 413 testes valida o comportamento do manipulador de protocolo e a integração de componentes em todas as cinco camadas arquitetônicas, concluindo em menos de três segundos.

SHAMISA: Modelagem com Formato de Associações Estruturais Implícitas para Avaliação Autossupervisionada da Qualidade de Imagem sem Referência
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14

ByMahdi Naseri, Zhou Wang

A Avaliação da Qualidade de Imagens sem Referência (NR-IQA, do inglês *No-Reference Image Quality Assessment*) tem como objetivo estimar a qualidade perceptual sem o acesso a uma imagem de referência de qualidade imaculada. A aprendizagem de um modelo NR-IQA enfrenta um obstáculo fundamental: a sua necessidade de um grande número de rótulos perceptuais humanos, que são dispendiosos de obter. Propomos o SHAMISA, uma estrutura auto supervisionada (*self-supervised*) não contrastiva que aprende a partir de imagens distorcidas não rotuladas, aproveitando uma supervisão relacional explicitamente estruturada. Ao contrário de métodos anteriores que impõem restrições de semelhança binárias e rígidas, o SHAMISA introduz associações estruturais implícitas, definidas como relações suaves e controláveis que são simultaneamente conscientes da distorção e sensíveis ao conteúdo, inferidas a partir de metadados sintéticos e da estrutura intrínseca dos *features*. Uma inovação fundamental é o nosso motor de distorção composicional, que gera uma família incontável de degradações a partir de espaços de parâmetros contínuos, agrupados de modo que apenas um fator de distorção varie de cada vez. Isto permite um controlo de granularidade fina sobre a similaridade representacional durante o treino: imagens com padrões de distorção partilhados são aproximadas no espaço de incorporação (*embedding*), enquanto variações de severidade produzem desvios estruturados e previsíveis. Integramos estas perceções através de grafos relacionais de dupla fonte que codificam tanto perfis de degradação conhecidos como afinidades estruturais emergentes para guiar o processo de aprendizagem ao longo do treino. Um codificador convolucional é treinado sob esta supervisão e depois congelado para inferência, sendo a previsão da qualidade realizada por um regressor linear sobre os seus *features*. Experiências extensivas em *benchmarks* NR-IQA sintéticos, autênticos e de conjuntos de dados cruzados (*cross-dataset*) demonstram que o SHAMISA alcança uma forte performance global com uma generalização e robustez melhoradas entre conjuntos de dados, tudo sem anotações humanas de qualidade ou perdas contrastivas (*contrastive losses*).

Currículo de Segmentação Guiado por Reconstrução: Abordando a Superfragmentação de Objetos na Aprendizagem Centrada em Objetos em Vídeo
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

A Aprendizagem Centrada em Objetos em Vídeo busca decompor vídeos brutos em um pequeno conjunto de slots de objetos, mas os modelos existentes baseados em atenção a slots frequentemente sofrem com grave superfragmentação. Isso ocorre porque o modelo é implicitamente incentivado a ocupar todos os slots para minimizar o objetivo de reconstrução, representando assim um único objeto com múltiplos slots redundantes. Nós enfrentamos essa limitação com um currículo de slots guiado por reconstrução (SlotCurri). O treinamento começa com apenas alguns slots grosseiros e aloca progressivamente novos slots onde o erro de reconstrução permanece alto, expandindo assim a capacidade apenas onde é necessário e prevenindo a fragmentação desde o início. No entanto, durante a expansão dos slots, subpartes significativas só podem emergir se a semântica em nível grosseiro já estiver bem separada; contudo, com um orçamento inicial pequeno de slots e um objetivo de Erro Quadrático Médio (MSE), os limites semânticos permanecem difusos. Portanto, aumentamos o MSE com uma função de perda consciente da estrutura que preserva o contraste local e a informação de borda para incentivar cada slot a aperfeiçoar seus limites semânticos. Por fim, propomos uma inferência cíclica que avança os slots e depois os retrocede através da sequência de quadros, produzindo representações de objetos temporalmente consistentes mesmo nos quadros iniciais. Combinadas, as técnicas do SlotCurri abordam a superfragmentação de objetos alocando capacidade representacional onde a reconstrução falha, aprimorada ainda mais por pistas estruturais e pela inferência cíclica. Ganhos notáveis de FG-ARI de +6.8 no YouTube-VIS e +8.3 no MOVi-C validam a eficácia do SlotCurri. Nosso código está disponível em github.com/wjun0830/SlotCurri.

Os Agentes de IA Podem Responder às Suas Perguntas sobre Dados? Um Benchmark para Agentes de Dados
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21

ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran

Os utilizadores em empresas dependem cada vez mais de agentes de IA para consultar os seus dados através de linguagem natural. No entanto, a criação de agentes de dados fiáveis continua a ser difícil porque os dados do mundo real estão frequentemente fragmentados em múltiplos sistemas de bases de dados heterogéneos, com referências inconsistentes e informação enterrada em texto não estruturado. As referências existentes apenas abordam partes isoladas deste problema – por exemplo, traduzir perguntas em linguagem natural para consultas SQL, responder a perguntas sobre pequenas tabelas fornecidas em contexto – mas não avaliam o *pipeline* completo de integrar, transformar e analisar dados em vários sistemas de bases de dados. Para colmatar esta lacuna, apresentamos o *Data Agent Benchmark* (DAB), baseado num estudo formativo de cargas de trabalho de agentes de dados empresariais em seis indústrias. O DAB compreende 54 consultas em 12 conjuntos de dados, 9 domínios e 4 sistemas de gestão de bases de dados. No DAB, o melhor modelo de fronteira (Gemini-3-Pro) atinge apenas 38% de precisão *pass@1*. Avaliamos cinco *LLMs* de fronteira, analisamos os seus modos de falha e extraímos conclusões para o futuro desenvolvimento de agentes de dados. A nossa referência e o código experimental são publicados em github.com/ucbepic/DataAgentBench.