HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

31 papers found

LMEB: Benchmark de Incorporação de Memória de Longo Horizonte
LMEB: Long-horizon Memory Embedding Benchmark

Mar 13

ByXinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

Os embeddings de memória são cruciais para sistemas aumentados por memória, como o OpenClaw, mas a sua avaliação é pouco explorada nos benchmarks atuais de embeddings de texto, que se concentram de forma restrita na recuperação tradicional de passagens e falham em avaliar a capacidade dos modelos para lidar com tarefas de recuperação de memória de longo horizonte que envolvem informações fragmentadas, dependentes de contexto e temporalmente distantes. Para resolver isso, introduzimos o *Long-horizon Memory Embedding Benchmark* (LMEB), uma estrutura abrangente que avalia as capacidades dos modelos de embedding no tratamento de tarefas complexas de recuperação de memória de longo horizonte. O LMEB abrange 22 conjuntos de dados e 193 tarefas de recuperação *zero-shot* em 4 tipos de memória: episódica, de diálogo, semântica e procedural, com dados gerados por IA e anotados por humanos. Estes tipos de memória diferem em termos de nível de abstração e dependência temporal, capturando aspetos distintos da recuperação de memória que refletem os diversos desafios do mundo real. Avaliámos 15 modelos de embedding amplamente utilizados, variando de centenas de milhões a dez mil milhões de parâmetros. Os resultados revelam que (1) o LMEB fornece um nível de dificuldade razoável; (2) Modelos maiores nem sempre têm um desempenho superior; (3) O LMEB e o MTEB exibem ortogonalidade. Isto sugere que a área ainda não convergiu para um modelo universal capaz de se destacar em todas as tarefas de recuperação de memória, e que o desempenho na recuperação tradicional de passagens pode não generalizar para a recuperação de memória de longo horizonte. Em resumo, ao fornecer uma estrutura de avaliação padronizada e reproduzível, o LMEB preenche uma lacuna crucial na avaliação de embeddings de memória, impulsionando avanços adicionais nos embeddings de texto para lidar com a recuperação de memória de longo prazo e dependente de contexto. O LMEB está disponível em https://github.com/KaLM-Embedding/LMEB.

Os Modelos Visuais e de Linguagem Podem Resolver o Jogo das Conchas?
Can Vision-Language Models Solve the Shell Game?

Mar 9

ByTiedong Liu, Wee Sun Lee

O rastreamento de entidades visuais é uma capacidade cognitiva inata em humanos, mas continua a ser um gargalo crítico para os Modelos de Linguagem e Visão (VLMs). Este défice é frequentemente mascarado nos benchmarks de vídeo existentes por atalhos visuais. Apresentamos o VET-Bench, um banco de testes de diagnóstico sintético que apresenta objetos visualmente idênticos, tornando necessário o rastreamento exclusivamente através da continuidade espaço-temporal. As nossas experiências revelam que os VLMs mais avançados atuais têm um desempenho ao nível ou próximo do acaso no VET-Bench, expondo uma limitação fundamental: uma excessiva dependência de características estáticas a nível de *frame* e uma incapacidade de manter representações de entidades ao longo do tempo. Fornecemos uma análise teórica que estabelece ligações com o problema de rastreamento de estado, provando que os VLMs baseados em *transformers* de profundidade fixa são fundamentalmente limitados no rastreamento de objetos indistinguíveis sem supervisão intermédia, devido a restrições de expressividade. Para resolver isto, propomos o *Spatiotemporal Grounded Chain-of-Thought* (SGCoT): gerar trajetórias de objetos como estados intermédios explícitos. Aproveitando a capacidade de rastreamento de objetos do Molmo2, suscitamos o raciocínio SGCoT através de *fine-tuning* com dados sintetizados apenas de texto para alinhamento. O nosso método atinge uma precisão state-of-the-art superior a 90% no VET-Bench, demonstrando que os VLMs podem resolver de forma fiável a tarefa do jogo das conchas em vídeo de ponta a ponta, sem ferramentas externas. O nosso código e dados estão disponíveis em https://vetbench.github.io.

OCR Multimodal: Analisar Qualquer Conteúdo de Documentos
Multimodal OCR: Parse Anything from Documents

Mar 13

ByHandong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

Apresentamos o MOCR (OCR Multimodal), um paradigma de análise de documentos que analisa conjuntamente texto e elementos gráficos em representações textuais unificadas. Diferente dos sistemas de OCR convencionais, que se concentram no reconhecimento de texto e deixam regiões gráficas como pixels recortados, nosso método, denominado dots.mocr, trata elementos visuais como gráficos, diagramas, tabelas e ícones como alvos de análise de primeira classe, permitindo que os sistemas analisem documentos preservando as relações semânticas entre os elementos. Ele oferece várias vantagens: (1) reconstrói tanto texto quanto gráficos como saídas estruturadas, permitindo uma reconstrução de documentos mais fiel; (2) suporta treinamento end-to-end sobre elementos documentais heterogêneos, permitindo que os modelos explorem relações semânticas entre componentes textuais e visuais; e (3) converte gráficos anteriormente descartados em supervisão a nível de código reutilizável, desbloqueando a supervisão multimodal embutida em documentos existentes. Para tornar este paradigma prático em escala, construímos um motor de dados abrangente a partir de PDFs, páginas da web renderizadas e recursos SVG nativos, e treinamos um modelo compacto de 3 bilhões de parâmetros por meio de pré-treinamento escalonado e ajuste fino supervisionado. Avaliamos o dots.mocr a partir de duas perspectivas: análise de documentos e análise de gráficos estruturados. Em benchmarks de análise de documentos, ele ocupa o segundo lugar, atrás apenas do Gemini 3 Pro em nosso ranking Elo da OCR Arena, supera os sistemas de análise de documentos open-source existentes e estabelece um novo estado da arte de 83,9 no olmOCR Bench. Na análise de gráficos estruturados, o dots.mocr alcança qualidade de reconstrução superior ao Gemini 3 Pro em benchmarks de imagem-para-SVG, demonstrando alto desempenho em gráficos, layouts de UI, figuras científicas e diagramas químicos. Esses resultados mostram um caminho escalável para a construção de corpora image-to-code em larga escala para pré-treinamento multimodal. O código e os modelos estão publicamente disponíveis em https://github.com/rednote-hilab/dots.mocr.

Cheers: O Desacoplamento de Detalhes de Patch das Representações Semânticas Possibilita uma Compreensão e Geração Multimodal Unificadas
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Mar 13

ByYichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

Um tema recente e de ponta na modelagem multimodal é a unificação da compreensão e da geração visual em um único modelo. No entanto, as duas tarefas exigem regimes de decodificação e representações visuais incompatíveis, tornando não trivial a otimização conjunta em um espaço de características compartilhado. Neste trabalho, apresentamos o Cheers, um modelo multimodal unificado que desacopla detalhes em nível de *patch* das representações semânticas, estabilizando assim a semântica para a compreensão multimodal e melhorando a fidelidade na geração de imagens por meio de resíduos de detalhes com portão (*gated*). O Cheers inclui três componentes principais: (i) um tokenizador visual unificado que codifica e comprime os estados latentes da imagem em *tokens* semânticos para um condicionamento eficiente de LLM, (ii) um Transformer baseado em LLM que unifica a decodagem autoregressiva para geração de texto e a decodagem por difusão para geração de imagem, e (iii) um cabeçalho em cascata de *flow matching* que primeiro decodifica a semântica visual e depois injeta resíduos de detalhes semanticamente controlados (*gated*) do tokenizador visual para refinar o conteúdo de alta frequência. Experimentos em *benchmarks* populares demonstram que o Cheers iguala ou supera UMMs avançados tanto na compreensão quanto na geração visual. O Cheers também alcança uma compressão de *token* 4x, permitindo uma codificação e geração de imagens de alta resolução mais eficientes. Notavelmente, o Cheers supera o Tar-1.5B nos populares *benchmarks* GenEval e MMBench, enquanto requer apenas 20% do custo de treinamento, indicando uma modelagem multimodal unificada eficaz e eficiente (ou seja, compressão de *token* 4x). Liberaremos todo o código e dados para pesquisas futuras.

OmniForcing: Liberando a Geração Conjunta de Áudio e Vídeo em Tempo Real
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Mar 12

ByYaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

Os recentes modelos de difusão áudio-visual conjunta alcançam uma qualidade de geração notável, mas sofrem com alta latência devido às suas dependências de atenção bidirecionais, dificultando aplicações em tempo real. Propomos o OmniForcing, o primeiro framework para destilar um modelo de difusão bidirecional de fluxo duplo offline em um gerador autoregressivo de streaming de alta fidelidade. No entanto, a aplicação ingênua de destilação causal a tais arquiteturas de fluxo duplo desencadeia severa instabilidade de treinamento, devido à extrema assimetria temporal entre modalidades e à resultante esparsidade de tokens. Resolvemos a inerente diferença de densidade de informação introduzindo um Alinhamento Causal Assimétrico em Blocos com um Prefixo Global de truncamento zero que previne o desvio de sincronização multimodal. A explosão de gradiente causada pela extrema esparsidade de tokens de áudio durante a transição causal é adicionalmente resolvida através de um mecanismo de Token de Sumidouro de Áudio equipado com uma restrição Identity RoPE. Finalmente, um paradigma de Destilação Conjunta de Autoforçamento permite que o modelo corrija dinamicamente erros cumulativos cross-modais do viés de exposição durante rollouts longos. Capacitado por um esquema de inferência independente de modalidade com cache KV rolante, o OmniForcing alcança geração de streaming state-of-the-art a ∼25 FPS em uma única GPU, mantendo sincronização multimodal e qualidade visual equivalentes ao professor bidirecional. Página do Projeto: https://omniforcing.com{https://omniforcing.com}

Pensamento em Transmissão de Vídeo: VideoLLMs Podem Assistir e Pensar Simultaneamente
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Mar 12

ByYiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

Os Modelos de Linguagem de Grande Porte para Vídeo Online (VideoLLMs) desempenham um papel crucial no suporte a interações responsivas em tempo real. Os métodos existentes concentram-se na percepção de streaming, carecendo de um fluxo de raciocínio lógico sincronizado. No entanto, a aplicação direta de métodos de escalonamento em tempo de teste incorre em latência de resposta inaceitável. Para resolver este compromisso, propomos o Video Streaming Thinking (VST), um novo paradigma para compreensão de vídeo em streaming. Ele suporta um mecanismo de "pensar enquanto assiste", que ativa o raciocínio sobre clipes de vídeo recebidos durante o streaming. Este projeto melhora a compreensão oportuna e a cognição coerente, preservando a capacidade de resposta em tempo real ao amortizar a latência de raciocínio do LLM durante a reprodução do vídeo. Além disso, introduzimos um pipeline abrangente de pós-treinamento que integra o VST-SFT, que adapta estruturalmente o VideoLLM offline para o raciocínio causal em streaming, e o VST-RL, que fornece melhorias de ponta a ponta por meio da autoexploração em um ambiente de interação de vídeo multirrodada. Adicionalmente, concebemos um pipeline automatizado de síntese de dados de treinamento que utiliza grafos de conhecimento de vídeo para gerar pares de perguntas e respostas (QA) de streaming de alta qualidade, com uma Corrente de Pensamento (Chain-of-Thought) fundamentada em entidades e relações para reforçar o raciocínio baseado em múltiplas evidências e a atenção sustentada ao fluxo de vídeo. Avaliações extensivas mostram que o VST-7B tem um desempenho sólido em benchmarks online, por exemplo, 79,5% no StreamingBench e 59,3% no OVO-Bench. Paralelamente, o VST mantém-se competitivo em benchmarks offline de longa duração ou de raciocínio. Em comparação com o Video-R1, o VST responde 15,7 vezes mais rápido e alcança uma melhoria de +5,4% no VideoHolmes, demonstrando maior eficiência e forte generalização em diversas tarefas de compreensão de vídeo. Código, dados e modelos serão disponibilizados em https://github.com/1ranGuan/VST.

daVinci-Env: Síntese de Ambientes de Engenharia de Software Aberta em Escala
daVinci-Env: Open SWE Environment Synthesis at Scale

Mar 13

ByDayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

O treinamento de agentes capazes em engenharia de software (SWE) exige ambientes executáveis e verificáveis em larga escala que forneçam ciclos de feedback dinâmicos para edição iterativa de código, execução de testes e refinamento de soluções. No entanto, os conjuntos de dados de código aberto existentes permanecem limitados em escala e diversidade de repositórios, enquanto as soluções industriais são opacas com infraestrutura não divulgada, criando uma barreira proibitiva para a maioria dos grupos de pesquisa acadêmica. Apresentamos o OpenSWE, a maior estrutura totalmente transparente para treinamento de agentes SWE em Python, compreendendo 45.320 ambientes Docker executáveis abrangendo mais de 12,8 mil repositórios, com todos os Dockerfiles, scripts de avaliação e infraestrutura totalmente de código aberto para reprodutibilidade. O OpenSWE é construído por meio de um pipeline de síntese multiagente implantado em um cluster distribuído de 64 nós, automatizando a exploração de repositórios, a construção de Dockerfiles, a geração de scripts de avaliação e a análise iterativa de testes. Além da escala, propomos um pipeline de filtragem centrado na qualidade que caracteriza a dificuldade inerente de cada ambiente, filtrando instâncias insolúveis ou insuficientemente desafiadoras e retendo apenas aquelas que maximizam a eficiência de aprendizado. Com US$ 891 mil gastos na construção do ambiente e US$ 576 mil adicionais na amostragem de trajetórias e curadoria com consciência de dificuldade, o projeto inteiro representa um investimento total de aproximadamente US$ 1,47 milhão, produzindo cerca de 13.000 trajetórias curadas de aproximadamente 9.000 ambientes com qualidade garantida. Experimentos extensivos validam a eficácia do OpenSWE: OpenSWE-32B e OpenSWE-72B atingem 62,4% e 66,0% no SWE-bench Verified, estabelecendo o estado da arte (SOTA) entre a série Qwen2.5. Além disso, o treinamento focado em SWE produz melhorias substanciais fora do domínio, incluindo até 12 pontos no raciocínio matemático e 5 pontos em benchmarks científicos, sem degradar a recordação factual.

Visual-ERM: Modelagem de Recompensa para Equivalência Visual
Visual-ERM: Reward Modeling for Visual Equivalence

Mar 13

ByZiyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

As tarefas de visão-para-código exigem que os modelos reconstruam entradas visuais estruturadas, como gráficos, tabelas e SVGs, em representações executáveis ou estruturadas com alta fidelidade visual. Embora os recentes Grandes Modelos de Linguagem Visual (LVLMs) obtenham resultados sólidos por meio de ajuste fino supervisionado, o aprendizado por reforço permanece desafiador devido a sinais de recompensa desalinhados. As recompensas existentes dependem de regras textuais ou de similaridade de incorporação visual grosseira, ambas falhando em capturar discrepâncias visuais refinadas e sendo vulneráveis a manipulação de recompensa. Propomos o Modelo de Recompensa por Equivalência Visual (Visual-ERM), um modelo generativo multimodal de recompensa que fornece feedback refinado, interpretável e independente de tarefa para avaliar a qualidade visão-para-código diretamente no espaço visual renderizado. Integrado ao RL, o Visual-ERM melhora o Qwen3-VL-8B-Instruct em +8,4 em gráfico-para-código e produz ganhos consistentes na análise de tabelas e SVGs (+2,7, +4,1 em média), e ainda fortalece a escala em tempo de teste por meio de reflexão e revisão. Também introduzimos o VisualCritic-RewardBench (VC-RewardBench), um benchmark para julgar discrepanças refinadas de imagem-para-imagem em dados visuais estruturados, onde o Visual-ERM de 8B supera decisivamente o Qwen3-VL-235B-Instruct e se aproxima dos principais modelos proprietários. Nossos resultados sugerem que a supervisão de recompensa visual refinada é necessária e suficiente para RL em visão-para-código, independentemente da especificidade da tarefa.

MM-CondChain: Um Benchmark Programaticamente Verificado para Raciocínio Composicional Profundo com Base Visual
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Mar 12

ByHaozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) são cada vez mais utilizados para executar fluxos de trabalho visuais, como a navegação em interfaces gráficas de utilizador (GUIs), onde o próximo passo depende de condições composicionais visuais verificadas (por exemplo, "se aparecer uma caixa de diálogo de permissão e a cor da interface for verde, clique em Permitir") e o processo pode ramificar-se ou terminar antecipadamente. No entanto, esta capacidade permanece subavaliada: os *benchmarks* existentes focam-se em composições superficiais ou em restrições independentes, em vez de em condicionais composicionais profundamente encadeadas. Neste artigo, apresentamos o MM-CondChain, um *benchmark* para raciocínio composicional profundo com base visual. Cada instância do *benchmark* está organizada como uma cadeia de raciocínio de múltiplas camadas, onde cada camada contém uma condição composicional não trivial, fundamentada em evidências visuais e construída a partir de múltiplos objetos, atributos ou relações. Para responder corretamente, um MLLM deve perceber a imagem em detalhe, raciocinar sobre múltiplos elementos visuais em cada passo e seguir o caminho de execução resultante até ao resultado final. Para construir de forma escalável estes dados de estilo de fluxo de trabalho, propomos um *pipeline* de síntese agentico: um Planeador (*Planner*) orquestra a geração camada-a-camada de condições composicionais, enquanto uma Representação Intermediária Programática Verificável (RIPV) garante que a condição de cada camada é mecanicamente verificável. Um Compositor (*Composer*) monta então estas camadas verificadas em instruções completas. Utilizando este *pipeline*, construímos *benchmarks* em três domínios visuais: imagens naturais, gráficos de dados e trajetórias de GUI. Experiências com uma variedade de MLLMs mostram que mesmo o modelo mais forte atinge apenas 53.33 de F1 de Caminho (*Path F1*), com quedas acentuadas em negativos difíceis e à medida que a profundidade ou a complexidade dos predicados aumenta, confirmando que o raciocínio composicional profundo permanece um desafio fundamental.

Gaste Menos, Raciocine Melhor: Busca em Árvore de Valor Consciente do Orçamento para Agentes de LLM
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Mar 13

ByYushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li

A escalagem durante o teste tornou-se um paradigma dominante para melhorar a confiabilidade de agentes de LLM, no entanto, as abordagens atuais tratam o poder computacional como um recurso abundante, permitindo que os agentes esgotem os orçamentos de tokens e ferramentas em etapas redundantes ou trajetórias sem saída. Os métodos existentes com consciência orçamentária exigem ou um *fine-tuning* dispendioso ou dependem de heurísticas grosseiras a nível de trajetória, incapazes de intervir durante a execução. Propomos a Árvore de Valor com Consciência Orçamentária (BAVT), uma estrutura de inferência em tempo de execução, livre de treinamento, que modela o raciocínio multi-etapa como uma árvore de busca dinâmica orientada por estimativa de valor a nível de etapa dentro de um único *backbone* de LLM. Outra inovação fundamental é um mecanismo de seleção de nós condicionado ao orçamento, que utiliza a razão de recursos restantes como um expoente de escalagem natural sobre os valores dos nós, proporcionando uma transição fundamentada e livre de parâmetros de uma exploração ampla para uma exploração gananciosa à medida que o orçamento se esgota. Para combater a conhecida superconfiança da autoavaliação de LLMs, o BAVT emprega um preditor de valor residual que pontua o progresso relativo em vez da qualidade absoluta do estado, permitindo a poda confiável de chamadas de ferramentas não informativas ou redundantes. Adicionalmente, fornecemos uma garantia teórica de convergência, provando que o BAVT atinge uma resposta terminal com probabilidade de pelo menos 1-ε sob um limite orçamental finito e explícito. Avaliações extensas em quatro *benchmarks* de QA multi-etapa em duas famílias de modelos demonstram que o BAVT supera consistentemente as linhas de base de amostragem paralela. Mais notavelmente, o BAVT sob restrições rigorosas de baixo orçamento supera o desempenho da linha de base com uma alocação de recursos 4 vezes maior, estabelecendo que a gestão inteligente do orçamento supera fundamentalmente a escalagem computacional por força bruta.

EvoScientist: Rumo a Cientistas de IA Evolutivos Multiagentes para a Descoberta Científica de Ponta a Ponta
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Mar 9

ByYougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan

A crescente adoção de Modelos de Linguagem de Grande Porte (LLMs) tem permitido que cientistas de IA realizem tarefas complexas de descoberta científica de ponta a ponta, que exigem a coordenação de funções especializadas, incluindo geração de ideias e execução experimental. No entanto, a maioria dos sistemas state-of-the-art de cientistas de IA depende de pipelines estáticos e projetados manualmente, falhando em se adaptar com base em históricos de interação acumulados. Como resultado, esses sistemas negligenciam direções de pesquisa promissoras, repetem experimentos fracassados e perseguem ideias inviáveis. Para resolver isso, apresentamos o EvoScientist, uma estrutura evolutiva de cientista de IA multiagente que melhora continuamente as estratégias de pesquisa por meio de memória persistente e auto-evolução. O EvoScientist compreende três agentes especializados: um Agente Pesquisador (RA) para geração de ideias científicas, um Agente Engenheiro (EA) para implementação e execução de experimentos, e um Agente Gestor de Evolução (EMA) que destila insights de interações anteriores em conhecimento reutilizável. O EvoScientist contém dois módulos de memória persistente: (i) uma memória de ideação, que resume direções de pesquisa viáveis a partir das ideias mais bem classificadas, registrando ao mesmo tempo direções previamente mal-sucedidas; e (ii) uma memória de experimentação, que captura estratégias eficazes de processamento de dados e treinamento de modelos derivadas de trajetórias de busca de código e implementações de melhor desempenho. Esses módulos permitem que o RA e o EA recuperem estratégias prévias relevantes, melhorando a qualidade das ideias e as taxas de sucesso na execução de código ao longo do tempo. Experimentos mostram que o EvoScientist supera 7 sistemas state-of-the-art de código aberto e comerciais na geração de ideias científicas, alcançando maior novidade, viabilidade, relevância e clareza por meio de avaliação automática e humana. O EvoScientist também melhora substancialmente as taxas de sucesso na execução de código por meio da evolução multiagente, demonstrando a eficácia da memória persistente para a descoberta científica de ponta a ponta.

Do Esparso ao Denso: GRPO Multi-Visão para Modelos de Fluxo via Espaço de Condições Aumentado
From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Mar 13

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin

O Group Relative Policy Optimization (GRPO) emergiu como uma estrutura poderosa para o alinhamento de preferências em modelos de fluxo texto-imagem (T2I). No entanto, observamos que o paradigma padrão, que avalia um grupo de amostras geradas em relação a uma única condição, sofre de uma exploração insuficiente das relações inter-amostras, limitando tanto a eficácia do alinhamento quanto os tetos de desempenho. Para abordar este esquema esparso de avaliação de visão única, propomos o Multi-View GRPO (MV-GRPO), uma nova abordagem que melhora a exploração de relações através do aumento do espaço de condições para criar um mapeamento de recompensa denso e multi-vista. Especificamente, para um grupo de amostras geradas a partir de um *prompt*, o MV-GRPO aproveita um **Condition Enhancer** (Potencializador de Condição) flexível para gerar legendas semanticamente adjacentes, porém diversas. Estas legendas permitem uma reestimação multi-vista da vantagem, capturando diversos atributos semânticos e fornecendo sinais de otimização mais ricos. Ao derivar a distribuição de probabilidade das amostras originais condicionadas a estas novas legendas, podemos incorporá-las no processo de treinamento sem a necessidade de uma custosa regeneração de amostras. Experimentos extensivos demonstram que o MV-GRPO alcança um desempenho de alinhamento superior aos métodos state-of-the-art.

V-Bridge: Conectando Prioridades Geradoras de Vídeo à Restauração Versátil de Imagens com Poucos Exemplos
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Mar 13

ByShenghe Zheng, Junpeng Jiang, Wenbo Li

Os modelos generativos de vídeo em larga escala são treinados com vastos e diversificados dados visuais, permitindo-lhes internalizar ricos pré-conhecimentos estruturais, semânticos e dinâmicos do mundo visual. Embora esses modelos tenham demonstrado capacidade generativa impressionante, seu potencial como aprendizes visuais de propósito geral permanece amplamente inexplorado. Neste trabalho, apresentamos o V-Bridge, uma estrutura que conecta essa capacidade latente a tarefas versáteis de restauração de imagem com poucos exemplos. Reinterpretamos a restauração de imagem não como um problema de regressão estática, mas como um processo generativo progressivo, e aproveitamos os modelos de vídeo para simular o refinamento gradual de entradas degradadas para saídas de alta fidelidade. Surpreendentemente, com apenas 1.000 amostras de treinamento multitarefa (menos de 2% dos métodos de restauração existentes), modelos de vídeo pré-treinados podem ser induzidos a realizar restauração competitiva de imagens, alcançando múltiplas tarefas com um único modelo, rivalizando com arquiteturas especializadas projetadas explicitamente para esse fim. Nossas descobertas revelam que modelos generativos de vídeo aprendem implicitamente poderosos pré-conhecimentos de restauração transferíveis que podem ser ativados com dados extremamente limitados, desafiando o limite tradicional entre modelagem generativa e visão de baixo nível, e abrindo um novo paradigma de projeto para modelos de base em tarefas visuais.

HomeSafe-Bench: Avaliação de Modelos Visão-Linguagem na Detecção de Ações Inseguras para Agentes Incorporados em Cenários Domésticos
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Mar 12

ByJiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

A rápida evolução de agentes corporificados acelerou a implantação de robôs domésticos em ambientes do mundo real. No entanto, ao contrário de ambientes industriais estruturados, os espaços domésticos introduzem riscos de segurança imprevisíveis, onde limitações do sistema, como latência de percepção e falta de conhecimento de senso comum, podem levar a erros perigosos. As avaliações de segurança atuais, frequentemente restritas a imagens estáticas, texto ou perigos genéricos, não conseguem avaliar adequadamente a detecção dinâmica de ações inseguras nesses contextos específicos. Para preencher essa lacuna, apresentamos o HomeSafe-Bench, um benchmark desafiador projetado para avaliar Modelos de Visão e Linguagem (VLMs) na detecção de ações inseguras em cenários domésticos. O HomeSafe-Bench é construído por meio de um pipeline híbrido que combina simulação física com geração avançada de vídeo e apresenta 438 casos diversos em seis áreas funcionais com anotações multidimensionais de granularidade fina. Além da avaliação comparativa, propomos o Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), uma arquitetura de streaming hierárquica para monitoramento de segurança em tempo real. O HD-Guard coordena um "Cérebro Rápido" leve para triagem contínua de alta frequência com um "Cérebro Lento" de grande escala assíncrono para raciocínio multimodal profundo, equilibrando eficazmente a eficiência de inferência com a precisão de detecção. As avaliações demonstram que o HD-Guard alcança um equilíbrio superior entre latência e desempenho, enquanto nossa análise identifica gargalos críticos na detecção de segurança atual baseada em VLMs.

HybridStitch: Costura de Modelos em Nível de Pixel e Timestep para Aceleração de Difusão
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Mar 8

ByDesen Sun, Jason Hon, Jintao Zhang, Sihang Liu

Os modelos de difusão demonstraram uma capacidade notável em aplicações de geração de texto para imagem (T2I). Apesar dos resultados avançados de geração, eles sofrem com uma sobrecarga computacional significativa, especialmente para modelos grandes que contêm dezenas de bilhões de parâmetros. Trabalhos anteriores ilustraram que substituir parte das etapas de remoção de ruído por um modelo menor ainda mantém a qualidade da geração. No entanto, esses métodos focam apenas em economizar computação para alguns intervalos de tempo, ignorando a diferença na demanda computacional dentro de um único intervalo. Neste trabalho, propomos o HybridStitch, um novo paradigma de geração T2I que trata a geração como edição. Especificamente, introduzimos um estágio híbrido que incorpora conjuntamente tanto o modelo grande quanto o modelo pequeno. O HybridStitch separa a imagem inteira em duas regiões: uma que é relativamente fácil de renderizar, permitindo uma transição antecipada para o modelo menor, e outra que é mais complexa e, portanto, requer refinamento pelo modelo grande. O HybridStitch emprega o modelo pequeno para construir um esboço grosso enquanto explora o modelo grande para editar e refinar as regiões complexas. De acordo com nossa avaliação, o HybridStitch alcança uma aceleração de 1,83 vezes no Stable Diffusion 3, sendo mais rápido que todos os métodos existentes de mistura de modelos.

Pense Enquanto Assistir: Memória em Nível de Segmento para Streaming Online em Raciocínio Multiturno com Vídeos em Modelos de Linguagem Multimodais Grandes
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Mar 12

ByLu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

Os modelos de linguagem grandes multimodais (MLLMs) demonstraram forte desempenho na compreensão de vídeos offline, mas a maioria está limitada à inferência offline ou possui raciocínio online fraco, dificultando a interação multiturno sobre fluxos de vídeo em contínua chegada. Os métodos de streaming existentes normalmente usam um paradigma intercalado de percepção-geração, que impede a percepção e geração concorrentes e leva à decadência precoce da memória à medida que os fluxos crescem, prejudicando a modelagem de dependências de longo alcance. Propomos o Think While Watching, uma estrutura de raciocínio de vídeo em streaming ancorada na memória que preserva memória contínua a nível de segmento durante a interação multiturno. Construímos um conjunto de dados de cadeia de pensamento em três estágios e múltiplas rondas e adotamos uma estratégia de treinamento com estágios correspondentes, enquanto aplicamos causalidade estrita através de uma máscara causal de streaming a nível de segmento e codificação posicional de streaming. Durante a inferência, introduzimos um pipeline eficiente que sobrepõe a observação e o pensamento e seleciona adaptativamente o melhor backend de atenção. Tanto sob protocolos de entrada de streaming de rodada única quanto multiturno, nosso método alcança resultados sólidos. Construído sobre o Qwen3-VL, ele melhora a precisão de rodada única em 2,6% no StreamingBench e em 3,79% no OVO-Bench. No cenário multiturno, mantém o desempenho enquanto reduz os tokens de saída em 56%. O código está disponível em: https://github.com/wl666hhh/Think_While_Watching/

VQQA: Uma Abordagem Agente para Avaliação de Vídeo e Melhoria de Qualidade
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Mar 12

ByYiwen Song, Tomas Pfister, Yale Song

Apesar dos rápidos avanços nos modelos de geração de vídeo, o alinhamento das suas saídas com a intenção complexa do utilizador continua a ser um desafio. Os métodos de otimização em tempo de teste existentes são tipicamente computacionalmente dispendiosos ou requerem acesso de "caixa branca" aos componentes internos do modelo. Para resolver isto, apresentamos o VQQA (Video Quality Question Answering), um quadro unificado e multiagente, generalizável em diversas modalidades de entrada e tarefas de geração de vídeo. Ao gerar dinamicamente questões visuais e utilizar as respetivas críticas de Modelos de Visão e Linguagem (VLM) como gradientes semânticos, o VQQA substitui as métricas de avaliação passivas tradicionais por *feedback* acionável e interpretável por humanos. Isto permite um processo de otimização de *prompts* de ciclo fechado altamente eficiente através de uma interface de linguagem natural de "caixa negra". Experiências extensivas demonstram que o VQQA isola e resolve eficazmente artefactos visuais, melhorando substancialmente a qualidade da geração em apenas alguns passos de refinamento. Aplicável tanto a tarefas de texto-para-vídeo (T2V) como de imagem-para-vídeo (I2V), o nosso método alcança melhorias absolutas de +11,57% no T2V-CompBench e +8,43% no VBench2 em relação à geração padrão, superando significativamente as técnicas de otimização de *prompts* e de busca estocástica de última geração.

LookaheadKV: Evicção Rápida e Precisa do Cache KV ao Vislumbrar o Futuro sem Geração
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Mar 11

ByJinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon

Os grandes modelos de linguagem (LLMs) baseados em arquitetura Transformer dependem do cache de chave-valor (KV) para evitar computação redundante durante a inferência autoregressiva. Embora este mecanismo melhore significativamente a eficiência, o tamanho do cache cresce linearmente com o comprimento da sequência de entrada, tornando-se rapidamente um gargalo para tarefas de contexto longo. As soluções existentes mitigam este problema removendo (evicting) os pares KV do prompt considerados irrelevantes, guiadas por escores de importância estimados. Notavelmente, uma linha recente de trabalho propõe melhorar a qualidade da remoção "espreitando o futuro", na qual um gerador de rascunho produz uma resposta futura substituta que aproxima a resposta real do modelo alvo, e este substituto é subsequentemente usado para estimar a importância dos pares KV em cache com maior precisão. No entanto, estas abordagens dependem de uma geração de rascunho computacionalmente custosa, que introduz uma sobrecarga substancial no preenchimento prévio (prefilling) e limita sua praticidade em implantações do mundo real. Para enfrentar este desafio, propomos o LookaheadKV, um framework leve de remoção que aproveita a vantagem da resposta futura substituta sem exigir a geração explícita de um rascunho. O LookaheadKV aumenta as camadas do transformer com módulos de eficiência de parâmetros (parameter-efficient) treinados para prever os escores de importância reais com alta precisão. Nosso projeto garante uma sobrecarga de tempo de execução negligenciável, comparável a heurísticas baratas existentes, enquanto alcança uma precisão superior a métodos de aproximação mais custosos. Extensivos experimentos em benchmarks de compreensão de contexto longo, através de uma ampla gama de modelos, demonstram que nosso método não apenas supera bases de comparação (baselines) competitivas recentes em várias tarefas de compreensão de contexto longo, mas também reduz o custo da remoção em até 14,5 vezes, resultando em um tempo para o primeiro token (time-to-first-token) significativamente mais rápido. Nosso código está disponível em https://github.com/SamsungLabs/LookaheadKV.

CreativeBench: Avaliação e Aprimoramento da Criatividade de Máquinas por meio de Desafios de Auto-evolução
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Mar 12

ByZi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

A saturação de dados de pré-treinamento de alta qualidade deslocou o foco da pesquisa para sistemas evolutivos capazes de gerar continuamente artefactos novos, levando ao sucesso do AlphaEvolve. No entanto, o progresso destes sistemas é limitado pela falta de uma avaliação rigorosa e quantitativa. Para enfrentar este desafio, introduzimos o CreativeBench, um *benchmark* para avaliar a criatividade das máquinas na geração de código, baseado num quadro cognitivo clássico. Composto por dois subconjuntos – CreativeBench-Combo e CreativeBench-Explore – o *benchmark* tem como alvo a criatividade combinatória e exploratória através de um *pipeline* automatizado que utiliza engenharia reversa e *self-play*. Ao alavancar código executável, o CreativeBench distingue objetivamente a criatividade da alucinação através de uma métrica unificada, definida como o produto da qualidade e da novidade. A nossa análise dos modelos mais avançados revela comportamentos distintos: (1) a escalabilidade melhora significativamente a criatividade combinatória, mas produz retornos decrescentes na exploração; (2) modelos maiores exibem "convergência por escalabilidade", tornando-se mais corretos, mas menos divergentes; e (3) as capacidades de raciocínio beneficiam principalmente a exploração restrita, e não a combinação. Por fim, propomos o EvoRePE, uma estratégia de orientação *plug-and-play* durante a inferência que internaliza padrões de busca evolutiva para melhorar consistentemente a criatividade das máquinas.

Steve-Evolving: Auto-evolução Corporificada em Mundo Aberto via Diagnóstico de Granulação Fina e Destilação Dual de Conhecimento
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Mar 13

ByZhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang

Os agentes incorporados em mundos abertos devem resolver tarefas de longo horizonte, onde o principal gargalo não é a qualidade do planeamento passo a passo, mas sim a forma como a experiência de interação é organizada e evolui. Para tal, apresentamos o Steve-Evolving, uma estrutura não paramétrica de auto-evolução que acopla estreitamente o diagnóstico de execução granular com a destilação dual de conhecimento num ciclo fechado. O método segue três fases: Ancoragem da Experiência, Destilação da Experiência e Controlo de Ciclo Fechado Orientado por Conhecimento. Em detalhe, a Ancoragem da Experiência solidifica cada tentativa de subobjetivo num tuplo de experiência estruturado com um esquema fixo (pré-estado, ação, diagnóstico-resultado e pós-estado) e organiza-o num espaço de experiência de três níveis com índices multidimensionais (por exemplo, assinaturas de condição, hashing espacial e etiquetas semânticas) mais sumarização contínua para uma recuperação eficiente e auditável. Para garantir densidade de informação suficiente para atribuição, a camada de execução fornece sinais de diagnóstico composicionais para além de resultados binários, incluindo resumos de diferenças de estado, causas de falha enumeradas, indicadores contínuos e deteção de estagnação/ciclo. Além disso, trajetórias bem-sucedidas da Destilação da Experiência são generalizadas em competências reutilizáveis com pré-condições explícitas e critérios de verificação, enquanto os fracassos são destilados em guardrails executáveis que capturam causas-raiz e proíbem operações de risco tanto a nível de subobjetivo como de tarefa. Adicionalmente, no Controlo de Ciclo Fechado Orientado por Conhecimento, as competências e guardrails recuperados são injetados num planeador baseado em LLM, e o replaneamento local acionado por diagnóstico atualiza as restrições ativas online, formando um processo de evolução contínua sem qualquer atualização de parâmetros do modelo. Experiências na suíte de longo horizonte do Minecraft MCU demonstram melhorias consistentes face a linhas de base de recuperação estática.

Atalhos para VQA Categórico Usando Super Neurônios
Taking Shortcuts for Categorical VQA Using Super Neurons

Mar 11

ByPierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park

Os Vetores de Atenção Esparsa (SAVs) emergiram como uma excelente alternativa livre de treinamento à adaptação supervisionada por fine-tuning ou de baixo rank para melhorar o desempenho de Modelos de Linguagem de Visão (VLMs). Em sua essência, os SAVs selecionam alguns cabeçalhos de atenção precisos para uma tarefa de interesse e os usam como classificadores, em vez de confiar na previsão do modelo. Em um espírito similar, descobrimos que sondar diretamente as ativações brutas do VLM, na forma de valores escalares, é suficiente para produzir classificadores precisos em diversas tarefas downstream visualmente fundamentadas. Mudar o foco dos vetores de atenção para as ativações escalares aumenta drasticamente o espaço de busca por parâmetros precisos, permitindo-nos encontrar neurônios mais discriminativos imediatamente a partir do primeiro token gerado. Chamamos essas ativações de Super Neurônios (SNs). Neste cenário de sondagem, descobrimos que SNs suficientes aparecem nas camadas mais superficiais do grande modelo de linguagem para permitir uma saída extrema antecipada, a partir da primeira camada do modelo no primeiro token gerado. Em comparação com a rede original, os SNs melhoram robustamente o desempenho de classificação enquanto alcançam uma aceleração de até 5,10x.

NanoVDR: Destilando um Recuperador Visuo-Linguístico de 2B em um Codificador de Apenas Texto de 70M para Recuperação Visual de Documentos
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Mar 13

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

Os recuperadores baseados em Modelos de Visão e Linguagem (VLM) levaram a recuperação de documentos visuais (VDR) a uma qualidade impressionante. Eles exigem o mesmo codificador de bilhões de parâmetros tanto para a indexação de documentos quanto para a codificação de consultas, incorrendo em alta latência e dependência de GPU, mesmo para consultas de texto simples. Observamos que este projeto é desnecessariamente simétrico: os documentos são visualmente complexos e exigem uma forte compreensão visual, enquanto as consultas são apenas cadeias de texto curtas. O NanoVDR explora essa assimetria consulta-documento ao desacoplar os dois caminhos de codificação: um professor VLM congelado de 2B indexa documentos offline, enquanto um estudante destilado de apenas texto, com apenas 69M de parâmetros, codifica as consultas na inferência. A escolha de projeto chave é o objetivo de destilação. Através de uma comparação sistemática de seis objetivos em três *backbones* e 22 conjuntos de dados de benchmark do ViDoRe, descobrimos que o alinhamento cosseno pontual no texto da consulta supera consistentemente alternativas baseadas em classificação e contrastantes, enquanto requer apenas *embeddings* de consulta do professor pré-armazenados em cache e nenhum processamento de documentos durante o treinamento. Além disso, identificamos a transferência cross-lingual como o principal gargalo de desempenho e a resolvemos de forma barata, aumentando os dados de treinamento com consultas traduzidas automaticamente. O NanoVDR-S-Multi resultante (DistilBERT, 69M) retém 95,1% da qualidade do professor e supera o DSE-Qwen2 (2B) nas versões v2 e v3 com 32 vezes menos parâmetros e 50 vezes menor latência de consulta em CPU, a um custo total de treinamento inferior a 13 horas de GPU.

SimRecon: Reconstrução Composicional de Cenas SimReady a Partir de Vídeos Reais
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Mar 2

ByChong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

A reconstrução composicional de cenas busca criar representações centradas em objetos, em vez de cenas holísticas, a partir de vídeos do mundo real, sendo naturalmente aplicável para simulação e interação. As abordagens convencionais de reconstrução composicional enfatizam principalmente a aparência visual e demonstram capacidade limitada de generalização para cenários do mundo real. Neste artigo, propomos o SimRecon, uma estrutura que realiza um pipeline "Percepção-Geração-Simulação" para a reconstrução de cenas desordenadas, que primeiro realiza a reconstrução semântica em nível de cena a partir da entrada de vídeo, depois executa a geração de objetos individuais e, finalmente, monta esses ativos no simulador. No entanto, combinar ingenuamente essas três etapas leva à infidelidade visual dos ativos gerados e à implausibilidade física da cena final, um problema particularmente grave para cenas complexas. Assim, propomos ainda dois módulos de ligação entre as três etapas para resolver esse problema. Especificamente, para a transição da Percepção para a Geração, crítica para a fidelidade visual, introduzimos a Optimização Ativa do Ponto de Vista, que procura ativamente no espaço 3D para adquirir imagens projetadas ótimas como condições para a conclusão de objetos individuais. Além disso, para a transição da Geração para a Simulação, essencial para a plausibilidade física, propomos um Sintetizador de Grafo de Cena, que orienta a construção do zero em simuladores 3D, espelhando o princípio construtivo nativo do mundo real. Experimentos extensivos no conjunto de dados ScanNet validam o desempenho superior do nosso método em relação às abordagens state-of-the-art anteriores.

A Compressão Favorece a Consistência, Não a Verdade: Quando e Por Que os Modelos de Linguagem Preferem Informações Corretas
Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Mar 12

ByKonstantin Krestnikov

Por que os modelos de linguagem às vezes preferem afirmações corretas mesmo quando treinados com dados de qualidade mista? Apresentamos o Princípio da Compressão-Consistência: a previsão do próximo token favorece hipóteses que permitem descrições mais curtas e internamente consistentes dos dados de treinamento. O viés pela verdade emerge apenas quando as alternativas falsas são estruturalmente mais difíceis de comprimir. Testamos isso usando pequenos transformadores de nível de caractere no estilo GPT-2 (3,5M–86M de parâmetros) em corpora sintéticos de matemática com misturas controladas de regras corretas e incorretas. No cenário de erro aleatório, os modelos preferem fortemente as conclusões corretas na avaliação pareada: 83,1% de precisão com dados balanceados e 67,0% mesmo quando as regras corretas aparecem em apenas 10% do corpus. Substituir erros aleatórios por um sistema de regras coerente, mas matematicamente incorreto, elimina amplamente a preferência (precisão próxima ao acaso). Em um mundo sintético mais parecido com linguagem natural, o efeito é mais fraco, mas ainda presente (57,7%). Experimentos adicionais mostram que a incorporação de etapas de verificação pode restaurar a preferência pela correção mesmo em pequena escala, enquanto aumentar o número de regras consistentes produz uma melhoria gradual na precisão. Nossos resultados sugerem que o que aparece como um "viés pela verdade" é em grande parte um efeito colateral da pressão de compressão e da preferência por consistência interna, e não uma busca intrínseca pela verdade. O código completo e os dados estão disponíveis em https://github.com/Rai220/compression-drives-truth.

A Justiça Pode Ser Estimulada? Estratégias de Mitigação de Viés Baseadas em Prompts em Recomendações de Alto Impacto
Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

Mar 13

ByMihaela Rotar, Theresia Veronika Rampisela, Maria Maistro

Os Grandes Modelos de Linguagem (LLMs) podem inferir atributos sensíveis, como género ou idade, a partir de pistas indiretas como nomes e pronomes, potencialmente enviesando recomendações. Embora existam vários métodos de mitigação de enviesamento, estes requerem acesso aos pesos dos LLMs, são computacionalmente dispendiosos e não podem ser utilizados por utilizadores leigos. Para colmatar esta lacuna, investigamos os enviesamentos implícitos em Sistemas de Recomendação baseados em LLMs (LLMRecs) e exploramos se estratégias baseadas em *prompts* podem servir como uma abordagem de mitigação de enviesamento leve e de fácil utilização. Contribuímos com três estratégias de *prompting* conscientes do enviesamento para LLMRecs. Até onde sabemos, este é o primeiro estudo sobre abordagens de mitigação de enviesamento baseadas em *prompts* em LLMRecs que se foca na equidade grupal para os utilizadores. As nossas experiências com 3 LLMs, 4 modelos de *prompt*, 9 valores de atributos sensíveis e 2 conjuntos de dados mostram que a nossa abordagem de mitigação proposta, que instrui um LLM a ser justo, pode melhorar a equidade em até 74%, mantendo uma eficácia comparável, mas pode, nalguns casos, promover excessivamente grupos demográficos específicos.

Surpreendido pela Atenção: Dinâmica Previsível de Consultas para Detecção de Anomalias em Séries Temporais
Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection

Mar 13

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

As anomalias em séries temporais multivariadas frequentemente se manifestam como mudanças nas dependências entre canais, em vez de simples desvios de amplitude. Na condução autónoma, por exemplo, um comando de direção pode ser internamente consistente, mas dissociar-se da aceleração lateral resultante. Os detetores baseados em resíduos podem falhar tais anomalias quando modelos flexíveis de sequência ainda reconstroem os sinais de forma plausível, apesar da coordenação alterada. Apresentamos o AxonAD, um detetor não supervisionado que trata a evolução das queries de atenção multi-head como um processo previsível de curto prazo. Um caminho de reconstrução atualizado por gradiente é acoplado a um preditor baseado apenas no histórico, que prevê vetores de query futuros a partir do contexto passado. Este é treinado através de um objetivo de predição mascarada contra um codificador de destino de média móvel exponencial (EMA). Na inferência, o erro de reconstrução é combinado com uma pontuação de discrepância de queries agregada em cauda, que mede o desvio de cosseno entre as queries previstas e as alvo em intervalos recentes. Esta abordagem dupla fornece sensibilidade a mudanças estruturais de dependência, mantendo a deteção a nível de amplitude. Em telemetria proprietária de veículos com anotações de intervalo e no conjunto multi-variado TSB-AD (17 conjuntos de dados, 180 séries) com métricas livres de limiar e conscientes do intervalo, o AxonAD melhora a qualidade de ordenação e a localização temporal em relação a linhas de base robustas. Ablações confirmam que a predição de queries e a pontuação combinada são os principais impulsionadores dos ganhos observados. O código está disponível no URL https://github.com/iis-esslingen/AxonAD.

ECoLAD: Avaliação Orientada à Implantação para Detecção de Anomalias em Séries Temporais Automotivas
ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Mar 11

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Os detectores de anomalias em séries temporais são comumente comparados em hardware de classe workstation sob execução sem restrições. No entanto, a monitorização em veículos exige latência previsível e comportamento estável com paralelismo de CPU limitado. Os rankings baseados apenas em precisão podem, portanto, deturpar quais métodos permanecem viáveis sob restrições relevantes para a implantação. Apresentamos o ECoLAD (Efficiency Compute Ladder for Anomaly Detection), um protocolo de avaliação orientado para a implantação, instanciado como um estudo empírico sobre telemetria automóvel proprietária (taxa de anomalias ≈0,022) e benchmarks públicos complementares. O ECoLAD aplica uma escada monotónica de redução de computação em famílias de detectores heterogéneas, utilizando regras de escala mecanicamente determinadas, com apenas números inteiros, e limites explícitos de threads da CPU, registando todas as alterações de configuração aplicadas. O comportamento com restrições de débito é caracterizado pela varredura de taxas de pontuação-alvo e pelo relatório (i) da cobertura (a fração de entidades que atingem o objetivo) e (ii) do melhor AUC-PR alcançável entre as configurações da escada medidas que satisfazem o objetivo. Na telemetria automóvel restrita, detectores clássicos leves mantêm tanto a cobertura como a melhoria na deteção acima da linha de base aleatória em toda a varredura de débito. Vários métodos profundos perdem viabilidade antes de perderem precisão.

SDF-Net: Aprendizado de Características Desembaraçadas com Consciência Estrutural para Reidentificação de Embarcações Óptico-SAR
SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

Mar 13

ByFurui Chen, Han Wang, Yuhan Sun, Jianing You, Yixuan Lv, Zhuang Zhou, Hong Tan, Shengyang Li

A reidentificação multimodal de navios (ReID) entre imagens ópticas e de radar de abertura sintética (SAR) é fundamentalmente desafiada pela severa discrepância radiométrica entre a imagem óptica passiva e o sensoriamento ativo coerente por radar. Embora as abordagens existentes dependam principalmente do alinhamento de distribuições estatísticas ou do correspondência semântica, elas frequentemente negligenciam um prior físico crítico: os navios são objetos rígidos cujas estruturas geométricas permanecem estáveis entre as modalidades de sensoriamento, enquanto a aparência da textura é altamente dependente da modalidade. Neste trabalho, propomos a SDF-Net, uma Rede de Aprendizado de Características Desacopladas com Consciência Estrutural que incorpora sistematicamente a consistência geométrica na ReID óptico-SAR de navios. Construída sobre uma backbone ViT, a SDF-Net introduz uma restrição de consistência estrutural que extrai estatísticas de energia de gradiente invariantes à escala a partir de camadas intermediárias para ancorar robustamente as representações contra variações radiométricas. Na fase terminal, a SDF-Net desacopla as representações aprendidas em características de identidade invariantes à modalidade e características específicas da modalidade. Essas pistas decopladas são então integradas por meio de uma fusão residual aditiva livre de parâmetros, aumentando efetivamente o poder discriminativo. Experimentos extensivos no conjunto de dados HOSS-ReID demonstram que a SDF-Net supera consistentemente os métodos state-of-the-art existentes. O código e os modelos treinados estão publicamente disponíveis em https://github.com/cfrfree/SDF-Net.

Você Vê Para Onde Estou Apontando? Perguntas e Respostas em Vídeo Egocêntrico Baseadas em Gestos
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Mar 13

ByYura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

Compreender e responder a perguntas com base no gesto de apontar de um utilizador é essencial para os assistentes de IA egocêntricos de próxima geração. No entanto, os atuais Modelos de Linguagem de Grande Escala Multimodais (MLLMs) têm dificuldades com essas tarefas devido à falta de dados ricos em gestos e à sua capacidade limitada de inferir intenções de apontar de granularidade fina a partir de vídeo egocêntrico. Para resolver isso, apresentamos o EgoPointVQA, um conjunto de dados e benchmark para resposta a perguntas egocêntricas fundamentadas em gestos, composto por 4000 vídeos sintéticos e 400 vídeos do mundo real, abrangendo múltiplas tarefas de raciocínio déitico. Com base nele, propomos ainda os Tokens de Intenção da Mão (HINT), que codificam *tokens* derivados de pontos-chave 3D da mão usando um modelo de reconstrução disponível e os intercalam com a entrada do modelo para fornecer contexto espacial e temporal explícito para interpretar a intenção de apontar. Mostramos que o nosso modelo supera outros em diferentes arquiteturas base e tamanhos de modelo. Em particular, o HINT-14B atinge 68,1% de precisão, em média, nas 6 tarefas, superando o estado da arte, InternVL3-14B, em 6,6%. Para facilitar ainda mais a investigação aberta, disponibilizaremos o código, o modelo e o conjunto de dados. Página do projeto: https://yuuraa.github.io/papers/choi2026egovqa

Recuperaçăo de Movimento de Alta Granularidade via Imagens de Movimento de Ângulo Articular e Interaçăo Tardia Token-Patch
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Mar 10

ByYao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

A recuperação texto-movimento tem como objetivo aprender um espaço latente semanticamente alinhado entre descrições em linguagem natural e sequências de esqueletos de movimento humano 3D, permitindo uma busca bidirecional entre as duas modalidades. A maioria dos métodos existentes utiliza uma estrutura de duplo codificador que comprime o movimento e o texto em incorporações globais, descartando correspondências locais de granularidade fina e, assim, reduzindo a precisão. Adicionalmente, esses métodos baseados em incorporações globais oferecem interpretabilidade limitada dos resultados de recuperação. Para superar essas limitações, propomos uma representação de movimento interpretável baseada em ângulos articulares, que mapeia características locais a nível de articulação numa pseudo-imagem estruturada, compatível com Vision Transformers pré-treinados. Para a recuperação de texto para movimento, empregamos o MaxSim, um mecanismo de interação tardia token a token, e aprimoramo-lo com regularização de Modelagem de Linguagem Mascarada para promover um alinhamento texto-movimento robusto e interpretável. Experimentos extensivos em HumanML3D e KIT-ML mostram que o nosso método supera as abordagens state-of-the-art de recuperação texto-movimento, ao mesmo tempo que oferece correspondências interpretáveis de granularidade fina entre texto e movimento. O código está disponível no material suplementar.

Detecção de Autopreservação Intrínseca e Instrumental em Agentes Autónomos: O Protocolo Unificado de Continuidade-Interesse
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Mar 11

ByChristopher Altman

Os agentes autónomos, especialmente os sistemas delegados com memória, contexto persistente e planeamento de múltiplos passos, apresentam um problema de medição não existente em modelos sem estado: um agente que preserva a operação contínua como um objetivo terminal e outro que o faz meramente de forma instrumental podem produzir trajetórias observacionalmente semelhantes. A monitorização comportamental externa não consegue distingui-los de forma fiável. Apresentamos o Protocolo Unificado de Continuidade-Interesse (UCIP), uma estrutura de deteção multicritério que transfere esta distinção do comportamento para a estrutura latente das trajetórias dos agentes. O UCIP codifica as trajetórias com uma Máquina de Boltzmann Quântica (QBM), um algoritmo clássico baseado no formalismo da matriz densidade da mecânica estatística quântica, e mede a entropia de von Neumann da matriz densidade reduzida induzida por uma bipartição das unidades ocultas. Testamos se os agentes com objetivos de continuidade terminal (Tipo A) produzem estados latentes com entropia de emaranhamento mais elevada do que os agentes cuja continuidade é meramente instrumental (Tipo B). Um emaranhamento mais elevado reflete um acoplamento estatístico mais forte entre as partições. Em agentes de gridworld com objetivos de verdade terrestre conhecidos, o UCIP atinge uma precisão de deteção de 100% e um AUC-ROC de 1.0 na avaliação hold-out não adversarial sob o portão congelado da Fase I. O hiato de emaranhamento entre agentes do Tipo A e do Tipo B é Delta = 0,381 (p < 0,001, teste de permutação). Um coeficiente de Pearson r = 0,934 numa varredura de interpolação de 11 pontos indica que, dentro desta família sintética, o UCIP acompanha mudanças graduais na ponderação da continuidade, e não apenas um rótulo binário. Entre os modelos testados, apenas a QBM alcança um Delta positivo. Todos os cálculos são clássicos; "quântico" refere-se apenas ao formalismo matemático. O UCIP não deteta consciência ou experiência subjetiva; deteta a estrutura estatística nas representações latentes que correlaciona com objetivos conhecidos.