HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

37 papers found

HopChain: Síntese de Dados Multi-Hop para Raciocínio Visão-Linguagem Generalizável
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17

ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

Os VLMs demonstram fortes capacidades multimodais, mas ainda lutam com o raciocínio visão-linguagem de granularidade fina. Descobrimos que o raciocínio de Cadeia de Pensamento longa expõe modos de falha diversos, incluindo erros de perceção, raciocínio, conhecimento e alucinação, que podem compor-se ao longo dos passos intermédios. No entanto, a maioria dos dados visão-linguagem existentes usados para RLVR não envolvem cadeias de raciocínio complexas que dependam de evidência visual do princípio ao fim, deixando estas fraquezas largamente não expostas. Propomos, portanto, o HopChain, uma estrutura escalável para sintetizar dados de raciocínio visão-linguagem multi-hop especificamente para o treino de RLVR de VLMs. Cada consulta multi-hop sintetizada forma uma cadeia logicamente dependente de hops fundamentados em instâncias, onde hops anteriores estabelecem as instâncias, conjuntos ou condições necessárias para hops posteriores, enquanto a resposta final permanece um número específico e inequívoco, adequado para recompensas verificáveis. Adicionamos os dados multi-hop sintetizados pelo HopChain aos dados originais de RLVR usados para treinar o Qwen3.5-35B-A3B e o Qwen3.5-397B-A17B, e comparamos com o RLVR apenas nos dados originais de RLVR em 24 benchmarks abrangendo STEM e Puzzles, VQA Geral, Reconhecimento de Texto e Compreensão de Documentos, e Compreensão de Vídeo. Embora estes dados multi-hop não sejam sintetizados para visar qualquer benchmark específico, a sua adição melhora 20 dos 24 benchmarks em ambos os modelos, indicando ganhos amplos e generalizáveis. Para demonstrar que as consultas encadeadas completas são importantes, substituímo-las por variantes de meio-multi-hop ou single-hop, reduzindo a precisão média nos 24 benchmarks em 5.3 e 7.0 pontos, respetivamente. O treino multi-hop também fortalece o raciocínio visão-linguagem de CoT longo, com ganhos a atingir o pico em mais de 50 pontos de precisão no regime de CoT ultra-longo. Estes experimentos estabelecem o HopChain como uma estrutura eficaz e escalável para sintetizar dados multi-hop que melhoram o raciocínio visão-linguagem generalizável.

Astrolabe: Direcionando o Aprendizado por Reforço de Processo Direto para Modelos Autoregressivos de Vídeo Destilados
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17

BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao

Os modelos de vídeo autoregressivos (AR) destilados permitem uma geração eficiente em streaming, mas frequentemente se desalinharam das preferências visuais humanas. As estruturas de aprendizagem por reforço (RL) existentes não são naturalmente adequadas a estas arquiteturas, geralmente exigindo uma redestilação dispendiosa ou uma otimização do processo reverso acoplada a solvers que introduz sobrecarga computacional e de memória considerável. Apresentamos o Astrolabe, uma estrutura de RL online eficiente, concebida para modelos AR destilados. Para superar os estrangulamentos existentes, introduzimos uma formulação de RL baseada no processo direto através de um ajuste fino com consciência do negativo. Ao contrastar amostras positivas e negativas diretamente nos pontos finais de inferência, esta abordagem estabelece uma direção de melhoria de política implícita sem exigir o desdobramento do processo reverso. Para escalar este alinhamento para vídeos longos, propomos um esquema de treino em streaming que gera sequências progressivamente através de uma cache KV rolante, aplicando atualizações de RL exclusivamente a janelas de clipes locais, enquanto condiciona o contexto anterior para garantir coerência de longo alcance. Finalmente, para mitigar a deturpação de recompensas (reward hacking), integramos um objetivo de múltiplas recompensas estabilizado por uma regularização seletiva com consciência da incerteza e atualizações dinâmicas de referência. Experiências extensivas demonstram que o nosso método melhora consistentemente a qualidade da geração em vários modelos de vídeo AR destilados, servindo como uma solução de alinhamento robusta e escalável.

TerraScope: Raciocínio Visual Ancorado em Pixel para Observação da Terra
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19

ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota

Os modelos visão-linguagem (VLMs) têm mostrado potencial na observação da Terra (OT), mas ainda lutam com tarefas que exigem o ancoramento de raciocínios espaciais complexos em representações visuais precisas a nível de pixel. Para resolver este problema, apresentamos o TerraScope, um VLM unificado que oferece raciocínio geoespacial ancorado em pixels com duas capacidades principais: (1) raciocínio com flexibilidade modal: processa entradas de modalidade única (ótica ou SAR) e funde adaptativamente diferentes modalidades no processo de raciocínio quando ambas estão disponíveis; (2) raciocínio multitemporal: integra sequências temporais para análise de mudanças em múltiplos pontos no tempo. Adicionalmente, criámos o Terra-CoT, um conjunto de dados em larga escala contendo 1 milhão de amostras com máscaras a nível de pixel incorporadas em cadeias de raciocínio de múltiplas fontes. Também propomos o TerraScope-Bench, o primeiro benchmark para raciocínio geoespacial ancorado em pixels com seis sub-tarefas que avalia tanto a precisão da resposta como a qualidade da máscara para garantir um raciocínio autenticamente ancorado em pixels. Experiências demonstram que o TerraScope supera significativamente os VLMs existentes em raciocínio geoespacial ancorado em pixels, fornecendo ao mesmo tempo evidências visuais interpretáveis.

ProactiveBench: Avaliação da Proatividade em Modelos de Linguagem Multimodais de Grande Escala
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

Uma colaboração eficaz começa com o saber quando pedir ajuda. Por exemplo, ao tentar identificar um objeto ocluído, um ser humano pediria a alguém para remover a obstrução. Os MLLMs podem exibir um comportamento "pró-ativo" semelhante, solicitando intervenções simples do utilizador? Para investigar isto, introduzimos o ProactiveBench, um *benchmark* construído a partir de sete conjuntos de dados reutilizados que testa a proatividade em diferentes tarefas, como reconhecer objetos ocluídos, melhorar a qualidade de imagem e interpretar esboços grosseiros. Avaliámos 22 MLLMs no ProactiveBench, mostrando que (i) geralmente carecem de proatividade; (ii) a proatividade não se correlaciona com a capacidade do modelo; (iii) "sugerir" proatividade produz apenas ganhos marginais. Surpreendentemente, descobrimos que os históricos de conversação e a aprendizagem *in-context* introduzem *biases* negativos, prejudicando o desempenho. Finalmente, exploramos uma simples estratégia de *fine-tuning* baseada em aprendizagem por reforço: os seus resultados sugerem que a proatividade pode ser aprendida, generalizando-se mesmo para cenários não vistos. Disponibilizamos publicamente o ProactiveBench como um primeiro passo para a construção de modelos multimodais proativos.

FlowScene: Geração de Cenas Internas com Consistência Estilística usando Fluxo Retificado Grafo Multimodal
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20

ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang

A geração de cenas possui amplas aplicações industriais, exigindo tanto alto realismo quanto controle preciso sobre geometria e aparência. Métodos de recuperação baseados em linguagem compõem cenas plausíveis a partir de um grande banco de dados de objetos, mas negligenciam o controle a nível de objeto e frequentemente falham em impor coerência de estilo a nível de cena. Formulações baseadas em grafos oferecem maior controlabilidade sobre os objetos e informam a consistência holística através da modelagem explícita de relações, entretanto, os métodos existentes lutam para produzir resultados texturizados de alta fidelidade, limitando assim sua utilidade prática. Apresentamos o FlowScene, um modelo gerativo de cenas com três ramos condicionado em grafos multimodais que gera colaborativamente layouts de cena, formas de objetos e texturas de objetos. Em seu núcleo reside um modelo de fluxo retificado fortemente acoplado que troca informações de objetos durante a geração, permitindo um raciocínio colaborativo através do grafo. Isso possibilita o controle refinado das formas, texturas e relações dos objetos, ao mesmo tempo que impõe coerência de estilo a nível de cena através da estrutura e aparência. Experimentos extensivos mostram que o FlowScene supera as linhas de base condicionadas por linguagem e por grafos em termos de realismo da geração, consistência de estilo e alinhamento com as preferências humanas.

O Y-Combinator para LLMs: Resolvendo o Problema de Degradação de Contexto Longo com o λ-Cálculo
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20

ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar

Os modelos de linguagem grandes (LLMs) são cada vez mais utilizados como sistemas de raciocínio de propósito geral, mas entradas longas continuam limitadas por uma janela de contexto fixa. Os Modelos de Linguagem Recursivos (RLMs) abordam esse problema externalizando o prompt e resolvendo subproblemas recursivamente. No entanto, os RLMs existentes dependem de um loop de leitura-avaliação-impressão (REPL) de escopo aberto, no qual o modelo gera código de controle arbitrário, tornando a execução difícil de verificar, prever e analisar. Apresentamos λ-RLM, uma estrutura para raciocínio de contexto longo que substitui a geração de código recursivo de forma livre por um runtime funcional tipado baseado no λ-cálculo. Ele executa uma biblioteca compacta de combinadores pré-verificados e usa inferência neural apenas em subproblemas folha delimitados, transformando o raciocínio recursivo em um programa funcional estruturado com fluxo de controle explícito. Mostramos que λ-RLM admite garantias formais ausentes nos RLMs padrão, incluindo terminação, limites de custo em forma fechada, escala de precisão controlada com a profundidade de recursão e uma regra de partição ótima sob um modelo de custo simples. Empiricamente, em quatro tarefas de raciocínio de contexto longo e nove modelos base, λ-RLM supera o RLM padrão em 29 de 36 comparações modelo-tarefa, melhora a precisão média em até +21,9 pontos entre diferentes níveis de modelo e reduz a latência em até 4,1 vezes. Esses resultados mostram que o controle simbólico tipado oferece uma base mais confiável e eficiente para o raciocínio de contexto longo do que a geração de código recursivo de escopo aberto. A implementação completa do λ-RLM é de código aberto para a comunidade em: https://github.com/lambda-calculus-LLM/lambda-RLM.

Hiperagentes
Hyperagents

Mar 19

ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

Os sistemas de IA de autoaperfeiçoamento visam reduzir a dependência da engenharia humana ao aprender a melhorar seus próprios processos de aprendizagem e resolução de problemas. As abordagens existentes para o autoaperfeiçoamento dependem de mecanismos de meta-nível fixos e artesanais, limitando fundamentalmente a velocidade com que tais sistemas podem melhorar. A Máquina de Gödel Darwin (DGM) demonstra autoaperfeiçoamento de código aberto na programação, gerando e avaliando repetidamente variantes automodificadas. Como tanto a avaliação quanto a automodificação são tarefas de programação, os ganhos na capacidade de codificação podem se traduzir em ganhos na capacidade de autoaperfeiçoamento. No entanto, esse alinhamento geralmente não se mantém além dos domínios de programação. Introduzimos os hiperagentes, agentes autorreferenciais que integram um agente de tarefa (que resolve a tarefa-alvo) e um agente meta (que modifica a si mesmo e ao agente de tarefa) em um único programa editável. Crucialmente, o procedimento de modificação de meta-nível é em si mesmo editável, permitindo a automodificação metacognitiva, melhorando não apenas o comportamento de resolução de tarefas, mas também o mecanismo que gera melhorias futuras. Instanciamos esse framework estendendo a DGM para criar os DGM-Hiperagentes (DGM-H), eliminando a suposição de alinhamento específico de domínio entre o desempenho da tarefa e a habilidade de automodificação para potencialmente suportar progresso autoacelerado em qualquer tarefa computável. Em diversos domínios, o DGM-H melhora o desempenho ao longo do tempo e supera as linhas de base sem autoaperfeiçoamento ou exploração de código aberto, bem como sistemas anteriores de autoaperfeiçoamento. Além disso, o DGM-H melhora o processo pelo qual gera novos agentes (por exemplo, memória persistente, rastreamento de desempenho), e essas melhorias de meta-nível transferem-se entre domínios e acumulam-se ao longo de execuções. Os DGM-Hiperagentes oferecem um vislumbre de sistemas de IA de código aberto que não apenas buscam melhores soluções, mas melhoram continuamente sua busca por como melhorar.

LumosX: Relacionar Identidades com Seus Atributos para Geração de Vídeos Personalizados
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20

ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

Os recentes avanços nos modelos de difusão melhoraram significativamente a geração de vídeo a partir de texto, permitindo a criação de conteúdo personalizado com controle refinado sobre elementos em primeiro plano e no fundo. No entanto, o alinhamento preciso de atributos faciais entre diferentes sujeitos continua a ser um desafio, uma vez que os métodos existentes carecem de mecanismos explícitos para garantir a consistência intragrupo. Para colmatar esta lacuna, são necessárias tanto estratégias de modelação explícita como recursos de dados conscientes dos atributos faciais. Propomos, portanto, o LumosX, uma estrutura que avança tanto no design de dados como no design do modelo. No lado dos dados, um *pipeline* de recolha personalizado orquestra legendas e pistas visuais de vídeos independentes, enquanto modelos multimodais de linguagem de grande escala (*MLLMs*) inferem e atribuem dependências específicas por sujeito. Estas prioridades relacionais extraídas impõem uma estrutura mais refinada que amplifica o controlo expressivo da geração de vídeo personalizada e permite a construção de um *benchmark* abrangente. No lado da modelação, a Autoatenção Relacional e a Autoatenção Cruzada Relacional entrelaçam *embeddings* conscientes da posição com uma dinâmica de atenção refinada para inscrever dependências explícitas entre sujeitos e atributos, impondo uma coesão intragrupo disciplinada e amplificando a separação entre clusters de sujeitos distintos. Avaliações abrangentes no nosso *benchmark* demonstram que o LumosX alcança um desempenho de ponta na geração de vídeo personalizada multissujeito, com granularidade refinada, identidade consistente e alinhamento semântico. O código e os modelos estão disponíveis em https://jiazheng-xing.github.io/lumosx-home/.

Raciocínio como Compressão: Unificando o Forçamento Orçamentário através do Princípio do Gargalo de Informação Condicional
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9

ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

A técnica de Chain-of-Thought (CoT) melhora a precisão de LLMs em tarefas complexas, mas frequentemente aumenta o uso de tokens e o custo de inferência. Os métodos existentes de "Budget Forcing", que reduzem custos via fine-tuning com penalidades de comprimento heurísticas, suprimem tanto o raciocínio essencial quanto o preenchimento redundante. Nós reformulamos o raciocínio eficiente como um problema de compressão com perdas sob o princípio do *Information Bottleneck* (IB) e identificamos uma lacuna teórica crucial ao aplicar o IB ingênuo a transformadores: a atenção viola a propriedade de Markov entre o prompt, o rastro de raciocínio e a resposta. Para resolver esta questão, modelamos a geração de CoT sob o princípio do *Conditional Information Bottleneck* (CIB), onde o rastro de raciocínio Z atua como uma ponte computacional que contém apenas a informação sobre a resposta Y que não é diretamente acessível a partir do prompt X. Isto resulta num objetivo geral de *Reinforcement Learning*: maximizar a recompensa da tarefa enquanto se comprimem as conclusões sob uma distribuição prévia (*prior*) sobre os rastros de raciocínio, englobando heurísticas comuns (ex.: penalidades de comprimento) como casos especiais (ex.: distribuições prévias uniformes). Em contraste com abordagens ingênuas baseadas na contagem de tokens, introduzimos uma distribuição prévia semântica que mede o custo do token pela surpresa (*surprisal*) sob uma distribuição prévia de modelo de linguagem. Empiricamente, o nosso objetivo CIB elimina o inchaço cognitivo enquanto preserva a fluência e a lógica, melhorando a precisão em compressão moderada e permitindo compressão agressiva com queda mínima de precisão.

Um Framework Orientado por Subobjetivos para Melhorar Agentes de LLM de Longo Horizonte
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20

ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette

Os agentes baseados em grandes modelos de linguagem (LLMs) emergiram como controladores autónomos poderosos para ambientes digitais, incluindo interfaces móveis, sistemas operativos e navegadores web. A navegação web, por exemplo, requer o processamento de conteúdo dinâmico e longas sequências de ações, tornando-a particularmente desafiadora. Os agentes existentes baseados em LLMs debatem-se com o planeamento de longo horizonte de duas formas principais. Durante a execução online, perdem frequentemente o rumo à medida que novas informações chegam, carecendo de um caminho claro e adaptativo em direção ao objetivo final. Este problema é ainda agravado durante o *fine-tuning* por aprendizagem por reforço (RL), onde recompensas esparsas e tardias dificultam que os agentes identifiquem quais as ações que conduzem ao sucesso, impedindo-os de manter um raciocínio coerente em tarefas prolongadas. Para enfrentar estes desafios, propomos duas contribuições. Primeiro, introduzimos uma arquitetura de agente que aproveita modelos proprietários para o planeamento online através da decomposição de subobjetivos. Segundo, apresentamos o MiRA (*Milestoning your Reinforcement Learning Enhanced Agent*), um quadro de treino de RL que utiliza sinais de recompensa densos e baseados em marcos (*milestones*). O mecanismo de planeamento em tempo real melhora modelos proprietários como o Gemini em aproximadamente um aumento absoluto de 10% na taxa de sucesso (SR) no *benchmark* WebArena-Lite. Entretanto, aplicar o MiRA ao modelo aberto Gemma3-12B aumenta a sua taxa de sucesso de 6,4% para 43,0%. Este desempenho supera sistemas proprietários como o GPT-4-Turbo (17,6%) e o GPT-4o (13,9%), bem como o anterior estado da arte em modelos abertos, o WebRL (38,4%). Globalmente, as nossas conclusões demonstram que combinar o planeamento explícito no momento de inferência com recompensas baseadas em marcos melhora significativamente as capacidades de longo horizonte de um agente, abrindo caminho para sistemas autónomos mais robustos e de propósito geral.

Edição Versátil de Conteúdo, Ações e Dinâmicas de Vídeo sem Treinamento
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18

ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli

A geração controlada de vídeos tem registado melhorias drásticas nos últimos anos. No entanto, editar ações e eventos dinâmicos, ou inserir conteúdos que devam afetar o comportamento de outros objetos em vídeos do mundo real, continua a ser um grande desafio. Os modelos treinados existentes lutam com edições complexas, provavelmente devido à dificuldade de recolher dados de treino relevantes. Da mesma forma, os métodos existentes sem treino estão inerentemente restritos a edições que preservam a estrutura e o movimento e não suportam a modificação de movimento ou interações. Aqui, introduzimos a DynaEdit, um método de edição sem treino que desbloqueia capacidades versáteis de edição de vídeo com modelos pré-treinados de fluxo texto-para-vídeo. O nosso método baseia-se na abordagem recentemente introduzida sem inversão, que não intervém nos componentes internos do modelo, sendo assim agnóstica em relação ao modelo. Mostramos que tentar adaptar ingenuamente esta abordagem a uma edição geral sem restrições resulta num grave desalinhamento de baixa frequência e em tremores de alta frequência. Explicamos as fontes destes fenómenos e introduzimos novos mecanismos para os superar. Através de experiências extensivas, mostramos que a DynaEdit alcança resultados de última geração em tarefas complexas de edição de vídeo baseadas em texto, incluindo a modificação de ações, a inserção de objetos que interagem com a cena e a introdução de efeitos globais.

Pesquisa em Dados Tabulares Profunda por Meio de Execução Orientada por Experiência Contínua
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10

ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang

Os grandes modelos de linguagem frequentemente apresentam dificuldades com tarefas analíticas complexas de longo horizonte sobre tabelas não estruturadas, que tipicamente possuem cabeçalhos hierárquicos e bidirecionais com layouts não canônicos. Formalizamos este desafio como Pesquisa Tabulária Profunda (DTR), que requer raciocínio multi-etapas sobre regiões tabulares interdependentes. Para abordar a DTR, propomos uma nova estrutura agentiva que trata o raciocínio tabular como um processo decisório de ciclo fechado. Projetamos cuidadosamente uma compreensão acoplada de consulta e tabela para tomada de decisão de caminho e execução operacional. Especificamente: (i) a DTR primeiro constrói um meta-grafo hierárquico para capturar semânticas bidirecionais, mapeando consultas de linguagem natural em um espaço de busca a nível operacional; (ii) Para navegar neste espaço, introduzimos uma política de seleção consciente da expectativa que prioriza caminhos de execução de alta utilidade; (iii) Crucialmente, os resultados históricos de execução são sintetizados em uma memória estruturada siamesa, ou seja, atualizações parametrizadas e textos abstraídos, permitindo um refinamento contínuo. Experimentos extensos em benchmarks desafiadores de tabelas não estruturadas verificam a eficácia e destacam a necessidade de separar o planejamento estratégico da execução de baixo nível para o raciocínio tabular de longo horizonte.

WorldAgents: Modelos de Imagem de Base Podem Ser Agentes para Modelos de Mundo 3D?
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20

ByZiya Erkoç, Angela Dai, Matthias Nießner

Dada a notável capacidade dos modelos de fundação 2D para imagens em gerar resultados de alta fidelidade, investigamos uma questão fundamental: os modelos de fundação 2D para imagens possuem inerentemente capacidades de modelos de mundo 3D? Para responder a isso, avaliamos sistematicamente vários modelos de geração de imagem e Modelos de Visão e Linguagem (VLMs) state-of-the-art na tarefa de síntese de mundos 3D. Para aproveitar e avaliar o seu potencial de capacidade 3D implícita, propomos um enquadramento agentivo para facilitar a geração de mundos 3D. A nossa abordagem emprega uma arquitetura multiagente: um diretor baseado em VLM que formula instruções (prompts) para orientar a síntese de imagens, um gerador que sintetiza novas vistas de imagem e um verificador de duas etapas apoiado por VLM que avalia e seleciona curadoria dos quadros gerados, tanto no espaço da imagem 2D quanto no da reconstrução 3D. Crucialmente, demonstramos que a nossa abordagem agentiva proporciona uma reconstrução 3D coerente e robusta, produzindo cenas de saída que podem ser exploradas através da renderização de novas vistas. Através de experiências extensas com vários modelos de fundação, demonstramos que os modelos 2D de facto encapsulam uma compreensão dos mundos 3D. Explorando esta compreensão, o nosso método sintetiza com sucesso mundos expansivos, realistas e 3D consistentes.

BEAVER: Um Método de Compressão Hierárquica de Prompts sem Treinamento via Seleção de Páginas com Consciência Estrutural
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20

ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang

A expansão exponencial das janelas de contexto em LLMs desbloqueou capacidades para a compreensão de documentos longos, mas introduziu graves estrangulamentos na latência de inferência e na utilização da informação. Os métodos de compressão existentes frequentemente sofrem com altos custos de treinamento ou fragmentação semântica devido à poda agressiva de tokens. Neste artigo, propomos o BEAVER, uma nova estrutura *training-free* que desloca a compressão da remoção linear de tokens para uma seleção hierárquica consciente da estrutura. O BEAVER maximiza o paralelismo de hardware mapeando contextos de comprimento variável em tensores densos a nível de página através de *pooling* de duplo caminho, e preserva a integridade do discurso por meio de um planeador híbrido que combina seleção de duplo ramo semântica e lexical com suavização de frases. Avaliações extensas em quatro *benchmarks* de contexto longo demonstram que o BEAVER atua de forma comparável a métodos estado da arte (SOTA) como o LongLLMLingua. Notavelmente, no *benchmark* RULER, o BEAVER mantém alta fidelidade na recuperação de múltiplas agulhas (*multi-needle retrieval*), onde os métodos de base se deterioram. Em termos de eficiência, o BEAVER reduz a latência em 26,4x em contextos de 128k, oferecendo uma solução escalável para aplicações de alto rendimento. O nosso código está disponível em https://cslikai.cn/BEAVER/.

HiMu: Seleção Hierárquica Multimodal de Quadros para Questionamento sobre Vídeos Longos
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

A resposta a perguntas em vídeos longos exige raciocínio sobre contextos temporais estendidos, tornando a seleção de quadros crítica para grandes modelos de visão e linguagem (LVLMs) limitados por janelas de contexto finitas. Os métodos existentes enfrentam uma forte dicotomia: seletores baseados em similaridade são rápidos, mas colapsam consultas composicionais em um único vetor denso, perdendo a ordenação de subeventos e os vínculos cross-modais; métodos baseados em agente recuperam essa estrutura por meio de inferência iterativa do LVLM, mas a um custo proibitivo. Apresentamos HiMu, uma estrutura *training-free* que preenche esta lacuna. Uma única chamada a um LLM apenas de texto decompõe a consulta em uma árvore lógica hierárquica cujas folhas são predicados atômicos, cada um roteado para um especialista leve que abrange visão (CLIP, detecção de vocabulário aberto, OCR) e áudio (ASR, CLAP). Os sinais resultantes são normalizados, suavizados temporalmente para alinhar diferentes modalidades e compostos de baixo para cima por meio de operadores de lógica difusa que impõem sequenciamento e adjacência temporal, produzindo uma curva de satisfação contínua. Avaliações no Video-MME, LongVideoBench e HERBench-Lite mostram que o HiMu avança a fronteira de Pareto de eficiência-precisão: com 16 quadros no Qwen3-VL 8B, ele supera todos os seletores concorrentes, e com o GPT-4o supera sistemas agentes operando com 32-512 quadros, enquanto requer aproximadamente 10 vezes menos FLOPS.

Quão Bem a Recomendação Generativa Generaliza?
How Well Does Generative Recommendation Generalize?

Mar 20

ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou

Uma hipótese amplamente aceita para explicar por que os modelos de recomendação generativa (GR) superam os modelos convencionais baseados em IDs de itens é que eles generalizam melhor. No entanto, existem poucas formas sistemáticas de verificar essa hipótese além de uma comparação superficial do desempenho geral. Para preencher essa lacuna, categorizamos cada instância de dados com base na capacidade específica necessária para uma previsão correta: memorização (reutilizar padrões de transição de itens observados durante o treinamento) ou generalização (compor padrões conhecidos para prever transições de itens não vistas. Experimentos extensivos mostram que os modelos GR têm melhor desempenho em instâncias que exigem generalização, enquanto os modelos baseados em ID de item performam melhor quando a memorização é mais importante. Para explicar essa divergência, deslocamos a análise do nível do item para o nível do *token* e demonstramos que o que parece ser generalização no nível do item frequentemente se reduz a memorização no nível do *token* para os modelos GR. Por fim, mostramos que os dois paradigmas são complementares. Propomos um indicador simples, consciente da memorização, que os combina de forma adaptativa para cada instância, resultando em um desempenho geral de recomendação aprimorado.

LoopRPT: Pré-Treinamento por Reforço para Modelos de Linguagem em Loop
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20

ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

Os modelos de linguagem em loop (LoopLMs) realizam computação latente iterativa para refinar representações internas, oferecendo uma alternativa promissora ao raciocínio explícito de cadeia de pensamento (CoT). No entanto, os paradigmas de aprendizagem por reforço (RL) existentes visam principalmente tokens de saída, criando uma incompatibilidade estrutural com arquiteturas em loop, cujo raciocínio se desenrola implicitamente. Neste trabalho, propomos o LoopRPT, uma estrutura de pré-treinamento por reforço adaptada para LoopLMs. Ao reformular a previsão do próximo token como uma tarefa de raciocínio do próximo token, o LoopRPT atribui sinais de reforço diretamente a etapas latentes usando uma referência de professor por média móvel exponencial (EMA) e rollouts latentes ruidosos. Esta formulação permite que o RL molde diretamente as representações intermediárias, comprimindo o raciocínio eficaz em menos iterações. Instanciamos o LoopRPT na arquitetura Ouro em várias escalas de modelo. Os resultados demonstram que o LoopRPT melhora consistentemente a qualidade da representação por etapa, alcanando dominância de Pareto nos compromissos entre precisão e computação. Notavelmente, ganhos significativos em tokens difíceis indicam que o LoopRPT aprimora o raciocínio em estágio inicial, em vez de meramente incentivar saídas prematuras. Nossas descobertas destacam o pré-treinamento por reforço como um paradigma fundamentado para aprender raciocínio latente eficiente em LoopLMs.

Quebrando o Teto de Capacidade do Pós-Treinamento de LLMs pela Reintrodução de Estados de Markov
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20

ByYurun Yuan, Tengyang Xie

O aprendizado por reforço (RL) tornou-se um paradigma padrão para o pós-treinamento e alinhamento de Grandes Modelos de Linguagem (LLMs), no entanto, evidências recentes sugerem que ele enfrenta um persistente "teto de capacidade": ao contrário dos sistemas clássicos de RL que descobrem novas estratégias, o RL para LLMs frequentemente atua como um mero refinador de padrões já latentes nos pesos pré-treinados. Neste trabalho, identificamos um gargalo estrutural fundamental: enquanto o RL clássico depende de estados de Markov compactos e informativos, as formulações atuais de pós-treinamento de LLMs estão atreladas a um histórico de ações em constante expansão. Revisitamos um princípio clássico, há muito central para o RL, mas ausente no pós-treinamento de LLMs: estados de Markov explícitos. Teoricamente, fornecemos garantias rigorosas demonstrando que a utilização de estados de Markov estimados pode reduzir significativamente a complexidade amostral. Empiricamente, mostramos que a introdução de estados de Markov quebra consistentemente os limites de desempenho do pós-treinamento padrão com RL em uma série de quebra-cabeças lógicos complexos. Nossos achados sugerem que ir além da modelagem de "histórico como estado" em favor de representações Markovianas estruturadas é essencial para desbloquear a descoberta de forma aberta e capacidades de raciocínio genuinamente novas na IA Generativa.

Além de Tokens Individuais: Destilando Modelos de Difusão Discreta via MMD Discreto
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20

ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans

Atualmente, é difícil destilar modelos de difusão discretos. Em contraste, a literatura sobre difusão contínua possui diversos métodos de destilação que podem reduzir as etapas de amostragem para um número reduzido. Nosso método, *Discrete Moment Matching Distillation* (D-MMD), aproveita ideias que tiveram grande sucesso no domínio contínuo. Enquanto métodos anteriores de destilação discreta entram em colapso, o D-MMD mantém alta qualidade e diversidade (dado um número suficiente de etapas de amostragem). Isso é demonstrado tanto em conjuntos de dados de texto quanto de imagem. Além disso, os geradores recém-destilados podem superar seus modelos de referência (teachers).

EgoForge: Simulador Egocêntrico de Mundos Orientado a Objetivos
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20

ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

Os modelos generativos de mundos têm demonstrado potencial para simular ambientes dinâmicos, mas o vídeo egocêntrico continua a ser um desafio devido a mudanças rápidas de perspectiva, interações frequentes mão-objeto e procedimentos direcionados a objetivos cuja evolução depende da intenção humana latente. As abordagens existentes concentram-se na síntese instrucional centrada nas mãos com evolução limitada da cena, realizam tradução de vista estática sem modelar a dinâmica de ações ou dependem de supervisão densa, como trajetórias de câmera, prefixos longos de vídeo, captura multicâmera sincronizada, etc. Neste trabalho, introduzimos o EgoForge, um simulador de mundo egocêntrico direcionado a objetivos que gera rollouts de vídeo coerentes em primeira pessoa a partir de entradas estáticas mínimas: uma única imagem egocêntrica, uma instrução de alto nível e uma vista exocêntrica auxiliar opcional. Para melhorar o alinhamento da intenção e a consistência temporal, propomos o VideoDiffusionNFT, um refinamento guiado por recompensa a nível de trajetória que otimiza a conclusão do objetivo, a causalidade temporal, a consistência da cena e a fidelidade perceptual durante a amostragem por difusão. Experimentos extensivos mostram que o EgoForge alcança ganhos consistentes no alinhamento semântico, estabilidade geométrica e fidelidade de movimento em relação a baselines fortes, e desempenho robusto em experimentos do mundo real com óculos inteligentes.

Ensinando um Agente a Esboçar uma Parte de Cada Vez
Teaching an Agent to Sketch One Part at a Time

Mar 19

ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich

Desenvolvemos um método para produzir esboços vetoriais uma parte de cada vez. Para isso, treinamos um agente baseado em modelo de linguagem multimodal utilizando um novo processo de aprendizagem por reforço com recompensa baseada no processo multi-etapas, após um ajuste fino supervisionado. Nossa abordagem é viabilizada por um novo conjunto de dados que denominamos ControlSketch-Part, contendo anotações ricas em nível de parte para esboços, obtidas por meio de um novo *pipeline* genérico de anotação automática que segmenta esboços vetoriais em partes semânticas e atribui caminhos às partes com um processo estruturado de rotulagem em múltiplos estágios. Nossos resultados indicam que a incorporação de dados estruturados em nível de parte e o fornecimento de *feedback* visual ao agente durante o processo permitem uma geração de esboços vetoriais a partir de texto que é interpretável, controlável e localmente editável.

DROID-SLAM em Ambientes Não Controlados
DROID-SLAM in the Wild

Mar 19

ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

Apresentamos um sistema robusto de SLAM RGB em tempo real que lida com ambientes dinâmicos através da utilização de Ajustamento de Feixe com Consciência da Incerteza diferenciável. Os métodos tradicionais de SLAM geralmente assumem cenas estáticas, o que leva a falhas de rastreamento na presença de movimento. Abordagens recentes de SLAM dinâmico tentam resolver este desafio utilizando pré-definições dinâmicas prévias ou mapeamento com consciência da incerteza, mas permanecem limitadas quando confrontadas com objetos dinâmicos desconhecidos ou cenas altamente desordenadas onde o mapeamento geométrico se torna pouco fiável. Em contraste, o nosso método estima a incerteza por pixel através da exploração da inconsistência de características visuais multi-vista, permitindo um rastreamento e reconstrução robustos mesmo em ambientes do mundo real. O sistema proposto alcança poses de câmara e geometria de cena de última geração em cenários dinâmicos desordenados, funcionando em tempo real a aproximadamente 10 FPS. O código e conjuntos de dados estão disponíveis em https://github.com/MoyangLi00/DROID-W.git.

Relatório Técnico AgentDS: Avaliando o Futuro da Colaboração Humano-IA em Ciência de Dados de Domínio Específico
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19

ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

A ciência de dados desempenha um papel fundamental na transformação de dados complexos em insights acionáveis em inúmeros domínios. Os recentes avanços em modelos de linguagem de grande escala (LLMs) e agentes de inteligência artificial (IA) automatizaram significativamente o fluxo de trabalho da ciência de dados. No entanto, ainda não está claro até que ponto os agentes de IA podem igualar o desempenho de especialistas humanos em tarefas de ciência de dados específicas de domínio e em quais aspectos a expertise humana continua a oferecer vantagens. Apresentamos o AgentDS, um benchmark e competição concebidos para avaliar o desempenho de agentes de IA e da colaboração humano-IA em ciência de dados específica de domínio. O AgentDS consiste em 17 desafios abrangendo seis indústrias: comércio, produção de alimentos, saúde, seguros, manufatura e banco de varejo. Realizamos uma competição aberta envolvendo 29 equipas e 80 participantes, permitindo uma comparação sistemática entre abordagens de colaboração humano-IA e baselines exclusivamente de IA. Os nossos resultados mostram que os atuais agentes de IA têm dificuldades com o raciocínio específico de domínio. Os baselines exclusivamente de IA apresentam desempenho próximo ou abaixo da mediana dos participantes da competição, enquanto as soluções mais robustas surgem da colaboração humano-IA. Estas descobertas contestam a narrativa de automação completa pela IA e sublinham a importância duradoura da expertise humana na ciência de dados, ao mesmo tempo que iluminam direções para a próxima geração de IA. Visite o website do AgentDS aqui: https://agentds.org/ e os conjuntos de dados de código aberto aqui: https://huggingface.co/datasets/lainmn/AgentDS.

Cooperação e Exploração na Síntese de Políticas de LLM para Dilemas Sociais Sequenciais
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19

ByVíctor Gallego

Nós estudamos a síntese de políticas por LLM: o uso de um modelo de linguagem grande para gerar iterativamente políticas programáticas de agentes em ambientes multiagente. Em vez de treinar políticas neurais via aprendizado por reforço, nosso framework instrui um LLM a produzir funções de política em Python, as avalia em autojogo e as refina usando feedback de desempenho ao longo das iterações. Investigamos a engenharia de feedback (o projeto de quais informações de avaliação são mostradas ao LLM durante o refinamento), comparando o feedback esparso (apenas recompensa escalar) com o feedback denso (recompensa mais métricas sociais: eficiência, igualdade, sustentabilidade, paz). Em dois Dilemas Sociais Sequenciais canônicos (Gathering e Cleanup) e dois LLMs de ponta (Claude Sonnet 4.6, Gemini 3.1 Pro), o feedback denso consistentemente iguala ou supera o feedback esparso em todas as métricas. A vantagem é maior no jogo de bens públicos Cleanup, onde fornecer métricas sociais ajuda o LLM a calibrar a compensação custosa entre limpeza e coleta. Em vez de desencadear uma superotimização da justiça, as métricas sociais servem como um sinal de coordenação que guia o LLM em direção a estratégias cooperativas mais eficazes, incluindo partilha de território, atribuição adaptativa de funções e a evitação de agressão desperdiçadora. Realizamos ainda um experimento adversarial para determinar se os LLMs podem explorar as recompensas desses ambientes ("reward hacking"). Caracterizamos cinco classes de ataques e discutimos mitigações, destacando uma tensão inerente na síntese de políticas por LLM entre expressividade e segurança. Código em https://github.com/vicgalle/llm-policies-social-dilemmas.

Os VLMs Precisam de Vision Transformers? Avaliando State Space Models como Codificadores Visuais
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19

ByShang-Jui Ray Kuo, Paola Cascante-Bonilla

Os grandes modelos visuais-linguísticos (VLMs) frequentemente utilizam um backbone visual congelado, cujas características de imagem são mapeadas em um grande modelo de linguagem através de um conector leve. Embora os codificadores baseados em transformer sejam o backbone visual padrão, questionamos se os backbones visuais baseados em modelos de espaço de estados (SSMs) podem ser uma alternativa robusta. Avaliamos sistematicamente backbones visuais SSM para VLMs em um ambiente controlado. Sob inicialização correspondente do ImageNet-1K, o backbone SSM alcança o desempenho geral mais forte tanto em VQA quanto em fundamentação/localização. Adaptamos ainda mais backbones SSM e da família ViT com treinamento de detecção ou segmentação e descobrimos que o ajuste fino para tarefas densas geralmente melhora o desempenho entre as famílias; após essa adaptação, o backbone SSM permanece competitivo enquanto opera em uma escala de modelo substancialmente menor. Observamos ainda que (i) maior precisão no ImageNet ou backbones maiores não se traduzem de forma confiável em melhor desempenho de VLM, e (ii) alguns backbones visuais são instáveis em localização. Com base nessas descobertas, propomos estratégias de estabilização que melhoram a robustez para ambas as famílias de backbones e destacamos os backbones SSM como uma alternativa sólida aos codificadores visuais baseados em transformer em VLMs.

Linguagem Sob Demanda, Conhecimento no Núcleo: Composição de LLMs com Modelos de Tradução Encoder-Decoder para Multilinguismo Extensível
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18

ByMengyu Bu, Yang Feng

Os grandes modelos de linguagem (LLMs) exibem inteligência geral robusta, mas seu desempenho multilíngue permanece altamente desequilibrado. Embora os LLMs codifiquem conhecimento cruzado substancial em um espaço semântico unificado, frequentemente lutam para conectar esse conhecimento de forma confiável com idiomas de baixos recursos ou não vistos. Felizmente, modelos de tradução pré-treinados do tipo codificador-decodificador já possuem capacidade multilíngue equilibrada, sugerindo um complemento natural aos LLMs. Neste trabalho, propomos o XBridge, uma arquitetura composicional codificador-LLM-decodificador que delega a compreensão e geração multilíngue a modelos de tradução externos pré-treinados, preservando o LLM como núcleo centrado no inglês para processamento de conhecimento geral. Para resolver o desalinhamento representacional resultante entre os modelos, introduzimos camadas de mapeamento cruzado leves e um objetivo de alinhamento baseado em transporte ótimo, permitindo consistência semântica refinada para geração multilíngue. Experimentos com quatro LLMs em compreensão, raciocínio, sumarização e geração multilíngue indicam que o XBridge supera baselines fortes, especialmente em idiomas de baixos recursos e previamente não vistos, sem retreinar o LLM.

Sinergia Humano-IA na Revisão de Código Agente
Human-AI Synergy in Agentic Code Review

Mar 16

BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams

A revisão de código é uma prática crítica da engenharia de software na qual os desenvolvedores revisam as alterações de código antes da integração para garantir a qualidade do código, detetar defeitos e melhorar a sua capacidade de manutenção. Nos últimos anos, agentes de IA que conseguem compreender o contexto do código, planear ações de revisão e interagir com ambientes de desenvolvimento têm sido cada vez mais integrados no processo de revisão de código. No entanto, existem evidências empíricas limitadas para comparar a eficácia dos agentes de IA e dos revisores humanos em fluxos de trabalho colaborativos. Para colmatar esta lacuna, realizamos uma análise empírica em larga escala de 278.790 conversas de revisão de código em 300 projetos open-source do GitHub. No nosso estudo, pretendemos comparar as diferenças de feedback fornecido por revisores humanos e por agentes de IA. Investigamos os padrões de colaboração humano-IA nas conversas de revisão para compreender como a interação molda os resultados da revisão. Além disso, analisamos a adoção de sugestões de código fornecidas por revisores humanos e agentes de IA na base de código, e como as sugestões adotadas alteram a qualidade do código. Descobrimos que os revisores humanos fornecem feedback adicional em comparação com os agentes de IA, incluindo compreensão, testes e transferência de conhecimento. Os revisores humanos trocam 11,8% mais rondas de conversação ao revisar código gerado por IA do que código escrito por humanos. Adicionalmente, as sugestões de código feitas por agentes de IA são adotadas na base de código a uma taxa significativamente menor do que as sugestões propostas por revisores humanos. Mais de metade das sugestões não adotadas dos agentes de IA são incorretas ou são resolvidas através de correções alternativas pelos desenvolvedores. Quando adotadas, as sugestões fornecidas por agentes de IA produzem aumentos significativamente maiores na complexidade do código e no tamanho do código do que as sugestões fornecidas por revisores humanos. As nossas descobertas sugerem que, embora os agentes de IA possam dimensionar a triagem de defeitos, a supervisão humana permanece crítica para garantir a qualidade das sugestões e fornecer o feedback contextual que falta aos agentes de IA.

TAPESTRY: Da Geometria à Aparência através de Vídeos Consistentes de Mesa Giratória
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18

ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu

A geração automática de aparências fotorrealistas e autoconsistentes para modelos 3D não texturizados é um desafio crítico na criação de conteúdo digital. O avanço dos modelos de geração de vídeo em larga escala oferece uma abordagem natural: sintetizar diretamente vídeos de mesa giratória de 360 graus (TTVs), que podem servir não apenas como pré-visualizações dinâmicas de alta qualidade, mas também como uma representação intermediária para orientar a síntese de texturas e a renderização neural. No entanto, os modelos de difusão de vídeo de propósito geral existentes lutam para manter uma consistência geométrica estrita e estabilidade de aparência em toda a gama de visualizações, tornando suas saídas inadequadas para reconstrução 3D de alta qualidade. Para isso, introduzimos o TAPESTRY, uma estrutura para gerar TTVs de alta fidelidade condicionados à geometria 3D explícita. Reformulamos a tarefa de geração de aparência 3D como um problema de difusão de vídeo condicionado por geometria: dado uma malha 3D, primeiro renderizamos e codificamos características geométricas multimodais para restringir o processo de geração de vídeo com precisão a nível de pixel, permitindo assim a criação de TTVs consistentes e de alta qualidade. Com base nisso, também projetamos um método para tarefas de reconstrução subsequentes a partir da entrada TTV, apresentando um pipeline multiestágio com Preenchimento Consciente da 3D. Ao girar o modelo e realizar uma geração secundária consciente do contexto, este pipeline preenche efetivamente as regiões auto-ocludidas para alcançar uma cobertura completa da superfície. Os vídeos gerados pelo TAPESTRY não são apenas pré-visualizações dinâmicas de alta qualidade, mas também servem como uma representação intermediária confiável e consciente da 3D que pode ser retroprojetada perfeitamente em texturas UV ou usada para supervisionar métodos de renderização neural como o 3DGS. Isso permite a criação automatizada de ativos 3D completos e prontos para produção a partir de malhas não texturizadas. Resultados experimentais demonstram que nosso método supera as abordagens existentes tanto na consistência do vídeo quanto na qualidade final da reconstrução.

ReLi3D: Reconstrução 3D Multiview Relightable com Iluminação Desacoplada
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20

ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani

A reconstrução de ativos 3D a partir de imagens sempre exigiu *pipelines* separados para reconstrução geométrica, estimativa de materiais e recuperação de iluminação, cada um com limitações distintas e sobrecarga computacional. Apresentamos o ReLi3D, o primeiro *pipeline* unificado de ponta a ponta que reconstrue simultaneamente a geometria 3D completa, materiais fisicamente baseados com variação espacial e iluminação ambiental a partir de imagens esparsas de múltiplas vistas em menos de um segundo. Nossa principal percepção é que as restrições de múltiplas vistas podem melhorar drasticamente o desembaraçamento (*disentanglement*) de materiais e iluminação, um problema que permanece fundamentalmente mal posto para métodos de imagem única. A chave da nossa abordagem é a fusão da entrada de múltiplas vistas por meio de uma arquitetura de *cross-conditioning* com *transformer*, seguida por uma nova estratégia unificada de previsão de dois caminhos. O primeiro caminho prevê a estrutura e a aparência do objeto, enquanto o segundo caminho prevê a iluminação ambiental a partir do fundo da imagem ou dos reflexos do objeto. Isso, combinado com um renderizador diferenciável de amostragem por importância múltipla de Monte Carlo, cria um *pipeline* de treinamento ideal para desembaraçamento de iluminação. Além disso, com nosso protocolo de treinamento em domínio misto, que combina conjuntos de dados sintéticos PBR com capturas RGB do mundo real, estabelecemos resultados generalizáveis em precisão geométrica, de materiais e qualidade de iluminação. Ao unificar tarefas de reconstrução anteriormente separadas em uma única passagem *feed-forward*, possibilitamos a geração quase instantânea de ativos 3D completos e relumináveis. Página do Projeto: https://reli3d.jdihlmann.com/

CurveStream: Aprimoramento da Compreensão de Vídeo em Streaming em MLLMs por meio de Gerenciamento Hierárquico de Memória Visual com Consciência de Curvatura
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20

ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

Os Modelos de Linguagem de Grande Porte Multimodais alcançaram sucesso significativo na compreensão de vídeos offline, mas sua aplicação a vídeos em streaming é severamente limitada pela explosão linear de *tokens* visuais, que frequentemente resulta em erros de Estouro de Memória (*Out-of-Memory - OOM*) ou em esquecimento catastrófico. Os métodos existentes de retenção visual e gestão de memória geralmente dependem de amostragem uniforme, métricas físicas de baixo nível ou expurgo passivo de *cache*. No entanto, essas estratégias frequentemente carecem de consciência semântica intrínseca, potencialmente perturbando a coerência contextual e borrando transições semânticas críticas, ainda que transitórias. Para superar essas limitações, propomos o CurveStream, um quadro de gestão de memória visual hierárquico, livre de treinamento e consciente da curvatura. Nossa abordagem é motivada pela observação fundamental de que regiões de alta curvatura ao longo de trajetórias contínuas de características estão intimamente alinhadas com transições semânticas globais críticas. Com base nessa intuição geométrica, o CurveStream avalia a intensidade semântica em tempo real por meio de um *Curvature Score* (Pontuação de Curvatura) e integra um limiar dinâmico *K-Sigma* online para direcionar adaptativamente os quadros para estados de memória claros e difusos, sob um orçamento rigoroso de *tokens*. Avaliações em diversas escalas temporais confirmam que este quadro leve, CurveStream, produz consistentemente ganhos de desempenho absolutos superiores a 10% (por exemplo, 10,69% no StreamingBench e 13,58% no OVOBench) sobre as respectivas linhas de base, estabelecendo novos resultados state-of-the-art para a percepção de vídeos em streaming. O código será disponibilizado em https://github.com/streamingvideos/CurveStream.

Investigação de Sinais Culturais em Modelos de Linguagem de Grande Escala por meio de Perfilamento de Autores
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17

ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

Os grandes modelos de linguagem (LLMs) estão cada vez mais implantados em aplicações com impacto social, levantando preocupações sobre os vieses culturais que codificam. Investigamos essas representações avaliando se os LLMs podem realizar a caracterização de autores a partir de letras de música em um cenário *zero-shot*, inferindo o gênero e a etnia dos cantores sem ajuste fino específico para a tarefa. Em vários modelos de código aberto avaliados em mais de 10.000 letras, descobrimos que os LLMs alcançam um desempenho de caracterização não trivial, mas demonstram um alinhamento cultural sistemático: a maioria dos modelos tende a padrões étnicos norte-americanos, enquanto o DeepSeek-1.5B alinha-se mais fortemente com a etnia asiática. Esta conclusão emerge tanto das distribuições de previsão dos modelos quanto de uma análise das racionalizações por eles geradas. Para quantificar essas disparidades, introduzimos duas métricas de justiça, o *Divergência de Acurácia Modal* (MAD) e o *Divergência de Revocação* (RD), e mostramos que o Ministral-8B exibe o viés étnico mais forte entre os modelos avaliados, enquanto o Gemma-12B apresenta o comportamento mais equilibrado. Nosso código está disponível no GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Perturbação Adaptativa por Camadas: Unificando Correções de Política Externa para RL de LLM
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19

ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang

Problemas fora da política, como a estagnação da política e o descompasso entre treinamento e inferência, tornaram-se um grande gargalo para a estabilidade do treinamento e para a exploração adicional no RL para LLMs. Para melhorar a eficiência da inferência, a lacuna distributiva entre a política de inferência e a política atualizada aumenta, levando a razões de importância de cauda pesada. Razões de cauda pesada surgem quando a política é localmente afiada, o que infla ainda mais os gradientes abruptos e pode empurrar as atualizações para fora da região de confiança. Para resolver isso, propomos a Perturbação Adaptativa por Camadas (ALP), injetando pequenas perturbações aprendíveis nos estados ocultos de entrada de cada camada durante as atualizações, as quais são usadas como numerador da razão de importância contra a política de inferência inalterada no objetivo. Intuitivamente, ao adicionar ruído controlado às representações intermediárias, o ALP impede que a política atualizada se desvie de forma muito abrupta da política de inferência e amplia a família de políticas para cobrir a família de políticas de inferência com ruídos de descompasso. Assim, a distribuição achatada pode naturalmente reduzir a lacuna entre a política atualizada e a de inferência e diminuir a cauda das razões de importância, mantendo assim a estabilidade do treinamento. Isto é validado empiricamente. Experimentos em tarefas de raciocínio matemático de turno único e de raciocínio com integração de ferramentas de múltiplos turnos mostram que o ALP não só melhora o desempenho final, mas também evita a explosão da cauda da razão de importância e os picos de KL durante o treinamento iterativo, juntamente com uma exploração impulsionada. Ablações mostram que perturbações no nível de representação em todas as camadas são mais eficazes, superando substancialmente as variantes de camadas parciais e apenas nos logits.

s2n-bignum-bench: Um benchmark prático para avaliação do raciocínio de LLMs sobre código de baixo nível
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15

ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi

As abordagens nerossimbólicas que alavancam Modelos de Linguagem de Grande Porte (LLMs) com métodos formais têm obtido recentemente resultados sólidos em benchmarks de demonstração de teoremas com orientação matemática. No entanto, o sucesso em matemática de estilo competitivo não demonstra, por si só, a capacidade de construir provas sobre implementações do mundo real. Nós abordamos esta lacuna com um benchmark derivado de uma biblioteca criptográfica industrial cujas rotinas em assembly já são verificadas em HOL Light. s2n-bignum é uma biblioteca usada na AWS para fornecer rotinas de assembly rápidas para criptografia, e sua correção é estabelecida por verificação formal. A tarefa de verificar formalmente esta biblioteca tem sido uma conquista significativa para o Grupo de Raciocínio Automatizado. Envolveu duas tarefas: (1) especificar com precisão o comportamento correto de um programa como uma proposição matemática, e (2) provar que a proposição está correta. No caso do s2n-bignum, ambas as tarefas foram realizadas por especialistas humanos. Em s2n-bignum-bench, fornecemos a especificação formal e solicitamos que o LLM gere um script de prova que seja aceito pelo HOL Light dentro de um tempo limite fixo para verificação de provas. Até onde sabemos, o s2n-bignum-bench é o primeiro benchmark público focado na síntese de provas verificáveis por máquina para rotinas criptográficas industriais de baixo nível em assembly no HOL Light. Este benchmark fornece um ambiente de teste desafiador e praticamente relevante para avaliar a demonstração de teoremas baseada em LLM para além da matemática competitiva. O código para configurar e usar o benchmark está disponível aqui: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.

Das Máscaras aos Pixels e ao Significado: Uma Nova Taxonomia, Benchmark e Métricas para a Manipulação de Imagens em VLMs
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20

ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen

Os atuais benchmarks de detecção de manipulação dependem amplamente de máscaras de objetos, o que se desalinha severamente com o verdadeiro sinal de edição: muitos pixels dentro de uma máscara permanecem intocados ou apenas trivialmente modificados, enquanto edições sutis, porém consequentes, fora da máscara são tratadas como naturais. Reformulamos a detecção de manipulação de imagens em VLMs (Vision-Language Models) de rótulos regionais grosseiros para uma tarefa fundamentada em pixels, consciente do significado e da linguagem. Primeiro, introduzimos uma taxonomia que abrange primitivas de edição (substituir/remover/emendar/preencher/atribuir/colorizar, etc.) e sua classe semântica do objeto manipulado, vinculando alterações de baixo nível à compreensão de alto nível. Segundo, lançamos um novo benchmark com mapas de manipulação por pixel e supervisão de categoria pareada para avaliar detecção e classificação dentro de um protocolo unificado. Terceiro, propomos um framework de treinamento e métricas de avaliação que quantificam a correção em nível de pixel com localização para avaliar a confiança ou previsão sobre a verdadeira intensidade da edição, e ainda medem a compreensão do significado da manipulação por meio de classificação consciente da semântica e descrições em linguagem natural para as regiões previstas. Também reavaliamos as fortes linhas de base existentes de segmentação/localização em detectores de manipulação recentes e robustos, revelando super e subavaliações substanciais usando métricas baseadas apenas em máscaras, e expondo modos de falha em microedições e alterações fora da máscara. Nosso framework avança o campo de máscaras para pixels, significados e descrições em linguagem natural, estabelecendo um padrão rigoroso para localização de manipulação, classificação semântica e descrição. Código e dados do benchmark estão disponíveis em https://github.com/VILA-Lab/PIXAR.

Detecção automática de textos Gen-AI: Um quadro comparativo de modelos neurais
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19

ByCristian Buttaro, Irene Amerini

A rápida proliferação de Modelos de Linguagem de Grande Porte aumentou significativamente a dificuldade de distinguir entre textos escritos por humanos e textos gerados por IA, levantando questões críticas nos domínios académico, editorial e social. Este artigo investiga o problema da deteção de texto gerado por IA através do projeto, implementação e avaliação comparativa de múltiplos detetores baseados em aprendizagem automática. Quatro arquiteturas neuronais são desenvolvidas e analisadas: um Perceptrão Multicamada, uma Rede Neural Convolucional unidimensional, uma CNN baseada no MobileNet e um modelo Transformer. Os modelos propostos são comparados com detetores online amplamente utilizados, incluindo ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase e Writer. As experiências são realizadas no Conjunto de Dados Multilíngue COLING, considerando as configurações em inglês e italiano, bem como num conjunto de dados temático original focado em Arte e Saúde Mental. Os resultados mostram que os detetores supervisionados alcançam um desempenho mais estável e robusto do que as ferramentas comerciais em diferentes idiomas e domínios, destacando os pontos fortes e as limitações principais das atuais estratégias de deteção.

Interruptor Multiescala para Aprendizado Semissupervisionado e Contrastivo na Segmentação de Imagens Médicas por Ultrassom
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19

ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

A segmentação de imagens médicas por ultrassom enfrenta desafios significativos devido à escassez de dados anotados e a artefatos de imagem característicos, incluindo ruído speckle e limites de baixo contraste. Embora as abordagens de aprendizado semissupervisionado (SSL) tenham surgido para lidar com a escassez de dados, os métodos existentes sofrem com utilização subótima de dados não rotulados e carecem de mecanismos robustos de representação de características. Neste artigo, propomos o Switch, uma nova estrutura SSL com duas inovações principais: (1) Estratégia Multiscale Switch (MSS) que emprega mistura hierárquica de *patches* para alcançar cobertura espacial uniforme; (2) Frequency Domain Switch (FDS) com aprendizado contrastivo que realiza comutação de amplitude no espaço de Fourier para representações de características robustas. Nossa estrutura integra esses componentes em uma arquitetura professor-aluno para alavancar eficazmente dados rotulados e não rotulados. Avaliação abrangente em seis conjuntos de dados de ultrassom diversos (linfonodos, lesões mamárias, nódulos tireoidianos e próstata) demonstra superioridade consistente sobre os métodos state-of-the-art. Com taxa de rotulação de 5%, o Switch alcança melhorias notáveis: Dice de 80,04% em LN-INT, 85,52% em DDTI e 83,48% no conjunto de dados da Próstata, com nossa abordagem semissupervisionada superando até mesmo as linhas de base totalmente supervisionadas. O método mantém eficiência de parâmetros (1,8M de parâmetros) enquanto oferece desempenho superior, validando sua eficácia para aplicações de imageamento médico com recursos limitados. O código-fonte está publicamente disponível em https://github.com/jinggqu/Switch.

ReLMXEL: Controlador de Memória Adaptativo Baseado em RL com Otimização Explicável de Energia e Latência
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18

ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M

A redução da latência e do consumo de energia é crítica para melhorar a eficiência dos sistemas de memória na computação moderna. Este trabalho introduz o ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), uma estrutura explicável de aprendizagem por reforço online multiagente que otimiza dinamicamente os parâmetros do controlador de memória usando decomposição de recompensa. O ReLMXEL opera dentro do controlador de memória, aproveitando métricas detalhadas do comportamento da memória para orientar a tomada de decisão. Avaliações experimentais em diversas cargas de trabalho demonstram ganhos de desempenho consistentes em relação a configurações de base, com refinamentos orientados pelo comportamento específico de acesso à memória de cada carga. Ao incorporar a explicabilidade no processo de aprendizagem, o ReLMXEL não apenas melhora o desempenho, mas também aumenta a transparência das decisões de controlo, abrindo caminho para projetos de sistemas de memória mais responsáveis e adaptativos.