HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

27 papers found

Wan-Move: Geração de Vídeo Controlável por Movimento via Orientação de Trajetória Latente
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Dec 9

ByRuihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang

132

Apresentamos o Wan-Move, uma estrutura simples e escalável que introduz controlo de movimento em modelos generativos de vídeo. Os métodos existentes com capacidade de controlo de movimento sofrem tipicamente de granularidade de controlo grosseira e escalabilidade limitada, tornando as suas saídas insuficientes para uso prático. Nós reduzimos esta lacuna ao alcançar um controlo de movimento preciso e de alta qualidade. A nossa ideia central é tornar diretamente as características condicionais originais conscientes do movimento para orientar a síntese de vídeo. Para isso, primeiro representamos os movimentos dos objetos com trajetórias de pontos densas, permitindo um controlo de granularidade fina sobre a cena. De seguida, projetamos estas trajetórias no espaço latente e propagamos as características do primeiro frame ao longo de cada trajetória, produzindo um mapa de características espaço-temporais alinhado que indica como cada elemento da cena deve mover-se. Este mapa de características serve como condição latente atualizada, que é integrada naturalmente no modelo imagem-para-vídeo existente, por exemplo, o Wan-I2V-14B, como orientação de movimento sem qualquer alteração de arquitetura. Isto elimina a necessidade de codificadores de movimento auxiliares e torna o *fine-tuning* de modelos base facilmente escalável. Através de treino em escala, o Wan-Move gera vídeos de 5 segundos e 480p cuja capacidade de controlo de movimento rivaliza com a ferramenta comercial Motion Brush do Kling 1.5 Pro, conforme indicado por estudos de utilizador. Para apoiar uma avaliação abrangente, concebemos ainda o MoveBench, um *benchmark* rigorosamente curado que apresenta categorias de conteúdo diversificadas e anotações híbridas verificadas. Distingue-se pelo maior volume de dados, durações de vídeo mais longas e anotações de movimento de alta qualidade. Experiências extensivas no MoveBench e num conjunto de dados público mostram consistentemente a qualidade superior de movimento do Wan-Move. O código, modelos e dados do *benchmark* são disponibilizados publicamente.

Visionary: O Transportador de Modelo Mundial Construído na Plataforma de Splatting Gaussiano Alimentada por WebGPU
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Dec 9

ByYuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong

A renderização neural, particularmente o 3D Gaussian Splatting (3DGS), evoluiu rapidamente e tornou-se um componente fundamental para a construção de modelos de mundo. No entanto, as soluções de visualização existentes permanecem fragmentadas, pesadas ou limitadas por pipelines legados, resultando em alta dificuldade de implantação e suporte limitado para conteúdo dinâmico e modelos generativos. Neste trabalho, apresentamos o Visionary, uma plataforma web-nativa e aberta para renderização em tempo real de vários Gaussian Splatting e malhas. Construído sobre um renderizador WebGPU eficiente com inferência ONNX por quadro, o Visionary permite processamento neural dinâmico mantendo uma experiência de navegador leve e "clique-e-execute". Ele introduz um contrato padronizado de Gaussian Generator, que não apenas suporta a renderização 3DGS padrão, mas também permite que algoritmos *plug-and-play* gerem ou atualizem Gaussianas a cada quadro. Tal inferência também nos permite aplicar pós-processamento generativo *feedforward*. A plataforma ainda oferece um *plugin* para a biblioteca three.js com uma API TypeScript concisa para integração perfeita em aplicações web existentes. Experimentos mostram que, sob ativos 3DGS idênticos, o Visionary alcança eficiência de renderização superior em comparação com os visualizadores Web atuais, graças à ordenação de primitivas baseada em GPU. Ele já suporta várias variantes, incluindo 3DGS baseado em MLP, 4DGS, avatares neurais e redes de transformação ou aprimoramento de estilo. Ao unificar inferência e renderização diretamente no navegador, o Visionary reduz significativamente a barreira para reprodução, comparação e implantação de métodos da família 3DGS, servindo como um Transportador de Modelo de Mundo unificado para paradigmas reconstrutivos e generativos.

Preservando o Realismo do Vídeo Original: Substituição Facial de Alta Fidelidade para Qualidade Cinematográfica
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Dec 8

ByZekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen

A substituição facial em vídeo é crucial na produção cinematográfica e de entretenimento, onde alcançar alta fidelidade e consistência temporal em sequências de vídeo longas e complexas permanece um desafio significativo. Inspirados pelos recentes avanços na edição de imagens guiada por referência, investigamos se os ricos atributos visuais de vídeos de origem podem ser similarmente aproveitados para aprimorar tanto a fidelidade quanto a coerência temporal na substituição facial em vídeo. Com base nessa percepção, este trabalho apresenta o LivingSwap, o primeiro modelo de substituição facial guiado por referência em vídeo. Nossa abordagem emprega quadros-chave como sinais de condicionamento para injetar a identidade do alvo, permitindo uma edição flexível e controlável. Ao combinar o condicionamento por quadros-chave com a orientação por referência em vídeo, o modelo realiza uma costura temporal para garantir a preservação estável da identidade e uma reconstrução de alta fidelidade em longas sequências de vídeo. Para lidar com a escassez de dados para treinamento guiado por referência, construímos um conjunto de dados pareados para substituição facial, o Face2Face, e ainda invertemos os pares de dados para garantir uma supervisão de ground-truth confiável. Experimentos extensivos demonstram que nosso método alcança resultados state-of-the-art, integrando perfeitamente a identidade do alvo com as expressões, iluminação e movimento do vídeo de origem, enquanto reduz significativamente o esforço manual nos fluxos de trabalho de produção. Página do projeto: https://aim-uofa.github.io/LivingSwap

OneStory: Geração de Vídeo Multi-Shot Coerente com Memória Adaptativa
OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Dec 8

ByZhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie

A narrativa em vídeos do mundo real frequentemente se desenrola por meio de múltiplos planos – clipes descontínuos, mas semanticamente conectados, que juntos transmitem uma narrativa coerente. No entanto, os métodos existentes de geração de vídeo com múltiplos planos (MSV) lutam para modelar efetivamente o contexto de longo alcance entre planos, pois dependem de janelas temporais limitadas ou do condicionamento por um único fotograma-chave, levando a uma degradação do desempenho em narrativas complexas. Neste trabalho, propomos o OneStory, que permite uma modelagem de contexto entre planos global e compacta para uma geração de narrativa consistente e escalável. O OneStory reformula o MSV como uma tarefa de geração do próximo plano, permitindo a síntese autoregressiva de planos enquanto aproveita modelos pré-treinados de imagem para vídeo (I2V) para um condicionamento visual robusto. Introduzimos dois módulos-chave: um módulo de Seleção de Fotogramas que constrói uma memória global semanticamente relevante com base em fotogramas informativos de planos anteriores, e um Condicionador Adaptativo que realiza uma "patchificação" guiada por importância para gerar um contexto compacto para condicionamento direto. Além disso, curadamos um conjunto de dados de alta qualidade com múltiplos planos e legendas referenciais para espelhar padrões de narrativa do mundo real, e projetamos estratégias de treinamento eficazes sob o paradigma do próximo plano. Fine-tuneado a partir de um modelo I2V pré-treinado em nosso conjunto de dados curado de 60K amostras, o OneStory alcança uma coerência narrativa state-of-the-art em diversas cenas complexas, tanto em configurações condicionadas por texto quanto por imagem, permitindo a criação de narrativas vídeo de longa duração controláveis e imersivas.

DeepCode: Codificação Agêntica Aberta
DeepCode: Open Agentic Coding

Dec 8

ByZongwei Li, Zhonghang Li, Zirui Guo, Xubin Ren, Chao Huang

Os recentes avanços em grandes modelos de linguagem (LLMs) deram origem a agentes de codificação poderosos, tornando possível que assistentes de código evoluam para engenheiros de código. No entanto, os métodos existentes ainda enfrentam desafios significativos para alcançar uma síntese de alta fidelidade de documento para base de código—como a conversão de artigos científicos em código—principalmente devido a um conflito fundamental entre a sobrecarga de informação e os gargalos de contexto dos LLMs. Neste trabalho, introduzimos o DeepCode, uma estrutura totalmente autônoma que aborda fundamentalmente esse desafio por meio de um gerenciamento principiado do fluxo de informação. Ao tratar a síntese de repositórios como um problema de otimização de canal, o DeepCode orquestra perfeitamente quatro operações de informação para maximizar sinais relevantes para a tarefa sob orçamentos de contexto finitos: compressão da fonte via destilação de blueprint, indexação estruturada usando memória de código com estado, injeção condicional de conhecimento via geração aumentada por recuperação e correção de erros em circuito fechado. Avaliações extensivas no benchmark PaperBench demonstram que o DeepCode alcança desempenho de ponta, superando decisivamente agentes comerciais líderes como Cursor e Claude Code e, crucialmente, superando especialistas humanos de nível doutoral de institutos de elite em métricas-chave de reprodução. Ao transformar sistematicamente especificações de artigos em implementações de nível de produção comparáveis à qualidade de especialistas humanos, este trabalho estabelece novas bases para a reprodução científica autônoma que pode acelerar a avaliação e descoberta de pesquisas.

De Next-Token para Next-Block: Um Caminho de Adaptação Fundamentado para LLMs de Difusão
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

Dec 7

ByYuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang

Os grandes modelos de linguagem (LLMs) destacam-se na geração de texto, mas a decodagem autoregressiva (AR) dominante é inerentemente sequencial, criando um gargalo de produtividade. Os Modelos de Linguagem por Difusão (DLMs) – especialmente as variantes de geração em blocos – permitem geração paralela e raciocínio bidirecional intrabloco, mas o treinamento de grandes DLMs a partir do zero é dispendioso e desperdiça o conhecimento contido em checkpoints AR maduros. Tentativas anteriores de "adaptação" modificaram logits ou expandiram aleatoriamente máscaras de atenção para difusão de sequência completa, ou simplesmente transplantaram pesos AR para uma receita de difusão em blocos, deixando sem solução uma incompatibilidade fundamental entre a causalidade AR e a bidirecionalidade em blocos. Reformulamos a adaptação como um caminho intraparadigmático de AR para Difusão em Blocos, encarando a AR como Difusão em Blocos com tamanho de bloco=1. Concretamente, projetamos o percurso de adaptação da seguinte forma: usamos uma máscara de atenção contexto-causal (causal no contexto, bidirecional apenas dentro do bloco ativo), um procedimento de adaptação paralela eficiente, uma perda AR auxiliar para maximizar a utilização de dados e reter conhecimento pré-treinado, e incremento gradual do tamanho do bloco de geração. A receita integra-se perfeitamente com a difusão em blocos mascarada e mantém a consistência treino-inferência. Construídos sobre esses componentes, os modelos NBDiff-7B (Base e Instrução) puderam herdar as capacidades de modelagem de contexto longo e raciocínio, alcançando desempenho de ponta entre os DLMs da classe 7B, obtendo ganhos significativos em benchmarks de conhecimento geral, matemática e código sobre bases fortes. Esses resultados demonstram que a adaptação fundamentada de AR para difusão em blocos é uma alternativa eficaz e computacionalmente eficiente ao treinamento de DLMs a partir do zero. Códigos: https://github.com/YuchuanTian/NBDiff.

Lento no Solo, Rápido em Movimento: Um Modelo de Fundação de Sistema Duplo para Navegação Visual e Linguística Generalizável
Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

Dec 9

ByMeng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu

Embora os modelos visão-linguagem (VLMs) recentes de grande escala tenham aprimorado a generalização na navegação visão-linguagem (VLN), os métodos existentes geralmente dependem de pipelines de ponta a ponta que mapeiam entradas visão-linguagem diretamente para ações discretas de curto prazo. Tais projetos frequentemente produzem movimentos fragmentados, incorrem em alta latência e lutam contra desafios do mundo real, como a evitação dinâmica de obstáculos. Propomos o DualVLN, o primeiro modelo de base VLN de sistema dual que integra sinergicamente o raciocínio de alto nível com a execução de ações de baixo nível. O Sistema 2, um planejador global baseado em VLM, "aterrissa lentamente" ao prever objetivos de waypoint de médio prazo por meio de raciocínio ancorado em imagem. O Sistema 1, uma política leve de Transformer de Difusão com condicionamento multimodal, "move-se rapidamente" ao alavancar tanto objetivos de pixel explícitos quanto características latentes do Sistema 2 para gerar trajetórias suaves e precisas. O projeto de sistema dual permite controle robusto em tempo real e tomada de decisão local adaptativa em ambientes complexos e dinâmicos. Ao desacoplar o treinamento, o VLM mantém sua generalização, enquanto o Sistema 1 alcança uma navegação local interpretável e eficaz. O DualVLN supera os métodos anteriores em todos os benchmarks de VLN, e experimentos no mundo real demonstram planejamento robusto de longo prazo e adaptabilidade em tempo real em ambientes dinâmicos.

ThreadWeaver: Threading Adaptativo para Raciocínio Paralelo Eficiente em Modelos de Linguagem
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Nov 24

ByLong Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin

A escalabilidade da computação em tempo de inferência permitiu que os Modelos de Linguagem de Grande Porte (LLMs) atingissem um forte desempenho de raciocínio, mas a decodificação inerentemente sequencial resulta em uma latência substancial, especialmente em tarefas complexas. Trabalhos recentes sobre raciocínio paralelo adaptativo visam melhorar a eficiência da inferência decompondo o processo de resolução de problemas em linhas de raciocínio concorrentes quando benéfico. No entanto, os métodos existentes para tarefas realistas estão limitados à clonagem de comportamento supervisionada ou exibem quedas significativas de precisão em comparação com as linhas de pensamento (CoT) sequenciais longas amplamente utilizadas como baseline. Além disso, muitos requerem motores de inferência personalizados, complicando a implantação. Apresentamos o ThreadWeaver, uma estrutura para raciocínio paralelo adaptativo que atinge uma precisão equivalente aos modelos de raciocínio sequencial populares de tamanho comparável, reduzindo significativamente a latência de inferência. O desempenho do ThreadWeaver decorre de três inovações principais: 1) um gerador de trajetória paralela de dois estágios que produz dados CoT em larga escala e de alta qualidade com anotações paralelas para ajuste fino supervisionado; 2) um co-projeto de treinamento-inferência baseado em trie que permite o raciocínio paralelo em qualquer motor de inferência autoregressivo padrão sem modificar os *embeddings* posicionais ou as caches KV; e 3) uma estrutura de aprendizagem por reforço consciente da paralelização que ensina o modelo a equilibrar a precisão com uma paralelização eficaz. Em seis benchmarks desafiadores de raciocínio matemático, o ThreadWeaver treinado sobre o Qwen3-8B atinge uma precisão comparável aos modelos de raciocínio sequencial de última geração (71,9% em média e 79,9% no AIME24), ao mesmo tempo que proporciona até 1,53x de aceleração média na latência por *token*, estabelecendo uma nova fronteira de Pareto entre precisão e eficiência.

Reconstruindo Cenas Dinâmicas de Forma Eficiente, um D4RT de Cada Vez
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

Dec 9

ByChuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi

A compreensão e reconstrução da geometria e do movimento complexos de cenas dinâmicas a partir de vídeo continua a ser um desafio formidável na visão computacional. Este artigo apresenta o D4RT, um modelo *feedforward* simples, mas poderoso, concebido para resolver esta tarefa de forma eficiente. O D4RT utiliza uma arquitetura unificada de *transformers* para inferir conjuntamente a profundidade, a correspondência espaço-temporal e os parâmetros completos da câmara a partir de um único vídeo. A sua principal inovação é um novo mecanismo de consulta que contorna a computação intensiva da descodificação densa por fotograma e a complexidade de gerir múltiplos descodificadores específicos para cada tarefa. A nossa interface de descodificação permite ao modelo sondar de forma independente e flexível a posição 3D de qualquer ponto no espaço e no tempo. O resultado é um método leve e altamente escalável que permite um treino e uma inferência notavelmente eficientes. Demonstramos que a nossa abordagem estabelece um novo estado da arte, superando métodos anteriores numa ampla gama de tarefas de reconstrução 4D. Remetemos para a página web do projeto para resultados animados: https://d4rt-paper.github.io/.

Arbitragem: Raciocínio Eficiente por meio de Especulação Consciente de Vantagem
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Dec 4

ByMonishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

Os Grandes Modelos de Linguagem Modernos alcançam capacidades impressionantes de raciocínio com longas Cadeias de Pensamento, mas incorrem em custos computacionais substanciais durante a inferência, o que motiva o desenvolvimento de técnicas para melhorar a relação custo-desempenho. Entre essas técnicas, a Decodificação Especulativa acelera a inferência empregando um modelo rascunho rápido, porém impreciso, para propor tokens de forma autoregressiva, que são então verificados em paralelo por um modelo alvo mais capaz. No entanto, devido a rejeições desnecessárias causadas por discrepâncias de tokens em etapas semanticamente equivalentes, a Decodificação Especulativa tradicional em nível de token tem dificuldades em tarefas de raciocínio. Embora trabalhos recentes tenham migrado para a verificação semântica em nível de etapa, que melhora a eficiência ao aceitar ou rejeitar etapas inteiras de raciocínio, os métodos existentes em nível de etapa ainda regeneram muitas etapas rejeitadas com pouca melhoria, desperdiçando computação valiosa do modelo alvo. Para enfrentar este desafio, propomos o Arbitrage, uma nova estrutura de geração especulativa em nível de etapa que direciona a geração dinamicamente com base na vantagem relativa entre os modelos rascunho e alvo. Em vez de aplicar um limite de aceitação fixo, o Arbitrage utiliza um roteador leve treinado para prever quando o modelo alvo provavelmente produzirá uma etapa significativamente melhor. Este roteamento aproxima-se de um Oráculo de Arbitragem ideal que sempre escolhe a etapa de maior qualidade, alcançando compensações de eficiência-precisão quase ótimas. Em vários benchmarks de raciocínio matemático, o Arbitrage supera consistentemente as linhas de base anteriores de Decodificação Especulativa em nível de etapa, reduzindo a latência de inferência em até ~2 vezes com a mesma precisão.

MIND-V: Geração Hierárquica de Vídeo para Manipulação Robótica de Longo Prazo com Alinhamento Físico Baseado em RL
MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

Dec 7

ByRuicheng Zhang, Mingyang Zhang, Jun Zhou, Zhangrui Guo, Xiaofan Liu, Zunnan Xu, Zhizhou Zhong, Puxin Yan, Haocheng Luo, Xiu Li

A aprendizagem por imitação incorporada é limitada pela escassez de dados diversos e de longo horizonte sobre manipulação robótica. Os modelos existentes de geração de vídeo para este domínio estão limitados à síntese de clipes curtos de ações simples e frequentemente dependem de trajetórias definidas manualmente. Para tal, apresentamos o MIND-V, uma estrutura hierárquica concebida para sintetizar vídeos fisicamente plausíveis e logicamente coerentes de manipulação robótica de longo horizonte. Inspirado pela ciência cognitiva, o MIND-V liga o raciocínio de alto nível à síntese a nível de pixel através de três componentes principais: um *Semantic Reasoning Hub* (SRH) que aproveita um modelo visão-linguagem pré-treinado para o planeamento de tarefas; uma *Behavioral Semantic Bridge* (BSB) que traduz instruções abstratas em representações invariantes ao domínio; e um *Motor Video Generator* (MVG) para a renderização condicional de vídeo. O MIND-V emprega *Staged Visual Future Rollouts*, uma estratégia de otimização em tempo de teste para melhorar a robustez de longo horizonte. Para alinhar os vídeos gerados com as leis físicas, introduzimos uma fase de pós-treinamento por reforço GRPO guiada por uma nova recompensa *Physical Foresight Coherence* (PFC). A PFC aproveita o modelo mundial V-JEPA para impor plausibilidade física, alinhando as evoluções dinâmicas previstas e reais no espaço de características. O MIND-V demonstra um desempenho de ponta na geração de vídeos de manipulação robótica de longo horizonte, estabelecendo um paradigma escalável e controlável para a síntese de dados incorporados.

Potencialização da Segmentação de Instâncias em Vídeo Não Supervisionada com Auto-Treinamento Guiado por Qualidade Automática
Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

Dec 7

ByKaixuan Lu, Mehmet Onurcan Kaya, Dim P. Papadopoulos

A Segmentação de Instâncias em Vídeo (VIS) enfrenta desafios significativos de anotação devido aos seus requisitos duplos de máscaras em nível de pixel e rótulos de consistência temporal. Embora métodos não supervisionados recentes como o VideoCutLER eliminem dependências de fluxo óptico através de dados sintéticos, eles permanecem limitados pela diferença de domínio entre sintético e real. Apresentamos o AutoQ-VIS, uma nova estrutura não supervisionada que preenche esta lacuna através de auto-treinamento guiado por qualidade. Nossa abordagem estabelece um sistema de ciclo fechado entre a geração de pseudo-rótulos e a avaliação automática de qualidade, permitindo uma adaptação progressiva de vídeos sintéticos para reais. Os experimentos demonstram um desempenho de última geração com 52.6 AP_{50} no conjunto de validação do YouTubeVIS-2019, superando o VideoCutLER, anteriormente o estado da arte, em 4.4%, sem exigir anotações humanas. Isto demonstra a viabilidade do auto-treinamento consciente da qualidade para VIS não supervisionado. O código será disponibilizado em https://github.com/wcbup/AutoQ-VIS.

COREA: Alinhamento de Representação 3D de Grosseiro a Refinado entre Gaussianos 3D Reilumináveis e SDF via Supervisão Bidirecional 3D-para-3D
COREA: Coarse-to-Fine 3D Representation Alignment Between Relightable 3D Gaussians and SDF via Bidirectional 3D-to-3D Supervision

Dec 8

ByJaeyoon Lee, Hojoon Jung, Sungtae Hwang, Jihyong Oh, Jongwon Choi

Apresentamos o COREA, o primeiro framework unificado que aprende conjuntamente Gaussianas 3D rerilumináveis e um Campo de Distância com Sinal (SDF) para uma reconstrução geométrica precisa e uma reriluminação fiel. Embora os métodos recentes de *Gaussian Splatting* 3D (3DGS) tenham se estendido para a reconstrução de malhas e renderização fisicamente baseada (PBR), sua geometria ainda é aprendida a partir de renderizações 2D, resultando em superfícies grosseiras e uma decomposição BRDF-iluminação pouco confiável. Para superar essas limitações, o COREA introduz uma estratégia de alinhamento bidirecional 3D-para-3D, do grosso para o fino, que permite que os sinais geométricos sejam aprendidos diretamente no espaço 3D. Dentro desta estratégia, a profundidade fornece um alinhamento grosso entre as duas representações, enquanto os gradientes de profundidade e as normais refinam a estrutura em escala fina, e a geometria resultante suporta uma decomposição BRDF-iluminação estável. Um mecanismo de controle de densidade estabiliza ainda mais o crescimento das Gaussianas, equilibrando a fidelidade geométrica com a eficiência de memória. Experimentos em benchmarks padrão demonstram que o COREA atua de forma superior na síntese de novas visões, reconstrução de malhas e PBR dentro de um framework unificado.

Ver, Ouvir e Compreender: Avaliação da Compreensão Audiovisual da Fala Humana em Modelos de Linguagem Multimodais de Grande Escala
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

Dec 1

ByLe Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee

Os modelos de linguagem multimodal de grande escala (MLLMs) são projetados para interpretar conjuntamente visão, áudio e linguagem, porém os benchmarks de vídeo existentes raramente avaliam o raciocínio refinado sobre a fala humana. Muitas tarefas permanecem solucionáveis visualmente ou apenas avaliam a fala de forma grosseira, oferecendo insights limitados sobre se os modelos conseguem alinhar quem fala, o que é dito e quando isso ocorre. Apresentamos o AV-SpeakerBench, um benchmark curado composto por 3.212 questões de múltipla escolha focadas no raciocínio audiovisual centrado no falante em vídeos do mundo real. Ele apresenta: (1) uma formulação centrada no falante que trata os falantes – e não as cenas – como a unidade central de raciocínio; (2) um design de questões baseado em fusão, incorporando dependências audiovisuais na semântica das perguntas; e (3) anotações curadas por especialistas, garantindo precisão temporal e validade cross-modal. Avaliações abrangentes mostram que a família Gemini supera consistentemente os sistemas de código aberto, com o Gemini 2.5 Pro alcançando os melhores resultados. Entre os modelos abertos, o Qwen3-Omni-30B se aproxima do Gemini 2.0 Flash, mas permanece muito atrás do Gemini 2.5 Pro, principalmente devido a uma fusão audiovisual mais fraca, e não à percepção visual. Acreditamos que o AV-SpeakerBench estabelece uma base rigorosa para o avanço do raciocínio audiovisual refinado em futuros sistemas multimodais.

TreeGRPO: Tree-Advantage GRPO para Pós-Treinamento Online de RL em Modelos de Difusão
TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

Dec 9

ByZheng Ding, Weirui Ye

O pós-treinamento por aprendizagem por reforço (RL) é crucial para alinhar modelos generativos com as preferências humanas, mas o seu custo computacional proibitivo permanece uma grande barreira para a adoção generalizada. Apresentamos o TreeGRPO, uma nova estrutura de RL que melhora drasticamente a eficiência do treinamento ao reformular o processo de remoção de ruído como uma árvore de busca. A partir de amostras de ruído inicial compartilhadas, o TreeGRPO ramifica-se estrategicamente para gerar múltiplos percursos candidatos, reutilizando eficientemente os seus prefixos comuns. Esta abordagem estruturada em árvore oferece três vantagens principais: (1) Alta eficiência de amostragem, alcançando melhor desempenho com a mesma quantidade de amostras de treinamento; (2) Atribuição de crédito refinada através da retropropagação de recompensas que calcula vantagens específicas por passo, superando a limitação de atribuição uniforme de crédito dos métodos baseados em trajetória; e (3) Computação amortizada, onde a ramificação com múltiplos filhos permite várias atualizações da política por passagem forward. Experimentos extensivos em modelos baseados em difusão e fluxo demonstram que o TreeGRPO alcança um treinamento 2,4 vezes mais rápido, estabelecendo simultaneamente uma fronteira de Pareto superior no espaço de compromisso eficiência-recompensa. O nosso método supera consistentemente as linhas de base do GRPO em múltiplos benchmarks e modelos de recompensa, fornecendo um caminho escalável e eficaz para o alinhamento de modelos generativos visuais baseado em RL. O site do projeto está disponível em treegrpo.github.io.

Processamento Neural Modular de Sinais de Imagem
Modular Neural Image Signal Processing

Dec 9

ByMahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown

Este artigo apresenta uma estrutura modular de processamento neural de sinais de imagem (ISP) que processa dados brutos e produz imagens de alta qualidade referenciadas para exibição. Diferentemente de projetos neurais de ISP anteriores, nosso método introduz um alto grau de modularidade, fornecendo controle completo sobre múltiplos estágios intermediários do processo de renderização.~Este design modular não apenas alcança alta precisão de renderização, mas também melhora a escalabilidade, a capacidade de depuração, a generalização para câmeras não vistas e a flexibilidade para adaptar-se a diferentes estilos de preferência do usuário. Para demonstrar as vantagens deste design, desenvolvemos uma ferramenta interativa de edição fotográfica que aproveita nosso ISP neural para suportar diversas operações de edição e estilos de imagem. A ferramenta foi cuidadosamente projetada para aproveitar a renderização de alta qualidade do nosso ISP neural e permitir rerrenderizações pós-editáveis ilimitadas. Nosso método é uma estrutura totalmente baseada em aprendizado com variantes de diferentes capacidades, todas de tamanho moderado (variando de ~0,5 M a ~3,9 M de parâmetros para todo o pipeline), e produz consistentemente resultados qualitativos e quantitativos competitivos em múltiplos conjuntos de teste. Assista ao vídeo suplementar em: https://youtu.be/ByhQjQSjxVM

SUCCESS-GS: Levantamento sobre Compacticidade e Compressão para Splatting Gaussiano Estático e Dinâmico Eficiente
SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting

Dec 8

BySeokhyun Youn, Soohyun Lee, Geonho Kim, Weeyoung Kwon, Sung-Ho Bae, Jihyong Oh

O 3D Gaussian Splatting (3DGS) emergiu como uma poderosa representação explícita que permite a reconstrução 3D em tempo real e de alta fidelidade, bem como a síntese de novas vistas. No entanto, sua utilização prática é dificultada pelas maciças demandas de memória e computação necessárias para armazenar e renderizar milhões de Gaussianas. Esses desafios tornam-se ainda mais severos em cenas dinâmicas 4D. Para enfrentar esses problemas, o campo do *Efficient Gaussian Splatting* evoluiu rapidamente, propondo métodos que reduzem a redundância enquanto preservam a qualidade da reconstrução. Esta pesquisa fornece a primeira visão geral unificada das técnicas eficientes de 3D e 4D Gaussian Splatting. Tanto para configurações 3D quanto 4D, categorizamos sistematicamente os métodos existentes em duas direções principais, *Compressão de Parâmetros* e *Compressão por Reestruturação*, e resumimos de forma abrangente as ideias centrais e as tendências metodológicas dentro de cada categoria. Adicionalmente, cobrimos conjuntos de dados amplamente utilizados, métricas de avaliação e comparações representativas de benchmarks. Por fim, discutimos as limitações atuais e delineamos direções de pesquisa promissoras para um Gaussian Splatting escalável, compacto e em tempo real, destinado à representação de cenas 3D estáticas e dinâmicas.

TrackingWorld: Rastreamento Monocular 3D Centrado no Mundo de Quase Todos os Pixels
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

Dec 9

ByJiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu

O rastreamento 3D monocular visa capturar o movimento de longo prazo de pixels no espaço 3D a partir de um único vídeo monocular e tem registrado progressos rápidos nos últimos anos. No entanto, argumentamos que os métodos existentes de rastreamento 3D monocular ainda são insuficientes para separar o movimento da câmera do movimento dinâmico em primeiro plano e não conseguem rastrear densamente novos sujeitos dinâmicos que emergem nos vídeos. Para abordar essas duas limitações, propomos o TrackingWorld, um pipeline inovador para rastreamento 3D denso de quase todos os pixels dentro de um sistema de coordenadas 3D centrado no mundo. Primeiro, introduzimos um upsampler de rastreamento que eleva eficientemente rastreamentos 2D esparsos arbitrários para rastreamentos 2D densos. Em seguida, para generalizar os métodos de rastreamento atuais para objetos recém-emergentes, aplicamos o upsampler a todos os quadros e reduzimos a redundância dos rastreamentos 2D eliminando os rastreamentos em regiões sobrepostas. Finalmente, apresentamos uma estrutura eficiente baseada em otimização para retroprojetar rastreamentos 2D densos em trajetórias 3D centradas no mundo, estimando as poses da câmera e as coordenadas 3D desses rastreamentos 2D. Avaliações extensivas em conjuntos de dados sintéticos e do mundo real demonstram que nosso sistema alcança rastreamento 3D preciso e denso em um sistema de coordenadas centrado no mundo.

MemLoRA: Destilando Adaptadores Especializados para Sistemas de Memória em Dispositivos
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

Dec 4

ByMassimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli

Os Modelos de Linguagem Grande Aumentados por Memória (LLMs) demonstraram uma consistência notável durante diálogos prolongados, armazenando memórias relevantes e incorporando-as como contexto. Essa personalização baseada em memória também é fundamental em ambientes *on-device* que permitem aos usuários manter suas conversas e dados privados. No entanto, os sistemas aumentados por memória normalmente dependem de LLMs que são demasiado dispendiosos para implantação local em dispositivos. Embora os Modelos de Linguagem Pequenos (SLMs) sejam mais adequados para inferência *on-device* do que os LLMs, eles não conseguem alcançar desempenho suficiente. Adicionalmente, esses sistemas baseados em LLMs carecem de capacidades visuais nativas, limitando sua aplicabilidade em contextos multimodais. Neste artigo, introduzimos (i) o MemLoRA, um novo sistema de memória que permite a implantação local ao equipar SLMs com adaptadores de memória especializados, e (ii) sua extensão visual MemLoRA-V, que integra Pequenos Modelos de Visão e Linguagem (SVLMs) aos sistemas de memória, permitindo a compreensão visual nativa. Seguindo os princípios da destilação de conhecimento, cada adaptador é treinado separadamente para operações específicas de memória – extração de conhecimento, atualização de memória e geração aumentada por memória. Equipados com adaptadores de memória, os modelos pequenos permitem operações de memória *on-device* precisas sem dependência da nuvem. Em operações apenas de texto, o MemLoRA supera modelos de linha de base 10 vezes maiores (por exemplo, Gemma2-27B) e alcança um desempenho comparável a modelos 60 vezes maiores (por exemplo, GPT-OSS-120B) no benchmark LoCoMo. Para avaliar operações de compreensão visual, estendemos o LoCoMo com tarefas desafiadoras de Resposta a Perguntas Visuais que exigem raciocínio visual direto. Neste, nosso MemLoRA-V integrado com VLM mostra melhorias massivas em relação a abordagens baseadas em legendas (81,3 vs. 23,7 de precisão), mantendo um forte desempenho em tarefas baseadas em texto, demonstrando a eficácia do nosso método em contextos multimodais.

Difusão de Terreno: Um Sucessor Baseado em Difusão ao Ruído de Perlin na Geração de Terrenos Infinitos em Tempo Real
Terrain Diffusion: A Diffusion-Based Successor to Perlin Noise in Infinite, Real-Time Terrain Generation

Dec 9

ByAlexander Goslin

Há décadas, os mundos procedurais são construídos com funções de ruído procedural como o ruído Perlin, que são rápidas e infinitas, mas fundamentalmente limitadas em realismo e coerência em larga escala. Apresentamos o Terrain Diffusion, um sucessor da era da IA para o ruído Perlin que une a fidelidade dos modelos de difusão com as propriedades que tornaram o ruído procedural indispensável: extensão infinita e sem costuras, consistência de *seed* e acesso aleatório em tempo constante. Em seu núcleo está o InfiniteDiffusion, um novo algoritmo para geração infinita, permitindo a síntese em tempo real de paisagens ilimitadas sem costuras. Uma pilha hierárquica de modelos de difusão associa o contexto planetário com detalhes locais, enquanto uma codificação Laplaciana compacta estabiliza as saídas em escalas dinâmicas de amplitude planetária. Uma estrutura de *tensor* infinito de código aberto suporta a manipulação com uso de memória constante de *tensors* ilimitados, e a destilação de consistência em poucos passos permite uma geração eficiente. Juntos, esses componentes estabelecem os modelos de difusão como uma base prática para a geração procedural de mundos, capaz de sintetizar planetas inteiros de forma coerente, controlável e sem limites.

LYNX: Aprendizado de Saídas Dinâmicas para Raciocínio Controlado por Confiança
LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

Dec 5

ByÖmer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna

Os grandes modelos de raciocínio alcançam forte desempenho em tarefas complexas gerando cadeias de pensamento extensas, mas frequentemente "pensam demais": continuam a raciocinar muito depois de terem informações suficientes para responder corretamente. Isso desperdiça computação no momento da inferência e pode prejudicar a precisão. As tentativas existentes de parada antecipada ou manipulam a decodificação com amostragem extra e heurísticas, dependem de modelos verificadores auxiliares, ou operam apenas como pipelines de análise post-hoc sem garantias formais. Apresentamos o LYNX, um mecanismo de saída antecipada online que transforma a autoconsciência do estado interno do modelo em decisões de parada controladas por confiança. O LYNX vincula decisões de saída a pistas de raciocínio que ocorrem naturalmente (ex: "hmm", "espera") durante a geração, treina uma sonda leve nos estados internos nesses tokens de pista usando supervisão de saídas forçadas, e encapsula as pontuações resultantes em predição conformal split para obter controle livre de distribuição sobre saídas prematuras. Crucialmente, treinamos e calibramos esta sonda uma vez em um corpus matemático genérico e a reutilizamos inalterada em benchmarks, temperaturas de decodificação e até mesmo em tarefas não matemáticas. Em três famílias de modelos abrangendo de 1,5B a 32B de parâmetros, uma única sonda treinada matematicamente por modelo base produz fortes compensações entre precisão e eficiência. No GSM8K, o LYNX iguala ou melhora a precisão da linha de base enquanto reduz os tokens em 40–65%; no MATH-500 ele melhora a precisão em até 12 pontos com aproximadamente 35–60% menos tokens; no AIME 2024 ele recupera a precisão da linha de base com economia de mais de 50% nos tokens; e no CommonsenseQA, um benchmark não matemático, ele transfere zero-shot com ganhos modestos de precisão e até 70% menos tokens. Comparado aos métodos state-of-the-art de saída antecipada, o LYNX oferece fronteiras de Pareto competitivas ou superiores, mantendo-se totalmente online, não exigindo modelos proxy na inferência e fornecendo garantias de confiança explícitas e ajustáveis pelo usuário.

Novas Arquiteturas de Aprendizagem Profunda para Classificação e Segmentação de Tumores Cerebrais a partir de Imagens de Ressonância Magnética
Novel Deep Learning Architectures for Classification and Segmentation of Brain Tumors from MRI Images

Dec 6

BySayan Das, Arghadip Biswas

Os tumores cerebrais representam uma ameaça significativa à vida humana, sendo, portanto, extremamente necessário detectá-los com precisão nos estágios iniciais para um melhor diagnóstico e tratamento. Os tumores cerebrais podem ser detectados manualmente pelo radiologista a partir das imagens de ressonância magnética dos pacientes. No entanto, a incidência de tumores cerebrais aumentou entre crianças e adolescentes nos últimos anos, resultando em um volume substancial de dados e, consequentemente, tornando a detecção manual demorada e difícil. Com o surgimento da Inteligência Artificial no mundo moderno e sua vasta aplicação no campo médico, podemos desenvolver uma abordagem para um sistema CAD (Diagnóstico Auxiliado por Computador) para a detecção automática precoce de tumores cerebrais. Todos os modelos existentes para esta tarefa não são completamente generalizados e apresentam desempenho insatisfatório nos dados de validação. Portanto, propomos duas novas arquiteturas de Aprendizado Profundo: (a) **SAETCN (Rede de Classificação de Tumores com Aprimoramento por Autoatenção)** para a classificação de diferentes tipos de tumores cerebrais. Obtivemos uma precisão de 99,38% no conjunto de dados de validação, tornando-a uma das poucas arquiteturas novas baseadas em Aprendizado Profundo capaz de detectar tumores cerebrais com precisão. Treinamos o modelo no conjunto de dados que contém imagens de 3 tipos de tumores (glioma, meningioma e tumores pituitários) e casos sem tumor. e (b) **SAS-Net (Rede de Segmentação com Autoatenção)** para a segmentação precisa de tumores cerebrais. Alcançamos uma precisão global de pixel de 99,23%.

SAM-Body4D: Recuperação de Malhas Corporais Humanas 4D sem Treinamento a partir de Vídeos
SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos

Dec 9

ByMingqi Gao, Yunqi Miao, Jungong Han

A Recuperação de Malha Humana (HMR) tem como objetivo reconstruir a pose e a forma 3D de um humano a partir de observações 2D e é fundamental para a compreensão centrada no humano em cenários do mundo real. Embora métodos recentes de HMR baseados em imagem, como o SAM 3D Body, alcancem uma forte robustez em imagens "in-the-wild" (do mundo real), eles dependem de inferência por quadro quando aplicados a vídeos, resultando em inconsistência temporal e degradação do desempenho sob oclusões. Nós abordamos essas questões sem treinamento adicional, aproveitando a continuidade humana inerente nos vídeos. Propomos o SAM-Body4D, uma estrutura *training-free* (sem necessidade de treino) para HMR temporalmente consistente e robusto a oclusões a partir de vídeos. Primeiro, geramos *masklets* (pequenas máscaras) consistentes em identidade usando um modelo de segmentação de vídeo acionável por *prompts* (instruções), depois os refinamos com um módulo de Consciência de Oclusão para recuperar regiões faltantes. Os *masklets* refinados orientam o SAM 3D Body a produzir trajetórias de malha corporal completa consistentes, enquanto uma estratégia paralela baseada em *padding* (preenchimento) permite uma inferência eficiente para múltiplas pessoas. Resultados experimentais demonstram que o SAM-Body4D alcança uma estabilidade temporal e robustez melhoradas em vídeos "in-the-wild" desafiadores, sem qualquer retreinamento. Nosso código e demonstração estão disponíveis em: https://github.com/gaomingqi/sam-body4d.

EcomBench: Rumo a uma Avaliação Holística de Agentes Base em E-commerce
EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

Dec 9

ByRui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie

Os agentes de base avançaram rapidamente em sua capacidade de raciocinar e interagir com ambientes reais, tornando a avaliação de suas capacidades centrais cada vez mais importante. Embora muitos benchmarks tenham sido desenvolvidos para avaliar o desempenho de agentes, a maioria concentra-se em ambientes acadêmicos ou cenários artificialmente projetados, negligenciando os desafios que surgem em aplicações reais. Para resolver esta questão, focamos num cenário do mundo real altamente prático: o domínio do comércio eletrónico, que envolve um grande volume de interações diversificadas de utilizadores, condições dinâmicas de mercado e tarefas diretamente ligadas a processos reais de tomada de decisão. Para tal, introduzimos o EcomBench, um Benchmark Holístico de Comércio Eletrónico concebido para avaliar o desempenho de agentes em ambientes realistas de e-commerce. O EcomBench é construído a partir de necessidades genuínas dos utilizadores, incorporadas nos principais ecossistemas globais de comércio eletrónico, e é cuidadosamente selecionado e anotado por especialistas humanos para garantir clareza, precisão e relevância no domínio. Abrange múltiplas categorias de tarefas dentro de cenários de e-commerce e define três níveis de dificuldade que avaliam os agentes em capacidades-chave, como recuperação profunda de informação, raciocínio multi-etapa e integração de conhecimento de múltiplas fontes. Ao fundamentar a avaliação em contextos reais de comércio eletrónico, o EcomBench fornece um teste rigoroso e dinâmico para medir as capacidades práticas dos agentes no e-commerce moderno.

Previsão de Escoamento Dependente do Tempo sobre Geometrias Complexas Usando Redes de Operadores
Predicting Time-Dependent Flow Over Complex Geometries Using Operator Networks

Dec 4

ByAli Rabeh, Suresh Murugaiyan, Adarsh Krishnamurthy, Baskar Ganapathysubramanian

Substitutos rápidos e com capacidade de generalização geométrica para escoamentos não permanentes permanecem um desafio. Apresentamos uma Rede de Operador Profundo (DeepONet) dependente do tempo e com consciência geométrica que prevê campos de velocidade para escoamentos com número de Reynolds moderado em torno de formas paramétricas e não paramétricas. O modelo codifica a geometria através de um tronco de campo de distância com sinal (SDF) e o histórico do escoamento através de um ramo de Rede Neural Convolucional (CNN), treinado com 841 simulações de alta fidelidade. Em formas excluídas do conjunto de treino, o modelo atinge um erro relativo L2 de passo único de aproximadamente 5% e acelerações de até 1000 vezes em relação à Dinâmica de Fluidos Computacional (CFD). Fornecemos diagnósticos de evolução temporal centrados na física, incluindo erro de fase em sondas e normas de divergência, para quantificar a fidelidade em horizontes longos. Estes revelam transientes precisos a curto prazo, mas acumulação de erro nos vórtices de pequena escala, mais pronunciada em geometrias com cantos vivos. Analisamos os modos de falha e delineamos medidas de mitigação práticas. Código, divisões de dados e scripts são disponibilizados publicamente em: https://github.com/baskargroup/TimeDependent-DeepONet para apoiar a reprodutibilidade e a avaliação comparativa.

SegEarth-OV3: Explorando o SAM 3 para Segmentação Semântica de Vocabulário Aberto em Imagens de Sensoriamento Remoto
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images

Dec 9

ByKaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao

A maioria dos métodos existentes para Segmentação Semântica de Vocabulário Aberto (OVSS) sem treinamento é baseada no CLIP. Embora essas abordagens tenham feito progressos, elas frequentemente enfrentam desafios na localização precisa ou exigem pipelines complexos para combinar módulos separados, especialmente em cenários de sensoriamento remoto onde existem inúmeros alvos densos e pequenos. Recentemente, o Segment Anything Model 3 (SAM 3) foi proposto, unificando segmentação e reconhecimento em uma estrutura acionável por prompts. Neste artigo, apresentamos uma exploração preliminar da aplicação do SAM 3 à tarefa de OVSS de sensoriamento remoto sem qualquer treinamento. Primeiro, implementamos uma estratégia de fusão de máscaras que combina as saídas do cabeçalho de segmentação semântica do SAM 3 e do decodificador Transformer (cabeçalho de instância). Isso nos permite aproveitar os pontos fortes de ambos os cabeçalhos para uma melhor cobertura do terreno. Segundo, utilizamos a pontuação de presença do cabeçalho de presença para filtrar categorias que não existem na cena, reduzindo falsos positivos causados pelos vastos tamanhos de vocabulário e processamento em nível de *patch* em cenas geoespaciais. Avaliamos nosso método em extensos conjuntos de dados de sensoriamento remoto. Os experimentos mostram que esta adaptação simples alcança um desempenho promissor, demonstrando o potencial do SAM 3 para OVSS de sensoriamento remoto. Nosso código está disponível em https://github.com/earth-insights/SegEarth-OV-3.

Conteúdo Idêntico, Respostas Diferentes: Inconsistência Intermodal em MLLMs
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

Dec 9

ByAngela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano

Apresentamos dois novos benchmarks, REST e REST+ (Testes de Stress de Equivalência de Renderização), para permitir a avaliação sistemática da inconsistência cross-modal em modelos de linguagem multimodal de grande escala (MLLMs). Os MLLMs são treinados para representar a visão e a linguagem no mesmo espaço de incorporação, mas não conseguem executar as mesmas tarefas em ambas as modalidades. Os nossos benchmarks contêm amostras com a mesma informação semântica em três modalidades (imagem, texto, mista) e demonstramos que os MLLMs mais avançados não conseguem raciocinar de forma consistente sobre estas diferentes modalidades. Avaliámos 15 MLLMs e descobrimos que o grau de inconsistência modal varia substancialmente, mesmo considerando os problemas com reconhecimento de texto (OCR). Nem a renderização de texto como imagem nem a renderização de uma imagem como texto resolvem a inconsistência. Mesmo quando o OCR está correto, descobrimos que as características visuais (cor e resolução do texto, mas não o tipo de letra) e o número de *tokens* visuais têm um impacto no desempenho do modelo. Por fim, descobrimos que a nossa pontuação de consistência correlaciona-se com o *gap* modal entre texto e imagens, destacando uma interpretação mecanicista dos MLLMs inconsistentes na modalidade cruzada.