Extraindo Raciocínio Espacial Complexo em MLLMs através de Correspondência de Ampla Linha de Base

Resumo

A correspondência de linha de base ampla (WBM) exige a integração de entendimento geométrico, mudanças de ponto de vista, percepção de granularidade fina e raciocínio de oclusão, tornando-se um teste desafiador para o raciocínio espacial em modelos de linguagem grandes multimodais (MLLMs) implantados em ambientes físicos. No entanto, os MLLMs atuais carecem de avaliação sistemática e estruturas de treinamento para essas capacidades. Apresentamos o ReasonMatch-Bench, um benchmark estratificado por deslocamento de ponto de vista e granularidade de correspondência em cenários internos, externos e centrados em objetos, e mostramos que os MLLMs atuais ainda enfrentam dificuldades com a correspondência de granularidade fina em linha de base ampla: em um subconjunto difícil de 90 amostras, anotadores humanos alcançam F1 de 84,0, enquanto a melhor linha de base existente atinge 37,2. Para preencher essa lacuna, construímos um pipeline escalável de geração de dados que extrai automaticamente pares de vistas de linha de base ampla a partir de grandes corpora de vídeo-3D, incluindo vídeos RGB-D e reconstruções SfM, gerando supervisão diversificada e verificável. Propomos ainda o Aprendizado por Reforço de Correspondência Dinâmica (DCRL), que combina a Progressão de Ponto de Vista em Nível de Imagem e o Currículo de Correspondência em Nível de Ponto para melhorar o treinamento de WBM por meio de recompensas verificáveis, sem supervisão explícita de CoT. Experimentos extensos mostram que o DCRL melhora substancialmente o ReasonMatch-Bench e se transfere para benchmarks espaciais relacionados, mantendo o desempenho geral de compreensão visual com ganhos modestos em vários benchmarks.

English

Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained perception, and occlusion reasoning, making it a challenging testbed for spatial reasoning in multimodal large language models (MLLMs) deployed in physical environments. However, current MLLMs lack systematic evaluation and training frameworks for these capabilities. We introduce ReasonMatch-Bench, a benchmark stratified by viewpoint displacement and matching granularity across indoor, outdoor, and object-centric scenarios, and show that current MLLMs still struggle with fine-grained wide-baseline correspondence: on a difficult 90-sample subset, human annotators achieve 84.0 F1, while the best existing baseline reaches 37.2. To bridge this gap, we build a scalable data-generation pipeline that automatically extracts wide-baseline view pairs from large-scale video-3D corpora, including RGB-D videos and SfM reconstructions, yielding diverse and verifiable supervision. We further propose Dynamic Correspondence Reinforcement Learning (DCRL), which combines Image-Level Viewpoint Progression and Point-Level Correspondence Curriculum to improve WBM training through verifiable rewards without explicit CoT supervision. Extensive experiments show that DCRL substantially improves ReasonMatch-Bench and transfers to related spatial benchmarks, while maintaining general visual understanding performance with modest gains on several benchmarks.