Het uitlokken van complexe ruimtelijke redenering in MLLMs door middel van brede-basis matching

Samenvatting

Breedbasismatching (BBM) vereist de integratie van geometrisch inzicht, veranderingen in gezichtspunt, fijnmazige perceptie en redeneren over occlusie, waardoor het een uitdagende testcase vormt voor ruimtelijk redeneren in multimodale grote taalmodellen (MLLM's) die in fysieke omgevingen worden ingezet. Huidige MLLM's missen echter systematische evaluatie- en trainingskaders voor deze capaciteiten. We introduceren ReasonMatch-Bench, een benchmark die gestratificeerd is naar gezichtspuntverplaatsing en matchinggranulariteit voor binnen-, buiten- en objectgerichte scenario's, en tonen aan dat huidige MLLM's nog steeds moeite hebben met fijnmazige breedbasiscorrespondentie: op een moeilijke subset van 90 monsters behalen menselijke annotatoren een F1-score van 84,0, terwijl de beste bestaande baseline 37,2 bereikt. Om deze kloof te overbruggen, bouwen we een schaalbare datagenratiepijplijn die automatisch breedbasis-aanzichtparen extraheert uit grootschalige video-3D-corpora, waaronder RGB-D-video's en SfM-reconstructies, wat leidt tot diverse en verifieerbare supervisie. Verder stellen we Dynamisch Correspondentie Reinforcement Leren (DCRL) voor, dat Beeldniveau Gezichtspuntprogressie en Puntniveau Correspondentiecurriculum combineert om BBM-training te verbeteren via verifieerbare beloningen zonder expliciete CoT-supervisie. Uitgebreide experimenten tonen aan dat DCRL de prestaties op ReasonMatch-Bench aanzienlijk verbetert en overdraagt naar gerelateerde ruimtelijke benchmarks, terwijl het algemene visuele begrip behouden blijft met bescheiden winst op verschillende benchmarks.

English

Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained perception, and occlusion reasoning, making it a challenging testbed for spatial reasoning in multimodal large language models (MLLMs) deployed in physical environments. However, current MLLMs lack systematic evaluation and training frameworks for these capabilities. We introduce ReasonMatch-Bench, a benchmark stratified by viewpoint displacement and matching granularity across indoor, outdoor, and object-centric scenarios, and show that current MLLMs still struggle with fine-grained wide-baseline correspondence: on a difficult 90-sample subset, human annotators achieve 84.0 F1, while the best existing baseline reaches 37.2. To bridge this gap, we build a scalable data-generation pipeline that automatically extracts wide-baseline view pairs from large-scale video-3D corpora, including RGB-D videos and SfM reconstructions, yielding diverse and verifiable supervision. We further propose Dynamic Correspondence Reinforcement Learning (DCRL), which combines Image-Level Viewpoint Progression and Point-Level Correspondence Curriculum to improve WBM training through verifiable rewards without explicit CoT supervision. Extensive experiments show that DCRL substantially improves ReasonMatch-Bench and transfers to related spatial benchmarks, while maintaining general visual understanding performance with modest gains on several benchmarks.