Fast-FoundationStereo: Real-time Nul-Shot Stereobeeldverwerking
Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
December 11, 2025
Auteurs: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI
Samenvatting
Stereoscopische foundation-modellen bereiken sterke zero-shot generalisatie, maar blijven rekenkundig onhaalbaar voor realtime toepassingen. Efficiënte stereoscopische architecturen offeren daarentegen robuustheid op voor snelheid en vereisen kostbare per-domein fine-tuning. Om deze kloof te overbruggen, presenteren we Fast-FoundationStereo, een familie van architecturen die voor het eerst sterke zero-shot generalisatie bereiken met een realtime framesnelheid. We hanteren een verdeel-en-heers versnellingsstrategie met drie componenten: (1) knowledge distillation om de hybride backbone te comprimeren tot een enkele efficiënte student; (2) bloksgewijze neurale architectuurzoektocht voor het automatisch ontdekken van optimale kostfilterontwerpen binnen latentiebudgetten, waarbij de zoekcomplexiteit exponentieel wordt gereduceerd; en (3) gestructureerd snoeien om redundantie in de iteratieve verfijningsmodule te elimineren. Verder introduceren we een automatische pseudo-labelingpijplijn waarmee 1,4 miljoen stereo-paren uit praktijkomgevingen worden samengesteld om synthetische trainingsdata aan te vullen en knowledge distillation te vergemakkelijken. Het resulterende model kan meer dan 10x sneller draaien dan FoundationStereo terwijl het de zero-shot nauwkeurigheid dicht benadert, waarmee een nieuwe state-of-the-art wordt gevestigd onder realtime methoden. Projectpagina: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/