ChatPaper.aiChatPaper

Fast-FoundationStereo: Echtzeit-Stereovergleich ohne Vorwissen

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

December 11, 2025
papers.authors: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI

papers.abstract

Stereo-Foundation-Models erreichen eine starke Zero-Shot-Generalisierung, bleiben jedoch rechenintensiv und für Echtzeitanwendungen ungeeignet. Effiziente Stereo-Architekturen opfern hingegen Robustheit für Geschwindigkeit und erfordern kostspieliges domänenspezifisches Fine-Tuning. Um diese Lücke zu schließen, präsentieren wir Fast-FoundationStereo, eine Architekturfamilie, die erstmals eine starke Zero-Shot-Generalisierung bei Echtzeit-Bildraten erreicht. Wir verwenden eine Divide-and-Conquer-Beschleunigungsstrategie mit drei Komponenten: (1) Wissensdistillation zur Komprimierung des Hybrid-Backbones in einen einzigen effizienten Studenten; (2) blockweise neuronale Architektursuche zur automatischen Ermittlung optimaler Kostenfilter-Designs unter Latenzvorgaben, wodurch die Suchkomplexität exponentiell reduziert wird; und (3) strukturiertes Pruning zur Beseitigung von Redundanzen im iterativen Optimierungsmodul. Darüber hinaus führen wir eine automatische Pseudolabel-Pipeline ein, mit der 1,4M Stereo-Bildpaare aus realen Umgebungen kuratiert wurden, um synthetische Trainingsdaten zu ergänzen und die Wissensdistillation zu erleichtern. Das resultierende Modell kann über 10-mal schneller laufen als FoundationStereo, bei gleichzeitig vergleichbarer Zero-Shot-Genauigkeit, und setzt damit einen neuen State-of-the-Art unter Echtzeitmethoden. Projektseite: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/
PDF42December 17, 2025