Fast-FoundationStereo: Стереосопоставление в реальном времени с нулевым обучением
Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
December 11, 2025
Авторы: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI
Аннотация
Стереоскопические базовые модели демонстрируют высокую обобщающую способность в условиях zero-shot, но остаются вычислительно сложными для приложений реального времени. Эффективные стереоскопические архитектуры, напротив, жертвуют надежностью ради скорости и требуют дорогостоящей дообучки под каждую предметную область. Чтобы устранить этот разрыв, мы представляем Fast-FoundationStereo — семейство архитектур, которые впервые обеспечивают высокую zero-shot обобщающую способность при работе в режиме реального времени. Мы используем стратегию ускорения «разделяй и властвуй» с тремя компонентами: (1) дистилляция знаний для сжатия гибридной основы в единого эффективного студента; (2) блочный нейроархитектурный поиск для автоматического обнаружения оптимальных схем фильтрации стоимостной функции при ограничениях на задержку, что экспоненциально снижает сложность поиска; и (3) структурированное прореживание для устранения избыточности в модуле итеративного уточнения. Кроме того, мы представляем автоматизированный конвейер псевдоразметки, используемый для отбора 1.4 млн стереопар из реальных данных для дополнения синтетических обучающих данных и облегчения дистилляции знаний. Полученная модель может работать более чем в 10 раз быстрее, чем FoundationStereo, при этом близко соответствуя её zero-shot точности, что устанавливает новый state-of-the-art среди методов реального времени. Страница проекта: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/