Fast-FoundationStereo: 실시간 제로샷 스테레오 매칭
Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
December 11, 2025
저자: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI
초록
스테레오 파운데이션 모델은 강력한 제로샷 일반화 성능을 달성하지만 실시간 응용 분야에서는 계산 비용이 과도하게 높은 문제가 있습니다. 반면 효율적인 스테레오 아키텍처는 속도를 위해 견고성을 희생하며, 도메인별로 비용이 많이 드는 미세 조정이 필요합니다. 이러한 격차를 해소하기 위해 우리는 강력한 제로샷 일반화 성능을 실시간 프레임 속도로 최초로 달성하는 Fast-FoundationStereo 아키텍처 패밀리를 제안합니다. 우리는 세 가지 구성 요소로 이루어진 분할 정복 가속화 전략을 채택했습니다: (1) 하이브리드 백본을 단일 효율적 학생 모델로 압축하는 지식 증류, (2) 대기 시간 예산 내 최적의 비용 필터링 설계를 자동으로 발견하고 검색 복잡도를 기하급수적으로 줄이는 블록 단위 신경망 구조 탐색, (3) 반복 정제 모듈의 중복성을 제거하는 구조적 가지치기. 또한 합성 훈련 데이터를 보완하고 지식 증류를 용이하게 하기 위해 140만 개의 실제 스테레오 이미지 쌍을 선별하는 자동 의사 레이블링 파이프라인을 도입했습니다. 결과 모델은 FoundationStereo 대비 10배 이상 빠른 속도로 동작하면서도 그 제로샷 정확도를 근접하게 따라가며, 실시간 방법 중 새로운 최첨단 기술을 확립합니다. 프로젝트 페이지: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/