Lite Any Stereo V2: Sneller en sterker – efficiënte zero-shot stereomatching
Lite Any Stereo V2: Faster and Stronger Efficient Zero-Shot Stereo Matching
June 23, 2026
Auteurs: Junpeng Jing, Ronglai Zuo, Zhelun Shen, Shangchen Zhou, Rolandos Alexandros Potamias, Stefanos Zafeiriou, Krystian Mikolajczyk, Jiankang Deng
cs.AI
Samenvatting
Recente vooruitgang in stereomatching heeft opmerkelijke nauwkeurigheid bereikt, maar gaat vaak gepaard met grote modellen, zware berekeningen of extra prior kennis van funderingsmodellen, waardoor ze moeilijk inzetbaar zijn op platforms met beperkte resources. Efficiënte stereomodellen bieden daarentegen snellere inferentie, maar worden doorgaans beschouwd als minder geschikt voor sterke nul-shot generalisatie. In dit artikel dagen we deze aanname uit door de introductie van Lite Any Stereo V2 (LAS2), een ultrasnelle modellenserie ontworpen voor efficiënte nul-shot stereomatching. LAS2 is ontwikkeld vanuit zowel architectuur- als trainingsperspectief. Qua architectuur herzien we efficiënt stereo-ontwerp onder praktische implementatieomstandigheden en stellen we een uitsluitend 2D-kostenaggregatiekader voor, geoptimaliseerd voor werkelijke inferentielatentie in plaats van alleen theoretische MACs. Voor de training ontwikkelen we een driefasige strategie die synthetische supervisie, zelfdistillatie en distillatie van kennis uit de echte wereld combineert. Om de betrouwbaarheid van pseudo-supervisie uit de echte wereld te verbeteren, introduceren we bovendien pseudo-labelfiltering en een foutclampbewerking, waardoor een vloeiendere synthetisch-naar-echt transfer mogelijk wordt. We concretiseren LAS2 als een familie van modellen, waaronder feed-forward varianten voor verschillende efficiëntiebudgetten en een iteratieve variant voor hogere nauwkeurigheid. Uitgebreide experimenten tonen aan dat LAS2 state-of-the-art nauwkeurigheid bereikt onder efficiënte stereomethoden, terwijl het een aanzienlijk lagere latentie handhaaft. Specifiek behaalt LAS2-H sterkere algehele nul-shot prestaties dan de iteratieve methode Fast-FoundationStereo, met 1,8x en 2,7x snellere inferentie op respectievelijk H200 en Orin. De projectpagina, demo's en code zijn beschikbaar op https://tomtomtommi.github.io/LiteAnyStereoV2/.
English
Recent advances in stereo matching have achieved remarkable accuracy, but often rely on large models, heavy computation, or additional foundation-model priors, making them difficult to deploy on resource-constrained platforms. In contrast, efficient stereo models offer faster inference but are commonly considered less capable of strong zero-shot generalization. In this paper, we challenge this assumption by introducing Lite Any Stereo V2 (LAS2), an ultra-fast model series designed for efficient zero-shot stereo matching. LAS2 is developed from both architecture and training perspectives. Architecturally, we revisit efficient stereo design under practical deployment settings and propose a 2D-only cost aggregation framework, optimized for real inference latency rather than theoretical MACs alone. For training, we develop a three-stage strategy that combines synthetic supervision, self-distillation, and real-world knowledge distillation. To improve the reliability of real-world pseudo supervision, we further introduce pseudo-label filtering and an error-clamping operation, enabling smoother synthetic-to-real transfer. We instantiate LAS2 as a family of models, including feed-forward variants for different efficiency budgets and an iterative variant for higher accuracy. Extensive experiments show that LAS2 achieves state-of-the-art accuracy among efficient stereo methods while maintaining significantly lower latency. Specifically, LAS2-H achieves stronger overall zero-shot performance than the iterative method Fast-FoundationStereo, with 1.8x and 2.7x faster inference on H200 and Orin, respectively. The project page, demos, and code are available at https://tomtomtommi.github.io/LiteAnyStereoV2/.