Effizientes Hybrid-Zoom durch Kamerafusion auf Mobiltelefonen
Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
January 2, 2024
Autoren: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI
Zusammenfassung
DSLR-Kameras können mehrere Zoomstufen durch das Verschieben von Linsenabständen oder den Austausch von Linsentypen erreichen. Diese Techniken sind jedoch bei Smartphone-Geräten aufgrund von Platzbeschränkungen nicht möglich. Die meisten Smartphone-Hersteller verwenden ein Hybrid-Zoom-System: typischerweise eine Weitwinkelkamera (W) bei einem niedrigen Zoomlevel und eine Telefotokamera (T) bei einem hohen Zoomlevel. Um Zoomstufen zwischen W und T zu simulieren, schneiden diese Systeme Bilder von W zu und vergrößern sie digital, was zu einem erheblichen Detailverlust führt. In diesem Artikel schlagen wir ein effizientes System für Hybrid-Zoom-Super-Resolution auf Mobilgeräten vor, das ein synchrones Paar von W- und T-Aufnahmen erfasst und maschinelle Lernmodelle nutzt, um Details von T auf W auszurichten und zu übertragen. Wir entwickeln weiterhin eine adaptive Blending-Methode, die Tiefenschärfeunterschiede, Szenenverdeckungen, Flussunsicherheiten und Ausrichtungsfehler berücksichtigt. Um die Domänenlücke zu minimieren, entwerfen wir ein Dual-Phone-Kamerarig, um reale Eingaben und Ground-Truths für das überwachte Training zu erfassen. Unsere Methode erzeugt ein 12-Megapixel-Bild in 500 ms auf einer mobilen Plattform und schneidet bei umfangreichen Bewertungen in realen Szenarien im Vergleich zu state-of-the-art Methoden positiv ab.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or
swapping lens types. However, these techniques are not possible on smartphone
devices due to space constraints. Most smartphone manufacturers adopt a hybrid
zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T)
camera at a high zoom level. To simulate zoom levels between W and T, these
systems crop and digitally upsample images from W, leading to significant
detail loss. In this paper, we propose an efficient system for hybrid zoom
super-resolution on mobile devices, which captures a synchronous pair of W and
T shots and leverages machine learning models to align and transfer details
from T to W. We further develop an adaptive blending method that accounts for
depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment
errors. To minimize the domain gap, we design a dual-phone camera rig to
capture real-world inputs and ground-truths for supervised training. Our method
generates a 12-megapixel image in 500ms on a mobile platform and compares
favorably against state-of-the-art methods under extensive evaluation on
real-world scenarios.