Efficiënte hybride zoom met camerafusie op mobiele telefoons

Samenvatting

DSLR-camera's kunnen meerdere zoomniveaus bereiken door de afstand tussen lenzen te veranderen of door lenstypes te wisselen. Deze technieken zijn echter niet mogelijk op smartphones vanwege ruimtebeperkingen. De meeste smartphonefabrikanten gebruiken een hybride zoomsysteem: meestal een Wide (W)-camera voor een laag zoomniveau en een Telephoto (T)-camera voor een hoog zoomniveau. Om zoomniveaus tussen W en T te simuleren, knippen deze systemen beelden van W uit en vergroten ze deze digitaal, wat leidt tot aanzienlijk detailverlies. In dit artikel stellen we een efficiënt systeem voor voor hybride zoom-superresolutie op mobiele apparaten, dat een synchroon paar van W- en T-opnames maakt en machine learning-modellen gebruikt om details van T naar W uit te lijnen en over te dragen. We ontwikkelen verder een adaptieve blendingmethode die rekening houdt met mismatches in scherptediepte, scène-occlusie, stroomonzekerheid en uitlijningsfouten. Om de domeinkloof te minimaliseren, ontwerpen we een dubbele telefooncamera-opstelling om real-world inputs en grondwaarheden vast te leggen voor begeleide training. Onze methode genereert een 12-megapixel beeld in 500ms op een mobiel platform en presteert gunstig in vergelijking met state-of-the-art methoden onder uitgebreide evaluatie in real-world scenario's.

English

DSLR cameras can achieve multiple zoom levels via shifting lens distances or swapping lens types. However, these techniques are not possible on smartphone devices due to space constraints. Most smartphone manufacturers adopt a hybrid zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T) camera at a high zoom level. To simulate zoom levels between W and T, these systems crop and digitally upsample images from W, leading to significant detail loss. In this paper, we propose an efficient system for hybrid zoom super-resolution on mobile devices, which captures a synchronous pair of W and T shots and leverages machine learning models to align and transfer details from T to W. We further develop an adaptive blending method that accounts for depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment errors. To minimize the domain gap, we design a dual-phone camera rig to capture real-world inputs and ground-truths for supervised training. Our method generates a 12-megapixel image in 500ms on a mobile platform and compares favorably against state-of-the-art methods under extensive evaluation on real-world scenarios.

Efficiënte hybride zoom met camerafusie op mobiele telefoons

Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

Samenvatting

Support