Efficiënte hybride zoom met camerafusie op mobiele telefoons
Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
January 2, 2024
Auteurs: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI
Samenvatting
DSLR-camera's kunnen meerdere zoomniveaus bereiken door de afstand tussen lenzen te veranderen of door lenstypes te wisselen. Deze technieken zijn echter niet mogelijk op smartphones vanwege ruimtebeperkingen. De meeste smartphonefabrikanten gebruiken een hybride zoomsysteem: meestal een Wide (W)-camera voor een laag zoomniveau en een Telephoto (T)-camera voor een hoog zoomniveau. Om zoomniveaus tussen W en T te simuleren, knippen deze systemen beelden van W uit en vergroten ze deze digitaal, wat leidt tot aanzienlijk detailverlies. In dit artikel stellen we een efficiënt systeem voor voor hybride zoom-superresolutie op mobiele apparaten, dat een synchroon paar van W- en T-opnames maakt en machine learning-modellen gebruikt om details van T naar W uit te lijnen en over te dragen. We ontwikkelen verder een adaptieve blendingmethode die rekening houdt met mismatches in scherptediepte, scène-occlusie, stroomonzekerheid en uitlijningsfouten. Om de domeinkloof te minimaliseren, ontwerpen we een dubbele telefooncamera-opstelling om real-world inputs en grondwaarheden vast te leggen voor begeleide training. Onze methode genereert een 12-megapixel beeld in 500ms op een mobiel platform en presteert gunstig in vergelijking met state-of-the-art methoden onder uitgebreide evaluatie in real-world scenario's.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or
swapping lens types. However, these techniques are not possible on smartphone
devices due to space constraints. Most smartphone manufacturers adopt a hybrid
zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T)
camera at a high zoom level. To simulate zoom levels between W and T, these
systems crop and digitally upsample images from W, leading to significant
detail loss. In this paper, we propose an efficient system for hybrid zoom
super-resolution on mobile devices, which captures a synchronous pair of W and
T shots and leverages machine learning models to align and transfer details
from T to W. We further develop an adaptive blending method that accounts for
depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment
errors. To minimize the domain gap, we design a dual-phone camera rig to
capture real-world inputs and ground-truths for supervised training. Our method
generates a 12-megapixel image in 500ms on a mobile platform and compares
favorably against state-of-the-art methods under extensive evaluation on
real-world scenarios.