Zoom hybride efficace par fusion de caméras sur les téléphones mobiles
Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
January 2, 2024
Auteurs: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI
Résumé
Les appareils photo reflex numériques peuvent atteindre plusieurs niveaux de zoom en ajustant les distances des lentilles ou en changeant le type d'objectif. Cependant, ces techniques ne sont pas réalisables sur les smartphones en raison de contraintes d'espace. La plupart des fabricants de smartphones adoptent un système de zoom hybride : généralement un objectif grand angle (W) pour un faible niveau de zoom et un objectif téléphoto (T) pour un niveau de zoom élevé. Pour simuler des niveaux de zoom intermédiaires entre W et T, ces systèmes recadrent et suréchantillonnent numériquement les images provenant de W, ce qui entraîne une perte significative de détails. Dans cet article, nous proposons un système efficace pour la super-résolution de zoom hybride sur les appareils mobiles, qui capture une paire synchronisée de clichés W et T et exploite des modèles d'apprentissage automatique pour aligner et transférer les détails de T vers W. Nous développons en outre une méthode de fusion adaptative qui prend en compte les écarts de profondeur de champ, les occlusions de scène, les incertitudes de flux et les erreurs d'alignement. Pour minimiser l'écart de domaine, nous concevons un dispositif à double caméra pour smartphone afin de capturer des entrées et des vérités terrain pour l'entraînement supervisé. Notre méthode génère une image de 12 mégapixels en 500 ms sur une plateforme mobile et se compare favorablement aux méthodes de pointe lors d'une évaluation approfondie dans des scénarios réels.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or
swapping lens types. However, these techniques are not possible on smartphone
devices due to space constraints. Most smartphone manufacturers adopt a hybrid
zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T)
camera at a high zoom level. To simulate zoom levels between W and T, these
systems crop and digitally upsample images from W, leading to significant
detail loss. In this paper, we propose an efficient system for hybrid zoom
super-resolution on mobile devices, which captures a synchronous pair of W and
T shots and leverages machine learning models to align and transfer details
from T to W. We further develop an adaptive blending method that accounts for
depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment
errors. To minimize the domain gap, we design a dual-phone camera rig to
capture real-world inputs and ground-truths for supervised training. Our method
generates a 12-megapixel image in 500ms on a mobile platform and compares
favorably against state-of-the-art methods under extensive evaluation on
real-world scenarios.