Zoom híbrido eficiente mediante fusión de cámaras en teléfonos móviles
Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
January 2, 2024
Autores: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI
Resumen
Las cámaras DSLR pueden lograr múltiples niveles de zoom mediante el ajuste de distancias entre lentes o el intercambio de tipos de lentes. Sin embargo, estas técnicas no son posibles en dispositivos móviles debido a limitaciones de espacio. La mayoría de los fabricantes de smartphones adoptan un sistema de zoom híbrido: comúnmente una cámara Wide (W) para un nivel de zoom bajo y una cámara Telefoto (T) para un nivel de zoom alto. Para simular niveles de zoom entre W y T, estos sistemas recortan y aumentan digitalmente las imágenes de W, lo que resulta en una pérdida significativa de detalles. En este artículo, proponemos un sistema eficiente para super-resolución de zoom híbrido en dispositivos móviles, que captura un par sincronizado de tomas W y T y aprovecha modelos de aprendizaje automático para alinear y transferir detalles de T a W. Además, desarrollamos un método de mezcla adaptativa que considera desajustes en la profundidad de campo, oclusiones en la escena, incertidumbre en el flujo y errores de alineación. Para minimizar la brecha de dominio, diseñamos un sistema de doble cámara en un teléfono para capturar entradas y verdades fundamentales del mundo real para el entrenamiento supervisado. Nuestro método genera una imagen de 12 megapíxeles en 500 ms en una plataforma móvil y se compara favorablemente con los métodos más avanzados en evaluaciones extensas en escenarios del mundo real.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or
swapping lens types. However, these techniques are not possible on smartphone
devices due to space constraints. Most smartphone manufacturers adopt a hybrid
zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T)
camera at a high zoom level. To simulate zoom levels between W and T, these
systems crop and digitally upsample images from W, leading to significant
detail loss. In this paper, we propose an efficient system for hybrid zoom
super-resolution on mobile devices, which captures a synchronous pair of W and
T shots and leverages machine learning models to align and transfer details
from T to W. We further develop an adaptive blending method that accounts for
depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment
errors. To minimize the domain gap, we design a dual-phone camera rig to
capture real-world inputs and ground-truths for supervised training. Our method
generates a 12-megapixel image in 500ms on a mobile platform and compares
favorably against state-of-the-art methods under extensive evaluation on
real-world scenarios.