ChatPaper.aiChatPaper

Zoom Híbrido Eficiente usando Fusão de Câmeras em Celulares

Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

January 2, 2024
Autores: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI

Resumo

Câmeras DSLR podem alcançar múltiplos níveis de zoom através do ajuste das distâncias das lentes ou da troca de tipos de lentes. No entanto, essas técnicas não são viáveis em dispositivos smartphones devido às limitações de espaço. A maioria dos fabricantes de smartphones adota um sistema de zoom híbrido: geralmente uma câmera Wide (W) em um nível de zoom baixo e uma câmera Telefoto (T) em um nível de zoom alto. Para simular níveis de zoom entre W e T, esses sistemas recortam e aumentam digitalmente as imagens de W, resultando em uma perda significativa de detalhes. Neste artigo, propomos um sistema eficiente para super-resolução de zoom híbrido em dispositivos móveis, que captura um par síncrono de imagens W e T e utiliza modelos de aprendizado de máquina para alinhar e transferir detalhes de T para W. Desenvolvemos ainda um método de mesclagem adaptativa que leva em consideração discrepâncias na profundidade de campo, oclusão de cena, incerteza no fluxo e erros de alinhamento. Para minimizar a diferença de domínio, projetamos um rig de câmera de dois smartphones para capturar entradas e ground-truths do mundo real para treinamento supervisionado. Nosso método gera uma imagem de 12 megapixels em 500ms em uma plataforma móvel e se compara favoravelmente aos métodos state-of-the-art em uma avaliação extensa em cenários do mundo real.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or swapping lens types. However, these techniques are not possible on smartphone devices due to space constraints. Most smartphone manufacturers adopt a hybrid zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T) camera at a high zoom level. To simulate zoom levels between W and T, these systems crop and digitally upsample images from W, leading to significant detail loss. In this paper, we propose an efficient system for hybrid zoom super-resolution on mobile devices, which captures a synchronous pair of W and T shots and leverages machine learning models to align and transfer details from T to W. We further develop an adaptive blending method that accounts for depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment errors. To minimize the domain gap, we design a dual-phone camera rig to capture real-world inputs and ground-truths for supervised training. Our method generates a 12-megapixel image in 500ms on a mobile platform and compares favorably against state-of-the-art methods under extensive evaluation on real-world scenarios.
PDF92December 15, 2024