モバイルフォンにおけるカメラ融合を用いた効率的なハイブリッドズーム
Efficient Hybrid Zoom using Camera Fusion on Mobile Phones
January 2, 2024
著者: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI
要旨
DSLRカメラは、レンズ間距離を調整したりレンズタイプを交換することで、複数のズームレベルを実現できます。しかし、スマートフォンではスペースの制約によりこれらの手法は適用できません。ほとんどのスマートフォンメーカーはハイブリッドズームシステムを採用しており、一般的に低ズームレベルでのワイド(W)カメラと高ズームレベルでの望遠(T)カメラを組み合わせています。WとTの間のズームレベルをシミュレートするため、これらのシステムはWからの画像をクロップしデジタルアップサンプリングしますが、これにより詳細情報が大幅に失われます。本論文では、モバイルデバイス向けのハイブリッドズーム超解像システムを提案します。このシステムは、WとTの同期したペアのショットをキャプチャし、機械学習モデルを活用してTからWへの詳細情報のアライメントと転送を行います。さらに、被写界深度の不一致、シーンオクルージョン、フローの不確実性、アライメントエラーを考慮した適応型ブレンディング手法を開発します。ドメインギャップを最小化するため、実世界の入力と教師データを収集するデュアルフォンカメラリグを設計しました。本手法はモバイルプラットフォーム上で500msで12メガピクセルの画像を生成し、実世界シナリオでの広範な評価において最先端の手法と比較しても良好な結果を示しています。
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or
swapping lens types. However, these techniques are not possible on smartphone
devices due to space constraints. Most smartphone manufacturers adopt a hybrid
zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T)
camera at a high zoom level. To simulate zoom levels between W and T, these
systems crop and digitally upsample images from W, leading to significant
detail loss. In this paper, we propose an efficient system for hybrid zoom
super-resolution on mobile devices, which captures a synchronous pair of W and
T shots and leverages machine learning models to align and transfer details
from T to W. We further develop an adaptive blending method that accounts for
depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment
errors. To minimize the domain gap, we design a dual-phone camera rig to
capture real-world inputs and ground-truths for supervised training. Our method
generates a 12-megapixel image in 500ms on a mobile platform and compares
favorably against state-of-the-art methods under extensive evaluation on
real-world scenarios.