ChatPaper.aiChatPaper

Эффективный гибридный зум с использованием слияния камер на мобильных устройствах

Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

January 2, 2024
Авторы: Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang
cs.AI

Аннотация

Зеркальные камеры могут достигать различных уровней масштабирования за счет изменения расстояния между линзами или замены типов объективов. Однако эти методы невозможны в смартфонах из-за ограничений по пространству. Большинство производителей смартфонов используют гибридную систему масштабирования: обычно это широкоугольная (W) камера для низкого уровня масштабирования и телефото (T) камера для высокого уровня. Для имитации уровней масштабирования между W и T такие системы обрезают и цифровым образом увеличивают изображения с W, что приводит к значительной потере деталей. В данной статье мы предлагаем эффективную систему для гибридного супер-разрешения при масштабировании на мобильных устройствах, которая захватывает синхронную пару снимков W и T и использует модели машинного обучения для выравнивания и переноса деталей с T на W. Мы также разрабатываем адаптивный метод смешивания, учитывающий несоответствия глубины резкости, окклюзии сцены, неопределенность оптического потока и ошибки выравнивания. Для минимизации разрыва между доменами мы создаем двухкамерную установку для захвата реальных входных данных и эталонных изображений для обучения с учителем. Наш метод генерирует 12-мегапиксельное изображение за 500 мс на мобильной платформе и демонстрирует превосходные результаты по сравнению с современными методами в ходе обширной оценки на реальных сценариях.
English
DSLR cameras can achieve multiple zoom levels via shifting lens distances or swapping lens types. However, these techniques are not possible on smartphone devices due to space constraints. Most smartphone manufacturers adopt a hybrid zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T) camera at a high zoom level. To simulate zoom levels between W and T, these systems crop and digitally upsample images from W, leading to significant detail loss. In this paper, we propose an efficient system for hybrid zoom super-resolution on mobile devices, which captures a synchronous pair of W and T shots and leverages machine learning models to align and transfer details from T to W. We further develop an adaptive blending method that accounts for depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment errors. To minimize the domain gap, we design a dual-phone camera rig to capture real-world inputs and ground-truths for supervised training. Our method generates a 12-megapixel image in 500ms on a mobile platform and compares favorably against state-of-the-art methods under extensive evaluation on real-world scenarios.
PDF92December 15, 2024