FRAPPE: Автокодирование с полным входом и остаточным выходом с кодером проекционного преследования

Аннотация

Стандарты сжатия мультимедиа достигли плато с точки зрения компромисса между скоростью, искажениями и вычислительной сложностью, что ограничивает возможность переноса дорогостоящего восприятия на основе ИИ в облако в таких приложениях, как робототехника, носимые устройства и дистанционное зондирование. Кодеки на основе глубоких нейронных сетей (DNN) повышают эффективность сжатия, но ценой того, что они не могут легко адаптироваться к значительным изменениям доступного битрейта, а кодирование в реальном времени требует дорогих и энергоемких GPU, что исключает их использование на недорогих или ресурсно-ограниченных платформах. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру автоэнкодера (FRAPPE), которая использует полный входной сигнал для прогнозирования остаточного выхода с помощью энкодера проекционного преследования. Цель кодирования FRAPPE естественным образом сортирует скрытые каналы по важности, что позволяет осуществлять кодирование с переменной скоростью без дополнительных затрат. В отличие от обучаемых кодеков на основе RNN, чей энкодер использует остаток предыдущей реконструкции, или кодеков стиля RVQ, чьи кодовые книги должны применяться последовательно, путь анализа FRAPPE представляет собой тривиально параллельный направленный ациклический граф (DAG) независимых проекций входных данных. Используя FRAPPE, мы создаем кодек RGB-изображений с переменной скоростью (FRAPPE-Image) и оцениваем его компромисс между скоростью, искажениями и сложностью по сравнению со стандартными кодеками изображений. При высоких степенях сжатия (примерно 0.1 бит на пиксель) FRAPPE-Image обеспечивает более высокое перцептивное качество, чем AVIF, при кодировании в 47 раз быстрее, что позволяет выполнять кодирование в реальном времени с разрешением 1080p и частотой 30 кадров в секунду, используя только CPU. Наш код и предварительно обученные модели доступны по адресу: https://github.com/UT-SysML/FRAPPE.

English

Media compression standards have reached a plateau in terms of the rate-distortion-complexity trade-off, limiting the ability to offload expensive AI perception to the cloud in applications like robotics, wearables, and remote sensing. DNN-based codecs improve compression efficiency, but at a cost: they cannot easily adapt to large changes in available bitrate, and real-time encoding requires expensive, power-hungry GPUs that prohibit use on low-cost or resource-constrained platforms. To address these limitations, we propose a novel autoencoding framework (FRAPPE) that uses the Full input to predict the Residual output via a Projection Pursuit Encoder. FRAPPE's encoding objective naturally sorts latent channels by importance, allowing zero-overhead variable-rate coding. Unlike RNN-based learned codecs, whose encoder consumes the previous reconstruction's residual, or RVQ-style codecs, whose codebooks must be applied sequentially, FRAPPE's analysis path is an embarrassingly parallel DAG of independent input projections. Using FRAPPE, we build a variable-rate RGB image codec (FRAPPE-Image), and evaluate its rate-distortion-complexity trade-off against standard image codecs. At high compression ratios (approx. 0.1 bpp) FRAPPE-Image provides higher perceptual quality than AVIF with 47 times faster encoding, making it capable of real-time 1080p, 30fps CPU-only encoding. Our code and pre-trained models are available: https://github.com/UT-SysML/FRAPPE .