FRAPPE: Vollständige Eingabe, Residualausgabe-Autoencoding mit Projection-Pursuit-Encoder

Zusammenfassung

Medienkompressionsstandards haben hinsichtlich des Rate-Distortion-Komplexitäts-Kompromisses ein Plateau erreicht, was die Fähigkeit einschränkt, teure KI-Wahrnehmung in Anwendungen wie Robotik, Wearables und Fernerkundung in die Cloud auszulagern. DNN-basierte Codecs verbessern die Kompressionseffizienz, jedoch um den Preis, dass sie sich nicht leicht an große Änderungen der verfügbaren Bitrate anpassen können und eine Echtzeitcodierung teure, stromhungrige GPUs erfordert, die den Einsatz auf kostengünstigen oder ressourcenbeschränkten Plattformen verhindert. Um diese Einschränkungen zu beheben, schlagen wir ein neuartiges Autoencoding-Framework (FRAPPE) vor, das die vollständige Eingabe nutzt, um die Restausgabe über einen Projection Pursuit Encoder vorherzusagen. Das Codierungsziel von FRAPPE ordnet latente Kanäle natürlich nach ihrer Bedeutung, was eine variabler Ratenkodierung ohne Overhead ermöglicht. Im Gegensatz zu RNN-basierten gelernten Codecs, deren Encoder das Residuum der vorherigen Rekonstruktion verbraucht, oder RVQ-artigen Codecs, deren Codebücher sequentiell angewendet werden müssen, ist der Analysepfad von FRAPPE ein trivial parallelisierbarer DAG unabhängiger Eingabeprojektionen. Mit FRAPPE bauen wir einen variabler Raten-RGB-Bildcodec (FRAPPE-Image) und bewerten seinen Rate-Distortion-Komplexitäts-Kompromiss im Vergleich zu Standardbildcodecs. Bei hohen Kompressionsverhältnissen (ca. 0,1 bpp) bietet FRAPPE-Image eine höhere wahrnehmbare Qualität als AVIF bei 47-fach schnellerer Codierung, was es für eine reine CPU-Codierung in Echtzeit mit 1080p und 30 fps geeignet macht. Unser Code und vortrainierte Modelle sind verfügbar: https://github.com/UT-SysML/FRAPPE .

English

Media compression standards have reached a plateau in terms of the rate-distortion-complexity trade-off, limiting the ability to offload expensive AI perception to the cloud in applications like robotics, wearables, and remote sensing. DNN-based codecs improve compression efficiency, but at a cost: they cannot easily adapt to large changes in available bitrate, and real-time encoding requires expensive, power-hungry GPUs that prohibit use on low-cost or resource-constrained platforms. To address these limitations, we propose a novel autoencoding framework (FRAPPE) that uses the Full input to predict the Residual output via a Projection Pursuit Encoder. FRAPPE's encoding objective naturally sorts latent channels by importance, allowing zero-overhead variable-rate coding. Unlike RNN-based learned codecs, whose encoder consumes the previous reconstruction's residual, or RVQ-style codecs, whose codebooks must be applied sequentially, FRAPPE's analysis path is an embarrassingly parallel DAG of independent input projections. Using FRAPPE, we build a variable-rate RGB image codec (FRAPPE-Image), and evaluate its rate-distortion-complexity trade-off against standard image codecs. At high compression ratios (approx. 0.1 bpp) FRAPPE-Image provides higher perceptual quality than AVIF with 47 times faster encoding, making it capable of real-time 1080p, 30fps CPU-only encoding. Our code and pre-trained models are available: https://github.com/UT-SysML/FRAPPE .