FRAPPE : Autoencodage à entrée complète et sortie résiduelle avec encodeur par poursuite de projection

Résumé

Les normes de compression multimédia ont atteint un plateau en termes de compromis débit-distorsion-complexité, limitant la capacité à décharger une perception coûteuse basée sur l'IA vers le cloud dans des applications telles que la robotique, les wearables et la télédétection. Les codecs basés sur les réseaux de neurones profonds (DNN) améliorent l'efficacité de compression, mais à un coût : ils ne peuvent pas s'adapter facilement à des variations importantes du débit disponible, et l'encodage en temps réel nécessite des GPU coûteux et énergivores qui empêchent leur utilisation sur des plateformes à bas coût ou aux ressources limitées. Pour pallier ces limitations, nous proposons un nouveau cadre d'auto-encodage (FRAPPE) qui utilise l'entrée complète pour prédire la sortie résiduelle via un encodeur par projection poursuite (Projection Pursuit Encoder). L'objectif d'encodage de FRAPPE trie naturellement les canaux latents par importance, permettant un codage à débit variable sans surcoût. Contrairement aux codecs appris basés sur les RNN, dont l'encodeur consomme le résidu de la reconstruction précédente, ou aux codecs de type RVQ, dont les dictionnaires doivent être appliqués séquentiellement, le chemin d'analyse de FRAPPE est un DAG parallélisable à l'extrême, constitué de projections d'entrée indépendantes. En utilisant FRAPPE, nous construisons un codec d'images RVB à débit variable (FRAPPE-Image), et évaluons son compromis débit-distorsion-complexité par rapport aux codecs d'images standard. À des taux de compression élevés (environ 0,1 bpp), FRAPPE-Image offre une qualité perceptuelle supérieure à l'AVIF avec un encodage 47 fois plus rapide, permettant un encodage temps réel 1080p, 30 ips uniquement sur CPU. Notre code et nos modèles pré-entraînés sont disponibles : https://github.com/UT-SysML/FRAPPE .

English

Media compression standards have reached a plateau in terms of the rate-distortion-complexity trade-off, limiting the ability to offload expensive AI perception to the cloud in applications like robotics, wearables, and remote sensing. DNN-based codecs improve compression efficiency, but at a cost: they cannot easily adapt to large changes in available bitrate, and real-time encoding requires expensive, power-hungry GPUs that prohibit use on low-cost or resource-constrained platforms. To address these limitations, we propose a novel autoencoding framework (FRAPPE) that uses the Full input to predict the Residual output via a Projection Pursuit Encoder. FRAPPE's encoding objective naturally sorts latent channels by importance, allowing zero-overhead variable-rate coding. Unlike RNN-based learned codecs, whose encoder consumes the previous reconstruction's residual, or RVQ-style codecs, whose codebooks must be applied sequentially, FRAPPE's analysis path is an embarrassingly parallel DAG of independent input projections. Using FRAPPE, we build a variable-rate RGB image codec (FRAPPE-Image), and evaluate its rate-distortion-complexity trade-off against standard image codecs. At high compression ratios (approx. 0.1 bpp) FRAPPE-Image provides higher perceptual quality than AVIF with 47 times faster encoding, making it capable of real-time 1080p, 30fps CPU-only encoding. Our code and pre-trained models are available: https://github.com/UT-SysML/FRAPPE .