FRAPPE: Volledige Invoer, Residuele Uitvoer Auto-encodering met Projectie Pursuit Encoder

Samenvatting

Mediacompressienormen hebben een plateau bereikt wat betreft de afweging tussen snelheid, vervorming en complexiteit, waardoor het vermogen om dure AI-perceptie naar de cloud te verplaatsen in toepassingen zoals robotica, draagbare apparaten en teledetectie wordt beperkt. Op DNN gebaseerde codecs verbeteren de compressie-efficiëntie, maar met een nadeel: ze kunnen zich niet gemakkelijk aanpassen aan grote veranderingen in de beschikbare bitsnelheid, en real-time codering vereist dure, energieverslindende GPU's die gebruik op goedkope of resource-beperkte platforms onmogelijk maken. Om deze beperkingen aan te pakken, stellen we een nieuw autoencodingraamwerk (FRAPPE) voor dat de volledige invoer gebruikt om de residuele uitvoer te voorspellen via een Projection Pursuit Encoder. Het coderingsdoel van FRAPPE sorteert latentiekanalen natuurlijk op belangrijkheid, wat variabele-snelheidscodering zonder overhead mogelijk maakt. In tegenstelling tot op RNN gebaseerde geleerde codecs, waarvan de encoder het residu van de vorige reconstructie verbruikt, of RVQ-stijl codecs, waarvan de codeboeken sequentieel moeten worden toegepast, is het analysepad van FRAPPE een embarrassingly parallelle DAG van onafhankelijke invoerprojecties. Met behulp van FRAPPE bouwen we een variabele-snelheid RGB-beeldcodec (FRAPPE-Image) en evalueren we de afweging tussen snelheid, vervorming en complexiteit in vergelijking met standaard beeldcodecs. Bij hoge compressieverhoudingen (ongeveer 0,1 bpp) biedt FRAPPE-Image een hogere perceptuele kwaliteit dan AVIF met 47 keer snellere codering, waardoor het in staat is tot real-time 1080p, 30fps-codering uitsluitend op de CPU. Onze code en voorgetrainde modellen zijn beschikbaar op: https://github.com/UT-SysML/FRAPPE .

English

Media compression standards have reached a plateau in terms of the rate-distortion-complexity trade-off, limiting the ability to offload expensive AI perception to the cloud in applications like robotics, wearables, and remote sensing. DNN-based codecs improve compression efficiency, but at a cost: they cannot easily adapt to large changes in available bitrate, and real-time encoding requires expensive, power-hungry GPUs that prohibit use on low-cost or resource-constrained platforms. To address these limitations, we propose a novel autoencoding framework (FRAPPE) that uses the Full input to predict the Residual output via a Projection Pursuit Encoder. FRAPPE's encoding objective naturally sorts latent channels by importance, allowing zero-overhead variable-rate coding. Unlike RNN-based learned codecs, whose encoder consumes the previous reconstruction's residual, or RVQ-style codecs, whose codebooks must be applied sequentially, FRAPPE's analysis path is an embarrassingly parallel DAG of independent input projections. Using FRAPPE, we build a variable-rate RGB image codec (FRAPPE-Image), and evaluate its rate-distortion-complexity trade-off against standard image codecs. At high compression ratios (approx. 0.1 bpp) FRAPPE-Image provides higher perceptual quality than AVIF with 47 times faster encoding, making it capable of real-time 1080p, 30fps CPU-only encoding. Our code and pre-trained models are available: https://github.com/UT-SysML/FRAPPE .