FRAPPE: Autoencodificação com Entrada Completa e Saída Residual e Codificador de Perseguição de Projeção

Resumo

Os padrões de compressão de mídia atingiram um platô em termos da compensação taxa-distorção-complexidade, limitando a capacidade de transferir a percepção de IA dispendiosa para a nuvem em aplicações como robótica, dispositivos vestíveis e sensoriamento remoto. Codecs baseados em DNN melhoram a eficiência de compressão, mas a um custo: eles não conseguem se adaptar facilmente a grandes mudanças na taxa de bits disponível, e a codificação em tempo real requer GPUs caras e que consomem muita energia, o que impede seu uso em plataformas de baixo custo ou com recursos limitados. Para resolver essas limitações, propomos uma nova estrutura de autocodificação (FRAPPE) que usa a Entrada Completa para prever a Saída Residual através de um Codificador de Persecução de Projeção. O objetivo de codificação do FRAPPE naturalmente classifica os canais latentes por importância, permitindo codificação de taxa variável sem sobrecarga. Ao contrário dos codecs aprendidos baseados em RNN, cujo codificador consome o residual da reconstrução anterior, ou codecs estilo RVQ, cujos codebooks devem ser aplicados sequencialmente, o caminho de análise do FRAPPE é um DAG paralelizável (embaraçosamente paralelo) de projeções de entrada independentes. Usando o FRAPPE, construímos um codec de imagem RGB de taxa variável (FRAPPE-Image) e avaliamos sua compensação taxa-distorção-complexidade em relação aos codecs de imagem padrão. Em altas taxas de compressão (aproximadamente 0,1 bpp), o FRAPPE-Image fornece qualidade perceptual mais alta que o AVIF com codificação 47 vezes mais rápida, tornando-o capaz de codificação em tempo real a 1080p, 30fps apenas com CPU. Nosso código e modelos pré-treinados estão disponíveis em: https://github.com/UT-SysML/FRAPPE.

English

Media compression standards have reached a plateau in terms of the rate-distortion-complexity trade-off, limiting the ability to offload expensive AI perception to the cloud in applications like robotics, wearables, and remote sensing. DNN-based codecs improve compression efficiency, but at a cost: they cannot easily adapt to large changes in available bitrate, and real-time encoding requires expensive, power-hungry GPUs that prohibit use on low-cost or resource-constrained platforms. To address these limitations, we propose a novel autoencoding framework (FRAPPE) that uses the Full input to predict the Residual output via a Projection Pursuit Encoder. FRAPPE's encoding objective naturally sorts latent channels by importance, allowing zero-overhead variable-rate coding. Unlike RNN-based learned codecs, whose encoder consumes the previous reconstruction's residual, or RVQ-style codecs, whose codebooks must be applied sequentially, FRAPPE's analysis path is an embarrassingly parallel DAG of independent input projections. Using FRAPPE, we build a variable-rate RGB image codec (FRAPPE-Image), and evaluate its rate-distortion-complexity trade-off against standard image codecs. At high compression ratios (approx. 0.1 bpp) FRAPPE-Image provides higher perceptual quality than AVIF with 47 times faster encoding, making it capable of real-time 1080p, 30fps CPU-only encoding. Our code and pre-trained models are available: https://github.com/UT-SysML/FRAPPE .