ChatPaper.aiChatPaper

Geleerde Compressie voor Gecomprimeerd Leren

Learned Compression for Compressed Learning

December 12, 2024
Auteurs: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

Samenvatting

Moderne sensoren produceren steeds rijkere stromen van data met hoge resolutie. Vanwege beperkte middelen verwerpen machine learning systemen het overgrote deel van deze informatie door middel van resolutievermindering. Leren in het gecomprimeerde domein stelt modellen in staat om te werken met compacte latente representaties, waardoor een hogere effectieve resolutie wordt bereikt binnen hetzelfde budget. Bestaande compressiesystemen zijn echter niet ideaal voor gecomprimeerd leren. Lineaire transformatiecodering en end-to-end geleerde compressiesystemen verminderen de bitrate, maar verminderen niet uniform de dimensionaliteit; hierdoor wordt de efficiëntie niet betekenisvol verhoogd. Generatieve auto-encoders verminderen de dimensionaliteit, maar hun tegenstrijdige of perceptuele doelstellingen leiden tot aanzienlijk informatieverlies. Om deze beperkingen aan te pakken, introduceren we WaLLoC (Wavelet Learned Lossy Compression), een neurale codec-architectuur die lineaire transformatiecodering combineert met niet-lineaire dimensionaal reducerende auto-encoders. WaLLoC plaatst een ondiepe, asymmetrische auto-encoder en entropie bottleneck tussen een omkeerbare wavelet-pakkettransformatie. Op verschillende belangrijke metrieken presteert WaLLoC beter dan de auto-encoders die worden gebruikt in state-of-the-art latente diffusiemodellen. WaLLoC heeft geen perceptuele of tegenstrijdige verliezen nodig om hoge-frequentie details weer te geven, wat compatibiliteit biedt met modaliteiten buiten RGB-afbeeldingen en stereo-audio. De encoder van WaLLoC bestaat bijna volledig uit lineaire bewerkingen, waardoor het uitzonderlijk efficiënt is en geschikt voor mobiel rekenen, remote sensing en rechtstreeks leren van gecomprimeerde data. We demonstreren de capaciteit van WaLLoC voor leren in het gecomprimeerde domein over verschillende taken, waaronder beeldclassificatie, kleurweergave, documentbegrip en scheiding van muziekbronnen. Onze code, experimenten en vooraf getrainde audio- en beeldcodecs zijn beschikbaar op https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due to resource constraints, machine learning systems discard the vast majority of this information via resolution reduction. Compressed-domain learning allows models to operate on compact latent representations, allowing higher effective resolution for the same budget. However, existing compression systems are not ideal for compressed learning. Linear transform coding and end-to-end learned compression systems reduce bitrate, but do not uniformly reduce dimensionality; thus, they do not meaningfully increase efficiency. Generative autoencoders reduce dimensionality, but their adversarial or perceptual objectives lead to significant information loss. To address these limitations, we introduce WaLLoC (Wavelet Learned Lossy Compression), a neural codec architecture that combines linear transform coding with nonlinear dimensionality-reducing autoencoders. WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck between an invertible wavelet packet transform. Across several key metrics, WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion models. WaLLoC does not require perceptual or adversarial losses to represent high-frequency detail, providing compatibility with modalities beyond RGB images and stereo audio. WaLLoC's encoder consists almost entirely of linear operations, making it exceptionally efficient and suitable for mobile computing, remote sensing, and learning directly from compressed data. We demonstrate WaLLoC's capability for compressed-domain learning across several tasks, including image classification, colorization, document understanding, and music source separation. Our code, experiments, and pre-trained audio and image codecs are available at https://ut-sysml.org/walloc
PDF132December 13, 2024