Gelernte Kompression für komprimiertes Lernen.
Learned Compression for Compressed Learning
December 12, 2024
Autoren: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI
Zusammenfassung
Moderne Sensoren erzeugen zunehmend reichhaltige Datenströme hoher Auflösung. Aufgrund von Ressourcenbeschränkungen verwerfen maschinelle Lernsysteme die überwiegende Mehrheit dieser Informationen durch eine Reduzierung der Auflösung. Das Lernen im komprimierten Bereich ermöglicht es Modellen, auf kompakten latenten Repräsentationen zu arbeiten, was eine höhere effektive Auflösung für das gleiche Budget ermöglicht. Allerdings sind bestehende Kompressionssysteme nicht ideal für das komprimierte Lernen. Lineare Transformationscodierung und End-to-End-gelernte Kompressionssysteme reduzieren die Bitrate, reduzieren jedoch nicht einheitlich die Dimensionalität; daher erhöhen sie die Effizienz nicht sinnvoll. Generative Autoencoder reduzieren die Dimensionalität, aber ihre adversariellen oder perzeptuellen Ziele führen zu erheblichem Informationsverlust. Um diese Einschränkungen zu überwinden, stellen wir WaLLoC (Wavelet Learned Lossy Compression) vor, eine neuronale Codec-Architektur, die lineare Transformationscodierung mit nichtlinearen dimensionsreduzierenden Autoencodern kombiniert. WaLLoC platziert einen flachen, asymmetrischen Autoencoder und einen Entropie-Flaschenhals zwischen einer invertierbaren Wavelet-Paket-Transformation. Über mehrere wichtige Metriken hinweg übertrifft WaLLoC die Autoencoder, die in modernsten latenten Diffusionsmodellen verwendet werden. WaLLoC erfordert keine perzeptuellen oder adversariellen Verluste, um hochfrequente Details darzustellen, was die Kompatibilität mit Modalitäten jenseits von RGB-Bildern und Stereo-Audio ermöglicht. Der Encoder von WaLLoC besteht fast ausschließlich aus linearen Operationen, was ihn außergewöhnlich effizient macht und für mobile Berechnungen, Fernerkundung und das direkte Lernen aus komprimierten Daten geeignet ist. Wir zeigen die Fähigkeit von WaLLoC für das Lernen im komprimierten Bereich in mehreren Aufgaben, einschließlich Bildklassifizierung, Kolorierung, Dokumentenverständnis und Musikquellentrennung. Unser Code, Experimente und vorab trainierte Audio- und Bildcodecs sind verfügbar unter https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due
to resource constraints, machine learning systems discard the vast majority of
this information via resolution reduction. Compressed-domain learning allows
models to operate on compact latent representations, allowing higher effective
resolution for the same budget. However, existing compression systems are not
ideal for compressed learning. Linear transform coding and end-to-end learned
compression systems reduce bitrate, but do not uniformly reduce dimensionality;
thus, they do not meaningfully increase efficiency. Generative autoencoders
reduce dimensionality, but their adversarial or perceptual objectives lead to
significant information loss. To address these limitations, we introduce WaLLoC
(Wavelet Learned Lossy Compression), a neural codec architecture that combines
linear transform coding with nonlinear dimensionality-reducing autoencoders.
WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck
between an invertible wavelet packet transform. Across several key metrics,
WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion
models. WaLLoC does not require perceptual or adversarial losses to represent
high-frequency detail, providing compatibility with modalities beyond RGB
images and stereo audio. WaLLoC's encoder consists almost entirely of linear
operations, making it exceptionally efficient and suitable for mobile
computing, remote sensing, and learning directly from compressed data. We
demonstrate WaLLoC's capability for compressed-domain learning across several
tasks, including image classification, colorization, document understanding,
and music source separation. Our code, experiments, and pre-trained audio and
image codecs are available at https://ut-sysml.org/wallocSummary
AI-Generated Summary