Compression Apprise pour l'Apprentissage Compressé
Learned Compression for Compressed Learning
December 12, 2024
Auteurs: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI
Résumé
Les capteurs modernes produisent des flux de données haute résolution de plus en plus riches. En raison de contraintes de ressources, les systèmes d'apprentissage automatique rejettent la grande majorité de ces informations en réduisant la résolution. L'apprentissage dans le domaine compressé permet aux modèles de fonctionner sur des représentations latentes compactes, offrant ainsi une résolution effective plus élevée pour le même budget. Cependant, les systèmes de compression existants ne sont pas idéaux pour l'apprentissage compressé. La codage de transformée linéaire et les systèmes de compression appris de bout en bout réduisent le débit binaire, mais ne réduisent pas uniformément la dimensionnalité ; par conséquent, ils n'augmentent pas efficacement l'efficacité. Les autoencodeurs génératifs réduisent la dimensionnalité, mais leurs objectifs adversaires ou perceptuels entraînent une perte d'informations significative. Pour remédier à ces limitations, nous présentons WaLLoC (Compression Lossy Apprise par Ondelettes), une architecture de codec neuronal qui combine le codage de transformée linéaire avec des autoencodeurs non linéaires réducteurs de dimensionnalité. WaLLoC insère un autoencodeur asymétrique peu profond et un goulot d'étranglement d'entropie entre une transformée en paquets d'ondelettes inversible. Sur plusieurs mesures clés, WaLLoC surpasse les autoencodeurs utilisés dans les modèles de diffusion latente de pointe. WaLLoC ne nécessite pas de pertes perceptuelles ou adverses pour représenter les détails haute fréquence, offrant ainsi une compatibilité avec des modalités au-delà des images RVB et de l'audio stéréo. L'encodeur de WaLLoC se compose presque entièrement d'opérations linéaires, le rendant exceptionnellement efficace et adapté au calcul mobile, à la télédétection et à l'apprentissage direct à partir de données compressées. Nous démontrons la capacité de WaLLoC pour l'apprentissage dans le domaine compressé à travers plusieurs tâches, notamment la classification d'images, la colorisation, la compréhension de documents et la séparation des sources musicales. Notre code, nos expériences et nos codecs audio et image pré-entraînés sont disponibles sur https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due
to resource constraints, machine learning systems discard the vast majority of
this information via resolution reduction. Compressed-domain learning allows
models to operate on compact latent representations, allowing higher effective
resolution for the same budget. However, existing compression systems are not
ideal for compressed learning. Linear transform coding and end-to-end learned
compression systems reduce bitrate, but do not uniformly reduce dimensionality;
thus, they do not meaningfully increase efficiency. Generative autoencoders
reduce dimensionality, but their adversarial or perceptual objectives lead to
significant information loss. To address these limitations, we introduce WaLLoC
(Wavelet Learned Lossy Compression), a neural codec architecture that combines
linear transform coding with nonlinear dimensionality-reducing autoencoders.
WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck
between an invertible wavelet packet transform. Across several key metrics,
WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion
models. WaLLoC does not require perceptual or adversarial losses to represent
high-frequency detail, providing compatibility with modalities beyond RGB
images and stereo audio. WaLLoC's encoder consists almost entirely of linear
operations, making it exceptionally efficient and suitable for mobile
computing, remote sensing, and learning directly from compressed data. We
demonstrate WaLLoC's capability for compressed-domain learning across several
tasks, including image classification, colorization, document understanding,
and music source separation. Our code, experiments, and pre-trained audio and
image codecs are available at https://ut-sysml.org/wallocSummary
AI-Generated Summary