ChatPaper.aiChatPaper

Compression Apprise pour l'Apprentissage Compressé

Learned Compression for Compressed Learning

December 12, 2024
Auteurs: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

Résumé

Les capteurs modernes produisent des flux de données haute résolution de plus en plus riches. En raison de contraintes de ressources, les systèmes d'apprentissage automatique rejettent la grande majorité de ces informations en réduisant la résolution. L'apprentissage dans le domaine compressé permet aux modèles de fonctionner sur des représentations latentes compactes, offrant ainsi une résolution effective plus élevée pour le même budget. Cependant, les systèmes de compression existants ne sont pas idéaux pour l'apprentissage compressé. La codage de transformée linéaire et les systèmes de compression appris de bout en bout réduisent le débit binaire, mais ne réduisent pas uniformément la dimensionnalité ; par conséquent, ils n'augmentent pas efficacement l'efficacité. Les autoencodeurs génératifs réduisent la dimensionnalité, mais leurs objectifs adversaires ou perceptuels entraînent une perte d'informations significative. Pour remédier à ces limitations, nous présentons WaLLoC (Compression Lossy Apprise par Ondelettes), une architecture de codec neuronal qui combine le codage de transformée linéaire avec des autoencodeurs non linéaires réducteurs de dimensionnalité. WaLLoC insère un autoencodeur asymétrique peu profond et un goulot d'étranglement d'entropie entre une transformée en paquets d'ondelettes inversible. Sur plusieurs mesures clés, WaLLoC surpasse les autoencodeurs utilisés dans les modèles de diffusion latente de pointe. WaLLoC ne nécessite pas de pertes perceptuelles ou adverses pour représenter les détails haute fréquence, offrant ainsi une compatibilité avec des modalités au-delà des images RVB et de l'audio stéréo. L'encodeur de WaLLoC se compose presque entièrement d'opérations linéaires, le rendant exceptionnellement efficace et adapté au calcul mobile, à la télédétection et à l'apprentissage direct à partir de données compressées. Nous démontrons la capacité de WaLLoC pour l'apprentissage dans le domaine compressé à travers plusieurs tâches, notamment la classification d'images, la colorisation, la compréhension de documents et la séparation des sources musicales. Notre code, nos expériences et nos codecs audio et image pré-entraînés sont disponibles sur https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due to resource constraints, machine learning systems discard the vast majority of this information via resolution reduction. Compressed-domain learning allows models to operate on compact latent representations, allowing higher effective resolution for the same budget. However, existing compression systems are not ideal for compressed learning. Linear transform coding and end-to-end learned compression systems reduce bitrate, but do not uniformly reduce dimensionality; thus, they do not meaningfully increase efficiency. Generative autoencoders reduce dimensionality, but their adversarial or perceptual objectives lead to significant information loss. To address these limitations, we introduce WaLLoC (Wavelet Learned Lossy Compression), a neural codec architecture that combines linear transform coding with nonlinear dimensionality-reducing autoencoders. WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck between an invertible wavelet packet transform. Across several key metrics, WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion models. WaLLoC does not require perceptual or adversarial losses to represent high-frequency detail, providing compatibility with modalities beyond RGB images and stereo audio. WaLLoC's encoder consists almost entirely of linear operations, making it exceptionally efficient and suitable for mobile computing, remote sensing, and learning directly from compressed data. We demonstrate WaLLoC's capability for compressed-domain learning across several tasks, including image classification, colorization, document understanding, and music source separation. Our code, experiments, and pre-trained audio and image codecs are available at https://ut-sysml.org/walloc

Summary

AI-Generated Summary

PDF132December 13, 2024