ChatPaper.aiChatPaper

Compresión aprendida para el aprendizaje comprimido

Learned Compression for Compressed Learning

December 12, 2024
Autores: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

Resumen

Los sensores modernos producen flujos de datos cada vez más ricos en alta resolución. Debido a limitaciones de recursos, los sistemas de aprendizaje automático descartan la gran mayoría de esta información mediante la reducción de resolución. El aprendizaje en dominio comprimido permite que los modelos operen en representaciones latentes compactas, lo que proporciona una mayor resolución efectiva para el mismo presupuesto. Sin embargo, los sistemas de compresión existentes no son ideales para el aprendizaje comprimido. La codificación de transformación lineal y los sistemas de compresión aprendidos de extremo a extremo reducen el bitrate, pero no reducen uniformemente la dimensionalidad; por lo tanto, no aumentan significativamente la eficiencia. Los autoencoders generativos reducen la dimensionalidad, pero sus objetivos adversariales o perceptuales conducen a una pérdida significativa de información. Para abordar estas limitaciones, presentamos WaLLoC (Compresión Perdida Aprendida por Wavelet), una arquitectura de códec neuronal que combina la codificación de transformación lineal con autoencoders no lineales de reducción de dimensionalidad. WaLLoC coloca un autoencoder asimétrico superficial y un cuello de botella de entropía entre una transformación de paquetes de wavelet invertible. En varios métricas clave, WaLLoC supera a los autoencoders utilizados en los modelos de difusión latente de última generación. WaLLoC no requiere pérdidas perceptuales o adversariales para representar detalles de alta frecuencia, lo que permite la compatibilidad con modalidades más allá de las imágenes RGB y el audio estéreo. El codificador de WaLLoC consiste casi en su totalidad de operaciones lineales, lo que lo hace excepcionalmente eficiente y adecuado para la informática móvil, la percepción remota y el aprendizaje directamente a partir de datos comprimidos. Demostramos la capacidad de WaLLoC para el aprendizaje en dominio comprimido en varias tareas, incluyendo clasificación de imágenes, colorización, comprensión de documentos y separación de fuentes musicales. Nuestro código, experimentos y códecs de audio e imagen pre-entrenados están disponibles en https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due to resource constraints, machine learning systems discard the vast majority of this information via resolution reduction. Compressed-domain learning allows models to operate on compact latent representations, allowing higher effective resolution for the same budget. However, existing compression systems are not ideal for compressed learning. Linear transform coding and end-to-end learned compression systems reduce bitrate, but do not uniformly reduce dimensionality; thus, they do not meaningfully increase efficiency. Generative autoencoders reduce dimensionality, but their adversarial or perceptual objectives lead to significant information loss. To address these limitations, we introduce WaLLoC (Wavelet Learned Lossy Compression), a neural codec architecture that combines linear transform coding with nonlinear dimensionality-reducing autoencoders. WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck between an invertible wavelet packet transform. Across several key metrics, WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion models. WaLLoC does not require perceptual or adversarial losses to represent high-frequency detail, providing compatibility with modalities beyond RGB images and stereo audio. WaLLoC's encoder consists almost entirely of linear operations, making it exceptionally efficient and suitable for mobile computing, remote sensing, and learning directly from compressed data. We demonstrate WaLLoC's capability for compressed-domain learning across several tasks, including image classification, colorization, document understanding, and music source separation. Our code, experiments, and pre-trained audio and image codecs are available at https://ut-sysml.org/walloc
PDF132December 13, 2024