Compressão Aprendida para Aprendizado Comprimido
Learned Compression for Compressed Learning
December 12, 2024
Autores: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI
Resumo
Sensores modernos produzem fluxos de dados cada vez mais ricos em alta resolução. Devido a restrições de recursos, sistemas de aprendizado de máquina descartam a vasta maioria dessas informações por meio da redução de resolução. A aprendizagem no domínio comprimido permite que modelos operem em representações latentes compactas, possibilitando uma resolução efetiva mais alta para o mesmo orçamento. No entanto, os sistemas de compressão existentes não são ideais para a aprendizagem comprimida. A codificação de transformada linear e os sistemas de compressão aprendidos de ponta a ponta reduzem a taxa de bits, mas não reduzem uniformemente a dimensionalidade; assim, não aumentam significativamente a eficiência. Autoencoders generativos reduzem a dimensionalidade, mas seus objetivos adversariais ou perceptuais levam a perdas significativas de informação. Para lidar com essas limitações, apresentamos o WaLLoC (Compressão com Perda Aprendida por Wavelet), uma arquitetura de codec neural que combina codificação de transformada linear com autoencoders não lineares redutores de dimensionalidade. O WaLLoC coloca um autoencoder raso e assimétrico e um gargalo de entropia entre uma transformada de pacote de wavelet invertível. Em várias métricas-chave, o WaLLoC supera os autoencoders usados nos modelos de difusão latente de última geração. O WaLLoC não requer perdas perceptuais ou adversariais para representar detalhes de alta frequência, proporcionando compatibilidade com modalidades além de imagens RGB e áudio estéreo. O codificador do WaLLoC consiste quase inteiramente de operações lineares, tornando-o excepcionalmente eficiente e adequado para computação móvel, sensoriamento remoto e aprendizado diretamente a partir de dados comprimidos. Demonstramos a capacidade do WaLLoC para aprendizagem no domínio comprimido em várias tarefas, incluindo classificação de imagens, colorização, compreensão de documentos e separação de fontes musicais. Nosso código, experimentos e codecs de áudio e imagem pré-treinados estão disponíveis em https://ut-sysml.org/walloc
English
Modern sensors produce increasingly rich streams of high-resolution data. Due
to resource constraints, machine learning systems discard the vast majority of
this information via resolution reduction. Compressed-domain learning allows
models to operate on compact latent representations, allowing higher effective
resolution for the same budget. However, existing compression systems are not
ideal for compressed learning. Linear transform coding and end-to-end learned
compression systems reduce bitrate, but do not uniformly reduce dimensionality;
thus, they do not meaningfully increase efficiency. Generative autoencoders
reduce dimensionality, but their adversarial or perceptual objectives lead to
significant information loss. To address these limitations, we introduce WaLLoC
(Wavelet Learned Lossy Compression), a neural codec architecture that combines
linear transform coding with nonlinear dimensionality-reducing autoencoders.
WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck
between an invertible wavelet packet transform. Across several key metrics,
WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion
models. WaLLoC does not require perceptual or adversarial losses to represent
high-frequency detail, providing compatibility with modalities beyond RGB
images and stereo audio. WaLLoC's encoder consists almost entirely of linear
operations, making it exceptionally efficient and suitable for mobile
computing, remote sensing, and learning directly from compressed data. We
demonstrate WaLLoC's capability for compressed-domain learning across several
tasks, including image classification, colorization, document understanding,
and music source separation. Our code, experiments, and pre-trained audio and
image codecs are available at https://ut-sysml.org/wallocSummary
AI-Generated Summary