Обучаемое сжатие для сжатого обучения
Learned Compression for Compressed Learning
December 12, 2024
Авторы: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI
Аннотация
Современные сенсоры производят все более богатые потоки данных высокого разрешения. Из-за ограничений ресурсов системы машинного обучения отбрасывают подавляющее большинство этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, обеспечивая более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Линейное трансформационное кодирование и системы сжатия с обучением от начала до конца снижают битрейт, но не равномерно сокращают размерность; поэтому они не значительно увеличивают эффективность. Генеративные автоэнкодеры снижают размерность, но их адверсарные или перцептивные цели приводят к значительной потере информации. Для решения этих ограничений мы представляем WaLLoC (Wavelet Learned Lossy Compression) - нейронную архитектуру кодека, которая объединяет линейное трансформационное кодирование с нелинейными автоэнкодерами, сокращающими размерность. WaLLoC вставляет неглубокий асимметричный автоэнкодер и энтропийное узкое место между обратимым вейвлет-пакетным преобразованием. По нескольким ключевым метрикам WaLLoC превосходит автоэнкодеры, используемые в современных моделях латентного диффузии. WaLLoC не требует перцептивных или адверсарных потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями за пределами RGB-изображений и стереоаудио. Энкодер WaLLoC состоит почти полностью из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем способность WaLLoC к обучению в сжатом домене на нескольких задачах, включая классификацию изображений, окрашивание, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио- и изображенческие кодеки доступны по адресу https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due
to resource constraints, machine learning systems discard the vast majority of
this information via resolution reduction. Compressed-domain learning allows
models to operate on compact latent representations, allowing higher effective
resolution for the same budget. However, existing compression systems are not
ideal for compressed learning. Linear transform coding and end-to-end learned
compression systems reduce bitrate, but do not uniformly reduce dimensionality;
thus, they do not meaningfully increase efficiency. Generative autoencoders
reduce dimensionality, but their adversarial or perceptual objectives lead to
significant information loss. To address these limitations, we introduce WaLLoC
(Wavelet Learned Lossy Compression), a neural codec architecture that combines
linear transform coding with nonlinear dimensionality-reducing autoencoders.
WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck
between an invertible wavelet packet transform. Across several key metrics,
WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion
models. WaLLoC does not require perceptual or adversarial losses to represent
high-frequency detail, providing compatibility with modalities beyond RGB
images and stereo audio. WaLLoC's encoder consists almost entirely of linear
operations, making it exceptionally efficient and suitable for mobile
computing, remote sensing, and learning directly from compressed data. We
demonstrate WaLLoC's capability for compressed-domain learning across several
tasks, including image classification, colorization, document understanding,
and music source separation. Our code, experiments, and pre-trained audio and
image codecs are available at https://ut-sysml.org/wallocSummary
AI-Generated Summary