ChatPaper.aiChatPaper

LiVeAction: 軽量・多用途・非対称なリアルタイム動作向けニューラルコーデック設計

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

May 7, 2026
著者: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

要旨

現代のセンサーは豊かで高忠実度のデータを生成するが、ウェアラブルやリモートセンシングデバイス上で動作するアプリケーションは、帯域幅と電力予算によって制約を受け続けている。JPEGやMPEGなどの標準化されたコーデックは、ビットレートと知覚品質の間で効率的なトレードオフを実現するが、人間の知覚向けに設計されているため、空間オーディオアレイ、ハイパースペクトル画像、3D医用画像などのマシン知覚タスクや非伝統的なモダリティへの適用可能性が制限される。スカラー量子化や解像度低減に基づく汎用圧縮方式は広く適用可能であるが、信号の固有の冗長性を活用できず、結果として最適以下のレート歪み性能となる。最近の生成型ニューラルコーデック、すなわちトークナイザーは、複雑な信号依存性をモデル化するが、過剰パラメータ化され、データを大量に必要とし、モダリティ固有であることが多く、リソース制約のある環境では非実用的である。我々は、これらの限界を2つの重要なアイデアで解決する、軽量で多用途かつ非対称なニューラルコーデックアーキテクチャ(LiVeAction)を導入する。(1) 実行環境のリソース制約を満たすためにエンコーダの複雑性を低減するため、FFT風の構造を導入し、ニューラルネットワークベースの分析変換の全体サイズと深さを削減する。(2) 任意の信号モダリティを許容し、学習を簡素化するため、敵対的損失及び知覚損失を分散ベースのレートペナルティに置き換える。本設計は、最先端の生成型トークナイザーと比較して優れたレート歪み性能を実現するコーデックを生み出しつつ、低電力センサーへの展開において実用的であり続ける。コード、実験、Pythonライブラリをhttps://github.com/UT-SysML/liveactionで公開する。
English
Modern sensors generate rich, high-fidelity data, yet applications operating on wearable or remote sensing devices remain constrained by bandwidth and power budgets. Standardized codecs such as JPEG and MPEG achieve efficient trade-offs between bitrate and perceptual quality but are designed for human perception, limiting their applicability to machine-perception tasks and non-traditional modalities such as spatial audio arrays, hyperspectral images, and 3D medical images. General-purpose compression schemes based on scalar quantization or resolution reduction are broadly applicable but fail to exploit inherent signal redundancies, resulting in suboptimal rate-distortion performance. Recent generative neural codecs, or tokenizers, model complex signal dependencies but are often over-parameterized, data-hungry, and modality-specific, making them impractical for resource-constrained environments. We introduce a Lightweight, Versatile, and Asymmetric neural codec architecture (LiVeAction), that addresses these limitations through two key ideas. (1) To reduce the complexity of the encoder to meet the resource constraints of the execution environments, we impose an FFT-like structure and reduce the overall size and depth of the neural-network-based analysis transform. (2) To allow arbitrary signal modalities and simplify training, we replace adversarial and perceptual losses with a variance-based rate penalty. Our design produces codecs that deliver superior rate-distortion performance compared to state-of-the-art generative tokenizers, while remaining practical for deployment on low-power sensors. We release our code, experiments, and python library at https://github.com/UT-SysML/liveaction .
PDF41May 12, 2026