ChatPaper.aiChatPaper

LiVeAction : une conception de codec neuronal légère, polyvalente et asymétrique pour un fonctionnement en temps réel

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

May 7, 2026
Auteurs: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

Résumé

Les capteurs modernes génèrent des données riches et haute fidélité, mais les applications fonctionnant sur des dispositifs portables ou de télédétection restent contraintes par les budgets de bande passante et d'énergie. Les codecs standardisés tels que JPEG et MPEG réalisent des compromis efficaces entre le débit binaire et la qualité perceptuelle, mais sont conçus pour la perception humaine, limitant leur applicabilité aux tâches de perception machine et aux modalités non traditionnelles comme les réseaux audio spatiaux, les images hyperspectrales et les images médicales 3D. Les schémas de compression à usage général basés sur la quantification scalaire ou la réduction de résolution sont largement applicables, mais ne parviennent pas à exploiter les redondances inhérentes du signal, ce qui entraîne des performances débit-distorsion sous-optimales. Les récents codecs neuronaux génératifs, ou tokenizers, modélisent les dépendances complexes du signal, mais sont souvent surparamétrés, gourmands en données et spécifiques à une modalité, ce qui les rend impraticables pour les environnements à ressources limitées. Nous présentons une architecture de codec neuronal léger, polyvalent et asymétrique (LiVeAction) qui répond à ces limitations grâce à deux idées clés. (1) Pour réduire la complexité de l'encodeur afin de répondre aux contraintes de ressources des environnements d'exécution, nous imposons une structure de type FFT et réduisons la taille et la profondeur globales de la transformée d'analyse basée sur un réseau neuronal. (2) Pour permettre des modalités de signal arbitraires et simplifier l'entraînement, nous remplaçons les pertes adverses et perceptuelles par une pénalité de débit basée sur la variance. Notre conception produit des codecs qui offrent des performances débit-distorsion supérieures par rapport aux tokenizers génératifs de pointe, tout en restant pratiques pour un déploiement sur des capteurs à faible consommation. Nous publions notre code, nos expériences et notre bibliothèque Python à l'adresse https://github.com/UT-SysML/liveaction .
English
Modern sensors generate rich, high-fidelity data, yet applications operating on wearable or remote sensing devices remain constrained by bandwidth and power budgets. Standardized codecs such as JPEG and MPEG achieve efficient trade-offs between bitrate and perceptual quality but are designed for human perception, limiting their applicability to machine-perception tasks and non-traditional modalities such as spatial audio arrays, hyperspectral images, and 3D medical images. General-purpose compression schemes based on scalar quantization or resolution reduction are broadly applicable but fail to exploit inherent signal redundancies, resulting in suboptimal rate-distortion performance. Recent generative neural codecs, or tokenizers, model complex signal dependencies but are often over-parameterized, data-hungry, and modality-specific, making them impractical for resource-constrained environments. We introduce a Lightweight, Versatile, and Asymmetric neural codec architecture (LiVeAction), that addresses these limitations through two key ideas. (1) To reduce the complexity of the encoder to meet the resource constraints of the execution environments, we impose an FFT-like structure and reduce the overall size and depth of the neural-network-based analysis transform. (2) To allow arbitrary signal modalities and simplify training, we replace adversarial and perceptual losses with a variance-based rate penalty. Our design produces codecs that deliver superior rate-distortion performance compared to state-of-the-art generative tokenizers, while remaining practical for deployment on low-power sensors. We release our code, experiments, and python library at https://github.com/UT-SysML/liveaction .