ChatPaper.aiChatPaper

LiVeAction: 실시간 동작을 위한 경량화되고 다용도의 비대칭 신경 코덱 설계

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

May 7, 2026
저자: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI

초록

현대 센서는 풍부하고 고충실도의 데이터를 생성하지만, 웨어러블이나 원격 감지 기기에서 작동하는 애플리케이션은 대역폭 및 전력 예산의 제약을 받는다. JPEG 및 MPEG와 같은 표준화된 코덱은 비트레이트와 지각 품질 사이에서 효율적인 절충을 달성하지만, 인간 지각을 위해 설계되어 기계 지각 작업 및 공간 오디오 어레이, 초분광 이미지, 3차원 의료 영상과 같은 비전통적 모달리티에 대한 적용 가능성이 제한적이다. 스칼라 양자화나 해상도 감소에 기반한 범용 압축 방식은 광범위하게 적용 가능하지만, 고유한 신호 중복성을 활용하지 못하여 최적 이하의 율-왜곡 성능을 보인다. 최근의 생성 신경망 코덱, 즉 토크나이저는 복잡한 신호 의존성을 모델링하지만, 종종 과대 파라미터화되고 데이터 소모적이며 모달리티 특화되어 있어 자원 제약 환경에서 실용적이지 않다. 우리는 이러한 한계를 두 가지 핵심 아이디어를 통해 해결하는 경량, 다용도, 비대칭 신경망 코덱 아키텍처(LiVeAction)를 소개한다. (1) 실행 환경의 자원 제약을 충족시키기 위해 인코더의 복잡성을 줄이기 위해, 우리는 FFT 유사 구조를 도입하고 신경망 기반 분석 변환의 전체 크기와 깊이를 축소한다. (2) 임의의 신호 모달리티를 허용하고 훈련을 단순화하기 위해, 우리는 적대적 및 지각 손실을 분산 기반 비트율 패널티로 대체한다. 우리의 설계는 최신 생성 토크나이저보다 우수한 율-왜곡 성능을 제공하면서도 저전력 센서에 배포하기에 실용적이다. 우리는 코드, 실험 및 파이썬 라이브러리를 https://github.com/UT-SysML/liveaction 에서 공개한다.
English
Modern sensors generate rich, high-fidelity data, yet applications operating on wearable or remote sensing devices remain constrained by bandwidth and power budgets. Standardized codecs such as JPEG and MPEG achieve efficient trade-offs between bitrate and perceptual quality but are designed for human perception, limiting their applicability to machine-perception tasks and non-traditional modalities such as spatial audio arrays, hyperspectral images, and 3D medical images. General-purpose compression schemes based on scalar quantization or resolution reduction are broadly applicable but fail to exploit inherent signal redundancies, resulting in suboptimal rate-distortion performance. Recent generative neural codecs, or tokenizers, model complex signal dependencies but are often over-parameterized, data-hungry, and modality-specific, making them impractical for resource-constrained environments. We introduce a Lightweight, Versatile, and Asymmetric neural codec architecture (LiVeAction), that addresses these limitations through two key ideas. (1) To reduce the complexity of the encoder to meet the resource constraints of the execution environments, we impose an FFT-like structure and reduce the overall size and depth of the neural-network-based analysis transform. (2) To allow arbitrary signal modalities and simplify training, we replace adversarial and perceptual losses with a variance-based rate penalty. Our design produces codecs that deliver superior rate-distortion performance compared to state-of-the-art generative tokenizers, while remaining practical for deployment on low-power sensors. We release our code, experiments, and python library at https://github.com/UT-SysML/liveaction .
PDF41May 12, 2026