SEAOTTER: Autoencodificação Embutida em Sensores com Transcodificação Única para Reconstrução Eficiente

Resumo

Em sistemas robóticos, vastas quantidades de dados visuais são facilmente capturadas em alta resolução utilizando hardware de baixo custo e baixo consumo energético. No entanto, a largura de banda limitada e os recursos computacionais restritos no dispositivo impedem seu aproveitamento total quando transmitidos por codecs convencionais, como JPEG/MPEG. Codecs mais recentes, como AV1/AVIF, melhoram a relação taxa-distorção, mas demandam muito mais recursos para codificação, tornando-se inviáveis sem ASICs personalizados. Autoencoders assimétricos recentes oferecem alta qualidade sob restrições extremas de energia e largura de banda, mas adicionam custo proibitivo de decodificação e utilizam formatos proprietários que ignoram décadas de infraestrutura construída em torno de padrões como JPEG. Para superar essas limitações, introduzimos um framework de compressão para robótica em nuvem baseado em um Autoencoder Embarcado no Sensor emparelhado com uma Transcodificação Única para Reconstrução Eficiente (SEAOTTER). Como os estágios de sensor, nuvem e consumidor enfrentam orçamentos muito diferentes de energia e largura de banda, o SEAOTTER combina a compactação de um latente aprendido com a ampla usabilidade de um arquivo JPEG padrão. Como a transcodificação ingênua degrada o desempenho, propomos uma transformação aprendível de cor e quantização JPEG que permite maior precisão para percepção global, densa e baseada em visão-linguagem. Utilizando o SEAOTTER, treinamos pipelines de transcodificação de propósito geral e cientes da tarefa para um codificador pré-treinado e congelado. A uma taxa de compressão de 200:1 e em comparação com AVIF, observamos codificação 7 vezes mais rápida, decodificação 3,5 vezes mais rápida e +8% de acurácia top-1 no ImageNet, mantendo compatibilidade com a infraestrutura JPEG. Nosso código está disponível em https://github.com/UT-SysML/seaotter.

English

In robotics systems, vast amounts of visual data are easily captured at high resolution using low-cost, low-power hardware. Yet, limited bandwidth and on-device compute resources prevent full utilization when transmitted via conventional codecs like JPEG/MPEG. Newer codecs, like AV1/AVIF, improve the rate-distortion trade-off, but demand far more resources for encoding, impractical without custom ASICs. Recent asymmetric autoencoders deliver high quality under extreme power and bandwidth constraints, but add prohibitive decoding cost and use bespoke formats that ignore decades of infrastructure built around standards like JPEG. To address these limitations, we introduce a compression framework for cloud robotics based on a Sensor Embedded Autoencoder paired with a One-Time Transcode for Efficient Reconstruction (SEAOTTER). Because the sensor, cloud, and consumer stages face very different power and bandwidth budgets, SEAOTTER combines the compactness of a learned latent with the broad usability of a standard JPEG file. Since naive transcoding degrades performance, we propose a learnable JPEG color and quantization transform that enables increased accuracy for global, dense, and vision-language-based perception. Using SEAOTTER, we train both general-purpose and task-aware transcoding pipelines for a pre-trained, frozen encoder. At a compression ratio of 200:1 and compared to AVIF, we observe 7 times faster encoding, 3.5 times faster decoding, and +8% ImageNet top-1 accuracy, while retaining compatibility with JPEG infrastructure. Our code is available at https://github.com/UT-SysML/seaotter .