SEAOTTER: Sensoreingebettetes Autoencoding mit einmaliger Transkodierung für effiziente Rekonstruktion

Zusammenfassung

In Robotersystemen können große Mengen visueller Daten mit hoher Auflösung problemlos mit kostengünstiger, energiesparender Hardware erfasst werden. Allerdings verhindern begrenzte Bandbreite und begrenzte On-Device-Rechenressourcen eine vollständige Nutzung bei der Übertragung über herkömmliche Codecs wie JPEG/MPEG. Neuere Codecs wie AV1/AVIF verbessern zwar den Raten-Verzerrungs-Kompromiss, erfordern jedoch deutlich mehr Ressourcen für die Kodierung, was ohne kundenspezifische ASICs unpraktikabel ist. Aktuelle asymmetrische Autoencoder liefern unter extremen Energie- und Bandbreitenbeschränkungen eine hohe Qualität, verursachen jedoch prohibitive Dekodierungskosten und verwenden proprietäre Formate, die die jahrzehntelange Infrastruktur um Standards wie JPEG ignorieren. Um diese Einschränkungen zu adressieren, stellen wir ein Kompressionsframework für Cloud-Robotik vor, das auf einem Sensor-Eingebetteten Autoencoder in Verbindung mit einer Einmaligen Transkodierung für effiziente Rekonstruktion (SEAOTTER) basiert. Da die Sensor-, Cloud- und Verbraucherstufen sehr unterschiedlichen Energie- und Bandbreitenbudgets gegenüberstehen, kombiniert SEAOTTER die Kompaktheit einer gelernten Latenten mit der breiten Nutzbarkeit einer standardmäßigen JPEG-Datei. Da naive Transkodierung die Leistung beeinträchtigt, schlagen wir eine lernbare JPEG-Farb- und Quantisierungstransformation vor, die eine höhere Genauigkeit für globale, dichte und visionssprachbasierte Wahrnehmung ermöglicht. Mit SEAOTTER trainieren wir sowohl allgemeine als auch aufgabenspezifische Transkodierungspipelines für einen vortrainierten, eingefrorenen Encoder. Bei einem Kompressionsverhältnis von 200:1 und im Vergleich zu AVIF beobachten wir eine 7-mal schnellere Kodierung, 3,5-mal schnellere Dekodierung und +8 % ImageNet-Top-1-Genauigkeit, während die Kompatibilität mit der JPEG-Infrastruktur erhalten bleibt. Unser Code ist verfügbar unter https://github.com/UT-SysML/seaotter .

English

In robotics systems, vast amounts of visual data are easily captured at high resolution using low-cost, low-power hardware. Yet, limited bandwidth and on-device compute resources prevent full utilization when transmitted via conventional codecs like JPEG/MPEG. Newer codecs, like AV1/AVIF, improve the rate-distortion trade-off, but demand far more resources for encoding, impractical without custom ASICs. Recent asymmetric autoencoders deliver high quality under extreme power and bandwidth constraints, but add prohibitive decoding cost and use bespoke formats that ignore decades of infrastructure built around standards like JPEG. To address these limitations, we introduce a compression framework for cloud robotics based on a Sensor Embedded Autoencoder paired with a One-Time Transcode for Efficient Reconstruction (SEAOTTER). Because the sensor, cloud, and consumer stages face very different power and bandwidth budgets, SEAOTTER combines the compactness of a learned latent with the broad usability of a standard JPEG file. Since naive transcoding degrades performance, we propose a learnable JPEG color and quantization transform that enables increased accuracy for global, dense, and vision-language-based perception. Using SEAOTTER, we train both general-purpose and task-aware transcoding pipelines for a pre-trained, frozen encoder. At a compression ratio of 200:1 and compared to AVIF, we observe 7 times faster encoding, 3.5 times faster decoding, and +8% ImageNet top-1 accuracy, while retaining compatibility with JPEG infrastructure. Our code is available at https://github.com/UT-SysML/seaotter .