I Byte Sono Tutto Ciò Che Ti Serve: Trasformatori Che Operano Direttamente Sui Byte dei File

Abstract

Gli approcci moderni di deep learning trasformano solitamente gli input in una forma specifica per la modalità. Ad esempio, l'approccio più comune al deep learning per la classificazione di immagini prevede la decodifica dei byte dei file immagine in un tensore RGB, che viene poi passato a una rete neurale. Noi, invece, indaghiamo la possibilità di eseguire la classificazione direttamente sui byte dei file, senza la necessità di decodificare i file al momento dell'inferenza. Utilizzare i byte dei file come input del modello consente lo sviluppo di modelli in grado di operare su più modalità di input. Il nostro modello, ByteFormer, raggiunge un'accuratezza di classificazione Top-1 su ImageNet del 77,33% quando viene addestrato e testato direttamente sui byte di file TIFF, utilizzando un'architettura transformer con una configurazione simile a DeiT-Ti (72,2% di accuratezza quando opera su immagini RGB). Senza modifiche o ottimizzazione degli iperparametri, ByteFormer raggiunge un'accuratezza di classificazione del 95,42% quando opera su file WAV del dataset Speech Commands v2 (rispetto a un'accuratezza state-of-the-art del 98,7%). Inoltre, dimostriamo che ByteFormer ha applicazioni nell'inferenza che preserva la privacy. ByteFormer è in grado di eseguire inferenza su particolari rappresentazioni di input offuscate senza perdita di accuratezza. Dimostriamo anche la capacità di ByteFormer di eseguire inferenza con una ipotetica fotocamera che preserva la privacy, evitando di formare immagini complete mascherando costantemente il 90% dei canali dei pixel, raggiungendo comunque un'accuratezza del 71,35% su ImageNet. Il nostro codice sarà reso disponibile all'indirizzo https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.

English

Modern deep learning approaches usually transform inputs into a modality-specific form. For example, the most common deep learning approach to image classification involves decoding image file bytes into an RGB tensor which is passed into a neural network. Instead, we investigate performing classification directly on file bytes, without the need for decoding files at inference time. Using file bytes as model inputs enables the development of models which can operate on multiple input modalities. Our model, ByteFormer, achieves an ImageNet Top-1 classification accuracy of 77.33% when training and testing directly on TIFF file bytes using a transformer backbone with configuration similar to DeiT-Ti (72.2% accuracy when operating on RGB images). Without modifications or hyperparameter tuning, ByteFormer achieves 95.42% classification accuracy when operating on WAV files from the Speech Commands v2 dataset (compared to state-of-the-art accuracy of 98.7%). Additionally, we demonstrate that ByteFormer has applications in privacy-preserving inference. ByteFormer is capable of performing inference on particular obfuscated input representations with no loss of accuracy. We also demonstrate ByteFormer's ability to perform inference with a hypothetical privacy-preserving camera which avoids forming full images by consistently masking 90% of pixel channels, while still achieving 71.35% accuracy on ImageNet. Our code will be made available at https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.

I Byte Sono Tutto Ciò Che Ti Serve: Trasformatori Che Operano Direttamente Sui Byte dei File

Bytes Are All You Need: Transformers Operating Directly On File Bytes

Abstract

Support