I Byte Sono Tutto Ciò Che Ti Serve: Trasformatori Che Operano Direttamente Sui Byte dei File
Bytes Are All You Need: Transformers Operating Directly On File Bytes
May 31, 2023
Autori: Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari
cs.AI
Abstract
Gli approcci moderni di deep learning trasformano solitamente gli input in una forma specifica per la modalità. Ad esempio, l'approccio più comune al deep learning per la classificazione di immagini prevede la decodifica dei byte dei file immagine in un tensore RGB, che viene poi passato a una rete neurale. Noi, invece, indaghiamo la possibilità di eseguire la classificazione direttamente sui byte dei file, senza la necessità di decodificare i file al momento dell'inferenza. Utilizzare i byte dei file come input del modello consente lo sviluppo di modelli in grado di operare su più modalità di input. Il nostro modello, ByteFormer, raggiunge un'accuratezza di classificazione Top-1 su ImageNet del 77,33% quando viene addestrato e testato direttamente sui byte di file TIFF, utilizzando un'architettura transformer con una configurazione simile a DeiT-Ti (72,2% di accuratezza quando opera su immagini RGB). Senza modifiche o ottimizzazione degli iperparametri, ByteFormer raggiunge un'accuratezza di classificazione del 95,42% quando opera su file WAV del dataset Speech Commands v2 (rispetto a un'accuratezza state-of-the-art del 98,7%). Inoltre, dimostriamo che ByteFormer ha applicazioni nell'inferenza che preserva la privacy. ByteFormer è in grado di eseguire inferenza su particolari rappresentazioni di input offuscate senza perdita di accuratezza. Dimostriamo anche la capacità di ByteFormer di eseguire inferenza con una ipotetica fotocamera che preserva la privacy, evitando di formare immagini complete mascherando costantemente il 90% dei canali dei pixel, raggiungendo comunque un'accuratezza del 71,35% su ImageNet. Il nostro codice sarà reso disponibile all'indirizzo https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
English
Modern deep learning approaches usually transform inputs into a
modality-specific form. For example, the most common deep learning approach to
image classification involves decoding image file bytes into an RGB tensor
which is passed into a neural network. Instead, we investigate performing
classification directly on file bytes, without the need for decoding files at
inference time. Using file bytes as model inputs enables the development of
models which can operate on multiple input modalities. Our model,
ByteFormer, achieves an ImageNet Top-1 classification accuracy of
77.33% when training and testing directly on TIFF file bytes using a
transformer backbone with configuration similar to DeiT-Ti (72.2% accuracy
when operating on RGB images). Without modifications or hyperparameter tuning,
ByteFormer achieves 95.42% classification accuracy when operating on WAV
files from the Speech Commands v2 dataset (compared to state-of-the-art
accuracy of 98.7%). Additionally, we demonstrate that ByteFormer has
applications in privacy-preserving inference. ByteFormer is capable of
performing inference on particular obfuscated input representations with no
loss of accuracy. We also demonstrate ByteFormer's ability to perform inference
with a hypothetical privacy-preserving camera which avoids forming full images
by consistently masking 90% of pixel channels, while still achieving
71.35% accuracy on ImageNet. Our code will be made available at
https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.