Voorbij Taalmodellen: Byte-modellen zijn Simulators van de Digitale Wereld
Beyond Language Models: Byte Models are Digital World Simulators
February 29, 2024
Auteurs: Shangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun
cs.AI
Samenvatting
Traditioneel deep learning negeert vaak bytes, de basiseenheden van de digitale wereld, waar alle vormen van informatie en operaties worden gecodeerd en gemanipuleerd in binair formaat. Geïnspireerd door het succes van voorspelling van de volgende token in natuurlijke taalverwerking, introduceren we bGPT, een model met voorspelling van de volgende byte om de digitale wereld te simuleren. bGPT evenaart gespecialiseerde modellen in prestaties over verschillende modaliteiten, waaronder tekst, audio en afbeeldingen, en biedt nieuwe mogelijkheden voor het voorspellen, simuleren en diagnosticeren van algoritme- of hardwaregedrag. Het heeft het proces van het omzetten van symbolische muziekdata bijna feilloos gerepliceerd, met een lage foutmarge van 0,0011 bits per byte bij het omzetten van ABC-notatie naar MIDI-formaat. Daarnaast toont bGPT uitzonderlijke capaciteiten in het simuleren van CPU-gedrag, met een nauwkeurigheid van meer dan 99,99% bij het uitvoeren van verschillende operaties. Door gebruik te maken van voorspelling van de volgende byte kunnen modellen zoals bGPT rechtstreeks leren van enorme hoeveelheden binaire data, waardoor ze effectief de complexe patronen van de digitale wereld kunnen simuleren.
English
Traditional deep learning often overlooks bytes, the basic units of the
digital world, where all forms of information and operations are encoded and
manipulated in binary format. Inspired by the success of next token prediction
in natural language processing, we introduce bGPT, a model with next byte
prediction to simulate the digital world. bGPT matches specialized models in
performance across various modalities, including text, audio, and images, and
offers new possibilities for predicting, simulating, and diagnosing algorithm
or hardware behaviour. It has almost flawlessly replicated the process of
converting symbolic music data, achieving a low error rate of 0.0011 bits per
byte in converting ABC notation to MIDI format. In addition, bGPT demonstrates
exceptional capabilities in simulating CPU behaviour, with an accuracy
exceeding 99.99% in executing various operations. Leveraging next byte
prediction, models like bGPT can directly learn from vast binary data,
effectively simulating the intricate patterns of the digital world.