ChatPaper.aiChatPaper

Voorbij Taalmodellen: Byte-modellen zijn Simulators van de Digitale Wereld

Beyond Language Models: Byte Models are Digital World Simulators

February 29, 2024
Auteurs: Shangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun
cs.AI

Samenvatting

Traditioneel deep learning negeert vaak bytes, de basiseenheden van de digitale wereld, waar alle vormen van informatie en operaties worden gecodeerd en gemanipuleerd in binair formaat. Geïnspireerd door het succes van voorspelling van de volgende token in natuurlijke taalverwerking, introduceren we bGPT, een model met voorspelling van de volgende byte om de digitale wereld te simuleren. bGPT evenaart gespecialiseerde modellen in prestaties over verschillende modaliteiten, waaronder tekst, audio en afbeeldingen, en biedt nieuwe mogelijkheden voor het voorspellen, simuleren en diagnosticeren van algoritme- of hardwaregedrag. Het heeft het proces van het omzetten van symbolische muziekdata bijna feilloos gerepliceerd, met een lage foutmarge van 0,0011 bits per byte bij het omzetten van ABC-notatie naar MIDI-formaat. Daarnaast toont bGPT uitzonderlijke capaciteiten in het simuleren van CPU-gedrag, met een nauwkeurigheid van meer dan 99,99% bij het uitvoeren van verschillende operaties. Door gebruik te maken van voorspelling van de volgende byte kunnen modellen zoals bGPT rechtstreeks leren van enorme hoeveelheden binaire data, waardoor ze effectief de complexe patronen van de digitale wereld kunnen simuleren.
English
Traditional deep learning often overlooks bytes, the basic units of the digital world, where all forms of information and operations are encoded and manipulated in binary format. Inspired by the success of next token prediction in natural language processing, we introduce bGPT, a model with next byte prediction to simulate the digital world. bGPT matches specialized models in performance across various modalities, including text, audio, and images, and offers new possibilities for predicting, simulating, and diagnosing algorithm or hardware behaviour. It has almost flawlessly replicated the process of converting symbolic music data, achieving a low error rate of 0.0011 bits per byte in converting ABC notation to MIDI format. In addition, bGPT demonstrates exceptional capabilities in simulating CPU behaviour, with an accuracy exceeding 99.99% in executing various operations. Leveraging next byte prediction, models like bGPT can directly learn from vast binary data, effectively simulating the intricate patterns of the digital world.
PDF534December 15, 2024