I Modelli Linguistici di Grande Scala come Macchine Generali di Pattern
Large Language Models as General Pattern Machines
July 10, 2023
Autori: Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
cs.AI
Abstract
Osserviamo che i grandi modelli linguistici pre-addestrati (LLM) sono in grado di completare in modo autoregressivo sequenze complesse di token -- da quelle arbitrarie generate proceduralmente mediante grammatiche libere dal contesto probabilistiche (PCFG), a modelli spaziali più ricchi presenti nel Corpus di Ragionamento Astratto (ARC), un benchmark per l'intelligenza artificiale generale, presentati nello stile dell'ASCII art. Sorprendentemente, la capacità di completamento dei modelli può essere parzialmente mantenuta anche quando le sequenze sono espresse utilizzando token campionati casualmente dal vocabolario. Questi risultati suggeriscono che, senza alcun addestramento aggiuntivo, gli LLM possono fungere da modellatori generali di sequenze, guidati dall'apprendimento contestuale. In questo lavoro, indaghiamo come queste capacità zero-shot possano essere applicate a problemi nella robotica -- dall'estrapolazione di sequenze numeriche che rappresentano stati nel tempo per completare movimenti semplici, al prompting da meno a più di traiettorie condizionate alla ricompensa che possono scoprire e rappresentare politiche a ciclo chiuso (ad esempio, un controller stabilizzante per il CartPole). Sebbene oggi sia difficile implementare questa tecnica per sistemi reali a causa della latenza, delle limitazioni delle dimensioni del contesto e dei costi computazionali, l'approccio di utilizzare gli LLM per guidare il controllo di basso livello potrebbe offrire un'emozionante anteprima di come i modelli tra le parole possano essere trasferiti alle azioni.
English
We observe that pre-trained large language models (LLMs) are capable of
autoregressively completing complex token sequences -- from arbitrary ones
procedurally generated by probabilistic context-free grammars (PCFG), to more
rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general
AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern
completion proficiency can be partially retained even when the sequences are
expressed using tokens randomly sampled from the vocabulary. These results
suggest that without any additional training, LLMs can serve as general
sequence modelers, driven by in-context learning. In this work, we investigate
how these zero-shot capabilities may be applied to problems in robotics -- from
extrapolating sequences of numbers that represent states over time to complete
simple motions, to least-to-most prompting of reward-conditioned trajectories
that can discover and represent closed-loop policies (e.g., a stabilizing
controller for CartPole). While difficult to deploy today for real systems due
to latency, context size limitations, and compute costs, the approach of using
LLMs to drive low-level control may provide an exciting glimpse into how the
patterns among words could be transferred to actions.