Grote Taalmodellen als Algemene Patroonmachines
Large Language Models as General Pattern Machines
July 10, 2023
Auteurs: Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
cs.AI
Samenvatting
We observeren dat vooraf getrainde grote taalmodellen (LLMs) in staat zijn om complexe tokenreeksen autoregressief te voltooien -- van willekeurige reeksen die procedureel worden gegenereerd door probabilistische contextvrije grammatica's (PCFG), tot rijkere ruimtelijke patronen die voorkomen in het Abstract Reasoning Corpus (ARC), een algemene AI-benchmark, geprompt in de stijl van ASCII-art. Verrassend genoeg kan het vermogen om patronen te voltooien gedeeltelijk behouden blijven, zelfs wanneer de reeksen worden uitgedrukt met tokens die willekeurig zijn gesamplet uit de vocabulaire. Deze resultaten suggereren dat LLMs, zonder aanvullende training, kunnen dienen als algemene sequentiemodellen, aangedreven door in-context leren. In dit werk onderzoeken we hoe deze zero-shot-mogelijkheden kunnen worden toegepast op problemen in de robotica -- van het extrapoleren van reeksen getallen die toestanden in de tijd representeren om eenvoudige bewegingen te voltooien, tot least-to-most prompting van beloningsgeconditioneerde trajecten die gesloten-lusbeleidsregels kunnen ontdekken en representeren (bijvoorbeeld een stabiliserende controller voor CartPole). Hoewel het vandaag de dag moeilijk is om dit in te zetten voor echte systemen vanwege latentie, beperkingen in contextgrootte en rekenkosten, biedt de aanpak van het gebruik van LLMs voor low-level controle een spannend inkijkje in hoe patronen tussen woorden kunnen worden overgedragen naar acties.
English
We observe that pre-trained large language models (LLMs) are capable of
autoregressively completing complex token sequences -- from arbitrary ones
procedurally generated by probabilistic context-free grammars (PCFG), to more
rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general
AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern
completion proficiency can be partially retained even when the sequences are
expressed using tokens randomly sampled from the vocabulary. These results
suggest that without any additional training, LLMs can serve as general
sequence modelers, driven by in-context learning. In this work, we investigate
how these zero-shot capabilities may be applied to problems in robotics -- from
extrapolating sequences of numbers that represent states over time to complete
simple motions, to least-to-most prompting of reward-conditioned trajectories
that can discover and represent closed-loop policies (e.g., a stabilizing
controller for CartPole). While difficult to deploy today for real systems due
to latency, context size limitations, and compute costs, the approach of using
LLMs to drive low-level control may provide an exciting glimpse into how the
patterns among words could be transferred to actions.