Les grands modèles de langage en tant que machines à motifs généraux
Large Language Models as General Pattern Machines
July 10, 2023
Auteurs: Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
cs.AI
Résumé
Nous observons que les grands modèles de langage (LLM) pré-entraînés sont capables de compléter de manière autorégressive des séquences de tokens complexes -- allant de séquences arbitraires générées de manière procédurale par des grammaires hors contexte probabilistes (PCFG), à des motifs spatiaux plus riches trouvés dans le Corpus de Raisonnement Abstrait (ARC), un benchmark d'intelligence générale, présentés sous forme d'art ASCII. Étonnamment, la compétence de complétion de motifs peut être partiellement conservée même lorsque les séquences sont exprimées à l'aide de tokens échantillonnés aléatoirement dans le vocabulaire. Ces résultats suggèrent que, sans entraînement supplémentaire, les LLM peuvent servir de modélisateurs généraux de séquences, guidés par l'apprentissage en contexte. Dans ce travail, nous explorons comment ces capacités en zero-shot peuvent être appliquées à des problèmes en robotique -- de l'extrapolation de séquences de nombres représentant des états dans le temps pour compléter des mouvements simples, à l'incitation du moins au plus de trajectoires conditionnées par des récompenses qui peuvent découvrir et représenter des politiques en boucle fermée (par exemple, un contrôleur stabilisant pour CartPole). Bien que difficile à déployer aujourd'hui pour des systèmes réels en raison de la latence, des limitations de taille de contexte et des coûts de calcul, l'approche consistant à utiliser des LLM pour piloter un contrôle de bas niveau pourrait offrir un aperçu passionnant de la manière dont les motifs parmi les mots pourraient être transférés à des actions.
English
We observe that pre-trained large language models (LLMs) are capable of
autoregressively completing complex token sequences -- from arbitrary ones
procedurally generated by probabilistic context-free grammars (PCFG), to more
rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general
AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern
completion proficiency can be partially retained even when the sequences are
expressed using tokens randomly sampled from the vocabulary. These results
suggest that without any additional training, LLMs can serve as general
sequence modelers, driven by in-context learning. In this work, we investigate
how these zero-shot capabilities may be applied to problems in robotics -- from
extrapolating sequences of numbers that represent states over time to complete
simple motions, to least-to-most prompting of reward-conditioned trajectories
that can discover and represent closed-loop policies (e.g., a stabilizing
controller for CartPole). While difficult to deploy today for real systems due
to latency, context size limitations, and compute costs, the approach of using
LLMs to drive low-level control may provide an exciting glimpse into how the
patterns among words could be transferred to actions.