Modelos de Lenguaje a Gran Escala como Máquinas Generales de Patrones
Large Language Models as General Pattern Machines
July 10, 2023
Autores: Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
cs.AI
Resumen
Observamos que los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) son capaces de completar de manera autoregresiva secuencias complejas de tokens, desde aquellas generadas de forma procedimental mediante gramáticas libres de contexto probabilísticas (PCFG), hasta patrones espaciales más ricos encontrados en el Abstract Reasoning Corpus (ARC), un benchmark de inteligencia general, presentados en estilo de arte ASCII. Sorprendentemente, la habilidad para completar patrones puede conservarse parcialmente incluso cuando las secuencias se expresan utilizando tokens muestreados aleatoriamente del vocabulario. Estos resultados sugieren que, sin necesidad de entrenamiento adicional, los LLMs pueden funcionar como modeladores generales de secuencias, impulsados por el aprendizaje en contexto. En este trabajo, investigamos cómo estas capacidades zero-shot podrían aplicarse a problemas en robótica, desde extrapolar secuencias de números que representan estados a lo largo del tiempo para completar movimientos simples, hasta el prompting de menor a mayor de trayectorias condicionadas por recompensas que pueden descubrir y representar políticas de control en bucle cerrado (por ejemplo, un controlador estabilizador para CartPole). Aunque hoy en día es difícil implementar este enfoque en sistemas reales debido a la latencia, las limitaciones en el tamaño del contexto y los costos computacionales, el uso de LLMs para impulsar el control de bajo nivel podría ofrecer una visión emocionante de cómo los patrones entre palabras podrían transferirse a acciones.
English
We observe that pre-trained large language models (LLMs) are capable of
autoregressively completing complex token sequences -- from arbitrary ones
procedurally generated by probabilistic context-free grammars (PCFG), to more
rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general
AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern
completion proficiency can be partially retained even when the sequences are
expressed using tokens randomly sampled from the vocabulary. These results
suggest that without any additional training, LLMs can serve as general
sequence modelers, driven by in-context learning. In this work, we investigate
how these zero-shot capabilities may be applied to problems in robotics -- from
extrapolating sequences of numbers that represent states over time to complete
simple motions, to least-to-most prompting of reward-conditioned trajectories
that can discover and represent closed-loop policies (e.g., a stabilizing
controller for CartPole). While difficult to deploy today for real systems due
to latency, context size limitations, and compute costs, the approach of using
LLMs to drive low-level control may provide an exciting glimpse into how the
patterns among words could be transferred to actions.