Modelos de Linguagem de Grande Escala como Máquinas Gerais de Padrões

Resumo

Observamos que modelos de linguagem grandes (LLMs) pré-treinados são capazes de completar autoregressivamente sequências complexas de tokens -- desde aquelas geradas proceduralmente por gramáticas livres de contexto probabilísticas (PCFG) até padrões espaciais mais ricos encontrados no Abstract Reasoning Corpus (ARC), um benchmark de IA geral, apresentados no estilo de arte ASCII. Surpreendentemente, a proficiência em completar padrões pode ser parcialmente mantida mesmo quando as sequências são expressas usando tokens amostrados aleatoriamente do vocabulário. Esses resultados sugerem que, sem qualquer treinamento adicional, os LLMs podem servir como modeladores gerais de sequências, impulsionados pelo aprendizado em contexto. Neste trabalho, investigamos como essas capacidades zero-shot podem ser aplicadas a problemas em robótica -- desde extrapolar sequências de números que representam estados ao longo do tempo para completar movimentos simples, até o prompting de menos para mais de trajetórias condicionadas por recompensas que podem descobrir e representar políticas de circuito fechado (por exemplo, um controlador estabilizador para CartPole). Embora seja difícil implantar hoje em sistemas reais devido à latência, limitações de tamanho de contexto e custos computacionais, a abordagem de usar LLMs para direcionar controle de baixo nível pode fornecer uma visão emocionante de como os padrões entre palavras poderiam ser transferidos para ações.

English

We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences -- from arbitrary ones procedurally generated by probabilistic context-free grammars (PCFG), to more rich spatial patterns found in the Abstract Reasoning Corpus (ARC), a general AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern completion proficiency can be partially retained even when the sequences are expressed using tokens randomly sampled from the vocabulary. These results suggest that without any additional training, LLMs can serve as general sequence modelers, driven by in-context learning. In this work, we investigate how these zero-shot capabilities may be applied to problems in robotics -- from extrapolating sequences of numbers that represent states over time to complete simple motions, to least-to-most prompting of reward-conditioned trajectories that can discover and represent closed-loop policies (e.g., a stabilizing controller for CartPole). While difficult to deploy today for real systems due to latency, context size limitations, and compute costs, the approach of using LLMs to drive low-level control may provide an exciting glimpse into how the patterns among words could be transferred to actions.

Modelos de Linguagem de Grande Escala como Máquinas Gerais de Padrões

Large Language Models as General Pattern Machines

Resumo

Support