Role os dados e olhe antes de pular: Indo além dos limites criativos da previsão do próximo token

Resumo

Projetamos um conjunto de tarefas algorítmicas mínimas que são uma abstração flexível de tarefas do mundo real de natureza aberta. Isso nos permite quantificar de forma clara e controlável os limites criativos dos modelos de linguagem atuais. Assim como tarefas do mundo real que exigem um salto criativo e visionário de pensamento, nossas tarefas requerem uma etapa implícita e aberta de planejamento estocástico que (a) descobre novas conexões em um grafo de conhecimento abstrato (como em jogos de palavras, analogias ou pesquisa) ou (b) constrói novos padrões (como na criação de problemas matemáticos ou novas proteínas). Nessas tarefas, argumentamos empiricamente e conceitualmente como o aprendizado de próximo token é míope e memoriza excessivamente; em comparação, abordagens de múltiplos tokens, especificamente treinamento sem supervisão e modelos de difusão, se destacam na produção de saídas diversas e originais. Em segundo lugar, em nossas tarefas, descobrimos que, para eliciar aleatoriedade do Transformer sem prejudicar a coerência, é melhor injetar ruído diretamente na camada de entrada (por meio de um método que chamamos de condicionamento por hash) em vez de depender da amostragem por temperatura na camada de saída. Assim, nosso trabalho oferece um ambiente de teste mínimo e fundamentado para analisar habilidades criativas de natureza aberta e apresenta novos argumentos para ir além do aprendizado de próximo token e da amostragem baseada em softmax. Disponibilizamos parte do código em https://github.com/chenwu98/algorithmic-creativity.

English

We design a suite of minimal algorithmic tasks that are a loose abstraction of open-ended real-world tasks. This allows us to cleanly and controllably quantify the creative limits of the present-day language model. Much like real-world tasks that require a creative, far-sighted leap of thought, our tasks require an implicit, open-ended stochastic planning step that either (a) discovers new connections in an abstract knowledge graph (like in wordplay, drawing analogies, or research) or (b) constructs new patterns (like in designing math problems or new proteins). In these tasks, we empirically and conceptually argue how next-token learning is myopic and memorizes excessively; comparatively, multi-token approaches, namely teacherless training and diffusion models, excel in producing diverse and original output. Secondly, in our tasks, we find that to elicit randomness from the Transformer without hurting coherence, it is better to inject noise right at the input layer (via a method we dub hash-conditioning) rather than defer to temperature sampling from the output layer. Thus, our work offers a principled, minimal test-bed for analyzing open-ended creative skills, and offers new arguments for going beyond next-token learning and softmax-based sampling. We make part of the code available under https://github.com/chenwu98/algorithmic-creativity

Role os dados e olhe antes de pular: Indo além dos limites criativos da previsão do próximo token

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Resumo

Summary

Support

Support