Würfle und schau, bevor du springst: Über die kreativen Grenzen der Next-Token-Vorhersage hinausgehen

papers.abstract

Wir entwerfen eine Reihe minimaler algorithmischer Aufgaben, die eine lose Abstraktion offener, realer Aufgaben darstellen. Dies ermöglicht es uns, die kreativen Grenzen heutiger Sprachmodelle sauber und kontrolliert zu quantifizieren. Ähnlich wie reale Aufgaben, die einen kreativen, weitblickenden Gedankensprung erfordern, benötigen unsere Aufgaben einen impliziten, offenen stochastischen Planungsschritt, der entweder (a) neue Verbindungen in einem abstrakten Wissensgraphen entdeckt (wie bei Wortspielen, Analogien oder Forschung) oder (b) neue Muster konstruiert (wie beim Entwerfen mathematischer Probleme oder neuer Proteine). In diesen Aufgaben argumentieren wir empirisch und konzeptionell, dass Next-Token-Lernen kurzsichtig ist und übermäßig memorisiert; im Vergleich dazu übertreffen Multi-Token-Ansätze, insbesondere lehrerloses Training und Diffusionsmodelle, in der Erzeugung vielfältiger und origineller Ergebnisse. Zweitens stellen wir in unseren Aufgaben fest, dass es besser ist, Rauschen direkt in der Eingabeschicht einzuführen (über eine Methode, die wir als Hash-Conditioning bezeichnen), um Zufälligkeit aus dem Transformer zu erzeugen, ohne die Kohärenz zu beeinträchtigen, anstatt sich auf die Temperatur-Sampling-Methode aus der Ausgabeschicht zu verlassen. Somit bietet unsere Arbeit ein prinzipielles, minimales Testumfeld zur Analyse offener kreativer Fähigkeiten und liefert neue Argumente für das Überwinden von Next-Token-Lernen und Softmax-basiertem Sampling. Einen Teil des Codes stellen wir unter https://github.com/chenwu98/algorithmic-creativity zur Verfügung.

English

We design a suite of minimal algorithmic tasks that are a loose abstraction of open-ended real-world tasks. This allows us to cleanly and controllably quantify the creative limits of the present-day language model. Much like real-world tasks that require a creative, far-sighted leap of thought, our tasks require an implicit, open-ended stochastic planning step that either (a) discovers new connections in an abstract knowledge graph (like in wordplay, drawing analogies, or research) or (b) constructs new patterns (like in designing math problems or new proteins). In these tasks, we empirically and conceptually argue how next-token learning is myopic and memorizes excessively; comparatively, multi-token approaches, namely teacherless training and diffusion models, excel in producing diverse and original output. Secondly, in our tasks, we find that to elicit randomness from the Transformer without hurting coherence, it is better to inject noise right at the input layer (via a method we dub hash-conditioning) rather than defer to temperature sampling from the output layer. Thus, our work offers a principled, minimal test-bed for analyzing open-ended creative skills, and offers new arguments for going beyond next-token learning and softmax-based sampling. We make part of the code available under https://github.com/chenwu98/algorithmic-creativity

Würfle und schau, bevor du springst: Über die kreativen Grenzen der Next-Token-Vorhersage hinausgehen

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

papers.abstract

Support