Würfle und schau, bevor du springst: Über die kreativen Grenzen der Next-Token-Vorhersage hinausgehen
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
April 21, 2025
Autoren: Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
cs.AI
Zusammenfassung
Wir entwerfen eine Reihe minimaler algorithmischer Aufgaben, die eine lose Abstraktion offener, realer Aufgaben darstellen. Dies ermöglicht es uns, die kreativen Grenzen heutiger Sprachmodelle sauber und kontrolliert zu quantifizieren. Ähnlich wie reale Aufgaben, die einen kreativen, weitblickenden Gedankensprung erfordern, benötigen unsere Aufgaben einen impliziten, offenen stochastischen Planungsschritt, der entweder (a) neue Verbindungen in einem abstrakten Wissensgraphen entdeckt (wie bei Wortspielen, Analogien oder Forschung) oder (b) neue Muster konstruiert (wie beim Entwerfen mathematischer Probleme oder neuer Proteine). In diesen Aufgaben argumentieren wir empirisch und konzeptionell, dass Next-Token-Lernen kurzsichtig ist und übermäßig memorisiert; im Vergleich dazu übertreffen Multi-Token-Ansätze, insbesondere lehrerloses Training und Diffusionsmodelle, in der Erzeugung vielfältiger und origineller Ergebnisse. Zweitens stellen wir in unseren Aufgaben fest, dass es besser ist, Rauschen direkt in der Eingabeschicht einzuführen (über eine Methode, die wir als Hash-Conditioning bezeichnen), um Zufälligkeit aus dem Transformer zu erzeugen, ohne die Kohärenz zu beeinträchtigen, anstatt sich auf die Temperatur-Sampling-Methode aus der Ausgabeschicht zu verlassen. Somit bietet unsere Arbeit ein prinzipielles, minimales Testumfeld zur Analyse offener kreativer Fähigkeiten und liefert neue Argumente für das Überwinden von Next-Token-Lernen und Softmax-basiertem Sampling. Einen Teil des Codes stellen wir unter https://github.com/chenwu98/algorithmic-creativity zur Verfügung.
English
We design a suite of minimal algorithmic tasks that are a loose abstraction
of open-ended real-world tasks. This allows us to cleanly and controllably
quantify the creative limits of the present-day language model. Much like
real-world tasks that require a creative, far-sighted leap of thought, our
tasks require an implicit, open-ended stochastic planning step that either (a)
discovers new connections in an abstract knowledge graph (like in wordplay,
drawing analogies, or research) or (b) constructs new patterns (like in
designing math problems or new proteins). In these tasks, we empirically and
conceptually argue how next-token learning is myopic and memorizes excessively;
comparatively, multi-token approaches, namely teacherless training and
diffusion models, excel in producing diverse and original output. Secondly, in
our tasks, we find that to elicit randomness from the Transformer without
hurting coherence, it is better to inject noise right at the input layer (via a
method we dub hash-conditioning) rather than defer to temperature sampling from
the output layer. Thus, our work offers a principled, minimal test-bed for
analyzing open-ended creative skills, and offers new arguments for going beyond
next-token learning and softmax-based sampling. We make part of the code
available under https://github.com/chenwu98/algorithmic-creativitySummary
AI-Generated Summary