Lanza los dados y mira antes de saltar: Ir más allá de los límites creativos de la predicción del siguiente token
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
April 21, 2025
Autores: Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
cs.AI
Resumen
Diseñamos un conjunto de tareas algorítmicas mínimas que representan una abstracción aproximada de tareas del mundo real de naturaleza abierta. Esto nos permite cuantificar de manera clara y controlable los límites creativos de los modelos de lenguaje actuales. Al igual que las tareas del mundo real que requieren un salto de pensamiento creativo y visionario, nuestras tareas implican un paso de planificación estocástica implícita y abierta que (a) descubre nuevas conexiones en un grafo de conocimiento abstracto (como en juegos de palabras, analogías o investigación) o (b) construye nuevos patrones (como en el diseño de problemas matemáticos o nuevas proteínas). En estas tareas, argumentamos empírica y conceptualmente cómo el aprendizaje basado en el siguiente token es miope y tiende a memorizar en exceso; en comparación, los enfoques de múltiples tokens, como el entrenamiento sin supervisión y los modelos de difusión, sobresalen en la producción de resultados diversos y originales. En segundo lugar, en nuestras tareas, encontramos que para elicitar aleatoriedad del Transformer sin comprometer la coherencia, es mejor inyectar ruido directamente en la capa de entrada (mediante un método que denominamos condicionamiento por hash) en lugar de recurrir al muestreo por temperatura en la capa de salida. Así, nuestro trabajo ofrece un banco de pruebas mínimo y fundamentado para analizar habilidades creativas de naturaleza abierta, y presenta nuevos argumentos para ir más allá del aprendizaje basado en el siguiente token y el muestreo basado en softmax. Parte del código está disponible en https://github.com/chenwu98/algorithmic-creativity.
English
We design a suite of minimal algorithmic tasks that are a loose abstraction
of open-ended real-world tasks. This allows us to cleanly and controllably
quantify the creative limits of the present-day language model. Much like
real-world tasks that require a creative, far-sighted leap of thought, our
tasks require an implicit, open-ended stochastic planning step that either (a)
discovers new connections in an abstract knowledge graph (like in wordplay,
drawing analogies, or research) or (b) constructs new patterns (like in
designing math problems or new proteins). In these tasks, we empirically and
conceptually argue how next-token learning is myopic and memorizes excessively;
comparatively, multi-token approaches, namely teacherless training and
diffusion models, excel in producing diverse and original output. Secondly, in
our tasks, we find that to elicit randomness from the Transformer without
hurting coherence, it is better to inject noise right at the input layer (via a
method we dub hash-conditioning) rather than defer to temperature sampling from
the output layer. Thus, our work offers a principled, minimal test-bed for
analyzing open-ended creative skills, and offers new arguments for going beyond
next-token learning and softmax-based sampling. We make part of the code
available under https://github.com/chenwu98/algorithmic-creativitySummary
AI-Generated Summary