サイコロを振り、飛び込む前に見渡せ:次のトークン予測の創造的限界を超えて
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
April 21, 2025
著者: Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
cs.AI
要旨
我々は、現実世界のオープンエンドなタスクを緩やかに抽象化した一連の最小限のアルゴリズムタスクを設計した。これにより、現在の言語モデルの創造的限界をクリーンかつ制御可能な形で定量化することが可能となる。現実世界のタスクが創造的で遠大な思考の飛躍を必要とするのと同様に、我々のタスクは暗黙的でオープンエンドな確率的計画ステップを必要とする。このステップは、(a)抽象的な知識グラフにおける新たな関連性の発見(言葉遊び、類推、研究など)または(b)新たなパターンの構築(数学問題の設計や新たなタンパク質の設計など)のいずれかを行う。これらのタスクにおいて、我々は経験的かつ概念的に、次のトークン学習が近視眼的であり過剰に記憶することを論じる。比較して、マルチトークンアプローチ、すなわち教師なし学習と拡散モデルは、多様で独創的な出力を生成する点で優れている。第二に、我々のタスクにおいて、Transformerから一貫性を損なうことなくランダム性を引き出すためには、出力層からの温度サンプリングに頼るよりも、入力層で直接ノイズを注入する(我々がハッシュコンディショニングと呼ぶ方法)方が良いことがわかった。したがって、我々の研究は、オープンエンドな創造的スキルを分析するための原則的で最小限のテストベッドを提供し、次のトークン学習とソフトマックスベースのサンプリングを超える新たな議論を提供する。我々はコードの一部をhttps://github.com/chenwu98/algorithmic-creativityで公開している。
English
We design a suite of minimal algorithmic tasks that are a loose abstraction
of open-ended real-world tasks. This allows us to cleanly and controllably
quantify the creative limits of the present-day language model. Much like
real-world tasks that require a creative, far-sighted leap of thought, our
tasks require an implicit, open-ended stochastic planning step that either (a)
discovers new connections in an abstract knowledge graph (like in wordplay,
drawing analogies, or research) or (b) constructs new patterns (like in
designing math problems or new proteins). In these tasks, we empirically and
conceptually argue how next-token learning is myopic and memorizes excessively;
comparatively, multi-token approaches, namely teacherless training and
diffusion models, excel in producing diverse and original output. Secondly, in
our tasks, we find that to elicit randomness from the Transformer without
hurting coherence, it is better to inject noise right at the input layer (via a
method we dub hash-conditioning) rather than defer to temperature sampling from
the output layer. Thus, our work offers a principled, minimal test-bed for
analyzing open-ended creative skills, and offers new arguments for going beyond
next-token learning and softmax-based sampling. We make part of the code
available under https://github.com/chenwu98/algorithmic-creativitySummary
AI-Generated Summary