トレジャーハント:トレーニングタイムマーカーを用いたロングテールのリアルタイムターゲティング
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
June 17, 2025
著者: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI
要旨
現代の機械学習における最も深遠な課題の一つは、稀で代表性の低い特徴のロングテールにおいて良好な性能を発揮することである。汎用性の高い大規模モデルは多くのタスクに対して訓練されるが、高頻度のユースケースで最も効果を発揮する。訓練後、特定のユースケースにおいて訓練コーパスで代表性が低い場合にモデルを適応させることは困難である。特定のテストケースでの出力品質を最大化するためにプロンプトエンジニアリングや少数ショットの例に依存することは、モデルが小さな変化に非常に敏感であったり、予期せぬ反応を示したり、性能を維持するために固定されたシステムプロンプトに依存したりするため、苛立たしいことがある。本研究では、「訓練プロトコルを最適化し、推論時に代表性の低いユースケースでの制御性と性能を同時に向上させることができるか?」という問いを立てる。訓練と推論技術の間の隔たりを再検討し、ロングテールの性能を向上させるとともに、ユーザーがモデルに反応するよう訓練された一連の制御手段を提供する。データ特性とタスクのプロヴェナンスの詳細な分類体系を作成し、生成属性を明示的に制御し、推論時に暗黙的に生成を条件付ける。ベースモデルを微調整してこれらのマーカーを自動的に推論させ、推論時にそれらをオプションにする。この原理に基づいた柔軟なアプローチにより、特に訓練分布のロングテールに属する例において、性能が顕著に向上する。マーカーを使用した場合、オープンエンド生成品質の平均勝率が5.7%向上する一方、代表性の低いドメインでは9.1%以上の向上が見られる。また、CodeRepairのような代表性の低いタスクでは最大14.1%の相対的な向上が見られ、長さ指示追従評価では35.3%の絶対的な改善が観察される。
English
One of the most profound challenges of modern machine learning is performing
well on the long-tail of rare and underrepresented features. Large
general-purpose models are trained for many tasks, but work best on
high-frequency use cases. After training, it is hard to adapt a model to
perform well on specific use cases underrepresented in the training corpus.
Relying on prompt engineering or few-shot examples to maximize the output
quality on a particular test case can be frustrating, as models can be highly
sensitive to small changes, react in unpredicted ways or rely on a fixed system
prompt for maintaining performance. In this work, we ask: "Can we optimize our
training protocols to both improve controllability and performance on
underrepresented use cases at inference time?" We revisit the divide between
training and inference techniques to improve long-tail performance while
providing users with a set of control levers the model is trained to be
responsive to. We create a detailed taxonomy of data characteristics and task
provenance to explicitly control generation attributes and implicitly condition
generations at inference time. We fine-tune a base model to infer these markers
automatically, which makes them optional at inference time. This principled and
flexible approach yields pronounced improvements in performance, especially on
examples from the long tail of the training distribution. While we observe an
average lift of 5.7% win rates in open-ended generation quality with our
markers, we see over 9.1% gains in underrepresented domains. We also observe
relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and
absolute improvements of 35.3% on length instruction following evaluations.