ChatPaper.aiChatPaper

Охота за сокровищами: целевое использование длинного хвоста в реальном времени с использованием маркеров на этапе обучения

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

June 17, 2025
Авторы: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI

Аннотация

Одной из наиболее сложных задач современного машинного обучения является достижение высокой производительности на "длинном хвосте" редких и недостаточно представленных признаков. Крупные универсальные модели обучаются для выполнения множества задач, но показывают наилучшие результаты в высокочастотных сценариях использования. После обучения адаптировать модель для эффективной работы в специфических случаях, недостаточно представленных в обучающем корпусе, оказывается сложно. Использование инженерии промптов или примеров с малым количеством данных для максимизации качества вывода на конкретном тестовом случае может быть разочаровывающим, поскольку модели могут быть чрезвычайно чувствительны к небольшим изменениям, реагировать непредсказуемым образом или полагаться на фиксированный системный промпт для поддержания производительности. В данной работе мы задаемся вопросом: "Можем ли мы оптимизировать наши протоколы обучения, чтобы одновременно улучшить управляемость и производительность на недостаточно представленных случаях во время вывода?" Мы пересматриваем разделение между методами обучения и вывода, чтобы улучшить производительность на "длинном хвосте", предоставляя пользователям набор рычагов управления, на которые модель обучена реагировать. Мы создаем детальную таксономию характеристик данных и происхождения задач для явного управления атрибутами генерации и неявного условного формирования выводов во время инференции. Мы дообучаем базовую модель для автоматического вывода этих маркеров, что делает их необязательными во время вывода. Этот принципиальный и гибкий подход приводит к значительному улучшению производительности, особенно на примерах из "длинного хвоста" распределения обучающих данных. В то время как мы наблюдаем средний прирост в 5,7% по показателям качества генерации в открытых задачах с использованием наших маркеров, в недостаточно представленных областях мы видим улучшения более чем на 9,1%. Мы также отмечаем относительный прирост до 14,1% на недостаточно представленных задачах, таких как CodeRepair, и абсолютное улучшение на 35,3% в оценках следования инструкциям по длине.
English
One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: "Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?" We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.
PDF22June 18, 2025