ChatPaper.aiChatPaper

Chasse au trésor : Ciblage en temps réel de la longue traîne à l'aide de marqueurs pendant l'entraînement

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

June 17, 2025
Auteurs: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI

Résumé

L'un des défis les plus profonds de l'apprentissage automatique moderne est de bien performer sur la longue traîne des caractéristiques rares et sous-représentées. Les modèles généralistes de grande envergure sont entraînés pour de nombreuses tâches, mais fonctionnent mieux sur les cas d'utilisation à haute fréquence. Après l'entraînement, il est difficile d'adapter un modèle pour qu'il performe bien sur des cas d'utilisation spécifiques sous-représentés dans le corpus d'entraînement. Compter sur l'ingénierie des prompts ou sur des exemples en few-shot pour maximiser la qualité de la sortie sur un cas de test particulier peut être frustrant, car les modèles peuvent être très sensibles à de petits changements, réagir de manière imprévue ou dépendre d'un prompt système fixe pour maintenir leurs performances. Dans ce travail, nous posons la question : « Pouvons-nous optimiser nos protocoles d'entraînement pour améliorer à la fois la contrôlabilité et la performance sur les cas d'utilisation sous-représentés au moment de l'inférence ? » Nous revisitons la distinction entre les techniques d'entraînement et d'inférence pour améliorer la performance sur la longue traîne tout en fournissant aux utilisateurs un ensemble de leviers de contrôle auxquels le modèle est entraîné à répondre. Nous créons une taxonomie détaillée des caractéristiques des données et de la provenance des tâches pour contrôler explicitement les attributs de génération et conditionner implicitement les générations au moment de l'inférence. Nous affinons un modèle de base pour inférer automatiquement ces marqueurs, ce qui les rend optionnels au moment de l'inférence. Cette approche rigoureuse et flexible entraîne des améliorations marquées des performances, en particulier sur les exemples issus de la longue traîne de la distribution d'entraînement. Alors que nous observons une augmentation moyenne de 5,7 % des taux de réussite dans la qualité de génération ouverte avec nos marqueurs, nous constatons des gains de plus de 9,1 % dans les domaines sous-représentés. Nous observons également des augmentations relatives allant jusqu'à 14,1 % sur des tâches sous-représentées comme CodeRepair et des améliorations absolues de 35,3 % sur les évaluations de suivi des instructions de longueur.
English
One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: "Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?" We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.
PDF22June 18, 2025