Schattenjacht: Real-time targeting van de lange staart met behulp van trainingsmarkeringen
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
June 17, 2025
Auteurs: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI
Samenvatting
Een van de meest uitdagende aspecten van moderne machine learning is het goed presteren op de lange staart van zeldzame en ondervertegenwoordigde kenmerken. Grote, algemene modellen worden getraind voor veel taken, maar presteren het beste op veelvoorkomende use cases. Na de training is het moeilijk om een model aan te passen om goed te presteren op specifieke use cases die ondervertegenwoordigd zijn in de trainingscorpus. Het vertrouwen op prompt engineering of few-shot voorbeelden om de uitvoerkwaliteit voor een bepaalde testcase te maximaliseren kan frustrerend zijn, omdat modellen zeer gevoelig kunnen zijn voor kleine veranderingen, onverwachte reacties kunnen vertonen of afhankelijk kunnen zijn van een vast systeemprompt om de prestaties te behouden. In dit werk stellen we de vraag: "Kunnen we onze trainingsprotocollen optimaliseren om zowel de beheersbaarheid als de prestaties op ondervertegenwoordigde use cases tijdens inferentie te verbeteren?" We herzien de kloof tussen training en inferentietechnieken om de prestaties op de lange staart te verbeteren, terwijl we gebruikers een set controlemechanismen bieden waarop het model is getraind om te reageren. We creëren een gedetailleerde taxonomie van datakarakteristieken en taakherkomst om generatiekenmerken expliciet te controleren en generaties impliciet te conditioneren tijdens inferentie. We fine-tunen een basismodel om deze markers automatisch af te leiden, waardoor ze optioneel worden tijdens inferentie. Deze principiële en flexibele aanpak leidt tot aanzienlijke verbeteringen in prestaties, vooral op voorbeelden uit de lange staart van de trainingsdistributie. Terwijl we een gemiddelde stijging van 5,7% win rates observeren in de kwaliteit van open-ended generatie met onze markers, zien we meer dan 9,1% winst in ondervertegenwoordigde domeinen. We observeren ook relatieve stijgingen van tot 14,1% op ondervertegenwoordigde taken zoals CodeRepair en absolute verbeteringen van 35,3% op evaluaties voor het volgen van lengte-instructies.
English
One of the most profound challenges of modern machine learning is performing
well on the long-tail of rare and underrepresented features. Large
general-purpose models are trained for many tasks, but work best on
high-frequency use cases. After training, it is hard to adapt a model to
perform well on specific use cases underrepresented in the training corpus.
Relying on prompt engineering or few-shot examples to maximize the output
quality on a particular test case can be frustrating, as models can be highly
sensitive to small changes, react in unpredicted ways or rely on a fixed system
prompt for maintaining performance. In this work, we ask: "Can we optimize our
training protocols to both improve controllability and performance on
underrepresented use cases at inference time?" We revisit the divide between
training and inference techniques to improve long-tail performance while
providing users with a set of control levers the model is trained to be
responsive to. We create a detailed taxonomy of data characteristics and task
provenance to explicitly control generation attributes and implicitly condition
generations at inference time. We fine-tune a base model to infer these markers
automatically, which makes them optional at inference time. This principled and
flexible approach yields pronounced improvements in performance, especially on
examples from the long tail of the training distribution. While we observe an
average lift of 5.7% win rates in open-ended generation quality with our
markers, we see over 9.1% gains in underrepresented domains. We also observe
relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and
absolute improvements of 35.3% on length instruction following evaluations.