ChatPaper.aiChatPaper

Caccia al Tesoro: Targeting in Tempo Reale della Coda Lunga Utilizzando Marcatori durante l'Addestramento

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

June 17, 2025
Autori: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI

Abstract

Una delle sfide più profonde del moderno machine learning è ottenere buone prestazioni sulla coda lunga di caratteristiche rare e sottorappresentate. I modelli generalisti di grandi dimensioni vengono addestrati per molteplici compiti, ma funzionano al meglio sui casi d'uso ad alta frequenza. Dopo l'addestramento, è difficile adattare un modello per ottenere buone prestazioni su casi d'uso specifici sottorappresentati nel corpus di training. Fare affidamento sull'ingegneria dei prompt o su esempi few-shot per massimizzare la qualità dell'output su un caso di test specifico può essere frustrante, poiché i modelli possono essere altamente sensibili a piccoli cambiamenti, reagire in modi imprevisti o dipendere da un prompt di sistema fisso per mantenere le prestazioni. In questo lavoro ci chiediamo: "Possiamo ottimizzare i nostri protocolli di addestramento per migliorare sia la controllabilità che le prestazioni sui casi d'uso sottorappresentati al momento dell'inferenza?" Rivediamo la divisione tra tecniche di addestramento e inferenza per migliorare le prestazioni sulla coda lunga, fornendo agli utenti una serie di leve di controllo a cui il modello è addestrato a rispondere. Creiamo una tassonomia dettagliata delle caratteristiche dei dati e della provenienza dei task per controllare esplicitamente gli attributi di generazione e condizionare implicitamente le generazioni al momento dell'inferenza. Ottimizziamo un modello di base per inferire automaticamente questi marcatori, rendendoli opzionali al momento dell'inferenza. Questo approccio principiato e flessibile produce miglioramenti significativi nelle prestazioni, specialmente sugli esempi della coda lunga della distribuzione di addestramento. Mentre osserviamo un aumento medio del 5,7% nei tassi di vittoria nella qualità della generazione aperta con i nostri marcatori, vediamo guadagni superiori al 9,1% nei domini sottorappresentati. Osserviamo anche aumenti relativi fino al 14,1% su task sottorappresentati come CodeRepair e miglioramenti assoluti del 35,3% nelle valutazioni di seguito delle istruzioni sulla lunghezza.
English
One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: "Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?" We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.
PDF32June 18, 2025