Schatzsuche: Echtzeit-Zielerfassung des Long Tail mithilfe von Trainingszeit-Markern

papers.abstract

Eine der tiefgreifendsten Herausforderungen des modernen maschinellen Lernens besteht darin, gute Leistungen im langen Schwanz seltener und unterrepräsentierter Merkmale zu erzielen. Große, allgemeine Modelle werden für viele Aufgaben trainiert, funktionieren jedoch am besten bei häufig auftretenden Anwendungsfällen. Nach dem Training ist es schwierig, ein Modell so anzupassen, dass es bei spezifischen Anwendungsfällen, die im Trainingskorpus unterrepräsentiert sind, gute Leistungen erbringt. Sich auf Prompt-Engineering oder Few-Shot-Beispiele zu verlassen, um die Ausgabequalität bei einem bestimmten Testfall zu maximieren, kann frustrierend sein, da Modelle äußerst empfindlich auf kleine Änderungen reagieren, unvorhergesehene Reaktionen zeigen oder auf einen festen System-Prompt angewiesen sein können, um die Leistung aufrechtzuerhalten. In dieser Arbeit stellen wir die Frage: „Können wir unsere Trainingsprotokolle so optimieren, dass sowohl die Steuerbarkeit als auch die Leistung bei unterrepräsentierten Anwendungsfällen zur Inferenzzeit verbessert wird?“ Wir untersuchen erneut die Kluft zwischen Trainings- und Inferenztechniken, um die Leistung im langen Schwanz zu verbessern und den Benutzern gleichzeitig eine Reihe von Steuerhebeln zur Verfügung zu stellen, auf die das Modell trainiert ist, zu reagieren. Wir erstellen eine detaillierte Taxonomie von Datenmerkmalen und Aufgabenherkunft, um Generierungsattribute explizit zu steuern und Generierungen implizit zur Inferenzzeit zu konditionieren. Wir feintunen ein Basismodell, um diese Marker automatisch zu inferieren, was sie zur Inferenzzeit optional macht. Dieser prinzipielle und flexible Ansatz führt zu deutlichen Verbesserungen der Leistung, insbesondere bei Beispielen aus dem langen Schwanz der Trainingsverteilung. Während wir eine durchschnittliche Steigerung der Gewinnraten von 5,7 % bei der Qualität der offenen Generierung mit unseren Markern beobachten, sehen wir über 9,1 % Gewinne in unterrepräsentierten Domänen. Wir beobachten auch relative Steigerungen von bis zu 14,1 % bei unterrepräsentierten Aufgaben wie CodeRepair und absolute Verbesserungen von 35,3 % bei Bewertungen zur Befolgung von Längeninstruktionen.

English

One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: "Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?" We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.

Schatzsuche: Echtzeit-Zielerfassung des Long Tail mithilfe von Trainingszeit-Markern

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

papers.abstract

Support