Búsqueda del Tesoro: Orientación en Tiempo Real hacia la Cola Larga utilizando Marcadores durante el Entrenamiento
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
June 17, 2025
Autores: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI
Resumen
Uno de los desafíos más profundos del aprendizaje automático moderno es obtener un buen rendimiento en la cola larga de características raras y subrepresentadas. Los modelos grandes de propósito general se entrenan para muchas tareas, pero funcionan mejor en casos de uso de alta frecuencia. Después del entrenamiento, es difícil adaptar un modelo para que funcione bien en casos de uso específicos que están subrepresentados en el corpus de entrenamiento. Depender de la ingeniería de prompts o ejemplos de pocos disparos para maximizar la calidad de la salida en un caso de prueba particular puede ser frustrante, ya que los modelos pueden ser altamente sensibles a pequeños cambios, reaccionar de maneras imprevistas o depender de un prompt de sistema fijo para mantener el rendimiento. En este trabajo, nos preguntamos: "¿Podemos optimizar nuestros protocolos de entrenamiento para mejorar tanto la controlabilidad como el rendimiento en casos de uso subrepresentados en el momento de la inferencia?" Revisamos la división entre las técnicas de entrenamiento e inferencia para mejorar el rendimiento en la cola larga, al mismo tiempo que proporcionamos a los usuarios un conjunto de palancas de control a las que el modelo está entrenado para responder. Creamos una taxonomía detallada de las características de los datos y la procedencia de las tareas para controlar explícitamente los atributos de generación y condicionar implícitamente las generaciones en el momento de la inferencia. Ajustamos un modelo base para inferir estos marcadores automáticamente, lo que los hace opcionales en el momento de la inferencia. Este enfoque fundamentado y flexible produce mejoras pronunciadas en el rendimiento, especialmente en ejemplos de la cola larga de la distribución de entrenamiento. Mientras observamos un aumento promedio del 5.7% en las tasas de victoria en la calidad de generación abierta con nuestros marcadores, vemos ganancias de más del 9.1% en dominios subrepresentados. También observamos aumentos relativos de hasta el 14.1% en tareas subrepresentadas como CodeRepair y mejoras absolutas del 35.3% en evaluaciones de seguimiento de instrucciones de longitud.
English
One of the most profound challenges of modern machine learning is performing
well on the long-tail of rare and underrepresented features. Large
general-purpose models are trained for many tasks, but work best on
high-frequency use cases. After training, it is hard to adapt a model to
perform well on specific use cases underrepresented in the training corpus.
Relying on prompt engineering or few-shot examples to maximize the output
quality on a particular test case can be frustrating, as models can be highly
sensitive to small changes, react in unpredicted ways or rely on a fixed system
prompt for maintaining performance. In this work, we ask: "Can we optimize our
training protocols to both improve controllability and performance on
underrepresented use cases at inference time?" We revisit the divide between
training and inference techniques to improve long-tail performance while
providing users with a set of control levers the model is trained to be
responsive to. We create a detailed taxonomy of data characteristics and task
provenance to explicitly control generation attributes and implicitly condition
generations at inference time. We fine-tune a base model to infer these markers
automatically, which makes them optional at inference time. This principled and
flexible approach yields pronounced improvements in performance, especially on
examples from the long tail of the training distribution. While we observe an
average lift of 5.7% win rates in open-ended generation quality with our
markers, we see over 9.1% gains in underrepresented domains. We also observe
relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and
absolute improvements of 35.3% on length instruction following evaluations.