ChatPaper.aiChatPaper

Caça ao Tesouro: Segmentação em Tempo Real da Cauda Longa Usando Marcadores de Tempo de Treinamento

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

June 17, 2025
Autores: Daniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker
cs.AI

Resumo

Um dos desafios mais profundos do aprendizado de máquina moderno é obter um bom desempenho na cauda longa de características raras e subrepresentadas. Modelos grandes e de propósito geral são treinados para muitas tarefas, mas funcionam melhor em casos de uso de alta frequência. Após o treinamento, é difícil adaptar um modelo para ter um bom desempenho em casos de uso específicos que são subrepresentados no corpus de treinamento. Depender de engenharia de prompts ou exemplos de poucos disparos para maximizar a qualidade da saída em um caso de teste específico pode ser frustrante, pois os modelos podem ser altamente sensíveis a pequenas mudanças, reagir de maneiras imprevistas ou depender de um prompt fixo do sistema para manter o desempenho. Neste trabalho, perguntamos: "Podemos otimizar nossos protocolos de treinamento para melhorar tanto a controlabilidade quanto o desempenho em casos de uso subrepresentados no momento da inferência?" Revisitamos a divisão entre técnicas de treinamento e inferência para melhorar o desempenho na cauda longa, ao mesmo tempo em que fornecemos aos usuários um conjunto de alavancas de controle às quais o modelo é treinado para responder. Criamos uma taxonomia detalhada das características dos dados e da proveniência das tarefas para controlar explicitamente os atributos de geração e condicionar implicitamente as gerações no momento da inferência. Ajustamos um modelo base para inferir esses marcadores automaticamente, o que os torna opcionais no momento da inferência. Essa abordagem fundamentada e flexível resulta em melhorias significativas no desempenho, especialmente em exemplos da cauda longa da distribuição de treinamento. Enquanto observamos um aumento médio de 5,7% nas taxas de vitória na qualidade de geração aberta com nossos marcadores, vemos ganhos de mais de 9,1% em domínios subrepresentados. Também observamos aumentos relativos de até 14,1% em tarefas subrepresentadas, como CodeRepair, e melhorias absolutas de 35,3% em avaliações de seguimento de instruções de comprimento.
English
One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: "Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?" We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.
PDF42June 18, 2025