ChatPaper.aiChatPaper

CodecLM: Alinhando Modelos de Linguagem com Dados Sintéticos Personalizados

CodecLM: Aligning Language Models with Tailored Synthetic Data

April 8, 2024
Autores: Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister
cs.AI

Resumo

O ajuste por instrução emergiu como a chave para alinhar grandes modelos de linguagem (LLMs) com instruções específicas de tarefas, mitigando assim a discrepância entre o objetivo de previsão do próximo token e as metas reais dos usuários. Para reduzir o custo de mão de obra e tempo necessário para coletar ou anotar dados manualmente, os pesquisadores começaram a explorar o uso de LLMs para gerar dados sintéticos alinhados com instruções. Trabalhos recentes focam na geração de instruções diversas e na aplicação de LLMs para aumentar a complexidade das instruções, muitas vezes negligenciando os casos de uso downstream. Ainda não está claro como adaptar dados de alta qualidade para elicitar melhores habilidades de seguimento de instruções em diferentes distribuições de instruções alvo e LLMs. Para isso, introduzimos o CodecLM, um framework geral para gerar dados sintéticos de alta qualidade de forma adaptativa, alinhando LLMs com diferentes distribuições de instruções downstream e LLMs. Baseando-se nos princípios de Codificação-Decodificação, usamos LLMs como codecs para guiar o processo de geração de dados. Primeiro, codificamos instruções iniciais em metadados, que são palavras-chave concisas geradas dinamicamente para capturar a distribuição de instruções alvo, e então decodificamos os metadados para criar instruções personalizadas. Também introduzimos Auto-Rubricas e Filtragem Contrastiva durante a decodificação para adaptar amostras de dados eficientes. Experimentos extensivos em quatro benchmarks de seguimento de instruções de domínio aberto validam a eficácia do CodecLM em relação aos métodos state-of-the-art atuais.
English
Instruction tuning has emerged as the key in aligning large language models (LLMs) with specific task instructions, thereby mitigating the discrepancy between the next-token prediction objective and users' actual goals. To reduce the labor and time cost to collect or annotate data by humans, researchers start to explore the use of LLMs to generate instruction-aligned synthetic data. Recent works focus on generating diverse instructions and applying LLM to increase instruction complexity, often neglecting downstream use cases. It remains unclear how to tailor high-quality data to elicit better instruction-following abilities in different target instruction distributions and LLMs. To this end, we introduce CodecLM, a general framework for adaptively generating high-quality synthetic data for LLM alignment with different downstream instruction distributions and LLMs. Drawing on the Encode-Decode principles, we use LLMs as codecs to guide the data generation process. We first encode seed instructions into metadata, which are concise keywords generated on-the-fly to capture the target instruction distribution, and then decode metadata to create tailored instructions. We also introduce Self-Rubrics and Contrastive Filtering during decoding to tailor data-efficient samples. Extensive experiments on four open-domain instruction following benchmarks validate the effectiveness of CodecLM over the current state-of-the-arts.
PDF180December 15, 2024