Modelos de Linguagem Ajustados por Instrução são Melhores Aprendizes de Conhecimento
Instruction-tuned Language Models are Better Knowledge Learners
February 20, 2024
Autores: Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer
cs.AI
Resumo
Para que assistentes baseados em grandes modelos de linguagem (LLMs) possam se adaptar efetivamente às necessidades de informação em evolução, é essencial que seja possível atualizar seu conhecimento factual por meio de treinamento contínuo com novos dados. A abordagem padrão para isso envolve pré-treinamento contínuo em novos documentos, seguido de ajuste fino por instruções em pares de perguntas e respostas (Q&A). No entanto, observamos que LLMs treinados com essa abordagem têm dificuldade em responder perguntas, mesmo que a perplexidade dos documentos seja minimizada. Descobrimos que os pares de Q&A são geralmente diretos, enquanto os documentos são mais complexos, entrelaçando muitas afirmações factuais de maneira intrincada. Portanto, levantamos a hipótese de que é benéfico expor os LLMs a pares de Q&A antes do pré-treinamento contínuo em documentos, para que o processo de codificação de conhecimento a partir de documentos complexos leve em consideração como esse conhecimento é acessado por meio de perguntas. Com base nisso, propomos o pré-ajuste fino por instruções (PIT), um método que ajusta o modelo por instruções em perguntas antes do treinamento em documentos. Isso contrasta com o ajuste fino por instruções padrão, que aprende a extrair conhecimento após o treinamento em documentos. Experimentos extensivos e estudos de ablação demonstram que o PIT melhora significativamente a capacidade dos LLMs de absorver conhecimento de novos documentos, superando o ajuste fino por instruções padrão em 17,8%.
English
In order for large language model (LLM)-based assistants to effectively adapt
to evolving information needs, it must be possible to update their factual
knowledge through continued training on new data. The standard recipe for doing
so involves continued pre-training on new documents followed by
instruction-tuning on question-answer (QA) pairs. However, we find that LLMs
trained with this recipe struggle to answer questions, even though the
perplexity of documents is minimized. We found that QA pairs are generally
straightforward, while documents are more complex, weaving many factual
statements together in an intricate manner. Therefore, we hypothesize that it
is beneficial to expose LLMs to QA pairs before continued pre-training on
documents so that the process of encoding knowledge from complex documents
takes into account how this knowledge is accessed through questions. Based on
this, we propose pre-instruction-tuning (PIT), a method that instruction-tunes
on questions prior to training on documents. This contrasts with standard
instruction-tuning, which learns how to extract knowledge after training on
documents. Extensive experiments and ablation studies demonstrate that PIT
significantly enhances the ability of LLMs to absorb knowledge from new
documents, outperforming standard instruction-tuning by 17.8%.