Grandes Modelos de Linguagem Podem Autoaperfeiçoar-se na Raciocínio de Longo Contexto
Large Language Models Can Self-Improve in Long-context Reasoning
November 12, 2024
Autores: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) alcançaram um progresso substancial no processamento de contextos longos, mas ainda enfrentam dificuldades com o raciocínio em contextos longos. As abordagens existentes geralmente envolvem o ajuste fino dos LLMs com dados sintéticos, que dependem de anotações de especialistas humanos ou de modelos avançados como o GPT-4, restringindo assim avanços adicionais. Para abordar essa questão, investigamos o potencial dos LLMs de se auto aprimorarem no raciocínio em contextos longos e propomos \ours, uma abordagem especificamente projetada para esse fim. Esta abordagem é direta: amostramos múltiplas saídas para cada pergunta, as pontuamos com o Risco Bayesiano Mínimo e, em seguida, aplicamos ajuste fino supervisionado ou otimização de preferência com base nessas saídas. Experimentos extensos em diversos LLMs líderes demonstram a eficácia de \ours, com uma melhoria absoluta de 4,2 pontos para o Llama-3.1-8B-Instruct. Além disso, \ours alcança um desempenho superior em comparação com abordagens anteriores que dependem de dados produzidos por especialistas humanos ou modelos avançados. Antecipamos que este trabalho abrirá novos caminhos para técnicas de auto aprimoramento em cenários de contextos longos, essenciais para o contínuo avanço dos LLMs.
English
Large language models (LLMs) have achieved substantial progress in processing
long contexts but still struggle with long-context reasoning. Existing
approaches typically involve fine-tuning LLMs with synthetic data, which
depends on annotations from human experts or advanced models like GPT-4, thus
restricting further advancements. To address this issue, we investigate the
potential for LLMs to self-improve in long-context reasoning and propose \ours,
an approach specifically designed for this purpose. This approach is
straightforward: we sample multiple outputs for each question, score them with
Minimum Bayes Risk, and then apply supervised fine-tuning or preference
optimization based on these outputs. Extensive experiments on several leading
LLMs demonstrate the effectiveness of \ours, with an absolute improvement of
4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior
performance compared to prior approaches that depend on data produced by human
experts or advanced models. We anticipate that this work will open new avenues
for self-improvement techniques in long-context scenarios, which are essential
for the continual advancement of LLMs.