Grandes Modelos de Linguagem Podem Autoaperfeiçoar-se na Raciocínio de Longo Contexto

Resumo

Os grandes modelos de linguagem (LLMs) alcançaram um progresso substancial no processamento de contextos longos, mas ainda enfrentam dificuldades com o raciocínio em contextos longos. As abordagens existentes geralmente envolvem o ajuste fino dos LLMs com dados sintéticos, que dependem de anotações de especialistas humanos ou de modelos avançados como o GPT-4, restringindo assim avanços adicionais. Para abordar essa questão, investigamos o potencial dos LLMs de se auto aprimorarem no raciocínio em contextos longos e propomos \ours, uma abordagem especificamente projetada para esse fim. Esta abordagem é direta: amostramos múltiplas saídas para cada pergunta, as pontuamos com o Risco Bayesiano Mínimo e, em seguida, aplicamos ajuste fino supervisionado ou otimização de preferência com base nessas saídas. Experimentos extensos em diversos LLMs líderes demonstram a eficácia de \ours, com uma melhoria absoluta de 4,2 pontos para o Llama-3.1-8B-Instruct. Além disso, \ours alcança um desempenho superior em comparação com abordagens anteriores que dependem de dados produzidos por especialistas humanos ou modelos avançados. Antecipamos que este trabalho abrirá novos caminhos para técnicas de auto aprimoramento em cenários de contextos longos, essenciais para o contínuo avanço dos LLMs.

English

Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

Grandes Modelos de Linguagem Podem Autoaperfeiçoar-se na Raciocínio de Longo Contexto

Large Language Models Can Self-Improve in Long-context Reasoning

Resumo

Support