Grandes Modelos de Linguagem Podem Autoaperfeiçoar-se na Raciocínio de Longo ContextoLarge Language Models Can Self-Improve in Long-context Reasoning
Os grandes modelos de linguagem (LLMs) alcançaram um progresso substancial no processamento de contextos longos, mas ainda enfrentam dificuldades com o raciocínio em contextos longos. As abordagens existentes geralmente envolvem o ajuste fino dos LLMs com dados sintéticos, que dependem de anotações de especialistas humanos ou de modelos avançados como o GPT-4, restringindo assim avanços adicionais. Para abordar essa questão, investigamos o potencial dos LLMs de se auto aprimorarem no raciocínio em contextos longos e propomos \ours, uma abordagem especificamente projetada para esse fim. Esta abordagem é direta: amostramos múltiplas saídas para cada pergunta, as pontuamos com o Risco Bayesiano Mínimo e, em seguida, aplicamos ajuste fino supervisionado ou otimização de preferência com base nessas saídas. Experimentos extensos em diversos LLMs líderes demonstram a eficácia de \ours, com uma melhoria absoluta de 4,2 pontos para o Llama-3.1-8B-Instruct. Além disso, \ours alcança um desempenho superior em comparação com abordagens anteriores que dependem de dados produzidos por especialistas humanos ou modelos avançados. Antecipamos que este trabalho abrirá novos caminhos para técnicas de auto aprimoramento em cenários de contextos longos, essenciais para o contínuo avanço dos LLMs.