ChatPaper.aiChatPaper

Los modelos de lenguaje grandes pueden auto-mejorar en el razonamiento de largo contexto.

Large Language Models Can Self-Improve in Long-context Reasoning

November 12, 2024
Autores: Siheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han logrado un progreso sustancial en el procesamiento de contextos largos, pero aún tienen dificultades con el razonamiento en contextos largos. Los enfoques existentes típicamente implican el ajuste fino de LLMs con datos sintéticos, que dependen de anotaciones de expertos humanos o modelos avanzados como GPT-4, restringiendo así avances adicionales. Para abordar este problema, investigamos el potencial de los LLMs para auto-mejorar en el razonamiento en contextos largos y proponemos \ours, un enfoque diseñado específicamente para este propósito. Este enfoque es directo: muestreamos múltiples salidas para cada pregunta, las evaluamos con Riesgo Bayesiano Mínimo y luego aplicamos ajuste fino supervisado u optimización de preferencias basadas en estas salidas. Experimentos extensos en varios LLMs líderes demuestran la efectividad de \ours, con una mejora absoluta de 4.2 puntos para Llama-3.1-8B-Instruct. Además, \ours logra un rendimiento superior en comparación con enfoques previos que dependen de datos producidos por expertos humanos o modelos avanzados. Anticipamos que este trabajo abrirá nuevas vías para técnicas de auto-mejora en escenarios de contextos largos, esenciales para el avance continuo de los LLMs.
English
Large language models (LLMs) have achieved substantial progress in processing long contexts but still struggle with long-context reasoning. Existing approaches typically involve fine-tuning LLMs with synthetic data, which depends on annotations from human experts or advanced models like GPT-4, thus restricting further advancements. To address this issue, we investigate the potential for LLMs to self-improve in long-context reasoning and propose \ours, an approach specifically designed for this purpose. This approach is straightforward: we sample multiple outputs for each question, score them with Minimum Bayes Risk, and then apply supervised fine-tuning or preference optimization based on these outputs. Extensive experiments on several leading LLMs demonstrate the effectiveness of \ours, with an absolute improvement of 4.2 points for Llama-3.1-8B-Instruct. Furthermore, \ours achieves superior performance compared to prior approaches that depend on data produced by human experts or advanced models. We anticipate that this work will open new avenues for self-improvement techniques in long-context scenarios, which are essential for the continual advancement of LLMs.

Summary

AI-Generated Summary

PDF674November 14, 2024