Los modelos de lenguaje grandes pueden auto-mejorar en el razonamiento de largo contexto.Large Language Models Can Self-Improve in Long-context Reasoning
Los modelos de lenguaje grandes (LLMs) han logrado un progreso sustancial en el procesamiento de contextos largos, pero aún tienen dificultades con el razonamiento en contextos largos. Los enfoques existentes típicamente implican el ajuste fino de LLMs con datos sintéticos, que dependen de anotaciones de expertos humanos o modelos avanzados como GPT-4, restringiendo así avances adicionales. Para abordar este problema, investigamos el potencial de los LLMs para auto-mejorar en el razonamiento en contextos largos y proponemos \ours, un enfoque diseñado específicamente para este propósito. Este enfoque es directo: muestreamos múltiples salidas para cada pregunta, las evaluamos con Riesgo Bayesiano Mínimo y luego aplicamos ajuste fino supervisado u optimización de preferencias basadas en estas salidas. Experimentos extensos en varios LLMs líderes demuestran la efectividad de \ours, con una mejora absoluta de 4.2 puntos para Llama-3.1-8B-Instruct. Además, \ours logra un rendimiento superior en comparación con enfoques previos que dependen de datos producidos por expertos humanos o modelos avanzados. Anticipamos que este trabajo abrirá nuevas vías para técnicas de auto-mejora en escenarios de contextos largos, esenciales para el avance continuo de los LLMs.