Große Sprachmodelle können sich durch eigenständige Verbesserung in der langen Kontextualisierung von Argumentationen weiterentwickeln.Large Language Models Can Self-Improve in Long-context Reasoning
Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Verarbeitung langer Kontexte erzielt, kämpfen jedoch immer noch mit der Schlussfolgerung bei langen Kontexten. Bestehende Ansätze beinhalten in der Regel das Feintuning von LLMs mit synthetischen Daten, die auf Annotationen von menschlichen Experten oder fortgeschrittenen Modellen wie GPT-4 basieren, was weitere Fortschritte einschränkt. Um dieses Problem anzugehen, untersuchen wir das Potenzial von LLMs zur Selbstverbesserung bei der Schlussfolgerung in langen Kontexten und schlagen \ours vor, einen speziell für diesen Zweck konzipierten Ansatz. Dieser Ansatz ist einfach: Wir probieren mehrere Ausgaben für jede Frage aus, bewerten sie mit dem Minimum Bayes-Risiko und wenden dann überwachtes Feintuning oder Präferenzoptimierung basierend auf diesen Ausgaben an. Umfangreiche Experimente mit mehreren führenden LLMs zeigen die Wirksamkeit von \ours, mit einer absoluten Verbesserung von 4,2 Punkten für Llama-3.1-8B-Instruct. Darüber hinaus erzielt \ours eine überlegene Leistung im Vergleich zu früheren Ansätzen, die auf Daten von menschlichen Experten oder fortgeschrittenen Modellen angewiesen sind. Wir erwarten, dass diese Arbeit neue Wege für Selbstverbesserungstechniken in Szenarien mit langen Kontexten eröffnen wird, die für den kontinuierlichen Fortschritt von LLMs unerlässlich sind.