Auf dem Weg zu einem einheitlichen Verständnis des Präferenzlernens für große Sprachmodelle: Eine ÜbersichtTowards a Unified View of Preference Learning for Large Language Models:
A Survey
Große Sprachmodelle (LLMs) zeigen bemerkenswert leistungsstarke Fähigkeiten. Einer der entscheidenden Faktoren für den Erfolg besteht darin, die Ausgabe des LLMs mit menschlichen Präferenzen in Einklang zu bringen. Dieser Abstimmungsprozess erfordert oft nur eine geringe Menge an Daten, um die Leistung des LLMs effizient zu verbessern. Obwohl die Forschung in diesem Bereich wirksam ist, erstreckt sie sich über mehrere Domänen, und die beteiligten Methoden sind relativ komplex zu verstehen. Die Beziehungen zwischen verschiedenen Methoden wurden bisher nur unzureichend erforscht, was die Entwicklung der Präferenzabstimmung einschränkt. Vor diesem Hintergrund zerlegen wir die bestehenden beliebten Abstimmungsstrategien in verschiedene Komponenten und bieten ein vereinheitlichtes Rahmenwerk zur Untersuchung der aktuellen Abstimmungsstrategien, um so Verbindungen zwischen ihnen herzustellen. In dieser Übersicht zerlegen wir alle Strategien im Präferenzlernen in vier Komponenten: Modell, Daten, Rückmeldung und Algorithmus. Diese vereinheitlichte Sichtweise bietet ein tiefgreifendes Verständnis der bestehenden Abstimmungsalgorithmen und eröffnet auch Möglichkeiten, die Stärken verschiedener Strategien zu synergisieren. Darüber hinaus präsentieren wir detaillierte Arbeitsbeispiele gängiger bestehender Algorithmen, um den Lesern ein umfassendes Verständnis zu erleichtern. Abschließend, basierend auf unserer vereinheitlichten Perspektive, untersuchen wir die Herausforderungen und zukünftigen Forschungsrichtungen zur Abstimmung großer Sprachmodelle mit menschlichen Präferenzen.