SFT merkt sich, RL verallgemeinert: Eine vergleichende Studie des Foundation-Modells nach dem Training.SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
Überwachtes Feintuning (SFT) und Verstärkendes Lernen (RL) sind weit verbreitete Techniken nach dem Training für Grundlagenmodelle. Ihre Rolle bei der Verbesserung der Verallgemeinerungsfähigkeiten der Modelle ist jedoch unklar. Diese Arbeit untersucht den Unterschied zwischen SFT und RL hinsichtlich Verallgemeinerung und Memorierung, wobei textbasierte Regelvarianten und visuelle Varianten im Fokus stehen. Wir stellen GeneralPoints vor, ein Karten-Arithmetikspiel, und nutzen V-IRL, eine Navigationsumgebung in der realen Welt, um zu bewerten, wie Modelle, die mit SFT und RL trainiert wurden, auf unerforschte Varianten sowohl im textuellen als auch im visuellen Bereich verallgemeinern. Wir zeigen, dass RL, insbesondere wenn es mit einer ergebnisbasierten Belohnung trainiert wird, über Regel-basierte textuelle und visuelle Varianten hinweg verallgemeinert. SFT hingegen neigt dazu, Trainingsdaten zu memorieren und hat Schwierigkeiten, Szenarien außerhalb der Verteilung zu verallgemeinern. Eine weitere Analyse zeigt, dass RL die zugrunde liegenden visuellen Erkennungsfähigkeiten des Modells verbessert und so zu seiner verbesserten Verallgemeinerung im visuellen Bereich beiträgt. Trotz der überlegenen Verallgemeinerung von RL zeigen wir, dass SFT für ein effektives RL-Training unerlässlich bleibt; SFT stabilisiert das Ausgabeformat des Modells und ermöglicht es nachfolgendem RL, seine Leistungssteigerungen zu erzielen. Diese Erkenntnisse zeigen die Fähigkeit von RL, generalisierbares Wissen in komplexen, multimodalen Aufgaben zu erlangen.