papers.description
Während große Sprachmodelle Durchbrüche in vielen Anwendungen der künstlichen Intelligenz ermöglicht haben, macht ihre inhärente Größe sie rechnerisch aufwendig und herausfordernd in Ressourcen-beschränkten Umgebungen einzusetzen. In diesem Artikel dokumentieren wir die Entwicklung von SmolLM2, einem hochmodernen "kleinen" (1,7 Milliarden Parameter) Sprachmodell (LM). Um starke Leistungen zu erzielen, übertrainieren wir SmolLM2 auf ~11 Billionen Tokens an Daten mithilfe eines mehrstufigen Schulungsprozesses, der Webtext mit spezialisierten Mathematik-, Code- und Anweisungsfolge-Daten kombiniert. Zusätzlich führen wir neue spezialisierte Datensätze (FineMath, Stack-Edu und SmolTalk) ein, in Phasen, in denen wir festgestellt haben, dass vorhandene Datensätze problematisch klein oder von geringer Qualität sind. Um unsere Designentscheidungen zu unterstützen, führen wir sowohl klein angelegte Ablationen als auch einen manuellen Verfeinerungsprozess durch, der die Mischraten der Datensätze in jeder Phase basierend auf der Leistung in der vorherigen Phase aktualisiert. Letztendlich zeigen wir, dass SmolLM2 andere kürzlich entwickelte kleine LMs wie Qwen2.5-1.5B und Llama3.2-1B übertrifft. Um zukünftige Forschung zur LM-Entwicklung sowie Anwendungen von kleinen LMs zu erleichtern, veröffentlichen wir sowohl SmolLM2 als auch alle Datensätze, die wir im Verlauf dieses Projekts vorbereitet haben.
Wir präsentieren eine grundlegende Entdeckung, die unser Verständnis davon herausfordert, wie komplexe Schlussfolgerungen in großen Sprachmodellen entstehen. Während die herkömmliche Weisheit nahelegt, dass anspruchsvolle Schlussfolgerungsaufgaben umfangreiche Trainingsdaten (>100.000 Beispiele) erfordern, zeigen wir, dass komplexe mathematische Schlussfolgerungsfähigkeiten effektiv mit überraschend wenigen Beispielen hervorgerufen werden können. Durch umfassende Experimente zeigt unser vorgeschlagenes Modell LIMO eine beispiellose Leistung in mathematischen Schlussfolgerungen. Mit lediglich 817 sorgfältig ausgewählten Trainingsbeispielen erreicht LIMO eine Genauigkeit von 57,1% bei AIME und 94,8% bei MATH, was eine Verbesserung gegenüber den vorherigen SFT-basierten Modellen von 6,5% bzw. 59,2% darstellt, während nur 1% der Trainingsdaten im Vergleich zu früheren Ansätzen verwendet werden. LIMO zeigt eine außergewöhnliche Generalisierung außerhalb der Verteilung und erzielt eine absolute Verbesserung von 40,5% über 10 verschiedene Benchmarks hinweg, wobei es Modelle übertrifft, die mit 100-mal mehr Daten trainiert wurden, und die Annahme herausfordert, dass SFT zu Memorierung anstelle von Generalisierung führt. Basierend auf diesen Ergebnissen schlagen wir die Hypothese des Weniger-ist-Mehr-Schlussfolgerns (LIMO-Hypothese) vor: In Grundlagenmodellen, in denen Domänenwissen während des Pre-Trainings umfassend codiert wurde, können anspruchsvolle Schlussfolgerungsfähigkeiten durch minimale, aber präzise orchestrierte Demonstrationen kognitiver Prozesse entstehen. Diese Hypothese postuliert, dass die Hervorrufungsschwelle für komplexe Schlussfolgerungen durch zwei wesentliche Faktoren bestimmt wird: (1) die Vollständigkeit des im Modell codierten Wissensfundaments während des Pre-Trainings und (2) die Effektivität von Post-Trainingsbeispielen als "kognitive Vorlagen", die dem Modell zeigen, wie es sein Wissensfundament nutzen kann, um komplexe Schlussfolgerungsaufgaben zu lösen. Um die Reproduzierbarkeit und zukünftige Forschung in dateneffizienten Schlussfolgerungen zu erleichtern, veröffentlichen wir LIMO als umfassendes Open-Source-Paket unter https://github.com/GAIR-NLP/LIMO.
Die Skalierung der Inferenzberechnung verbessert das Schlussfolgern in großen Sprachmodellen (LLMs), wobei lange Gedankenketten (CoTs) Strategien wie Rückverfolgung und Fehlerkorrektur ermöglichen. Das Reinforcement-Learning (RL) hat sich als entscheidende Methode zur Entwicklung dieser Fähigkeiten herausgestellt, doch die Bedingungen, unter denen lange CoTs entstehen, bleiben unklar, und das RL-Training erfordert sorgfältige Designentscheidungen. In dieser Studie untersuchen wir systematisch die Mechanik des langen CoT-Schlussfolgerns und identifizieren die Schlüsselfaktoren, die es Modellen ermöglichen, lange CoT-Trajektorien zu generieren. Durch umfangreiche überwachte Feinabstimmung (SFT) und RL-Experimente präsentieren wir vier Hauptergebnisse: (1) Während SFT nicht zwingend erforderlich ist, vereinfacht es das Training und verbessert die Effizienz; (2) Das Schlussfolgern entwickelt sich tendenziell mit zunehmender Trainingsberechnung, aber ihre Entwicklung ist nicht garantiert, wodurch die Formung von Belohnungen entscheidend ist, um das Wachstum der CoT-Länge zu stabilisieren; (3) Die Skalierung überprüfbarer Belohnungssignale ist für RL entscheidend. Wir stellen fest, dass die Nutzung von rauschhaften, aus dem Web extrahierten Lösungen mit Filtermechanismen ein großes Potenzial zeigt, insbesondere für Out-of-Distribution (OOD)-Aufgaben wie STEM-Schlussfolgerungen; und (4) Kernfähigkeiten wie Fehlerkorrektur sind in Basismodellen inhärent vorhanden, aber die Anreizsetzung dieser Fähigkeiten für komplexe Aufgaben über RL erfordert erhebliche Berechnungen, und ihre Entwicklung zu messen erfordert einen differenzierten Ansatz. Diese Erkenntnisse bieten praktische Anleitungen zur Optimierung von Trainingsstrategien zur Verbesserung des langen CoT-Schlussfolgerns in LLMs. Unser Code ist verfügbar unter: https://github.com/eddycmu/demystify-long-cot.
Die Erforschung sozialer Emergenz ist seit langem ein zentraler Schwerpunkt in den Sozialwissenschaften. Traditionelle Modellierungsansätze, wie regelbasierte Agentenbasierte Modelle (ABMs), haben Schwierigkeiten, die Vielfalt und Komplexität menschlichen Verhaltens zu erfassen, insbesondere die irrationalen Faktoren, die in der Verhaltensökonomie betont werden. In letzter Zeit haben große Sprachmodelle (LLMs) als Simulationstools zur Modellierung menschlichen Verhaltens in den Sozialwissenschaften und Rollenspielanwendungen an Bedeutung gewonnen. Studien legen nahe, dass LLMs kognitive Verzerrungen, emotionale Schwankungen und andere nicht-rationale Einflüsse berücksichtigen können, was realistischere Simulationen sozioökonomischer Dynamiken ermöglicht. In dieser Arbeit stellen wir TwinMarket vor, ein neuartiges Multi-Agenten-Framework, das LLMs nutzt, um sozioökonomische Systeme zu simulieren. Insbesondere untersuchen wir, wie individuelle Verhaltensweisen durch Interaktionen und Rückkopplungsmechanismen zu kollektiven Dynamiken und emergenten Phänomenen führen. Durch Experimente in einer simulierten Börsenumgebung zeigen wir, wie individuelle Handlungen Gruppenverhalten auslösen können, was zu emergenten Ergebnissen wie Finanzblasen und Rezessionen führt. Unser Ansatz liefert wertvolle Einblicke in das komplexe Zusammenspiel zwischen individueller Entscheidungsfindung und kollektiven sozioökonomischen Mustern.
Multimodale große Sprachmodelle (MLLMs) zeigen beeindruckende Fähigkeiten, stehen jedoch immer noch vor Herausforderungen bei komplexem visuellen Denken. Während jüngste Bemühungen versuchen, das Denkvermögen von MLLMs zu verbessern, indem sie OpenAI o1-ähnliches strukturiertes Denken durch explizite Suchstrukturen oder lehrergeführte Destillation einbeziehen, haben sie oft Schwierigkeiten, Leistung und Effizienz auszubalancieren. Eine entscheidende Einschränkung besteht in ihrer starken Abhängigkeit von umfangreichen Daten- und Suchräumen, was zu einer ineffizienten impliziten Erkenntnisgewinnung und Datenverwendung führt. Um dies zu lösen, schlagen wir AStar vor, ein automatisiertes strukturiertes Denkparadigma für multimodales Denken mittels Monte-Carlo-Baumsuche (MCTS). AStar leitet automatisch hochrangige kognitive Denkmuster aus begrenzten Daten mithilfe von MCTS-gesteuerten hierarchischen Strukturen ab. Aufbauend auf diesen expliziten Mustern entwerfen wir ein vereinheitlichtes Denkrahmenwerk, das die internen Denkfähigkeiten der Modelle nahtlos integriert und externe Denkrichtlinien ermöglicht, was effiziente Inferenz mit minimalen Baumiterationen ermöglicht. Dieses neuartige Paradigma schafft eine überzeugende Balance zwischen Leistung und Effizienz. Umfangreiche Experimente zeigen die Wirksamkeit von AStar, das eine überlegene Genauigkeit (54,0 %) im MathVerse-Benchmark mit einem 7B-Backbone erreicht und GPT-4o (50,2 %) übertrifft, während er erhebliche Daten- und Recheneffizienz beibehält.
Die Generierung kognitiv ausgerichteter geschichteter SVGs bleibt aufgrund der Tendenz bestehender Methoden zu entweder zu vereinfachten einlagigen Ausgaben oder durch Optimierung verursachten Formredundanzen herausfordernd. Wir schlagen LayerTracer vor, ein auf dem Diffusionstransformer basierendes Framework, das diese Lücke überbrückt, indem es die geschichteten SVG-Erstellungsprozesse von Designern aus einem neuartigen Datensatz sequenzieller Designoperationen lernt. Unser Ansatz arbeitet in zwei Phasen: Zunächst generiert ein textkonditionierter DiT mehrphasige rasterisierte Konstruktionsgrundrisse, die menschliche Design-Workflows simulieren. Anschließend erfolgt eine schichtweise Vektorisierung mit Pfad-Deduplizierung, um saubere, bearbeitbare SVGs zu erstellen. Für die Bildvektorisierung führen wir einen bedingten Diffusionsmechanismus ein, der Referenzbilder in latente Tokens codiert, um eine hierarchische Rekonstruktion unter Beibehaltung der Strukturintegrität zu führen. Umfangreiche Experimente zeigen die überlegene Leistung von LayerTracer gegenüber auf Optimierung basierenden und neuronalen Basislinien sowohl in der Generierungsqualität als auch in der Bearbeitbarkeit auf und bringen KI-generierte Vektoren effektiv mit professioneller Designkognition in Einklang.
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zur Schlussfolgerung und Planung aus, wenn sie mit Chain-of-Thought (CoT) Daten trainiert werden, bei denen der schrittweise Gedankengang explizit durch Text-Token dargelegt wird. Dies führt jedoch zu langen Eingaben, in denen viele Wörter die textuelle Kohärenz unterstützen, anstatt Kern-Schlussfolgerungsinformationen zu liefern, und die Verarbeitung dieser Eingaben erfordert erhebliche Rechenressourcen. In dieser Arbeit schlagen wir eine hybride Darstellung des Schlussfolgerungsprozesses vor, bei der wir die anfänglichen Schlussfolgerungsschritte teilweise abstrahieren, indem wir latente diskrete Token verwenden, die von VQ-VAE generiert werden, was die Länge der Schlussfolgerungsspuren erheblich reduziert. Wir untersuchen den Einsatz von latenten Spurenabstraktionen in zwei Szenarien: 1) das Training des Modells von Grund auf für das Keys-Finding Maze Problem, 2) das Feintuning von LLMs auf diesen hybriden Daten mit einem erweiterten Vokabular, das bisher ungesehene latente Token für logische und mathematische Schlussfolgerungsprobleme einschließt. Um ein effektives Lernen zu erleichtern, führen wir ein einfaches Trainingsverfahren ein, das latenten und Text-Token zufällig mischt, was eine schnelle Anpassung an neue latente Token ermöglicht. Unser Ansatz übertrifft konsistent die Basismethoden in verschiedenen Benchmarks.
Die Nachbearbeitung von Sprachmodellen (LMs) stützt sich zunehmend auf die folgenden beiden Phasen: (i) Wissensvermittlung, bei der das LM trainiert wird, um ein größeres Lehrer-LM zu imitieren, und (ii) Verstärkungslernen durch menschliches Feedback (RLHF), bei dem das LM durch Optimierung eines Belohnungsmodells ausgerichtet wird. In der zweiten RLHF-Phase stellt eine bekannte Herausforderung das Belohnungs-Hacking dar, bei dem das LM das Belohnungsmodell überoptimiert. Ein solches Phänomen steht im Einklang mit dem Goodhart-Gesetz und kann zu einer verschlechterten Leistung beim eigentlichen Ziel führen. In diesem Papier untersuchen wir, ob ein ähnliches Phänomen, das wir als Lehrer-Hacking bezeichnen, während der Wissensvermittlung auftreten kann. Dies könnte daher kommen, dass das Lehrer-LM selbst eine unvollkommene Annäherung an die wahre Verteilung ist. Um dies zu untersuchen, schlagen wir ein kontrolliertes experimentelles Setup vor, das Folgendes umfasst: (i) ein Orakel-LM, das die Grundwahrheit darstellt, (ii) ein Lehrer-LM, das aus dem Orakel destilliert wurde, und (iii) ein Schüler-LM, das aus dem Lehrer destilliert wurde. Unsere Experimente enthüllen folgende Erkenntnisse. Bei Verwendung eines festen Offline-Datensatzes für die Wissensvermittlung tritt Lehrer-Hacking auf; zudem können wir es erkennen, indem wir beobachten, wann der Optimierungsprozess von den konvergenten Gesetzen abweicht. Im Gegensatz dazu können durch den Einsatz von Online-Datengenerierungstechniken Lehrer-Hacking effektiv gemildert werden. Genauer identifizieren wir Datenvielfalt als den Schlüsselfaktor zur Verhinderung von Hacking. Insgesamt liefern unsere Ergebnisse ein tieferes Verständnis der Vorzüge und Einschränkungen der Wissensvermittlung für den Aufbau robuster und effizienter LMs.
Die automatische Codegenerierung gewinnt zunehmend an Bedeutung in der intelligenten Computerprogrammierung und Systembereitstellung. Allerdings sehen sich aktuelle Ansätze oft mit Herausforderungen in der Rechenleistung und dem Mangel an robusten Mechanismen für die Codeanalyse und Fehlerkorrektur konfrontiert. In dieser Arbeit schlagen wir ein neuartiges Framework, PyCapsule, mit einem einfachen, aber effektiven Zwei-Agenten-Pipeline und effizienten Selbstdebugging-Modulen für die Python-Codegenerierung vor. PyCapsule zeichnet sich durch eine ausgefeilte Prompt-Inferenz, iterative Fehlerbehandlung und Falltests aus, die eine hohe Generierungsstabilität, Sicherheit und Korrektheit gewährleisten. Empirisch gesehen erzielt PyCapsule eine Verbesserung des Erfolgsgrades von bis zu 5,7 % bei HumanEval, 10,3 % bei HumanEval-ET und 24,4 % bei BigCodeBench im Vergleich zu den State-of-the-Art-Methoden. Wir beobachten auch eine Abnahme des normalisierten Erfolgsgrades bei zunehmenden Selbstdebugging-Versuchen, möglicherweise beeinflusst durch begrenztes und fehlerhaftes Feedback bei der Fehlerbehebung. PyCapsule zeigt breitere Auswirkungen auf die Förderung der leichten und effizienten Codegenerierung für KI-Systeme.
Große Sprachmodelle (LLMs) haben signifikante Leistungssteigerungen durch die Skalierung der Modellgrößen und/oder der Daten erzielt. Allerdings legen jüngste Erkenntnisse nahe, dass solche Ansätze abnehmende Erträge bringen, was die Skalierung der Rechenleistung zur Inferenzzeit motiviert. Bestehende Methoden zur Skalierung zur Inferenzzeit, die in der Regel mit Belohnungsmodellen arbeiten, stellen die Aufgabe als ein Suchproblem dar, das anfällig für Belohnungsumgehungen ist, die auf Approximationsfehlern in den Belohnungsmodellen beruhen. In diesem Paper betrachten wir die Skalierung zur Inferenzzeit stattdessen als eine probabilistische Inferenzaufgabe und nutzen techniken basierend auf Stichproben, um den typischen Satz der Zustandsverteilung eines Zustandsraummodells mit einer approximativen Wahrscheinlichkeit zu erkunden, anstatt direkt auf dessen Modus zu optimieren. Wir schlagen einen neuartigen Ansatz zur Skalierung zur Inferenzzeit vor, indem wir partikelbasierte Monte-Carlo-Methoden an diese Aufgabe anpassen. Unsere empirische Bewertung zeigt, dass unsere Methoden eine 4-16-fach bessere Skalierungsrate im Vergleich zu unseren deterministischen Suchgegenstücken bei verschiedenen anspruchsvollen mathematischen Denkaufgaben aufweisen. Unter Verwendung unseres Ansatzes zeigen wir, dass Qwen2.5-Math-1.5B-Instruct die Genauigkeit von GPT-4o bereits nach nur 4 Durchläufen übertreffen kann, während Qwen2.5-Math-7B-Instruct bereits nach nur 32 Durchläufen auf Genauigkeitsebene o1 skaliert. Unsere Arbeit präsentiert nicht nur eine effektive Methode zur Skalierung zur Inferenzzeit, sondern verknüpft auch die umfangreiche Literatur zur probabilistischen Inferenz mit der Skalierung zur Inferenzzeit von LLMs, um in zukünftigen Arbeiten robustere Algorithmen zu entwickeln. Der Code und weitere Informationen sind unter https://probabilistic-inference-scaling.github.io verfügbar.
Große Sprachmodelle (LLMs) haben in den letzten Jahren eine rasante Entwicklung erlebt, indem sie verschiedene Anwendungen revolutioniert und die Bequemlichkeit und Produktivität erheblich verbessert haben. Neben ihren beeindruckenden Fähigkeiten sind jedoch auch ethische Bedenken und neue Arten von Angriffen, wie z.B. Jailbreaking, aufgetaucht. Während die meisten Aufforderungstechniken darauf abzielen, adversative Eingaben für einzelne Fälle zu optimieren, was zu höheren Rechenkosten bei der Arbeit mit großen Datensätzen führt, wurde bisher weniger Forschung betrieben, um das allgemeinere Szenario des Trainings eines universellen Angreifers anzugehen, der auf unbekannte Aufgaben übertragen werden kann. In diesem Paper stellen wir JUMP vor, eine auf Aufforderungen basierende Methode, die darauf abzielt, LLMs mithilfe universeller Multiprompten zu jailbreaken. Wir passen unseren Ansatz auch für Verteidigungszwecke an, den wir DUMP nennen. Experimentelle Ergebnisse zeigen, dass unsere Methode zur Optimierung universeller Multiprompten bestehende Techniken übertrifft.
Die Zusammenführung von Modellen, eine Methode, die die Parameter und Einbettungen mehrerer feinabgestimmter großer Sprachmodelle kombiniert, bietet einen vielversprechenden Ansatz, um die Leistung von Modellen in verschiedenen Aufgaben zu verbessern, während die Rechenleistung erhalten bleibt. Dieses Papier stellt Activation-Informed Merging (AIM) vor, eine Technik, die die Informationen aus dem Aktivierungsbereich der Sprachmodelle in den Zusammenführungsprozess integriert, um die Leistung und Robustheit zu verbessern. AIM ist als flexible, ergänzende Lösung konzipiert, die auf jede bestehende Zusammenführungsmethode anwendbar ist. Sie zielt darauf ab, wichtige Gewichte aus dem Basismodell zu erhalten und greift dabei auf Prinzipien des kontinuierlichen Lernens (CL) und der Modellkompression zurück. Durch die Verwendung eines aufgabenneutralen Kalibrierungssatzes priorisiert AIM selektiv wesentliche Gewichte während der Zusammenführung. Wir zeigen empirisch, dass AIM die Leistung von zusammengeführten Modellen signifikant über mehrere Benchmarks hinweg verbessert. Unsere Ergebnisse legen nahe, dass die Berücksichtigung von Informationen aus dem Aktivierungsbereich bedeutende Fortschritte in den Strategien zur Modellzusammenführung für große Sprachmodelle bieten kann, mit einer Steigerung der Benchmark-Leistung um bis zu 40\%.
Die Retrieval-gestützte Generierung (RAG) ermöglicht es großen Sprachmodellen (LLMs), fundierte Antworten zu generieren, indem externe Wissensdatenbanken genutzt werden, ohne die Modellparameter zu verändern. Obwohl das Fehlen von Gewichtsanpassungen das Risiko von Informationslecks über Modellparameter verhindert, birgt es die Gefahr, dass Inferenzgegner die abgerufenen Dokumente im Kontext des Modells ausnutzen. Bestehende Methoden für die Mitgliedschaftsinferenz und Datenextraktion stützen sich oft auf Jailbreaking oder sorgfältig ausgearbeitete unnatürliche Abfragen, die jedoch leicht mit den in RAG-Systemen üblichen Abfrage-Umschreibungstechniken erkannt oder vereitelt werden können. In dieser Arbeit präsentieren wir den Interrogation Attack (IA), eine Mitgliedschaftsinferenztechnik, die auf Dokumente im RAG-Datenspeicher abzielt. Durch die Erstellung von natürlichsprachlichen Abfragen, die nur mit der Anwesenheit des Ziel-Dokuments beantwortet werden können, zeigt unser Ansatz eine erfolgreiche Inferenz mit nur 30 Abfragen, während er unauffällig bleibt; herkömmliche Detektoren identifizieren feindliche Aufforderungen aus bestehenden Methoden bis zu ~76-mal häufiger als die von unserem Angriff generierten. Wir beobachten eine 2-fache Verbesserung von TPR@1%FPR gegenüber früheren Inferenzangriffen in verschiedenen RAG-Konfigurationen, und das alles zu Kosten von weniger als $0.02 pro Dokumenteninferenz.
Die Evaluierung der praktischen Anwendbarkeit großer Sprachmodelle (LLMs) liefert wertvolle Einblicke für deren Entwicklung und Nutzung in Softwareentwicklungsaufgaben. Bestehende Benchmarks konzentrieren sich oft auf eigenständige Codierungsprobleme oder spezifische Bibliotheken, vernachlässigen mehrdateibasierte, projektbasierte Szenarien und bieten keine strenge Bewertung der Konsistenz. Der HackerRank-ASTRA-Benchmark stellt projektbasierte Codierungsprobleme vor, die reale Szenarien widerspiegeln. Er bewertet die Modellkonsistenz durch 32 Durchläufe (k = 32) und die mediane Standardabweichung unter Einbeziehung einer Taxonomieebene zur Bewertung von Teilkompetenzen. Erste Bewertungen zu 65 Problemen zeigen, dass die drei besten Modelle - o1, o1-preview und Claude-3.5-Sonnet-1022 - vergleichbare Durchschnittswerte von 75% erzielten, ohne statistisch signifikante Unterschiede in der Leistung. Bemerkenswerterweise zeigte Claude-3.5-Sonnet-1022 die höchste Konsistenz über Probleme hinweg mit geringer Variabilität (SD = 0,0497), was im Vergleich zu anderen Modellen statistisch signifikant war und seine Zuverlässigkeit für praktische Softwareentwicklungsaufgaben hervorhebt.