papers.title

papers.description

SFT merkt sich, RL verallgemeinert: Eine vergleichende Studie des Foundation-Modells nach dem Training.
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28, 2025

Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

1226

Überwachtes Feintuning (SFT) und Verstärkendes Lernen (RL) sind weit verbreitete Techniken nach dem Training für Grundlagenmodelle. Ihre Rolle bei der Verbesserung der Verallgemeinerungsfähigkeiten der Modelle ist jedoch unklar. Diese Arbeit untersucht den Unterschied zwischen SFT und RL hinsichtlich Verallgemeinerung und Memorierung, wobei textbasierte Regelvarianten und visuelle Varianten im Fokus stehen. Wir stellen GeneralPoints vor, ein Karten-Arithmetikspiel, und nutzen V-IRL, eine Navigationsumgebung in der realen Welt, um zu bewerten, wie Modelle, die mit SFT und RL trainiert wurden, auf unerforschte Varianten sowohl im textuellen als auch im visuellen Bereich verallgemeinern. Wir zeigen, dass RL, insbesondere wenn es mit einer ergebnisbasierten Belohnung trainiert wird, über Regel-basierte textuelle und visuelle Varianten hinweg verallgemeinert. SFT hingegen neigt dazu, Trainingsdaten zu memorieren und hat Schwierigkeiten, Szenarien außerhalb der Verteilung zu verallgemeinern. Eine weitere Analyse zeigt, dass RL die zugrunde liegenden visuellen Erkennungsfähigkeiten des Modells verbessert und so zu seiner verbesserten Verallgemeinerung im visuellen Bereich beiträgt. Trotz der überlegenen Verallgemeinerung von RL zeigen wir, dass SFT für ein effektives RL-Training unerlässlich bleibt; SFT stabilisiert das Ausgabeformat des Modells und ermöglicht es nachfolgendem RL, seine Leistungssteigerungen zu erzielen. Diese Erkenntnisse zeigen die Fähigkeit von RL, generalisierbares Wissen in komplexen, multimodalen Aufgaben zu erlangen.

Optimierung des Trainings großer Sprachmodelle unter Verwendung von FP4-Quantisierung.
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28, 2025

Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

382

Die wachsenden Rechenanforderungen für das Training großer Sprachmodelle (LLMs) erfordern effizientere Methoden. Quantisiertes Training bietet eine vielversprechende Lösung, indem es Niedrigbit-Arithmetikoperationen ermöglicht, um diese Kosten zu senken. Während die FP8-Präzision die Machbarkeit gezeigt hat, bleibt die Nutzung von FP4 eine Herausforderung aufgrund signifikanter Quantisierungsfehler und begrenzter Repräsentationskapazität. Diese Arbeit stellt das erste FP4-Trainingsframework für LLMs vor, das diese Herausforderungen mit zwei Schlüsselinnovationen angeht: einem differentiellen Quantisierungsschätzer für präzise Gewichtsaktualisierungen und einer Ausreißer-Klemm- und Kompensationsstrategie zur Verhinderung von Aktivierungskollaps. Um Stabilität zu gewährleisten, integriert das Framework ein gemischtpräzises Trainingsschema und eine vektorweise Quantisierung. Experimentelle Ergebnisse zeigen, dass unser FP4-Framework eine Genauigkeit erreicht, die mit BF16 und FP8 vergleichbar ist, bei minimaler Verschlechterung und effektiver Skalierung auf 13B-Parameter LLMs, die auf bis zu 100B Token trainiert wurden. Mit dem Aufkommen von Hardware der nächsten Generation, die FP4 unterstützt, legt unser Framework eine Grundlage für effizientes Training mit ultraniedriger Präzision.

Über-Tokenisierter Transformer: Die Vokabularskalierung ist in der Regel sinnvoll.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28, 2025

Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

324

Die Tokenisierung ist eine grundlegende Komponente großer Sprachmodelle (LLMs), doch ihr Einfluss auf die Skalierung und Leistung der Modelle ist noch nicht vollständig erforscht. In diesem Artikel stellen wir Over-Tokenized Transformers vor, ein neuartiges Framework, das die Eingabe- und Ausgabe-Vokabulare entkoppelt, um die Leistung des Sprachmodellierens zu verbessern. Speziell skaliert unser Ansatz die Eingabe-Vokabulare hoch, um Multi-Gramm-Token zu nutzen. Durch umfangreiche Experimente decken wir eine logarithmisch-lineare Beziehung zwischen der Größe des Eingabe-Vokabulars und dem Trainingsverlust auf, was zeigt, dass größere Eingabe-Vokabulare die Modellleistung unabhängig von der Modellgröße konsistent verbessern. Mit einem großen Eingabe-Vokabular erreichen wir eine vergleichbare Leistung wie doppelt so große Baselines ohne zusätzliche Kosten. Unsere Ergebnisse unterstreichen die Bedeutung der Tokenisierung in Skalierungsgesetzen und bieten praktische Einblicke für das Design von Tokenizern, um den Weg für effizientere und leistungsstärkere LLMs zu ebnen.

DiffSplat: Umnutzung von Bildverbreitungsmodellen für die skalierbare Generierung von Gauß'schen Splat.
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28, 2025

Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

223

In jüngster Zeit haben Fortschritte bei der Generierung von 3D-Inhalten aus Text oder einem einzigen Bild mit begrenzten hochwertigen 3D-Datensätzen und Inkonsistenzen bei der 2D-Mehransichtsgenerierung zu kämpfen. Wir stellen DiffSplat vor, ein neuartiges 3D-generatives Framework, das nativ 3D-Gaußsche Splats erzeugt, indem es große Text-zu-Bild-Diffusionsmodelle bändigt. Es unterscheidet sich von früheren 3D-generativen Modellen, indem es webbasierte 2D-Prioritäten effektiv nutzt und gleichzeitig 3D-Konsistenz in einem vereinheitlichten Modell beibehält. Um das Training zu starten, wird ein leichtgewichtiges Rekonstruktionsmodell vorgeschlagen, um sofort Mehransichts-Gaußsche Splat-Gitter für skalierbare Datensatzkuratierung zu erzeugen. In Verbindung mit dem regulären Diffusionsverlust auf diesen Gittern wird ein 3D-Renderingverlust eingeführt, um die 3D-Kohärenz über beliebige Ansichten hinweg zu erleichtern. Die Kompatibilität mit Bild-Diffusionsmodellen ermöglicht nahtlose Anpassungen zahlreicher Techniken für die Bildgenerierung an den 3D-Bereich. Umfangreiche Experimente zeigen die Überlegenheit von DiffSplat bei text- und bildkonditionierten Generierungsaufgaben und nachgelagerten Anwendungen. Gründliche Ablationsstudien bestätigen die Wirksamkeit jeder kritischen Designentscheidung und liefern Einblicke in den zugrunde liegenden Mechanismus.

Offene Probleme in der mechanistischen Interpretierbarkeit
Open Problems in Mechanistic Interpretability

Jan 27, 2025

Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

192

Die mechanistische Interpretierbarkeit zielt darauf ab, die Rechenmechanismen zu verstehen, die den Fähigkeiten neuronaler Netzwerke zugrunde liegen, um konkrete wissenschaftliche und technische Ziele zu erreichen. Der Fortschritt in diesem Bereich verspricht daher eine größere Sicherheit über das Verhalten von KI-Systemen zu bieten und spannende wissenschaftliche Fragen über die Natur der Intelligenz zu erhellen. Trotz des jüngsten Fortschritts in Richtung dieser Ziele gibt es viele offene Probleme in diesem Bereich, die Lösungen erfordern, bevor viele wissenschaftliche und praktische Vorteile realisiert werden können: Unsere Methoden erfordern sowohl konzeptionelle als auch praktische Verbesserungen, um tiefere Einblicke zu gewähren; wir müssen herausfinden, wie wir unsere Methoden am besten zur Verfolgung spezifischer Ziele anwenden können; und das Feld muss sich mit sozio-technischen Herausforderungen auseinandersetzen, die von unserer Arbeit beeinflusst werden und diese beeinflussen. Diese zukunftsweisende Übersicht diskutiert die aktuelle Grenze der mechanistischen Interpretierbarkeit und die offenen Probleme, von denen das Feld profitieren könnte, wenn sie priorisiert werden.

Niedrig-Rang-Adapter treffen auf neuronale Architektursuche zur Kompression von LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23, 2025

J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

112

Die rasante Expansion von Large Language Models (LLMs) hat signifikante Herausforderungen in Bezug auf die benötigten Rechenressourcen für Feinabstimmung und Bereitstellung mit sich gebracht. Die jüngsten Fortschritte bei Low-Rank-Adaptern haben ihre Wirksamkeit bei der parameter-effizienten Feinabstimmung (PEFT) dieser Modelle gezeigt. Dieser Rückblicksartikel diskutiert umfassend innovative Ansätze, die Low-Rank-Repräsentationen mit Techniken des Neural Architecture Search (NAS) synergisieren, insbesondere Weight-Sharing-Super-Netzwerke. Robuste Lösungen zur Komprimierung und Feinabstimmung großer vorab trainierter Modelle werden durch die Integration dieser Methoden entwickelt. Unsere Analyse hebt das Potenzial dieser kombinierten Strategien hervor, um die Nutzung von LLMs zu demokratisieren und sie so in ressourcenbeschränkten Umgebungen zugänglicher zu machen. Die resultierenden Modelle weisen reduzierte Speicherplatzanforderungen und schnellere Inferenzzeiten auf und ebneten den Weg für praktischere und skalierbare Anwendungen von LLMs. Modelle und Code sind verfügbar unter https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

TAID: Zeitlich adaptives interpoliertes Distillationsverfahren für effiziente Wissensübertragung in Sprachmodellen
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28, 2025

Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

Kausale Sprachmodelle haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Größe stellt bedeutende Herausforderungen für den Einsatz in ressourcenbeschränkten Umgebungen dar. Wissensdistillation, eine weit verbreitete Technik zur Übertragung von Wissen von einem großen Lehrmodell auf ein kleines Schülermodell, bietet einen vielversprechenden Ansatz zur Modellkompression. Ein wesentliches verbleibendes Problem liegt in den großen Unterschieden zwischen Lehrer- und Schülermodellen, nämlich der erhebliche Kapazitätsunterschied, Modusmittelung und Modus-Kollaps, die während der Distillation Hindernisse darstellen. Um diese Probleme anzugehen, führen wir die Temporally Adaptive Interpolated Distillation (TAID) ein, einen neuartigen Wissensdistillationsansatz, der Schüler- und Lehrer-Verteilungen dynamisch über eine adaptive Zwischenverteilung interpoliert, allmählich von der anfänglichen Verteilung des Schülers zur Verteilung des Lehrers übergeht. Wir bieten eine theoretische Analyse, die die Fähigkeit von TAID zeigt, Modus-Kollaps zu verhindern, und zeigen empirisch seine Wirksamkeit bei der Bewältigung des Kapazitätsunterschieds, während Modusmittelung und Modus-Kollaps ausgeglichen werden. Unsere umfassenden Experimente zeigen die überlegene Leistung von TAID bei verschiedenen Modellgrößen und Architekturen sowohl in Feinabstimmungs- als auch in Vor-Trainingsszenarien. Darüber hinaus präsentieren wir die praktische Auswirkung von TAID durch die Entwicklung von zwei hochmodernen kompakten Grundlagenmodellen: TAID-LLM-1.5B für Sprachaufgaben und TAID-VLM-2B für Bildsprachaufgaben. Diese Ergebnisse zeigen die Wirksamkeit von TAID bei der Schaffung leistungsstarker und effizienter Modelle, die die Entwicklung zugänglicherer KI-Technologien vorantreiben.

IndicMMLU-Pro: Bewertung von Indic Large Language Models im Multi-Task Sprachverständnis
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27, 2025

Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

Bekannt von mehr als 1,5 Milliarden Menschen im indischen Subkontinent, stellen Indische Sprachen aufgrund ihres reichen kulturellen Erbes, ihrer sprachlichen Vielfalt und komplexen Strukturen einzigartige Herausforderungen und Chancen für die Forschung im Bereich der natürlichen Sprachverarbeitung (NLP) dar. IndicMMLU-Pro ist ein umfassender Benchmark, der entwickelt wurde, um Large Language Models (LLMs) über Indische Sprachen hinweg zu bewerten und baut auf dem MMLU Pro (Massive Multitask Language Understanding) Framework auf. Es umfasst wichtige Sprachen wie Hindi, Bengalisch, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu und Urdu und adressiert die einzigartigen Herausforderungen und Chancen, die sich aus der sprachlichen Vielfalt des indischen Subkontinents ergeben. Dieser Benchmark umfasst eine Vielzahl von Aufgaben in Sprachverständnis, Schlussfolgerung und Generierung, die sorgfältig ausgearbeitet wurden, um die Feinheiten der indischen Sprachen einzufangen. IndicMMLU-Pro bietet ein standardisiertes Bewertungsframework, um die Forschungsgrenzen im Bereich der Indischen Sprach-KI voranzutreiben und die Entwicklung genauerer, effizienterer und kulturell sensibler Modelle zu erleichtern. Dieser Artikel skizziert die Designprinzipien des Benchmarks, die Aufgabentaxonomie und die Datensammlungsmethodik und präsentiert Baseline-Ergebnisse von State-of-the-Art multilingualen Modellen.

Histoires Morales: Ein französisches Datenset zur Bewertung der moralischen Ausrichtung
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28, 2025

Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

Die Ausrichtung von Sprachmodellen an menschlichen Werten ist entscheidend, insbesondere da sie zunehmend in den Alltag integriert werden. Obwohl Modelle oft an Benutzerpräferenzen angepasst werden, ist es ebenso wichtig sicherzustellen, dass sie mit moralischen Normen und Verhaltensweisen in realen sozialen Situationen übereinstimmen. Trotz bedeutender Fortschritte in Sprachen wie Englisch und Chinesisch hat das Französische in diesem Bereich wenig Aufmerksamkeit erhalten, was eine Lücke im Verständnis darüber hinterlässt, wie große Sprachmodelle moralisches Denken in dieser Sprache handhaben. Um diese Lücke zu schließen, stellen wir Histoires Morales vor, ein französisches Datenset, das aus Moralischen Geschichten abgeleitet ist, erstellt durch Übersetzung und anschließend verfeinert mit Hilfe von Muttersprachlern, um grammatikalische Genauigkeit und Anpassung an den französischen kulturellen Kontext zu gewährleisten. Wir stützen uns auch auf Annotationen der moralischen Werte innerhalb des Datensets, um ihre Übereinstimmung mit französischen Normen sicherzustellen. Histoires Morales umfasst eine Vielzahl von sozialen Situationen, darunter Unterschiede in Trinkgeldpraktiken, Ausdrücke von Ehrlichkeit in Beziehungen und Verantwortlichkeiten gegenüber Tieren. Um zukünftige Forschung zu fördern, führen wir auch vorläufige Experimente zur Ausrichtung von mehrsprachigen Modellen an französischen und englischen Daten sowie zur Robustheit der Ausrichtung durch. Wir stellen fest, dass große Sprachmodelle im Allgemeinen standardmäßig mit menschlichen moralischen Normen übereinstimmen, aber leicht durch die Optimierung von Benutzerpräferenzen für sowohl moralische als auch unmoralische Daten beeinflusst werden können.

DeepFlow: Serverloses Skalierbares Bereitstellen von Großen Sprachmodellen
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24, 2025

Junhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

Dieses Papier stellt DeepFlow vor, eine skalierbare und serverlose KI-Plattform, die darauf ausgelegt ist, große Sprachmodelle effizient in Cloud-Umgebungen im großen Maßstab zu bedienen. DeepFlow begegnet zentralen Herausforderungen wie Ressourcenzuweisung, Effizienz der Bedienung und Startlatenzen durch vier Hauptkomponenten im Design. Erstens verwendet es eine einfache serverlose Abstraktion namens Anforderungs-Job-Aufgaben-Modell, das hilft, KI-Workloads über Post-Training und Modellbedienungsaufgaben zu verwalten. Zweitens baut es einen hausinternen Bedienungsmotor namens FlowServe mit einem mikrokernel-inspirierten Design, NPU-zentrierter Ausführung und SPMD-basierter Parallelität, um die Bedienung von Sprachmodellen zu optimieren. Das System umfasst auch neuartige Zeitplanungsrichtlinien, die sowohl für PD-disaggregierte als auch für PD-kolokalisierte Konfigurationen maßgeschneidert sind. Mit Optimierungen wie vorab aufgewärmten Pods, DRAM-Vorladung und NPU-Fork kann DeepFlow in Sekunden auf bis zu 64 Instanzen skaliert werden. DeepFlow ist seit über einem Jahr in Produktion, arbeitet auf einem großen Ascend NPU-Cluster und bietet branchenübliche APIs für Feinabstimmung, Agentenbedienung und Modellbedienung für unsere Kunden.