papers.description
Das Training von großen Sprachmodellen (LLMs) birgt erhebliche Speicherherausforderungen, hauptsächlich aufgrund der wachsenden Größe der Gewichte und Optimizer-Zustände. Gängige Speicherreduktionsansätze wie die Low-Rank-Anpassung (LoRA) fügen jeder Schicht eine trainierbare Low-Rank-Matrix zu den eingefrorenen vortrainierten Gewichten hinzu, um die trainierbaren Parameter und Optimizer-Zustände zu reduzieren. Solche Ansätze erzielen jedoch in der Regel eine geringere Leistung als das Training mit vollständigen Gewichten sowohl in der Vortrainings- als auch in den Feinabstimmungsphasen, da sie die Parametersuche auf einen Low-Rank-Unterraum beschränken und die Trainingsdynamik verändern und möglicherweise einen Warmstart mit vollständigen Gewichten erfordern. In dieser Arbeit schlagen wir Gradienten-Low-Rank-Projektion (GaLore) vor, eine Trainingsstrategie, die ein vollständiges Lernen der Parameter ermöglicht, aber speichereffizienter ist als gängige Low-Rank-Anpassungsmethoden wie LoRA. Unser Ansatz reduziert den Speicherverbrauch der Optimizer-Zustände um bis zu 65,5%, während Effizienz und Leistungsfähigkeit sowohl beim Vortraining auf LLaMA 1B und 7B Architekturen mit dem C4-Datensatz mit bis zu 19,7B Tokens als auch bei der Feinabstimmung von RoBERTa auf GLUE-Aufgaben erhalten bleiben. Unser 8-Bit GaLore reduziert den Speicherbedarf des Optimizers um bis zu 82,5% und den Gesamtspeicherbedarf des Trainings um 63,3% im Vergleich zu einem BF16-Baseline. Bemerkenswert ist, dass wir erstmals die Machbarkeit des Vortrainings eines 7B-Modells auf Consumer-GPUs mit 24GB Speicher (z. B. NVIDIA RTX 4090) ohne Modellparallelität, Checkpointing oder Auslagerungsstrategien demonstrieren.
In diesem Paper stellen wir SaulLM-7B vor, ein großes Sprachmodell (LLM), das für den juristischen Bereich maßgeschneidert ist. Mit 7 Milliarden Parametern ist SaulLM-7B das erste LLM, das explizit für das Verstehen und Generieren von juristischem Text entwickelt wurde. Aufbauend auf der Mistral 7B-Architektur wird SaulLM-7B an einem englischsprachigen juristischen Korpus mit über 30 Milliarden Tokens trainiert. SaulLM-7B zeigt modernste Fähigkeiten im Verstehen und Verarbeiten von juristischen Dokumenten. Darüber hinaus präsentieren wir eine neuartige instruktive Feinabstimmungsmethode, die juristische Datensätze nutzt, um die Leistung von SaulLM-7B in juristischen Aufgaben weiter zu verbessern. SaulLM-7B wird unter der CC-BY-SA-4.0 Lizenz veröffentlicht.
Mit der kontinuierlichen Verbesserung der Leistung von Large Language Models (LLMs) ist ihre Größe signifikant angestiegen, wobei aktuelle LLMs Milliarden oder sogar Billionen von Parametern enthalten. In dieser Studie haben wir jedoch festgestellt, dass viele Schichten von LLMs eine hohe Ähnlichkeit aufweisen und einige Schichten eine vernachlässigbare Rolle in der Netzwerkfunktionalität spielen. Basierend auf dieser Beobachtung definieren wir eine Metrik namens Block Influence (BI), um die Bedeutung jeder Schicht in LLMs zu bewerten. Anschließend schlagen wir einen einfachen Pruning-Ansatz vor: das Entfernen von Schichten, bei dem wir die redundanten Schichten in LLMs direkt aufgrund ihrer BI-Werte löschen. Experimente zeigen, dass unsere Methode, die wir ShortGPT nennen, signifikant bessere Leistungen als bisherige State-of-the-Art (SOTA) Methoden beim Modell-Pruning erzielt. Darüber hinaus ist ShortGPT orthogonal zu Quantisierungsähnlichen Methoden, was eine weitere Reduzierung von Parametern und Berechnungen ermöglicht. Die Fähigkeit, bessere Ergebnisse durch einfaches Entfernen von Schichten zu erzielen, im Gegensatz zu komplexeren Pruning-Techniken, deutet auf einen hohen Grad an Redundanz in der Modellarchitektur hin.
In diesem Paper stellen wir PixArt-\Sigma vor, ein Diffusionstransformator-Modell (DiT), das in der Lage ist, Bilder direkt in 4K-Auflösung zu generieren. PixArt-\Sigma stellt einen signifikanten Fortschritt gegenüber seinem Vorgänger, PixArt-\alpha, dar und bietet Bilder von deutlich höherer Qualität und verbesserte Übereinstimmung mit Texteingaben. Ein Schlüsselelement von PixArt-\Sigma ist seine Trainingseffizienz. Durch die Nutzung des grundlegenden Vortrainings von PixArt-\alpha entwickelt es sich von der "schwächeren" Basis zu einem "stärkeren" Modell, indem es hochwertigere Daten integriert, ein Prozess, den wir als "schwaches-zu-starkes Training" bezeichnen. Die Fortschritte in PixArt-\Sigma sind zweifach: (1) Hochwertige Trainingsdaten: PixArt-\Sigma integriert Bildmaterial von überlegener Qualität, gepaart mit präziseren und detaillierteren Bildunterschriften. (2) Effiziente Token-Kompression: Wir schlagen ein neuartiges Aufmerksamkeitsmodul innerhalb des DiT-Frameworks vor, das sowohl Schlüssel als auch Werte komprimiert, was die Effizienz erheblich verbessert und die Generierung von ultrahochauflösenden Bildern erleichtert. Dank dieser Verbesserungen erreicht PixArt-\Sigma eine überlegene Bildqualität und die Fähigkeit, Benutzereingaben signifikant besser zu berücksichtigen, bei einer deutlich kleineren Modellgröße (0,6 Mrd. Parameter) im Vergleich zu bestehenden Text-zu-Bild-Diffusionsmodellen wie SDXL (2,6 Mrd. Parameter) und SD Cascade (5,1 Mrd. Parameter). Darüber hinaus unterstützt die Fähigkeit von PixArt-\Sigma, 4K-Bilder zu generieren, die Erstellung von hochauflösenden Postern und Hintergrundbildern, wodurch die Produktion von hochwertigen visuellen Inhalten in Branchen wie Film und Gaming effizient unterstützt wird.
Wir schlagen eine Methode vor, um mehrere große Sprachmodelle (LLM) beizubringen, durch die Verflechtung ihrer Generierungen auf Token-Ebene zusammenzuarbeiten. Wir modellieren die Entscheidung, welches LLM das nächste Token generiert, als latente Variable. Durch die Optimierung der marginalen Wahrscheinlichkeit eines Trainingssatzes unter unserem Modell mit latenten Variablen lernt das Basis-LLM automatisch, wann es sich selbst generieren soll und wann es auf eines der „Assistenten“-Sprachmodelle zurückgreifen soll, um zu generieren, und das alles ohne direkte Überwachung. Die Zusammenarbeit auf Token-Ebene während der Dekodierung ermöglicht eine Fusion der Expertise jedes Modells auf eine Weise, die auf die spezifische Aufgabe zugeschnitten ist. Unsere kollaborative Dekodierung ist besonders nützlich in plattformübergreifenden Einstellungen, in denen ein generalistisches Basis-LLM lernt, Domänenexpertenmodelle anzurufen. Bei Anweisungsverfolgung, domänenspezifischen Fragen und Aufgaben des Denkens zeigen wir, dass die Leistung des gemeinsamen Systems die der einzelnen Modelle übertrifft. Durch qualitative Analyse der gelernten latenten Entscheidungen zeigen wir, dass Modelle, die mit unserer Methode trainiert wurden, verschiedene interessante Kollaborationsmuster aufweisen, z. B. Vorlagenfüllung. Unser Code ist verfügbar unter https://github.com/clinicalml/co-llm.
Wir schlagen Strongly Supervised Pre-Training mit Screenshots (S4) vor - ein neuartiges Pre-Training-Paradigma für Vision-Language-Modelle unter Verwendung von Daten aus der groß angelegten Web-Screenshot-Erstellung. Die Verwendung von Web-Screenshots erschließt eine Fülle von visuellen und textuellen Hinweisen, die bei der Verwendung von Bild-Text-Paaren nicht vorhanden sind. In S4 nutzen wir die inhärente baumstrukturierte Hierarchie von HTML-Elementen und die räumliche Lokalisierung, um sorgfältig 10 Pre-Training-Aufgaben mit groß angelegten annotierten Daten zu entwerfen. Diese Aufgaben ähneln Downstream-Aufgaben in verschiedenen Domänen, und die Annotationen sind kostengünstig zu erhalten. Wir zeigen, dass im Vergleich zu aktuellen Screenshot-Pre-Training-Zielen unsere innovative Pre-Training-Methode die Leistung des Bild-zu-Text-Modells in neun verschiedenen und beliebten Downstream-Aufgaben signifikant verbessert - um bis zu 76,1 % bei der Tabellenerkennung und mindestens 1 % bei der Widget-Beschriftung.
Wertefunktionen sind eine zentrale Komponente des tiefen Verstärkungslernens (RL). Diese Funktionen, die durch neuronale Netzwerke parametrisiert sind, werden mit einem mittleren quadratischen Fehlerregressionsziel trainiert, um gebootete Zielwerte anzupassen. Die Skalierung von wertebasierten RL-Methoden, die Regression für große Netzwerke verwenden, wie hochkapazitive Transformer, hat sich jedoch als herausfordernd erwiesen. Diese Schwierigkeit steht im starken Kontrast zum überwachten Lernen: Durch die Nutzung eines Kreuzentropie-Klassifikationsverlusts konnten überwachte Methoden zu massiven Netzwerken zuverlässig skaliert werden. Angesichts dieser Diskrepanz untersuchen wir in diesem Papier, ob die Skalierbarkeit des tiefen RL auch einfach durch die Verwendung von Klassifikation anstelle von Regression für das Training von Wertefunktionen verbessert werden kann. Wir zeigen, dass Wertefunktionen, die mit kategorischer Kreuzentropie trainiert werden, die Leistung und Skalierbarkeit in verschiedenen Bereichen signifikant verbessern. Dazu gehören: Einzelaufgaben-RL bei Atari 2600-Spielen mit SoftMoEs, Mehrfachaufgaben-RL bei Atari mit groß angelegten ResNets, robotergestützte Manipulation mit Q-Transformern, Schachspielen ohne Suche und eine Sprachagenten-Wordle-Aufgabe mit hochkapazitiven Transformern, die Spitzenleistungen in diesen Bereichen erzielen. Durch sorgfältige Analyse zeigen wir, dass die Vorteile der kategorischen Kreuzentropie hauptsächlich von ihrer Fähigkeit zur Minderung von Problemen herrühren, die dem wertebasierten RL innewohnen, wie z. B. Rauschen in den Zielen und Nicht-Stationarität. Insgesamt argumentieren wir, dass eine einfache Umstellung auf das Training von Wertefunktionen mit kategorischer Kreuzentropie erhebliche Verbesserungen in der Skalierbarkeit des tiefen RL bei geringen bis keinen Kosten bringen kann.
Groß angelegte Sequenzmodellierung hat rasche Fortschritte ausgelöst, die nun auch in die Biologie und Genomik reichen. Die Modellierung genomischer Sequenzen bringt jedoch Herausforderungen mit sich, wie die Notwendigkeit, Wechselwirkungen zwischen weit entfernten Token zu modellieren, die Auswirkungen von aufwärts und abwärts gelegenen Regionen des Genoms und die Reverse-Komplementarität (RC) von DNA. Hier schlagen wir eine Architektur vor, die von diesen Herausforderungen motiviert ist, die auf dem weitreichenden Mamba-Block aufbaut und ihn zu einem BiMamba-Komponenten erweitert, die Bidirektionalität unterstützt, und zu einem MambaDNA-Block, der zusätzlich RC-Äquivarianz unterstützt. Wir verwenden MambaDNA als Grundlage für Caduceus, die erste Familie von RC-äquivarianten bidirektionalen weitreichenden DNA-Sprachmodellen, und wir führen Pre-Training- und Feinabstimmungsstrategien ein, die Caduceus-DNA-Grundmodelle erzeugen. Caduceus übertrifft frühere weitreichende Modelle bei nachgelagerten Benchmarks; bei einer anspruchsvollen Aufgabe zur Vorhersage von Varianteneffekten über große Entfernungen übertrifft Caduceus die Leistung von um das 10-fache größeren Modellen, die keine Bidirektionalität oder Äquivarianz nutzen.
Das Imitationslernen bietet eine effiziente Möglichkeit, Robotern geschickte Fähigkeiten beizubringen; jedoch erfordert das robuste und generalisierbare Erlernen komplexer Fähigkeiten in der Regel große Mengen an menschlichen Demonstrationen. Um dieses herausfordernde Problem anzugehen, präsentieren wir 3D Diffusion Policy (DP3), einen neuartigen visuellen Imitationslernansatz, der die Leistung von 3D-Visdarstellungen in Diffusionsrichtlinien, einer Klasse von bedingten Aktionsgenerierungsmodellen, integriert. Der Kernentwurf von DP3 besteht in der Verwendung einer kompakten 3D-Visdarstellung, die aus dünnen Punktwolken mit einem effizienten Punktencoder extrahiert wird. In unseren Experimenten mit 72 Simulationstasks bewältigt DP3 die meisten Aufgaben erfolgreich mit nur 10 Demonstrationen und übertrifft Baselines mit einer relativen Verbesserung von 55,3%. In 4 realen Roboter-Aufgaben zeigt DP3 eine präzise Steuerung mit einer hohen Erfolgsrate von 85%, basierend auf nur 40 Demonstrationen jeder Aufgabe, und zeigt ausgezeichnete Verallgemeinerungsfähigkeiten in verschiedenen Aspekten, einschließlich Raum, Blickwinkel, Erscheinungsbild und Instanz. Interessanterweise verletzt DP3 in realen Roboterexperimenten selten Sicherheitsanforderungen, im Gegensatz zu Basismethoden, die dies häufig tun und menschliches Eingreifen erfordern. Unsere umfangreiche Bewertung unterstreicht die entscheidende Bedeutung von 3D-Darstellungen beim Lernen von Robotern in der realen Welt. Videos, Code und Daten sind verfügbar unter https://3d-diffusion-policy.github.io.
Viele Online-Inhaltsportale ermöglichen es Benutzern, Fragen zu stellen, um ihr Verständnis zu ergänzen (z. B. von Vorlesungen). Während Information Retrieval (IR)-Systeme Antworten auf solche Benutzeranfragen liefern können, unterstützen sie Content-Ersteller - wie Dozenten, die ihre Inhalte verbessern möchten - nicht direkt dabei, Segmente zu identifizieren, die dazu geführt haben, dass ein Benutzer diese Fragen stellt. Wir führen die Aufgabe des Backtracings ein, bei der Systeme das Textsegment abrufen, das höchstwahrscheinlich dazu geführt hat, dass ein Benutzer eine Anfrage stellt. Wir formalisieren drei realen Domänen, in denen Backtracing wichtig ist, um die Inhaltsbereitstellung und Kommunikation zu verbessern: das Verständnis der Ursache von (a) Studentenverwirrung in der Vorlesungsdomäne, (b) Leserinteresse in der Nachrichtenartikeldomäne und (c) Benutzeremotionen in der Konversationsdomäne. Wir bewerten die Null-Schuss-Leistung beliebter Information Retrieval-Methoden und Sprachmodellierungs-Methoden, einschließlich Bi-Encoder, Re-Ranking und Wahrscheinlichkeits-basierten Methoden sowie ChatGPT. Während traditionelle IR-Systeme semantisch relevante Informationen abrufen (z. B. Details zu "Projektionsmatrizen" für eine Anfrage "Führt mehrfaches Projektieren immer noch zum gleichen Punkt?"), verpassen sie oft den kausal relevanten Kontext (z. B. der Dozent sagt "Zweimaliges Projektieren liefert mir dieselbe Antwort wie eine Projektion"). Unsere Ergebnisse zeigen, dass es Verbesserungspotenzial beim Backtracing gibt und neue Abrufansätze erforderlich sind. Wir hoffen, dass unser Benchmark dazu beiträgt, zukünftige Abrufsysteme für das Backtracing zu verbessern, indem Systeme entwickelt werden, die die Inhaltsgenerierung verfeinern und linguistische Auslöser identifizieren, die Benutzeranfragen beeinflussen. Unser Code und unsere Daten sind Open Source verfügbar: https://github.com/rosewang2008/backtracing.