Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken konzentriert sich die bisherige Forschung hauptsächlich auf spezifische Prompting-Techniken wie Few-Shot- oder Zero-Shot-Chain-of-Thought (CoT)-Prompting. Diese Methoden, obwohl effektiv, erfordern oft einen manuell aufwendigen Prompt-Engineering-Prozess. Unsere Studie geht einen neuartigen Ansatz, indem sie die Frage stellt: Können LLMs effektiv logisch denken, ohne spezifische Prompts zu verwenden? Unsere Ergebnisse zeigen, dass interessanterweise CoT-Denkpfade aus vortrainierten LLMs allein durch die Veränderung des Decodierungsprozesses hervorgebracht werden können. Anstelle des konventionellen Greedy-Decodings untersuchen wir die Top-k-Alternativ-Token und entdecken, dass CoT-Pfade häufig in diesen Sequenzen inhärent vorhanden sind. Dieser Ansatz umgeht nicht nur die Verzerrungen durch Prompting, sondern ermöglicht es uns auch, die intrinsischen Denkfähigkeiten der LLMs zu bewerten. Darüber hinaus beobachten wir, dass das Vorhandensein eines CoT im Decodierungspfad mit einer höheren Zuversicht in die vom Modell decodierte Antwort korreliert. Diese Zuversichtsmetrik unterscheidet effektiv zwischen CoT- und Nicht-CoT-Pfaden. Umfangreiche empirische Studien zu verschiedenen Denk-Benchmarks zeigen, dass das vorgeschlagene CoT-Decoding das Standard-Greedy-Decoding deutlich übertrifft.
Alle textbasierten Sprachprobleme lassen sich entweder auf Generierung oder Einbettung reduzieren. Aktuelle Modelle sind nur in einem der beiden Bereiche gut. Wir führen das generative repräsentative Instruktions-Tuning (GRIT) ein, bei dem ein großes Sprachmodell darauf trainiert wird, sowohl generative als auch Einbettungsaufgaben zu bewältigen, indem es diese durch Instruktionen unterscheidet. Im Vergleich zu anderen offenen Modellen setzt unser resultierendes GritLM 7B einen neuen Maßstab auf dem Massive Text Embedding Benchmark (MTEB) und übertrifft alle Modelle bis zu seiner Größe in einer Reihe von generativen Aufgaben. Durch weitere Skalierung übertrifft GritLM 8x7B alle offenen generativen Sprachmodelle, die wir getestet haben, und gehört gleichzeitig zu den besten Einbettungsmodellen. Bemerkenswerterweise stellen wir fest, dass GRIT dem Training mit ausschließlich generativen oder Einbettungsdaten entspricht, sodass wir beide ohne Leistungsverlust vereinen können. Unter anderen Vorteilen beschleunigt die Vereinigung durch GRIT die Retrieval-Augmented Generation (RAG) um > 60 % für lange Dokumente, da keine separaten Retrieval- und Generierungsmodelle mehr benötigt werden. Modelle, Code usw. sind frei verfügbar unter https://github.com/ContextualAI/gritlm.
Das Training großer Sprachmodelle (LLMs) ist kostspielig. In diesem Artikel untersuchen wir dateneffiziente Ansätze für das Pre-Training von LLMs, d.h. Techniken, die darauf abzielen, die Pareto-Frontier der Modellqualität und des Ressourcen-/Datenverbrauchs während des Trainings zu optimieren. Wir möchten die Kompromisse verstehen, die mit Datenauswahlverfahren verbunden sind, die auf (i) teuer zu berechnenden Schätzungen der Datenqualität und (ii) der Maximierung von Abdeckungs- und Diversitätsmaßen im Merkmalsraum basieren. Unsere erste Technik, Ask-LLM, nutzt die Zero-Shot-Fähigkeiten instruktionsoptimierter LLMs, um die Qualität eines Trainingsbeispiels direkt zu bewerten. Um die Abdeckung zu verbessern, schlagen wir Density Sampling vor, das die Datenverteilung modelliert, um eine diverse Stichprobe auszuwählen. In unserem Vergleich von 19 Samplern, der Hunderte von Evaluierungsaufgaben und Pre-Training-Läufe umfasst, stellen wir fest, dass Ask-LLM und Density die besten Methoden in ihren jeweiligen Kategorien sind. Abdeckungsbasiertes Sampling kann die Leistung der vollständigen Daten wiederherstellen, während Modelle, die auf Ask-LLM-Daten trainiert werden, durchweg das Training mit den vollständigen Daten übertreffen – selbst wenn wir 90 % des ursprünglichen Datensatzes verwerfen, während sie bis zu 70 % schneller konvergieren.
Aktuelle Large Language Models (LLMs) sind nicht nur auf eine maximale Kontextlänge beschränkt, sondern auch nicht in der Lage, lange Eingaben robust zu verarbeiten. Um diese Einschränkungen zu überwinden, schlagen wir ReadAgent vor, ein LLM-Agentensystem, das in unseren Experimenten die effektive Kontextlänge um bis zu das 20-fache erhöht. Inspiriert davon, wie Menschen interaktiv lange Dokumente lesen, implementieren wir ReadAgent als ein einfaches Prompting-System, das die fortgeschrittenen Sprachfähigkeiten von LLMs nutzt, um (1) zu entscheiden, welche Inhalte gemeinsam in einer Gedächtnisepisode gespeichert werden sollen, (2) diese Gedächtnisepisoden in kurze episodische Erinnerungen, sogenannte Gist-Erinnerungen, zu komprimieren, und (3) Aktionen durchzuführen, um Passagen im Originaltext nachzuschlagen, falls ReadAgent sich relevanter Details erinnern muss, um eine Aufgabe zu erfüllen. Wir evaluieren ReadAgent im Vergleich zu Baseline-Methoden, die Retrieval-Verfahren, den ursprünglichen langen Kontext oder die Gist-Erinnerungen verwenden. Diese Bewertungen werden anhand von drei Aufgaben zur Leseverständnis langer Dokumente durchgeführt: QuALITY, NarrativeQA und QMSum. ReadAgent übertrifft die Baseline-Methoden bei allen drei Aufgaben und erweitert gleichzeitig das effektive Kontextfenster um das 3- bis 20-fache.
Aktuelle Arbeiten haben das immense Potenzial synthetisch generierter Datensätze für das Training großer Sprachmodelle (LLMs) gezeigt, insbesondere für den Erwerb gezielter Fähigkeiten. Derzeitige groß angelegte Datensätze für das Feinabstimmen von mathematischen Anweisungen, wie MetaMathQA (Yu et al., 2024) und MAmmoTH (Yue et al., 2024), werden mithilfe von Ausgaben proprietärer LLMs mit kommerziell restriktiven Lizenzen erstellt. Ein Hauptgrund, der die Verwendung von Open-Source-LLMs in diesen Daten-Generierungspipelines einschränkt, ist die große Kluft zwischen den mathematischen Fähigkeiten der besten proprietären LLMs, wie GPT-4, und den besten Open-Source-LLMs. Basierend auf den jüngsten Fortschritten bei Open-Source-LLMs, unserer vorgeschlagenen neuartigen Prompting-Technik und einigen Brute-Force-Skalierungen haben wir OpenMathInstruct-1 konstruiert, einen Datensatz für das Feinabstimmen mathematischer Anweisungen mit 1,8 Millionen Problem-Lösungs-Paaren. Der Datensatz wird durch die Synthese von Code-Interpreter-Lösungen für GSM8K und MATH, zwei beliebte Benchmarks für mathematisches Denken, mithilfe des kürzlich veröffentlichten und permissiv lizenzierten Mixtral-Modells erstellt. Unser bestes Modell, OpenMath-CodeLlama-70B, das auf einer Teilmenge von OpenMathInstruct-1 trainiert wurde, erreicht eine Punktzahl von 84,6 % auf GSM8K und 50,7 % auf MATH, was mit den besten gpt-distillierten Modellen konkurrieren kann. Wir veröffentlichen unseren Code, die Modelle und den OpenMathInstruct-1-Datensatz unter einer kommerziell freizügigen Lizenz.
Das Feinabstimmen von Diffusionsmodellen bleibt eine weitgehend unerforschte Grenze in der generativen künstlichen Intelligenz (GenAI), insbesondere im Vergleich zu den bemerkenswerten Fortschritten, die beim Feinabstimmen großer Sprachmodelle (LLMs) erzielt wurden. Während modernste Diffusionsmodelle wie Stable Diffusion (SD) und SDXL auf überwachtes Feinabstimmen angewiesen sind, erreicht ihre Leistung unweigerlich ein Plateau, nachdem eine bestimmte Datenmenge verarbeitet wurde. Kürzlich wurde bestärkendes Lernen (Reinforcement Learning, RL) eingesetzt, um Diffusionsmodelle mit Daten zu menschlichen Präferenzen fein abzustimmen, doch dies erfordert mindestens zwei Bilder („Gewinner“- und „Verlierer“-Bilder) für jeden Textprompt. In diesem Artikel stellen wir eine innovative Technik namens Self-Play-Feinabstimmen für Diffusionsmodelle (SPIN-Diffusion) vor, bei der das Diffusionsmodell mit seinen früheren Versionen in Wettbewerb tritt und so einen iterativen Selbstverbesserungsprozess ermöglicht. Unser Ansatz bietet eine Alternative zu herkömmlichen überwachten Feinabstimmungs- und RL-Strategien und verbessert sowohl die Modellleistung als auch die Ausrichtung signifikant. Unsere Experimente mit dem Pick-a-Pic-Datensatz zeigen, dass SPIN-Diffusion bereits in der ersten Iteration die bestehende Methode des überwachten Feinabstimmens in Bezug auf die Ausrichtung an menschlichen Präferenzen und die visuelle Attraktivität übertrifft. In der zweiten Iteration übertrifft es die Leistung von RLHF-basierten Methoden in allen Metriken und erreicht diese Ergebnisse mit weniger Daten.
Wir untersuchen das Rezept für kontinuierliches Vortraining, um die Kontextlängen von Sprachmodellen auf 128K zu skalieren, mit einem Fokus auf Data Engineering. Wir stellen die Hypothese auf, dass die Modellierung langer Kontexte, insbesondere die Fähigkeit, Informationen an beliebigen Eingabepositionen zu nutzen, eine Fähigkeit ist, die größtenteils bereits durch groß angelegtes Vortraining erworben wurde und dass diese Fähigkeit durch leichtgewichtiges kontinuierliches Vortraining mit geeigneten Datenmischungen problemlos auf deutlich längere Kontexte (z.B. von 4K auf 128K) erweitert werden kann. Wir untersuchen die Menge und Qualität der Daten für das kontinuierliche Vortraining: (1) Für die Menge zeigen wir, dass 500 Millionen bis 5 Milliarden Token ausreichen, um dem Modell zu ermöglichen, Informationen überall innerhalb des 128K-Kontexts abzurufen; (2) Für die Qualität betonen unsere Ergebnisse gleichermaßen die Domänenbalance und die Längen-Upsampling. Konkret stellen wir fest, dass das naive Upsampling längerer Daten in bestimmten Domänen wie Büchern, eine gängige Praxis bestehender Arbeiten, suboptimale Leistung liefert und dass eine ausgewogene Domänenmischung wichtig ist. Wir demonstrieren, dass das kontinuierliche Vortraining des gesamten Modells mit 1 bis 5 Milliarden Token solcher Daten eine effektive und erschwingliche Strategie ist, um die Kontextlänge von Sprachmodellen auf 128K zu skalieren. Unser Rezept übertrifft starke Open-Source-Modelle mit langen Kontexten und schließt die Lücke zu Spitzenmodellen wie GPT-4 128K.
Große Sprachmodelle (LLMs) werden typischerweise in zwei Phasen trainiert: Pre-Training auf großen, internetbasierten Datensätzen und Feinabstimmung für nachgelagerte Aufgaben. Angesichts des höheren Rechenaufwands beim Pre-Training liegt die Annahme nahe, dass die Feinabstimmung weniger neue Informationen zum Modell hinzufügt und somit besser komprimierbar ist. Wir untersuchen diese Annahme, indem wir die Gewichte feinabgestimmter Modelle in ihre pre-trainierten Komponenten und ein zusätzliches Delta zerlegen. Wir stellen eine einfache Methode, BitDelta, vor, die dieses Delta erfolgreich auf 1 Bit quantisiert, ohne die Leistung zu beeinträchtigen. Diese interessante Erkenntnis unterstreicht nicht nur die potenzielle Redundanz der während der Feinabstimmung hinzugefügten Informationen, sondern hat auch bedeutende Auswirkungen auf das Multi-Tenant- Serving und die Multi-Tenant-Speicherung feinabgestimmter Modelle. Indem BitDelta die Verwendung eines einzigen hochpräzisen Basismodells in Kombination mit mehreren 1-Bit-Deltas ermöglicht, reduziert es den GPU-Speicherbedarf um mehr als das 10-fache, was sich auch in einer verbesserten Generierungslatenz in Multi- Tenant-Umgebungen niederschlägt. Wir validieren BitDelta durch Experimente mit den Modellfamilien Llama-2 und Mistral sowie mit Modellen bis zu 70B Parametern und zeigen dabei eine minimale Leistungsbeeinträchtigung in allen getesteten Einstellungen.
Die Bearbeitung von Signalen mit großen vortrainierten Modellen in einem Zero-Shot-Ansatz hat in letzter Zeit im Bildbereich rasante Fortschritte erzielt. Diese Entwicklung hat jedoch den Audiobereich noch nicht erreicht. In diesem Artikel untersuchen wir zwei Zero-Shot-Bearbeitungstechniken für Audiosignale, die DDPM-Inversion auf vortrainierten Diffusionsmodellen verwenden. Die erste Technik, die aus dem Bildbereich übernommen wurde, ermöglicht eine textbasierte Bearbeitung. Die zweite ist ein neuartiger Ansatz zur Entdeckung semantisch bedeutsamer Bearbeitungsrichtungen ohne Überwachung. Bei der Anwendung auf Musiksignale offenbart diese Methode eine Reihe musikalisch interessanter Modifikationen, von der Steuerung der Beteiligung bestimmter Instrumente bis hin zu Improvisationen der Melodie. Beispiele finden Sie auf unserer Beispielseite unter https://hilamanor.github.io/AudioEditing/ und der Code ist unter https://github.com/hilamanor/AudioEditing/ verfügbar.
Fortschritte im Bereich des 3D-Gaussian-Splatting haben die 3D-Rekonstruktion und -Generierung erheblich beschleunigt. Allerdings kann dies eine große Anzahl von Gaußschen Funktionen erfordern, was zu einem erheblichen Speicherbedarf führt. Dieses Papier stellt GES (Generalized Exponential Splatting) vor, eine neuartige Repräsentation, die die Generalized Exponential Function (GEF) zur Modellierung von 3D-Szenen einsetzt. Diese Methode benötigt weit weniger Partikel zur Darstellung einer Szene und übertrifft somit die Effizienz von Gaussian-Splatting-Methoden deutlich, wobei sie eine Plug-and-Play-Ersetzbarkeit für Gauß-basierte Werkzeuge bietet. GES wird sowohl theoretisch als auch empirisch in einem prinzipiellen 1D-Setup und in realistischen 3D-Szenen validiert. Es wird gezeigt, dass GES Signale mit scharfen Kanten präziser darstellen kann, was für Gaußsche Funktionen aufgrund ihrer inhärenten Tiefpasscharakteristik typischerweise eine Herausforderung darstellt. Unsere empirische Analyse zeigt, dass GEF Gaußsche Funktionen in der Anpassung natürlich auftretender Signale (z. B. Rechtecke, Dreiecke und parabolische Signale) übertrifft, wodurch der Bedarf an umfangreichen Splitting-Operationen reduziert wird, die den Speicherbedarf von Gaussian Splatting erhöhen. Mit Hilfe eines frequenzmodulierten Verlusts erreicht GES eine wettbewerbsfähige Leistung in Benchmarks zur Synthese neuer Ansichten, während weniger als die Hälfte des Speicherbedarfs von Gaussian Splatting benötigt wird und die Rendering-Geschwindigkeit um bis zu 39 % gesteigert wird. Der Code ist auf der Projektwebsite https://abdullahamdi.com/ges verfügbar.
Das Ziel der Text-zu-Bild (T2I)-Personalisierung besteht darin, ein Diffusionsmodell an ein benutzerdefiniertes Referenzkonzept anzupassen, um vielfältige Bilder des Konzepts zu erzeugen, die mit den Zielvorgaben übereinstimmen. Konventionelle Methoden, die die Referenzkonzepte mit einzigartigen Text-Einbettungen repräsentieren, scheitern oft daran, das Aussehen der Referenz genau nachzuahmen. Um dies zu beheben, könnte eine Lösung darin bestehen, die Referenzbilder explizit in den Ziel-Entrauschungsprozess einzubinden, was als Schlüssel-Wert-Ersetzung bekannt ist. Frühere Arbeiten sind jedoch auf lokale Bearbeitungen beschränkt, da sie den Strukturpfad des vortrainierten T2I-Modells stören. Um dies zu überwinden, schlagen wir eine neuartige Plug-in-Methode namens DreamMatcher vor, die T2I-Personalisierung als semantisches Matching neu formuliert. Insbesondere ersetzt DreamMatcher die Zielwerte durch Referenzwerte, die durch semantisches Matching ausgerichtet sind, während der Strukturpfad unverändert bleibt, um die vielseitige Fähigkeit vortrainierter T2I-Modelle zur Erzeugung diverser Strukturen zu bewahren. Wir führen auch eine semantisch konsistente Maskierungsstrategie ein, um das personalisierte Konzept von irrelevanten Bereichen zu isolieren, die durch die Zielvorgaben eingeführt werden. DreamMatcher, das mit bestehenden T2I-Modellen kompatibel ist, zeigt signifikante Verbesserungen in komplexen Szenarien. Intensive Analysen demonstrieren die Wirksamkeit unseres Ansatzes.
Das Schließen aus Sequenzen von Rohsensordaten ist ein allgegenwärtiges Problem in Bereichen, die von medizinischen Geräten bis hin zur Robotik reichen. Diese Probleme beinhalten oft die Verwendung langer Sequenzen von Rohsensordaten (z. B. Magnetometer, Piezowiderstände), um Sequenzen von gewünschten physikalischen Größen (z. B. Kraft, Trägheitsmessungen) vorherzusagen. Während klassische Ansätze für lokal lineare Vorhersageprobleme leistungsstark sind, versagen sie oft bei der Verwendung von realen Sensoren. Diese Sensoren sind typischerweise nichtlinear, werden durch externe Variablen (z. B. Vibration) beeinflusst und zeigen datenabhängige Drift auf. Bei vielen Problemen wird die Vorhersageaufgabe durch kleine annotierte Datensätze erschwert, da die Beschaffung von Ground-Truth-Labels teure Ausrüstung erfordert. In dieser Arbeit stellen wir Hierarchical State-Space Models (HiSS) vor, eine konzeptionell einfache, neue Technik für kontinuierliche sequenzielle Vorhersage. HiSS stapelt strukturierte Zustandsraummodelle übereinander, um eine temporale Hierarchie zu schaffen. Über sechs reale Sensordatensätze hinweg, von taktilbasierter Zustandsvorhersage bis hin zu beschleunigungsbasierter Trägheitsmessung, übertrifft HiSS state-of-the-art Sequenzmodelle wie kausale Transformer, LSTMs, S4 und Mamba um mindestens 23 % im MSE. Unsere Experimente zeigen weiterhin, dass HiSS eine effiziente Skalierung auf kleinere Datensätze demonstriert und mit bestehenden Datenfiltertechniken kompatibel ist. Code, Datensätze und Videos finden Sie auf https://hiss-csp.github.io.
Diffusionsmodelle werden in letzter Zeit zunehmend auf zeitliche Daten wie Videos, Strömungsmechanik-Simulationen oder Klimadaten angewendet. Diese Methoden behandeln in der Regel aufeinanderfolgende Frames gleichwertig in Bezug auf die Menge des Rauschens im Diffusionsprozess. Dieses Papier untersucht Rolling Diffusion: einen neuen Ansatz, der einen gleitenden Fenster-Denoisierungsprozess verwendet. Es stellt sicher, dass der Diffusionsprozess zeitlich fortschreitend verfälscht wird, indem Frames, die später in einer Sequenz erscheinen, mehr Rauschen zugewiesen wird, was die größere Unsicherheit über die Zukunft widerspiegelt, während der Generierungsprozess abläuft. Empirisch zeigen wir, dass Rolling Diffusion bei komplexen zeitlichen Dynamiken dem Standard-Diffusionsmodell überlegen ist. Dieses Ergebnis wird insbesondere in einer Video-Vorhersageaufgabe unter Verwendung des Kinetics-600-Videodatensatzes und in einem Experiment zur chaotischen Strömungsdynamik-Vorhersage demonstriert.