Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen DeepSeek-Prover-V1.5 vor, ein Open-Source-Sprachmodell, das für den Beweis von Theoremen in Lean 4 entwickelt wurde und DeepSeek-Prover-V1 durch die Optimierung sowohl des Trainings- als auch des Inferenzprozesses verbessert. Das Modell wird vorab auf DeepSeekMath-Base vortrainiert und auf formale mathematische Sprachen spezialisiert. Anschließend erfolgt ein überwachtes Feintuning unter Verwendung eines erweiterten formalen Datensatzes für den Theorembeweis, der aus DeepSeek-Prover-V1 abgeleitet ist. Eine weitere Verfeinerung wird durch Reinforcement-Learning aus dem Feedback des Beweishelfers (RLPAF) erreicht. Über den Einzeldurchlauf-Ansatz zur Generierung des gesamten Beweises von DeepSeek-Prover-V1 hinaus schlagen wir RMaxTS vor, eine Variante der Monte-Carlo-Baumsuche, die eine erkundungsgesteuerte Strategie mit intrinsischer Belohnung zur Generierung verschiedener Beweiswege verwendet. DeepSeek-Prover-V1.5 zeigt signifikante Verbesserungen gegenüber DeepSeek-Prover-V1 und erzielt neue Spitzenwerte auf dem Testset des Benchmark für die Mittelstufe miniF2F (63,5%) und dem Benchmark für die Grundstufe ProofNet (25,3%).
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte erzielt, jedoch behandelt das gängige Lernparadigma LLMs als passive Informationsdepots und vernachlässigt ihr Potenzial für aktives Lernen und Ausrichtung. Einige Ansätze trainieren LLMs mithilfe ihrer eigenen generierten synthetischen Daten, um die Möglichkeit aktiver Ausrichtung zu erforschen. Es besteht jedoch immer noch eine große Kluft zwischen diesen einmaligen Ausrichtungsmethoden und der kontinuierlichen automatischen Ausrichtung von Menschen. In diesem Paper stellen wir I-SHEEP vor, ein Iteratives Selbst-VerBesserungs-Paradigma. Dieses menschenähnliche Paradigma ermöglicht es LLMs, sich kontinuierlich von Grund auf selbst auszurichten. Im Vergleich zur einmaligen Ausrichtungsmethode Dromedar sun2023principledriven, die sich auf die erste Iteration in diesem Paper bezieht, kann I-SHEEP die Kapazitäten sowohl der Qwen- als auch der Llama-Modelle signifikant verbessern. I-SHEEP erzielt eine maximale relative Verbesserung von 78,2 % in der Alpaka-Evaluation, 24,0 % in der MT-Bench und eine absolute Steigerung von 8,88 % in der IFEval-Genauigkeit über nachfolgende Iterationen im Qwen-1.5-72B-Modell. Darüber hinaus übertrifft I-SHEEP das Basismodell in verschiedenen Standard-Benchmark-Generierungsaufgaben und erzielt eine durchschnittliche Verbesserung von 24,77 % bei Code-Generierungsaufgaben, 12,04 % bei TrivialQA und 20,29 % bei SQuAD. Wir bieten auch neue Erkenntnisse basierend auf den Experimentenergebnissen an. Unsere Codes, Datensätze und Modelle sind unter https://anonymous.4open.science/r/I-SHEEP verfügbar.
Das Training eines neuronalen Netzwerks ist ein monolithisches Unterfangen, vergleichbar mit dem Einmeißeln von Wissen in Stein: Sobald der Prozess abgeschlossen ist, ist eine Bearbeitung des Wissens in einem Netzwerk nahezu unmöglich, da alle Informationen über die Gewichte des Netzwerks verteilt sind. Hier untersuchen wir eine einfache, überzeugende Alternative, indem wir die Repräsentationskraft von tiefen neuronalen Netzwerken mit der Flexibilität einer Datenbank verbinden. Indem wir die Aufgabe der Bildklassifizierung in Bildähnlichkeit (aus einer vorab trainierten Einbettung) und Suche (über schnelle nächste Nachbarabfrage aus einer Wissensdatenbank) zerlegen, bauen wir ein einfaches und flexibles visuelles Gedächtnis, das über folgende Schlüsselfähigkeiten verfügt: (1.) Die Fähigkeit, Daten flexibel über verschiedene Maßstäbe hinweg hinzuzufügen: von einzelnen Proben bis hin zu ganzen Klassen und Daten im Milliardenmaßstab; (2.) Die Fähigkeit, Daten durch Entlernen und Gedächtnisbeschneidung zu entfernen; (3.) Ein interpretierbarer Entscheidungsmechanismus, in den wir eingreifen können, um sein Verhalten zu steuern. Zusammen genommen zeigen diese Fähigkeiten umfassend die Vorteile eines expliziten visuellen Gedächtnisses auf. Wir hoffen, dass dies zu einer Diskussion darüber beitragen könnte, wie Wissen in tiefen Bildmodellen repräsentiert werden sollte - jenseits davon, es in "Stein"-Gewichten einzumeißeln.
Die Datensatzkondensation zielt darauf ab, einen groß angelegten Trainingsdatensatz in einen wesentlich kleineren synthetischen Datensatz zu kondensieren, sodass die Trainingsleistung von kondensierten und Originalsätzen in neuronalen Netzwerken ähnlich ist. Obwohl die Anzahl der Trainingsbeispiele erheblich reduziert werden kann, sind aktuelle Spitzenmethoden stark auf enorme Softlabels angewiesen, um zufriedenstellende Leistungen zu erzielen. Als Ergebnis kann der erforderliche Speicherbedarf sogar vergleichbar mit dem Originaldatensatz sein, insbesondere bei groß angelegten Datensätzen. Um dieses Problem zu lösen, schlagen wir statt der Speicherung dieser schweren Labels ein neuartiges Label-Entlastungs-Framework namens HeLlO vor, das auf effektiven Bild-zu-Label-Projektoren abzielt, mit denen synthetische Labels direkt online aus synthetischen Bildern generiert werden können. Konkret nutzen wir zur Konstruktion solcher Projektoren vorhandenes Wissen in Open-Source-Grundlagenmodellen, z. B. CLIP, und führen eine LoRA-ähnliche Feinabstimmungsstrategie ein, um die Kluft zwischen vorab trainierten und Zielverteilungen zu verringern, sodass originale Modelle zur Softlabel-Generierung in eine Gruppe von Matrizen niedriger Rangstufe destilliert werden können. Darüber hinaus wird eine effektive Bildoptimierungsmethode vorgeschlagen, um den potenziellen Fehler zwischen den originalen und destillierten Label-Generatoren weiter zu verringern. Umfangreiche Experimente zeigen, dass wir mit nur etwa 0,003 % des für einen vollständigen Satz von Softlabels erforderlichen Originalspeicherbedarfs vergleichbare Leistungen wie aktuelle Spitzenmethoden zur Datensatzkondensation bei groß angelegten Datensätzen erzielen. Unser Code wird verfügbar sein.
Die Synthese von bewegungsreichen und zeitlich konsistenten Videos bleibt eine Herausforderung in der künstlichen Intelligenz, insbesondere bei der Verarbeitung langer Dauern. Bestehende Text-zu-Video (T2V) Modelle verwenden üblicherweise räumliche Kreuz-Aufmerksamkeit zur Textsteuerung, um unterschiedliche Bildgenerierungen ohne bildspezifische textuelle Anleitung zu lenken. Dadurch ist die Fähigkeit des Modells, die in den Anweisungen vermittelte zeitliche Logik zu erfassen und Videos mit kohärenter Bewegung zu generieren, eingeschränkt. Um diese Einschränkung zu bewältigen, stellen wir FancyVideo vor, einen innovativen Video-Generator, der den bestehenden Textsteuerungsmechanismus mit dem sorgfältig gestalteten Modul für Kreuzbild-Textuelle Anleitung (CTGM) verbessert. Speziell integriert CTGM den Temporalen Informationsinjektor (TII), den Temporalen Affinitätsverfeinerer (TAR) und den Temporalen Merkmalsverstärker (TFB) zu Beginn, in der Mitte und am Ende der Kreuz-Aufmerksamkeit, um bildspezifische textuelle Anleitung zu erreichen. Zunächst injiziert TII bildspezifische Informationen aus latenten Merkmalen in Textbedingungen, um so kreuzbildliche textuelle Bedingungen zu erhalten. Anschließend verfeinert TAR die Korrelationsmatrix zwischen kreuzbildlichen textuellen Bedingungen und latenten Merkmalen entlang der Zeitdimension. Zuletzt verstärkt TFB die zeitliche Konsistenz der latenten Merkmale. Umfangreiche Experimente, die sowohl quantitative als auch qualitative Bewertungen umfassen, zeigen die Wirksamkeit von FancyVideo. Unser Ansatz erzielt erstklassige T2V-Generierungsergebnisse im EvalCrafter-Benchmark und erleichtert die Synthese dynamischer und konsistenter Videos. Die Videoergebnisse sind unter https://fancyvideo.github.io/ verfügbar, und wir werden unseren Code und unsere Modellgewichte öffentlich zugänglich machen.
Obwohl viele Fähigkeiten von Sprachmodellen (LMs) mit einem höheren Trainingsbudget verbessern, ist der Einfluss der Skalierung auf Halluzinationen noch nicht vollständig verstanden. Halluzinationen treten in vielen Formen auf, und es gibt keine allgemein akzeptierte Definition. Daher konzentrieren wir uns darauf, nur diejenigen Halluzinationen zu untersuchen, bei denen eine korrekte Antwort wortwörtlich im Trainingsdatensatz erscheint. Um den Inhalt der Trainingsdaten vollständig zu kontrollieren, konstruieren wir einen Wissensgraphen (KG)-basierten Datensatz und verwenden ihn, um eine Reihe von immer größeren LMs zu trainieren. Wir stellen fest, dass für einen festen Datensatz größere und länger trainierte LMs weniger halluzinieren. Allerdings erfordert das Halluzinieren von weniger als 5% der Trainingsdaten ein Modell, das um eine Größenordnung größer ist und somit eine um eine Größenordnung höhere Rechenleistung erfordert, als von Hoffmann et al. (2022) als optimal berichtet wurde. Angesichts dieser Kostenintensität untersuchen wir, wie Halluzinationsdetektoren von der Skalierung abhängen. Während wir sehen, dass die Größe des Detektors die Leistung bei festen Ausgaben des LM verbessert, stellen wir fest, dass es eine umgekehrte Beziehung zwischen der Skala des LMs und der Erkennbarkeit seiner Halluzinationen gibt.
Das Training großer Sprachmodelle (LLMs) von Grund auf kann tatsächlich zu Modellen mit unterschiedlichen Fähigkeiten und Stärken führen, jedoch geht dies mit erheblichen Kosten einher und kann zu Redundanzen in den Kompetenzen führen. Das Ziel der Wissensfusion ist es, bestehende LLMs mit unterschiedlichen Architekturen und Fähigkeiten durch ein leichtgewichtiges kontinuierliches Training in ein leistungsfähigeres LLM zu integrieren, wodurch die Notwendigkeit für kostspielige LLM-Entwicklung reduziert wird. In dieser Arbeit schlagen wir ein neues Framework für die Wissensfusion von Chat-LLMs in zwei Hauptstufen vor, was zu FuseChat führt. Zunächst führen wir eine paarweise Wissensfusion bei Ausgangs-Chat-LLMs mit unterschiedlichen Strukturen und Maßstäben durch, um mehrere Ziel-LLMs mit identischer Struktur und Größe durch leichtgewichtiges Feintuning zu erstellen. Während dieses Prozesses wird ein statistikbasiertes Token-Alignmentsverfahren als Grundlage zur Fusion von LLMs mit unterschiedlichen Strukturen eingeführt. Zweitens verschmelzen wir diese Ziel-LLMs im Parameterbereich, wobei wir eine neuartige Methode zur Bestimmung der Verschmelzungskoeffizienten basierend auf der Größenordnung der Parameteraktualisierungen vor und nach dem Feintuning vorschlagen. Wir implementieren und validieren FuseChat unter Verwendung von sechs prominenten Chat-LLMs mit unterschiedlichen Architekturen und Maßstäben, darunter OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct und Qwen-1.5-Chat-72B. Experimentelle Ergebnisse zu zwei Anweisungsfolge-Benchmarks, AlpacaEval 2.0 und MT-Bench, zeigen die Überlegenheit von FuseChat-7B gegenüber Baselines verschiedener Größen. Unser Modell ist sogar vergleichbar mit dem größeren Mixtral-8x7B-Instruct und nähert sich GPT-3.5-Turbo-1106 auf MT-Bench an. Unser Code, Modellgewichte und Daten sind öffentlich zugänglich unter https://github.com/fanqiwan/FuseAI.
Das Mixture of Experts (MoE) Framework hat sich aufgrund seiner überlegenen Leistung gegenüber dichten Modellen zu einer beliebten Architektur für große Sprachmodelle entwickelt. Das Training von MoEs von Grund auf in einem groß angelegten Regime ist jedoch prohibitiv teuer. Bestehende Methoden mildern dies, indem sie mehrere dichte Expertenmodelle unabhängig voneinander vorab trainieren und sie zur Initialisierung eines MoE verwenden. Dies wird durch Verwendung des Feedforward-Netzwerks (FFN) der Experten zur Initialisierung der Experten des MoE durchgeführt, während andere Parameter fusioniert werden. Diese Methode beschränkt jedoch die Wiederverwendung von Parametern des dichten Modells nur auf die FFN-Schichten, was die Vorteile bei der "Aufwertung" dieser Modelle in MoEs einschränkt. Wir schlagen BAM (Branch-Attend-Mix) vor, eine einfache, aber effektive Methode, die diese Schwäche angeht. BAM nutzt spezialisierte dichte Modelle voll aus, indem nicht nur ihr FFN zur Initialisierung der MoE-Schichten verwendet wird, sondern auch die Aufmerksamkeitsparameter der Experten vollständig genutzt werden, indem sie in eine weiche Variante der Mixture of Attention (MoA) Schichten initialisiert werden. Wir untersuchen zwei Methoden zur Aufwertung von Aufmerksamkeitsparametern: 1) Initialisierung separater Aufmerksamkeitsexperten aus dichten Modellen, einschließlich aller Aufmerksamkeitsparameter für die beste Modellleistung; und 2) gemeinsame Initialisierung von Schlüssel- und Werteparametern über alle Experten hinweg, um eine bessere Inferenzeffizienz zu ermöglichen. Um die Effizienz weiter zu verbessern, übernehmen wir eine parallele Aufmerksamkeits-Transformer-Architektur für MoEs, die es ermöglicht, dass die Aufmerksamkeitsexperten und FFN-Experten gleichzeitig berechnet werden. Unsere Experimente mit Ausgangsmodellen von 590 Millionen bis 2 Milliarden Parametern zeigen, dass BAM die Baselines sowohl in Bezug auf Perplexität als auch auf die Leistung bei nachgelagerten Aufgaben innerhalb derselben Rechen- und Datenbeschränkungen übertrifft.
Mensch-Modell-Gespräche bieten Einblicke in die realen Szenarien, Verhaltensweisen und Bedürfnisse der Benutzer und sind somit eine wertvolle Ressource für die Modellentwicklung und -forschung. Während gewinnorientierte Unternehmen Benutzerdaten über die APIs ihrer Modelle sammeln und intern zur Verbesserung ihrer eigenen Modelle nutzen, hinkt die Open-Source- und Forschungsgemeinschaft hinterher. Wir stellen die ShareLM-Sammlung vor, eine vereinheitlichte Sammlung von menschlichen Gesprächen mit großen Sprachmodellen, und das dazugehörige Plugin, eine Web-Erweiterung zur freiwilligen Beitragung von Benutzer-Modell-Gesprächen. Während nur wenige Plattformen ihre Chats teilen, fügt das ShareLM-Plugin diese Funktionalität hinzu und ermöglicht es Benutzern somit, Gespräche von den meisten Plattformen zu teilen. Das Plugin ermöglicht es dem Benutzer, seine Gespräche sowohl auf Gesprächs- als auch auf Antwortebene zu bewerten und Gespräche, die er lieber privat halten möchte, zu löschen, bevor sie jemals den lokalen Speicher des Benutzers verlassen. Wir veröffentlichen die Plugin-Gespräche als Teil der ShareLM-Sammlung und rufen zu mehr gemeinschaftlichen Anstrengungen im Bereich offener menschlich-modellbasierter Daten auf. Der Code, das Plugin und die Daten sind verfügbar.
Dieses Paper stellt PeriodWave-Turbo vor, ein hochpräzises und hoch effizientes Wellenformgenerierungsmodell mittels adversarischer Flussanpassungsoptimierung. In letzter Zeit wurden bedingte Flussanpassungs-Generativmodelle erfolgreich für Wellenformgenerierungsaufgaben eingesetzt, die ein einziges Vektorfeldschätzungsziel für das Training nutzen. Obwohl diese Modelle hochpräzise Wellenformsignale erzeugen können, erfordern sie im Vergleich zu GAN-basierten Modellen, die nur einen Generierungsschritt benötigen, signifikant mehr ODE-Schritte. Darüber hinaus fehlt den erzeugten Proben oft hochfrequente Informationen aufgrund von rauschhafter Vektorfeldschätzung, was keine hochfrequente Reproduktion gewährleistet. Um diese Einschränkung zu beheben, verbessern wir vortrainierte CFM-basierte Generativmodelle, indem wir eine Generatormodifikation mit festem Schritt integrieren. Wir nutzen Rekonstruktionsverluste und adversielles Feedback, um die hochpräzise Wellenformgenerierung zu beschleunigen. Durch adversarische Flussanpassungsoptimierung sind nur 1.000 Feinabstimmungsschritte erforderlich, um Spitzenleistungen bei verschiedenen Zielmetriken zu erzielen. Darüber hinaus reduzieren wir die Inferenzgeschwindigkeit signifikant von 16 Schritten auf 2 oder 4 Schritte. Zusätzlich erreicht PeriodWave-Turbo durch Skalierung des Backbones von 29M auf 70M Parameter zur Verbesserung der Verallgemeinerung eine beispiellose Leistung, mit einem Perzeptuellen Evaluations-Sprachqualitäts (PESQ)-Score von 4.454 auf dem LibriTTS-Datensatz. Audio-Proben, Quellcode und Checkpoints sind verfügbar unter https://github.com/sh-lee-prml/PeriodWave.
Die Neuansichtssynthese (NVS) und die 3D-Generierung haben in letzter Zeit bedeutende Verbesserungen erzielt. Diese Arbeiten konzentrieren sich jedoch hauptsächlich auf begrenzte Kategorien oder synthetische 3D-Ressourcen, die davon abgehalten werden, sich auf anspruchsvolle Szenen in freier Wildbahn zu verallgemeinern und nicht direkt für die Verwendung mit der 2D-Synthese geeignet sind. Darüber hinaus hingen diese Methoden stark von Kamerapositionen ab, was ihre Anwendbarkeit im realen Leben einschränkte. Um diese Probleme zu überwinden, schlagen wir MVInpainter vor, der die 3D-Bearbeitung als eine Multi-View-2D-Inpainting-Aufgabe neu formuliert. Speziell füllt MVInpainter Multi-View-Bilder teilweise mit Hilfe von Referenzanleitungen aus, anstatt unüberwindlich eine völlig neue Ansicht von Grund auf zu generieren, was die Schwierigkeit von NVS in freier Wildbahn erheblich vereinfacht und unmaskierte Hinweise anstelle expliziter Pose-Bedingungen nutzt. Um die Konsistenz zwischen den Ansichten sicherzustellen, wird MVInpainter durch Videoprioritäten aus Bewegungskomponenten und Erscheinungsanleitungen aus konkatenierter Referenzschlüssel- und Wert-Aufmerksamkeit verbessert. Darüber hinaus integriert MVInpainter Slot-Aufmerksamkeit, um hochrangige optische Flussmerkmale aus unmaskierten Regionen zu aggregieren, um die Kamerabewegung mit posefreiem Training und Inferenz zu steuern. Ausreichende Szenenexperimente sowohl mit objektorientierten als auch mit nach vorne gerichteten Datensätzen bestätigen die Wirksamkeit von MVInpainter, einschließlich verschiedener Aufgaben wie dem Entfernen, Synthetisieren, Einfügen und Ersetzen von Objekten aus Multi-View-Perspektiven. Die Projektseite ist https://ewrfcas.github.io/MVInpainter/.
Die Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) ist oft herausfordernd, teilweise weil es schwierig ist, Aufgaben zu finden, mit denen sie während des Trainings nicht in Berührung gekommen sind. Wir gehen einen Schritt weiter, um dieser Herausforderung zu begegnen, indem wir uns einer neuen Aufgabe zuwenden: dem Fokus auf symbolische Grafikprogramme, die eine beliebte Darstellung für Grafikinhalte darstellen, die visuelle Daten prozedural generieren. LLMs haben vielversprechende Fortschritte in Richtung Programmsynthese gezeigt, aber verstehen sie symbolische Grafikprogramme? Im Gegensatz zu herkömmlichen Programmen können symbolische Grafikprogramme in Grafikinhalte übersetzt werden. Hier charakterisieren wir das Verständnis eines LLMs für symbolische Programme anhand ihrer Fähigkeit, Fragen zum Grafikinhalt zu beantworten. Diese Aufgabe ist herausfordernd, da die Fragen allein aus den symbolischen Programmen schwer zu beantworten sind - jedoch wären sie leicht zu beantworten aus den entsprechenden Grafikinhalten, wie wir durch ein menschliches Experiment bestätigen. Um symbolische Programme zu verstehen, müssen LLMs möglicherweise die Fähigkeit besitzen, sich vorzustellen, wie die entsprechenden Grafikinhalte aussehen würden, ohne direkt auf die gerenderten visuellen Inhalte zuzugreifen. Wir verwenden diese Aufgabe, um LLMs zu bewerten, indem wir einen umfangreichen Benchmark für das semantische Verständnis von symbolischen Grafikprogrammen erstellen. Dieser Benchmark wird über die Programm-Grafik-Korrespondenz aufgebaut und erfordert daher minimale menschliche Anstrengungen. Wir bewerten aktuelle LLMs anhand unseres Benchmarks, um eine vorläufige Bewertung ihrer Fähigkeit abzugeben, über visuelle Szenen aus Programmen zu schlussfolgern. Wir stellen fest, dass diese Aufgabe bestehende LLMs unterscheidet und Modelle, die als gut im Schlussfolgern angesehen werden, besser abschneiden. Schließlich führen wir das Symbolic Instruction Tuning (SIT) ein, um diese Fähigkeit zu verbessern. Konkret befragen wir GPT4-o mit Fragen und Bildern, die von symbolischen Programmen generiert wurden. Diese Daten werden dann verwendet, um ein LLM zu feinabstimmen. Wir stellen auch fest, dass SIT-Daten die allgemeine Anweisungsfähigkeit von LLMs verbessern können.