Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Unternehmensdokumente wie Formulare, Rechnungen, Quittungen, Berichte, Verträge und ähnliche Aufzeichnungen enthalten oft eine reiche Semantik an der Schnittstelle zwischen textuellen und räumlichen Modalitäten. Die visuellen Hinweise, die durch ihre komplexen Layouts geboten werden, spielen eine entscheidende Rolle beim effektiven Verständnis dieser Dokumente. In diesem Artikel stellen wir DocLLM vor, eine leichtgewichtige Erweiterung traditioneller großer Sprachmodelle (LLMs) für die Verarbeitung visueller Dokumente, die sowohl textuelle Semantik als auch räumliches Layout berücksichtigt. Unser Modell unterscheidet sich von bestehenden multimodalen LLMs dadurch, dass es teure Bildkodierer vermeidet und sich ausschließlich auf Begrenzungsrahmeninformationen konzentriert, um die räumliche Layoutstruktur einzubeziehen. Insbesondere wird die Kreuzausrichtung zwischen textuellen und räumlichen Modalitäten durch die Zerlegung des Aufmerksamkeitsmechanismus in klassischen Transformern in eine Reihe von entkoppelten Matrizen erfasst. Darüber hinaus entwickeln wir ein Pre-Training-Ziel, das das Einfügen von Textsegmenten erlernt. Dieser Ansatz ermöglicht es uns, unregelmäßige Layouts und heterogene Inhalte, die häufig in visuellen Dokumenten vorkommen, zu bewältigen. Das vortrainierte Modell wird mit einem groß angelegten Instruktionsdatensatz feinabgestimmt, der vier zentrale Aufgaben der Dokumentenintelligenz abdeckt. Wir zeigen, dass unsere Lösung SotA-LLMs in 14 von 16 Datensätzen über alle Aufgaben hinweg übertrifft und sich gut auf 4 von 5 zuvor unbekannten Datensätzen verallgemeinert.
In diesem Artikel stellen wir eine neuartige und einfache Methode vor, um hochwertige Text-Embeddings zu erhalten, indem ausschließlich synthetische Daten und weniger als 1.000 Trainingsschritte verwendet werden. Im Gegensatz zu bestehenden Methoden, die oft auf mehrstufiges Vor-Training mit Milliarden von schwach überwachten Textpaaren angewiesen sind, gefolgt von Feinabstimmung mit einigen gelabelten Datensätzen, erfordert unsere Methode weder den Aufbau komplexer Trainingspipeline noch die Abhängigkeit von manuell gesammelten Datensätzen, die häufig durch Aufgabenvielfalt und Sprachabdeckung eingeschränkt sind. Wir nutzen proprietäre LLMs, um diverse synthetische Daten für Hunderttausende von Text-Embedding-Aufgaben in fast 100 Sprachen zu generieren. Anschließend feinabstimmen wir Open-Source-Decoder-LLMs auf den synthetischen Daten unter Verwendung eines standardmäßigen Kontrastverlusts. Experimente zeigen, dass unsere Methode auf hoch kompetitiven Text-Embedding-Benchmarks starke Leistungen erzielt, ohne dabei gelabelte Daten zu verwenden. Darüber hinaus setzt unser Modell, wenn es mit einer Mischung aus synthetischen und gelabelten Daten feinabgestimmt wird, neue State-of-the-Art-Ergebnisse auf den BEIR- und MTEB-Benchmarks.
Die Nutzung der Kraft von menschlich annotierten Daten durch Supervised Fine-Tuning (SFT) ist entscheidend für die Weiterentwicklung von Large Language Models (LLMs). In diesem Artikel untersuchen wir die Möglichkeit, ein leistungsstarkes LLM aus einem schwachen Modell zu entwickeln, ohne zusätzliche menschlich annotierte Daten zu benötigen. Wir schlagen eine neue Feinabstimmungsmethode namens Self-Play fIne-tuNing (SPIN) vor, die von einem überwacht feinabgestimmten Modell ausgeht. Im Kern von SPIN liegt ein Selbstspiel-Mechanismus, bei dem das LLM seine Fähigkeiten verbessert, indem es gegen Instanzen von sich selbst antritt. Genauer gesagt generiert das LLM seine eigenen Trainingsdaten aus seinen vorherigen Iterationen und verfeinert seine Strategie, indem es diese selbstgenerierten Antworten von denen unterscheidet, die aus menschlich annotierten Daten stammen. Unsere Methode hebt das LLM schrittweise von einem Anfängermodell zu einem leistungsstarken Modell an und erschließt das volle Potenzial der menschlich annotierten Demonstrationsdaten für SFT. Theoretisch beweisen wir, dass das globale Optimum der Zielfunktion unseres Trainings nur erreicht wird, wenn die LLM-Strategie mit der Ziel-Datenverteilung übereinstimmt. Empirisch bewerten wir unsere Methode anhand mehrerer Benchmark-Datensätze, darunter die HuggingFace Open LLM Leaderboard, MT-Bench und Datensätze aus Big-Bench. Unsere Ergebnisse zeigen, dass SPIN die Leistung des LLMs über eine Vielzahl von Benchmarks signifikant verbessern kann und sogar Modelle übertrifft, die durch Direct Preference Optimization (DPO) trainiert wurden, ergänzt durch zusätzliche GPT-4-Präferenzdaten. Dies verdeutlicht das Potenzial von Selbstspiel, das Erreichen von menschlicher Leistungsfähigkeit in LLMs ohne die Notwendigkeit von Expertengegnern zu ermöglichen.
In jüngster Zeit wurden erhebliche Fortschritte bei großen Sprachmodellen (LLMs) beobachtet, wie beispielsweise ChatGPT, das bemerkenswerte Fähigkeiten bei einer Vielzahl komplexer Aufgaben zeigt. Viele der gängigen LLMs (z. B. LLaMA) werden jedoch auf einem englischdominierten Korpus vortrainiert, was ihre Leistung in anderen nicht-englischen Sprachen einschränkt. In diesem Artikel konzentrieren wir uns darauf, wie die Fähigkeiten zur Sprachgenerierung und zur Befolgung von Anweisungen effektiv auf eine nicht-englische Sprache übertragen werden können. Um diese Frage zu beantworten, führen wir eine umfangreiche empirische Untersuchung basierend auf LLaMA durch, die über 1440 GPU-Stunden in Anspruch nimmt. Wir analysieren die Auswirkungen von Schlüsselfaktoren wie Vokabelerweiterung, weiterem Vortraining und Instruction-Tuning auf die Übertragung. Um das Wissen des Modells genau zu bewerten, verwenden wir vier weit verbreitete standardisierte Testbenchmarks: C-Eval, MMLU, AGI-Eval und GAOKAO-Bench. Darüber hinaus wird eine umfassende Bewertung der Antwortqualität des Modells durchgeführt, wobei Aspekte wie Genauigkeit, Flüssigkeit, Informationsgehalt, logische Kohärenz und Unbedenklichkeit berücksichtigt werden, basierend auf LLM-Eval, einem Benchmark, der Anweisungsaufgaben aus 17 verschiedenen Kategorien umfasst. Unsere Evaluationsergebnisse zeigen, dass mit weniger als 1 % der Vortrainingsdaten eine vergleichbare Leistung zu den besten Transfermodellen sowohl in Bezug auf die Wissensausrichtung als auch auf die Antwortqualität erreicht werden kann. Darüber hinaus zeigen die experimentellen Ergebnisse über die dreizehn ressourcenarmen Sprachen ähnliche Trends. Wir gehen davon aus, dass die durch die Experimente gewonnenen Erkenntnisse der Gemeinschaft bei der Entwicklung nicht-englischer LLMs helfen werden.
Skalierungsgesetze für große Sprachmodelle (LLMs) sind empirische Formeln, die Veränderungen in der Modellqualität als Folge einer Erhöhung der Parameteranzahl und der Trainingsdaten abschätzen. Diese Formeln, einschließlich der bekannten DeepMind Chinchilla-Skalierungsgesetze, berücksichtigen jedoch nicht die Kosten für Inferenz. Wir modifizieren die Chinchilla-Skalierungsgesetze, um die optimale Parameteranzahl und die Größe der Vorab-Trainingsdaten zu berechnen, die benötigt werden, um ein Modell einer bestimmten Qualität und Inferenzanforderung zu trainieren und bereitzustellen. Wir führen unsere Analyse sowohl in Bezug auf ein Rechenbudget als auch auf reale Kosten durch und stellen fest, dass LLM-Forscher, die mit einem vernünftig großen Inferenzbedarf (~1 Mrd. Anfragen) rechnen, Modelle kleiner und länger trainieren sollten, als es die Chinchilla-Optimierung vorsieht.
Diese Arbeit untersucht die inhärente Fähigkeit von LLMs, lange Kontexte ohne Feinabstimmung zu verarbeiten. Die begrenzte Länge der Trainingssequenz während des Trainings kann die Anwendung von Large Language Models (LLMs) auf lange Eingabesequenzen für die Inferenz einschränken. In dieser Arbeit argumentieren wir, dass bestehende LLMs selbst über inhärente Fähigkeiten zur Verarbeitung langer Kontexte verfügen. Basierend auf diesem Argument schlagen wir vor, das Kontextfenster von LLMs durch sie selbst zu erweitern, um die inhärente Fähigkeit vollständig zu nutzen. Wir schlagen Self-Extend vor, um das Potenzial von LLMs zur Verarbeitung langer Kontexte zu aktivieren. Die grundlegende Idee besteht darin, zweistufige Aufmerksamkeitsinformationen zu konstruieren: die Gruppenebene und die Nachbarschaftsebene. Die beiden Ebenen werden durch die ursprüngliche Selbstaufmerksamkeit des Modells berechnet, was bedeutet, dass der vorgeschlagene Ansatz kein Training erfordert. Mit nur vier Zeilen Codeänderung kann die vorgeschlagene Methode das Kontextfenster bestehender LLMs mühelos erweitern, ohne dass eine Feinabstimmung erforderlich ist. Wir führen umfassende Experimente durch, und die Ergebnisse zeigen, dass die vorgeschlagene Methode die Länge des Kontextfensters bestehender LLMs effektiv erweitern kann.
Die hohen Kosten der vollständigen Feinabstimmung aller Parameter (Full-Parameter Fine-Tuning, FFT) von großen Sprachmodellen (Large Language Models, LLMs) haben zur Entwicklung einer Reihe von parameter-effizienten Feinabstimmungsmethoden (Parameter-Efficient Fine-Tuning, PEFT) geführt. Es bleibt jedoch unklar, welche Methoden die beste Kosten-Leistungs-Balance bei verschiedenen Modellgrößen bieten. Wir stellen Astraios vor, eine Sammlung von 28 instruktionsfeinabgestimmten OctoCoder-Modellen, die 7 Feinabstimmungsmethoden und 4 Modellgrößen bis zu 16 Milliarden Parametern umfasst. Durch Untersuchungen über 5 Aufgaben und 8 verschiedene Datensätze, die sowohl Code-Verständnis als auch Code-Generierungsaufgaben abdecken, stellen wir fest, dass FFT im Allgemeinen die beste nachgelagerte Leistung über alle Skalen hinweg bietet, und dass PEFT-Methoden in ihrer Wirksamkeit stark von der Modellgröße abhängen. LoRA bietet meist die günstigste Balance zwischen Kosten und Leistung. Weitere Untersuchungen zu den Auswirkungen dieser Methoden auf die Robustheit und Codesicherheit der Modelle zeigen, dass größere Modelle tendenziell eine geringere Robustheit und weniger Sicherheit aufweisen. Schließlich untersuchen wir die Zusammenhänge zwischen aktualisierten Parametern, Cross-Entropy-Verlust und Aufgabenleistung. Wir stellen fest, dass die in kleinen Modellen beobachtete Feinabstimmungseffektivität gut auf größere Modelle verallgemeinert werden kann und dass der Validierungsverlust bei der Instruktionsfeinabstimmung ein zuverlässiger Indikator für die gesamte nachgelagerte Leistung sein kann.
Die jüngsten Innovationen und Durchbrüche in Diffusionsmodellen haben die Möglichkeiten zur Erzeugung hochwertiger Videos für gegebene Eingabeaufforderungen erheblich erweitert. Die meisten bestehenden Arbeiten befassen sich mit dem Szenario einer einzelnen Szene, in der nur ein Videovorgang in einem einzigen Hintergrund stattfindet. Die Erweiterung zur Generierung von Videos mit mehreren Szenen ist jedoch nicht trivial und erfordert eine geschickte Handhabung der Logik dazwischen, während gleichzeitig das konsistente visuelle Erscheinungsbild der Schlüsselinhalte über die Videoszenen hinweg beibehalten wird. In diesem Artikel schlagen wir ein neuartiges Framework namens VideoDrafter für die inhaltskonsistente Generierung von Videos mit mehreren Szenen vor. Technisch gesehen nutzt VideoDrafter Large Language Models (LLM), um die Eingabeaufforderung in ein umfassendes Multi-Szenen-Skript umzuwandeln, das von der logischen Wissensbasis des LLM profitiert. Das Skript für jede Szene umfasst eine Aufforderung zur Beschreibung des Ereignisses, der Vordergrund-/Hintergrund-Entitäten sowie der Kamerabewegung. VideoDrafter identifiziert die gemeinsamen Entitäten im gesamten Skript und bittet das LLM, jede Entität detailliert zu beschreiben. Die resultierende Entitätsbeschreibung wird dann in ein Text-zu-Bild-Modell eingespeist, um ein Referenzbild für jede Entität zu generieren. Schließlich gibt VideoDrafter ein Video mit mehreren Szenen aus, indem jede Szenenvideo durch einen Diffusionsprozess erzeugt wird, der die Referenzbilder, die beschreibende Aufforderung des Ereignisses und die Kamerabewegung berücksichtigt. Das Diffusionsmodell integriert die Referenzbilder als Bedingung und Ausrichtung, um die Inhaltskonsistenz der Videos mit mehreren Szenen zu stärken. Umfangreiche Experimente zeigen, dass VideoDrafter die aktuellsten Videogenerierungsmodelle in Bezug auf visuelle Qualität, Inhaltskonsistenz und Benutzerpräferenz übertrifft.
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten beim Verstehen und Generieren von Texten gezeigt, die menschliche Kommunikation eng nachahmen. Eine primäre Einschränkung liegt jedoch in den erheblichen Rechenanforderungen während des Trainings, die sich aus ihrer umfangreichen Parametrisierung ergeben. Diese Herausforderung wird durch die dynamische Natur der Welt weiter verstärkt, die häufige Aktualisierungen der LLMs erfordert, um veraltete Informationen zu korrigieren oder neues Wissen zu integrieren und so ihre fortlaufende Relevanz sicherzustellen. Es ist zu beachten, dass viele Anwendungen kontinuierliche Anpassungen des Modells nach dem Training erfordern, um Mängel oder unerwünschte Verhaltensweisen zu beheben. Es besteht ein zunehmendes Interesse an effizienten, leichtgewichtigen Methoden für die Modifikation von Modellen in Echtzeit. In diesem Zusammenhang hat sich in den letzten Jahren die Technik der Wissensbearbeitung für LLMs stark entwickelt, die darauf abzielt, das Verhalten von LLMs in bestimmten Domänen effizient zu modifizieren, während die Gesamtleistung über verschiedene Eingaben hinweg erhalten bleibt. In diesem Artikel definieren wir zunächst das Problem der Wissensbearbeitung und geben dann einen umfassenden Überblick über fortschrittliche Ansätze. Inspiriert von Theorien aus der Bildungs- und Kognitionsforschung schlagen wir ein einheitliches Kategorisierungskriterium vor, das Methoden der Wissensbearbeitung in drei Gruppen einteilt: Rückgriff auf externes Wissen, Integration von Wissen in das Modell und Bearbeitung von intrinsischem Wissen. Darüber hinaus stellen wir einen neuen Benchmark, KnowEdit, für eine umfassende empirische Bewertung repräsentativer Ansätze zur Wissensbearbeitung vor. Zusätzlich bieten wir eine detaillierte Analyse der Wissenslokalisierung, die ein tieferes Verständnis der in LLMs inhärenten Wissensstrukturen ermöglichen kann. Schließlich diskutieren wir mehrere potenzielle Anwendungen der Wissensbearbeitung und skizzieren deren breite und bedeutungsvolle Implikationen.
In der Entwicklung des Vision-Language Pre-trainings ist der Übergang vom Verständnis kurzer Texte zur Einbeziehung erweiterter textueller Kontexte entscheidend. Neuere autoregressive Vision-Language-Modelle wie Flamingo und Palme, die die Langkontextfähigkeit von Large Language Models nutzen, haben sich in Few-Shot-Textgenerierungsaufgaben hervorgetan, stehen jedoch bei Alignment-Aufgaben vor Herausforderungen. Um diese Lücke zu schließen, führen wir den Kontrastverlust in Textgenerierungsmodelle ein und präsentieren das COntrastive-Streamlined MultimOdal Framework (\ModelName), das das Sprachmodell strategisch in dedizierte unimodale Textverarbeitungs- und kompetente multimodale Datenverarbeitungskomponenten unterteilt. \ModelName, unser vereinheitlichtes Framework, vereint unimodale und multimodale Elemente und verbessert die Modellleistung bei Aufgaben, die textuelle und visuelle Daten betreffen, während gleichzeitig die Anzahl der lernbaren Parameter deutlich reduziert wird. Diese Modelle erfordern jedoch umfangreiche Langtextdatensätze, wobei die Verfügbarkeit hochwertiger Langtext-Videodatensätze nach wie vor begrenzt ist. Um diese Lücke zu schließen, stellt diese Arbeit \VideoDatasetName vor, einen erstmaligen verschachtelten Video-Text-Datensatz mit umfassenden Beschreibungen, der einen bedeutenden Fortschritt darstellt. Um dessen Auswirkungen zu demonstrieren, zeigen wir, wie die Modellleistung in Bild-Text-Aufgaben verbessert wird. Mit 34 % lernbaren Parametern und der Nutzung von 72 % der verfügbaren Daten zeigt unser Modell eine deutliche Überlegenheit gegenüber OpenFlamingo~openflamingo. Beispielsweise verbessert sich die Leistung bei der 4-Shot-Flickr-Beschriftungsaufgabe von 57,2 % auf 65 %. Die Beiträge von \ModelName und \VideoDatasetName werden durch bemerkenswerte Leistungssteigerungen in 14 verschiedenen Downstream-Datensätzen, die sowohl Bild-Text- als auch Video-Text-Aufgaben umfassen, unterstrichen.
In aktuellen Ansätzen zur Text-zu-Video (T2V)-Generierung stellt die Erzielung von Kontrollierbarkeit in den synthetisierten Videos oft eine Herausforderung dar. Typischerweise wird dieses Problem durch die Bereitstellung von Low-Level-Pro-Frame-Anleitungen in Form von Kantenkarten, Tiefenkarten oder eines bestehenden Videos, das verändert werden soll, angegangen. Der Prozess der Beschaffung solcher Anleitungen kann jedoch arbeitsintensiv sein. Dieser Artikel konzentriert sich darauf, die Kontrollierbarkeit in der Videosynthese zu verbessern, indem einfache Begrenzungsrahmen verwendet werden, um das Subjekt auf verschiedene Arten zu lenken, und dies ohne die Notwendigkeit von Training, Feinabstimmung oder Optimierung neuronaler Netze zur Inferenzzeit oder die Verwendung von bestehenden Videos. Unser Algorithmus, TrailBlazer, basiert auf einem vortrainierten (T2V)-Modell und ist einfach zu implementieren. Das Subjekt wird durch einen Begrenzungsrahmen mittels der vorgeschlagenen räumlichen und zeitlichen Aufmerksamkeitskartenbearbeitung gelenkt. Darüber hinaus führen wir das Konzept des Keyframings ein, das es ermöglicht, die Subjekttrajektorie und das Gesamterscheinungsbild sowohl durch einen sich bewegenden Begrenzungsrahmen als auch durch entsprechende Prompts zu lenken, ohne dass eine detaillierte Maske bereitgestellt werden muss. Die Methode ist effizient, mit vernachlässigbarer zusätzlicher Berechnung im Vergleich zum zugrunde liegenden vortrainierten Modell. Trotz der Einfachheit der Begrenzungsrahmenführung ist die resultierende Bewegung überraschend natürlich, mit auftretenden Effekten wie Perspektive und Bewegung in Richtung der virtuellen Kamera, wenn die Rahmengröße zunimmt.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte in der natürlichen Sprachverarbeitung erzielt und erweitern gleichzeitig die Sprachfähigkeit auf andere Modalitäten wie Sprache und Vision. Dennoch konzentriert sich der Großteil der bisherigen Arbeit darauf, LLMs mit Wahrnehmungsfähigkeiten wie auditivem Verständnis zu prompten, und der effektive Ansatz zur Erweiterung von LLMs mit Sprachsynthesefähigkeiten bleibt unklar. In diesem Papier führen wir eine umfassende empirische Untersuchung durch, um LLMs mit der Fähigkeit zur Sprachgenerierung zu verbessern, indem wir das vortrainierte LLM LLaMA/OPT und das Text-zu-Sprache-Synthesemodell VALL-E kombinieren. Wir vergleichen drei Integrationsmethoden zwischen LLMs und Sprachsynthesemodellen, darunter direkt feinabgestimmte LLMs, überlagerte Schichten von LLMs und VALL-E sowie gekoppelte LLMs und VALL-E unter Verwendung von LLMs als leistungsstarken Textencoder. Die experimentellen Ergebnisse zeigen, dass die direkte Feinabstimmung von LLMs mit der LoRA-Methode zur Verbesserung der Sprachsynthesefähigkeit nicht gut funktioniert und dass überlagerte LLMs und VALL-E die Qualität der generierten Sprache sowohl in Bezug auf die Sprecherähnlichkeit als auch auf die Wortfehlerrate (WER) verbessern können. Unter diesen drei Methoden erzielt die gekoppelte Methode, die LLMs als Textencoder nutzt, die beste Leistung, wodurch sie die ursprünglichen Sprachsynthesemodelle mit einer durchweg besseren Sprecherähnlichkeit und einer signifikanten (10,9 %) Reduzierung der WER übertrifft.
Das Training von großskaligen Sprachmodellen wird in verschiedenen Bereichen zunehmend kritisch, wird jedoch durch häufige Ausfälle behindert, die zu erheblichen zeitlichen und wirtschaftlichen Kosten führen. Aktuelle Methoden zur Fehlerbehebung in Cloud-basierten Umgebungen adressieren die vielfältigen und komplexen Szenarien, die auftreten, unzureichend, da sie sich eng auf die Beseitigung von Ausfallzeiten für einzelne Aufgaben konzentrieren, ohne die Gesamtkostenauswirkungen auf einen Cluster zu berücksichtigen. Wir stellen Unicron vor, einen Workload-Manager, der für effiziente Selbstheilung beim Training großskaliger Sprachmodelle entwickelt wurde. Unicron optimiert den Trainingsprozess, indem es die ausfallbedingten Kosten über mehrere gleichzeitige Aufgaben innerhalb eines Clusters minimiert. Zu seinen Schlüsselfunktionen gehören die In-Band-Fehlererkennung zur Echtzeitidentifikation von Fehlern ohne zusätzlichen Overhead, ein dynamischer kostenbewusster Planungsmechanismus für eine optimale Neukonfiguration und eine effiziente Übergangsstrategie zur Reduzierung von Ausfallzeiten während Zustandsänderungen. Auf einem verteilten Cluster mit 128 GPUs eingesetzt, zeigt Unicron eine bis zu 1,9-fache Verbesserung der Trainingseffizienz gegenüber modernsten Methoden, wodurch die Kosten für die Fehlerbehebung erheblich reduziert und die Zuverlässigkeit des Trainings großskaliger Sprachmodelle gesteigert wird.
Mit der rasanten Entwicklung von Text-zu-Bild (T2I)-Modellen in den letzten Jahren ist ihre unbefriedigende Generierungsqualität zu einer Herausforderung geworden. Die einheitliche Verbesserung von KI-generierten Bildern (AIGIs) unterschiedlicher Qualität beschränkte jedoch nicht nur die Optimierungsfähigkeiten für minderwertige AIGIs, sondern führte auch zu negativen Optimierungen bei hochwertigen AIGIs. Um dieses Problem zu lösen, wird ein Qualitäts-basierter Verfeinerer namens Q-Refine vorgeschlagen. Basierend auf den Präferenzen des menschlichen visuellen Systems (HVS) verwendet Q-Refine erstmals eine Metrik zur Bildqualitätsbewertung (IQA), um den Verfeinerungsprozess zu steuern, und modifiziert Bilder unterschiedlicher Qualität durch drei adaptive Pipelines. Experimente zeigen, dass Q-Refine für gängige T2I-Modelle eine effektive Optimierung von AIGIs unterschiedlicher Qualität durchführen kann. Es kann als allgemeiner Verfeinerer dienen, um AIGIs sowohl auf der Ebene der Detailtreue als auch der ästhetischen Qualität zu optimieren und somit die Anwendung von T2I-Generierungsmodellen zu erweitern.
Große Sprachmodelle (LLMs) haben aufgrund ihres allgemeinen Wissens und ihrer Fähigkeit, ein breites Spektrum von Aufgaben in der natürlichen Sprachverarbeitung (NLP) zu lösen, großen Erfolg erzielt. Aufgrund ihrer beeindruckenden Fähigkeiten haben LLMs potenzielle interdisziplinäre Anwendungen beleuchtet, um wissenschaftliche Entdeckungen in einem spezifischen Bereich durch den Einsatz von künstlicher Intelligenz (KI für die Wissenschaft, AI4S) zu fördern. Gleichzeitig ist die Nutzung von NLP-Techniken in der Geowissenschaftsforschung und -praxis weitreichend und komplex, wobei sie von der Wissensextraktion und Dokumentenklassifizierung bis hin zur Fragebeantwortung und Wissensentdeckung beiträgt. In dieser Arbeit unternehmen wir den ersten Schritt, um LLMs für die Wissenschaft zu nutzen, und zwar durch einen eher geradlinigen Ansatz. Wir versuchen, ein LLM auf die Geowissenschaften zu spezialisieren, indem wir das Modell mit einer großen Menge an geowissenschaftlichen Texten weiter vortrainieren sowie das resultierende Modell mit unserem selbst gesammelten Instruktionsfeinabstimmungsdatensatz (SFT) feinabstimmen. Diese Bemühungen führen zu einem Modell namens GeoGalactica, das aus 30 Milliarden Parametern besteht. Nach unserem besten Wissen ist es das größte Sprachmodell für den Bereich der Geowissenschaften. Genauer gesagt, GeoGalactica entsteht aus dem weiteren Vortraining von Galactica. Wir trainieren GeoGalactica über einen geowissenschaftlichen Textkorpus, der 65 Milliarden Tokens umfasst und aus umfangreichen Datenquellen des Big-Science-Projekts Deep-time Digital Earth (DDE) kuratiert wurde, wobei er als der größte geowissenschaftsspezifische Textkorpus erhalten bleibt. Anschließend feinabstimmen wir das Modell mit 1 Million Paaren von Instruktionsfeinabstimmungsdaten, die aus Fragen bestehen, die professionelles geowissenschaftliches Wissen zur Beantwortung erfordern. In diesem technischen Bericht werden wir alle Aspekte von GeoGalactica detailliert darlegen, einschließlich Datensammlung, Datenbereinigung, Basismodellauswahl, Vortraining, SFT und Evaluation. Wir stellen unsere Datenkuratierungstools und die Checkpoints von GeoGalactica während der ersten 3/4 des Vortrainings als Open Source zur Verfügung.
Score Distillation hat sich als einer der vorherrschenden Ansätze für die Text-zu-3D-Asset-Synthese etabliert. Im Wesentlichen aktualisiert Score Distillation 3D-Parameter, indem Scores über verschiedene Ansichten gehoben und rückpropagiert werden. In diesem Artikel zeigen wir, dass die Gradientenschätzung in Score Distillation inhärent mit hoher Varianz verbunden ist. Durch die Linse der Varianzreduktion kann die Wirksamkeit von SDS und VSD als Anwendung verschiedener Kontrollvariablen auf den Monte-Carlo-Schätzer des destillierten Scores interpretiert werden. Motiviert durch diese Neubetrachtung und basierend auf Steins Identität schlagen wir eine allgemeinere Lösung zur Varianzreduktion für Score Distillation vor, die als Stein Score Distillation (SSD) bezeichnet wird. SSD integriert Kontrollvariablen, die durch Steins Identität konstruiert werden und beliebige Baseline-Funktionen ermöglichen. Dies erlaubt es uns, flexible Leitprinzipien und Netzwerkarchitekturen einzubeziehen, um explizit auf Varianzreduktion zu optimieren. In unseren Experimenten wird die gesamte Pipeline, genannt SteinDreamer, durch die Instanziierung der Kontrollvariablen mit einem monokularen Tiefenschätzer implementiert. Die Ergebnisse deuten darauf hin, dass SSD die Destillationsvarianz effektiv reduzieren und die visuelle Qualität sowohl für die Objekt- als auch die Szenengenerierung konsistent verbessern kann. Darüber hinaus zeigen wir, dass SteinDreamer aufgrund stabilerer Gradientenaktualisierungen eine schnellere Konvergenz als bestehende Methoden erreicht.