Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) sollen präzise reagieren, zeigen jedoch häufig mangelhaftes Denken oder erzeugen halluzinatorische Inhalte. Um diesen Herausforderungen zu begegnen, wurden Studien mit dem Präfix "Self-" wie Self-Konsistenz, Self-Verbesserung und Self-Verfeinerung initiiert. Sie haben eine Gemeinsamkeit: LLMs bewerten und aktualisieren sich selbst, um die Probleme zu mildern. Dennoch fehlt es diesen Bemühungen an einer vereinheitlichten Perspektive zur Zusammenfassung, da bestehende Umfragen hauptsächlich auf Kategorisierung abzielen, ohne die Motivationen hinter diesen Arbeiten zu untersuchen. In diesem Artikel fassen wir einen theoretischen Rahmen zusammen, genannt Interne Konsistenz, der einheitliche Erklärungen für Phänomene wie den Mangel an Denken und das Vorhandensein von Halluzinationen bietet. Interne Konsistenz bewertet die Kohärenz zwischen den latenten Schichten, Decodierungsschichten und Antwortschichten von LLMs basierend auf Abtastmethoden. Aufbauend auf dem Rahmen der Internen Konsistenz stellen wir einen schlanken, aber effektiven theoretischen Rahmen vor, der in der Lage ist, die Interne Konsistenz zu erkunden, genannt Self-Feedback. Der Self-Feedback-Rahmen besteht aus zwei Modulen: Selbstbewertung und Selbstaktualisierung. Dieser Rahmen wurde in zahlreichen Studien angewendet. Wir klassifizieren diese Studien systematisch nach Aufgaben und Arbeitslinien; fassen relevante Evaluationsmethoden und Benchmarks zusammen; und gehen der Frage nach, "Funktioniert Self-Feedback wirklich?" Wir schlagen mehrere kritische Standpunkte vor, darunter die Hypothese der "Sanduhr-Evolution der Internen Konsistenz", die Annahme "Konsistenz ist (fast) Korrektheit" und das "Paradoxon des latenten und expliziten Denkens". Darüber hinaus skizzieren wir vielversprechende Richtungen für zukünftige Forschung. Wir haben den experimentellen Code, die Referenzliste und statistische Daten als Open Source veröffentlicht, verfügbar unter https://github.com/IAAR-Shanghai/ICSFSurvey.
Die Inferenz von auf Transformer basierenden großen Sprachmodellen besteht aus zwei aufeinanderfolgenden Phasen: 1) einer Vorausfüllphase zur Berechnung des KV-Caches von Eingaben und zur Generierung des ersten Tokens und 2) einer Decodierungsphase zur Generierung nachfolgender Tokens. Bei langen Eingaben müssen während der Vorausfüllphase der KV-Cache für alle Tokens berechnet werden, was die Zeit zur Generierung des ersten Tokens signifikant erhöhen kann. Folglich kann die Vorausfüllphase zum Engpass im Generierungsprozess werden. Es bleibt eine offene Frage, ob alle Eingabetokens für die Generierung des ersten Tokens unerlässlich sind. Um dies zu beantworten, stellen wir eine neue Methode namens LazyLLM vor, die selektiv den KV für Tokens berechnet, die für die Vorhersage des nächsten Tokens in beiden Phasen, der Vorausfüllung und der Decodierung, wichtig sind. Im Gegensatz zu statischen Pruning-Ansätzen, die die Eingabe auf einmal kürzen, ermöglicht LazyLLM Sprachmodellen, in verschiedenen Generierungsschritten dynamisch unterschiedliche Teilmengen von Tokens aus dem Kontext auszuwählen, auch wenn sie in vorherigen Schritten gekürzt wurden. Umfangreiche Experimente mit Standarddatensätzen in verschiedenen Aufgaben zeigen, dass LazyLLM eine generische Methode ist, die nahtlos in bestehende Sprachmodelle integriert werden kann, um die Generierung signifikant zu beschleunigen, ohne Feinabstimmung. Beispielsweise beschleunigt LazyLLM in der Aufgabe des Multi-Dokumenten-Frage-Antwortens die Vorausfüllphase des LLama 2 7B-Modells um das 2,34-fache, während die Genauigkeit beibehalten wird.
Im Bereich der multimodalen Sprachmodelle basieren die meisten Methoden auf einer Architektur, die LLaVA ähnelt. Diese Modelle verwenden ein ViT-Merkmal mit einer einzigen Schicht als visuellen Hinweis und speisen es direkt in die Sprachmodelle ein, zusammen mit textuellen Tokens. Jedoch kann der Selbst-Aufmerksamkeitsmechanismus der Sprachmodelle bei der Verarbeitung langer Sequenzen von visuellen Signalen oder Eingaben wie Videos zu erheblichem Rechenaufwand führen. Darüber hinaus erschwert die Verwendung von ViT-Merkmalen mit einer einzigen Schicht großen Sprachmodellen, visuelle Signale vollständig wahrzunehmen. Dieser Artikel schlägt ein effizientes multimodales Sprachmodell vor, um die Rechenkosten zu minimieren und dem Modell zu ermöglichen, visuelle Signale so umfassend wie möglich wahrzunehmen. Unsere Methode umfasst hauptsächlich: (1) die Verwendung von Kreuz-Aufmerksamkeit zur Bild-Text-Interaktion ähnlich wie bei Flamingo. (2) die Nutzung hierarchischer ViT-Merkmale. (3) die Einführung des Mechanismus der Expertenmischung (MoE) zur Verbesserung der Modellwirksamkeit. Unser Modell erzielt wettbewerbsfähige Ergebnisse bei öffentlichen multimodalen Benchmarks und schneidet gut bei Aufgaben wie der Bildunterschrift und der Videounterschrift ab.
In dieser Arbeit stellen wir ChatQA 2 vor, ein auf Llama3 basierendes Modell, das entwickelt wurde, um die Kluft zwischen Open-Access LLMs und führenden proprietären Modellen (z.B. GPT-4-Turbo) in den Fähigkeiten des Verstehens von langem Kontext und der Generierung mit abrufverstärkter Suche (RAG) zu überbrücken. Diese beiden Fähigkeiten sind für LLMs entscheidend, um große Informationsmengen zu verarbeiten, die nicht in eine einzelne Eingabe passen, und ergänzen sich je nach den nachgelagerten Aufgaben und den Rechenbudgets. Wir präsentieren ein detailliertes Rezept für das fortgesetzte Training, um das Kontextfenster des Llama3-70B-Base-Modells von 8K auf 128K Tokens zu erweitern, zusammen mit einem dreistufigen Anpassungsprozess, um die Anweisungsbeachtung des Modells, die RAG-Leistung und die Fähigkeiten des Verstehens von langem Kontext zu verbessern. Unsere Ergebnisse zeigen, dass das Llama3-ChatQA-2-70B-Modell eine Genauigkeit erreicht, die mit der von GPT-4-Turbo-2024-0409 bei vielen Aufgaben des Verstehens von langem Kontext vergleichbar ist und es bei der RAG-Benchmark übertrifft. Interessanterweise stellen wir fest, dass der modernste Retriever für langen Kontext das Fragmentierungsproblem des Top-k-Kontexts bei RAG lindern kann und somit die RAG-basierten Ergebnisse für Aufgaben des Verstehens von langem Kontext weiter verbessert. Wir bieten auch umfangreiche Vergleiche zwischen RAG und Lösungen für langen Kontext unter Verwendung modernster LLMs für langen Kontext.
Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Basislinien dienen, wenn neue Modelle vorgestellt werden. Die meisten aktuellen Text-zu-Audio-Modelle sind jedoch privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. Hier beschreiben wir die Architektur und den Schulungsprozess eines neuen offenen Gewichts-Text-zu-Audio-Modells, das mit Creative Commons-Daten trainiert wurde. Unsere Bewertung zeigt, dass die Leistung des Modells im Vergleich zum Stand der Technik über verschiedene Metriken hinweg wettbewerbsfähig ist. Insbesondere zeigen die berichteten FDopenl3-Ergebnisse (die Realität der Generierungen messen) sein Potenzial für hochwertige Stereoklangsynthese mit 44,1 kHz.
In den letzten Jahren wurden bemerkenswerte Fortschritte im Bereich des visuellen Dokumentenverständnisses erzielt, wobei die vorherrschende Architektur aus einer Kaskade von Bild- und Sprachmodellen besteht. Der Textbestandteil kann entweder explizit mit Hilfe externer OCR-Modelle in OCR-basierten Ansätzen extrahiert werden, oder alternativ kann dem Bildmodell in OCR-freien Ansätzen Lesefähigkeiten verliehen werden. Typischerweise werden die Abfragen an das Modell ausschließlich an den Sprachbestandteil eingegeben, was erfordert, dass die visuellen Merkmale das gesamte Dokument umfassen. In diesem Paper präsentieren wir VisFocus, eine OCR-freie Methode, die darauf abzielt, die Kapazität des Bildencoders besser auszuschöpfen, indem sie ihn direkt mit der Sprachanweisung verknüpft. Hierfür ersetzen wir die Down-Sampling-Schichten durch Schichten, die die Eingabeaufforderung erhalten und es ermöglichen, relevante Teile des Dokuments hervorzuheben, während andere ignoriert werden. Wir kombinieren die Architekturverbesserungen mit einer neuartigen Vortrainingsaufgabe, bei der die Sprachmaskierung auf einem Ausschnitt des Dokumententextes verwendet wird, der dem visuellen Encoder anstelle der Anweisung zugeführt wird, um das Modell mit Fokussierungsfähigkeiten auszustatten. Folglich lernt VisFocus, seine Aufmerksamkeit auf Textabschnitte zu lenken, die für die bereitgestellte Anweisung relevant sind. Unsere Experimente zeigen, dass dieser anweisungsgesteuerte visuelle Kodierungsansatz die Leistung signifikant verbessert und Spitzenleistungen auf verschiedenen Benchmarks erzielt.
Die optische Zeichenerkennung (OCR) und Handschrifterkennung (HWR) des Arabischen stellen aufgrund der kursorischen und kontextsensitiven Natur des arabischen Skripts einzigartige Herausforderungen dar. Diese Studie stellt Qalam vor, ein neuartiges Grundlagenmodell, das für die arabische OCR und HWR entwickelt wurde und auf einer SwinV2-Encoder- und RoBERTa-Decoder-Architektur basiert. Unser Modell übertrifft signifikant bestehende Methoden und erreicht eine Wortfehlerrate (WER) von nur 0,80% bei HWR-Aufgaben und 1,18% bei OCR-Aufgaben. Wir trainieren Qalam auf einem vielfältigen Datensatz, der über 4,5 Millionen Bilder aus arabischen Manuskripten und einen synthetischen Datensatz mit 60.000 Bild-Text-Paaren umfasst. Besonders bemerkenswert ist die außergewöhnliche Handhabung von arabischen Diakritika durch Qalam, eine entscheidende Eigenschaft in arabischen Skripts. Darüber hinaus zeigt es eine bemerkenswerte Fähigkeit zur Verarbeitung von hochauflösenden Eingaben, was eine häufige Einschränkung in aktuellen OCR-Systemen angeht. Diese Fortschritte unterstreichen das Potenzial von Qalam als führende Lösung für die Erkennung des arabischen Skripts und bieten einen signifikanten Sprung in Genauigkeit und Effizienz.
Die Vision des Autonomen Rechnens (ACV), die vor über zwei Jahrzehnten vorgeschlagen wurde, sieht Rechensysteme vor, die sich selbst verwalten, ähnlich wie biologische Organismen, und sich nahtlos an sich ändernde Umgebungen anpassen. Trotz jahrzehntelanger Forschung bleibt die Realisierung von ACV aufgrund der dynamischen und komplexen Natur moderner Rechensysteme eine Herausforderung. Die jüngsten Fortschritte bei Großen Sprachmodellen (LLMs) bieten vielversprechende Lösungen für diese Herausforderungen, indem sie ihr umfangreiches Wissen, ihr Sprachverständnis und ihre Fähigkeiten zur Aufgabenautomatisierung nutzen. Dieser Artikel untersucht die Machbarkeit der Verwirklichung von ACV durch ein auf LLMs basierendes Multi-Agenten-Framework für das Management von Mikroservices. Wir stellen eine fünfstufige Taxonomie für die autonome Service-Wartung vor und präsentieren einen Online-Evaluierungsbenchmark, der auf dem Sock Shop Mikroservice-Demoprojekt basiert, um die Leistung unseres Frameworks zu bewerten. Unsere Ergebnisse zeigen signifikante Fortschritte bei der Erreichung von Autonomiestufe 3 auf und betonen die Wirksamkeit von LLMs bei der Erkennung und Behebung von Problemen innerhalb von Mikroservice-Architekturen. Diese Studie trägt zur Weiterentwicklung des autonomen Rechnens bei, indem sie die Integration von LLMs in Mikroservice-Management-Frameworks vorantreibt und den Weg für adaptivere und selbstverwaltende Rechensysteme ebnet. Der Code wird unter https://aka.ms/ACV-LLM verfügbar sein.
Da Sprachmodelle (LMs) nun viele anspruchsvolle Aufgaben besser bewältigen als durchschnittliche Menschen, wird es zunehmend schwieriger, anspruchsvolle, hochwertige und realistische Bewertungen zu entwickeln. Wir gehen dieses Problem an, indem wir die Fähigkeiten von LMs untersuchen, Code zur Lösung realer wissenschaftlicher Forschungsprobleme zu generieren. Unter Einbeziehung von Eingaben von Wissenschaftlern und KI-Forschern in 16 verschiedenen naturwissenschaftlichen Teilbereichen, darunter Mathematik, Physik, Chemie, Biologie und Materialwissenschaft, haben wir einen von Wissenschaftlern kuratierten Codierungs-Benchmark namens SciCode erstellt. Die Probleme in SciCode lassen sich natürlich in mehrere Teilprobleme zerlegen, die jeweils Wissensabruf, Schlussfolgerungen und Codesynthese beinhalten. Insgesamt enthält SciCode 338 Teilprobleme, die aus 80 anspruchsvollen Hauptproblemen abgeleitet sind. Es bietet optionale Beschreibungen, die nützliche wissenschaftliche Hintergrundinformationen angeben, sowie von Wissenschaftlern annotierte Goldstandard-Lösungen und Testfälle zur Bewertung. Claude3.5-Sonnet, das am besten abschneidende Modell unter den getesteten, kann nur 4,6 % der Probleme in der realistischsten Umgebung lösen. Wir sind der Meinung, dass SciCode sowohl den Fortschritt zeitgenössischer LMs bei der Entwicklung zu hilfreichen wissenschaftlichen Assistenten zeigt als auch Einblicke in die Entwicklung und Bewertung wissenschaftlicher KI in der Zukunft gewährt.
Neue Entwicklungen im Training von Sprachmodellen haben gezeigt, dass es möglich ist, hochperformante Modelle zu erstellen, die klein genug sind, um auf einem Smartphone ausgeführt zu werden. Da diese Modelle in einer zunehmenden Anzahl von Bereichen eingesetzt werden, ist es entscheidend sicherzustellen, dass sie mit menschlichen Präferenzen und Sicherheitsüberlegungen in Einklang stehen. In diesem Bericht stellen wir unsere Methodik zur Sicherheitsausrichtung der Phi-3-Serie von Sprachmodellen vor. Wir haben einen "Break-Fix"-Zyklus verwendet, der mehrere Runden der Datensatzkuratierung, Sicherheitsnachbearbeitung, Benchmarking, Red Teaming und Identifizierung von Schwachstellen durchgeführt hat, um eine Vielzahl von Schadensbereichen in sowohl Einzel- als auch Mehrfachdurchläufen abzudecken. Unsere Ergebnisse deuten darauf hin, dass dieser Ansatz die Leistung der Phi-3-Modelle iterativ über eine breite Palette von verantwortungsvollen KI-Benchmarks verbessert hat.
Die Bereitstellung großer Sprachmodelle (LLMs) wird oft durch den Speicherbandbreite eingeschränkt, wobei der Hauptengpass die Kosten für die Übertragung der Modellparameter vom globalen Speicher der GPU in ihre Register sind. In Verbindung mit benutzerdefinierten Kernels, die die Dequantisierungs- und Matmul-Operationen verschmelzen, kann die Gewichtsquantisierung somit durch die Reduzierung der Menge an Speicherbewegungen schnellere Inferenzen ermöglichen. Die Entwicklung von leistungsstarken Kernels für gewichtsquantisierte LLMs birgt jedoch erhebliche Herausforderungen, insbesondere wenn die Gewichte auf nicht gleichmäßig teilbare Bitbreiten (z. B. 3 Bits) mit nicht einheitlicher, Lookup-Tabellen (LUT) Quantisierung komprimiert sind. In diesem Papier wird FLUTE beschrieben, eine flexible Lookup-Tabellen-Engine für LUT-quantisierte LLMs, die die offline-Umstrukturierung der quantisierten Gewichtsmatrix zur Minimierung von Bitmanipulationen im Zusammenhang mit dem Entpacken sowie die Vektorisierung und Duplizierung der Lookup-Tabelle zur Minderung von gemeinsamen Speicherbandbreitenbeschränkungen verwendet. Bei Batch-Größen < 32 und einer Quantisierungsgruppengröße von 128 (typisch bei LLM-Inferenzen) kann der FLUTE-Kernel 2-4x schneller sein als bestehende GEMM-Kernels. Als Anwendung von FLUTE untersuchen wir eine einfache Erweiterung der Lookup-Tabellen-basierten NormalFloat-Quantisierung und wenden sie auf die Quantisierung von LLaMA3 in verschiedenen Konfigurationen an, wobei wir eine wettbewerbsfähige Quantisierungsleistung gegen starke Baselines erzielen und gleichzeitig eine End-to-End-Durchsatzsteigerung von 1,5 bis 2 Mal erzielen.
In letzter Zeit hat das Feld der visuellen Textgenerierung dank der schnellen Fortschritte bei generativen Modellen signifikante Fortschritte gemacht. Es bleibt jedoch eine Herausforderung, hochwertige Textbilder in realen Szenarien zu erzeugen, da drei wesentliche Kriterien erfüllt sein müssen: (1) Treue: Die generierten Textbilder sollten fotorealistisch sein und die Inhalte sollten den in den gegebenen Bedingungen festgelegten entsprechen; (2) Vernünftigkeit: Die Regionen und Inhalte des generierten Texts sollten mit der Szene zusammenhängen; (3) Nützlichkeit: Die generierten Textbilder können verwandte Aufgaben (z. B. Texterkennung und -erkennung) erleichtern. Bei der Untersuchung stellen wir fest, dass bestehende Methoden, ob auf Rendering- oder Diffusionsbasis, kaum alle diese Aspekte gleichzeitig erfüllen können, was ihren Anwendungsbereich einschränkt. Daher schlagen wir in diesem Papier einen visuellen Textgenerator vor (bezeichnet als SceneVTG), der hochwertige Textbilder in freier Wildbahn erzeugen kann. SceneVTG nutzt ein Multimodales Großes Sprachmodell in einem Zwei-Stufen-Paradigma, um vernünftige Textregionen und -inhalte über mehrere Maßstäbe und Ebenen hinweg zu empfehlen, die von einem bedingten Diffusionsmodell als Bedingungen zur Generierung von Textbildern verwendet werden. Umfangreiche Experimente zeigen, dass der vorgeschlagene SceneVTG in Bezug auf Treue und Vernünftigkeit signifikant besser abschneidet als traditionelle Rendering-basierte Methoden und aktuelle Diffusions-basierte Methoden. Darüber hinaus bieten die generierten Bilder eine überlegene Nützlichkeit für Aufgaben, die Texterkennung und -erkennung beinhalten. Code und Datensätze sind auf AdvancedLiterateMachinery verfügbar.
Sparse Autoencoder (SAE) sind ein vielversprechender unüberwachter Ansatz zur Identifizierung von kausal relevanten und interpretierbaren linearen Merkmalen in den Aktivierungen eines Sprachmodells (LM). Um für nachgelagerte Aufgaben nützlich zu sein, müssen SAEs die Aktivierungen des LM treu zerlegen; jedoch muss die Zerlegung spärlich sein, um interpretierbar zu sein - zwei Ziele, die sich widersprechen. In diesem Paper stellen wir JumpReLU SAEs vor, die im Vergleich zu anderen aktuellen Fortschritten wie Gated und TopK SAEs einen State-of-the-Art Rekonstruktionsfidelität bei einem gegebenen Sparsamkeitsniveau auf Gemma 2 9B-Aktivierungen erreichen. Wir zeigen auch, dass diese Verbesserung nicht auf Kosten der Interpretierbarkeit erfolgt, durch manuelle und automatisierte Interpretierbarkeitsstudien. JumpReLU SAEs sind eine einfache Modifikation von Vanilla (ReLU) SAEs - bei der wir die ReLU durch eine diskontinuierliche JumpReLU-Aktivierungsfunktion ersetzen - und sind ähnlich effizient im Training und Betrieb. Durch die Verwendung von Straight-Through-Schätzern (STEs) auf eine fundierte Weise zeigen wir, wie es möglich ist, JumpReLU SAEs effektiv zu trainieren, trotz der diskontinuierlichen JumpReLU-Funktion, die im Vorwärtspass des SAE eingeführt wird. Ebenso nutzen wir STEs, um L0 direkt auf Sparsamkeit zu trainieren, anstatt auf Proxys wie L1 zu trainieren, um Probleme wie Schrumpfung zu vermeiden.
Mit den neuesten Modellen wurden signifikante Verbesserungen in der automatischen Audio-Beschriftung (AAC) erzielt. Allerdings sind diese Modelle aufgrund ihrer gesteigerten Leistungsfähigkeit zunehmend größer geworden. In dieser Arbeit schlagen wir ein Wissensvermittlungs (KD) Framework für AAC vor. Unsere Analyse zeigt, dass es bei den auf Encoder-Decoder basierenden AAC-Modellen effektiver ist, Wissen in den Encoder zu vermitteln im Vergleich zum Decoder. Zu diesem Zweck integrieren wir einen KD-Verlust auf Encoder-Ebene in das Training, zusätzlich zum standardmäßigen überwachten Verlust und dem KD-Verlust auf Sequenzebene. Wir untersuchen zwei KD-Methoden auf Encoder-Ebene, basierend auf dem mittleren quadratischen Fehler (MSE) und dem kontrastiven Verlust. Experimentelle Ergebnisse zeigen, dass der kontrastive KD robuster ist als der MSE KD und eine überlegene Leistung in datenarmen Situationen aufweist. Durch die Nutzung von ausschließlich Audio-Daten im Training im KD-Framework erreicht unser Schülermodell eine wettbewerbsfähige Leistung, mit einer Inferenzgeschwindigkeit, die 19-mal schneller ist. Eine Online-Demo ist verfügbar unter \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Wir präsentieren einen innovativen Ansatz zur Wiederherstellung von 3D-Form und ansichtsabhängigem Erscheinungsbild aus wenigen farbigen Bildern, der eine effiziente 3D-Rekonstruktion und die Synthese neuer Ansichten ermöglicht. Unsere Methode lernt eine implizite neuronale Repräsentation in Form einer Signierten Distanzfunktion (SDF) und eines Strahlungsfelds. Das Modell wird progressiv durch Ray-Marching-fähiges volumetrisches Rendern trainiert und mit lernfreien Multi-View-Stereo (MVS)-Hinweisen reguliert. Schlüssel zu unserem Beitrag ist eine neuartige implizite neuronale Formfunktionslernstrategie, die unsere SDF-Feld dazu ermutigt, so linear wie möglich in der Nähe des Niveausatzes zu sein, um das Training gegen Rauschen aus den Überwachungs- und Regularisierungssignalen zu robustifizieren. Ohne Verwendung von vortrainierten Priors erreicht unsere Methode, genannt SparseCraft, Spitzenleistungen sowohl bei der Synthese von neuen Ansichten als auch bei der Rekonstruktion aus spärlichen Ansichten in Standard-Benchmarks, wobei weniger als 10 Minuten für das Training benötigt werden.
In letzter Zeit hat die Text-zu-3D-Generierung erhebliche Aufmerksamkeit erregt und zu bemerkenswerten Leistungsverbesserungen geführt. Frühere Methoden nutzen End-to-End-3D-Generierungsmodelle zur Initialisierung von 3D-Gaußschen, Multi-View-Diffusionsmodelle zur Durchsetzung von Multi-View-Konsistenz und Text-zu-Bild-Diffusionsmodelle zur Verfeinerung von Details mit Score-Destillationsalgorithmen. Diese Methoden weisen jedoch zwei Einschränkungen auf. Erstens treten Konflikte in den Generierungsrichtungen auf, da verschiedene Modelle darauf abzielen, vielfältige 3D-Ressourcen zu erzeugen. Zweitens wurde das Problem der Über-Sättigung in der Score-Destillation nicht gründlich untersucht und gelöst. Um diese Einschränkungen anzugehen, schlagen wir PlacidDreamer vor, ein Text-zu-3D-Framework, das Initialisierung, Multi-View-Generierung und textkonditionierte Generierung mit einem einzigen Multi-View-Diffusionsmodell harmonisiert und gleichzeitig einen neuartigen Score-Destillationsalgorithmus einsetzt, um eine ausgewogene Sättigung zu erreichen. Um die Generierungsrichtung zu vereinheitlichen, führen wir das Latent-Plane-Modul ein, eine benutzerfreundliche Plug-in-Erweiterung, die es Multi-View-Diffusionsmodellen ermöglicht, eine schnelle Geometrierekonstruktion für die Initialisierung bereitzustellen und verbesserte Multi-View-Bilder zur Personalisierung des Text-zu-Bild-Diffusionsmodells zu liefern. Um das Problem der Über-Sättigung anzugehen, schlagen wir vor, die Score-Destillation als ein Multi-Objektiv-Optimierungsproblem zu betrachten und den Balanced Score Destillation-Algorithmus einzuführen, der eine Pareto-optimale Lösung bietet, die sowohl reichhaltige Details als auch ausgewogene Sättigung erreicht. Umfangreiche Experimente bestätigen die herausragenden Fähigkeiten unseres PlacidDreamer. Der Code ist verfügbar unter https://github.com/HansenHuang0823/PlacidDreamer.