Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieser Bericht stellt eine neue Familie von multimodalen Modellen vor, Gemini, die bemerkenswerte Fähigkeiten im Verständnis von Bildern, Audio, Video und Text aufweisen. Die Gemini-Familie besteht aus den Größen Ultra, Pro und Nano, die für Anwendungen von komplexen Denkaufgaben bis hin zu speicherbeschränkten On-Device-Anwendungen geeignet sind. Die Bewertung auf einer breiten Palette von Benchmarks zeigt, dass unser leistungsstärkstes Gemini Ultra-Modell den Stand der Technik in 30 von 32 dieser Benchmarks vorantreibt – insbesondere als erstes Modell, das die Leistung von menschlichen Experten im gut untersuchten Prüfungsbenchmark MMLU erreicht, und den Stand der Technik in jedem der 20 multimodalen Benchmarks, die wir untersucht haben, verbessert. Wir glauben, dass die neuen Fähigkeiten der Gemini-Modelle im cross-modalen Denken und Sprachverständnis eine Vielzahl von Anwendungsfällen ermöglichen werden, und wir diskutieren unseren Ansatz, sie verantwortungsvoll für Nutzer bereitzustellen.
Wir stellen VecFusion vor, eine neue neuronale Architektur, die Vektorschriften mit variierenden topologischen Strukturen und präzisen Kontrollpunktpositionen erzeugen kann. Unser Ansatz ist ein kaskadierendes Diffusionsmodell, das aus einem Raster-Diffusionsmodell gefolgt von einem Vektor-Diffusionsmodell besteht. Das Rastermodell erzeugt niedrigauflösende, rasterisierte Schriften mit zusätzlichen Kontrollpunktinformationen, die den globalen Stil und die Form der Schrift erfassen, während das Vektormodell Vektorschriften synthetisiert, die auf den niedrigauflösenden Rasterschriften der ersten Stufe basieren. Um lange und komplexe Kurven zu synthetisieren, verwendet unser Vektor-Diffusionsmodell eine Transformer-Architektur und eine neuartige Vektordarstellung, die die Modellierung vielfältiger Vektorgeometrie und die präzise Vorhersage von Kontrollpunkten ermöglicht. Unsere Experimente zeigen, dass im Gegensatz zu früheren generativen Modellen für Vektorgrafiken unser neues kaskadierendes Vektor-Diffusionsmodell Vektorschriften von höherer Qualität mit komplexen Strukturen und vielfältigen Stilen erzeugt.
Bilddiffusionsmodelle wurden in verschiedenen Aufgaben eingesetzt, wie beispielsweise der Text-zu-Bild-Generierung und der kontrollierbaren Bildsynthese. Aktuelle Forschungen haben Feinabstimmungsmethoden eingeführt, die subtile Anpassungen an den ursprünglichen Modellen vornehmen und vielversprechende Ergebnisse bei spezifischen Anpassungen von grundlegenden generativen Diffusionsmodellen erzielen. Anstatt das Hauptgerüst des Diffusionsmodells zu verändern, untersuchen wir die Rolle der Skip-Verbindung in U-Net und zeigen, dass hierarchische Merkmale, die langreichweitige Informationen zwischen Encoder und Decoder aggregieren, einen erheblichen Einfluss auf den Inhalt und die Qualität der Bildgenerierung haben. Basierend auf dieser Beobachtung schlagen wir ein effizientes generatives Feinabstimmungsframework vor, genannt SCEdit, das Skip-Verbindungen integriert und bearbeitet, indem ein leichtgewichtiges Feinabstimmungsmodul namens SC-Tuner verwendet wird. Darüber hinaus ermöglicht das vorgeschlagene Framework eine einfache Erweiterung zur kontrollierbaren Bildsynthese, indem verschiedene Bedingungen mit dem Controllable SC-Tuner injiziert werden, was das Netzwerkdesign für Multi-Bedingungs-Eingaben vereinfacht und vereinheitlicht. Unser SCEdit reduziert erheblich die Trainingsparameter, den Speicherbedarf und die Rechenkosten aufgrund seiner leichtgewichtigen Tuner, wobei die Rückwärtspropagation nur zu den Decoder-Blöcken durchgeführt wird. Umfangreiche Experimente, die für Aufgaben der Text-zu-Bild-Generierung und der kontrollierbaren Bildsynthese durchgeführt wurden, demonstrieren die Überlegenheit unserer Methode in Bezug auf Effizienz und Leistung. Projektseite: https://scedit.github.io/
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit in menschenähnlichem Denken und Generierungsfähigkeiten gezeigt, was umfangreiche Forschungen zu ihrer Anwendung bei der Lösung mathematischer Probleme fördert. Bisherige Arbeiten konzentrierten sich jedoch weitgehend auf textbasierte mathematische Probleme, mit begrenzter Untersuchung von Problemen, die geometrische Informationen beinhalten. Um diese Lücke zu schließen, zielen wir darauf ab, LLMs in die Lage zu versetzen, geometrische Probleme zu lösen, indem sie Bildinformationen verstehen. Wir analysieren zunächst die Grenzen aktueller Multimodaler Großer Sprachmodelle (MLLMs) in diesem Bereich: Sie haben Schwierigkeiten, grundlegende geometrische Elemente und ihre Beziehungen präzise zu erfassen. Um diese Herausforderungen zu bewältigen, nutzen wir die einzigartigen Eigenschaften geometrischer Probleme (wie die einzigartige geometrische Logikform und geometrische Skalierbarkeit) sowie die Fähigkeiten textbasierter LLMs, um einen angereicherten multimodalen Geometrie-Datensatz auf Basis bestehender Daten zu erstellen. Der erweiterte Datensatz, Geo170K, enthält mehr als 170.000 geometrische Bild-Beschreibungs- und Frage-Antwort-Paare. Mit unserem konstruierten Geo170K-Datensatz entwickeln wir G-LLaVA, das eine außergewöhnliche Leistung bei der Lösung geometrischer Probleme zeigt und GPT-4-V auf dem MathVista-Benchmark mit nur 7B Parametern deutlich übertrifft.
Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle wie Stable Diffusion und Imagen haben bedeutende Fortschritte bei der Erzeugung hochauflösender Bilder auf der Grundlage von Textbeschreibungen erzielt. Dennoch weisen viele generierte Bilder weiterhin Probleme wie Artefakte/Unplausibilitäten, Fehlausrichtungen mit den Textbeschreibungen und geringe ästhetische Qualität auf. Inspiriert vom Erfolg von Reinforcement Learning mit menschlichem Feedback (RLHF) für große Sprachmodelle, haben frühere Arbeiten menschlich bereitgestellte Bewertungen als Feedback zu generierten Bildern gesammelt und ein Belohnungsmodell trainiert, um die T2I-Generierung zu verbessern. In diesem Artikel erweitern wir das Feedback-Signal, indem wir (i) Bildregionen markieren, die unplausibel oder fehlausgerichtet mit dem Text sind, und (ii) annotieren, welche Wörter im Textprompt falsch dargestellt oder im Bild fehlen. Wir sammeln solch umfangreiches menschliches Feedback für 18.000 generierte Bilder und trainieren einen multimodalen Transformer, um das umfangreiche Feedback automatisch vorherzusagen. Wir zeigen, dass das vorhergesagte umfangreiche menschliche Feedback genutzt werden kann, um die Bildgenerierung zu verbessern, beispielsweise durch die Auswahl hochwertiger Trainingsdaten zur Feinabstimmung und Verbesserung der generativen Modelle oder durch die Erstellung von Masken mit vorhergesagten Heatmaps, um problematische Regionen zu inpainten. Bemerkenswerterweise verallgemeinern sich die Verbesserungen auf Modelle (Muse), die über diejenigen hinausgehen, die zur Generierung der Bilder verwendet wurden, für die menschliches Feedback gesammelt wurde (Stable Diffusion-Varianten).
Gaussian Splatting hat sich als leistungsstarke 3D-Darstellung etabliert, die die Vorteile sowohl expliziter (Mesh) als auch impliziter (NeRF) 3D-Darstellungen nutzt. In diesem Artikel streben wir an, Gaussian Splatting zu verwenden, um realistische animierbare Avatare aus textuellen Beschreibungen zu generieren und dabei die Einschränkungen (z. B. Flexibilität und Effizienz) zu überwinden, die durch Mesh- oder NeRF-basierte Darstellungen auferlegt werden. Eine naive Anwendung von Gaussian Splatting kann jedoch keine hochwertigen animierbaren Avatare erzeugen und leidet unter Lerninstabilität; es kann auch feine Avatar-Geometrien nicht erfassen und führt oft zu degenerierten Körperteilen. Um diese Probleme zu lösen, schlagen wir zunächst eine primitive-basierte 3D-Gaussian-Darstellung vor, bei der Gaussians innerhalb von posengesteuerten Primitiven definiert werden, um die Animation zu erleichtern. Zweitens schlagen wir vor, um das Lernen von Millionen von Gaussians zu stabilisieren und zu amortisieren, neuronale implizite Felder zu verwenden, um die Gaussian-Attribute (z. B. Farben) vorherzusagen. Schließlich schlagen wir, um feine Avatar-Geometrien zu erfassen und detaillierte Meshes zu extrahieren, einen neuartigen SDF-basierten impliziten Mesh-Lernansatz für 3D-Gaussians vor, der die zugrunde liegenden Geometrien regularisiert und hochdetaillierte texturierte Meshes extrahiert. Unsere vorgeschlagene Methode, GAvatar, ermöglicht die großflächige Erzeugung vielfältiger animierbarer Avatare unter Verwendung nur von Textprompts. GAvatar übertrifft bestehende Methoden deutlich in Bezug auf sowohl das Erscheinungsbild als auch die geometrische Qualität und erreicht eine extrem schnelle Darstellung (100 fps) bei einer Auflösung von 1K.
In letzter Zeit hat das Verständnis von 3D-Daten an Popularität gewonnen, um autonomen Agenten die Durchführung weiterer Entscheidungsprozesse zu erleichtern. Allerdings sind bestehende 3D-Datensätze und Methoden oft auf spezifische Aufgaben beschränkt. Andererseits haben die jüngsten Fortschritte bei Large Language Models (LLMs) und Multimodal Language Models (MLMs) außergewöhnliche Leistungen bei allgemeinen Sprach- und Bildverarbeitungsaufgaben gezeigt. Daher ist es interessant, das Potenzial von MLMs zu erschließen, um sie als 3D-Generalisten für breitere Aufgaben einzusetzen. Allerdings hat sich die aktuelle Forschung zu MLMs weniger auf 3D-Aufgaben konzentriert, was auf den Mangel an groß angelegten 3D-Instruktionsdatensätzen zurückzuführen ist. In dieser Arbeit stellen wir einen umfassenden 3D-Instruktionsdatensatz namens M3DBench vor, der folgende Merkmale aufweist: 1) Er unterstützt allgemeine multimodale Anweisungen, die mit Text, Bildern, 3D-Objekten und anderen visuellen Eingabeaufforderungen verknüpft sind. 2) Er vereint diverse 3D-Aufgaben sowohl auf regionaler als auch auf Szenenebene und deckt eine Vielzahl grundlegender Fähigkeiten in realen 3D-Umgebungen ab. 3) Es handelt sich um einen groß angelegten 3D-Instruktionsdatensatz mit über 320.000 Instruktions-Antwort-Paaren. Darüber hinaus etablieren wir einen neuen Benchmark zur Bewertung der Leistung großer Modelle beim Verständnis multimodaler 3D-Eingabeaufforderungen. Umfangreiche Experimente demonstrieren die Effektivität unseres Datensatzes und der Baseline, die allgemeine 3D-zentrierte Aufgaben unterstützen und zukünftige Forschungen inspirieren können.
Der zunehmende Fokus auf Multimodale Große Sprachmodelle (MLLMs), wie beispielsweise GPT-4V(ision) von OpenAI, hat einen bedeutenden Trend sowohl in der Wissenschaft als auch in der Industrie markiert. Diese Modelle statten Große Sprachmodelle (LLMs) mit leistungsstarken Fähigkeiten im Bereich des visuellen Verständnisses aus, wodurch sie in der Lage sind, diverse multimodale Aufgaben zu bewältigen. Kürzlich hat Google Gemini veröffentlicht, sein neuestes und leistungsfähigstes MLLM, das von Grund auf für Multimodalität entwickelt wurde. Angesichts der überlegenen Fähigkeiten im Bereich des logischen Denkens stellt sich die Frage, ob Gemini die führende Position von GPT-4V im Bereich des multimodalen Lernens herausfordern kann. In diesem Papier präsentieren wir eine vorläufige Untersuchung der visuellen Verständnisfähigkeiten von Gemini Pro, die vier Domänen umfassend abdeckt: grundlegende Wahrnehmung, fortgeschrittene Kognition, anspruchsvolle visuelle Aufgaben und verschiedene Expertenfähigkeiten. Wir vergleichen Gemini Pro mit dem state-of-the-art GPT-4V, um seine oberen Grenzen zu bewerten, sowie mit dem neuesten Open-Source-MLLM, Sphinx, das die Lücke zwischen manuellen Bemühungen und Black-Box-Systemen aufzeigt. Die qualitativen Beispiele zeigen, dass GPT-4V und Gemini zwar unterschiedliche Antwortstile und Präferenzen aufweisen, jedoch vergleichbare Fähigkeiten im visuellen Denken zeigen können, während Sphinx in Bezug auf die Domänengeneralisierung noch hinterherhinkt. Insbesondere neigt GPT-4V dazu, detaillierte Erklärungen und Zwischenschritte zu liefern, während Gemini bevorzugt eine direkte und prägnante Antwort gibt. Die quantitative Auswertung auf dem populären MME-Benchmark demonstriert ebenfalls das Potenzial von Gemini, ein starker Herausforderer für GPT-4V zu sein. Unsere frühe Untersuchung von Gemini zeigt auch einige allgemeine Probleme von MLLMs auf, was darauf hindeutet, dass noch ein beträchtlicher Weg bis zur künstlichen allgemeinen Intelligenz zurückzulegen ist. Unser Projekt zur Verfolgung des Fortschritts von MLLM ist unter https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models verfügbar.
Visuelles Storytelling verwendet oft Bilder mit untypischen Seitenverhältnissen wie Rollbilder, Comicstreifen und Panoramen, um eine ausdrucksstarke und fesselnde Erzählung zu schaffen. Obwohl generative KI große Erfolge erzielt und das Potenzial gezeigt hat, die Kreativbranche zu verändern, bleibt es eine Herausforderung, kohärente und ansprechende Inhalte mit beliebiger Größe sowie kontrollierbarem Stil, Konzept und Layout zu generieren, die alle für visuelles Storytelling entscheidend sind. Um die Schwächen bisheriger Methoden wie repetitive Inhalte, Stilininkonsistenz und mangelnde Kontrollierbarkeit zu überwinden, schlagen wir MagicScroll vor, ein mehrschichtiges, progressives diffusionsbasiertes Bildgenerierungsframework mit einem neuartigen semantikbewussten Denoising-Prozess. Das Modell ermöglicht eine fein abgestimmte Kontrolle über das generierte Bild auf Objekt-, Szenen- und Hintergrundebene mit Text-, Bild- und Layoutbedingungen. Wir etablieren zudem den ersten Benchmark für die Generierung von Bildern mit untypischen Seitenverhältnissen für visuelles Storytelling, einschließlich Medien wie Gemälde, Comics und filmische Panoramen, mit maßgeschneiderten Metriken für eine systematische Bewertung. Durch vergleichende und Ablationsstudien zeigt MagicScroll vielversprechende Ergebnisse in der Ausrichtung auf den narrativen Text, der Verbesserung der visuellen Kohärenz und der Ansprache des Publikums. Wir planen, den Code und den Benchmark zu veröffentlichen, um eine bessere Zusammenarbeit zwischen KI-Forschern und kreativen Praktikern im Bereich des visuellen Storytellings zu fördern.
Sprachmodelle (LMs) berichten üblicherweise die Perplexität auf monolithischen Daten, die vom Training ausgeschlossen wurden. Implizit oder explizit setzt sich diese Daten aus Domänen zusammen – unterschiedlichen Verteilungen von Sprache. Anstatt anzunehmen, dass die Perplexität auf einer Verteilung auf andere extrapoliert werden kann, misst die Perplexity Analysis for Language Model Assessment (Paloma) die Anpassung von LMs an 585 Textdomänen, die von nytimes.com bis hin zu r/depression auf Reddit reichen. Wir laden Einreichungen zu unserem Benchmark ein und organisieren die Ergebnisse nach Vergleichbarkeit basierend auf der Einhaltung von Richtlinien wie der Entfernung von Benchmark-Kontamination aus dem Vortraining. Einreichungen können auch Parameter und die Anzahl der Trainings-Tokens erfassen, um Vergleiche der Pareto-Effizienz für die Leistung als Funktion dieser Kostenmaße zu ermöglichen. Wir füllen unseren Benchmark mit Ergebnissen von 6 Baselines, die auf gängigen Korpora vortrainiert wurden. In Fallstudien demonstrieren wir Analysen, die mit Paloma möglich sind, wie z.B. die Erkenntnis, dass ein Vortraining ohne Daten über Common Crawl hinaus zu einer inkonsistenten Anpassung an viele Domänen führt.
Aktuelle diffusionsbasierte Bildbearbeitungsansätze haben beeindruckende Bearbeitungsfähigkeiten bei Bildern mit einfachen Kompositionen gezeigt. Lokalisierte Bearbeitungen in komplexen Szenarien wurden in der Literatur jedoch noch nicht umfassend untersucht, obwohl die praktischen Anforderungen dafür stetig wachsen. Bestehende maskenbasierte Inpainting-Methoden sind nicht in der Lage, die zugrunde liegende Struktur innerhalb des Bearbeitungsbereichs zu erhalten. Gleichzeitig zeigen maskenfreie, auf Aufmerksamkeit basierende Methoden oft Bearbeitungslecks und Fehlausrichtungen bei komplexeren Kompositionen. In dieser Arbeit entwickeln wir MAG-Edit, eine trainingsfreie Optimierungsmethode für die Inferenzphase, die lokalisierte Bildbearbeitungen in komplexen Szenarien ermöglicht. Insbesondere optimiert MAG-Edit das Rausch-Latenzmerkmal in Diffusionsmodellen, indem zwei maskenbasierte Cross-Attention-Bedingungen des Bearbeitungstokens maximiert werden, was wiederum die lokale Ausrichtung mit dem gewünschten Prompt schrittweise verbessert. Umfangreiche quantitative und qualitative Experimente belegen die Effektivität unserer Methode bei der Erreichung von Textausrichtung und Strukturerhaltung für lokalisierte Bearbeitungen in komplexen Szenarien.
Diese Arbeit untersucht die Präferenzdestillation für große visuell-sprachliche Modelle (LVLMs), um deren Fähigkeit zu verbessern, hilfreiche und treue Antworten zu generieren, die den visuellen Kontext verankern. Zunächst erstellen wir einen Vision-Language-Feedback-Datensatz (VLFeedback) unter Verwendung von KI-Annotation. Konkret werden Antworten von Modellen generiert, die aus 12 LVLMs stammen und auf multimodalen Anweisungen basieren, die aus verschiedenen Datensätzen stammen. Wir verwenden GPT-4V, um die generierten Ausgaben hinsichtlich Hilfsbereitschaft, visueller Treue und ethischer Überlegungen zu bewerten. Darüber hinaus wird die Präferenzüberwachung durch die Methode der direkten Präferenzoptimierung (DPO) in Qwen-VL-Chat destilliert. Das resultierende Modell Silkie erzielt eine relative Verbesserung von 6,9 % bzw. 9,5 % auf dem MME-Benchmark in Bezug auf die Wahrnehmungs- und Kognitionsfähigkeiten. Silkie zeigt auch eine reduzierte Halluzination, indem es einen neuen State-of-the-Art-Score von 3,02 auf dem MMHal-Benchmark erreicht. Weitere Analysen zeigen, dass DPO mit unserem VLFeedback-Datensatz hauptsächlich die feinkörnige Wahrnehmung und die komplexen Kognitionsfähigkeiten von LVLMs steigert, was zu umfassenderen Verbesserungen im Vergleich zu von Menschen annotierten Präferenzdatensätzen führt.
Diffusionsmodelle haben bedeutende Fortschritte bei der Erzeugung hochwertiger Bilder erzielt, doch ihre Anwendung auf die Videogenerierung bleibt aufgrund der Komplexität zeitlicher Bewegungen eine Herausforderung. Zero-Shot-Videobearbeitung bietet eine Lösung, indem vortrainierte Bild-Diffusionsmodelle genutzt werden, um Quellvideos in neue zu übersetzen. Dennoch haben bestehende Methoden Schwierigkeiten, strikte zeitliche Konsistenz und effizienten Speicherverbrauch aufrechtzuerhalten. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, um die zeitliche Konsistenz in generierten Videos zu verbessern, indem Self-Attention-Tokens über Frames hinweg zusammengeführt werden. Durch die Ausrichtung und Komprimierung zeitlich redundanter Tokens über Frames hinweg verbessert unsere Methode die zeitliche Kohärenz und reduziert den Speicherverbrauch bei Self-Attention-Berechnungen. Die Zusammenführungsstrategie passt Tokens entsprechend der zeitlichen Korrespondenz zwischen Frames an und erleichtert so eine natürliche zeitliche Konsistenz in den generierten Videoframes. Um die Komplexität der Videoverarbeitung zu bewältigen, teilen wir Videos in Abschnitte auf und entwickeln eine intra-Abschnitt-lokale Token-Zusammenführung sowie eine inter-Abschnitt-globale Token-Zusammenführung, wodurch sowohl kurzfristige Videokontinuität als auch langfristige Inhaltskonsistenz sichergestellt werden. Unser Ansatz zur Videobearbeitung erweitert nahtlos die Fortschritte in der Bildbearbeitung auf die Videobearbeitung und erzielt im Vergleich zu state-of-the-art-Methoden überzeugende Ergebnisse in Bezug auf die zeitliche Konsistenz.
Spekulative Dekodierung steigert die Effizienz von großen Sprachmodellen (LLMs), indem ein Entwurfsmodell genutzt wird, um Vorlagen für ein größeres Zielmodell zur Überprüfung zu erstellen. Allerdings beinhaltet das Entwerfen in der spekulativen Dekodierung eine langsame autoregressive Generierung und die Erzeugung von Tokens unterschiedlicher Bedeutung mit der gleichen Zeitzuweisung. Diese beiden Ineffizienzen führen zu einer suboptimalen Leistung. Um dieses Problem zu lösen, führen wir Cascade Speculative Drafting (CS. Drafting) ein, einen neuartigen Ansatz, der zwei Arten von Kaskaden verwendet. Die vertikale Kaskade eliminiert die autoregressive Generierung aus neuronalen Modellen. Die horizontale Kaskade ermöglicht eine effiziente Zeitzuweisung beim Entwerfen, deren Optimalität durch unsere theoretische Analyse gestützt wird. Durch die Kombination beider Kaskaden hat unser CS. Drafting-Algorithmus in unseren Experimenten eine zusätzliche Beschleunigung von bis zu 72 Prozent gegenüber der spekulativen Dekodierung erreicht, während die gleiche Ausgabeverteilung beibehalten wird.
Große Sprachmodelle (LLMs) werden zunehmend für komplexe, mehrstufige Planungsaufgaben eingesetzt, wobei der Schritt der Werkzeugabfrage (Tool Retrieval, TR) entscheidend für den erfolgreichen Abschluss ist. Zwei verbreitete Ansätze für TR sind die einstufige Abfrage, bei der die vollständige Anfrage genutzt wird, und die sequenzielle Abfrage mittels Aufgabenzerlegung (Task Decomposition, TD), bei der eine vollständige Anfrage in diskrete atomare Teilaufgaben unterteilt wird. Während die einstufige Abfrage die Flexibilität fehlt, um „Inter-Tool-Abhängigkeiten“ zu handhaben, erfordert der TD-Ansatz die Aufrechterhaltung der „Teilaufgaben-Werkzeug-Atomaritäts-Ausrichtung“, da sich die Werkzeugauswahl dynamisch entwickeln kann. Um diese Einschränkungen zu überwinden, stellen wir das Progressive Tool Retrieval to Improve Planning (ProTIP)-Framework vor. ProTIP ist ein leichtgewichtiges, auf kontrastivem Lernen basierendes Framework, das implizit TD durchführt, ohne explizit Teilaufgabenlabels zu benötigen, und gleichzeitig die Teilaufgaben-Werkzeug-Atomarität beibehält. Auf dem ToolBench-Datensatz übertrifft ProTIP den auf ChatGPT basierenden TD-Ansatz deutlich, mit einer Verbesserung von 24 % bei Recall@K=10 für TR und einer Steigerung von 41 % bei der Werkzeuggenauigkeit für die Planerstellung.
Der Erfolg großer Sprachmodelle hat die Evaluierungsparadigmen in der natürlichen Sprachverarbeitung (NLP) verändert. Das Interesse der Community hat sich zunehmend darauf verlagert, NLP-Modelle über viele Aufgaben, Domänen und Datensätze hinweg zu vergleichen, oft in einem extremen Maßstab. Dies stellt neue technische Herausforderungen dar: Die Bemühungen beim Aufbau von Datensätzen und Modellen waren fragmentiert, und ihre Formate und Schnittstellen sind inkompatibel. Infolgedessen sind oft umfangreiche (Neu-)Implementierungsarbeiten erforderlich, um faire und kontrollierte Vergleiche in großem Maßstab durchzuführen. Catwalk zielt darauf ab, diese Probleme zu lösen. Catwalk bietet eine einheitliche Schnittstelle zu einer breiten Palette bestehender NLP-Datensätze und -Modelle, die sowohl kanonisches überwachtes Training und Feinabstimmung als auch modernere Paradigmen wie In-Context-Learning umfassen. Seine sorgfältig gestalteten Abstraktionen ermöglichen einfache Erweiterungen auf viele andere. Catwalk senkt die Hürden für die Durchführung kontrollierter Experimente in großem Maßstab erheblich. Beispielsweise haben wir über 64 Modelle auf über 86 Datensätzen mit einem einzigen Befehl feinabgestimmt und evaluiert, ohne Code schreiben zu müssen. Catwalk wird vom AllenNLP-Team am Allen Institute for Artificial Intelligence (AI2) gepflegt und ist ein fortlaufendes Open-Source-Projekt: https://github.com/allenai/catwalk.
Wissensdistillationsmethoden haben sich kürzlich als vielversprechende Richtung erwiesen, um die Synthese großskaliger Diffusionsmodelle zu beschleunigen, indem sie nur wenige Inferenzschritte erfordern. Obwohl in letzter Zeit mehrere leistungsstarke Distillationsmethoden vorgeschlagen wurden, ist die Gesamtqualität der Schüler-Samples typischerweise geringer im Vergleich zu denen des Lehrers, was ihre praktische Anwendung behindert. In dieser Arbeit untersuchen wir die relative Qualität der Samples, die vom Lehrer-Text-zu-Bild-Diffusionsmodell und seiner destillierten Schülerversion erzeugt werden. Als unsere wichtigste empirische Erkenntnis entdecken wir, dass ein beachtlicher Teil der Schüler-Samples eine überlegene Treue im Vergleich zu denen des Lehrers aufweist, trotz der „approximativen“ Natur des Schülers. Basierend auf dieser Erkenntnis schlagen wir eine adaptive Zusammenarbeit zwischen Schüler- und Lehrer-Diffusionsmodellen für eine effektive Text-zu-Bild-Synthese vor. Konkret erzeugt das destillierte Modell das initiale Sample, und dann entscheidet ein Orakel, ob es weitere Verbesserungen mit einem langsamen Lehrermodell benötigt. Umfangreiche Experimente zeigen, dass die entwickelte Pipeline state-of-the-art Text-zu-Bild-Alternativen für verschiedene Inferenzbudgets in Bezug auf menschliche Präferenz übertrifft. Darüber hinaus kann der vorgeschlagene Ansatz natürlich in populären Anwendungen wie textgesteuerter Bildbearbeitung und kontrollierter Generierung verwendet werden.
Trainingsfreie geführte Stichprobenentnahme in Diffusionsmodellen nutzt vorgefertigte, vortrainierte Netzwerke, wie beispielsweise ein Modell zur ästhetischen Bewertung, um den Generierungsprozess zu steuern. Aktuelle Algorithmen für trainingsfreie geführte Stichprobenentnahme ermitteln die Führungsenergiefunktion basierend auf einer Ein-Schritt-Schätzung des sauberen Bildes. Da die vorgefertigten, vortrainierten Netzwerke jedoch auf sauberen Bildern trainiert wurden, kann die Ein-Schritt-Schätzung des sauberen Bildes ungenau sein, insbesondere in den frühen Phasen des Generierungsprozesses in Diffusionsmodellen. Dies führt dazu, dass die Führung in den frühen Zeitschritten ungenau ist. Um dieses Problem zu überwinden, schlagen wir Symplectic Adjoint Guidance (SAG) vor, das die Gradientenführung in zwei inneren Stufen berechnet. Zunächst schätzt SAG das saubere Bild über n Funktionsaufrufe, wobei n als flexibler Hyperparameter dient, der an spezifische Bildqualitätsanforderungen angepasst werden kann. Zweitens verwendet SAG die symplektische adjungierte Methode, um die Gradienten präzise und effizient in Bezug auf die Speicheranforderungen zu ermitteln. Umfangreiche Experimente zeigen, dass SAG im Vergleich zu den Baselines Bilder mit höherer Qualität sowohl in geführten Bild- als auch in Videogenerierungsaufgaben erzeugt.
Dieses Papier stellt einen bahnbrechenden 3D-volumetrischen Encoder vor, der für die Text-zu-3D-Generierung entwickelt wurde. Um die Trainingsdaten für das Diffusionsmodell zu skalieren, wurde ein leichtgewichtiges Netzwerk entwickelt, um effizient Feature-Volumen aus Multi-View-Bildern zu erzeugen. Die 3D-Volumen werden anschließend mit einem 3D U-Net auf einem Diffusionsmodell für die Text-zu-3D-Generierung trainiert. Diese Forschung geht zudem auf die Herausforderungen ungenauer Objektbeschreibungen und hochdimensionaler Feature-Volumen ein. Das vorgeschlagene Modell, das auf dem öffentlichen Objaverse-Datensatz trainiert wurde, zeigt vielversprechende Ergebnisse bei der Erzeugung vielfältiger und erkennbarer Proben aus Textprompts. Besonders hervorzuheben ist, dass es eine präzisere Kontrolle über die Eigenschaften von Objektteilen durch textuelle Hinweise ermöglicht und die Kreativität des Modells fördert, indem es mehrere Konzepte nahtlos in einem einzelnen Objekt kombiniert. Diese Forschung leistet einen bedeutenden Beitrag zum Fortschritt der 3D-Generierung, indem sie eine effiziente, flexible und skalierbare Darstellungsmethodik einführt. Der Code ist unter https://github.com/tzco/VolumeDiffusion verfügbar.
Wir schlagen eine Methode zur dynamischen Szenenrekonstruktion mit deformierbaren 3D-Gaußverteilungen vor, die speziell für monokulare Videos entwickelt wurde. Aufbauend auf der Effizienz des Gauß-Splatting erweitert unser Ansatz die Darstellung, um dynamische Elemente durch eine deformierbare Menge von Gaußverteilungen in einem kanonischen Raum und ein zeitabhängiges Deformationsfeld, das durch ein mehrschichtiges Perzeptron (MLP) definiert wird, zu berücksichtigen. Darüber hinaus gehen wir davon aus, dass die meisten natürlichen Szenen große Bereiche aufweisen, die statisch bleiben, und ermöglichen es dem MLP, seine Darstellungskraft zu fokussieren, indem zusätzlich eine statische Gauß-Punktwolke einbezogen wird. Die zusammengefügten dynamischen und statischen Punktwolken bilden die Eingabe für den Gauß-Splatting-Rasterizer, was eine Echtzeit-Rendering ermöglicht. Die differenzierbare Pipeline wird end-to-end mit einem selbstüberwachten Rendering-Verlust optimiert. Unsere Methode erzielt Ergebnisse, die mit state-of-the-art dynamischen Neural Radiance Field-Methoden vergleichbar sind, während sie eine viel schnellere Optimierung und Rendering ermöglicht. Projektwebsite: https://lynl7130.github.io/gaufre/index.html