Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die End-to-End-Generierung von Musik-Audio mithilfe von Deep-Learning-Techniken hat in letzter Zeit eine explosionsartige Zunahme an Aktivitäten erlebt. Die meisten Modelle konzentrieren sich jedoch darauf, vollständig gemischte Musik als Reaktion auf abstrakte Konditionierungsinformationen zu erzeugen. In dieser Arbeit präsentieren wir ein alternatives Paradigma für die Entwicklung von Musikgenerationsmodellen, die auf musikalischen Kontext hören und darauf reagieren können. Wir beschreiben, wie ein solches Modell mit einer nicht-autoregressiven, Transformer-basierten Modellarchitektur konstruiert werden kann, und stellen eine Reihe neuartiger architektonischer und Sampling-Verbesserungen vor. Wir trainieren die beschriebene Architektur sowohl auf einem Open-Source- als auch auf einem proprietären Datensatz. Die erzeugten Modelle werden anhand standardisierter Qualitätsmetriken sowie eines neuen Ansatzes basierend auf Music-Information-Retrieval-Deskriptoren evaluiert. Das resultierende Modell erreicht die Audioqualität von state-of-the-art, textkonditionierten Modellen und zeigt gleichzeitig eine starke musikalische Kohärenz mit seinem Kontext.
Kleinere Modelle bieten verschiedene rechnerische Vorteile, doch inwieweit die Größe für die Problemlösungsfähigkeiten entscheidend ist, bleibt eine offene Frage. Insbesondere für das Lösen von Mathematikaufgaben der Grundschule liegt die bisher kleinste Modellgröße, die erforderlich ist, um die 80\%-Marke auf dem GSM8K-Benchmark zu überschreiten, bei 34B. Unsere Arbeit untersucht, wie hochwertige Datensätze der Schlüssel für kleine Sprachmodelle sein könnten, um mathematisches Denken zu erlernen. Wir stellen TinyGSM vor, einen synthetischen Datensatz von 12,3 Millionen Mathematikaufgaben der Grundschule, die mit Python-Lösungen gepaart sind und vollständig von GPT-3.5 generiert wurden. Nach dem Feinabstimmen auf TinyGSM stellen wir fest, dass ein Duo aus einem 1,3B-Generierungsmodell und einem 1,3B-Verifizierermodell eine Genauigkeit von 81,5\% erreichen kann, was bestehende Modelle, die um Größenordnungen größer sind, übertrifft. Dies steht auch im Wettbewerb mit der Leistung des GPT-3.5-„Lehrer“-Modells (77,4\%), aus dem die Trainingsdaten unseres Modells generiert wurden. Unser Ansatz ist einfach und besteht aus zwei Schlüsselkomponenten: 1) dem hochwertigen Datensatz TinyGSM, 2) der Verwendung eines Verifizierers, der die endgültigen Ausgaben aus mehreren Kandidatengenerierungen auswählt.
Menschen verbringen eine enorme Menge Zeit an digitalen Geräten über grafische Benutzeroberflächen (GUIs), wie beispielsweise Computer- oder Smartphone-Bildschirme. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Verfassen von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und mit ihnen zu interagieren, was ihr Potenzial zur Steigerung des Automatisierungsgrades einschränkt. In diesem Artikel stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das sich auf das Verständnis und die Navigation von GUIs spezialisiert hat. Durch die Verwendung sowohl von niedrigauflösenden als auch hochauflösenden Bildencodern unterstützt CogAgent Eingaben mit einer Auflösung von 1120*1120, wodurch es in der Lage ist, winzige Seitenelemente und Texte zu erkennen. Als allgemeines visuelles Sprachmodell erreicht CogAgent den Stand der Technik auf fünf textlastigen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent, das ausschließlich Screenshots als Eingabe verwendet, übertrifft LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten, bei PC- und Android-GUI-Navigationsaufgaben – Mind2Web und AITW – und setzt damit neue Maßstäbe. Das Modell und die Codes sind unter https://github.com/THUDM/CogVLM verfügbar.
Konsistenzmodelle haben ihre leistungsstarke Fähigkeit bei der effizienten Bildgenerierung unter Beweis gestellt und ermöglichen die Synthese in nur wenigen Sampling-Schritten, wodurch die hohen Rechenkosten von Diffusionsmodellen reduziert werden. Allerdings ist das Konsistenzmodell in der anspruchsvolleren und ressourcenintensiveren Videogenerierung noch wenig erforscht. In diesem Bericht stellen wir das VideoLCM-Framework vor, um diese Lücke zu schließen. Es nutzt das Konzept der Konsistenzmodelle aus der Bildgenerierung, um Videos mit minimalen Schritten effizient zu synthetisieren und dabei eine hohe Qualität zu bewahren. VideoLCM baut auf bestehenden latenten Video-Diffusionsmodellen auf und integriert Konsistenz-Distillationstechniken für das Training des latenten Konsistenzmodells. Experimentelle Ergebnisse zeigen die Effektivität von VideoLCM in Bezug auf Recheneffizienz, Bildtreue und zeitliche Konsistenz. Bemerkenswerterweise erreicht VideoLCM eine hochwertige und flüssige Videosynthese mit nur vier Sampling-Schritten, was das Potenzial für Echtzeitsynthese verdeutlicht. Wir hoffen, dass VideoLCM als einfache, aber effektive Basis für nachfolgende Forschung dienen kann. Der Quellcode und die Modelle werden öffentlich zugänglich sein.
Kurationsmethoden für massive Vision-Sprache-Datensätze stehen vor einem Kompromiss zwischen der Größe des Datensatzes und seiner Qualität. Allerdings sind selbst die qualitativ hochwertigsten verfügbaren kuratierten Bildbeschreibungen bei weitem zu kurz, um die reichhaltigen visuellen Details eines Bildes zu erfassen. Um den Wert von dichten und hochgradig ausgerichteten Bild-Text-Paaren zu demonstrieren, haben wir den Densely Captioned Images (DCI)-Datensatz erstellt, der 8012 natürliche Bilder enthält, die von Menschen mit maskenausgerichteten Beschreibungen annotiert wurden, die im Durchschnitt über 1000 Wörter umfassen. Mit präzisen und zuverlässigen Beschreibungen, die spezifischen Bildbereichen zugeordnet sind, können wir das Verständnis von Vision-Sprache-Modellen (VLMs) für Bildinhalte mit einer neuartigen Aufgabe evaluieren, bei der jede Beschreibung mit ihrem entsprechenden Bildausschnitt abgeglichen wird. Da aktuelle Modelle oft auf 77 Text-Token beschränkt sind, führen wir auch eine zusammengefasste Version (sDCI) ein, bei der die Länge jeder Beschreibung begrenzt ist. Wir zeigen, dass moderne Techniken, die Fortschritte bei Standard-Benchmarks erzielen, nicht mit einer signifikanten Verbesserung bei unserem sDCI-basierten Benchmark korrespondieren. Schließlich finetunen wir CLIP mit sDCI und zeigen deutliche Verbesserungen gegenüber der Baseline trotz eines kleinen Trainingsdatensatzes. Mit der Veröffentlichung des ersten von Menschen annotierten dichten Bildbeschreibungsdatensatzes hoffen wir, die Entwicklung neuer Benchmarks oder Feinabstimmungsmethoden für die nächste Generation von VLMs zu ermöglichen.
Aktuelle Diffusions- oder Flow-basierte generative Modelle für 3D-Formen lassen sich in zwei Kategorien einteilen: die Destillation vortrainierter 2D-Bilddiffusionsmodelle und das direkte Training auf 3D-Formen. Beim Training eines Diffusions- oder Flow-Modells auf 3D-Formen ist die Wahl der Formrepräsentation eine entscheidende Designentscheidung. Eine effektive Formrepräsentation muss drei Designprinzipien erfüllen: Sie sollte eine effiziente Konvertierung großer 3D-Datensätze in die Repräsentationsform ermöglichen; sie sollte eine gute Balance zwischen Approximationskraft und Parameteranzahl bieten; und sie sollte eine einfache tensorielle Form haben, die mit bestehenden leistungsstarken neuronalen Architekturen kompatibel ist. Während Standard-3D-Formrepräsentationen wie volumetrische Gitter und Punktwolken nicht alle diese Prinzipien gleichzeitig erfüllen, befürworten wir in diesem Artikel eine neue Repräsentation, die dies tut. Wir stellen Mosaic-SDF (M-SDF) vor: eine einfache 3D-Formrepräsentation, die die Signed Distance Function (SDF) einer gegebenen Form durch eine Reihe von lokalen Gittern in der Nähe der Formgrenze approximiert. Die M-SDF-Repräsentation ist schnell für jede einzelne Form zu berechnen, was sie leicht parallelisierbar macht; sie ist parameter-effizient, da sie nur den Raum um die Formgrenze abdeckt; und sie hat eine einfache Matrixform, die mit Transformer-basierten Architekturen kompatibel ist. Wir demonstrieren die Wirksamkeit der M-SDF-Repräsentation, indem wir sie verwenden, um ein 3D-generatives Flow-Modell zu trainieren, einschließlich klassenbedingter Generierung mit dem 3D Warehouse-Datensatz und Text-zu-3D-Generierung mit einem Datensatz von etwa 600.000 Beschriftungs-Form-Paaren.
Große Sprachmodelle haben in den letzten Jahren große Erfolge erzielt, ebenso wie ihre Varianten im Bereich der Bildverarbeitung. Bestehende Vision-Sprache-Modelle können Bilder in natürlicher Sprache beschreiben, visuell bezogene Fragen beantworten oder komplexe Schlussfolgerungen über das Bild ziehen. Es ist jedoch noch unklar, wie Lokalisierungsaufgaben, wie Wortverankerung oder referenzielle Lokalisierung, mit großen Sprachmodellen durchgeführt werden können. In dieser Arbeit zielen wir darauf ab, ein Vision-Sprache-Modell zu entwickeln, das Standorte, beispielsweise eine Menge von Punkten oder Boxen, entweder als Eingaben oder Ausgaben verarbeiten kann. Wenn Standorte als Eingaben verwendet werden, führt das Modell standortbedingte Bildbeschreibungen durch, die Beschreibungen für das angegebene Objekt oder die Region generieren. Wenn Standorte als Ausgaben generiert werden, regressiert unser Modell Pixelkoordinaten für jedes vom Sprachmodell erzeugte Ausgabewort und führt somit eine dichte Wortverankerung durch. Unser Modell wird auf dem Localized Narrative-Datensatz vortrainiert, der pixel-wort-ausgerichtete Bildbeschreibungen aus menschlicher Aufmerksamkeit enthält. Wir zeigen, dass unser Modell auf verschiedene standortbewusste Vision-Sprache-Aufgaben angewendet werden kann, darunter referenzielle Lokalisierung, standortbedingte Bildbeschreibung und dichte Objektbeschreibung, und dabei state-of-the-art Leistungen auf RefCOCO und Visual Genome erzielt. Projektseite: https://jerryxu.net/PixelLLM.
Dieses Papier stellt einen neuartigen Ansatz vor, um die Fähigkeiten von Large Language Models (LLMs) bei der Verarbeitung und dem Verständnis umfangreicher Textsequenzen zu verbessern, einem entscheidenden Aspekt in Anwendungen, die ein tiefes Verständnis und die Synthese großer Informationsmengen erfordern. In Anerkennung der inhärenten Herausforderungen bei der Erweiterung des Kontextfensters für LLMs, die hauptsächlich auf der Transformer-Architektur basieren, schlagen wir eine neue Modellarchitektur vor, die als Zebra bezeichnet wird. Diese Architektur bewältigt effizient die quadratischen Zeit- und Speicherkomplexitätsprobleme, die mit der vollständigen Aufmerksamkeit im Transformer verbunden sind, indem sie gruppierte lokale-globale Aufmerksamkeitsschichten einsetzt. Unser Modell, ähnlich den abwechselnden Streifen eines Zebras, balanciert lokale und globale Aufmerksamkeitsschichten und reduziert dadurch erheblich den Rechenaufwand und den Speicherverbrauch. Umfassende Experimente, einschließlich Pretraining von Grund auf, Fortsetzung des Trainings zur Anpassung an lange Kontexte und Feinabstimmung langer Instruktionen, werden durchgeführt, um die Leistung von Zebra zu bewerten. Die Ergebnisse zeigen, dass Zebra vergleichbare oder überlegene Leistung sowohl bei kurzen als auch bei langen Sequenzbenchmarks erzielt und gleichzeitig die Effizienz des Trainings und der Inferenz verbessert.
Angetrieben durch groß angelegte Text-zu-Bild-Generierungsmodelle hat die Text-zu-3D-Avatar-Generierung vielversprechende Fortschritte gemacht. Die meisten Methoden scheitern jedoch daran, fotorealistische Ergebnisse zu erzielen, da sie durch unpräzise Geometrie und qualitativ minderwertiges Erscheinungsbild eingeschränkt sind. Um eine praktischere Avatar-Generierung zu ermöglichen, präsentieren wir SEEAvatar, eine Methode zur Generierung fotorealistischer 3D-Avatare aus Text mit SElf-Evolving-Einschränkungen für entkoppelte Geometrie und Erscheinungsbild. Für die Geometrie schlagen wir vor, den optimierten Avatar in einer anständigen globalen Form mit einem Template-Avatar zu beschränken. Der Template-Avatar wird mit menschlichen Vorannahmen initialisiert und kann periodisch durch den optimierten Avatar als sich entwickelnde Vorlage aktualisiert werden, was eine flexiblere Formgenerierung ermöglicht. Darüber hinaus wird die Geometrie auch durch statische menschliche Vorannahmen in lokalen Bereichen wie Gesicht und Händen beschränkt, um die feinen Strukturen zu erhalten. Für die Erscheinungsbildgenerierung verwenden wir ein durch Prompt-Engineering verbessertes Diffusionsmodell, um einen physikalisch basierten Rendering-Pipeline zu leiten, um realistische Texturen zu erzeugen. Die Helligkeitsbeschränkung wird auf die Albedo-Textur angewendet, um falsche Lichteffekte zu unterdrücken. Experimente zeigen, dass unsere Methode frühere Methoden sowohl in der globalen als auch in der lokalen Geometrie und der Qualität des Erscheinungsbilds deutlich übertrifft. Da unsere Methode hochwertige Meshes und Texturen erzeugen kann, können solche Assets direkt in der klassischen Grafikpipeline für realistische Darstellungen unter beliebigen Lichtbedingungen verwendet werden. Projektseite: https://seeavatar3d.github.io.
Die Entwicklung von Generalisten-Agenten, die in komplexen, offenen Umgebungen viele Ziele erreichen können, ist eine der Forschungsgrenzen im Bereich des Reinforcement Learning. Ein wesentlicher begrenzender Faktor für den Aufbau solcher Generalisten-Agenten mit RL war bisher die Notwendigkeit einer großen Anzahl von Belohnungsfunktionen, um verschiedene Ziele zu erreichen. Wir untersuchen die Machbarkeit der Verwendung von Standard-Vision-Language-Modellen (VLMs) als Quellen für Belohnungen bei Reinforcement-Learning-Agenten. Wir zeigen, wie Belohnungen für die visuelle Erreichung einer Vielzahl von Sprachzielen aus der CLIP-Modellfamilie abgeleitet und verwendet werden können, um RL-Agenten zu trainieren, die verschiedene Sprachziele erreichen können. Wir demonstrieren diesen Ansatz in zwei unterschiedlichen visuellen Domänen und präsentieren einen Skalierungstrend, der zeigt, wie größere VLMs zu genaueren Belohnungen für die visuelle Zielerreichung führen, was wiederum leistungsfähigere RL-Agenten hervorbringt.
Das kürzlich eingeführte ControlNet ermöglicht es, den textgesteuerten Bildgenerierungsprozess mit geometrischen Eingaben wie menschlichen 2D-Posen oder Kantenmerkmalen zu steuern. Während ControlNet die Kontrolle über die geometrische Form der Instanzen im generierten Bild bietet, fehlt ihm die Fähigkeit, das visuelle Erscheinungsbild jeder Instanz zu bestimmen. Wir stellen FineControlNet vor, um eine präzise Kontrolle über das Erscheinungsbild jeder Instanz zu ermöglichen, während die genaue Posenerkennung erhalten bleibt. Insbesondere entwickeln und demonstrieren wir FineControlNet mit geometrischer Steuerung über menschliche Posebilder und Erscheinungssteuerung über instanzspezifische Textprompts. Die räumliche Ausrichtung von instanzspezifischen Textprompts und 2D-Posen im latenten Raum ermöglicht die feinen Steuerungsfähigkeiten von FineControlNet. Wir bewerten die Leistung von FineControlNet durch einen rigorosen Vergleich mit state-of-the-art, posenbedingten Text-zu-Bild-Diffusionsmodellen. FineControlNet erzielt eine überlegene Leistung bei der Generierung von Bildern, die den benutzerdefinierten, instanzspezifischen Textprompts und Posen folgen, im Vergleich zu bestehenden Methoden. Projektwebseite: https://samsunglabs.github.io/FineControlNet-project-page
Diffusionsmodelle (DMs) haben aufgrund ihrer Fähigkeit, hochwertige und vielfältige Bilder zu erzeugen, insbesondere durch jüngste Fortschritte in der Text-zu-Bild-Generierung, an Bedeutung gewonnen. Der Forschungsschwerpunkt verlagert sich nun auf die Steuerbarkeit von DMs. Eine wesentliche Herausforderung in diesem Bereich ist die lokalisierte Bearbeitung, bei der spezifische Bereiche eines Bildes verändert werden, ohne den restlichen Inhalt zu beeinflussen. Dieses Paper stellt LIME für die lokalisierte Bildbearbeitung in Diffusionsmodellen vor, das keine benutzerdefinierten Regionen von Interesse (RoI) oder zusätzliche Texteingaben erfordert. Unser Verfahren nutzt Merkmale aus vortrainierten Methoden und eine einfache Clustering-Technik, um präzise semantische Segmentierungskarten zu erstellen. Anschließend werden diese Segmente mithilfe von Cross-Attention-Karten für lokalisierte Bearbeitungen verfeinert. Schließlich schlagen wir eine neuartige Cross-Attention-Regularisierungstechnik vor, die während der Denoising-Schritte unzusammenhängende Cross-Attention-Werte in der RoI bestraft und so lokalisierte Bearbeitungen sicherstellt. Unser Ansatz verbessert ohne erneutes Training und Feinabstimmung die Leistung bestehender Methoden in verschiedenen Bearbeitungsbenchmarks konsistent.
In dieser Arbeit stellen wir GLEE vor, ein Foundation-Modell auf Objektebene zur Lokalisierung und Identifizierung von Objekten in Bildern und Videos. Durch ein einheitliches Framework bewältigt GLEE die Detektion, Segmentierung, Verfolgung, Verankerung und Identifizierung beliebiger Objekte im Open-World-Szenario für verschiedene Objekterkennungsaufgaben. Mit einer kohärenten Lernstrategie erwirbt GLEE Wissen aus diversen Datenquellen mit unterschiedlichen Überwachungsgraden, um allgemeine Objektrepräsentationen zu formulieren, die sich durch hervorragende Zero-Shot-Übertragung auf neue Daten und Aufgaben auszeichnen. Konkret verwenden wir einen Bild-Encoder, einen Text-Encoder und einen visuellen Prompter, um multimodale Eingaben zu verarbeiten, wodurch gleichzeitig verschiedene objektzentrierte Downstream-Aufgaben gelöst werden können, während state-of-the-art Leistungen beibehalten werden. Durch umfangreiches Training an über fünf Millionen Bildern aus diversen Benchmarks demonstriert GLEE bemerkenswerte Vielseitigkeit und verbesserte Generalisierungsleistung, wodurch Downstream-Aufgaben effizient bewältigt werden können, ohne dass eine aufgabenspezifische Anpassung erforderlich ist. Durch die Integration großer Mengen automatisch gelabelter Daten verbessern wir weiterhin seine Zero-Shot-Generalisierungsfähigkeiten. Zudem ist GLEE in der Lage, in Large Language Models integriert zu werden und als Foundation-Modell universelle Objektinformationen für multimodale Aufgaben bereitzustellen. Wir hoffen, dass die Vielseitigkeit und Universalität unserer Methode einen bedeutenden Schritt in der Entwicklung effizienter visueller Foundation-Modelle für AGI-Systeme darstellt. Das Modell und der Code werden unter https://glee-vision.github.io veröffentlicht.
Diese Studie untersucht 4-Bit-Quantisierungsmethoden wie GPTQ in großen Sprachmodellen (LLMs) und hebt dabei die Überanpassung von GPTQ sowie die begrenzte Verbesserung in Zero-Shot-Aufgaben hervor. Während sich frühere Arbeiten lediglich auf die Messung von Zero-Shot-Leistungen konzentrierten, erweitern wir den Aufgabenbereich auf mehr generative Kategorien wie Code-Generierung und abstraktive Zusammenfassung, bei denen wir feststellten, dass INT4-Quantisierung erheblich schlechter abschneiden kann. Der einfache Wechsel zu höherpräzisen Formaten wie FP6 wurde jedoch aufgrund der mangelnden Integration und Systembeschleunigungsstrategien auf aktueller KI-Hardware, die zu schlechter Leistung führen, besonders herausfordernd und daher übersehen. Unsere Ergebnisse zeigen, dass FP6 selbst mit einem grobkörnigen Quantisierungsschema robust über verschiedene Algorithmen und Aufgaben hinweg abschneidet und seine Überlegenheit in Genauigkeit und Vielseitigkeit demonstriert. Bemerkenswerterweise erreicht das \codestar-15B-Modell mit FP6-Quantisierung eine vergleichbare Leistung wie sein FP16-Pendant in der Code-Generierung, und für kleinere Modelle wie das 406M-Modell wird die Baseline-Leistung in der Zusammenfassung nahezu erreicht. Beides kann mit INT4 nicht erreicht werden. Um verschiedene KI-Hardware besser zu unterstützen und die beste Systemleistung zu erzielen, schlagen wir ein neuartiges 4+2-Design für FP6 vor, das eine ähnliche Latenz wie die state-of-the-art INT4-Feingranularitätsquantisierung erreicht. Mit unserem Design kann FP6 eine vielversprechende Lösung für die derzeit in LLMs verwendeten 4-Bit-Quantisierungsmethoden werden.
Belohnungsmodelle spielen eine entscheidende Rolle bei der Ausrichtung von Sprachmodellanwendungen an menschlichen Präferenzen. Diese Konfiguration schafft jedoch einen Anreiz für das Sprachmodell, Fehler im Belohnungsmodell auszunutzen, um eine hohe geschätzte Belohnung zu erzielen – ein Phänomen, das oft als „Reward Hacking“ bezeichnet wird. Eine natürliche Gegenmaßnahme besteht darin, ein Ensemble von Belohnungsmodellen zu trainieren, deren Ausgaben aggregiert werden, um eine robustere Schätzung der Belohnung zu erhalten. Wir untersuchen die Anwendung von Belohnungsensembles zur Ausrichtung sowohl während der Trainingszeit (durch Reinforcement Learning) als auch während der Inferenzzeit (durch Neubewertung). Erstens zeigen wir, dass Belohnungsmodelle unterbestimmt sind: Belohnungsmodelle, die innerhalb der Verteilung ähnlich gut abschneiden, können bei der Ausrichtung aufgrund von Verteilungsverschiebungen sehr unterschiedliche Belohnungen liefern. Zweitens führt diese Unterbestimmtheit zu Überoptimierung, bei der die Ausrichtung auf ein Belohnungsmodell die Belohnung gemäß einem anderen, auf denselben Daten trainierten Belohnungsmodell nicht verbessert. Drittens wird die Überoptimierung durch den Einsatz von Belohnungsensembles gemildert, wobei Ensembles, die sich durch ihre Vorabtrainingsinitialisierungen unterscheiden, zu einer besseren Generalisierung führen als Ensembles, die sich nur durch ihre Feinabstimmungsinitialisierungen unterscheiden, wobei beide individuellen Belohnungsmodellen überlegen sind. Allerdings beseitigen selbst Vorabtrainingsensembles das Reward Hacking nicht vollständig: Wir zeigen mehrere qualitative Phänomene des Reward Hackings, die durch Ensembling nicht gemildert werden, da alle Belohnungsmodelle im Ensemble ähnliche Fehlermuster aufweisen.
Jüngste Fortschritte in der Text-zu-3D-Generierungstechnologie haben die Umwandlung von textuellen Beschreibungen in imaginative, geometrisch präzise und fein texturierte 3D-Objekte erheblich vorangetrieben. Trotz dieser Entwicklungen besteht eine weit verbreitete Einschränkung in der Verwendung von RGB-Daten in Diffusions- oder Rekonstruktionsmodellen, die oft zu Modellen mit inhärenten Beleuchtungs- und Schatteneffekten führen, die den Realismus beeinträchtigen und somit ihre Verwendbarkeit in Anwendungen, die präzise Neubeleuchtungsfähigkeiten erfordern, einschränken. Um diese Lücke zu schließen, präsentieren wir UniDream, ein Text-zu-3D-Generierungsframework, das vereinheitlichte Diffusions-Priors integriert. Unser Ansatz besteht aus drei Hauptkomponenten: (1) einem zweiphasigen Trainingsprozess zur Erstellung von Albedo-Normal-ausgerichteten Multi-View-Diffusions- und Rekonstruktionsmodellen, (2) einem progressiven Generierungsverfahren für Geometrie und Albedo-Texturen basierend auf Score Distillation Sampling (SDS) unter Verwendung der trainierten Rekonstruktions- und Diffusionsmodelle und (3) einer innovativen Anwendung von SDS zur Finalisierung der PBR-Generierung bei Beibehaltung einer festen Albedo basierend auf dem Stable Diffusion-Modell. Umfangreiche Evaluierungen zeigen, dass UniDream bestehende Methoden in der Generierung von 3D-Objekten mit klareren Albedo-Texturen, glatteren Oberflächen, verbessertem Realismus und überlegenen Neubeleuchtungsfähigkeiten übertrifft.
In dieser Arbeit stellen wir den Vision-Language Generative Pre-trained Transformer (VL-GPT) vor, ein Transformer-Modell, das in der Lage ist, visuelle und sprachliche Daten gleichzeitig wahrzunehmen und zu generieren. VL-GPT erreicht einen einheitlichen Pre-Training-Ansatz für sowohl Bild- als auch Textmodalitäten durch die Verwendung eines einfachen autoregressiven Ziels, wodurch das Modell Bilder und Texte so nahtlos verarbeiten kann, wie ein Sprachmodell Texte verarbeitet. Um dies zu erreichen, schlagen wir zunächst ein neuartiges Bild-Tokenizer-Detokenizer-Framework für visuelle Daten vor, das speziell dafür entwickelt wurde, Rohbilder in eine Sequenz kontinuierlicher Embeddings zu transformieren und sie entsprechend zu rekonstruieren. In Kombination mit dem bestehenden Text-Tokenizer und Detokenizer ermöglicht dieses Framework die Kodierung von verschachtelten Bild-Text-Daten in eine multimodale Sequenz, die anschließend in das Transformer-Modell eingespeist werden kann. Folglich kann VL-GPT ein groß angelegtes Pre-Training auf multimodalen Korpora unter Verwendung eines einheitlichen autoregressiven Ziels (d. h. der Vorhersage des nächsten Tokens) durchführen. Nach Abschluss des Pre-Trainings zeigt VL-GPT bemerkenswerte Zero-Shot- und Few-Shot-Leistungen über eine Vielzahl von Aufgaben im Bereich des Verstehens und der Generierung von Vision und Sprache, einschließlich Bildbeschriftung, visueller Fragebeantwortung, Text-zu-Bild-Generierung und mehr. Darüber hinaus behält das vortrainierte Modell Fähigkeiten zum In-Context-Learning bei, wenn es mit multimodalen Prompts versehen wird. Wir führen weiterhin Instruction Tuning an unserem VL-GPT durch, um sein außergewöhnliches Potenzial für multimodale Assistenz hervorzuheben. Der Quellcode und die Modellgewichte werden veröffentlicht.
Wir schlagen ein neuartiges Feedforward-3D-Bearbeitungsframework namens Shap-Editor vor. Bisherige Forschungen zur Bearbeitung von 3D-Objekten konzentrierten sich hauptsächlich auf die Bearbeitung einzelner Objekte durch die Nutzung von Standard-2D-Bildbearbeitungsnetzwerken. Dies wird durch einen Prozess namens Distillation erreicht, bei dem Wissen vom 2D-Netzwerk auf 3D-Assets übertragen wird. Die Distillation erfordert mindestens mehrere Minuten pro Asset, um zufriedenstellende Bearbeitungsergebnisse zu erzielen, und ist daher nicht sehr praktikabel. Im Gegensatz dazu stellen wir die Frage, ob 3D-Bearbeitung direkt durch ein Feedforward-Netzwerk durchgeführt werden kann, ohne eine Optimierung zur Laufzeit. Insbesondere nehmen wir an, dass die Bearbeitung stark vereinfacht werden kann, indem 3D-Objekte zunächst in einem geeigneten latenten Raum kodiert werden. Wir validieren diese Hypothese, indem wir auf dem latenten Raum von Shap-E aufbauen. Wir zeigen, dass eine direkte 3D-Bearbeitung in diesem Raum möglich und effizient ist, indem wir ein Feedforward-Editor-Netzwerk entwickeln, das nur etwa eine Sekunde pro Bearbeitung benötigt. Unsere Experimente zeigen, dass Shap-Editor sowohl für In-Distribution- als auch für Out-of-Distribution-3D-Assets mit verschiedenen Prompts gut generalisiert und eine vergleichbare Leistung mit Methoden erzielt, die für jede bearbeitete Instanz eine Optimierung zur Laufzeit durchführen.
Wir stellen die TigerBot-Familie von Large Language Models (LLMs) vor und veröffentlichen sie, die aus Basis- und Chat-Modellen besteht und Größen von 7, 13, 70 und 180 Milliarden Parametern umfasst. Unsere Modelle entwickeln wir ausgehend von Llama-2 und BLOOM und treiben die Grenzen in den Bereichen Daten, Trainingsalgorithmen, Infrastruktur und Anwendungstools weiter voran. Unsere Modelle erzielen signifikante Leistungssteigerungen gegenüber den aktuell besten Open-Source-Modellen, wie z. B. Llama-2, mit spezifischen Verbesserungen von 6 % im Englischen und 20 % im Chinesischen. Die TigerBot-Modellfamilie erreicht auch führende Leistungen in wichtigen akademischen und industriellen Benchmarks und Leaderboards. Wir glauben, dass TigerBot nur eine Momentaufnahme des rasanten Fortschritts in der Open-Source-Community für LLMs darstellt. Daher freuen wir uns, etwas zurückzugeben, indem wir unsere Modelle öffentlich veröffentlichen und unseren Ansatz dahinter dokumentieren, mit besonderem Fokus auf den Aufbau von state-of-the-art LLMs auf demokratisierte Weise und die Nutzbarmachung von LLMs in realen Anwendungen.