Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle sind der Haupttreiber des Fortschritts in der Bild- und Videosynthese, leiden jedoch unter langsamer Inferenzgeschwindigkeit. Destillationsmethoden, wie das kürzlich eingeführte adversarielle Diffusionsdestillationsverfahren (ADD), zielen darauf ab, das Modell von einer Mehrschuss- zu einer Einzelschritt-Inferenz zu verschieben, jedoch auf Kosten einer teuren und schwierigen Optimierung aufgrund der Abhängigkeit von einem festen vortrainierten DINOv2-Diskriminator. Wir stellen Latent Adversarial Diffusion Distillation (LADD) vor, einen neuartigen Destillationsansatz, der die Einschränkungen von ADD überwindet. Im Gegensatz zu pixelbasiertem ADD nutzt LADD generative Merkmale aus vortrainierten latenten Diffusionsmodellen. Dieser Ansatz vereinfacht das Training und verbessert die Leistung, ermöglicht die Synthese von hochauflösenden Bildern mit verschiedenen Seitenverhältnissen. Wir wenden LADD auf Stable Diffusion 3 (8B) an, um SD3-Turbo zu erhalten, ein schnelles Modell, das die Leistungsfähigkeit modernster Text-zu-Bild-Generatoren mit nur vier ungesteuerten Abtastschritten erreicht. Darüber hinaus untersuchen wir systematisch sein Skalierungsverhalten und zeigen die Wirksamkeit von LADD in verschiedenen Anwendungen wie Bildbearbeitung und Inpainting auf.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) hat sich als eine starke Methode erwiesen, um vortrainierte große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Das Trainieren von Modellen mit RLHF ist jedoch rechnerisch aufwendig und insgesamt ein komplexer Prozess. In dieser Arbeit untersuchen wir RLHF, bei dem die zugrunde liegenden Modelle mit der parametereffizienten Methode des Low-Rank Adaptation (LoRA) trainiert werden, die von Hu et al. [2021] eingeführt wurde. Wir untersuchen die Einrichtung von "Parameter Efficient Reinforcement Learning" (PERL), bei dem wir das Training des Belohnungsmodells und das Verstärkungslernen unter Verwendung von LoRA durchführen. Wir vergleichen PERL mit dem herkömmlichen Feinabstimmungsverfahren (Vollabstimmung) in verschiedenen Konfigurationen für 7 Benchmarks, darunter 2 neue Datensätze, für das Belohnungsmodellieren und das Verstärkungslernen. Wir stellen fest, dass PERL ähnlich gut abschneidet wie die herkömmliche RLHF-Einstellung, dabei jedoch schneller trainiert und weniger Speicher benötigt. Dies ermöglicht die hohe Leistung von RLHF und verringert gleichzeitig die rechnerische Belastung, die seine Verwendung als Ausrichtungstechnik für große Sprachmodelle einschränkt. Wir veröffentlichen auch 2 neue Daumen-hoch/-runter-Präferenzdatensätze: "Taskmaster Coffee" und "Taskmaster Ticketing", um die Forschung im Bereich RLHF zu fördern.
Die effiziente und genaue Aktualisierung des in Large Language Models (LLMs) gespeicherten Wissens ist eine der drängendsten Forschungsherausforderungen heute. Dieses Papier stellt Larimar vor - eine neuartige, von Gehirnen inspirierte Architektur zur Verbesserung von LLMs mit einem verteilten episodischen Gedächtnis. Larimars Gedächtnis ermöglicht dynamische, einmalige Aktualisierungen des Wissens, ohne dass aufwendiges Neutraining oder Feinabstimmung erforderlich ist. Experimentelle Ergebnisse an mehreren Benchmark-Tests zur Faktenerstellung zeigen, dass Larimar eine Genauigkeit erreicht, die mit den meisten Wettbewerbsbaselines vergleichbar ist, selbst in der anspruchsvollen sequenziellen Bearbeitungsumgebung. Darüber hinaus zeichnet sich Larimar durch Geschwindigkeit aus - mit Beschleunigungen von 4-10-fach je nach Basis-LLM - sowie Flexibilität aufgrund der vorgeschlagenen Architektur, die einfach, LLM-agnostisch und daher allgemein ist. Wir bieten auch Mechanismen für selektives Vergessen von Fakten und Verallgemeinerung der Eingabekontextlänge mit Larimar an und zeigen deren Wirksamkeit.
Wir präsentieren Stable Video 3D (SV3D) - ein latentes Video-Diffusionsmodell für die hochauflösende Bild-zu-Multi-View-Generierung von orbitalen Videos um ein 3D-Objekt. Aktuelle Arbeiten zur 3D-Generierung schlagen Techniken vor, um 2D-generative Modelle für die Synthese neuer Ansichten (NVS) und 3D-Optimierung anzupassen. Diese Methoden haben jedoch mehrere Nachteile aufgrund entweder begrenzter Ansichten oder inkonsistenter NVS, was sich negativ auf die Leistung der 3D-Objektgenerierung auswirkt. In dieser Arbeit schlagen wir SV3D vor, das ein Bild-zu-Video-Diffusionsmodell für die neuartige Multi-View-Synthese und 3D-Generierung anpasst, wodurch die Verallgemeinerung und Multi-View-Konsistenz der Video-Modelle genutzt wird, während gleichzeitig eine explizite Kamerasteuerung für NVS hinzugefügt wird. Wir schlagen auch verbesserte 3D-Optimierungstechniken vor, um SV3D und seine NVS-Ausgaben für die Bild-zu-3D-Generierung zu verwenden. Umfangreiche experimentelle Ergebnisse auf mehreren Datensätzen mit 2D- und 3D-Metriken sowie Benutzerstudien zeigen die herausragende Leistung von SV3D bei NVS sowie 3D-Rekonstruktion im Vergleich zu früheren Arbeiten.
Durch die Nutzung aktueller Fortschritte in Diffusionsmodellen für die Text-zu-Bild-Erzeugung hat die identitätserhaltende Personalisierung signifikante Fortschritte gemacht, um spezifische Identitäten genau mit nur einem Referenzbild zu erfassen. Allerdings integrieren bestehende Methoden hauptsächlich Referenzbilder im Text-Einbettungsraum, was zu einer komplexen Verflechtung von Bild- und Textinformationen führt und Herausforderungen bei der Erhaltung sowohl der Identitätsfidelität als auch der semantischen Konsistenz darstellt. Um diese Herausforderung anzugehen, schlagen wir Infinite-ID vor, ein ID-Semantik-Entkopplungsparadigma für die identitätserhaltende Personalisierung. Speziell führen wir identitätsverstärkendes Training ein, indem wir ein zusätzliches Bild-Kreuz-Aufmerksamkeitsmodul einführen, um ausreichende ID-Informationen zu erfassen, während wir das ursprüngliche Text-Kreuz-Aufmerksamkeitsmodul des Diffusionsmodells deaktivieren. Dies stellt sicher, dass der Bildstrom die Identität, die durch das Referenzbild bereitgestellt wird, treu darstellt, während Störungen durch den textuellen Input gemindert werden. Zusätzlich führen wir einen Merkmalsinteraktionsmechanismus ein, der ein gemischtes Aufmerksamkeitsmodul mit einer AdaIN-Mitteloperation kombiniert, um die beiden Ströme nahtlos zu vereinen. Dieser Mechanismus verbessert nicht nur die Fidelität der Identität und semantischen Konsistenz, sondern ermöglicht auch eine bequeme Kontrolle über die Stile der generierten Bilder. Umfangreiche experimentelle Ergebnisse sowohl zur Erzeugung von Rohfotos als auch zur Stilerzeugung von Bildern zeigen die überragende Leistung unserer vorgeschlagenen Methode.
Die visuelle Codierung bildet die Grundlage großer multimodaler Modelle (LMMs) zur Erfassung der visuellen Welt. Herkömmliche LMMs verarbeiten Bilder in festen Größen und begrenzten Auflösungen, während aktuelle Erkundungen in diese Richtung in Bezug auf Anpassungsfähigkeit, Effizienz und sogar Korrektheit eingeschränkt sind. In dieser Arbeit nehmen wir zunächst GPT-4V und LLaVA-1.5 als repräsentative Beispiele und decken systematische Mängel in ihrer visuellen Codierungsstrategie auf. Um den Herausforderungen zu begegnen, präsentieren wir LLaVA-UHD, ein großes multimodales Modell, das Bilder in beliebigen Seitenverhältnissen und hoher Auflösung effizient wahrnehmen kann. LLaVA-UHD umfasst drei Schlüsselkomponenten: (1) Eine Bildmodularisierungsstrategie, die Bilder in nativer Auflösung in kleinere variabel große Abschnitte für eine effiziente und erweiterbare Codierung unterteilt, (2) ein Kompressionsmodul, das Bildtoken von visuellen Encodern weiter verdichtet, und (3) ein räumliches Schema zur Organisation von Abschnittstoken für LLMs. Umfassende Experimente zeigen, dass LLaVA-UHD etablierte LMMs in 9 Benchmarks übertrifft, die mit 2-3 Größenordnungen mehr Daten trainiert wurden. Bemerkenswert ist, dass unser Modell, das auf LLaVA-1.5 336x336 aufbaut, die Auflösung von Bildern um das 6-fache (d.h. 672x1088) erhöht und dabei nur 94% der Inferenzberechnung benötigt und eine Genauigkeitsverbesserung von 6,4 bei TextVQA erzielt. Darüber hinaus kann das Modell effizient in akademischen Umgebungen trainiert werden, innerhalb von 23 Stunden auf 8 A100-GPUs (im Vergleich zu 26 Stunden von LLaVA-1.5). Wir stellen die Daten und den Code öffentlich unter https://github.com/thunlp/LLaVA-UHD zur Verfügung.
Wir stellen LightIt vor, eine Methode zur expliziten Beleuchtungssteuerung für die Bildgenerierung. Aktuelle generative Methoden weisen einen Mangel an Beleuchtungssteuerung auf, die für zahlreiche künstlerische Aspekte der Bildgenerierung wie die Einstellung der Gesamtstimmung oder kinematografisches Erscheinungsbild entscheidend ist. Um diese Einschränkungen zu überwinden, schlagen wir vor, die Generierung an Schatten- und Normalen-Maps zu binden. Wir modellieren die Beleuchtung mit Einzelreflexionsschattierung, die auch Wurfschatten umfasst. Zunächst trainieren wir ein Schattenschätzmodul, um einen Datensatz von realen Bildern und Schattierungs-Paaren zu generieren. Anschließend trainieren wir ein Steuerungsnetzwerk unter Verwendung der geschätzten Schattierungen und Normalen als Eingabe. Unsere Methode zeigt hochwertige Bildgenerierung und Beleuchtungssteuerung in zahlreichen Szenen. Darüber hinaus verwenden wir unseren generierten Datensatz, um ein identitätserhaltendes Relighting-Modell zu trainieren, das an ein Bild und eine Zielbeleuchtung gebunden ist. Unsere Methode ist die erste, die die Generierung von Bildern mit steuerbarer, konsistenter Beleuchtung ermöglicht und auf Augenhöhe mit spezialisierten Relighting-Methoden auf dem neuesten Stand der Technik arbeitet.
Die Synthese von 3D-Objekten im Open-Domain-Bereich hinkt der Bildsynthese aufgrund begrenzter Daten und höherer Rechenkomplexität hinterher. Um diese Kluft zu überbrücken, haben aktuelle Arbeiten die Multi-View-Diffusion untersucht, fallen jedoch oft in Bezug auf 3D-Konsistenz, visuelle Qualität oder Effizienz kurz. Dieses Papier schlägt MVEdit vor, das als 3D-Gegenstück zu SDEdit fungiert und die Ahnenabtastung verwendet, um gemeinsam Multi-View-Bilder zu denoisieren und hochwertige texturierte Meshes auszugeben. Basierend auf handelsüblichen 2D-Diffusionsmodellen erreicht MVEdit 3D-Konsistenz durch einen trainingsfreien 3D-Adapter, der die 2D-Ansichten des letzten Zeitschritts in eine kohärente 3D-Repräsentation überführt, dann die 2D-Ansichten des nächsten Zeitschritts unter Verwendung gerenderter Ansichten bedingt, ohne die visuelle Qualität zu beeinträchtigen. Mit einer Inferenzzeit von nur 2-5 Minuten erzielt dieses Framework einen besseren Kompromiss zwischen Qualität und Geschwindigkeit als die Score-Destillation. MVEdit ist äußerst vielseitig und erweiterbar, mit einer Vielzahl von Anwendungen, darunter die Generierung von Text-/Bild-zu-3D, 3D-zu-3D-Bearbeitung und hochwertige Textursynthese. Insbesondere zeigen Evaluationen eine Leistung auf dem neuesten Stand der Technik sowohl bei der Bild-zu-3D- als auch bei der textgesteuerten Texturerzeugung. Darüber hinaus stellen wir eine Methode zur Feinabstimmung von 2D-latenten Diffusionsmodellen auf kleinen 3D-Datensätzen mit begrenzten Ressourcen vor, die eine schnelle Initialisierung von Text-zu-3D mit niedriger Auflösung ermöglicht.
Die Rekonstruktionen der visuellen Wahrnehmung aus Hirnaktivität haben sich enorm verbessert, aber die praktische Anwendbarkeit solcher Methoden war begrenzt. Dies liegt daran, dass solche Modelle unabhängig pro Teilnehmer trainiert werden, wobei jeder Teilnehmer Dutzende von Stunden teurer fMRT-Trainingsdaten benötigt, um qualitativ hochwertige Ergebnisse zu erzielen. Die vorliegende Arbeit präsentiert hochwertige Rekonstruktionen, die nur 1 Stunde fMRT-Trainingsdaten verwenden. Wir trainieren unser Modell vorab über 7 Teilnehmer und feinabstimmen es dann mit minimalen Daten eines neuen Teilnehmers. Unser neuartiges funktionales Ausrichtungsverfahren kartiert alle Hirndaten linear in einen gemeinsamen latenten Raum pro Teilnehmer, gefolgt von einer gemeinsamen nichtlinearen Zuordnung zum CLIP-Bildraum. Anschließend kartieren wir vom CLIP-Raum in den Pixelraum, indem wir Stable Diffusion XL feinabstimmen, um CLIP-Latenzen als Eingaben anstelle von Text zu akzeptieren. Dieser Ansatz verbessert die Generalisierung über Teilnehmer hinweg mit begrenzten Trainingsdaten und erreicht auch Spitzenwerte bei Bildabruf- und Rekonstruktionsmetriken im Vergleich zu Einzelteilnehmeransätzen. MindEye2 zeigt, wie präzise Rekonstruktionen der Wahrnehmung möglich sind, nach nur einem Besuch im MRT-Zentrum. Der gesamte Code ist auf GitHub verfügbar.
Wir untersuchen, wie das Zusammenführen mehrerer Grundlagenmodelle (große Sprachmodelle und Bildsprachmodelle) mit einem neuartigen vereinheitlichten Speichermechanismus das anspruchsvolle Problem des Videoverständnisses bewältigen könnte, insbesondere das Erfassen der langfristigen zeitlichen Beziehungen in umfangreichen Videos. Insbesondere konstruiert der vorgeschlagene multimodale Agent VideoAgent: 1) einen strukturierten Speicher, um sowohl die generischen zeitlichen Ereignisbeschreibungen als auch die objektorientierten Verfolgungszustände des Videos zu speichern; 2) bei einer Eingabeaufgabenabfrage verwendet er Werkzeuge wie die Lokalisierung von Videoabschnitten und die Abfrage des Objektgedächtnisses zusammen mit anderen visuellen Grundlagenmodellen, um interaktiv die Aufgabe zu lösen, wobei die Fähigkeit zur werkzeuglosen Verwendung von LLMs genutzt wird. VideoAgent zeigt beeindruckende Leistungen bei mehreren Langzeit-Videoverständnis-Benchmarks, eine durchschnittliche Steigerung von 6,6% bei NExT-QA und 26,0% bei EgoSchema gegenüber Basislinien, wodurch die Kluft zwischen Open-Source-Modellen und privaten Gegenstücken, einschließlich Gemini 1.5 Pro, geschlossen wird.
Fortschritte im Bereich des maschinellen Lernens (ML) wurden durch die Skalierung neuronaler Netzwerkmodelle vorangetrieben. Diese Skalierung wurde durch immer heroischere Ingenieursleistungen ermöglicht, die erforderlich sind, um ML-Ansätze zu unterstützen, die eine hohe Bandbreite an Kommunikation zwischen parallel arbeitenden Geräten erfordern. In dieser Arbeit schlagen wir eine modular aufgebaute Architektur und Trainingsmethode für ML-Modelle vor, die als DIstributed PAth COmposition (DiPaCo) bezeichnet wird. Während des Trainings verteilt DiPaCo die Berechnung über Pfade durch eine Reihe von gemeinsam genutzten Modulen. Zusammen mit einer von Local-SGD inspirierten Optimierung (DiLoCo), die Module synchronisiert und die Kommunikation drastisch reduziert, erleichtert unser Ansatz das Training über schlecht verbundene und heterogene Arbeitskräfte, wobei das Design Robustheit gegenüber Arbeitsausfällen und Unterbrechungen gewährleistet. Zur Zeit der Inferenz muss nur ein einziger Pfad für jede Eingabe ausgeführt werden, ohne dass eine Modellkompression erforderlich ist. Wir betrachten diesen Ansatz als ersten Prototypen für ein neues Paradigma des groß angelegten Lernens, das weniger synchron und modularer ist. Unsere Experimente am weit verbreiteten C4-Benchmark zeigen, dass DiPaCo bei gleicher Anzahl von Trainingsschritten, aber weniger Wanduhrzeit, die Leistung eines 1 Milliarde Parameter umfassenden dichten Transformer-Sprachmodells übertrifft, indem einer von 256 möglichen Pfaden ausgewählt wird, wobei jeder Pfad eine Größe von 150 Millionen Parametern hat.
Das Gebiet des neuronalen Renderns hat bedeutende Fortschritte durch Entwicklungen in generativen Modellen und differenzierbaren Rendertechniken erlebt. Obwohl 2D-Diffusion Erfolg erzielt hat, bleibt eine vereinheitlichte 3D-Diffusionspipeline ungelöst. Dieser Artikel stellt ein neuartiges Framework namens LN3Diff vor, um diese Lücke zu schließen und schnelle, hochwertige und generische bedingte 3D-Generierung zu ermöglichen. Unser Ansatz nutzt eine 3D-bewusste Architektur und einen Variationalen Autoencoder (VAE), um das Eingabebild in einen strukturierten, kompakten und 3D-Latentraum zu kodieren. Das Latent wird von einem auf Transformer basierenden Decoder in ein leistungsstarkes 3D-Neuronenfeld decodiert. Durch das Training eines Diffusionsmodells in diesem 3D-bewussten Latentraum erreicht unsere Methode Spitzenleistungen auf ShapeNet für 3D-Generierung und zeigt überlegene Leistung bei monokulärer 3D-Rekonstruktion und bedingter 3D-Generierung über verschiedene Datensätze hinweg. Darüber hinaus übertrifft sie bestehende 3D-Diffusionsmethoden in Bezug auf Inferenzgeschwindigkeit, ohne eine Optimierung pro Instanz zu erfordern. Unser vorgeschlagenes LN3Diff stellt einen bedeutenden Fortschritt in der 3D-generativen Modellierung dar und birgt vielversprechende Anwendungen in 3D-Vision und Grafikaufgaben.
Dieses Paper präsentiert ein neuartiges Paradigma zur Entwicklung skalierbarer 3D-generativer Modelle unter Verwendung von vorab trainierten Video-Diffusionsmodellen. Das Hauptproblem bei der Entwicklung von grundlegenden 3D-generativen Modellen ist die begrenzte Verfügbarkeit von 3D-Daten. Im Gegensatz zu Bildern, Texten oder Videos sind 3D-Daten nicht leicht zugänglich und schwer zu beschaffen. Dies führt im Vergleich zu den großen Mengen anderer Datentypen zu erheblichen Unterschieden im Maßstab. Um dieses Problem zu lösen, schlagen wir vor, ein Video-Diffusionsmodell zu verwenden, das mit umfangreichen Mengen von Texten, Bildern und Videos trainiert wurde, als Wissensquelle für 3D-Daten. Indem wir seine Multi-View-generative Fähigkeiten durch Feinabstimmung freischalten, generieren wir einen groß angelegten synthetischen Multi-View-Datensatz, um ein Feed-Forward-3D-generatives Modell zu trainieren. Das vorgeschlagene Modell, VFusion3D, das an fast 3 Millionen synthetischen Multi-View-Daten trainiert wurde, kann in Sekunden ein 3D-Objekt aus einem einzigen Bild generieren und erzielt eine überlegene Leistung im Vergleich zu aktuellen SOTA-Feed-Forward-3D-generativen Modellen, wobei die Benutzer unsere Ergebnisse über 70% der Zeit bevorzugen.