Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Foundation Models, die heute die meisten der spannenden Anwendungen im Bereich des Deep Learning antreiben, basieren fast ausschließlich auf der Transformer-Architektur und ihrem zentralen Attention-Modul. Viele subquadratische Architekturen wie lineare Attention, gated Convolution und rekurrente Modelle sowie strukturierte State-Space-Modelle (SSMs) wurden entwickelt, um die rechenineffiziente Verarbeitung langer Sequenzen durch Transformers zu adressieren, aber sie konnten nicht die gleiche Leistung wie Attention in wichtigen Modalitäten wie Sprache erzielen. Wir identifizieren, dass eine zentrale Schwäche solcher Modelle ihre Unfähigkeit zur inhaltsbasierten Schlussfolgerung ist, und schlagen mehrere Verbesserungen vor. Erstens adressiert die einfache Anpassung der SSM-Parameter als Funktionen des Inputs ihre Schwäche bei diskreten Modalitäten, wodurch das Modell selektiv Informationen entlang der Sequenzlängendimension propagieren oder vergessen kann, abhängig vom aktuellen Token. Zweitens, obwohl diese Änderung die Verwendung effizienter Faltungen verhindert, entwickeln wir einen hardwarebewussten parallelen Algorithmus im rekurrenten Modus. Wir integrieren diese selektiven SSMs in eine vereinfachte end-to-end neuronale Netzarchitektur ohne Attention oder sogar MLP-Blöcke (Mamba). Mamba ermöglicht schnelle Inferenz (5-mal höherer Durchsatz als Transformers) und lineare Skalierung der Sequenzlänge, und seine Leistung verbessert sich bei realen Daten bis zu Sequenzen mit Millionen von Elementen. Als allgemeines Sequenzmodell erreicht Mamba state-of-the-art Leistung in mehreren Modalitäten wie Sprache, Audio und Genomik. Beim Sprachmodellieren übertrifft unser Mamba-3B-Modell Transformers gleicher Größe und erreicht die Leistung von Transformers, die doppelt so groß sind, sowohl im Pretraining als auch in der Downstream-Evaluation.
Wir stellen MoMask vor, ein neuartiges Maskierungsmodellierungsframework für die textgesteuerte 3D-Human-Motion-Generierung. In MoMask wird ein hierarchisches Quantisierungsschema verwendet, um menschliche Bewegungen als mehrschichtige diskrete Bewegungstokens mit hochauflösenden Details darzustellen. Ausgehend von der Basisschicht, mit einer Sequenz von Bewegungstokens, die durch Vektorquantisierung gewonnen werden, werden die Residualltokens zunehmender Ordnungen abgeleitet und in den nachfolgenden Schichten der Hierarchie gespeichert. Darauf folgen zwei unterschiedliche bidirektionale Transformer. Für die Bewegungstokens der Basisschicht wird ein Maskierter Transformer eingesetzt, um zufällig maskierte Bewegungstokens basierend auf Texteingaben während des Trainings vorherzusagen. Während der Generierungsphase (d.h. Inferenz) füllt unser Maskierter Transformer, ausgehend von einer leeren Sequenz, iterativ die fehlenden Tokens auf; anschließend lernt ein Residual Transformer, die Tokens der nächsten Schicht basierend auf den Ergebnissen der aktuellen Schicht progressiv vorherzusagen. Umfangreiche Experimente zeigen, dass MoMask die state-of-the-art Methoden bei der Text-zu-Bewegungs-Generierung übertrifft, mit einem FID von 0,045 (gegenüber z.B. 0,141 von T2M-GPT) auf dem HumanML3D-Datensatz und 0,228 (gegenüber 0,514) auf KIT-ML. MoMask kann auch nahtlos in verwandten Aufgaben ohne weitere Modellfeinabstimmung angewendet werden, wie z.B. textgesteuerte temporale Inpainting.
Wir stellen DREAM vor, ein neuartiges Trainingsframework, das für Diffusion Rectification und Estimation-Adaptive Models steht und nur minimale Codeänderungen (nur drei Zeilen) erfordert, jedoch die Ausrichtung des Trainings an den Sampling-Prozess in Diffusionsmodellen erheblich verbessert. DREAM umfasst zwei Komponenten: Diffusion Rectification, die das Training anpasst, um den Sampling-Prozess widerzuspiegeln, und Estimation Adaptation, die die Wahrnehmung gegen Verzerrung ausbalanciert. Bei der Anwendung auf Bildsuperauflösung (SR) meistert DREAM geschickt den Kompromiss zwischen der Minimierung von Verzerrungen und der Bewahrung einer hohen Bildqualität. Experimente zeigen die Überlegenheit von DREAM gegenüber standardmäßigen diffusionsbasierten SR-Methoden, mit einer 2- bis 3-fach schnelleren Trainingskonvergenz und einer 10- bis 20-fachen Reduktion der notwendigen Sampling-Schritte, um vergleichbare oder bessere Ergebnisse zu erzielen. Wir hoffen, dass DREAM eine Neubewertung der Trainingsparadigmen für Diffusionsmodelle anregen wird.
Multimodale Large Language Models (MLLMs) haben in jüngster Zeit beeindruckende Fähigkeiten im Bereich des multimodalen Verstehens, des logischen Denkens und der Interaktion gezeigt. Allerdings leiden bestehende MLLMs häufig unter gravierenden Halluzinationsproblemen, bei denen Texte erzeugt werden, die nicht faktenbasiert mit den zugehörigen Bildern verknüpft sind. Dieses Problem macht bestehende MLLMs unzuverlässig und somit unpraktikabel für reale (insbesondere hochriskante) Anwendungen. Um diese Herausforderung zu bewältigen, stellen wir RLHF-V vor, das die Vertrauenswürdigkeit von MLLMs durch Verhaltensanpassung auf der Grundlage feinkörniger korrigierender menschlicher Rückmeldungen verbessert. Konkret sammelt RLHF-V menschliche Präferenzen in Form von segmentbezogenen Korrekturen von Halluzinationen und führt eine dichte direkte Präferenzoptimierung über die menschlichen Rückmeldungen durch. Umfassende Experimente auf fünf Benchmarks sowohl in automatisierten als auch in menschlichen Bewertungen zeigen, dass RLHF-V deutlich vertrauenswürdigere MLLM-Verhaltensweisen mit vielversprechender Daten- und Recheneffizienz ermöglicht. Bemerkenswerterweise reduziert RLHF-V mit 1,4k annotierten Datenproben die Halluzinationsrate des Basismodells um 34,8 % und übertrifft damit das gleichzeitige LLaVA-RLHF, das auf 10k annotierten Daten trainiert wurde. Das finale Modell erreicht state-of-the-art Leistungen in Bezug auf Vertrauenswürdigkeit unter Open-Source-MLLMs und zeigt eine bessere Robustheit als GPT-4V bei der Verhinderung von Halluzinationen, die durch Überverallgemeinerung entstehen. Wir stellen unseren Code, das Modell und die Daten unter https://github.com/RLHF-V/RLHF-V als Open Source zur Verfügung.
Die Synthese neuer Ansichten aus begrenzten Beobachtungen bleibt eine wichtige und anhaltende Aufgabe. Allerdings wird die hohe Effizienz in bestehenden NeRF-basierten Ansätzen zur Synthese weniger Ansichten oft beeinträchtigt, um eine präzise 3D-Darstellung zu erreichen. Um diese Herausforderung zu bewältigen, schlagen wir ein Framework zur Synthese weniger Ansichten basierend auf 3D Gaussian Splatting vor, das eine Echtzeit- und fotorealistische Ansichtssynthese mit nur drei Trainingsansichten ermöglicht. Die vorgeschlagene Methode, genannt FSGS, verarbeitet die extrem spärlich initialisierten SfM-Punkte mit einem sorgfältig entworfenen Gaussian Unpooling-Prozess. Unsere Methode verteilt iterativ neue Gaussians um die repräsentativsten Orte und füllt anschließend lokale Details in leeren Bereichen auf. Wir integrieren auch einen groß angelegten, vortrainierten monokularen Tiefenschätzer in den Gaussians-Optimierungsprozess, der online augmentierte Ansichten nutzt, um die geometrische Optimierung in Richtung einer optimalen Lösung zu lenken. Ausgehend von spärlichen Punkten, die aus begrenzten Eingabeansichten beobachtet werden, kann unser FSGS präzise in ungesehene Regionen hineinwachsen, die Szene umfassend abdecken und die Rendering-Qualität neuer Ansichten steigern. Insgesamt erreicht FSGS state-of-the-art Leistung in Bezug auf Genauigkeit und Rendering-Effizienz über verschiedene Datensätze hinweg, darunter LLFF, Mip-NeRF360 und Blender. Projektwebsite: https://zehaozhu.github.io/FSGS/.
Neuronale Rendering-Methoden haben die fotorealistische 3D-Szenendarstellung in verschiedenen akademischen und industriellen Anwendungen erheblich vorangetrieben. Die kürzlich entwickelte 3D-Gaußsche Splatting-Methode hat die beste Rendering-Qualität und Geschwindigkeit erreicht, indem sie die Vorteile sowohl primitivenbasierter als auch volumetrischer Darstellungen kombiniert. Allerdings führt sie oft zu stark redundanten Gaußschen Verteilungen, die versuchen, jede Trainingsansicht anzupassen, wodurch die zugrunde liegende Szenengeometrie vernachlässigt wird. Infolgedessen wird das resultierende Modell weniger robust gegenüber signifikanten Blickwinkeländerungen, texturlosen Bereichen und Beleuchtungseffekten. Wir stellen Scaffold-GS vor, das Ankerpunkte verwendet, um lokale 3D-Gaußsche Verteilungen zu platzieren, und deren Attribute in Echtzeit basierend auf Blickrichtung und Entfernung innerhalb des Sichtfrustums vorhersagt. Ankerwachstums- und Beschneidungsstrategien werden basierend auf der Bedeutung neuronaler Gaußscher Verteilungen entwickelt, um die Szenenabdeckung zuverlässig zu verbessern. Wir zeigen, dass unsere Methode effektiv redundante Gaußsche Verteilungen reduziert, während sie hochwertiges Rendering liefert. Sie demonstriert außerdem eine verbesserte Fähigkeit, Szenen mit unterschiedlichen Detailstufen und sichtabhängigen Beobachtungen zu verarbeiten, ohne die Rendering-Geschwindigkeit zu beeinträchtigen.
Die textgesteuerte 3D-Gesichtssynthese hat bemerkenswerte Ergebnisse erzielt, indem sie Text-zu-Bild (T2I)-Diffusionsmodelle nutzt. Die meisten bestehenden Arbeiten konzentrieren sich jedoch ausschließlich auf die direkte Generierung und vernachlässigen die Bearbeitung, was sie daran hindert, maßgeschneiderte 3D-Gesichter durch iterative Anpassungen zu synthetisieren. In diesem Artikel schlagen wir ein einheitliches textgesteuertes Framework von der Gesichtsgenerierung bis zur Bearbeitung vor. In der Generierungsphase schlagen wir eine geometrie-textur-entkoppelte Generierung vor, um den Verlust geometrischer Details, der durch die Kopplung verursacht wird, zu minimieren. Darüber hinaus ermöglicht die Entkopplung uns, die generierte Geometrie als Bedingung für die Texturgenerierung zu nutzen, was zu stark geometrie-textur-ausgerichteten Ergebnissen führt. Wir verwenden weiterhin ein feinabgestimmtes Textur-Diffusionsmodell, um die Texturqualität sowohl im RGB- als auch im YUV-Raum zu verbessern. In der Bearbeitungsphase setzen wir zunächst ein vortrainiertes Diffusionsmodell ein, um die Gesichtsgeometrie oder -textur basierend auf den Texten zu aktualisieren. Um eine sequenzielle Bearbeitung zu ermöglichen, führen wir eine UV-Domänen-Konsistenzbewahrungsregularisierung ein, die unbeabsichtigte Änderungen an irrelevanten Gesichtsattributen verhindert. Darüber hinaus schlagen wir eine selbstgesteuerte Konsistenzgewichtsstrategie vor, um die Bearbeitungseffizienz zu verbessern und gleichzeitig die Konsistenz zu bewahren. Durch umfassende Experimente demonstrieren wir die Überlegenheit unserer Methode in der Gesichtssynthese. Projektseite: https://faceg2e.github.io/.
Neural Radiance Fields (NeRFs) können durch räumliche Gitterdarstellungen erheblich beschleunigt werden. Allerdings berücksichtigen sie Skalierung nicht explizit und führen daher Aliasing-Artefakte ein, wenn Szenen rekonstruiert werden, die aus unterschiedlichen Kameradistanzen aufgenommen wurden. Mip-NeRF und seine Erweiterungen schlagen skalierungsbewusste Renderer vor, die volumetrische Frustums anstelle von Punktproben projizieren, doch solche Ansätze basieren auf Positionskodierungen, die nicht ohne Weiteres mit Gittermethoden kompatibel sind. Wir schlagen eine einfache Modifikation gitterbasierter Modelle vor, indem Modellköpfe auf verschiedenen räumlichen Gitterauflösungen trainiert werden. Zum Rendern verwenden wir einfach gröbere Gitter, um Proben zu rendern, die größere Volumina abdecken. Unsere Methode kann problemlos auf bestehende beschleunigte NeRF-Methoden angewendet werden und verbessert die Renderqualität erheblich (Reduzierung der Fehlerraten um 20–90 % bei synthetischen und unbegrenzten realen Szenen), während nur ein minimaler Leistungsaufwand entsteht (da jeder Modellkopf schnell ausgewertet werden kann). Im Vergleich zu Mip-NeRF reduzieren wir die Fehlerraten um 20 %, während das Training über 60-mal schneller abläuft.
In jüngster Zeit hat die automatische Text-zu-3D-Inhaltserstellung bedeutende Fortschritte gemacht, angetrieben durch die Entwicklung vortrainierter 2D-Diffusionsmodelle. Bestehende Text-zu-3D-Methoden optimieren typischerweise die 3D-Darstellung, um sicherzustellen, dass das gerenderte Bild gut mit dem gegebenen Text übereinstimmt, wie es durch das vortrainierte 2D-Diffusionsmodell bewertet wird. Dennoch besteht eine erhebliche Domänenlücke zwischen 2D-Bildern und 3D-Assets, die hauptsächlich auf Variationen in kamerabezogenen Attributen und das ausschließliche Vorhandensein von Vordergrundobjekten zurückzuführen ist. Folglich kann die direkte Verwendung von 2D-Diffusionsmodellen zur Optimierung von 3D-Darstellungen zu suboptimalen Ergebnissen führen. Um dieses Problem zu lösen, präsentieren wir X-Dreamer, einen neuartigen Ansatz zur hochwertigen Text-zu-3D-Inhaltserstellung, der die Lücke zwischen Text-zu-2D- und Text-zu-3D-Synthese effektiv überbrückt. Die Schlüsselkomponenten von X-Dreamer sind zwei innovative Designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) und Attention-Mask Alignment (AMA) Loss. CG-LoRA integriert dynamisch Kamerainformationen in die vortrainierten Diffusionsmodelle, indem es kamerabhängige Generierung für trainierbare Parameter verwendet. Diese Integration verbessert die Ausrichtung zwischen den generierten 3D-Assets und der Kameraperspektive. Der AMA-Loss leitet die Aufmerksamkeitskarte des vortrainierten Diffusionsmodells mithilfe der binären Maske des 3D-Objekts an und priorisiert die Erstellung des Vordergrundobjekts. Dieses Modul stellt sicher, dass sich das Modell auf die Generierung präziser und detaillierter Vordergrundobjekte konzentriert. Umfangreiche Auswertungen demonstrieren die Effektivität unseres vorgeschlagenen Ansatzes im Vergleich zu bestehenden Text-zu-3D-Methoden. Unsere Projektwebseite: https://xmuxiaoma666.github.io/Projects/X-Dreamer .