Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative KI hat in den letzten Jahren rasante Fortschritte gemacht und beispiellose Fähigkeiten im multimodalen Verständnis und der Code-Generierung erreicht. Dies könnte ein neues Paradigma im Frontend-Entwicklungsprozess ermöglichen, bei dem multimodale LLMs visuelle Designs direkt in Code-Implementierungen umwandeln. In dieser Arbeit formalisieren wir dies als eine Design2Code-Aufgabe und führen umfassende Benchmarking-Studien durch. Konkret kuratieren wir manuell einen Benchmark mit 484 vielfältigen, realen Webseiten als Testfälle und entwickeln eine Reihe automatischer Bewertungsmetriken, um zu beurteilen, wie gut aktuelle multimodale LLMs Code-Implementierungen generieren können, die direkt in die gegebenen Referenz-Webseiten gerendert werden, wobei Screenshots als Eingabe dienen. Wir ergänzen die automatischen Metriken durch umfassende menschliche Bewertungen. Wir entwickeln eine Suite multimodaler Prompting-Methoden und zeigen deren Wirksamkeit auf GPT-4V und Gemini Pro Vision. Darüber hinaus finetunen wir ein Open-Source-Modell, Design2Code-18B, das die Leistung von Gemini Pro Vision erfolgreich erreicht. Sowohl die menschliche Bewertung als auch die automatischen Metriken zeigen, dass GPT-4V bei dieser Aufgabe im Vergleich zu anderen Modellen am besten abschneidet. Zudem sind die Annotatoren der Ansicht, dass die von GPT-4V generierten Webseiten in 49 % der Fälle die ursprünglichen Referenz-Webseiten in Bezug auf visuelles Erscheinungsbild und Inhalt ersetzen können; und vielleicht überraschenderweise werden die von GPT-4V generierten Webseiten in 64 % der Fälle als besser als die ursprünglichen Referenz-Webseiten eingestuft. Unsere detaillierten Metriken zeigen, dass Open-Source-Modelle hauptsächlich bei der Erinnerung an visuelle Elemente aus den Eingabe-Webseiten und bei der Generierung korrekter Layout-Designs zurückbleiben, während Aspekte wie Textinhalt und Farbgebung durch geeignetes Finetuning erheblich verbessert werden können.
Diffusionsmodelle erzeugen Daten aus Rauschen, indem sie die Vorwärtspfade von Daten hin zu Rauschen umkehren, und haben sich als leistungsstarke generative Modellierungstechnik für hochdimensionale, wahrnehmungsbezogene Daten wie Bilder und Videos etabliert. Rectified Flow ist eine neuere Formulierung eines generativen Modells, das Daten und Rauschen in einer geraden Linie verbindet. Trotz seiner besseren theoretischen Eigenschaften und konzeptionellen Einfachheit hat es sich noch nicht entscheidend als Standardpraxis durchgesetzt. In dieser Arbeit verbessern wir bestehende Rauschabtasttechniken für das Training von Rectified-Flow-Modellen, indem wir sie auf wahrnehmungsrelevante Skalen ausrichten. Durch eine groß angelegte Studie demonstrieren wir die überlegene Leistung dieses Ansatzes im Vergleich zu etablierten Diffusionsformulierungen für die hochauflösende Text-zu-Bild-Synthese. Zusätzlich präsentieren wir eine neuartige Transformer-basierte Architektur für die Text-zu-Bild-Generierung, die separate Gewichte für die beiden Modalitäten verwendet und einen bidirektionalen Informationsfluss zwischen Bild- und Text-Tokens ermöglicht, was das Textverständnis, die Typografie und die menschlichen Präferenzbewertungen verbessert. Wir zeigen, dass diese Architektur vorhersehbare Skalierungstrends aufweist und einen geringeren Validierungsverlust mit einer verbesserten Text-zu-Bild-Synthese korreliert, gemessen an verschiedenen Metriken und menschlichen Bewertungen. Unsere größten Modelle übertreffen state-of-the-art Modelle, und wir werden unsere experimentellen Daten, Code und Modellgewichte öffentlich zugänglich machen.
Bildbasierte virtuelle Anprobe (Virtual Try-On, VTON), die darauf abzielt, ein bekleidetes Bild einer Zielperson in einem Ladenkleidungsstück zu erzeugen, ist eine anspruchsvolle Bildsyntheseaufgabe, die nicht nur eine hohe Detailtreue der bekleideten Person, sondern auch die vollständige Bewahrung der Kleidungsdetails erfordert. Um dieses Problem zu lösen, schlagen wir Outfitting over Try-on Diffusion (OOTDiffusion) vor, das die Leistungsfähigkeit vortrainierter latenter Diffusionsmodelle nutzt und eine neuartige Netzwerkarchitektur für realistische und kontrollierbare virtuelle Anprobe entwirft. Ohne einen expliziten Verzerrungsprozess schlagen wir ein Outfitting-UNet vor, um die Detailmerkmale des Kleidungsstücks zu erlernen und diese über unseren vorgeschlagenen Outfitting-Fusionsprozess mit dem Zielkörper während des Denoising-Prozesses der Diffusionsmodelle zu verschmelzen. Um die Kontrollierbarkeit unseres Outfitting-UNets weiter zu verbessern, führen wir Outfitting-Dropout in den Trainingsprozess ein, was es uns ermöglicht, die Stärke der Kleidungsmerkmale durch klassifikatorfreie Führung anzupassen. Unsere umfassenden Experimente auf den Datensätzen VITON-HD und Dress Code zeigen, dass OOTDiffusion effizient hochwertige bekleidete Bilder für beliebige Personen- und Kleidungsbilder erzeugt, was andere VTON-Methoden sowohl in Bezug auf die Detailtreue als auch die Kontrollierbarkeit übertrifft und damit einen beeindruckenden Durchbruch in der virtuellen Anprobe darstellt. Unser Quellcode ist verfügbar unter https://github.com/levihsu/OOTDiffusion.
Die Entwicklung multimodaler Modelle hat einen bedeutenden Fortschritt in der Art und Weise markiert, wie Maschinen Videos verstehen. Diese Modelle haben vielversprechende Ergebnisse bei der Analyse kurzer Videoclips gezeigt. Bei längeren Formaten wie Filmen stoßen sie jedoch oft an ihre Grenzen. Die Hauptherausforderungen sind der Mangel an hochwertigen, diversen Videodaten und der hohe Aufwand, der für die Sammlung oder Annotation solcher Daten erforderlich ist. Angesichts dieser Herausforderungen schlagen wir MovieLLM vor, ein neuartiges Framework, das darauf abzielt, synthetische, hochwertige Daten für lange Videos zu generieren. Dieses Framework nutzt die Leistungsfähigkeit von GPT-4 und Text-zu-Bild-Modellen, um detaillierte Skripte und entsprechende visuelle Inhalte zu erzeugen. Unser Ansatz zeichnet sich durch seine Flexibilität und Skalierbarkeit aus und stellt somit eine überlegene Alternative zu traditionellen Methoden der Datensammlung dar. Unsere umfangreichen Experimente bestätigen, dass die von MovieLLM erzeugten Daten die Leistung multimodaler Modelle beim Verstehen komplexer Videonarrative erheblich verbessern und die Einschränkungen bestehender Datensätze in Bezug auf Knappheit und Verzerrung überwinden.
Kürzlich hat die Videogenerierung eine bedeutende und rasante Entwicklung auf der Grundlage überlegener Text-zu-Bild-Generierungstechniken erreicht. In dieser Arbeit schlagen wir ein hochwertiges Framework für die Bild-zu-Video-Generierung vor, genannt AtomoVideo. Basierend auf der Multi-Granularitäts-Bildeinspritzung erreichen wir eine höhere Treue des generierten Videos zum gegebenen Bild. Darüber hinaus ermöglichen hochwertige Datensätze und Trainingsstrategien eine größere Bewegungsintensität bei gleichzeitiger Beibehaltung einer überlegenen zeitlichen Konsistenz und Stabilität. Unsere Architektur erweitert sich flexibel auf die Aufgabe der Videobildvorhersage und ermöglicht die Vorhersage langer Sequenzen durch iterative Generierung. Weiterhin kann unser Ansatz dank des Designs des Adapter-Trainings gut mit bestehenden personalisierten Modellen und kontrollierbaren Modulen kombiniert werden. Durch quantitative und qualitative Bewertungen erzielt AtomoVideo im Vergleich zu gängigen Methoden überlegene Ergebnisse. Weitere Beispiele finden Sie auf unserer Projektwebsite: https://atomo-video.github.io/.
Große Sprachmodelle (LLMs) stehen vor einer enormen Herausforderung aufgrund der übermäßigen Rechen- und Speicheranforderungen der häufig verwendeten Transformer-Architektur. Während State-Space-Modelle (SSMs) eine neue Art von grundlegenden Netzwerkarchitekturen darstellen, die eine geringere Rechenkomplexität bieten, konnte ihre Leistung bisher noch nicht vollständig mit der von Transformern mithalten. Dieses Artikel stellt DenseSSM vor, einen neuartigen Ansatz zur Verbesserung des Flusses versteckter Informationen zwischen den Schichten in SSMs. Durch die selektive Integration von versteckten Zuständen aus flachen Schichten in tiefere Schichten behält DenseSSM feinkörnige Informationen bei, die für die endgültige Ausgabe entscheidend sind. Dichte Verbindungen, die DenseSSM verbessern, bewahren weiterhin die Parallelisierbarkeit beim Training und die Effizienz bei der Inferenz. Die vorgeschlagene Methode kann auf verschiedene SSM-Typen wie RetNet und Mamba weitgehend anwendbar sein. Bei ähnlicher Modellgröße erzielt DenseSSM signifikante Verbesserungen, wie beispielsweise DenseRetNet, das das ursprüngliche RetNet auf öffentlichen Benchmarks mit einer Genauigkeitssteigerung von bis zu 5 % übertrifft.
Multimodale Large Language Models (MLLMs) haben in letzter Zeit bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der präzisen Erkennung und dem Verständnis komplexer Details in hochauflösenden Bildern. Obwohl dieser Bereich für die Entwicklung robuster MLLMs unerlässlich ist, bleibt er bisher untererforscht. Um diese Herausforderung zu bewältigen, stellt unsere Arbeit InfiMM-HD vor, eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand entwickelt wurde. Diese Innovation ermöglicht die Erweiterung von MLLMs auf höhere Auflösungsfähigkeiten. InfiMM-HD integriert ein Cross-Attention-Modul und visuelle Fenster, um die Rechenkosten zu reduzieren. Durch die Kombination dieses Architekturdesigns mit einer vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien unterstreichen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Wege für die Erforschung verwandter Bereiche. Codes und Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.
Jüngste Fortschritte in Text-zu-Bild-Modellen (z. B. Stable Diffusion) und entsprechenden personalisierten Technologien (z. B. DreamBooth und LoRA) ermöglichen es Einzelpersonen, hochwertige und imaginative Bilder zu erzeugen. Allerdings stoßen diese oft auf Einschränkungen, wenn Bilder mit Auflösungen außerhalb ihres trainierten Bereichs generiert werden sollen. Um diese Einschränkung zu überwinden, präsentieren wir den Resolution Adapter (ResAdapter), einen domänenkonsistenten Adapter, der für Diffusionsmodelle entwickelt wurde, um Bilder mit uneingeschränkten Auflösungen und Seitenverhältnissen zu erzeugen. Im Gegensatz zu anderen Multi-Resolution-Generierungsmethoden, die Bilder mit statischer Auflösung durch komplexe Nachbearbeitungsoperationen verarbeiten, generiert ResAdapter direkt Bilder mit dynamischer Auflösung. Insbesondere nach dem Erlernen eines tiefen Verständnisses von reinen Auflösungs-Priors erzeugt ResAdapter, das auf einem allgemeinen Datensatz trainiert wurde, auflösungsfreie Bilder mit personalisierten Diffusionsmodellen, während der ursprüngliche Stilbereich erhalten bleibt. Umfassende Experimente zeigen, dass ResAdapter mit nur 0,5 M Parametern Bilder mit flexiblen Auflösungen für beliebige Diffusionsmodelle verarbeiten kann. Weitere erweiterte Experimente demonstrieren, dass ResAdapter mit anderen Modulen (z. B. ControlNet, IP-Adapter und LCM-LoRA) für die Bildgenerierung über einen breiten Bereich von Auflösungen kompatibel ist und in andere Multi-Resolution-Modelle (z. B. ElasticDiffusion) integriert werden kann, um effizient höher aufgelöste Bilder zu erzeugen. Der Projektlink ist https://res-adapter.github.io.
Dieser technische Bericht stellt TripoSR vor, ein 3D-Rekonstruktionsmodell, das die Transformer-Architektur für schnelle, vorwärtsgerichtete 3D-Generierung nutzt und aus einem einzelnen Bild in weniger als 0,5 Sekunden ein 3D-Mesh erzeugt. Basierend auf der LRM-Netzwerkarchitektur integriert TripoSR erhebliche Verbesserungen in der Datenverarbeitung, Modellgestaltung und Trainingsmethoden. Evaluierungen auf öffentlichen Datensätzen zeigen, dass TripoSR sowohl quantitativ als auch qualitativ eine überlegene Leistung im Vergleich zu anderen Open-Source-Alternativen aufweist. Unter der MIT-Lizenz veröffentlicht, soll TripoSR Forscher, Entwickler und Kreative mit den neuesten Fortschritten in der generativen 3D-KI ausstatten.
Sprache bietet eine Möglichkeit, komplexe Konzepte in verdauliche Teile zu zerlegen. Aktuelle Arbeiten im Bereich des Imitationslernens für Roboter verwenden sprachgesteuerte Policies, die Aktionen basierend auf visuellen Beobachtungen und der in Sprache spezifizierten übergeordneten Aufgabe vorhersagen. Diese Methoden nutzen die Struktur der natürlichen Sprache, um Daten zwischen semantisch ähnlichen Aufgaben (z. B. „nimm Cola-Dose“ und „nimm einen Apfel“) in Multi-Task-Datensätzen zu teilen. Wenn die Aufgaben jedoch semantisch vielfältiger werden (z. B. „nimm Cola-Dose“ und „gieße Tasse ein“), wird das Teilen von Daten zwischen Aufgaben schwieriger, sodass das Erlernen der Abbildung von übergeordneten Aufgaben auf Aktionen deutlich mehr Demonstrationsdaten erfordert. Um Aufgaben und Aktionen zu verbinden, besteht unsere Erkenntnis darin, dem Roboter die Sprache der Aktionen beizubringen, indem niedrigstufige Bewegungen mit feingranularen Phrasen wie „bewege Arm nach vorne“ beschrieben werden. Die Vorhersage dieser Sprachbewegungen als Zwischenschritt zwischen Aufgaben und Aktionen zwingt die Policy dazu, die gemeinsame Struktur niedrigstufiger Bewegungen über scheinbar unterschiedliche Aufgaben hinweg zu erlernen. Darüber hinaus kann eine Policy, die auf Sprachbewegungen konditioniert ist, während der Ausführung leicht durch vom Menschen spezifizierte Sprachbewegungen korrigiert werden. Dies ermöglicht ein neues Paradigma für flexible Policies, die aus menschlichen Eingriffen in Sprache lernen können. Unsere Methode RT-H baut eine Aktionshierarchie mithilfe von Sprachbewegungen auf: Sie lernt zunächst, Sprachbewegungen vorherzusagen, und konditioniert darauf sowie auf die übergeordnete Aufgabe, um Aktionen unter Verwendung des visuellen Kontexts in allen Phasen vorherzusagen. Wir zeigen, dass RT-H diese Sprach-Aktions-Hierarchie nutzt, um robustere und flexiblere Policies zu erlernen, indem effektiv auf Multi-Task-Datensätze zurückgegriffen wird. Diese Policies ermöglichen nicht nur das Reagieren auf sprachliche Eingriffe, sondern können auch aus solchen Eingriffen lernen und Methoden übertreffen, die aus teleoperierten Eingriffen lernen. Unsere Website und Videos finden Sie unter https://rt-hierarchy.github.io.
Die Generierung von 3D-Assets erhält derzeit große Aufmerksamkeit, inspiriert durch die jüngsten Erfolge bei der textgesteuerten Erstellung von 2D-Inhalten. Bestehende Text-zu-3D-Methoden verwenden vortrainierte Text-zu-Bild-Diffusionsmodelle in einem Optimierungsproblem oder feintunen sie an synthetischen Daten, was oft zu nicht fotorealistischen 3D-Objekten ohne Hintergründe führt. In diesem Artikel präsentieren wir eine Methode, die vortrainierte Text-zu-Bild-Modelle als Prior nutzt und lernt, Multi-View-Bilder in einem einzigen Denoising-Prozess aus realen Daten zu generieren. Konkret schlagen wir vor, 3D-Volumen-Rendering und Cross-Frame-Attention-Schichten in jeden Block des bestehenden U-Net-Netzwerks des Text-zu-Bild-Modells zu integrieren. Darüber hinaus entwerfen wir eine autoregressive Generierung, die konsistentere 3D-Bilder aus jedem Blickwinkel rendert. Wir trainieren unser Modell an realen Datensätzen von Objekten und demonstrieren seine Fähigkeit, Instanzen mit einer Vielzahl von hochwertigen Formen und Texturen in authentischen Umgebungen zu generieren. Im Vergleich zu bestehenden Methoden sind die von unserer Methode erzeugten Ergebnisse konsistent und weisen eine bessere visuelle Qualität auf (-30 % FID, -37 % KID).
Image-to-Video (I2V)-Generierungsaufgaben leiden häufig darunter, in offenen Domänen eine hohe Treue zu bewahren. Traditionelle Bildanimationstechniken konzentrieren sich hauptsächlich auf spezifische Domänen wie Gesichter oder menschliche Posen, was es schwierig macht, sie auf offene Domänen zu verallgemeinern. Mehrere aktuelle I2V-Frameworks, die auf Diffusionsmodellen basieren, können dynamische Inhalte für Bilder aus offenen Domänen erzeugen, scheitern jedoch daran, die Treue zu bewahren. Wir haben festgestellt, dass zwei Hauptfaktoren für die geringe Treue der Verlust von Bilddetails und die Verzerrungen bei der Rauschvorhersage während des Denoising-Prozesses sind. Daher schlagen wir eine effektive Methode vor, die auf gängigen Video-Diffusionsmodellen angewendet werden kann. Diese Methode erreicht eine hohe Treue, indem sie präzisere Bildinformationen ergänzt und die Rauschvorhersage korrigiert. Konkret fügt unsere Methode zunächst Rauschen zum latenten Eingangsbild hinzu, um mehr Details zu bewahren, und führt dann ein Denoising des verrauschten latenten Zustands mit entsprechender Korrektur durch, um die Verzerrungen bei der Rauschvorhersage zu mildern. Unsere Methode ist abstimmungsfrei und plug-and-play. Die experimentellen Ergebnisse demonstrieren die Wirksamkeit unseres Ansatzes bei der Verbesserung der Treue der generierten Videos. Für weitere Ergebnisse zur Image-to-Video-Generierung verweisen wir auf die Projektwebsite: https://noise-rectification.github.io.
Die Manipulation von Objekten mit zwei mehrfingrigen Händen stellt seit langem eine Herausforderung in der Robotik dar, was auf den kontaktreichen Charakter vieler Manipulationsaufgaben und die inhärente Komplexität der Koordination eines hochdimensionalen bimanuellen Systems zurückzuführen ist. In dieser Arbeit betrachten wir das Problem des Drehens von Verschlüssen verschiedener flaschenähnlicher Objekte mit zwei Händen und zeigen, dass in der Simulation trainierte Richtlinien mittels Deep Reinforcement Learning effektiv in die reale Welt übertragen werden können. Durch neuartige technische Erkenntnisse in den Bereichen physikalische Modellierung, Echtzeitwahrnehmung und Belohnungsdesign demonstriert die Richtlinie Generalisierungsfähigkeiten über eine Vielzahl von unbekannten Objekten hinweg und zeigt dynamische und geschickte Verhaltensweisen. Unsere Ergebnisse liefern überzeugende Beweise dafür, dass Deep Reinforcement Learning in Kombination mit Sim-to-Real-Transfer ein vielversprechender Ansatz bleibt, um Manipulationsprobleme von bisher unerreichter Komplexität zu bewältigen.
Die Erstellung fotorealistischer Free-Viewpoint Videos (FVVs) dynamischer Szenen aus Multi-View-Videos bleibt eine herausfordernde Aufgabe. Trotz der bemerkenswerten Fortschritte, die durch aktuelle neuronale Rendering-Techniken erzielt wurden, benötigen diese Methoden in der Regel vollständige Videosequenzen für das Offline-Training und sind nicht in der Lage, Echtzeit-Rendering zu ermöglichen. Um diese Einschränkungen zu überwinden, stellen wir 3DGStream vor, eine Methode, die für das effiziente Streaming von FVVs realer dynamischer Szenen entwickelt wurde. Unsere Methode erreicht eine schnelle On-the-Fly-Rekonstruktion pro Frame innerhalb von 12 Sekunden und Echtzeit-Rendering mit 200 FPS. Insbesondere verwenden wir 3D-Gaussians (3DGs), um die Szene darzustellen. Anstatt den naiven Ansatz der direkten Optimierung von 3DGs pro Frame zu verfolgen, setzen wir einen kompakten Neural Transformation Cache (NTC) ein, um die Translationen und Rotationen von 3DGs zu modellieren, wodurch die Trainingszeit und der Speicherbedarf für jeden FVV-Frame erheblich reduziert werden. Darüber hinaus schlagen wir eine adaptive 3DG-Hinzufügungsstrategie vor, um neu auftauchende Objekte in dynamischen Szenen zu behandeln. Experimente zeigen, dass 3DGStream im Vergleich zu state-of-the-art Methoden wettbewerbsfähige Leistung in Bezug auf Rendering-Geschwindigkeit, Bildqualität, Trainingszeit und Modellspeicher erzielt.