Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die personalisierte Text-zu-Bild-Generierung hat sich als leistungsstarkes und gefragtes Werkzeug etabliert, das Nutzern ermöglicht, maßgeschneiderte Bilder basierend auf ihren spezifischen Konzepten und Eingabeaufforderungen zu erstellen. Allerdings stoßen bestehende Ansätze zur Personalisierung auf mehrere Herausforderungen, darunter lange Anpassungszeiten, hohe Speicheranforderungen, die Notwendigkeit mehrerer Eingabebilder pro Identität sowie Einschränkungen bei der Bewahrung der Identität und der Bearbeitbarkeit. Um diese Hindernisse zu überwinden, präsentieren wir PhotoVerse, eine innovative Methode, die einen zweigleisigen Konditionierungsmechanismus in den Bereichen Text und Bild integriert und somit eine effektive Kontrolle über den Bildgenerierungsprozess bietet. Darüber hinaus führen wir den Gesichtsidentitätsverlust als neuartige Komponente ein, um die Bewahrung der Identität während des Trainings zu verbessern. Bemerkenswerterweise eliminiert unser vorgeschlagenes PhotoVerse die Notwendigkeit einer Anpassung zur Testzeit und stützt sich ausschließlich auf ein einzelnes Gesichtsfoto der Zielidentität, wodurch die mit der Bildgenerierung verbundenen Ressourcenkosten erheblich reduziert werden. Nach einer einzigen Trainingsphase ermöglicht unser Ansatz die Generierung hochwertiger Bilder in nur wenigen Sekunden. Darüber hinaus kann unsere Methode vielfältige Bilder erzeugen, die verschiedene Szenen und Stile umfassen. Die umfangreiche Evaluation zeigt die überlegene Leistung unseres Ansatzes, der die doppelten Ziele der Identitätsbewahrung und der Bearbeitbarkeit erreicht. Projektseite: https://photoverse2d.github.io/
Diffusionsmodelle haben die Text-zu-Bild-Generierung mit ihrer außergewöhnlichen Qualität und Kreativität revolutioniert. Allerdings ist ihr mehrstufiger Sampling-Prozess bekanntlich langsam und erfordert oft Dutzende von Inferenzschritten, um zufriedenstellende Ergebnisse zu erzielen. Frühere Versuche, die Sampling-Geschwindigkeit zu verbessern und die Rechenkosten durch Destillation zu reduzieren, waren nicht erfolgreich darin, ein funktionierendes Ein-Schritt-Modell zu erreichen. In diesem Artikel untersuchen wir eine kürzlich entwickelte Methode namens Rectified Flow, die bisher nur auf kleinen Datensätzen angewendet wurde. Der Kern von Rectified Flow liegt in seinem Reflow-Verfahren, das die Trajektorien von Wahrscheinlichkeitsflüssen begradigt, die Kopplung zwischen Rauschen und Bildern verfeinert und den Destillationsprozess mit Studentenmodellen erleichtert. Wir schlagen eine neuartige textkonditionierte Pipeline vor, um Stable Diffusion (SD) in ein ultraschnelles Ein-Schritt-Modell zu verwandeln, wobei wir feststellen, dass Reflow eine entscheidende Rolle bei der Verbesserung der Zuordnung zwischen Rauschen und Bildern spielt. Mit unserer neuen Pipeline schaffen wir, soweit uns bekannt ist, den ersten Ein-Schritt-Diffusions-basierten Text-zu-Bild-Generator mit SD-Bildqualität, der einen FID (Frechet Inception Distance) von 23,3 auf MS COCO 2017-5k erreicht und damit die bisherige State-of-the-Art-Technik, progressive Destillation, deutlich übertrifft (37,2 → 23,3 im FID). Durch die Nutzung eines erweiterten Netzwerks mit 1,7 Milliarden Parametern verbessern wir den FID weiter auf 22,4. Wir nennen unsere Ein-Schritt-Modelle InstaFlow. Auf MS COCO 2014-30k erzielt InstaFlow einen FID von 13,1 in nur 0,09 Sekunden, der beste Wert im ≤ 0,1 Sekunden-Regime, und übertrifft damit das kürzlich entwickelte StyleGAN-T (13,9 in 0,1 Sekunden). Bemerkenswerterweise betragen die Trainingskosten für InstaFlow nur 199 A100 GPU-Tage. Projektseite: https://github.com/gnobitab/InstaFlow.
Die effiziente Bereitstellung von großen Sprachmodellen (LLMs) mit hohem Durchsatz erfordert das Bündeln einer ausreichenden Anzahl von Anfragen gleichzeitig. Bestehende Systeme stoßen jedoch an Grenzen, da der Speicher für den Schlüssel-Wert-Cache (KV-Cache) für jede Anfrage enorm ist und sich dynamisch vergrößert und verkleinert. Bei ineffizienter Verwaltung kann dieser Speicher durch Fragmentierung und redundante Duplizierung erheblich verschwendet werden, was die Batch-Größe begrenzt. Um dieses Problem zu lösen, schlagen wir PagedAttention vor, einen Aufmerksamkeitsalgorithmus, der von den klassischen Techniken des virtuellen Speichers und der Speicherverwaltung in Betriebssystemen inspiriert ist. Darauf aufbauend entwickeln wir vLLM, ein LLM-Bereitstellungssystem, das (1) nahezu keinen Abfall im KV-Cache-Speicher verursacht und (2) eine flexible Freigabe des KV-Caches innerhalb und über Anfragen hinweg ermöglicht, um den Speicherverbrauch weiter zu reduzieren. Unsere Auswertungen zeigen, dass vLLM den Durchsatz beliebter LLMs im Vergleich zu modernsten Systemen wie FasterTransformer und Orca bei gleicher Latenz um das 2- bis 4-fache steigert. Die Verbesserung ist bei längeren Sequenzen, größeren Modellen und komplexeren Dekodierungsalgorithmen noch deutlicher. Der Quellcode von vLLM ist öffentlich unter https://github.com/vllm-project/vllm verfügbar.
Große Sprachmodelle glänzen in vielen Aufgaben der menschlichen Sprache, scheitern jedoch oft in hochspezialisierten Domänen wie der wissenschaftlichen Astronomie. Um diese Lücke zu schließen, stellen wir AstroLLaMA vor, ein 7-Milliarden-Parameter-Modell, das aus LLaMA-2 durch Feinabstimmung mit über 300.000 astronomischen Abstracts von arXiv entwickelt wurde. Optimiert für traditionelles kausales Sprachmodellieren, erreicht AstroLLaMA eine um 30 % geringere Perplexität als LLaMA-2 und zeigt eine deutliche Domänenanpassung. Unser Modell erzeugt tiefgründigere und wissenschaftlich relevantere Textvervollständigungen und Embedding-Extraktionen als state-of-the-art Foundation-Modelle, obwohl es deutlich weniger Parameter aufweist. AstroLLaMA dient als robustes, domänenspezifisches Modell mit breitem Feinabstimmungspotenzial. Seine öffentliche Freigabe zielt darauf ab, astronomiebezogene Forschung zu fördern, einschließlich automatischer Artikelzusammenfassung und der Entwicklung von Konversationsagenten.
Geschickte Manipulation stellt seit langem eine Herausforderung in der Robotik dar. Obwohl maschinelle Lernverfahren einige vielversprechende Ansätze gezeigt haben, beschränken sich die Ergebnisse bisher weitgehend auf Simulationen. Dies ist größtenteils auf den Mangel an geeigneter Hardware zurückzuführen. In diesem Artikel präsentieren wir die LEAP Hand, eine kostengünstige, geschickte und anthropomorphe Hand für die Forschung im Bereich des maschinellen Lernens. Im Gegensatz zu früheren Händen verfügt die LEAP Hand über eine neuartige kinematische Struktur, die maximale Geschicklichkeit unabhängig von der Fingerstellung ermöglicht. Die LEAP Hand ist kostengünstig und kann in 4 Stunden aus leicht verfügbaren Teilen zu einem Preis von 2000 USD zusammengebaut werden. Sie ist in der Lage, über längere Zeiträume hinweg konstant hohe Drehmomente auszuüben. Wir zeigen, dass die LEAP Hand zur Durchführung verschiedener Manipulationsaufgaben in der realen Welt eingesetzt werden kann – von visueller Teleoperation bis hin zum Lernen aus passiven Videodaten und Sim2Real. Die LEAP Hand übertrifft ihren engsten Konkurrenten, die Allegro Hand, in allen unseren Experimenten deutlich, während sie nur ein Achtel der Kosten verursacht. Wir veröffentlichen detaillierte Montageanleitungen, die Sim2Real-Pipeline und eine Entwicklungsplattform mit nützlichen APIs auf unserer Website unter https://leap-hand.github.io/.
Erhebliche Anstrengungen wurden unternommen, um animierbare und fotorealistische menschliche Avatare zu erlernen. Zu diesem Zweck werden sowohl explizite als auch implizite 3D-Repräsentationen intensiv erforscht, um eine ganzheitliche Modellierung und Erfassung des gesamten Menschen (z. B. Körper, Kleidung, Gesicht und Haare) zu ermöglichen. Allerdings ist keine der beiden Repräsentationen in Bezug auf die Darstellungseffizienz die optimale Wahl, da verschiedene Teile des menschlichen Avatars unterschiedliche Modellierungsanforderungen haben. Beispielsweise sind Meshes im Allgemeinen nicht geeignet, um Kleidung und Haare zu modellieren. Aus diesem Grund präsentieren wir Disentangled Avatars (DELTA), das Menschen mit hybriden explizit-impliziten 3D-Repräsentationen modelliert. DELTA nimmt ein monokulares RGB-Video als Eingabe und erzeugt einen menschlichen Avatar mit separaten Schichten für Körper und Kleidung/Haare. Konkret demonstrieren wir zwei wichtige Anwendungen für DELTA. Bei der ersten betrachten wir die Entflechtung von menschlichem Körper und Kleidung, und bei der zweiten entflechten wir Gesicht und Haare. Dazu repräsentiert DELTA den Körper oder das Gesicht mit einem expliziten mesh-basierten parametrischen 3D-Modell und die Kleidung oder die Haare mit einem impliziten neuronalen Strahlungsfeld. Um dies zu ermöglichen, entwerfen wir einen end-to-end differenzierbaren Renderer, der Meshes in das volumetrische Rendering integriert, wodurch DELTA direkt aus monokularen Videos ohne jegliche 3D-Aufsicht lernen kann. Schließlich zeigen wir, wie diese beiden Anwendungen leicht kombiniert werden können, um Ganzkörper-Avatare zu modellieren, sodass Haare, Gesicht, Körper und Kleidung vollständig entflochten, aber gemeinsam gerendert werden können. Eine solche Entflechtung ermöglicht den Transfer von Haaren und Kleidung auf beliebige Körperformen. Wir validieren empirisch die Wirksamkeit der Entflechtung von DELTA, indem wir seine vielversprechende Leistung bei der entflochtenen Rekonstruktion, dem virtuellen Anprobieren von Kleidung und dem Haartransfer demonstrieren. Um zukünftige Forschung zu erleichtern, veröffentlichen wir auch eine Open-Source-Pipeline für die Erforschung der hybriden Modellierung menschlicher Avatare.