papers.description
Wir stellen GAIA vor, einen Benchmark für Allgemeine KI-Assistenten, dessen Lösung einen Meilenstein in der KI-Forschung darstellen würde. GAIA stellt reale Fragen, die eine Reihe grundlegender Fähigkeiten erfordern, wie z. B. logisches Denken, Multimodalitätsverarbeitung, Web-Recherche und allgemeine Werkzeugnutzungskompetenz. GAIA-Fragen sind für Menschen konzeptionell einfach, aber für die meisten fortgeschrittenen KIs eine Herausforderung: Wir zeigen, dass menschliche Befragte 92 % erreichen, während GPT-4 mit Plugins nur 15 % erreicht. Diese bemerkenswerte Leistungsdiskrepanz steht im Gegensatz zum aktuellen Trend, dass große Sprachmodelle (LLMs) Menschen bei Aufgaben übertreffen, die Fachkenntnisse in z. B. Recht oder Chemie erfordern. Die Philosophie von GAIA weicht vom aktuellen Trend in KI-Benchmarks ab, die darauf abzielen, Aufgaben zu stellen, die für Menschen immer schwieriger werden. Wir vertreten die Ansicht, dass die Entstehung von Künstlicher Allgemeiner Intelligenz (AGI) von der Fähigkeit eines Systems abhängt, eine ähnliche Robustheit wie der Durchschnittsmensch bei solchen Fragen zu zeigen. Mit der Methodik von GAIA entwickeln wir 466 Fragen und deren Antworten. Wir veröffentlichen unsere Fragen, behalten jedoch die Antworten zu 300 davon zurück, um eine Bestenliste zu ermöglichen, die unter https://huggingface.co/gaia-benchmark verfügbar ist.
Multimedia-Generierungsansätze nehmen einen bedeutenden Platz in der Forschung zur künstlichen Intelligenz ein. Text-zu-Bild-Modelle haben in den letzten Jahren hochwertige Ergebnisse erzielt. Allerdings haben sich Methoden zur Videosynthese erst kürzlich zu entwickeln begonnen. Dieses Papier stellt eine neue zweistufige latente Diffusionsarchitektur zur Text-zu-Video-Generierung vor, die auf dem Text-zu-Bild-Diffusionsmodell basiert. Die erste Stufe betrifft die Synthese von Schlüsselbildern, um die Handlung eines Videos zu skizzieren, während die zweite Stufe der Generierung von Interpolationsbildern gewidmet ist, um die Bewegungen der Szene und der Objekte flüssig zu gestalten. Wir vergleichen mehrere zeitliche Konditionierungsansätze zur Generierung von Schlüsselbildern. Die Ergebnisse zeigen den Vorteil der Verwendung separater zeitlicher Blöcke gegenüber zeitlichen Schichten in Bezug auf Metriken, die Aspekte der Videoqualität und menschliche Präferenzen widerspiegeln. Das Design unseres Interpolationsmodells reduziert die Rechenkosten im Vergleich zu anderen Ansätzen zur maskierten Bildinterpolation erheblich. Darüber hinaus bewerten wir verschiedene Konfigurationen des MoVQ-basierten Video-Decodierungsschemas, um die Konsistenz zu verbessern und höhere PSNR-, SSIM-, MSE- und LPIPS-Werte zu erreichen. Schließlich vergleichen wir unsere Pipeline mit bestehenden Lösungen und erzielen die Top-2-Werte insgesamt und den Top-1-Wert unter den Open-Source-Lösungen: CLIPSIM = 0,2976 und FVD = 433,054. Projektseite: https://ai-forever.github.io/kandinsky-video/
Mit der weit verbreiteten Nutzung von VR-Geräten und -Inhalten steigt die Nachfrage nach Techniken zur 3D-Szenengenerierung. Bestehende Modelle zur 3D-Szenengenerierung beschränken die Zielszene jedoch auf spezifische Domänen, hauptsächlich aufgrund ihrer Trainingsstrategien, die auf 3D-Scan-Datensätzen basieren, die weit von der realen Welt entfernt sind. Um diese Einschränkung zu überwinden, schlagen wir LucidDreamer vor, eine domänenfreie Szenengenerierungspipeline, die die Leistungsfähigkeit bestehender großskaliger, diffusionsbasierter generativer Modelle voll ausschöpft. Unser LucidDreamer besteht aus zwei alternierenden Schritten: Dreaming und Alignment. Zunächst generieren wir aus den Eingaben multi-view-konsistente Bilder, indem wir die Punktwolke als geometrische Leitlinie für jede Bildgenerierung verwenden. Konkret projizieren wir einen Teil der Punktwolke in die gewünschte Ansicht und nutzen die Projektion als Anleitung für das Inpainting mit dem generativen Modell. Die inpaintierten Bilder werden mit geschätzten Tiefenkarten in den 3D-Raum gehoben und bilden neue Punkte. Zweitens schlagen wir einen Aligning-Algorithmus vor, um die neuen Punkte harmonisch in die 3D-Szene zu integrieren. Die schließlich erhaltene 3D-Szene dient als Ausgangspunkt für die Optimierung von Gaussian Splats. LucidDreamer erzeugt Gaussian Splats, die im Vergleich zu früheren Methoden zur 3D-Szenengenerierung hochdetailliert sind, ohne Einschränkungen hinsichtlich der Domäne der Zielszene.
Große Sprachmodelle (LLMs) werden mithilfe von menschlichen Vergleichsdaten und Methoden des Reinforcement Learning from Human Feedback (RLHF) feinabgestimmt, um sie besser an die Präferenzen der Nutzer anzupassen. Im Gegensatz zu LLMs wurde das Lernen menschlicher Präferenzen bei Text-zu-Bild-Diffusionsmodellen noch nicht umfassend erforscht; der beste bestehende Ansatz besteht darin, ein vortrainiertes Modell mithilfe sorgfältig kuratierter hochwertiger Bilder und Bildbeschreibungen zu verfeinern, um die visuelle Attraktivität und die Textausrichtung zu verbessern. Wir schlagen Diffusion-DPO vor, eine Methode zur Anpassung von Diffusionsmodellen an menschliche Präferenzen durch direkte Optimierung auf Basis von menschlichen Vergleichsdaten. Diffusion-DPO ist an das kürzlich entwickelte Direct Preference Optimization (DPO) angelehnt, eine einfachere Alternative zu RLHF, die direkt eine Strategie optimiert, die menschliche Präferenzen unter einem Klassifikationsziel am besten erfüllt. Wir reformulieren DPO, um eine Diffusionsmodell-Vorstellung von Wahrscheinlichkeit zu berücksichtigen, und nutzen die untere Schranke der Evidenz, um ein differenzierbares Ziel abzuleiten. Unter Verwendung des Pick-a-Pic-Datensatzes mit 851K crowdsourcierten paarweisen Präferenzen verfeinern wir das Basismodell des state-of-the-art Stable Diffusion XL (SDXL)-1.0-Modells mit Diffusion-DPO. Unser verfeinertes Basismodell übertrifft sowohl das Basismodell SDXL-1.0 als auch das größere SDXL-1.0-Modell, das ein zusätzliches Verfeinerungsmodell enthält, in menschlichen Bewertungen deutlich und verbessert die visuelle Attraktivität und die Prompt-Ausrichtung. Wir entwickeln auch eine Variante, die KI-Feedback verwendet und eine vergleichbare Leistung wie das Training auf menschlichen Präferenzen aufweist, was die Tür für die Skalierung von Anpassungsmethoden für Diffusionsmodelle öffnet.
Methoden zur Feinabstimmung generativer Modelle für konzeptgetriebene Personalisierung erzielen im Allgemeinen starke Ergebnisse bei der subjekt- oder stilgetriebenen Generierung. Kürzlich wurden Low-Rank-Adaptationen (LoRA) als ein parameter-effizienter Weg zur Erreichung konzeptgetriebener Personalisierung vorgeschlagen. Während aktuelle Arbeiten die Kombination separater LoRAs zur gemeinsamen Generierung erlernter Stile und Subjekte untersuchen, lösen bestehende Techniken das Problem nicht zuverlässig; sie beeinträchtigen oft entweder die Subjekttreue oder die Stiltreue. Wir schlagen ZipLoRA vor, eine Methode zur kostengünstigen und effektiven Zusammenführung unabhängig trainierter Stil- und Subjekt-LoRAs, um die Generierung von beliebigen benutzerdefinierten Subjekten in beliebigen benutzerdefinierten Stilen zu ermöglichen. Experimente mit einer Vielzahl von Subjekt- und Stilkombinationen zeigen, dass ZipLoRA überzeugende Ergebnisse mit signifikanten Verbesserungen gegenüber den Baselines in Bezug auf Subjekt- und Stiltreue erzeugen kann, während die Fähigkeit zur Rekontextualisierung erhalten bleibt. Projektseite: https://ziplora.github.io
Die Verwendung von Reinforcement Learning mit menschlichem Feedback (RLHF) hat vielversprechende Ergebnisse bei der Feinabstimmung von Diffusionsmodellen gezeigt. Bisherige Methoden beginnen mit dem Training eines Belohnungsmodells, das menschlichen Präferenzen entspricht, und nutzen dann RL-Techniken, um die zugrunde liegenden Modelle feinzutunen. Die Erstellung eines effizienten Belohnungsmodells erfordert jedoch umfangreiche Datensätze, eine optimale Architektur und manuelle Hyperparameter-Anpassung, was den Prozess sowohl zeit- als auch kostenintensiv macht. Die Methode der direkten Präferenzoptimierung (DPO), die sich bei der Feinabstimmung großer Sprachmodelle bewährt hat, eliminiert die Notwendigkeit eines Belohnungsmodells. Die umfangreichen GPU-Speicheranforderungen des Denoising-Prozesses von Diffusionsmodellen behindern jedoch die direkte Anwendung der DPO-Methode. Um dieses Problem zu lösen, führen wir die Methode der Direkten Präferenz für Denoising-Diffusions-Policy-Optimierung (D3PO) ein, um Diffusionsmodelle direkt feinzutunen. Die theoretische Analyse zeigt, dass D3PO zwar auf das Training eines Belohnungsmodells verzichtet, aber effektiv als das optimale Belohnungsmodell fungiert, das mit menschlichen Feedback-Daten trainiert wurde, um den Lernprozess zu steuern. Dieser Ansatz erfordert kein Training eines Belohnungsmodells, erweist sich als direkter, kosteneffizienter und minimiert den Rechenaufwand. In Experimenten verwendet unsere Methode die relative Skala der Ziele als Stellvertreter für menschliche Präferenzen und liefert vergleichbare Ergebnisse zu Methoden, die Ground-Truth-Belohnungen verwenden. Darüber hinaus zeigt D3PO die Fähigkeit, Bildverzerrungsraten zu reduzieren und sicherere Bilder zu erzeugen, wodurch Herausforderungen im Zusammenhang mit fehlenden robusten Belohnungsmodellen überwunden werden.
In-Context-Prompting bei großen Sprachmodellen (LLMs) hat sich zu einem weit verbreiteten Ansatz entwickelt, um Zero-Shot-Fähigkeiten zu verbessern, doch dieser Ansatz ist im visuellen Bereich weniger erforscht. Bestehende Methoden des visuellen Promptings konzentrieren sich auf Referenzsegmentierung, um das relevanteste Objekt zu segmentieren, was jedoch viele generische Vision-Aufgaben wie Open-Set-Segmentierung und -Detektion nicht ausreichend adressiert. In diesem Artikel stellen wir ein universelles visuelles In-Context-Prompting-Framework für beide Aufgaben vor. Insbesondere bauen wir auf einer Encoder-Decoder-Architektur auf und entwickeln einen vielseitigen Prompt-Encoder, der eine Vielzahl von Prompts wie Striche, Rahmen und Punkte unterstützt. Wir erweitern ihn weiter, um eine beliebige Anzahl von Referenzbildsegmenten als Kontext zu verwenden. Unsere umfangreichen Untersuchungen zeigen, dass das vorgeschlagene visuelle In-Context-Prompting außergewöhnliche Referenz- und generische Segmentierungsfähigkeiten zur Referenzierung und Detektion hervorruft, was zu wettbewerbsfähigen Leistungen bei Close-Set-In-Domain-Datensätzen führt und vielversprechende Ergebnisse bei vielen Open-Set-Segmentierungsdatensätzen zeigt. Durch gemeinsames Training auf COCO und SA-1B erreicht unser Modell 57,7 PQ auf COCO und 23,2 PQ auf ADE20K. Der Code wird unter https://github.com/UX-Decoder/DINOv verfügbar sein.
Die Erweiterung bildbasierter großer multimodaler Modelle (LMM) auf Videos ist aufgrund der inhärenten Komplexität von Videodaten eine Herausforderung. Die jüngsten Ansätze, die bildbasierte LMM auf Videos erweitern, weisen entweder keine Verankerungsfähigkeiten auf (z. B. VideoChat, Video-ChatGPT, Video-LLaMA) oder nutzen die Audiosignale nicht für ein besseres Verständnis der Videos (z. B. Video-ChatGPT). Um diese Lücken zu schließen, schlagen wir Video-LLaVA vor, das erste LMM mit Pixel-genauer Verankerungsfähigkeit, das Audiosignale durch Transkription in Text integriert, um das Verständnis des Videokontexts zu bereichern. Unser Framework verwendet einen Standard-Tracker und ein neuartiges Verankerungsmodul, das es ermöglicht, Objekte in Videos räumlich und zeitlich gemäß Benutzeranweisungen zu lokalisieren. Wir evaluieren Video-LLaVA anhand von videobasierten Generierungs- und Frage-Antwort-Benchmarks und führen neue Benchmarks ein, die speziell zur Messung der promptbasierten Objektverankerungsleistung in Videos entwickelt wurden. Darüber hinaus schlagen wir die Verwendung von Vicuna anstelle von GPT-3.5, wie in Video-ChatGPT verwendet, für videobasierte Konversationsbenchmarks vor, um die Reproduzierbarkeit der Ergebnisse sicherzustellen, was aufgrund der proprietären Natur von GPT-3.5 ein Problem darstellt. Unser Framework baut auf dem State-of-the-Art bildbasierten LLaVA-Modell auf und erweitert dessen Vorteile auf den Videobereich, wodurch vielversprechende Fortschritte bei videobasierten Konversations- und Verankerungsaufgaben erzielt werden. Projektseite: https://github.com/mbzuai-oryx/Video-LLaVA
Dies ist ein technischer Bericht über die Aufgabe der 360-Grad-Panoramabildgenerierung basierend auf Diffusionsmodellen. Im Gegensatz zu gewöhnlichen 2D-Bildern erfassen 360-Grad-Panoramabilder das gesamte Sichtfeld von 360° × 180°. Daher sollten die äußerste rechte und linke Seite des 360-Grad-Panoramabildes nahtlos fortgesetzt werden, was die Hauptherausforderung in diesem Bereich darstellt. Derzeit ist die Diffusionspipeline jedoch nicht geeignet, um ein solches nahtloses 360-Grad-Panoramabild zu erzeugen. Zu diesem Zweck schlagen wir eine zirkuläre Blending-Strategie sowohl in der Denoising- als auch in der VAE-Decodierungsphase vor, um die geometrische Kontinuität zu gewährleisten. Basierend darauf präsentieren wir zwei Modelle für die Aufgaben Text-zu-360-Panorama und Einzelbild-zu-360-Panorama. Der Code wurde als Open-Source-Projekt unter https://github.com/ArcherFMY/SD-T2I-360PanoImage und https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary veröffentlicht.