papers.description
Wir stellen GAIA vor, einen Benchmark für Allgemeine KI-Assistenten, dessen Lösung einen Meilenstein in der KI-Forschung darstellen würde. GAIA stellt reale Fragen, die eine Reihe grundlegender Fähigkeiten erfordern, wie z. B. logisches Denken, Multimodalitätsverarbeitung, Web-Recherche und allgemeine Werkzeugnutzungskompetenz. GAIA-Fragen sind für Menschen konzeptionell einfach, aber für die meisten fortgeschrittenen KIs eine Herausforderung: Wir zeigen, dass menschliche Befragte 92 % erreichen, während GPT-4 mit Plugins nur 15 % erreicht. Diese bemerkenswerte Leistungsdiskrepanz steht im Gegensatz zum aktuellen Trend, dass große Sprachmodelle (LLMs) Menschen bei Aufgaben übertreffen, die Fachkenntnisse in z. B. Recht oder Chemie erfordern. Die Philosophie von GAIA weicht vom aktuellen Trend in KI-Benchmarks ab, die darauf abzielen, Aufgaben zu stellen, die für Menschen immer schwieriger werden. Wir vertreten die Ansicht, dass die Entstehung von Künstlicher Allgemeiner Intelligenz (AGI) von der Fähigkeit eines Systems abhängt, eine ähnliche Robustheit wie der Durchschnittsmensch bei solchen Fragen zu zeigen. Mit der Methodik von GAIA entwickeln wir 466 Fragen und deren Antworten. Wir veröffentlichen unsere Fragen, behalten jedoch die Antworten zu 300 davon zurück, um eine Bestenliste zu ermöglichen, die unter https://huggingface.co/gaia-benchmark verfügbar ist.
Multimedia-Generierungsansätze nehmen einen bedeutenden Platz in der Forschung zur künstlichen Intelligenz ein. Text-zu-Bild-Modelle haben in den letzten Jahren hochwertige Ergebnisse erzielt. Allerdings haben sich Methoden zur Videosynthese erst kürzlich zu entwickeln begonnen. Dieses Papier stellt eine neue zweistufige latente Diffusionsarchitektur zur Text-zu-Video-Generierung vor, die auf dem Text-zu-Bild-Diffusionsmodell basiert. Die erste Stufe betrifft die Synthese von Schlüsselbildern, um die Handlung eines Videos zu skizzieren, während die zweite Stufe der Generierung von Interpolationsbildern gewidmet ist, um die Bewegungen der Szene und der Objekte flüssig zu gestalten. Wir vergleichen mehrere zeitliche Konditionierungsansätze zur Generierung von Schlüsselbildern. Die Ergebnisse zeigen den Vorteil der Verwendung separater zeitlicher Blöcke gegenüber zeitlichen Schichten in Bezug auf Metriken, die Aspekte der Videoqualität und menschliche Präferenzen widerspiegeln. Das Design unseres Interpolationsmodells reduziert die Rechenkosten im Vergleich zu anderen Ansätzen zur maskierten Bildinterpolation erheblich. Darüber hinaus bewerten wir verschiedene Konfigurationen des MoVQ-basierten Video-Decodierungsschemas, um die Konsistenz zu verbessern und höhere PSNR-, SSIM-, MSE- und LPIPS-Werte zu erreichen. Schließlich vergleichen wir unsere Pipeline mit bestehenden Lösungen und erzielen die Top-2-Werte insgesamt und den Top-1-Wert unter den Open-Source-Lösungen: CLIPSIM = 0,2976 und FVD = 433,054. Projektseite: https://ai-forever.github.io/kandinsky-video/
Methoden zur Feinabstimmung generativer Modelle für konzeptgetriebene Personalisierung erzielen im Allgemeinen starke Ergebnisse bei der subjekt- oder stilgetriebenen Generierung. Kürzlich wurden Low-Rank-Adaptationen (LoRA) als ein parameter-effizienter Weg zur Erreichung konzeptgetriebener Personalisierung vorgeschlagen. Während aktuelle Arbeiten die Kombination separater LoRAs zur gemeinsamen Generierung erlernter Stile und Subjekte untersuchen, lösen bestehende Techniken das Problem nicht zuverlässig; sie beeinträchtigen oft entweder die Subjekttreue oder die Stiltreue. Wir schlagen ZipLoRA vor, eine Methode zur kostengünstigen und effektiven Zusammenführung unabhängig trainierter Stil- und Subjekt-LoRAs, um die Generierung von beliebigen benutzerdefinierten Subjekten in beliebigen benutzerdefinierten Stilen zu ermöglichen. Experimente mit einer Vielzahl von Subjekt- und Stilkombinationen zeigen, dass ZipLoRA überzeugende Ergebnisse mit signifikanten Verbesserungen gegenüber den Baselines in Bezug auf Subjekt- und Stiltreue erzeugen kann, während die Fähigkeit zur Rekontextualisierung erhalten bleibt. Projektseite: https://ziplora.github.io
Die Verwendung von Reinforcement Learning mit menschlichem Feedback (RLHF) hat vielversprechende Ergebnisse bei der Feinabstimmung von Diffusionsmodellen gezeigt. Bisherige Methoden beginnen mit dem Training eines Belohnungsmodells, das menschlichen Präferenzen entspricht, und nutzen dann RL-Techniken, um die zugrunde liegenden Modelle feinzutunen. Die Erstellung eines effizienten Belohnungsmodells erfordert jedoch umfangreiche Datensätze, eine optimale Architektur und manuelle Hyperparameter-Anpassung, was den Prozess sowohl zeit- als auch kostenintensiv macht. Die Methode der direkten Präferenzoptimierung (DPO), die sich bei der Feinabstimmung großer Sprachmodelle bewährt hat, eliminiert die Notwendigkeit eines Belohnungsmodells. Die umfangreichen GPU-Speicheranforderungen des Denoising-Prozesses von Diffusionsmodellen behindern jedoch die direkte Anwendung der DPO-Methode. Um dieses Problem zu lösen, führen wir die Methode der Direkten Präferenz für Denoising-Diffusions-Policy-Optimierung (D3PO) ein, um Diffusionsmodelle direkt feinzutunen. Die theoretische Analyse zeigt, dass D3PO zwar auf das Training eines Belohnungsmodells verzichtet, aber effektiv als das optimale Belohnungsmodell fungiert, das mit menschlichen Feedback-Daten trainiert wurde, um den Lernprozess zu steuern. Dieser Ansatz erfordert kein Training eines Belohnungsmodells, erweist sich als direkter, kosteneffizienter und minimiert den Rechenaufwand. In Experimenten verwendet unsere Methode die relative Skala der Ziele als Stellvertreter für menschliche Präferenzen und liefert vergleichbare Ergebnisse zu Methoden, die Ground-Truth-Belohnungen verwenden. Darüber hinaus zeigt D3PO die Fähigkeit, Bildverzerrungsraten zu reduzieren und sicherere Bilder zu erzeugen, wodurch Herausforderungen im Zusammenhang mit fehlenden robusten Belohnungsmodellen überwunden werden.
Die Erweiterung bildbasierter großer multimodaler Modelle (LMM) auf Videos ist aufgrund der inhärenten Komplexität von Videodaten eine Herausforderung. Die jüngsten Ansätze, die bildbasierte LMM auf Videos erweitern, weisen entweder keine Verankerungsfähigkeiten auf (z. B. VideoChat, Video-ChatGPT, Video-LLaMA) oder nutzen die Audiosignale nicht für ein besseres Verständnis der Videos (z. B. Video-ChatGPT). Um diese Lücken zu schließen, schlagen wir Video-LLaVA vor, das erste LMM mit Pixel-genauer Verankerungsfähigkeit, das Audiosignale durch Transkription in Text integriert, um das Verständnis des Videokontexts zu bereichern. Unser Framework verwendet einen Standard-Tracker und ein neuartiges Verankerungsmodul, das es ermöglicht, Objekte in Videos räumlich und zeitlich gemäß Benutzeranweisungen zu lokalisieren. Wir evaluieren Video-LLaVA anhand von videobasierten Generierungs- und Frage-Antwort-Benchmarks und führen neue Benchmarks ein, die speziell zur Messung der promptbasierten Objektverankerungsleistung in Videos entwickelt wurden. Darüber hinaus schlagen wir die Verwendung von Vicuna anstelle von GPT-3.5, wie in Video-ChatGPT verwendet, für videobasierte Konversationsbenchmarks vor, um die Reproduzierbarkeit der Ergebnisse sicherzustellen, was aufgrund der proprietären Natur von GPT-3.5 ein Problem darstellt. Unser Framework baut auf dem State-of-the-Art bildbasierten LLaVA-Modell auf und erweitert dessen Vorteile auf den Videobereich, wodurch vielversprechende Fortschritte bei videobasierten Konversations- und Verankerungsaufgaben erzielt werden. Projektseite: https://github.com/mbzuai-oryx/Video-LLaVA
In-Context-Prompting bei großen Sprachmodellen (LLMs) hat sich zu einem weit verbreiteten Ansatz entwickelt, um Zero-Shot-Fähigkeiten zu verbessern, doch dieser Ansatz ist im visuellen Bereich weniger erforscht. Bestehende Methoden des visuellen Promptings konzentrieren sich auf Referenzsegmentierung, um das relevanteste Objekt zu segmentieren, was jedoch viele generische Vision-Aufgaben wie Open-Set-Segmentierung und -Detektion nicht ausreichend adressiert. In diesem Artikel stellen wir ein universelles visuelles In-Context-Prompting-Framework für beide Aufgaben vor. Insbesondere bauen wir auf einer Encoder-Decoder-Architektur auf und entwickeln einen vielseitigen Prompt-Encoder, der eine Vielzahl von Prompts wie Striche, Rahmen und Punkte unterstützt. Wir erweitern ihn weiter, um eine beliebige Anzahl von Referenzbildsegmenten als Kontext zu verwenden. Unsere umfangreichen Untersuchungen zeigen, dass das vorgeschlagene visuelle In-Context-Prompting außergewöhnliche Referenz- und generische Segmentierungsfähigkeiten zur Referenzierung und Detektion hervorruft, was zu wettbewerbsfähigen Leistungen bei Close-Set-In-Domain-Datensätzen führt und vielversprechende Ergebnisse bei vielen Open-Set-Segmentierungsdatensätzen zeigt. Durch gemeinsames Training auf COCO und SA-1B erreicht unser Modell 57,7 PQ auf COCO und 23,2 PQ auf ADE20K. Der Code wird unter https://github.com/UX-Decoder/DINOv verfügbar sein.