Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der bemerkenswerte Fortschritt von Multi-modalen Großen Sprachmodellen (MLLMs) hat aufgrund ihrer überragenden Leistung in visuellen Kontexten beispiellose Aufmerksamkeit erregt. Ihre Fähigkeiten zur Lösung visueller mathematischer Probleme sind jedoch unzureichend bewertet und verstanden. Wir untersuchen aktuelle Benchmarks, um übermäßige visuelle Inhalte in textuellen Fragen zu integrieren, die möglicherweise MLLMs dabei unterstützen, Antworten abzuleiten, ohne die Eingabediagramme wirklich zu interpretieren. Zu diesem Zweck stellen wir MathVerse vor, einen umfassenden visuellen Mathematik-Benchmark, der für eine gerechte und eingehende Bewertung von MLLMs konzipiert ist. Wir sammeln sorgfältig 2.612 hochwertige, multi-subjektive Mathematikprobleme mit Diagrammen aus öffentlich verfügbaren Quellen. Jedes Problem wird dann von menschlichen Annotatoren in sechs verschiedene Versionen umgewandelt, die jeweils unterschiedliche Informationsgehalte in Multi-Modalität bieten und insgesamt zu 15.000 Testbeispielen beitragen. Dieser Ansatz ermöglicht es MathVerse, umfassend zu bewerten, ob und inwieweit MLLMs die visuellen Diagramme für mathematisches Denken wirklich verstehen können. Darüber hinaus schlagen wir eine Chain-of-Thought (CoT) Bewertungsstrategie für eine fein abgestufte Bewertung der Ausgabeanworten vor. Anstatt naiv wahr oder falsch zu beurteilen, verwenden wir GPT-4(V), um entscheidende Denkschritte adaptiv zu extrahieren und dann jeden Schritt mit einer detaillierten Fehleranalyse zu bewerten, die die Zwischenqualität des CoT-Denkens durch MLLMs aufdecken kann. Wir hoffen, dass der MathVerse-Benchmark einzigartige Einblicke liefern kann, um die zukünftige Entwicklung von MLLMs zu lenken. Projektseite: https://mathverse-cuhk.github.io
Die Erstellung von 3D-Inhalten aus Textvorgaben hat in letzter Zeit bemerkenswerte Erfolge gezeigt. Allerdings erzeugen aktuelle Text-zu-3D-Methoden häufig 3D-Ergebnisse, die nicht gut mit menschlichen Präferenzen übereinstimmen. In diesem Paper stellen wir ein umfassendes Rahmenwerk namens DreamReward vor, um Text-zu-3D-Modelle mithilfe von menschlichem Präferenz-Feedback zu erlernen und zu verbessern. Zunächst sammeln wir 25.000 Expertenvergleiche auf der Grundlage eines systematischen Annotations-Pipelines, einschließlich Bewertung und Ranking. Anschließend entwickeln wir Reward3D - das erste allgemeine Text-zu-3D-Modell für menschliche Präferenzbelohnungen, um menschliche Präferenzen effektiv zu kodieren. Aufbauend auf dem 3D-Belohnungsmodell führen wir schließlich theoretische Analysen durch und präsentieren das Reward3D-Feedback-Lernen (DreamFL), einen direkten Abstimmungsalgorithmus zur Optimierung der Multi-View-Diffusionsmodelle mit einem neu definierten Bewerter. Gestützt auf theoretische Beweise und umfangreiche Experimentvergleiche generiert unser DreamReward erfolgreich hochwertige und konsistente 3D-Ergebnisse mit signifikanten Verbesserungen bei der Anpassung an die menschliche Absicht. Unsere Ergebnisse zeigen das große Potenzial des Lernens aus menschlichem Feedback zur Verbesserung von Text-zu-3D-Modellen auf.
In den letzten Jahren hat die Anwendung von multimodalen großen Sprachmodellen (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Allerdings bestehen aktuelle MLLMs, die als Grundmodelle für viele nachgelagerte Aufgaben dienen, aus dem bekannten Transformer-Netzwerk, das eine weniger effiziente quadratische Rechenkomplexität aufweist. Um die Effizienz solcher Grundmodelle zu verbessern, schlagen wir Cobra vor, ein MLLM mit linearer Rechenkomplexität. Konkret integriert Cobra das effiziente Mamba-Sprachmodell in die visuelle Modalität. Darüber hinaus erforschen und untersuchen wir verschiedene Modalitätsverschmelzungsschemata, um ein effektives multimodales Mamba zu erstellen. Umfangreiche Experimente zeigen, dass (1) Cobra eine äußerst wettbewerbsfähige Leistung im Vergleich zu aktuellen recheneffizienten State-of-the-Art-Methoden wie LLaVA-Phi, TinyLLaVA und MobileVLM v2 erzielt und aufgrund des linearen sequenziellen Modellierens von Cobra eine schnellere Geschwindigkeit aufweist. (2) Interessanterweise zeigen die Ergebnisse von anspruchsvollen Closed-Set-Vorhersage-Benchmarks, dass Cobra gut darin ist, visuelle Täuschungen und räumliche Beurteilungen zu überwinden. (3) Bemerkenswert ist, dass Cobra sogar eine vergleichbare Leistung wie LLaVA mit etwa 43% der Anzahl an Parametern erreicht. Wir werden alle Codes von Cobra Open Source machen und hoffen, dass die vorgeschlagene Methode zukünftige Forschung zu Komplexitätsproblemen in MLLM erleichtern kann. Unsere Projektseite ist unter folgendem Link verfügbar: https://sites.google.com/view/cobravlm.
Die Bearbeitung von Video-zu-Video beinhaltet die Bearbeitung eines Quellvideos zusammen mit zusätzlicher Steuerung (wie Textanweisungen, Themen oder Stilen), um ein neues Video zu generieren, das mit dem Quellvideo und der bereitgestellten Steuerung übereinstimmt. Traditionelle Methoden waren auf bestimmte Bearbeitungstypen beschränkt, was ihre Fähigkeit einschränkte, den breiten Bereich der Benutzeranforderungen zu erfüllen. In diesem Papier stellen wir AnyV2V vor, ein neuartiges trainingsfreies Framework, das entwickelt wurde, um die Videobearbeitung in zwei Hauptschritte zu vereinfachen: (1) Verwendung eines handelsüblichen Bildbearbeitungsmodells (z. B. InstructPix2Pix, InstantID usw.) zur Modifizierung des ersten Frames, (2) Nutzung eines bestehenden Bild-zu-Video-Generierungsmodells (z. B. I2VGen-XL) für DDIM-Inversion und Merkmalseinspritzung. In der ersten Phase kann AnyV2V beliebige vorhandene Bildbearbeitungswerkzeuge einsetzen, um eine umfangreiche Palette von Videobearbeitungsaufgaben zu unterstützen. Neben den traditionellen promptbasierten Bearbeitungsmethoden kann AnyV2V auch neuartige Videobearbeitungsaufgaben unterstützen, darunter stilbasierte Übertragung mit Referenz, themenorientierte Bearbeitung und Identitätsmanipulation, die von früheren Methoden unerreichbar waren. In der zweiten Phase kann AnyV2V beliebige vorhandene Bild-zu-Video-Modelle einsetzen, um DDIM-Inversion und Zwischenmerkmalseinspritzung durchzuführen, um das Aussehen und die Bewegungskonsistenz mit dem Quellvideo aufrechtzuerhalten. Bei der promptbasierten Bearbeitung zeigen wir, dass AnyV2V die bisher beste Methode um 35\% bei der promptbasierten Ausrichtung und um 25\% bei der menschlichen Präferenz übertreffen kann. Bei den drei neuartigen Aufgaben zeigen wir, dass AnyV2V ebenfalls eine hohe Erfolgsrate erzielt. Wir glauben, dass AnyV2V aufgrund seiner Fähigkeit, nahtlos die sich schnell entwickelnden Bildbearbeitungsmethoden zu integrieren, weiter gedeihen wird. Eine solche Kompatibilität kann AnyV2V dabei helfen, seine Vielseitigkeit zu erhöhen, um den vielfältigen Benutzeranforderungen gerecht zu werden.
In jüngster Zeit haben Fortschritte bei textgesteuerten Diffusionsmodellen leistungsstarke Bildmanipulationsfähigkeiten freigesetzt. Die Anwendung dieser Methoden auf echte Bilder erfordert jedoch die Umkehrung der Bilder in den Bereich des vortrainierten Diffusionsmodells. Die Erreichung einer treuen Umkehrung bleibt eine Herausforderung, insbesondere für neuere Modelle, die darauf trainiert sind, Bilder mit einer geringen Anzahl von Rauschunterdrückungsschritten zu generieren. In dieser Arbeit stellen wir eine Umkehrungsmethode mit einem hohen Qualitäts-zu-Operationen-Verhältnis vor, die die Rekonstruktionsgenauigkeit verbessert, ohne die Anzahl der Operationen zu erhöhen. Basierend auf der Umkehrung des Diffusionsabtastprozesses verwendet unsere Methode einen iterativen Rauschunterdrückungsmechanismus bei jedem Umkehrungsschritt. Dieser Mechanismus verfeinert die Approximation eines vorhergesagten Punktes entlang der vorwärts gerichteten Diffusionstrajectorie, indem er das vortrainierte Diffusionsmodell iterativ anwendet und diese Vorhersagen durchschnittet. Wir bewerten die Leistung unserer ReNoise-Technik unter Verwendung verschiedener Abtastalgorithmen und Modelle, einschließlich neuer beschleunigter Diffusionsmodelle. Durch umfassende Bewertungen und Vergleiche zeigen wir deren Wirksamkeit hinsichtlich Genauigkeit und Geschwindigkeit. Darüber hinaus bestätigen wir, dass unsere Methode die Bearbeitbarkeit bewahrt, indem wir textgesteuerte Bildbearbeitung an echten Bildern demonstrieren.
Video-Diffusionsmodelle haben in letzter Zeit große Fortschritte bei der Generierungsqualität gemacht, sind jedoch nach wie vor durch hohe Speicher- und Rechenanforderungen eingeschränkt. Dies liegt daran, dass aktuelle Video-Diffusionsmodelle oft versuchen, hochdimensionale Videos direkt zu verarbeiten. Um dieses Problem anzugehen, schlagen wir das Inhalts-Bewegungs-Latenz-Diffusionsmodell (CMD) vor, eine neuartige, effiziente Erweiterung vortrainierter Bild-Diffusionsmodelle für die Videogenerierung vor. Konkret schlagen wir einen Autoencoder vor, der ein Video prägnant als Kombination eines Inhaltsrahmens (wie ein Bild) und einer niederdimensionalen Bewegungs-Latenzrepräsentation codiert. Ersteres repräsentiert den gemeinsamen Inhalt, und letzteres repräsentiert die zugrunde liegende Bewegung im Video. Wir generieren den Inhaltsrahmen durch Feinabstimmung eines vortrainierten Bild-Diffusionsmodells, und wir generieren die Bewegungs-Latenzrepräsentation durch Training eines neuen, leichtgewichtigen Diffusionsmodells. Eine Schlüsselinnovation hierbei ist die Gestaltung eines kompakten Latenzraums, der ein vortrainiertes Bild-Diffusionsmodell direkt nutzt, was in früheren latenten Video-Diffusionsmodellen nicht erfolgt ist. Dies führt zu erheblich besserer Generierungsqualität und reduzierten Rechenkosten. CMD kann beispielsweise ein Video 7,7-mal schneller als bisherige Ansätze sampeln, indem es ein Video der Auflösung 512mal1024 und Länge 16 in 3,1 Sekunden generiert. Darüber hinaus erreicht CMD einen FVD-Score von 212,7 auf WebVid-10M, was um 27,3% besser ist als der bisherige Stand der Technik von 292,4.
In jüngster Zeit haben groß angelegte Vision-Sprach-Modelle (VLMs) bemerkenswerte Fähigkeiten bei der Verständnis und Generierung von textuellen Beschreibungen für visuelle Inhalte gezeigt. Diese Modelle fehlt jedoch ein Verständnis für benutzerspezifische Konzepte. In dieser Arbeit gehen wir einen ersten Schritt in Richtung Personalisierung von VLMs, um ihnen zu ermöglichen, benutzerspezifische Konzepte zu erlernen und zu überdenken. Wir untersuchen beispielsweise, ob diese Modelle lernen können, Sie auf einem Bild zu erkennen und zu kommunizieren, was Sie tun, wodurch das Modell angepasst wird, um Ihre persönlichen Erfahrungen und Beziehungen widerzuspiegeln. Um eine Vielzahl von benutzerspezifischen Konzepten effektiv zu erkennen, erweitern wir das VLM mit externen Konzept-Köpfen, die als Schalter für das Modell fungieren und es ermöglichen, die Anwesenheit spezifischer Zielkonzepte in einem gegebenen Bild zu identifizieren. Nachdem das Konzept erkannt wurde, erlernen wir eine neue Konzept-Einbettung im Zwischenmerkmalraum des VLM. Diese Einbettung ist damit beauftragt, das Sprachmodell dabei zu unterstützen, das Zielkonzept natürlich in seine generierte Antwort zu integrieren. Wir wenden unsere Technik auf BLIP-2 und LLaVA für personalisierte Bildunterschriften an und zeigen weiterhin deren Anwendbarkeit für personalisierte visuelle Frage-Antwort-Systeme. Unsere Experimente zeigen unsere Fähigkeit zur Verallgemeinerung auf unbekannte Bilder von erlernten Konzepten, während das Modellverhalten bei nicht verwandten Eingaben erhalten bleibt.
Wir stellen GRM vor, einen groß angelegten Rekonstrukteur, der in der Lage ist, ein 3D-Objekt aus spärlichen Ansichtsbildern in etwa 0,1 Sekunde wiederherzustellen. GRM ist ein auf Transformer basierendes Modell mit Feedforward, das effizient mehrere Ansichten von Informationen integriert, um die Eingabepixel in pixelausgerichtete Gaußsche Funktionen zu übersetzen, die unprojiziert werden, um eine Gruppe dicht verteilter 3D-Gaußscher Funktionen zu erstellen, die eine Szene repräsentieren. Unsere Transformer-Architektur und die Verwendung von 3D-Gaußschen Funktionen schaffen gemeinsam ein skalierbares und effizientes Rekonstruktionsframework. Umfangreiche experimentelle Ergebnisse belegen die Überlegenheit unserer Methode gegenüber Alternativen hinsichtlich sowohl der Rekonstruktionsqualität als auch der Effizienz. Wir zeigen auch das Potenzial von GRM in generativen Aufgaben, d.h. Text-zu-3D und Bild-zu-3D, indem wir es mit bestehenden Multi-View-Diffusionsmodellen integrieren. Unsere Projektwebsite ist unter folgendem Link erreichbar: https://justimyhxu.github.io/projects/grm/.
Wir schlagen Gaussian Frosting vor, eine neuartige netzbasierte Darstellung für hochwertiges Rendern und Bearbeiten komplexer 3D-Effekte in Echtzeit. Unser Ansatz baut auf dem kürzlich entwickelten 3D-Gaussian Splatting-Framework auf, das eine Gruppe von 3D-Gaussians optimiert, um ein Strahlungsfeld aus Bildern anzunähern. Wir schlagen vor, zunächst ein Basismesh aus Gaussians während der Optimierung zu extrahieren, dann eine adaptive Schicht von Gaussians mit variabler Dicke um das Mesh herum aufzubauen und zu verfeinern, um feine Details und volumetrische Effekte in der Nähe der Oberfläche besser erfassen zu können, wie zum Beispiel Haare oder Gras. Diese Schicht nennen wir Gaussian Frosting, da sie einer Glasur auf einem Kuchen ähnelt. Je flauschiger das Material, desto dicker die Glasur. Wir führen auch eine Parametrisierung der Gaussians ein, um sicherzustellen, dass sie innerhalb der Glasurschicht bleiben und automatisch ihre Parameter anpassen, wenn das Mesh verformt, skaliert, bearbeitet oder animiert wird. Unsere Darstellung ermöglicht effizientes Rendern mittels Gaussian Splatting sowie Bearbeitung und Animation durch Modifikation des Basismeshes. Wir zeigen die Wirksamkeit unserer Methode anhand verschiedener synthetischer und realer Szenen und zeigen, dass sie bestehende oberflächenbasierte Ansätze übertrifft. Wir werden unseren Code und einen webbasierten Viewer als zusätzliche Beiträge veröffentlichen. Unsere Projektseite ist die folgende: https://anttwo.github.io/frosting/
Wir führen die begrenzte Generierung als eine verallgemeinerte Aufgabe zur Steuerung der Videogenerierung ein, um beliebige Kamera- und Subjektbewegungen zu synthetisieren, basierend nur auf einem gegebenen Start- und Endbild. Unser Ziel ist es, die inhärente Verallgemeinerungsfähigkeit eines Bild-zu-Video-Modells voll auszuschöpfen, ohne zusätzliches Training oder Feinabstimmung des Originalmodells. Dies wird durch die vorgeschlagene neue Abtaststrategie erreicht, die wir als Zeitumkehrfusion bezeichnen, die die zeitlich vorwärts und rückwärts gerichteten Denoising-Pfade unter Berücksichtigung des Start- bzw. Endbildes verschmilzt. Der fusionierte Pfad führt zu einem Video, das die beiden Bilder nahtlos verbindet, Zwischenbilder einer treuen Bewegung des Subjekts erzeugt, neue Ansichten statischer Szenen bietet und ein nahtloses Videolooping ermöglicht, wenn die beiden Begrenzungsrahmen identisch sind. Wir stellen einen vielfältigen Evaluierungsdatensatz von Bildpaaren zusammen und vergleichen ihn mit den ähnlichsten bestehenden Methoden. Wir stellen fest, dass die Zeitumkehrfusion alle Teilaufgaben besser als verwandte Arbeiten bewältigt und die Fähigkeit zeigt, komplexe Bewegungen und 3D-konsistente Ansichten, geleitet durch begrenzte Rahmen, zu generieren. Weitere Informationen finden Sie auf der Projektseite unter https://time-reversal.github.io.
Wir schlagen eine Methode vor, die es ermöglicht, Cinemagraphs automatisch aus einem statischen Landschaftsbild mithilfe eines vorab trainierten StyleGAN zu generieren. Inspiriert vom Erfolg der jüngsten bedingungslosen Videogenerierung nutzen wir einen leistungsstarken vorab trainierten Bildgenerator, um hochwertige Cinemagraphs zu synthetisieren. Im Gegensatz zu früheren Ansätzen, die hauptsächlich den latenten Raum eines vorab trainierten StyleGAN nutzen, verwendet unser Ansatz seinen tiefen Merkmalsraum sowohl für die GAN-Inversion als auch für die Cinemagraph-Generierung. Speziell schlagen wir Multi-Scale Deep Feature Warping (MSDFW) vor, das die Zwischenmerkmale eines vorab trainierten StyleGAN in verschiedenen Auflösungen verformt. Durch die Verwendung von MSDFW sind die generierten Cinemagraphs von hoher Auflösung und zeigen eine plausible Looping-Animation. Wir zeigen die Überlegenheit unserer Methode durch Benutzerstudien und quantitative Vergleiche mit modernsten Cinemagraph-Generierungsmethoden und einer Videogenerierungsmethode, die ein vorab trainiertes StyleGAN verwendet.
Forscher und Entwickler verlassen sich zunehmend auf Toxizitätsbewertungen, um die Ausgaben generativer Sprachmodellierungen in Bereichen wie Kundenservice, Informationsabruf und Inhaltsgenerierung zu moderieren. Allerdings kann die Toxizitätsbewertung relevante Informationen unzugänglich machen, kulturelle Normen versteifen oder "werteverriegeln" und Sprachaneignungsprozesse verhindern, insbesondere für marginalisierte Personen. In dieser Arbeit erweitern wir das Konzept des algorithmischen Rückgriffs auf generative Sprachmodelle: Wir bieten den Nutzern einen neuartigen Mechanismus, um ihre gewünschte Vorhersage zu erreichen, indem sie Schwellenwerte für die Toxizitätsfilterung dynamisch festlegen. Die Nutzer können dadurch im Vergleich zur Interaktion mit dem Basissystem ein erhöhtes Maß an Handlungsfähigkeit ausüben. Eine Pilotstudie (n = 30) unterstützt das Potenzial unseres vorgeschlagenen Rückgriffmechanismus und deutet auf Verbesserungen in der Benutzerfreundlichkeit im Vergleich zur festen Toxizitätsfilterung der Modellausgaben hin. Zukünftige Arbeiten sollten die Schnittstelle von Toxizitätsbewertung, Modellsteuerbarkeit, Nutzerhandlungsfähigkeit und Sprachaneignungsprozessen untersuchen - insbesondere im Hinblick auf die Voreingenommenheit, der viele Gemeinschaften bei der Interaktion mit generativen Sprachmodellen begegnen.