Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren die ShareGPT4Video-Serie, die darauf abzielt, das Videoverständnis großer Video-Sprachmodelle (LVLMs) und die Videogenerierung von Text-zu-Video-Modellen (T2VMs) durch dichte und präzise Untertitel zu erleichtern. Die Serie umfasst: 1) ShareGPT4Video, 40K GPT4V annotierte dichte Untertitel von Videos mit verschiedenen Längen und Quellen, entwickelt durch sorgfältig gestaltete Datenfilterung und Annotierungsstrategie. 2) ShareCaptioner-Video, ein effizientes und leistungsfähiges Untertitelungsmodell für beliebige Videos, mit 4,8 Millionen hochwertigen ästhetischen Videos, die von ihm annotiert wurden. 3) ShareGPT4Video-8B, ein einfaches, aber hervorragendes LVLM, das eine SOTA-Leistung auf drei fortschrittlichen Videobenchmarks erreicht hat. Um dies zu erreichen, abgesehen von den nicht skalierbaren kostspieligen menschlichen Annotatoren, stellen wir fest, dass die Verwendung von GPT4V zur Untertitelung von Videos mit einer naiven Multi-Frame- oder Frame-Konkatenations-Eingangsstrategie zu weniger detaillierten und manchmal zeitlich verwirrten Ergebnissen führt. Wir argumentieren, dass die Herausforderung bei der Gestaltung einer hochwertigen Video-Untertitelungsstrategie in drei Aspekten liegt: 1) Präzises Verständnis für zeitliche Änderungen zwischen den Frames. 2) Detaillierte Beschreibung des Inhalts innerhalb eines Frames. 3) Skalierbarkeit der Frame-Anzahl für Videos beliebiger Länge. Zu diesem Zweck haben wir eine differenzielle Video-Untertitelungsstrategie sorgfältig entwickelt, die stabil, skalierbar und effizient ist, um Untertitel für Videos mit beliebiger Auflösung, Seitenverhältnissen und Länge zu generieren. Basierend darauf haben wir ShareGPT4Video konstruiert, das 40K hochwertige Videos aus einer Vielzahl von Kategorien enthält, und die resultierenden Untertitel umfassen reichhaltiges Weltwissen, Objekteigenschaften, Kamerabewegungen und vor allem detaillierte und präzise zeitliche Beschreibungen von Ereignissen. Basierend auf ShareGPT4Video haben wir weiterhin ShareCaptioner-Video entwickelt, einen überlegenen Untertiteler, der in der Lage ist, effizient hochwertige Untertitel für beliebige Videos zu generieren...
Diffusionsbasierte Bildgenerierungsmodelle haben in den letzten Jahren großen Erfolg erzielt, indem sie die Fähigkeit zur Synthese von Inhalten hoher Qualität gezeigt haben. Diese Modelle enthalten jedoch eine große Anzahl von Parametern, was zu einer signifikant großen Modellgröße führt. Das Speichern und Übertragen dieser Modelle ist ein wesentlicher Engpass für verschiedene Anwendungen, insbesondere solche, die auf ressourcenbeschränkten Geräten ausgeführt werden. In dieser Arbeit entwickeln wir eine neuartige Methode zur Gewichtsquantisierung, die das UNet von Stable Diffusion v1.5 auf 1,99 Bits quantisiert und ein Modell mit 7,9-fach kleinerer Größe erreicht, während es sogar eine bessere Generierungsqualität als das Original aufweist. Unser Ansatz umfasst mehrere neuartige Techniken, wie die Zuweisung optimaler Bits an jede Schicht, die Initialisierung des quantisierten Modells für bessere Leistung und die Verbesserung der Trainingsstrategie zur drastischen Reduzierung des Quantisierungsfehlers. Darüber hinaus evaluieren wir unser quantisiertes Modell umfassend anhand verschiedener Benchmark-Datensätze und durch menschliche Bewertung, um seine überlegene Generierungsqualität zu demonstrieren.
In letzter Zeit hat die Direkte Präferenzoptimierung (DPO) ihren Erfolg von der Ausrichtung großer Sprachmodelle (LLMs) auf die Ausrichtung von Text-zu-Bild-Diffusionsmodellen mit menschlichen Präferenzen ausgeweitet. Im Gegensatz zu den meisten bestehenden DPO-Methoden, die davon ausgehen, dass alle Diffusionsschritte eine konsistente Präferenzreihenfolge mit den endgültig generierten Bildern teilen, argumentieren wir, dass diese Annahme die leistungsbezogene Rauschunterdrückung einzelner Schritte vernachlässigt und dass Präferenzetiketten auf den Beitrag jedes Schritts zugeschnitten sein sollten. Um diese Einschränkung zu adressieren, schlagen wir die Schrittbezogene Präferenzoptimierung (SPO) vor, einen neuartigen Ansatz nach dem Training, der die Rauschunterdrückungsleistung unabhängig bei jedem Schritt bewertet und anpasst, unter Verwendung eines schrittbezogenen Präferenzmodells und eines schrittweisen Resamplers, um eine genaue schrittbezogene Überwachung sicherzustellen. Speziell sampeln wir bei jedem Rauschunterdrückungsschritt einen Pool von Bildern, finden ein geeignetes Gewinn-Verlust-Paar und wählen vor allem zufällig ein einzelnes Bild aus dem Pool aus, um den nächsten Rauschunterdrückungsschritt zu initialisieren. Dieser schrittweise Resampler-Prozess stellt sicher, dass das nächste Gewinn-Verlust-Bildpaar vom selben Bild stammt, wodurch der Gewinn-Verlust-Vergleich unabhängig vom vorherigen Schritt wird. Um die Präferenzen bei jedem Schritt zu bewerten, trainieren wir ein separates schrittbezogenes Präferenzmodell, das auf sowohl rauschigen als auch sauberen Bildern angewendet werden kann. Unsere Experimente mit Stable Diffusion v1.5 und SDXL zeigen, dass SPO die neueste Diffusion-DPO bei der Ausrichtung generierter Bilder mit komplexen, detaillierten Anweisungen und der Verbesserung der Ästhetik signifikant übertrifft, während es auch mehr als 20-mal schneller in der Trainingsleistung ist. Code und Modell: https://rockeycoss.github.io/spo.github.io/
Wir stellen Buffer of Thoughts (BoT) vor, einen neuartigen und vielseitigen Ansatz zur Gedanken-erweiterten Argumentation, um die Genauigkeit, Effizienz und Robustheit großer Sprachmodelle (LLMs) zu verbessern. Konkret schlagen wir ein Meta-Buffer vor, um eine Reihe informativer hochrangiger Gedanken, nämlich Gedanken-Templates, zu speichern, die aus den Problemlösungsprozessen verschiedener Aufgaben destilliert wurden. Für jedes Problem rufen wir dann ein relevantes Gedanken-Template ab und instantiieren es adaptiv mit spezifischen Argumentationsstrukturen, um effiziente Argumentation durchzuführen. Um die Skalierbarkeit und Stabilität zu gewährleisten, schlagen wir weiterhin einen Buffer-Manager vor, um das Meta-Buffer dynamisch zu aktualisieren und somit die Kapazität des Meta-Buffers zu erhöhen, während mehr Aufgaben gelöst werden. Wir führen umfangreiche Experimente zu 10 anspruchsvollen, argumentationsintensiven Aufgaben durch und erzielen signifikante Leistungsverbesserungen gegenüber früheren SOTA-Methoden: 11 % bei Game of 24, 20 % bei Geometrischen Formen und 51 % bei Schachmatt-in-Eins. Weitere Analysen zeigen die überlegene Verallgemeinerungsfähigkeit und Modellrobustheit unseres BoT auf, während im Durchschnitt nur 12 % der Kosten von Multi-Query-Prompting-Methoden (z. B. Baum/Graph von Gedanken) erforderlich sind. Bemerkenswert ist, dass unser Llama3-8B+BoT das Potenzial hat, das Llama3-70B-Modell zu übertreffen. Unser Projekt ist verfügbar unter: https://github.com/YangLing0818/buffer-of-thought-llm
Diffusionsbasierte Videogenerierungsmodelle haben bemerkenswerten Erfolg bei der Erzielung hochwertiger Videos durch den iterativen Denoising-Prozess gezeigt. Diese Modelle erfordern jedoch mehrere Denoising-Schritte während der Probenahme, was zu hohen Rechenaufwänden führt. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, um Ein-Schritt-Videogenerierungsmodelle zu erhalten, indem wir adversariales Training nutzen, um vortrainierte Videodiffusionsmodelle feinzustimmen. Wir zeigen, dass durch das adversariale Training das mehrstufige Videodiffusionsmodell, d.h. Stable Video Diffusion (SVD), trainiert werden kann, um einen einzigen Vorwärtsschritt auszuführen, um hochwertige Videos zu synthetisieren, die sowohl zeitliche als auch räumliche Abhängigkeiten in den Videodaten erfassen. Umfangreiche Experimente zeigen, dass unsere Methode eine wettbewerbsfähige Generierungsqualität synthetisierter Videos mit signifikant reduziertem Rechenaufwand für den Denoising-Prozess erreicht (d.h. etwa 23-fache Beschleunigung im Vergleich zu SVD und 6-fache Beschleunigung im Vergleich zu bestehenden Arbeiten, bei sogar besserer Generierungsqualität), was den Weg für Echtzeit-Videosynthese und -bearbeitung ebnet. Weitere Visualisierungsergebnisse sind öffentlich unter https://snap-research.github.io/SF-V verfügbar.
Diffusionsmodelle haben große Erfolge bei der Text-zu-Video (T2V)-Generierung gezeigt. Allerdings könnten bestehende Methoden auf Herausforderungen stoßen, wenn es um komplexe (lange) Szenarien der Videoerzeugung geht, die mehrere Objekte oder dynamische Änderungen in der Anzahl der Objekte beinhalten. Um diese Einschränkungen zu überwinden, schlagen wir VideoTetris vor, ein neuartiges Framework, das eine kompositorische T2V-Generierung ermöglicht. Konkret schlagen wir eine räumlich-zeitliche kompositorische Diffusion vor, um komplexe textuelle Semantik präzise zu verfolgen, indem wir die Aufmerksamkeitskarten von Rauschunterdrückungsnetzwerken räumlich und zeitlich manipulieren und zusammensetzen. Darüber hinaus schlagen wir eine verbesserte Vorverarbeitung von Videodaten vor, um die Trainingsdaten hinsichtlich Bewegungsdynamik und schnellem Verständnis zu verbessern, ausgestattet mit einem neuen Referenzrahmen-Aufmerksamkeitsmechanismus zur Verbesserung der Konsistenz der autoregressiven Videoerzeugung. Umfangreiche Experimente zeigen, dass unser VideoTetris beeindruckende qualitative und quantitative Ergebnisse in der kompositorischen T2V-Generierung erzielt. Der Code ist verfügbar unter: https://github.com/YangLing0818/VideoTetris
Der Aufbau von Generalisten-Agenten, die verschiedene Aufgaben bewältigen und sich in verschiedenen Umgebungen weiterentwickeln können, ist ein langfristiges Ziel in der KI-Community. Große Sprachmodelle (LLMs) gelten als vielversprechende Grundlage, um solche Agenten aufgrund ihrer generalisierten Fähigkeiten zu entwickeln. Aktuelle Ansätze sehen entweder vor, dass auf LLM basierende Agenten Experten-Trajektorien schrittweise nachahmen, was menschliche Überwachung erfordert, schwer zu skalieren ist und die Umwelterkundung einschränkt; oder sie lassen Agenten in isolierten Umgebungen erkunden und lernen, was zu Spezialisten-Agenten mit begrenzter Verallgemeinerung führt. In diesem Papier gehen wir den ersten Schritt zur Entwicklung von allgemein fähigen LLM-basierten Agenten mit Selbstentwicklungsfähigkeit. Wir identifizieren eine Dreifaltigkeit von Bestandteilen: 1) verschiedene Umgebungen für die Agentenexploration und das Lernen, 2) einen Trajektoriensatz, um Agenten mit grundlegenden Fähigkeiten und Vorwissen auszustatten, und 3) eine effektive und skalierbare Evolutionsmethode. Wir schlagen AgentGym vor, ein neues Framework mit einer Vielzahl von Umgebungen und Aufgaben für breite, Echtzeit-, Einheitsformat- und gleichzeitige Agentenexploration. AgentGym umfasst auch eine Datenbank mit erweiterten Anweisungen, eine Benchmark-Suite und hochwertige Trajektorien in verschiedenen Umgebungen. Anschließend schlagen wir eine neuartige Methode, AgentEvol, vor, um das Potenzial der Agenten-Selbstentwicklung über bisher gesehene Daten hinaus in verschiedenen Aufgaben und Umgebungen zu untersuchen. Experimentelle Ergebnisse zeigen, dass die weiterentwickelten Agenten Ergebnisse erzielen können, die mit SOTA-Modellen vergleichbar sind. Wir veröffentlichen die AgentGym-Suite, einschließlich der Plattform, des Datensatzes, der Benchmark, der Checkpoints und der Algorithmusimplementierungen. Die AgentGym-Suite ist verfügbar unter https://github.com/WooooDyy/AgentGym.
Die Generierung von Bildern anhand von Textbeschreibungen ermöglicht die Erstellung visueller Inhalte. Allerdings können bestimmte visuelle Konzepte allein durch Sprache nicht effektiv vermittelt werden. Dies hat ein erneutes Interesse an der Nutzung des CLIP-Bild-Einbettungsraums für stärker visuell orientierte Aufgaben durch Methoden wie IP-Adapter geweckt. Interessanterweise wurde gezeigt, dass der CLIP-Bild-Einbettungsraum semantisch sinnvoll ist, wobei lineare Operationen innerhalb dieses Raums semantisch sinnvolle Ergebnisse liefern. Dennoch kann die spezifische Bedeutung dieser Operationen unvorhersehbar variieren, abhängig von verschiedenen Bildern. Um dieses Potenzial zu nutzen, stellen wir pOps vor, ein Framework, das spezifische semantische Operatoren direkt auf CLIP-Bild-Einbettungen trainiert. Jeder pOps-Operator basiert auf einem vorab trainierten Diffusion-Prior-Modell. Während das Diffusion-Prior-Modell ursprünglich darauf trainiert wurde, zwischen Text-Einbettungen und Bild-Einbettungen zu vermitteln, zeigen wir, dass es angepasst werden kann, um neue Eingangsbedingungen zu berücksichtigen und somit einen Diffusionsoperator zu erzeugen. Die direkte Arbeit über Bild-Einbettungen verbessert nicht nur unsere Fähigkeit, semantische Operationen zu erlernen, sondern ermöglicht es uns auch, einen textuellen CLIP-Verlust direkt als zusätzliche Überwachung zu verwenden, wenn erforderlich. Wir zeigen, dass pOps verwendet werden kann, um eine Vielzahl von fotoinspirierten Operatoren mit unterschiedlichen semantischen Bedeutungen zu erlernen, wodurch die semantische Vielfalt und das Potenzial unseres vorgeschlagenen Ansatzes hervorgehoben werden.
In den letzten Jahren gab es einen enormen Anstieg der allgemeinen Fähigkeiten von KI-Systemen, hauptsächlich durch das Training von Grundlagenmodellen auf internetweiten Daten. Dennoch bleibt die Schaffung einer offenen, sich ständig verbessernden KI eine Herausforderung. In diesem Positionspapier argumentieren wir, dass die Voraussetzungen nun gegeben sind, um Offenheit in KI-Systemen gegenüber einem menschlichen Beobachter zu erreichen. Darüber hinaus behaupten wir, dass eine solche Offenheit eine wesentliche Eigenschaft jeder künstlichen superhumanen Intelligenz (ASI) ist. Wir beginnen, indem wir eine konkrete formale Definition von Offenheit durch die Brille von Neuheit und Erlernbarkeit bereitstellen. Anschließend skizzieren wir einen Weg zu ASI über offene Systeme, die auf Grundlagenmodellen aufbauen und in der Lage sind, neue, für Menschen relevante Entdeckungen zu machen. Abschließend untersuchen wir die Sicherheitsimplikationen von allgemein fähigen offenen KI-Systemen. Wir erwarten, dass offene Grundlagenmodelle sich in naher Zukunft als ein immer fruchtbareres und sicherheitskritisches Forschungsgebiet erweisen werden.