Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Gebiet der Videogenerierung hat bemerkenswerte Fortschritte gemacht, dennoch besteht weiterhin ein dringender Bedarf an einem klaren, systematischen Leitfaden, der die Entwicklung robuster und skalierbarer Modelle lenken kann. In dieser Arbeit präsentieren wir eine umfassende Studie, die systematisch das Zusammenspiel von Modellarchitekturen, Trainingsrezepten und Datenkurierungsstrategien untersucht und in einer einfachen und skalierbaren textbildkonditionierten Videogenerierungsmethode namens STIV gipfelt. Unser Rahmenwerk integriert die Bildkonditionierung in einen Diffusionstransformator (DiT) durch Frame-Ersatz und bezieht die Textkonditionierung über einen gemeinsamen bildtextkonditionierten klassifikatorfreien Leitfaden ein. Diese Gestaltung ermöglicht es STIV, sowohl Text-zu-Video (T2V) als auch Text-Bild-zu-Video (TI2V) Aufgaben gleichzeitig auszuführen. Darüber hinaus kann STIV leicht auf verschiedene Anwendungen wie Videovorhersage, Frame-Interpolation, Mehransichtsgenerierung und Langzeitvideogenerierung usw. erweitert werden. Mit umfassenden Ablationsstudien zu T2I, T2V und TI2V zeigt STIV trotz seiner einfachen Gestaltung eine starke Leistung. Ein 8,7B-Modell mit 512 Auflösung erreicht 83,1 auf VBench T2V und übertrifft sowohl führende Open-Source- als auch Closed-Source-Modelle wie CogVideoX-5B, Pika, Kling und Gen-3. Das gleichgroße Modell erzielt auch ein Spitzenresultat von 90,1 bei der VBench I2V-Aufgabe mit 512 Auflösung. Indem wir ein transparentes und erweiterbares Rezept für den Aufbau modernster Videogenerierungsmodelle bereitstellen, zielen wir darauf ab, zukünftige Forschung zu stärken und den Fortschritt in Richtung vielseitigerer und zuverlässigerer Videogenerierungslösungen zu beschleunigen.
Große Sprachmodelle für Code (codeLLMs) haben bedeutende Fortschritte bei der Codegenerierung erzielt. Die meisten bisherigen codebezogenen Benchmarks, die aus verschiedenen Programmieraufgaben zusammen mit den entsprechenden Testfällen bestehen, werden als gemeinsames Maß verwendet, um die Leistung und Fähigkeiten von CodeLLMs zu bewerten. Allerdings konzentrieren sich die aktuellen CodeLLMs darauf, den korrekten Codeausschnitt zu synthetisieren, und vernachlässigen die Übereinstimmung mit menschlichen Präferenzen, bei denen die Abfrage aus praktischen Anwendungsszenarien stammen sollte und die vom Modell generierten Antworten den menschlichen Präferenzen entsprechen sollten. Um die Kluft zwischen der vom Modell generierten Antwort und den menschlichen Präferenzen zu überbrücken, präsentieren wir einen streng von Menschen kuratierten Benchmark CodeArena, um die Komplexität und Vielfalt realer Codieraufgaben nachzubilden, wobei 397 hochwertige Beispiele aus 40 Kategorien und 44 Programmiersprachen sorgfältig aus Benutzeranfragen kuratiert wurden. Darüber hinaus schlagen wir einen vielfältigen synthetischen Anweisungskorpus SynCode-Instruct (fast 20 Mrd. Tokens) vor, indem Anweisungen von der Website skaliert werden, um die Wirksamkeit des Feinabstimmens von groß angelegten synthetischen Anweisungen zu überprüfen, wobei Qwen2.5-SynCoder, der vollständig auf synthetischen Anweisungsdaten trainiert ist, eine Spitzenleistung von Open-Source-CodeLLMs erreichen kann. Die Ergebnisse zeigen Leistungsunterschiede zwischen ausführungsbasierten Benchmarks und CodeArena auf. Unsere systematischen Experimente mit CodeArena an über 40 LLMs zeigen eine bemerkenswerte Leistungslücke zwischen führenden Open-Source-CodeLLMs (z. B. Qwen2.5-Coder) und proprietären LLMs (z. B. OpenAI o1), was die Bedeutung der Übereinstimmung mit menschlichen Präferenzen hervorhebt.
Die Visualisierung von Geschichten, die Aufgabe, visuelle Erzählungen aus textuellen Beschreibungen zu erstellen, hat Fortschritte mit Modellen zur Text-zu-Bild-Generierung gesehen. Allerdings fehlt es diesen Modellen oft an effektiver Kontrolle über das Erscheinungsbild und die Interaktionen von Charakteren, insbesondere in Szenen mit mehreren Charakteren. Um diese Einschränkungen zu adressieren, schlagen wir eine neue Aufgabe vor: die individuelle Manga-Generierung und stellen DiffSensei vor, ein innovatives Framework, das speziell für die Generierung von Manga mit dynamischer Mehrcharakterkontrolle entwickelt wurde. DiffSensei integriert einen auf Diffusion basierenden Bildgenerator mit einem multimodalen großen Sprachmodell (MLLM), das als textkompatibler Identitätsadapter fungiert. Unser Ansatz verwendet maskierte Kreuz-Aufmerksamkeit, um Charaktermerkmale nahtlos zu integrieren, was eine präzise Layout-Kontrolle ohne direkten Pixeltransfer ermöglicht. Darüber hinaus passt der auf MLLM basierende Adapter Charaktermerkmale an, um sie mit panel-spezifischen Texthinweisen in Einklang zu bringen, was flexible Anpassungen in Charakterausdrücken, Posen und Aktionen ermöglicht. Wir stellen auch MangaZero vor, einen groß angelegten Datensatz, der speziell für diese Aufgabe entwickelt wurde und 43.264 Manga-Seiten und 427.147 annotierte Panels enthält, um die Visualisierung verschiedener Charakterinteraktionen und -bewegungen über aufeinanderfolgende Frames zu unterstützen. Umfangreiche Experimente zeigen, dass DiffSensei bestehende Modelle übertrifft und einen signifikanten Fortschritt in der Manga-Generierung markiert, indem individuelle Charakteranpassungen ermöglicht werden, die an den Text angepasst sind. Die Projektseite befindet sich unter https://jianzongwu.github.io/projects/diffsensei/.
Der kürzliche Anstieg des Interesses an umfassenden multimodalen Modellen hat die Vereinheitlichung verschiedener Modalitäten erforderlich gemacht. Die Vereinheitlichung leidet jedoch unter unterschiedlichen Methodologien. Die kontinuierliche visuelle Generierung erfordert den Ansatz der vollständigen Sequenzdiffusion, trotz seiner Abweichung von der autoregressiven Modellierung im Textbereich. Wir behaupten, dass die autoregressive Modellierung, d.h. die Vorhersage der Zukunft basierend auf vergangener deterministischer Erfahrung, entscheidend ist für die Entwicklung sowohl eines visuellen Generierungsmodells als auch eines potenziell vereinheitlichten multimodalen Modells. In diesem Paper erforschen wir eine Interpolation zwischen der autoregressiven Modellierung und der vollständigen Parameterdiffusion zur Modellierung visueller Informationen. Im Kern präsentieren wir ACDiT, einen autoregressiven blockweisen bedingten Diffusionstransformator, bei dem die Blockgröße der Diffusion, d.h. die Größe der autoregressiven Einheiten, flexibel angepasst werden kann, um zwischen tokenweiser Autoregression und vollständiger Sequenzdiffusion zu interpolieren. ACDiT ist einfach umzusetzen, indem während des Trainings eine Skip-Causal Attention Mask (SCAM) erstellt wird. Während der Inferenz erfolgt der Prozess iterativ zwischen Diffusionsrauschunterdrückung und autoregressivem Decodieren, was die vollständige Nutzung des KV-Caches ermöglicht. Wir überprüfen die Wirksamkeit von ACDiT bei Bild- und Videogenerierungsaufgaben. Wir zeigen auch, dass ACDiT, das von der autoregressiven Modellierung profitiert, nahtlos in visuellen Verständnisaufgaben eingesetzt werden kann, obwohl es auf das Diffusionsziel trainiert wurde. Die Analyse des Kompromisses zwischen autoregressiver Modellierung und Diffusion zeigt das Potenzial von ACDiT für den Einsatz in langfristigen visuellen Generierungsaufgaben auf. Diese Stärken machen es vielversprechend als Grundlage zukünftiger vereinheitlichter Modelle.
Wir stellen UniReal vor, ein vereinheitlichtes Framework, das entwickelt wurde, um verschiedene Bildgenerierungs- und -bearbeitungsaufgaben anzugehen. Bestehende Lösungen unterscheiden sich oft je nach Aufgabe, teilen jedoch grundlegende Prinzipien: die Konsistenz zwischen Eingabe und Ausgabe zu bewahren, während visuelle Variationen erfasst werden. Inspiriert von aktuellen Videogenerierungsmodellen, die effektiv Konsistenz und Variation über Frames hinweg ausbalancieren, schlagen wir einen vereinheitlichenden Ansatz vor, der Bildaufgaben auf Bildebene als diskontinuierliche Videogenerierung behandelt. Konkret behandeln wir unterschiedliche Anzahlen von Eingabe- und Ausgabebildern als Frames, was eine nahtlose Unterstützung für Aufgaben wie Bildgenerierung, -bearbeitung, -anpassung, -zusammensetzung usw. ermöglicht. Obwohl für Bildaufgaben konzipiert, nutzen wir Videos als skalierbare Quelle für universelle Überwachung. UniReal lernt Welt-Dynamiken aus großangelegten Videos und zeigt fortgeschrittene Fähigkeiten im Umgang mit Schatten, Reflexionen, Posevariationen und Objektinteraktionen, während es auch aufkommende Fähigkeiten für neue Anwendungen aufweist.
Mit der kontinuierlichen Verbesserung der Qualität von Bildgeneratoren werden Deepfakes zu einem Thema von erheblicher gesellschaftlicher Debatte. Die Bildwasserzeichenung ermöglicht es verantwortungsbewussten Modellbesitzern, ihre KI-generierten Inhalte zu erkennen und zu kennzeichnen, was den Schaden mindern kann. Dennoch bleiben aktuelle State-of-the-Art-Methoden in der Bildwasserzeichenung anfällig für Fälschungs- und Entfernungsangriffe. Diese Verwundbarkeit tritt teilweise auf, weil Wasserzeichen die Verteilung generierter Bilder verzerren und unbeabsichtigt Informationen über die Wasserzeichenungstechniken preisgeben. In dieser Arbeit zeigen wir zunächst eine verzerrungsfreie Wasserzeichenungsmethode für Bilder auf, die auf dem anfänglichen Rauschen eines Diffusionsmodells basiert. Die Erkennung des Wasserzeichens erfordert jedoch den Vergleich des für ein Bild rekonstruierten anfänglichen Rauschens mit allen zuvor verwendeten anfänglichen Rauschen. Um diese Probleme zu mindern, schlagen wir ein zweistufiges Wasserzeichnungsframework für effiziente Erkennung vor. Während der Generierung erweitern wir das anfängliche Rauschen um generierte Fourier-Muster, um Informationen über die Gruppe der verwendeten anfänglichen Rauschen einzubetten. Zur Erkennung (i) rufen wir die relevante Gruppe von Rauschen ab und (ii) suchen innerhalb der gegebenen Gruppe nach einem anfänglichen Rauschen, das unserem Bild entsprechen könnte. Dieser Wasserzeichnungsansatz erreicht State-of-the-Art-Robustheit gegen Fälschungs- und Entfernungsangriffe einer Vielzahl von Angriffen.
In jüngster Zeit haben Fortschritte in der Text-zu-Bild-Erzeugung die Erstellung von hochwertigen Bildern mit vielfältigen Anwendungen ermöglicht. Es kann jedoch herausfordernd sein, gewünschte visuelle Attribute genau zu beschreiben, insbesondere für Nicht-Experten in Kunst und Fotografie. Eine intuitive Lösung besteht darin, vorteilhafte Attribute aus den Ausgangsbildern zu übernehmen. Aktuelle Methoden versuchen, Identität und Stil aus den Ausgangsbildern zu destillieren. Allerdings ist "Stil" ein breites Konzept, das Textur, Farbe und künstlerische Elemente umfasst, jedoch nicht andere wichtige Attribute wie Beleuchtung und Dynamik abdeckt. Darüber hinaus verhindert eine vereinfachte "Stil"-Anpassung das Kombinieren mehrerer Attribute aus verschiedenen Quellen in einem generierten Bild. In dieser Arbeit formulieren wir einen effektiveren Ansatz, um die Ästhetik eines Bildes in spezifische visuelle Attribute zu zerlegen, was es Benutzern ermöglicht, Merkmale wie Beleuchtung, Textur und Dynamik aus verschiedenen Bildern anzuwenden. Um dieses Ziel zu erreichen, haben wir nach unserem besten Wissen den ersten Feinkörnigen Visuellen Attribute Datensatz (FiVA) konstruiert. Dieser FiVA-Datensatz verfügt über eine gut organisierte Taxonomie für visuelle Attribute und umfasst etwa 1 M hochwertige generierte Bilder mit visuellen Attributannotationen. Unter Verwendung dieses Datensatzes schlagen wir ein Feinkörniges Visuelles Attribut-Anpassungsrahmen (FiVA-Adapter) vor, der visuelle Attribute von einem oder mehreren Ausgangsbildern entkoppelt und anpasst in ein generiertes Bild. Dieser Ansatz verbessert die benutzerfreundliche Anpassung, indem Benutzer selektiv gewünschte Attribute anwenden können, um Bilder zu erstellen, die ihren einzigartigen Vorlieben und spezifischen Inhaltsanforderungen entsprechen.
Videodiffusionsmodelle haben beeindruckenden Realismus und Steuerbarkeit erreicht, sind jedoch durch hohe Rechenanforderungen eingeschränkt, was ihre Verwendung auf mobilen Geräten begrenzt. Dieses Papier stellt das erste für Mobilgeräte optimierte Videodiffusionsmodell vor. Ausgehend von einem spatio-temporalen UNet aus dem Stable Video Diffusion (SVD) reduzieren wir den Speicherbedarf und die Rechenkosten, indem wir die Bildauflösung reduzieren, mehrskalige zeitliche Repräsentationen integrieren und zwei neuartige Beschneidungsschemata einführen, um die Anzahl der Kanäle und zeitlichen Blöcke zu reduzieren. Darüber hinaus setzen wir adversariales Feintuning ein, um die Rauschunterdrückung auf einen einzigen Schritt zu reduzieren. Unser Modell, genannt MobileVD, ist um den Faktor 523 effizienter (1817,2 vs. 4,34 TFLOPs) mit einem leichten Qualitätsverlust (FVD 149 vs. 171), wobei es Latente für einen 14x512x256 px Clip in 1,7 Sekunden auf einem Xiaomi-14 Pro generiert. Unsere Ergebnisse sind unter https://qualcomm-ai-research.github.io/mobile-video-diffusion/ verfügbar.
Dieses Papier zielt darauf ab, Multi-Entity 3D-Bewegungen in der Videogenerierung zu manipulieren. Frühere Methoden zur steuerbaren Videogenerierung nutzen hauptsächlich 2D-Steuerungssignale, um Objektbewegungen zu manipulieren und haben bemerkenswerte Synthesenergebnisse erzielt. Allerdings sind 2D-Steuerungssignale von Natur aus begrenzt in der Darstellung der 3D-Natur von Objektbewegungen. Um dieses Problem zu überwinden, stellen wir 3DTrajMaster vor, einen robusten Controller, der die Dynamik von Multi-Entities im 3D-Raum reguliert, basierend auf vom Benutzer gewünschten 6DoF-Pose (Position und Rotation) Sequenzen von Entitäten. Im Kern unseres Ansatzes steht ein Plug-and-Play 3D-Bewegungs-gegründeter Objektinjektor, der mehrere Eingangs-Entitäten mit ihren jeweiligen 3D-Trajektorien durch einen gesteuerten Selbst-Aufmerksamkeitsmechanismus verschmilzt. Darüber hinaus nutzen wir eine Injektor-Architektur, um das Video-Diffusions-Prior zu erhalten, was für die Verallgemeinerungsfähigkeit entscheidend ist. Um die Degradation der Videoqualität zu mildern, führen wir während des Trainings einen Domänenadapter ein und verwenden während der Inferenz eine geglättete Abtaststrategie. Um dem Mangel an geeigneten Trainingsdaten entgegenzuwirken, konstruieren wir ein 360-Motion-Datenset, das zunächst gesammelte 3D-Mensch- und Tierressourcen mit GPT-generierten Trajektorien korreliert und dann ihre Bewegungen mit 12 gleichmäßig umgebenden Kameras auf verschiedenen 3D-UE-Plattformen erfasst. Umfangreiche Experimente zeigen, dass 3DTrajMaster einen neuen Stand der Technik sowohl in Genauigkeit als auch in der Verallgemeinerungsfähigkeit für die Steuerung von Multi-Entity 3D-Bewegungen setzt. Projektpage: http://fuxiao0719.github.io/projects/3dtrajmaster
Wir stellen die Granite Guardian-Modelle vor, eine Reihe von Schutzmechanismen, die entwickelt wurden, um Risikofeststellungen für Eingaben und Antworten bereitzustellen, um eine sichere und verantwortungsbewusste Nutzung in Kombination mit jedem großen Sprachmodell (LLM) zu ermöglichen. Diese Modelle bieten umfassende Abdeckung über mehrere Risikodimensionen hinweg, einschließlich sozialer Voreingenommenheit, Obszönitäten, Gewalt, sexuellen Inhalten, unethischem Verhalten, Jailbreaking und Halluzinationsrisiken wie Kontextrelevanz, Fundiertheit und Antwortrelevanz für die Generierung mit abgerufenen Informationen (RAG). Trainiert auf einem einzigartigen Datensatz, der menschliche Annotationen aus verschiedenen Quellen und synthetische Daten kombiniert, adressieren die Granite Guardian-Modelle Risiken, die typischerweise von traditionellen Risikoerkennungsmodellen übersehen werden, wie Jailbreaks und RAG-spezifische Probleme. Mit AUC-Werten von 0,871 bzw. 0,854 bei schädlichen Inhalten und RAG-Halluzinationsbezogenen Benchmarks ist Granite Guardian das allgemeinste und wettbewerbsfähigste Modell, das in diesem Bereich verfügbar ist. Als Open-Source veröffentlicht, zielt Granite Guardian darauf ab, die verantwortungsbewusste KI-Entwicklung in der Community zu fördern. https://github.com/ibm-granite/granite-guardian
In jüngster Zeit hat der Fortschritt in der diffusionsbasierten Videobearbeitung ein bemerkenswertes Potenzial für praktische Anwendungen gezeigt. Diese Methoden sind jedoch nach wie vor prohibitiv teuer und herausfordernd in der Anwendung auf mobilen Geräten. In dieser Studie stellen wir eine Reihe von Optimierungen vor, die die mobile Videobearbeitung realisierbar machen. Aufbauend auf dem bestehenden Bildbearbeitungsmodell optimieren wir zunächst dessen Architektur und integrieren einen leichten Autoencoder. Anschließend erweitern wir die klassenlose Leitfadenverdichtung auf mehrere Modalitäten, was zu einer dreifachen Beschleunigung auf dem Gerät führt. Schließlich reduzieren wir die Anzahl der Abtastschritte auf eins, indem wir ein neuartiges adverses Verdichtungsschema einführen, das die Steuerbarkeit des Bearbeitungsprozesses bewahrt. Insgesamt ermöglichen diese Optimierungen eine Videobearbeitung mit 12 Bildern pro Sekunde auf mobilen Geräten bei gleichbleibend hoher Qualität. Unsere Ergebnisse sind unter https://qualcomm-ai-research.github.io/mobile-video-editing/ verfügbar.
Wir schlagen DiTFlow vor, eine Methode zur Übertragung der Bewegung eines Referenzvideos auf ein neu synthetisiertes Video, das speziell für Diffusion Transformers (DiT) entwickelt wurde. Zunächst verarbeiten wir das Referenzvideo mit einem vorab trainierten DiT, um Querframe-Aufmerksamkeitskarten zu analysieren und ein patchweises Bewegungssignal namens Attention Motion Flow (AMF) zu extrahieren. Wir führen den latente Rauschunterdrückungsprozess auf optimierungsbasierter, trainingsfreier Weise durch, indem wir Latente mit unserem AMF-Verlust optimieren, um Videos zu generieren, die die Bewegung des Referenzvideos reproduzieren. Wir wenden unsere Optimierungsstrategie auch auf Transformer-Positionseinbettungen an, was uns einen Schub in den Fähigkeiten zur bewegungslosen Übertragung verleiht. Wir evaluieren DiTFlow im Vergleich zu kürzlich veröffentlichten Methoden und übertreffen diese in mehreren Metriken und menschlichen Bewertungen.
Multimodale Sprachmodelle (MLMs) stehen nach wie vor vor Herausforderungen bei grundlegenden visuellen Wahrnehmungsaufgaben, bei denen spezialisierte Modelle glänzen. Aufgaben, die ein Verständnis von 3D-Strukturen erfordern, profitieren von Tiefenschätzung, während Aufgaben, die ein Verständnis von 2D-Objektinstanzen erfordern, von Objekterkennung profitieren. Dennoch können MLMs keine Zwischentiefen oder Boxen erzeugen, über die sie Schlussfolgerungen ziehen können. Das Feinabstimmen von MLMs auf relevante Daten generalisiert nicht gut, und die Auslagerung von Berechnungen an spezialisierte Visionstools ist zu rechenintensiv und ineffizient im Speicherbedarf. Um dies anzugehen, führen wir Perception Tokens ein, intrinsische Bildrepräsentationen, die dazu dienen, bei Aufgaben zu unterstützen, bei denen Sprache nicht ausreicht. Perception Tokens fungieren als zusätzliche Schlussfolgerungstoken, ähnlich wie Gedankenketten-Prompts in Sprachmodellen. Zum Beispiel kann ein MLM, das mit Perception Tokens erweitert wurde, bei einer tiefenbezogenen Aufgabe durch Generierung einer Tiefenkarte als Tokens Schlussfolgerungen ziehen und das Problem effektiv lösen. Wir schlagen AURORA vor, eine Schulungsmethode, die MLMs mit Perception Tokens zur verbesserten Schlussfolgerung über visuelle Eingaben erweitert. AURORA nutzt eine VQVAE, um Zwischenbildrepräsentationen, wie Tiefenkarten, in ein tokenisiertes Format und Bounding-Box-Tokens zu transformieren, die dann in einem Multi-Task-Schulungsrahmen verwendet werden. AURORA erzielt bemerkenswerte Verbesserungen bei Zähl-Benchmarks: +10,8 % bei BLINK, +11,3 % bei CVBench und +8,3 % bei SEED-Bench, wobei es die Feinabstimmungsansätze in der Generalisierung über Datensätze übertrifft. Es verbessert auch die relative Tiefe um über +6 % bei BLINK. Mit Perception Tokens erweitert AURORA den Anwendungsbereich von MLMs über sprachbasierte Schlussfolgerungen hinaus und ebnet den Weg für effektivere visuelle Schlussfolgerungsfähigkeiten.
Die Interpretierbarkeit ist eine zentrale Herausforderung bei der Förderung des Vertrauens in Large Language Models (LLMs), die auf der Komplexität der Extraktion von Schlussfolgerungen aus den Parametern des Modells beruht. Wir präsentieren die Rahmenrepräsentationshypothese, ein theoretisch robustes Framework, das auf der linearen Repräsentationshypothese (LRH) basiert, um LLMs durch Modellierung von Mehr-Token-Wörtern zu interpretieren und zu steuern. Frühere Forschungen haben die LRH erforscht, um LLM-Repräsentationen mit linguistischen Konzepten zu verbinden, beschränkten sich jedoch auf die Analyse einzelner Token. Da die meisten Wörter aus mehreren Tokens bestehen, erweitern wir die LRH auf Mehr-Token-Wörter, was die Anwendung auf beliebige Textdaten mit Tausenden von Konzepten ermöglicht. Zu diesem Zweck schlagen wir vor, Wörter als Rahmen interpretieren zu können, geordnete Sequenzen von Vektoren, die die Token-Wort-Beziehungen besser erfassen. Dann können Konzepte als Durchschnitt der Wortrahmen dargestellt werden, die ein gemeinsames Konzept teilen. Wir präsentieren diese Tools durch Top-k Concept-Guided Decoding, das die Textgenerierung intuitiv mit ausgewählten Konzepten lenken kann. Wir überprüfen diese Ideen anhand der Llama 3.1, Gemma 2 und Phi 3 Familien, indem wir Geschlechts- und Sprachvorurteile aufdecken, schädliche Inhalte bloßlegen, aber auch das Potenzial haben, diese zu beheben, was zu sichereren und transparenteren LLMs führt. Der Code ist verfügbar unter https://github.com/phvv-me/frame-representation-hypothesis.git
Diese Arbeit konzentriert sich auf die Entwicklung von parameter-effizienten und leichten Modellen für dichte Vorhersagen unter Berücksichtigung von Parametern, FLOPs und Leistung. Unser Ziel ist es, die neue Grenze des 5M-Magnitude-Leichtgewichtsmodells in verschiedenen nachgelagerten Aufgaben zu setzen. Der Inverted Residual Block (IRB) dient als Grundlage für leichte CNNs, jedoch wurden keine Gegenstücke durch aufmerksamkeitsbasiertes Design anerkannt. Unsere Arbeit überdenkt die leichte Infrastruktur des effizienten IRB und der praktischen Komponenten im Transformer aus einer vereinheitlichten Perspektive, erweitert den CNN-basierten IRB zu aufmerksamkeitsbasierten Modellen und abstrahiert einen Ein-Residual-Meta-Mobile-Block (MMBlock) für das Design von Leichtgewichtsmodellen. Unter Berücksichtigung des unmerklichen Latenz für mobile Benutzer beim Herunterladen von Modellen unter 4G/5G-Bandbreite und der Sicherstellung der Modellleistung untersuchen wir die Leistungsobergrenze von Leichtgewichtsmodellen mit einer Größenordnung von 5M. Umfangreiche Experimente in verschiedenen Bereichen wie Bilderkennung, dichte Vorhersage und Bildgenerierung zeigen die Überlegenheit unseres EMOv2 gegenüber State-of-the-Art-Methoden, z. B. erreichen EMOv2-1M/2M/5M 72,3, 75,8 bzw. 79,4 Top-1, was gleichwertige CNN-/Aufmerksamkeitsmodelle signifikant übertrifft. Gleichzeitig erreicht EMOv2-5M ausgestattet mit RetinaNet 41,5 mAP für Objekterkennungsaufgaben, was den vorherigen EMO-5M um +2,6 übertrifft. Durch die Verwendung eines robusteren Schulungsrezepts erreicht unser EMOv2-5M schließlich eine Top-1-Genauigkeit von 82,9, was die Leistung von 5M-Magnitude-Modellen auf ein neues Niveau hebt. Der Code ist verfügbar unter https://github.com/zhangzjn/EMOv2.
Die jüngsten Fortschritte in Modellen zur Bildgenerierung haben die personalisierte Bildgestaltung mit sowohl benutzerdefinierten Motiven (Inhalten) als auch Stilen ermöglicht. Frühere Arbeiten erreichten Personalisierung, indem sie entsprechende Anpassungsparameter niedriger Rangordnung (LoRAs) durch optimierungsbasierte Methoden fusionierten, die rechenintensiv sind und sich nicht für den Echtzeiteinsatz auf ressourcenbeschränkten Geräten wie Smartphones eignen. Um dies zu lösen, stellen wir LoRA.rar vor, eine Methode, die nicht nur die Bildqualität verbessert, sondern auch eine bemerkenswerte Beschleunigung von über 4000-mal im Fusionierungsprozess erreicht. LoRA.rar trainiert ein Hypernetzwerk anhand einer vielfältigen Reihe von Inhalt-Stil-LoRA-Paaren vor, lernt eine effiziente Fusionierungsstrategie, die auf neue, nicht gesehene Inhalt-Stil-Paare verallgemeinert und eine schnelle, hochwertige Personalisierung ermöglicht. Darüber hinaus identifizieren wir Einschränkungen in bestehenden Bewertungsmetriken für Inhalt-Stil-Qualität und schlagen ein neues Protokoll unter Verwendung multimodaler großer Sprachmodelle (MLLM) für eine genauere Bewertung vor. Unsere Methode übertrifft signifikant den aktuellen Stand der Technik sowohl in Inhalt als auch Stiltreue, wie durch MLLM-Bewertungen und menschliche Bewertungen validiert.
In diesem Paper stellen wir ILLUME vor, ein vereinheitlichtes multimodales großes Sprachmodell (MLLM), das nahtlos multimodale Verständnis- und Generierungsfähigkeiten in einem einzigen großen Sprachmodell durch eine vereinheitlichte Vorhersageformulierung für das nächste Token integriert. Um mit der für die Bild-Text-Ausrichtung typischerweise erforderlichen großen Datensatzgröße umzugehen, schlagen wir vor, die Dateneffizienz durch das Design eines Vision-Tokenizer zu verbessern, der semantische Informationen und ein progressives mehrstufiges Schulungsverfahren integriert. Dieser Ansatz reduziert die Datensatzgröße für das Pretraining auf nur 15M - über viermal weniger als üblicherweise benötigt wird - und erzielt dabei eine wettbewerbsfähige oder sogar überlegene Leistung im Vergleich zu bestehenden vereinheitlichten MLLMs wie Janus. Darüber hinaus führen wir zur Förderung einer synergistischen Verbesserung zwischen Verständnis- und Generierungsfähigkeiten, die in früheren Arbeiten unterbelichtet ist, ein neuartiges selbstverbesserndes multimodales Ausrichtungsschema ein. Dieses Schema überwacht das MLLM, um die Konsistenz zwischen Textbeschreibungen und selbstgenerierten Bildern selbst zu bewerten, was dem Modell ermöglicht, Bilder genauer zu interpretieren und unrealistische und inkorrekte Vorhersagen aufgrund von Missausrichtungen in der Bildgenerierung zu vermeiden. Basierend auf umfangreichen Experimenten sticht unser vorgeschlagenes ILLUME hervor und konkurriert mit modernsten vereinheitlichten MLLMs und spezialisierten Modellen in verschiedenen Benchmarks für multimodales Verständnis, Generierung und Bearbeitung.
In letzter Zeit haben Large Language Models (LLMs) eine signifikante Transformation durchlaufen, die durch einen rapiden Anstieg sowohl ihrer Beliebtheit als auch ihrer Fähigkeiten gekennzeichnet ist. Diese Evolution wird von proprietären LLMs wie GPT-4 und GPT-o1 angeführt, die aufgrund ihrer bemerkenswerten Leistung und Vielseitigkeit weithin in der KI-Community Beachtung finden. Gleichzeitig haben Open-Source LLMs wie LLaMA und Mistral aufgrund der einfachen Anpassung und Bereitstellung der Modelle in verschiedenen Anwendungen erheblich zur stetig steigenden Beliebtheit von LLMs beigetragen. Obwohl Open-Source LLMs beispiellose Möglichkeiten für Innovation und Forschung bieten, haben die Kommerzialisierung von LLMs Bedenken hinsichtlich Transparenz, Reproduzierbarkeit und Sicherheit aufgeworfen. Viele Open-Source LLMs erfüllen grundlegende Transparenzanforderungen nicht, indem sie wesentliche Komponenten wie Trainingscode und Daten zurückhalten, und einige verwenden restriktive Lizenzen, während sie behaupten, "open-source" zu sein, was die weitere Innovation bei LLMs behindern kann. Um dieses Problem zu mildern, stellen wir Moxin 7B vor, ein vollständig Open-Source LLM, das gemäß dem Model Openness Framework (MOF) entwickelt wurde, einem gerankten Klassifizierungssystem, das KI-Modelle anhand von Modellvollständigkeit und Offenheit bewertet und sich an Prinzipien von Open Science, Open Source, Open Data und Open Access hält. Unser Modell erreicht das höchste MOF-Klassifikationsniveau "Open Science" durch die umfassende Veröffentlichung von Pre-Training-Code und Konfigurationen, Trainings- und Feinabstimmungsdatensätzen sowie Zwischen- und Endkontrollpunkten. Experimente zeigen, dass unser Modell eine überlegene Leistung bei der Zero-Shot-Evaluation im Vergleich zu beliebten 7B-Modellen erzielt und bei der Few-Shot-Evaluation wettbewerbsfähig abschneidet.
Die jüngsten Fortschritte bei Großen Multimodalen Modellen (LMMs) unterstreichen die Bedeutung des Skalierens durch die Erhöhung von Bild-Text-Paar-Daten und erreichen beeindruckende Leistungen bei allgemeinen Aufgaben. Trotz ihrer Wirksamkeit in breiten Anwendungen werden Generalisten-Modelle hauptsächlich auf webbasierten Datensätzen trainiert, die von natürlichen Bildern dominiert werden, was zu einem Verzicht auf spezialisierte Fähigkeiten für domänenspezifische Aufgaben führt, die umfangreiches Vorwissen erfordern. Darüber hinaus ist die direkte Integration von Expertenmodellen, die für spezifische Domänen maßgeschneidert sind, aufgrund der Repräsentationslücke und des unausgewogenen Optimierung zwischen dem Generalisten-Modell und den Experten eine Herausforderung. Um diesen Herausforderungen zu begegnen, stellen wir Chimera vor, eine skalierbare und kostengünstige multimodale Pipeline, die entwickelt wurde, um die Fähigkeit bestehender LMMs mit domänenspezifischen Experten zu stärken. Konkret entwerfen wir eine progressive Schulungsstrategie, um Merkmale von Expertenmodellen in den Eingang eines Generalisten-LMM zu integrieren. Um die durch den gut ausgerichteten allgemeinen visuellen Encoder verursachte unausgewogene Optimierung anzugehen, führen wir einen neuartigen Mechanismus der Generalist-Spezialist-Kollaborationsmaskierung (GSCM) ein. Dies führt zu einem vielseitigen Modell, das in den Bereichen Diagramm, Tabelle, Mathematik und Dokument herausragende Leistungen erbringt und Spitzenleistungen bei multimodalem Denken und visueller Inhaltsextraktion erzielt, die beide herausfordernde Aufgaben zur Bewertung bestehender LMMs darstellen.
Diese Studie zielt darauf ab, eine präzisere und vielseitigere Objektsteuerung bei der Erzeugung von Bild-zu-Video (I2V) zu erreichen. Aktuelle Methoden stellen die räumliche Bewegung von Zielobjekten typischerweise mit 2D-Trajektorien dar, die oft die Benutzerabsicht nicht erfassen und häufig unnatürliche Ergebnisse erzeugen. Um die Steuerung zu verbessern, präsentieren wir ObjCtrl-2.5D, einen trainingsfreien Ansatz zur Objektsteuerung, der eine 3D-Trajektorie verwendet, die aus einer 2D-Trajektorie mit Tiefeninformationen als Steuersignal erweitert wurde. Indem Objektbewegungen als Kamerabewegungen modelliert werden, repräsentiert ObjCtrl-2.5D die 3D-Trajektorie als eine Sequenz von Kamerapositionen, die eine Objektbewegungssteuerung mithilfe eines vorhandenen Modells zur Kamerabewegungssteuerung bei der I2V-Erzeugung (CMC-I2V) ohne Training ermöglicht. Um das CMC-I2V-Modell, das ursprünglich für die globale Bewegungssteuerung konzipiert wurde, an die Handhabung lokaler Objektbewegungen anzupassen, führen wir ein Modul ein, um das Zielobjekt vom Hintergrund zu isolieren, was eine unabhängige lokale Steuerung ermöglicht. Darüber hinaus entwickeln wir eine effektive Methode, um eine präzisere Objektsteuerung zu erreichen, indem wir niederfrequente verformte Latente innerhalb des Objektbereichs über Frames hinweg teilen. Umfangreiche Experimente zeigen, dass ObjCtrl-2.5D die Genauigkeit der Objektsteuerung im Vergleich zu trainingsfreien Methoden signifikant verbessert und vielfältigere Steuerungsmöglichkeiten als trainingsbasierte Ansätze mit 2D-Trajektorien bietet, was komplexe Effekte wie Objektrotation ermöglicht. Der Code und die Ergebnisse sind unter https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/ verfügbar.
Dieses Paper zielt darauf ab, die Leistung großer Sprachmodelle zu verbessern, indem es auf die variablen Rechenanforderungen in Inferenzschritten eingeht, bei denen einige Token mehr Rechenressourcen als andere erfordern. Wir stellen HARP vor, eine einfache Modifikation des "von der Stange" Transformer-Vorwärtspasses. Mit Bezug auf Zögern und den Framing-Effekt bei Entscheidungsfindung wendet HARP selektiv zusätzliche Berechnungen an, wenn das Modell bei der Token-Generierung auf Unsicherheit stößt. Unsere Methode ahmt menschliche kognitive Prozesse nach, indem sie an schwierigen Entscheidungspunkten pausiert und Eingaben für eine andere Perspektive neu formuliert. Im Gegensatz zu anderen Ansätzen ist HARP modellagnostisch, erfordert kein Training und ist einfach umzusetzen. Wir evaluieren unsere Methode gründlich in verschiedenen nachgelagerten Aufgaben und Modellgrößen und zeigen Leistungsverbesserungen von bis zu +5,16%. Bemerkenswerterweise erzielt HARP diese Gewinne, während die Inferenzzeiten doppelt so schnell wie bei Beam Search bleiben. Einfach und dennoch mit signifikanten Gewinnen bietet HARP eine praktische Lösung zur Verbesserung der Leistung von auf Transformer basierenden Sprachmodellen mit minimalem Rechenaufwand.
Die Generierung von Text-zu-Bildern (T2I) hat dank Diffusionsmodellen erhebliche Fortschritte gemacht, die die Generierung fotorealistischer Bilder aus Textvorgaben ermöglichen. Trotz dieser Fortschritte stehen bestehende Methoden immer noch vor Herausforderungen bei der Umsetzung komplexer Textvorgaben, insbesondere solcher, die eine zusammengesetzte und mehrstufige Argumentation erfordern. Angesichts solch komplexer Anweisungen machen SOTA-Modelle oft Fehler bei der treuen Modellierung von Objekteigenschaften und deren Beziehungen zueinander. In dieser Arbeit stellen wir ein alternatives Paradigma für die T2I-Synthese vor, das die Aufgabe der komplexen mehrstufigen Generierung in drei Schritte unterteilt: (a) Generieren: Zunächst generieren wir ein Bild mithilfe bestehender Diffusionsmodelle. (b) Planen: Wir verwenden Multi-Modal LLMs (MLLMs), um Fehler im generierten Bild zu identifizieren, die sich in Form einzelner Objekte und ihrer Eigenschaften äußern, und erstellen eine Sequenz von Korrekturschritten in Form eines Bearbeitungsplans. (c) Bearbeiten: Wir verwenden vorhandene textgesteuerte Bildbearbeitungsmodelle, um unseren Bearbeitungsplan sequenziell über das generierte Bild auszuführen und das gewünschte Bild zu erhalten, das der ursprünglichen Anweisung treu ist. Unser Ansatz zeichnet sich durch seine Modularität, Unabhängigkeit vom Training und Anwendbarkeit auf beliebige Kombinationen von Bildgenerierungs- und Bearbeitungsmodellen aus. Als zusätzlichen Beitrag entwickeln wir auch ein Modell, das zu einer zusammengesetzten Bearbeitung fähig ist, was die Gesamtgenauigkeit unseres vorgeschlagenen Ansatzes weiter verbessert. Unsere Methode tauscht flexibel die Inferenzzeitberechnung gegen die Leistung bei zusammengesetzten Textvorgaben aus. Wir führen umfangreiche experimentelle Evaluationen über 3 Benchmarks und 10 T2I-Modelle durch, darunter DALLE-3 und das neueste Modell SD-3.5-Large. Unser Ansatz verbessert nicht nur die Leistung der SOTA-Modelle um bis zu 3 Punkte, sondern verringert auch die Leistungsdifferenz zwischen schwächeren und stärkeren Modellen.
Federated Learning (FL) zielt darauf ab, den Datenschutz zu schützen, indem es es den Clients ermöglicht, gemeinsam Machine-Learning-Modelle zu trainieren, ohne ihre Rohdaten zu teilen. Allerdings zeigen jüngste Studien, dass die während des FL ausgetauschten Informationen Angriffen durch Gradienteninversion (GIA) ausgesetzt sind und infolgedessen verschiedene datenschutzerhaltende Methoden in das FL integriert wurden, um solche Angriffe abzuwehren, wie Secure Multi-party Computing (SMC), Homomorphe Verschlüsselung (HE) und Differentielle Privatsphäre (DP). Trotz ihrer Fähigkeit, den Datenschutz zu schützen, gehen diese Ansätze zwangsläufig mit erheblichen Datenschutz-Nutzen-Abwägungen einher. Durch eine erneute Betrachtung des Schlüssels zur Datenschutzaussetzung im FL unter GIA, der im häufigen Austausch von Modellgradienten liegt, die private Daten enthalten, nehmen wir eine neue Perspektive ein, indem wir ein neuartiges Datenschutz-FL-Framework entwerfen, das effektiv die "direkte Verbindung" zwischen den gemeinsam genutzten Parametern und den lokalen privaten Daten unterbindet, um sich gegen GIA zu verteidigen. Konkret schlagen wir ein Hypernetwork Federated Learning (HyperFL)-Framework vor, das Hypernetzwerke nutzt, um die Parameter des lokalen Modells zu generieren, wobei nur die Hypernetzwerk-Parameter zum Server hochgeladen werden, um aggregiert zu werden. Theoretische Analysen zeigen die Konvergenzrate des vorgeschlagenen HyperFL, während umfangreiche experimentelle Ergebnisse die datenschutzerhaltende Fähigkeit und die vergleichbare Leistung von HyperFL zeigen. Der Code ist verfügbar unter https://github.com/Pengxin-Guo/HyperFL.
KI-generierter Gegenrede bietet eine vielversprechende und skalierbare Strategie, um Online-Toxizität durch direkte Antworten einzudämmen, die einen zivilen Diskurs fördern. Allerdings ist die aktuelle Gegenrede Einheitsgröße und passt nicht zur Moderationskontext und den beteiligten Benutzern. Wir schlagen mehrere Strategien zur Generierung maßgeschneiderter Gegenrede vor, die an den Moderationskontext angepasst und personalisiert für den moderierten Benutzer ist. Wir weisen einem LLaMA2-13B-Modell an, Gegenrede zu generieren, indem wir mit verschiedenen Konfigurationen basierend auf unterschiedlichen Kontextinformationen und Feinabstimmungsstrategien experimentieren. Wir identifizieren die Konfigurationen, die über eine Kombination von quantitativen Indikatoren und menschlichen Bewertungen, die über ein vorregistriertes Mixed-Design-Crowdsourcing-Experiment gesammelt wurden, überzeugende Gegenrede generieren. Die Ergebnisse zeigen, dass kontextualisierte Gegenrede die generische Gegenrede auf dem neuesten Stand der Technik in Bezug auf Angemessenheit und Überzeugungskraft signifikant übertreffen kann, ohne andere Eigenschaften zu beeinträchtigen. Unsere Ergebnisse zeigen auch eine schlechte Korrelation zwischen quantitativen Indikatoren und menschlichen Bewertungen auf, was darauf hindeutet, dass diese Methoden unterschiedliche Aspekte bewerten und die Notwendigkeit nuancierter Bewertungsmethoden hervorheben. Die Wirksamkeit von kontextualisierter KI-generierter Gegenrede und die Diskrepanz zwischen menschlichen und algorithmischen Bewertungen unterstreichen die Bedeutung einer verstärkten Zusammenarbeit zwischen Mensch und KI in der Inhaltsmoderation.
Visuomotor-Roboter-Policies, die zunehmend auf groß angelegten Datensätzen vorab trainiert werden, versprechen bedeutende Fortschritte in verschiedenen Robotikbereichen. Die Ausrichtung dieser Policies auf die Präferenzen der Endbenutzer bleibt jedoch eine Herausforderung, insbesondere wenn die Präferenzen schwer zu spezifizieren sind. Während das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) zum vorherrschenden Mechanismus zur Ausrichtung in nicht verkörperten Bereichen wie großen Sprachmodellen geworden ist, hat es nicht den gleichen Erfolg bei der Ausrichtung von visuomotorischen Policies gesehen, aufgrund der prohibitiven Menge an menschlichem Feedback, die erforderlich ist, um visuelle Belohnungsfunktionen zu erlernen. Um diese Einschränkung zu bewältigen, schlagen wir Representation-Aligned Preference-based Learning (RAPL) vor, eine Methode, die ausschließlich auf Beobachtungen basiert, um visuelle Belohnungen aus wesentlich weniger menschlichem Präferenzfeedback zu lernen. Im Gegensatz zum traditionellen RLHF konzentriert sich RAPL darauf, das menschliche Feedback auf die Feinabstimmung vorab trainierter Vision-Encoder auszurichten, um sie mit der visuellen Repräsentation des Endbenutzers in Einklang zu bringen, und konstruiert dann eine dichte visuelle Belohnung durch Feature-Matching in diesem ausgerichteten Repräsentationsraum. Wir validieren RAPL zunächst durch Simulationsexperimente im X-Magical-Benchmark und der Franka Panda-Roboter-Manipulation und zeigen, dass es Belohnungen lernen kann, die mit menschlichen Präferenzen in Einklang stehen, effizienter Präferenzdaten verwendet und über Roboter-Verkörperungen hinweg generalisiert. Schließlich führen wir Hardware-Experimente durch, um vorab trainierte Diffusion Policies für drei Objektmanipulationsaufgaben auszurichten. Wir stellen fest, dass RAPL diese Policies mit 5-mal weniger echten menschlichen Präferenzdaten feinabstimmen kann und somit den ersten Schritt zur Minimierung des menschlichen Feedbacks und zur Maximierung der Ausrichtung von visuomotorischen Roboter-Policies darstellt.