Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen InternLM-XComposer2 vor, ein modernstes Vision-Sprache-Modell, das sich in der freien Text-Bild-Komposition und -Verständnis auszeichnet. Dieses Modell geht über das konventionelle Verständnis von Vision und Sprache hinaus und ist geschickt darin, verschachtelte Text-Bild-Inhalte aus verschiedenen Eingaben wie Gliederungen, detaillierten textuellen Spezifikationen und Referenzbildern zu erstellen, wodurch hochgradig anpassbare Inhaltserstellung ermöglicht wird. InternLM-XComposer2 schlägt einen Partial LoRA (PLoRA)-Ansatz vor, der zusätzliche LoRA-Parameter ausschließlich auf Bild-Tokens anwendet, um die Integrität des vortrainierten Sprachwissens zu bewahren und so ein Gleichgewicht zwischen präzisem Bildverständnis und textueller Komposition mit literarischem Talent zu schaffen. Experimentelle Ergebnisse demonstrieren die Überlegenheit von InternLM-XComposer2, basierend auf InternLM2-7B, in der Erstellung von hochwertigen langen multimodalen Texten und seine außergewöhnliche Vision-Sprache-Verständnisleistung über verschiedene Benchmarks hinweg, wo es nicht nur bestehende multimodale Modelle deutlich übertrifft, sondern in bestimmten Bewertungen auch GPT-4V und Gemini Pro erreicht oder sogar übertrifft. Dies unterstreicht seine bemerkenswerte Kompetenz im Bereich des multimodalen Verständnisses. Die InternLM-XComposer2-Modellserie mit 7B Parametern ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.
Für Large Vision-Language Models (LVLMs) kann die Skalierung des Modells die Leistung effektiv verbessern. Die Erweiterung der Modellparameter erhöht jedoch die Trainings- und Inferenzkosten erheblich, da alle Modellparameter für jedes Token in der Berechnung aktiviert werden. In dieser Arbeit schlagen wir eine neuartige Trainingsstrategie namens MoE-tuning für LVLMs vor, die ein sparsames Modell mit einer enormen Anzahl von Parametern, aber konstanten Berechnungskosten konstruiert und die Leistungsminderung, die typischerweise mit multimodalem Lernen und Modellsparsamkeit verbunden ist, effektiv adressiert. Darüber hinaus präsentieren wir das MoE-LLaVA-Framework, eine auf MoE basierende sparsame LVLM-Architektur. Dieses Framework aktiviert während des Einsatzes einzigartig nur die Top-k-Experten durch Router und hält die verbleibenden Experten inaktiv. Unsere umfangreichen Experimente heben die hervorragenden Fähigkeiten von MoE-LLaVA im visuellen Verständnis und sein Potenzial zur Reduzierung von Halluzinationen in den Modellausgaben hervor. Bemerkenswerterweise zeigt MoE-LLaVA mit nur 3 Milliarden spärlich aktivierten Parametern eine Leistung, die mit der von LLaVA-1.5-7B auf verschiedenen Datensätzen zum visuellen Verständnis vergleichbar ist und sogar die LLaVA-1.5-13B in Benchmarks zur Objekthalluzination übertrifft. Durch MoE-LLaVA streben wir an, eine Baseline für sparsame LVLMs zu etablieren und wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effizienterer und effektiverer multimodaler Lernsysteme zu bieten. Der Code ist unter https://github.com/PKU-YuanGroup/MoE-LLaVA verfügbar.
Große Sprachmodelle werden mit umfangreichen Datensätzen aus dem Web trainiert, die oft unstrukturiert, verrauscht und schlecht formuliert sind. Aktuelle Skalierungsgesetze zeigen, dass das Lernen aus solchen Daten einen Überfluss an Rechenleistung und Daten erfordert, der mit der Größe des zu trainierenden Modells wächst. Dies ist sowohl aufgrund der hohen Rechenkosten und der langen Dauer des Pre-Trainings als auch aufgrund der bevorstehenden Knappheit hochwertiger Daten im Web nicht praktikabel. In dieser Arbeit schlagen wir Web Rephrase Augmented Pre-training (WRAP) vor, das ein vorgefertigtes, instruktionsgesteuertes Modell verwendet, um Dokumente im Web in bestimmten Stilen wie „wie Wikipedia“ oder im „Frage-Antwort-Format“ umzuformulieren, um LLMs gemeinsam auf echten und synthetischen Umformulierungen zu trainieren. Zunächst zeigen wir, dass die Verwendung von WRAP auf dem C4-Datensatz, der von Natur aus verrauscht ist, das Pre-Training um das Dreifache beschleunigt. Bei gleichem Rechenbudget für das Pre-Training verbessert es die Perplexität im Durchschnitt um mehr als 10 % über verschiedene Teilmengen des Pile-Datensatzes hinweg und steigert die Genauigkeit bei Zero-Shot-Frage-Antwort-Aufgaben über 13 Aufgaben hinweg um mehr als 2 %. Zweitens untersuchen wir die Auswirkungen des Umformulierungsstils auf die Leistung des Modells und bieten Einblicke, wie die Zusammensetzung der Trainingsdaten die Leistung von LLMs in Out-of-Distribution-Szenarien beeinflussen kann. Unsere Gewinne werden darauf zurückgeführt, dass umformulierte synthetische Daten einen höheren Nutzen haben als nur echte Daten, da sie (i) Stilvielfalt einbeziehen, die den Stil der nachgelagerten Bewertung eng widerspiegelt, und (ii) eine höhere „Qualität“ als aus dem Web gescrapte Daten aufweisen.
Wir stellen Motion-I2V vor, ein neuartiges Framework für konsistente und kontrollierbare Bild-zu-Video-Generierung (I2V). Im Gegensatz zu früheren Methoden, die die komplexe Bild-zu-Video-Abbildung direkt erlernen, zerlegt Motion-I2V I2V in zwei Stufen mit expliziter Bewegungsmodellierung. Für die erste Stufe schlagen wir einen diffusionsbasierten Bewegungsfeld-Prädiktor vor, der sich auf die Ableitung der Trajektorien der Pixel des Referenzbildes konzentriert. Für die zweite Stufe schlagen wir eine bewegungsaugmentierte temporale Aufmerksamkeit vor, um die begrenzte 1-D temporale Aufmerksamkeit in Video-Latent-Diffusionsmodellen zu verbessern. Dieses Modul kann die Merkmale des Referenzbildes effektiv mit der Führung der vorhergesagten Trajektorien aus der ersten Stufe zu den synthetisierten Frames propagieren. Im Vergleich zu bestehenden Methoden kann Motion-I2V konsistentere Videos erzeugen, selbst bei großen Bewegungen und Blickwinkelvariationen. Durch das Training eines spärlichen Trajektorien-ControlNets für die erste Stufe kann Motion-I2V Benutzern ermöglichen, Bewegungsverläufe und Bewegungsregionen präzise mit spärlichen Trajektorien- und Regionenannotationen zu steuern. Dies bietet mehr Kontrollierbarkeit des I2V-Prozesses als die alleinige Abhängigkeit von textuellen Anweisungen. Darüber hinaus unterstützt die zweite Stufe von Motion-I2V natürlicherweise Zero-Shot-Video-zu-Video-Übersetzung. Sowohl qualitative als auch quantitative Vergleiche demonstrieren die Vorteile von Motion-I2V gegenüber früheren Ansätzen in der konsistenten und kontrollierbaren Bild-zu-Video-Generierung.
In den letzten Jahren wurden im Bereich des robotischen Reinforcement Learning (RL) bedeutende Fortschritte erzielt, wodurch Methoden entwickelt wurden, die komplexe Bildbeobachtungen verarbeiten, in der realen Welt trainieren und zusätzliche Daten wie Demonstrationen und frühere Erfahrungen einbeziehen. Trotz dieser Fortschritte bleibt robotisches RL jedoch schwer anzuwenden. Es ist unter Praktikern anerkannt, dass die spezifischen Implementierungsdetails dieser Algorithmen oft genauso wichtig (wenn nicht sogar wichtiger) für die Leistung sind wie die Wahl des Algorithmus. Wir stellen die These auf, dass eine wesentliche Herausforderung für die breite Einführung von robotischem RL sowie die Weiterentwicklung von robotischen RL-Methoden die vergleichsweise geringe Zugänglichkeit solcher Methoden ist. Um diese Herausforderung zu bewältigen, haben wir eine sorgfältig implementierte Bibliothek entwickelt, die eine probeneffiziente Off-Policy Deep-RL-Methode, Methoden zur Berechnung von Belohnungen und zur Zurücksetzung der Umgebung, einen hochwertigen Controller für einen weit verbreiteten Roboter und eine Reihe anspruchsvoller Beispielaufgaben enthält. Wir stellen diese Bibliothek der Gemeinschaft als Ressource zur Verfügung, beschreiben ihre Designentscheidungen und präsentieren experimentelle Ergebnisse. Überraschenderweise stellen wir fest, dass unsere Implementierung sehr effizientes Lernen erreichen kann, indem sie Richtlinien für die Montage von Leiterplatten, das Verlegen von Kabeln und das Versetzen von Objekten durchschnittlich in 25 bis 50 Minuten Training pro Richtlinie erwirbt, was die in der Literatur berichteten Ergebnisse für ähnliche Aufgaben übertrifft. Diese Richtlinien erreichen perfekte oder nahezu perfekte Erfolgsraten, extreme Robustheit selbst unter Störungen und zeigen emergente Wiederherstellungs- und Korrekturverhalten. Wir hoffen, dass diese vielversprechenden Ergebnisse und unsere hochwertige Open-Source-Implementierung der Robotikgemeinschaft ein Werkzeug bieten, um weitere Entwicklungen im robotischen RL zu fördern. Unser Code, die Dokumentation und Videos sind unter https://serl-robot.github.io/ verfügbar.
Die Synthese von 3D-Gesichtsanimationen aus Sprache hat erhebliche Aufmerksamkeit erregt. Aufgrund der Knappheit von hochwertigen 4D-Gesichtsdaten und gut annotierten, umfangreichen Multimodalitäts-Labels leiden frühere Methoden oft unter begrenztem Realismus und einem Mangel an flexibler Konditionierung. Wir gehen diese Herausforderung durch eine Trilogie an. Zunächst führen wir das Generalized Neural Parametric Facial Asset (GNPFA) ein, einen effizienten Variations-Autoencoder, der Gesichtsgeometrie und Bilder in einen hochgradig generalisierten Ausdrucks-Latentraum abbildet und dabei Ausdrücke und Identitäten entkoppelt. Anschließend nutzen wir GNPFA, um hochwertige Ausdrücke und präzise Kopfposen aus einer Vielzahl von Videos zu extrahieren. Dies führt zum M2F-D-Datensatz, einem großen, vielfältigen und scanbasierten Co-Speech-3D-Gesichtsanimationsdatensatz mit gut annotierten emotionalen und Stil-Labels. Schließlich schlagen wir Media2Face vor, ein Diffusionsmodell im GNPFA-Latentraum für die Co-Speech-Gesichtsanimationsgenerierung, das reiche Multimodalitäts-Anleitungen aus Audio, Text und Bild akzeptiert. Umfangreiche Experimente zeigen, dass unser Modell nicht nur eine hohe Wiedergabetreue in der Gesichtsanimation erreicht, sondern auch den Umfang der Ausdrucksfähigkeit und Stilanpassungsfähigkeit in der 3D-Gesichtsanimation erweitert.
Ein mobiler Geräteagent, der auf Multimodalen Großen Sprachmodellen (MLLM) basiert, wird zunehmend zu einer beliebten Anwendung. In diesem Artikel stellen wir Mobile-Agent vor, einen autonomen multimodalen mobilen Geräteagenten. Mobile-Agent nutzt zunächst visuelle Wahrnehmungstools, um sowohl die visuellen als auch die textuellen Elemente innerhalb der Benutzeroberfläche der App präzise zu identifizieren und zu lokalisieren. Basierend auf dem wahrgenommenen visuellen Kontext plant und zerlegt er dann autonom die komplexe Betriebsaufgabe und navigiert schrittweise durch die mobilen Apps. Im Gegensatz zu früheren Lösungen, die auf XML-Dateien der Apps oder Metadaten des mobilen Systems angewiesen sind, ermöglicht Mobile-Agent eine größere Anpassungsfähigkeit in verschiedenen mobilen Betriebsumgebungen auf visuell zentrierte Weise, wodurch die Notwendigkeit systemspezifischer Anpassungen entfällt. Um die Leistung von Mobile-Agent zu bewerten, haben wir Mobile-Eval eingeführt, einen Benchmark zur Bewertung von mobilen Geräteoperationen. Basierend auf Mobile-Eval haben wir eine umfassende Bewertung von Mobile-Agent durchgeführt. Die experimentellen Ergebnisse zeigen, dass Mobile-Agent bemerkenswerte Genauigkeits- und Abschlussraten erreicht hat. Selbst bei anspruchsvollen Anweisungen, wie z.B. Multi-App-Operationen, kann Mobile-Agent die Anforderungen dennoch erfüllen. Code und Modell werden unter https://github.com/X-PLUG/MobileAgent open-source zur Verfügung gestellt.
Jüngste Fortschritte bei großen vortrainierten Text-zu-Bild-Modellen haben beispiellose Fähigkeiten für hochwertige, menschenzentrierte Generierung gezeigt. Dennoch bleibt die Anpassung der Gesichtsidentität ein schwer lösbares Problem. Bestehende Methoden können keine stabile Identitätsbewahrung und flexible Bearbeitbarkeit gewährleisten, selbst wenn mehrere Bilder pro Person während des Trainings verwendet werden. In dieser Arbeit schlagen wir StableIdentity vor, das eine identitätskonsistente Rekontextualisierung mit nur einem Gesichtsbild ermöglicht. Genauer gesetzt verwenden wir einen Gesichtsencoder mit einem Identitäts-Prior, um das Eingabegesicht zu kodieren, und platzieren dann die Gesichtsrepräsentation in einem Raum mit einem bearbeitbaren Prior, der aus Prominentennamen konstruiert wird. Durch die Einbindung von Identitäts-Prior und Bearbeitbarkeits-Prior kann die gelernte Identität an beliebiger Stelle mit verschiedenen Kontexten injiziert werden. Zusätzlich entwerfen wir einen maskierten zweiphasigen Diffusionsverlust, um die pixelgenaue Wahrnehmung des Eingabegesichts zu verbessern und die Vielfalt der Generierung zu erhalten. Umfangreiche Experimente zeigen, dass unsere Methode bisherige Anpassungsmethoden übertrifft. Darüber hinaus kann die gelernte Identität flexibel mit verfügbaren Modulen wie ControlNet kombiniert werden. Bemerkenswerterweise sind wir, soweit bekannt, die ersten, die die aus einem einzelnen Bild gelernte Identität direkt in die Video-/3D-Generierung injizieren, ohne Feinabstimmung. Wir glauben, dass das vorgeschlagene StableIdentity ein wichtiger Schritt ist, um angepasste Generierungsmodelle für Bilder, Videos und 3D zu vereinheitlichen.
Da großskalige Text-zu-Bild-Generierungsmodelle bemerkenswerte Fortschritte im Bereich der Text-zu-Bild-Generierung erzielt haben, wurden viele Feinabstimmungsmethoden vorgeschlagen. Diese Modelle haben jedoch oft Schwierigkeiten mit neuen Objekten, insbesondere in Einzelbeispielszenarien. Unsere vorgeschlagene Methode zielt darauf ab, die Herausforderungen der Generalisierbarkeit und Treue auf objektgetriebene Weise zu bewältigen, wobei nur ein einzelnes Eingabebild und die objektspezifischen Regionen von Interesse verwendet werden. Um die Generalisierbarkeit zu verbessern und Überanpassung zu vermeiden, wird in unserem Paradigma ein prototypisches Embedding basierend auf dem Erscheinungsbild des Objekts und seiner Klasse initialisiert, bevor das Diffusionsmodell feinabgestimmt wird. Während der Feinabstimmung schlagen wir eine klassencharakterisierende Regularisierung vor, um das Vorwissen über Objektklassen zu bewahren. Um die Treue weiter zu verbessern, führen wir einen objektspezifischen Verlust ein, der auch zur Implantation mehrerer Objekte verwendet werden kann. Insgesamt kann unsere vorgeschlagene objektgetriebene Methode zur Implantation neuer Objekte nahtlos mit bestehenden Konzepten sowie mit hoher Treue und Generalisierung integriert werden. Unsere Methode übertrifft mehrere bestehende Arbeiten. Der Code wird veröffentlicht.
Trotz bedeutender Fortschritte bei Text-zu-Bild-Modellen zur Erzeugung hochwertiger Bilder haben diese Methoden nach wie vor Schwierigkeiten, die Steuerbarkeit von Textprompts über Bilder im Kontext komplexer Textanweisungen sicherzustellen, insbesondere wenn es darum geht, Objektattribute und -beziehungen beizubehalten. In diesem Artikel stellen wir CompAgent vor, einen trainingsfreien Ansatz für die kompositionelle Text-zu-Bild-Generierung, der einen großen Sprachmodell-Agenten (LLM) als Kernkomponente nutzt. Die grundlegende Idee von CompAgent basiert auf einer Divide-and-Conquer-Methodik. Bei einem komplexen Textprompt, der mehrere Konzepte wie Objekte, Attribute und Beziehungen enthält, zerlegt der LLM-Agent diesen zunächst, was die Extraktion einzelner Objekte, ihrer zugehörigen Attribute und die Vorhersage eines kohärenten Szenenlayouts umfasst. Diese einzelnen Objekte können dann unabhängig voneinander bearbeitet werden. Anschließend führt der Agent eine Analyse des Textes durch, plant den Einsatz von Werkzeugen und setzt diese ein, um die isolierten Objekte zu kombinieren. Ein Verifizierungs- und Feedback-Mechanismus wird schließlich in unseren Agenten integriert, um potenzielle Attributfehler zu korrigieren und die generierten Bilder weiter zu verfeinern. Unter der Anleitung des LLM-Agenten schlagen wir ein abstimmungsfreies Multi-Konzept-Anpassungsmodell und ein Layout-zu-Bild-Generierungsmodell als Werkzeuge für die Konzeptkomposition vor sowie eine lokale Bildbearbeitungsmethode als Werkzeug zur Interaktion mit dem Agenten zur Verifizierung. Das Szenenlayout steuert den Bildgenerierungsprozess zwischen diesen Werkzeugen, um Verwirrung zwischen mehreren Objekten zu vermeiden. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Ansatzes für die kompositionelle Text-zu-Bild-Generierung: CompAgent erzielt eine Verbesserung von mehr als 10 % auf T2I-CompBench, einem umfassenden Benchmark für die offene kompositionelle Text-zu-Bild-Generierung. Die Erweiterung auf verschiedene verwandte Aufgaben zeigt auch die Flexibilität unseres CompAgent für potenzielle Anwendungen.
Bestehende Vision-Sprache-Modelle zeigen eine starke Generalisierungsfähigkeit in einer Vielzahl von visuellen Domänen und Aufgaben. Solche Modelle führen jedoch hauptsächlich Zero-Shot-Erkennung in einer geschlossenen Menge durch und haben daher von Natur aus Schwierigkeiten, offene visuelle Konzepte zu verarbeiten. Es gibt neuere Feinabstimmungsmethoden, wie Prompt Learning, die nicht nur die Unterscheidung zwischen In-Distribution (ID)- und Out-of-Distribution (OOD)-Stichproben untersuchen, sondern auch Verbesserungen in den Genauigkeiten sowohl für ID als auch für OOD zeigen. In diesem Artikel demonstrieren wir zunächst, dass Vision-Sprache-Modelle nach ausreichend langer Feinabstimmung ohne geeignete Regularisierung dazu neigen, die bekannten Klassen im gegebenen Datensatz zu überanpassen, was zu einer verschlechterten Leistung bei unbekannten Klassen führt. Anschließend schlagen wir einen neuartigen Ansatz namens OGEN vor, um diese Schwachstelle zu beheben, mit dem Hauptaugenmerk auf der Verbesserung der OOD-Generalisierung feinabgestimmter Modelle. Insbesondere wird ein klassenbedingter Merkmalsgenerator eingeführt, der OOD-Merkmale allein anhand des Klassennamens einer unbekannten Klasse synthetisiert. Solche synthetisierten Merkmale liefern nützliches Wissen über Unbekannte und helfen, die Entscheidungsgrenze zwischen ID- und OOD-Daten zu regularisieren, wenn sie gemeinsam optimiert werden. Ebenso wichtig ist unser adaptiver Selbst-Distillationsmechanismus, um unser Merkmalsgenerierungsmodell während der gemeinsamen Optimierung zu regularisieren, d.h. Wissen zwischen Modellzuständen adaptiv zu übertragen, um eine Überanpassung weiter zu verhindern. Experimente bestätigen, dass unsere Methode überzeugende Verbesserungen in der OOD-Generalisierungsleistung in verschiedenen Settings erzielt.