Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
PaliGemma 2 ist ein Upgrade des PaliGemma Open Vision-Language Model (VLM) basierend auf der Gemma 2 Familie von Sprachmodellen. Wir kombinieren den SigLIP-So400m Vision-Encoder, der auch von PaliGemma verwendet wurde, mit der gesamten Palette von Gemma 2 Modellen, vom 2B Modell bis hin zum 27B Modell. Wir trainieren diese Modelle in drei Auflösungen (224px, 448px und 896px) in mehreren Stufen, um sie mit umfassendem Wissen für den Transfer durch Feinabstimmung auszustatten. Die resultierende Familie von Basismodellen, die verschiedene Modellgrößen und Auflösungen abdecken, ermöglicht es uns, Faktoren zu untersuchen, die die Transferleistung beeinflussen (wie z.B. Lernrate) und das Zusammenspiel zwischen Art der Aufgabe, Modellgröße und Auflösung zu analysieren. Wir erweitern zudem die Anzahl und Breite der Transferaufgaben über den Rahmen von PaliGemma hinaus, einschließlich verschiedener OCR-bezogener Aufgaben wie Tabellenstrukturerkennung, Molekülstrukturerkennung, Musiknotenerkennung sowie langzeitiger feingranularer Bildunterschriften und Radiographie-Berichterstellung, bei denen PaliGemma 2 Spitzenleistungen erzielt.
Aktuelle Ansätze haben vielversprechende Ergebnisse bei der Destillation von mehrstufigen Text-zu-Bild-Diffusionsmodellen in Ein-Schritt-Modelle geliefert. Die effiziente Destillationstechnik der Spitzenklasse, d.h. SwiftBrushv2 (SBv2), übertrifft sogar die Leistung des Lehrmodells mit begrenzten Ressourcen. Allerdings zeigt unsere Studie Instabilitäten bei der Handhabung verschiedener Diffusionsmodell-Backbones aufgrund der Verwendung einer festen Anleitungsskala im Rahmen des Variational Score Distillation (VSD)-Verlusts auf. Eine weitere Schwäche der bestehenden Ein-Schritt-Diffusionsmodelle ist das Fehlen von Unterstützung für negative Anleitungshinweise, die bei der praktischen Bildgenerierung entscheidend sind. Dieser Artikel stellt SNOOPI vor, ein neuartiges Framework, das entwickelt wurde, um diese Einschränkungen durch die Verbesserung der Anleitung in Ein-Schritt-Diffusionsmodellen während des Trainings und der Inferenz zu adressieren. Zunächst verbessern wir die Trainingsstabilität effektiv durch Proper Guidance-SwiftBrush (PG-SB), das einen zufälligen Skalen klassenfreien Anleitungszugang verwendet. Durch Variation der Anleitungsskala beider Lehrmodelle erweitern wir ihre Ausgabeverteilungen, was zu einem robusteren VSD-Verlust führt, der es SB ermöglicht, effektiv über verschiedene Backbones hinweg zu agieren, während eine wettbewerbsfähige Leistung beibehalten wird. Zweitens schlagen wir eine trainingsfreie Methode namens Negative-Away Steer Attention (NASA) vor, die negative Hinweise in Ein-Schritt-Diffusionsmodelle über Kreuz-Aufmerksamkeit integriert, um unerwünschte Elemente in generierten Bildern zu unterdrücken. Unsere experimentellen Ergebnisse zeigen, dass unsere vorgeschlagenen Methoden die Basismodelle signifikant verbessern. Bemerkenswerterweise erreichen wir einen HPSv2-Score von 31,08 und setzen damit einen neuen Spitzenwert für Ein-Schritt-Diffusionsmodelle.
Wir präsentieren TokenFlow, einen innovativen vereinheitlichten Bild-Tokenizer, der die langjährige Kluft zwischen multimodalem Verständnis und Generierung überbrückt. Frühere Forschungsversuche zielen darauf ab, einen einzigen auf Rekonstruktion ausgerichteten Vektorquantisierungs (VQ)-Encoder zur Vereinheitlichung dieser beiden Aufgaben einzusetzen. Wir stellen fest, dass Verständnis und Generierung grundsätzlich unterschiedliche Feinheiten visueller Informationen erfordern. Dies führt zu einem entscheidenden Kompromiss, der insbesondere die Leistung bei multimodalen Verständnisaufgaben beeinträchtigt. TokenFlow begegnet dieser Herausforderung durch eine innovative Dual-Codebuch-Architektur, die das semantische und pixelgenaue Merkmalslernen entkoppelt, während sie ihre Ausrichtung über einen gemeinsamen Zuordnungsmechanismus beibehält. Dieses Design ermöglicht einen direkten Zugriff auf sowohl hochrangige semantische Repräsentationen, die für Verständnisaufgaben entscheidend sind, als auch feinkörnige visuelle Merkmale, die für die Generierung wesentlich sind, über gemeinsame Indizes. Unsere umfangreichen Experimente zeigen die Überlegenheit von TokenFlow in mehreren Dimensionen auf. Durch die Nutzung von TokenFlow zeigen wir erstmals, dass diskrete visuelle Eingaben die Leistung von LLaVA-1.5 13B im Verständnis um durchschnittlich 7,2\% übertreffen können. Für die Bildrekonstruktion erzielen wir einen starken FID-Score von 0,63 bei einer Auflösung von 384*384. Darüber hinaus etabliert TokenFlow eine Spitzenleistung in der autoregressiven Bildgenerierung mit einem GenEval-Score von 0,55 bei einer Auflösung von 256*256 und erzielt vergleichbare Ergebnisse wie SDXL.
360°-Videos bieten ein hyperimmersive Erfahrung, die es den Zuschauern ermöglicht, eine dynamische Szene aus vollen 360 Grad zu erkunden. Um eine benutzerfreundlichere und personalisierte Inhalteerstellung im Format von 360°-Videos zu erreichen, streben wir danach, Standard-Perspektivvideos in 360°-equirectangular Videos zu transformieren. Zu diesem Zweck stellen wir Imagine360 vor, das erste Framework zur Generierung von Perspektive-zu-360°-Videos, das hochwertige 360°-Videos mit reichen und vielfältigen Bewegungsmustern aus Video-Ankern erstellt. Imagine360 lernt feingranulare sphärische visuelle und Bewegungsmuster aus begrenzten 360°-Videodaten mit mehreren Schlüsselkonzepten. 1) Zunächst übernehmen wir das Dual-Branch-Design, das einen Perspektiv- und einen Panorama-Video-Denoising-Zweig umfasst, um lokale und globale Einschränkungen für die Generierung von 360°-Videos bereitzustellen, mit einem Bewegungsmodul und räumlichen LoRA-Schichten, die auf erweiterten Web-360°-Videos feinabgestimmt sind. 2) Darüber hinaus wird eine antipodale Maske entwickelt, um weitreichende Bewegungsabhängigkeiten zu erfassen, die die umgekehrte Kamerabewegung zwischen antipodalen Pixeln über Hemisphären hinweg verbessern. 3) Um verschiedene Perspektiv-Videoeingaben zu handhaben, schlagen wir höhenbewusste Designs vor, die sich an sich ändernde Höhen in den Frames anpassen. Umfangreiche Experimente zeigen, dass Imagine360 eine überlegene Grafikqualität und Bewegungskohärenz im Vergleich zu modernsten Methoden zur Generierung von 360°-Videos erreicht. Wir sind der Ansicht, dass Imagine360 vielversprechend ist, um die personalisierte, immersive Erstellung von 360°-Videos voranzutreiben.
Diffusionsmodelle wurden aufgrund ihrer starken Trainingsstabilität und hohen Abschlussqualität erfolgreich auf die Vervollständigung von 3D-LiDAR-Szenen angewendet. Allerdings begrenzt die langsame Abtastgeschwindigkeit die praktische Anwendung von diffusionsbasierten Szenenvervollständigungsmodellen, da autonome Fahrzeuge eine effiziente Wahrnehmung ihrer Umgebung erfordern. Dieser Artikel schlägt eine neuartige Destillationsmethode speziell für 3D LiDAR-Szenenvervollständigungsmodelle vor, genannt ScoreLiDAR, die eine effiziente und dennoch hochwertige Szenenvervollständigung ermöglicht. ScoreLiDAR ermöglicht es dem destillierten Modell, nach der Destillation in deutlich weniger Schritten zu sampeln. Um die Abschlussqualität zu verbessern, führen wir auch einen neuartigen Strukturverlust ein, der das destillierte Modell dazu anregt, die geometrische Struktur der 3D LiDAR-Szene zu erfassen. Der Verlust enthält einen szenenweisen Begriff, der die ganzheitliche Struktur einschränkt, und einen punktweisen Begriff, der die Schlüsselmarkierungspunkte und deren relative Konfiguration einschränkt. Umfangreiche Experimente zeigen, dass ScoreLiDAR die Abschlusszeit von 30,55 auf 5,37 Sekunden pro Frame (>5-mal) auf SemanticKITTI signifikant beschleunigt und im Vergleich zu modernsten 3D LiDAR-Szenenvervollständigungsmodellen eine überlegene Leistung erzielt. Unser Code ist öffentlich unter https://github.com/happyw1nd/ScoreLiDAR verfügbar.
In jüngster Zeit haben Fortschritte bei großen multimodalen Videomodellen (LMMs) ihre Fähigkeiten zur Videoverarbeitung und -analyse signifikant verbessert. Allerdings sinkt ihre Leistung bei Out-of-Distribution (OOD) Aufgaben, die im Trainingsdatensatz unterrepräsentiert sind. Traditionelle Methoden wie Feinabstimmung auf OOD-Datensätzen sind aufgrund hoher Rechenkosten unpraktikabel. Während In-Context-Learning (ICL) mit Demonstrationsbeispielen vielversprechende Verallgemeinerungsleistungen bei Sprach- und Bildsprach-Aufgaben ohne Feinabstimmung gezeigt hat, stehen bei der Anwendung von ICL auf Video-Sprach-Aufgaben Herausforderungen aufgrund der begrenzten Kontextlänge in Video LMMs im Weg, da Videos längere Tokenlängen erfordern. Um diese Probleme anzugehen, schlagen wir VideoICL vor, ein neuartiges Video-In-Context-Learning-Framework für OOD-Aufgaben, das eine strategische Auswahl relevanter Beispiele auf Basis von Ähnlichkeit einführt und einen vertrauensbasierten iterativen Inferenzansatz verwendet. Dies ermöglicht die Auswahl der relevantesten Beispiele und ihre Rangfolge basierend auf Ähnlichkeit zur Verwendung bei der Inferenz. Wenn die generierte Antwort eine niedrige Zuversicht aufweist, wählt unser Framework neue Beispiele aus und führt die Inferenz erneut durch, wodurch die Ergebnisse iterativ verfeinert werden, bis eine Antwort mit hoher Zuversicht erzielt wird. Dieser Ansatz verbessert die Leistung der OOD-Videoverarbeitung, indem die effektive Kontextlänge vergrößert wird, ohne hohe Kosten zu verursachen. Die experimentellen Ergebnisse auf mehreren Benchmarks zeigen signifikante Leistungssteigerungen, insbesondere in domänenspezifischen Szenarien, und legen den Grundstein für breitere Anwendungen in der Videoverarbeitung. Der Code wird unter https://github.com/KangsanKim07/VideoICL veröffentlicht.
Das Erstellen realistischer und animierbarer Avatare erfordert immer noch Minuten von Multi-View- oder monokularen selbstrotierenden Videos, und die meisten Methoden fehlen eine präzise Kontrolle über Gesten und Ausdrücke. Um diese Grenze zu erweitern, behandeln wir die Herausforderung, einen Ganzkörper-Sprechavatar aus einem einzigen Bild zu konstruieren. Wir schlagen eine neuartige Pipeline vor, die zwei kritische Probleme angeht: 1) komplexe dynamische Modellierung und 2) Verallgemeinerung auf neue Gesten und Ausdrücke. Um nahtlose Verallgemeinerung zu erreichen, nutzen wir aktuelle posegeführte Bild-zu-Video-Diffusionsmodelle, um unvollkommene Videoframes als Pseudolabels zu generieren. Um die durch inkonsistente und rauschige Pseudovideos verursachte Herausforderung der dynamischen Modellierung zu überwinden, führen wir eine eng gekoppelte 3DGS-Mesh-Hybridavatar-Repräsentation ein und wenden mehrere Schlüsselregularisierungen an, um Inkonsistenzen durch unvollkommene Labels zu mildern. Umfangreiche Experimente an verschiedenen Themen zeigen, dass unsere Methode die Erstellung eines fotorealistischen, präzise animierbaren und ausdrucksstarken Ganzkörper-Sprechavatars aus nur einem einzigen Bild ermöglicht.
In diesem Paper stellen wir ein Open-Source-Koreanisch-Englisches Vision-Sprachmodell (VLM), VARCO-VISION, vor. Wir integrieren eine schrittweise Schulungsstrategie, die es einem Modell ermöglicht, sowohl linguistische als auch visuelle Informationen zu erlernen, während das Grundlagenmodellwissen erhalten bleibt. Unser Modell zeigt eine herausragende Leistung in verschiedenen Einstellungen, die zweisprachige Bild-Text-Verständnis- und Generierungsfähigkeiten erfordern, im Vergleich zu Modellen ähnlicher Größe. VARCO-VISION ist auch in der Lage, Verankerung, Verweisung und OCR durchzuführen, was seine Verwendung und potenzielle Anwendungen für reale Szenarien erweitert. Neben dem Modell veröffentlichen wir fünf koreanische Evaluierungsdatensätze, darunter vier geschlossene und einen offenen Benchmark. Wir erwarten, dass unser Meilenstein die Möglichkeiten für KI-Forscher, die VLMs trainieren möchten, erweitern wird. VARCO-VISION ist verfügbar unter https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Dieses Paper stellt MIDI vor, ein neuartiges Paradigma für die kompositorische 3D-Szenengenerierung aus einem einzigen Bild. Im Gegensatz zu bestehenden Methoden, die auf Rekonstruktions- oder Abruftechniken beruhen oder auf kürzlich entwickelte Ansätze zurückgreifen, die eine mehrstufige Objekt-für-Objekt-Generierung verwenden, erweitert MIDI vortrainierte Bild-zu-3D-Objekt-Generierungsmodelle auf Multi-Instanz-Diffusionsmodelle, die die simultane Generierung mehrerer 3D-Instanzen mit präzisen räumlichen Beziehungen und hoher Generalisierbarkeit ermöglichen. Im Kern integriert MIDI einen neuartigen Multi-Instanz-Aufmerksamkeitsmechanismus, der Interaktionen zwischen Objekten und räumliche Kohärenz effektiv direkt im Generierungsprozess erfasst, ohne komplexe mehrstufige Prozesse zu benötigen. Die Methode nutzt partielle Objektbilder und den globalen Szenenkontext als Eingaben und modelliert direkt die Objektvervollständigung während der 3D-Generierung. Während des Trainings überwachen wir effektiv die Interaktionen zwischen 3D-Instanzen unter Verwendung einer begrenzten Menge von Szenendaten auf Ebene der Szene und integrieren Einzelobjektdaten zur Regularisierung, um die vortrainierte Generalisierungsfähigkeit aufrechtzuerhalten. MIDI zeigt Spitzenleistungen in der Bild-zu-Szene-Generierung, validiert durch Evaluationen an synthetischen Daten, realen Szenendaten und stilisierten Szenenbildern, die von Text-zu-Bild-Diffusionsmodellen generiert wurden.
In jüngster Zeit haben Fortschritte in generativen Modellen die neuartige Ansichtssynthese (NVS) aus Multi-View-Daten erheblich verbessert. Allerdings sind bestehende Methoden auf externe Multi-View-Ausrichtungsprozesse angewiesen, wie z. B. explizite Posenabschätzung oder Vorrekonstruktion, was ihre Flexibilität und Zugänglichkeit einschränkt, insbesondere wenn die Ausrichtung aufgrund unzureichender Überlappung oder Verdeckungen zwischen den Ansichten instabil ist. In diesem Paper schlagen wir NVComposer vor, einen neuartigen Ansatz, der auf die Notwendigkeit expliziter externer Ausrichtung verzichtet. NVComposer ermöglicht es dem generativen Modell, räumliche und geometrische Beziehungen zwischen mehreren bedingten Ansichten implizit zu erschließen, indem zwei Schlüsselkomponenten eingeführt werden: 1) ein Bild-Posen-Dual-Stream-Diffusionsmodell, das gleichzeitig Ziel-Novel-Ansichten und bedingte Kameraposen generiert, und 2) ein geometriebewusstes Merkmal-Ausrichtungsmodul, das geometrische Prioritäten aus dichten Stereo-Modellen während des Trainings extrahiert. Umfangreiche Experimente zeigen, dass NVComposer eine Spitzenleistung bei generativen Multi-View-NVS-Aufgaben erreicht, indem die Abhängigkeit von externer Ausrichtung beseitigt wird und somit die Zugänglichkeit des Modells verbessert wird. Unser Ansatz zeigt signifikante Verbesserungen in der Synthesequalität mit zunehmender Anzahl von ungeordneten Eingabeansichten und unterstreicht sein Potenzial für flexiblere und zugänglichere generative NVS-Systeme.
Wir stellen NitroFusion vor, einen grundlegend anderen Ansatz zur Ein-Schritt-Diffusion, der durch ein dynamisches adversarielles Framework eine hochwertige Generierung erreicht. Während Ein-Schritt-Methoden dramatische Geschwindigkeitsvorteile bieten, leiden sie typischerweise unter Qualitätsverschlechterungen im Vergleich zu ihren Mehrschritt-Gegenstücken. Ähnlich wie ein Gremium von Kunstkritikern, das umfassendes Feedback bietet, indem es sich auf verschiedene Aspekte wie Komposition, Farbe und Technik spezialisiert, behält unser Ansatz einen großen Pool spezialisierter Diskriminator-Köpfe bei, die gemeinsam den Generierungsprozess leiten. Jede Diskriminator-Gruppe entwickelt Expertise in spezifischen Qualitätsaspekten bei unterschiedlichen Rauschniveaus und bietet vielfältiges Feedback, das eine hochwertige Ein-Schritt-Generierung ermöglicht. Unser Framework kombiniert: (i) einen dynamischen Diskriminator-Pool mit spezialisierten Diskriminator-Gruppen zur Verbesserung der Generierungsqualität, (ii) strategische Aktualisierungsmechanismen zur Verhinderung von Überanpassung des Diskriminators und (iii) globale-lokale Diskriminator-Köpfe für die mehrskalige Qualitätsbewertung sowie bedingtes/unbedingtes Training für eine ausgewogene Generierung. Darüber hinaus unterstützt unser Framework auf einzigartige Weise eine flexible Bereitstellung durch Bottom-up-Verfeinerung, die es Benutzern ermöglicht, dynamisch zwischen 1-4 Rauschunterdrückungsschritten mit demselben Modell für direkte Qualitäts-Geschwindigkeits-Kompromisse zu wählen. Durch umfassende Experimente zeigen wir, dass NitroFusion signifikant bessere Leistungen als bestehende Ein-Schritt-Methoden über mehrere Bewertungskriterien hinweg erbringt und insbesondere in der Bewahrung feiner Details und globaler Konsistenz herausragt.
Der rasante Fortschritt von Multimodalen Großen Sprachmodellen (MLLMs) hat verschiedene multimodale Aufgaben signifikant beeinflusst. Allerdings stehen diese Modelle vor Herausforderungen bei Aufgaben, die räumliches Verständnis in 3D-Umgebungen erfordern. Bemühungen zur Verbesserung von MLLMs, wie die Integration von Punktwolkenmerkmalen, wurden unternommen, doch besteht nach wie vor eine erhebliche Kluft zwischen den erlernten Repräsentationen der Modelle und der inhärenten Komplexität von 3D-Szenen. Diese Diskrepanz resultiert größtenteils aus dem Training von MLLMs an hauptsächlich 2D-Daten, was ihre Effektivität beim Verstehen von 3D-Räumen einschränkt. Um dieses Problem anzugehen, schlagen wir in diesem Papier ein neuartiges Generalistenmodell vor, d.h. Video-3D LLM, für das Verständnis von 3D-Szenen. Indem wir 3D-Szenen als dynamische Videos behandeln und 3D-Positionsencoding in diese Repräsentationen integrieren, passt unser Video-3D LLM Video-Repräsentationen genauer an reale räumliche Kontexte an. Darüber hinaus haben wir eine Technik zur maximalen Abdeckungsauswahl implementiert, um das Gleichgewicht zwischen Rechenkosten und Leistungseffizienz zu optimieren. Umfangreiche Experimente zeigen, dass unser Modell Spitzenleistungen auf mehreren Benchmarks für das Verständnis von 3D-Szenen erzielt, darunter ScanRefer, Multi3DRefer, Scan2Cap, ScanQA und SQA3D.
Die aktuelle Bewertung mathematischer Fähigkeiten in LLMs ist begrenzt, da bestehende Referenzwerte entweder relativ klein sind, hauptsächlich auf elementare und weiterführende Schulprobleme ausgerichtet sind oder Vielfalt in den Themen vermissen lassen. Darüber hinaus bleibt die Einbeziehung visueller Elemente in Aufgaben weitgehend unerforscht. Um diese Lücken zu schließen, führen wir U-MATH ein, einen neuartigen Benchmark mit 1.100 unveröffentlichten offenen Problemen auf Universitätsniveau, die aus Lehrmaterialien stammen. Er ist ausgewogen auf sechs Kernfächer verteilt, wobei 20% multimodale Probleme umfassen. Angesichts des offenen Charakters der U-MATH-Probleme setzen wir einen LLM ein, um die Richtigkeit der generierten Lösungen zu beurteilen. Zu diesem Zweck veröffentlichen wir mu-MATH, einen Datensatz zur Bewertung der Fähigkeiten von LLMs bei der Beurteilung von Lösungen. Die Bewertung von allgemeinen, mathematikspezifischen und multimodalen LLMs verdeutlicht die Herausforderungen, die U-MATH darstellt. Unsere Ergebnisse zeigen, dass LLMs eine maximale Genauigkeit von nur 63% bei textbasierten Aufgaben erreichen, wobei sie bei visuellen Problemen sogar nur 45% erreichen. Die Bewertung von Lösungen erweist sich für LLMs als anspruchsvoll, wobei der beste LLM-Richter einen F1-Score von 80% bei mu-MATH aufweist.
Die Generierung synthetischer Daten mit Large Language Models ist ein vielversprechendes Paradigma zur Erweiterung natürlicher Daten über eine nahezu unendliche Bandbreite von Aufgaben. Aufgrund dieser Vielfalt sind direkte Vergleiche zwischen Algorithmen zur Generierung synthetischer Daten selten, was es schwierig macht zu verstehen, wo Verbesserungen herkommen und welche Engpässe bestehen. Wir schlagen vor, Algorithmen anhand der Zusammensetzung der von jedem Algorithmus generierten synthetischen Daten hinsichtlich Datenqualität, Diversität und Komplexität zu bewerten. Wir wählen diese drei Merkmale aufgrund ihrer Bedeutung in offenen Prozessen und des Einflusses, den jedes Merkmal auf die Fähigkeiten von nachgelagerten Modellen hat. Wir stellen fest, dass Qualität für die Generalisierung von Modellen innerhalb der Verteilung, Diversität für die Generalisierung außerhalb der Verteilung und Komplexität für beides wesentlich sind. Darüber hinaus betonen wir das Bestehen von Qualitäts-Diversitäts-Trade-offs in Trainingsdaten und die Auswirkungen auf die Leistung von Modellen. Anschließend untersuchen wir die Auswirkungen verschiedener Komponenten im Prozess der synthetischen Datenerzeugung auf jedes Datenmerkmal. Diese Untersuchung ermöglicht es uns, synthetische Datenerzeugungsalgorithmen anhand der von ihnen genutzten Komponenten und der daraus resultierenden Effekte auf die Datenzusammensetzung von QDC zu klassifizieren und zu vergleichen. Diese Analyse mündet in eine Diskussion über die Bedeutung des Ausgleichs von QDC in synthetischen Daten für effiziente Verstärkungslernalgorithmen und Selbstverbesserungsalgorithmen. Analog zu den QD-Trade-offs in Trainingsdaten existieren oft Trade-offs zwischen der Qualität der Modellausgabe und der Diversität der Ausgabe, die die Zusammensetzung synthetischer Daten beeinflussen. Wir stellen fest, dass viele Modelle derzeit nur hinsichtlich der Ausgabequalität bewertet und optimiert werden, was die Diversität der Ausgabe und das Potenzial für Selbstverbesserung einschränkt. Wir argumentieren, dass der Ausgleich dieser Trade-offs für die Entwicklung zukünftiger Selbstverbesserungsalgorithmen wesentlich ist und heben eine Reihe von Arbeiten hervor, die in diese Richtung Fortschritte machen.
Interne Merkmale von groß angelegten, vortrainierten Diffusionsmodellen haben sich kürzlich als leistungsstarke semantische Deskriptoren für eine Vielzahl von nachgelagerten Aufgaben erwiesen. Arbeiten, die diese Merkmale verwenden, müssen im Allgemeinen Rauschen zu Bildern hinzufügen, bevor sie sie durch das Modell leiten, um die semantischen Merkmale zu erhalten, da die Modelle nicht die nützlichsten Merkmale liefern, wenn ihnen Bilder mit wenig bis gar keinem Rauschen gegeben werden. Wir zeigen, dass dieses Rauschen einen entscheidenden Einfluss auf die Nützlichkeit dieser Merkmale hat, der nicht durch das Zusammenführen mit verschiedenen zufälligen Rauschen behoben werden kann. Wir beheben dieses Problem, indem wir eine leichte, unüberwachte Feinabstimmungsmethode einführen, die es Diffusions-Backbones ermöglicht, hochwertige, rauschfreie semantische Merkmale bereitzustellen. Wir zeigen, dass diese Merkmale in einer Vielzahl von Extraktionsaufbauten und nachgelagerten Aufgaben weitaus besser abschneiden als frühere Diffusionsmerkmale und sogar eine bessere Leistung bieten als ensemblebasierte Methoden zu einem Bruchteil der Kosten.
Durch die Fusion heterogener Open-Source-LLMs mit unterschiedlichen Architekturen und Größen können potenziell die Stärken verschiedener Modelle integriert werden. Bestehende Fusionsmethoden stehen jedoch vor erheblichen Herausforderungen, wie der Vokabularausrichtung und der Verschmelzung von Verteilungsmatrizen. Diese Verfahren sind nicht nur komplex, sondern neigen auch dazu, Rauschen und Fehler einzuführen. In diesem Artikel schlagen wir eine implizite Fusionsmethode, die Weighted-Reward Preference Optimization (WRPO), vor, die die Präferenzoptimierung zwischen den Quell-LLMs und dem Ziel-LLM nutzt, um ihre Fähigkeiten effektiv zu übertragen. WRPO beseitigt die Notwendigkeit der Vokabularausrichtung und der Matrixfusion und kann effizient skaliert werden, um verschiedene LLMs aufzunehmen. Um Verteilungsabweichungen zwischen den Quell- und Ziel-LLMs anzugehen, führt WRPO eine progressive Adaptionsstrategie ein, die allmählich die Abhängigkeit von bevorzugten Beispielen des Ziel-LLMs auf die Quell-LLMs verschiebt. Umfangreiche Experimente auf den Benchmarks MT-Bench, AlpacaEval-2 und Arena-Hard zeigen, dass WRPO konsistent bessere Leistungen erbringt als bestehende Wissensfusionsmethoden und verschiedene Feinabstimmungs-Baselines. Bei Anwendung auf das Zielmodell LLaMA3-8B-Instruct erzielt WRPO eine längenkontrollierte Gewinnrate von 55,9% gegenüber GPT-4-Preview-1106 auf AlpacaEval-2 und eine Gewinnrate von 46,2% gegenüber GPT-4-0314 auf Arena-Hard. Unser Code ist verfügbar unter https://github.com/SLIT-AI/WRPO.
Text dient als Schlüsselsteuersignal in der Videogenerierung aufgrund seines narrativen Charakters. Um Textbeschreibungen in Videoclips umzusetzen, greifen aktuelle Videodiffusionsmodelle auf Merkmale von Textcodierern zurück, haben jedoch Schwierigkeiten mit der begrenzten Textverständnis. Der jüngste Erfolg großer Sprachmodelle (LLMs) zeigt die Leistungsfähigkeit von Decoder-only-Transformern, die drei klare Vorteile für die Text-zu-Video (T2V)-Generierung bieten, nämlich präzises Textverständnis aufgrund der überlegenen Skalierbarkeit, Vorstellungskraft über den Eingabetext hinaus durch die Vorhersage des nächsten Tokens und Flexibilität, um Benutzerinteressen durch Anleitungsoptimierung zu priorisieren. Dennoch hindert die aus den beiden verschiedenen Textmodellierungsparadigmen resultierende Merkmalsverteilungslücke die direkte Verwendung von LLMs in etablierten T2V-Modellen. Diese Arbeit befasst sich mit dieser Herausforderung mit Mimir, einem End-to-End-Trainingsrahmen, der einen sorgfältig angepassten Token-Fuser zur Harmonisierung der Ausgaben von Textcodierern und LLMs bietet. Ein solches Design ermöglicht es dem T2V-Modell, die gelernten Videoprioritäten voll auszuschöpfen und gleichzeitig die textbezogene Fähigkeit von LLMs zu nutzen. Umfangreiche quantitative und qualitative Ergebnisse zeigen die Wirksamkeit von Mimir bei der Erzeugung hochwertiger Videos mit ausgezeichnetem Textverständnis, insbesondere bei der Verarbeitung kurzer Bildunterschriften und der Verwaltung von Bewegungen. Projektseite: https://lucaria-academy.github.io/Mimir/
Große multimodale Modelle (LMMs) haben mit dem Fortschritt des Instruktions-Tunings bedeutende Durchbrüche erzielt. Allerdings haben bestehende Modelle Schwierigkeiten mit dem Verständnis von Bildern und Videos auf einer holistischen Ebene, da sie noch immer mit einem instanzbasierten Verständnis kämpfen, das eine nuanciertere Erfassung und Ausrichtung erfordert. Das instanzbasierte Verständnis ist entscheidend, da es sich auf die spezifischen Elemente konzentriert, an denen wir am meisten interessiert sind. Interessanterweise zeigen bestehende Arbeiten, dass die hochmodernen LMMs starke Fähigkeiten im instanzbasierten Verständnis aufweisen, wenn sie mit expliziten visuellen Hinweisen versehen werden. Angeregt durch diese Erkenntnisse führen wir eine automatisierte Annotationspipeline ein, die von GPT-4o unterstützt wird, um instanzbasierte Informationen aus Bildern und Videos durch explizite visuelle Aufforderungen für eine gezielte Anleitung zu extrahieren. Aufbauend auf dieser Pipeline schlagen wir Inst-IT vor, eine Lösung zur Verbesserung von LMMs im instanzbasierten Verständnis durch explizite visuelle Aufforderungen für das Instruktions-Tuning. Inst-IT besteht aus einem Benchmark zur Diagnose des multimodalen instanzbasierten Verständnisses, einem umfangreichen Instruktions-Tuning-Datensatz und einem kontinuierlichen Instruktions-Tuning-Trainingsparadigma, um die räumlich-zeitlichen instanzbasierten Verständnisfähigkeiten bestehender LMMs effektiv zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Modelle mit der Unterstützung von Inst-IT nicht nur eine herausragende Leistung auf dem Inst-IT-Benchmark erzielen, sondern auch signifikante Verbesserungen in verschiedenen generischen Bild- und Videoverständnis-Benchmarks zeigen. Dies verdeutlicht, dass unser Datensatz nicht nur das instanzbasierte Verständnis verbessert, sondern auch die allgemeinen Fähigkeiten des generischen Bild- und Videoverständnisses stärkt.
Wir stellen LumiNet vor, eine neuartige Architektur, die auf generativen Modellen und latenten intrinsischen Repräsentationen zur effektiven Lichtübertragung basiert. Unter Verwendung eines Ausgangsbildes und eines Zielbeleuchtungsbildes synthetisiert LumiNet eine neu beleuchtete Version der Ausgangsszene, die die Beleuchtung des Ziels einfängt. Unser Ansatz leistet zwei wesentliche Beiträge: eine Datenkuratierungsstrategie aus dem auf StyleGAN basierenden Beleuchtungsmodell für unser Training und ein modifiziertes, auf Diffusion basierendes ControlNet, das sowohl latente intrinsische Eigenschaften des Ausgangsbildes als auch latente extrinsische Eigenschaften des Zielbildes verarbeitet. Wir verbessern die Lichtübertragung weiter durch einen erlernten Adapter (MLP), der die latenten extrinsischen Eigenschaften des Ziels mittels Kreuz-Aufmerksamkeit und Feinabstimmung einspeist. Im Gegensatz zum traditionellen ControlNet, das Bilder mit bedingten Karten aus einer einzelnen Szene generiert, verarbeitet LumiNet latente Repräsentationen aus zwei verschiedenen Bildern – wobei Geometrie und Albedo aus der Quelle erhalten bleiben, während Beleuchtungseigenschaften vom Ziel übertragen werden. Experimente zeigen, dass unsere Methode komplexe Lichtphänomene wie Spitzlichter und indirekte Beleuchtung erfolgreich über Szenen mit unterschiedlichen räumlichen Layouts und Materialien hinweg überträgt und bestehende Ansätze bei anspruchsvollen Innenraumszenen unter Verwendung nur von Bildern als Eingabe übertrifft.