Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Feld der Vision-Language-Modelle (VLMs), die Bilder und Texte als Eingabe erhalten und Texte ausgeben, entwickelt sich rasant weiter und hat noch keine Einigkeit zu mehreren Schlüsselfragen des Entwicklungsprozesses erzielt, darunter Daten, Architektur und Trainingsmethoden. Dieses Papier kann als Anleitung zum Aufbau eines VLMs betrachtet werden. Wir beginnen mit einer umfassenden Übersicht über die aktuellen State-of-the-Art-Ansätze, heben die Stärken und Schwächen jedes Ansatzes hervor, gehen auf die Hauptprobleme in diesem Bereich ein und schlagen vielversprechende Forschungsrichtungen für unteruntersuchte Bereiche vor. Anschließend führen wir die praktischen Schritte zum Aufbau von Idefics3-8B durch, einem leistungsstarken VLM, das seinen Vorgänger Idefics2-8B signifikant übertrifft, während es effizient trainiert wird, ausschließlich auf offenen Datensätzen basiert und eine unkomplizierte Pipeline verwendet. Diese Schritte umfassen die Erstellung von Docmatix, einem Datensatz zur Verbesserung der Dokumentenverständnisfähigkeiten, der 240-mal größer ist als zuvor verfügbare Datensätze. Wir veröffentlichen das Modell zusammen mit den für sein Training erstellten Datensätzen.
Die umfassende Bewertung von Multimodalen Großen Sprachmodellen (MLLMs) hat in letzter Zeit weitreichende Aufmerksamkeit in der Forschungsgemeinschaft erregt. Allerdings beobachten wir, dass bestehende Benchmarks mehrere gemeinsame Barrieren aufweisen, die es schwierig machen, die signifikanten Herausforderungen zu messen, denen Modelle in der realen Welt gegenüberstehen, darunter: 1) eine geringe Datenskala führt zu einer großen Leistungsvarianz; 2) die Abhängigkeit von modellbasierten Annotationen führt zu eingeschränkter Datenqualität; 3) unzureichende Aufgabenschwierigkeit, insbesondere verursacht durch die begrenzte Bildauflösung. Um diese Probleme anzugehen, führen wir MME-RealWorld ein. Konkret sammeln wir über 300.000 Bilder aus öffentlichen Datensätzen und dem Internet, filtern 13.366 hochwertige Bilder für die Annotation heraus. Dies erfordert die Bemühungen von 25 professionellen Annotatoren und 7 Experten in MLLMs, die zu 29.429 Frage-Antwort-Paaren beitragen, die 43 Teilaufgaben in 5 realen Szenarien abdecken, die selbst für Menschen äußerst herausfordernd sind. Soweit wir wissen, ist MME-RealWorld der bisher größte manuell annotierte Benchmark, der die höchste Auflösung und einen gezielten Fokus auf Anwendungen in der realen Welt bietet. Wir führen außerdem eine gründliche Bewertung durch, an der 28 prominente MLLMs wie GPT-4o, Gemini 1.5 Pro und Claude 3.5 Sonnet beteiligt sind. Unsere Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten mit unseren Benchmarks haben, bei denen keines von ihnen eine Genauigkeit von 60% erreicht. Die Herausforderungen beim Erfassen von hochauflösenden Bildern und dem Verständnis komplexer realer Szenarien bleiben dringende Probleme, die angegangen werden müssen. Die Daten und der Bewertungscode sind unter https://mme-realworld.github.io/ verfügbar.
Die Generierung von 3D-immersiven Szenen ist eine anspruchsvolle, aber entscheidende Aufgabe in der Computer Vision und Grafik. Eine gewünschte virtuelle 3D-Szene sollte 1) eine omnidirektionale Ansichtskonsistenz aufweisen und 2) eine freie Erkundung in komplexen Szenenhierarchien ermöglichen. Bestehende Methoden stützen sich entweder auf die sukzessive Szenenerweiterung über Inpainting oder verwenden Panoramadarstellung, um große FOV-Szenenumgebungen darzustellen. Die generierte Szene leidet jedoch unter semantischer Drift während der Erweiterung und kann keine Okklusion zwischen Szenenhierarchien handhaben. Um diese Herausforderungen anzugehen, führen wir LayerPano3D ein, ein neuartiges Framework für die Generierung von vollständigen, erkundbaren panoramischen 3D-Szenen aus einer einzigen Texteingabe. Unser Schlüsselerkenntnis besteht darin, eine Referenz-2D-Panorama in mehrere Ebenen auf unterschiedlichen Tiefenebenen zu zerlegen, wobei jede Ebene den unentdeckten Raum aus den Referenzansichten über eine Diffusionspriorität offenbart. LayerPano3D umfasst mehrere dedizierte Designs: 1) Wir führen eine neuartige textgesteuerte Ankeransichtssynthesepipeline für die hochwertige, konsistente Panoramagenerierung ein. 2) Wir sind Wegbereiter für das Schicht-3D-Panorama als zugrunde liegende Darstellung zur Verwaltung komplexer Szenenhierarchien und heben es in 3D-Gaußscheiben an, um detaillierte 360-Grad-omnidirektionale Szenen mit uneingeschränkten Betrachtungspfaden zu erzeugen. Umfangreiche Experimente zeigen, dass unser Framework 3D-panoramische Szenen auf dem neuesten Stand sowohl in der Vollansichtskonsistenz als auch in der immersiven Erkundungserfahrung generiert. Wir sind der Meinung, dass LayerPano3D das Potenzial hat, die Erstellung von 3D-panoramischen Szenen mit zahlreichen Anwendungen voranzutreiben.
Die quadratische Rechenkomplexität im Selbst-Aufmerksamkeitsmechanismus von beliebten Transformer-Architekturen stellt erhebliche Herausforderungen für das Training und die Inferenz dar, insbesondere in Bezug auf Effizienz und Speicheranforderungen. Zur Bewältigung dieser Herausforderungen stellt dieses Papier eine neuartige schnelle Berechnungsmethode für den Gradientenabgleich in mehrschichtigen Transformer-Modellen vor. Unser Ansatz ermöglicht die Berechnung von Gradienten für das gesamte mehrschichtige Transformer-Modell in nahezu linearer Zeit n^{1+o(1)}, wobei n die Eingabesequenzlänge ist. Dieser Durchbruch reduziert signifikant den Rechenaufwand, der mit der traditionellen quadratischen Zeitkomplexität verbunden ist. Unsere Theorie gilt für jede Verlustfunktion und bewahrt einen begrenzten Approximationsfehler über das gesamte Modell hinweg. Darüber hinaus kann unsere Analyse auch dann bestehen, wenn das mehrschichtige Transformer-Modell viele praktische Untermodule enthält, wie Restverbindungen, kausale Masken und Mehrkopfaufmerksamkeit. Indem wir die Effizienz der Gradientenberechnung in großen Sprachmodellen verbessern, hoffen wir, dass unsere Arbeit das effektivere Training und die Bereitstellung von Sprachmodellen mit langem Kontext auf der Grundlage unserer theoretischen Ergebnisse erleichtern wird.
In letzter Zeit haben eine Vielzahl von speicher-effizienten LLM-Trainingsalgorithmen erheblich an Popularität gewonnen. Diese Methoden nutzen die Niedrigrangstruktur der Gradienten, um die Optimiererzustände mithilfe einer Projektionsmatrix in einen Unterraum zu projizieren, die durch Singulärwertzerlegung (SVD) gefunden wird. Die Konvergenz dieser Algorithmen hängt jedoch stark von den Aktualisierungsregeln ihrer Projektionsmatrix ab. In dieser Arbeit bieten wir die erste Konvergenzgarantie für beliebige Aktualisierungsregeln der Projektionsmatrix. Diese Garantie ist im Allgemeinen auf Optimierer anwendbar, die mit Hamiltonian Descent analysiert werden können, einschließlich der häufigsten wie LION und Adam. Inspiriert von unserem theoretischen Verständnis schlagen wir Online Subspace Descent vor, eine neue Familie von Subspace-Descent-Optimierern ohne SVD. Anstatt die Projektionsmatrix mit Eigenvektoren zu aktualisieren, aktualisiert Online Subspace Descent die Projektionsmatrix mit Online-PCA. Online Subspace Descent ist flexibel und führt nur minimale zusätzliche Belastung beim Training ein. Wir zeigen, dass Online Subspace Descent für die Aufgabe des Pretrainings von LLaMA-Modellen mit 60M bis 7B Parametern auf dem C4-Datensatz eine niedrigere Perplexität und eine bessere Leistung bei nachgelagerten Aufgaben erzielt als modernste Niedrigrang-Trainingsmethoden in verschiedenen Einstellungen und den Abstand zu vollrangigen Baselines verringert.
Die sprachgesteuerte 3D-Bewegungssynthese zielt darauf ab, lebensechte Animationen basierend auf menschlicher Sprache zu erstellen, mit potenziellen Anwendungen in der virtuellen Realität, bei Spielen und in der Filmproduktion. Bestehende Ansätze stützen sich ausschließlich auf Sprachaudio zur Bewegungserzeugung, was zu ungenauen und unflexiblen Syntheseergebnissen führt. Um dieses Problem zu mildern, stellen wir eine neuartige textgesteuerte 3D-Humanbewegungssynthesemethode vor, genannt T3M. Im Gegensatz zu traditionellen Ansätzen ermöglicht T3M eine präzise Steuerung der Bewegungssynthese über textuelle Eingaben, was den Grad der Vielfalt und Benutzeranpassung erhöht. Die Experimentergebnisse zeigen, dass T3M sowohl in quantitativen Metriken als auch in qualitativen Bewertungen die state-of-the-art Methoden deutlich übertreffen kann. Wir haben unseren Code öffentlich unter https://github.com/Gloria2tt/T3M.git veröffentlicht.
Die benutzerdefinierte Videogenerierung zielt darauf ab, hochwertige Videos zu erstellen, die durch Texteingaben und Referenzbilder des Subjekts geleitet werden. Da sie jedoch nur auf statischen Bildern trainiert ist, stört der Feinabstimmungsprozess des Subjekt-Lernens die Fähigkeiten von Videodiffusionsmodellen (VDMs), Konzepte zu kombinieren und Bewegungen zu generieren. Um diese Fähigkeiten wiederherzustellen, verwenden einige Methoden zusätzliche Videos, die dem Hinweis ähnlich sind, um das Modell feinabzustimmen oder zu leiten. Dies erfordert häufige Änderungen der Leitvideos und sogar eine Neuanpassung des Modells bei der Generierung unterschiedlicher Bewegungen, was für Benutzer sehr umständlich ist. In diesem Papier schlagen wir CustomCrafter vor, ein neuartiges Framework, das die Fähigkeiten der Modell-Bewegungsgenerierung und Konzeptkombination ohne zusätzliches Video und Feinabstimmung zur Wiederherstellung bewahrt. Um die Fähigkeit der Konzeptkombination zu bewahren, entwerfen wir ein Plug-and-Play-Modul, um einige Parameter in VDMs zu aktualisieren, was die Fähigkeit des Modells verbessert, Erscheinungsdetails zu erfassen und die Fähigkeit der Konzeptkombinationen für neue Subjekte zu verbessern. Bei der Bewegungsgenerierung haben wir beobachtet, dass VDMs dazu neigen, die Bewegung des Videos im frühen Stadium der Rauschunterdrückung wiederherzustellen, während sie sich im späteren Stadium auf die Wiederherstellung von Subjektdetails konzentrieren. Daher schlagen wir eine dynamische gewichtete Video-Sampling-Strategie vor. Durch die Steckbarkeit unserer Subjektlernmodule reduzieren wir den Einfluss dieses Moduls auf die Bewegungsgenerierung im frühen Stadium der Rauschunterdrückung, um die Fähigkeit zur Generierung von Bewegungen von VDMs zu bewahren. Im späteren Stadium der Rauschunterdrückung stellen wir dieses Modul wieder her, um die Erscheinungsdetails des spezifizierten Subjekts zu reparieren und so die Treue des Erscheinungsbilds des Subjekts zu gewährleisten. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu früheren Methoden eine signifikante Verbesserung aufweist.
Hochauflösende Vision-Language-Modelle (VLMs) werden weit verbreitet in multimodalen Aufgaben eingesetzt, um die Genauigkeit zu verbessern, indem detaillierte Bildinformationen erhalten bleiben. Diese Modelle erzeugen jedoch oft übermäßige visuelle Tokens aufgrund der Kodierung mehrerer Partitionen des Eingabebildes. Die Verarbeitung dieser übermäßigen visuellen Tokens ist rechnerisch anspruchsvoll, insbesondere in ressourcenbeschränkten Umgebungen mit handelsüblichen GPUs. Um hochauflösende Bilder zu unterstützen und gleichzeitig Ressourcenbeschränkungen einzuhalten, schlagen wir High-Resolution Early Dropping (HiRED) vor, ein Token-Dropping-Schema, das innerhalb eines festen Token-Budgets vor der Phase des Large Language Models (LLM) arbeitet. HiRED kann in bestehende hochauflösende VLMs auf Plug-and-Play-Basis integriert werden, da es kein zusätzliches Training erfordert und dennoch eine überlegene Genauigkeit beibehält. Wir nutzen strategisch die Aufmerksamkeit des Vision-Encoders in den ersten Schichten, um den visuellen Inhalt jeder Bildpartition zu bewerten und das Token-Budget entsprechend zuzuweisen. Anschließend wählen wir unter Verwendung der Aufmerksamkeit in der letzten Schicht die wichtigsten visuellen Tokens aus jeder Partition innerhalb des zugewiesenen Budgets aus und verwerfen den Rest. Empirisch gesehen erhöht HiRED mit einem Token-Budget von 20% bei Anwendung auf LLaVA-Next-7B auf einer NVIDIA TESLA P40 GPU die Token-Generierungs-Durchsatzrate um 4,7, reduziert die Latenz bei der Generierung des ersten Tokens um 15 Sekunden und spart 2,3 GB GPU-Speicher für eine einzelne Inferenz.
Federated Learning (FL) bietet einen vielversprechenden Ansatz für kollaboratives maschinelles Lernen über verteilte Geräte hinweg. Allerdings wird seine Akzeptanz durch die Komplexität beim Aufbau zuverlässiger Kommunikationsarchitekturen und den Bedarf an Fachwissen sowohl im maschinellen Lernen als auch in der Netzwerkprogrammierung behindert. Dieses Papier präsentiert eine umfassende Lösung, die die Orchestrierung von FL-Aufgaben vereinfacht und Intent-basierte Automatisierung integriert. Wir entwickeln eine benutzerfreundliche Webanwendung, die den Federated Averaging (FedAvg) Algorithmus unterstützt und es Benutzern ermöglicht, Parameter über eine intuitive Benutzeroberfläche zu konfigurieren. Die Backend-Lösung verwaltet effizient die Kommunikation zwischen dem Parameter-Server und den Edge-Nodes. Wir implementieren auch Modellkomprimierungs- und Zeitplanungsalgorithmen, um die Leistung von FL zu optimieren. Darüber hinaus erforschen wir die Intent-basierte Automatisierung in FL mithilfe eines feinabgestimmten Sprachmodells (LLM), das auf einem maßgeschneiderten Datensatz trainiert wurde, um Benutzern die Durchführung von FL-Aufgaben mithilfe von High-Level-Promptings zu ermöglichen. Wir beobachten, dass die auf LLM basierende automatisierte Lösung eine vergleichbare Testgenauigkeit wie die Standard-Weblösung erreicht, während die übertragenen Bytes um bis zu 64% und die CPU-Zeit um bis zu 46% für FL-Aufgaben reduziert werden. Außerdem nutzen wir die Suche nach neuronalen Architekturen (NAS) und die Hyperparameteroptimierung (HPO) mithilfe von LLM, um die Leistung zu verbessern. Wir beobachten, dass durch die Verwendung dieses Ansatzes die Testgenauigkeit für die durchgeführten FL-Aufgaben um 10-20% verbessert werden kann.
Die 3D-Gauß-Splatting (3DGS) erzielt schnelle und hochwertige Renderings durch die Verwendung zahlreicher kleiner Gaußscher Funktionen, was zu einer erheblichen Speichernutzung führt. Diese Abhängigkeit von einer großen Anzahl von Gaußschen Funktionen beschränkt die Anwendung von 3DGS-basierten Modellen auf kostengünstigen Geräten aufgrund von Speicherbeschränkungen. Wenn jedoch einfach die Anzahl der Gaußschen Funktionen reduziert wird, um Geräte mit geringerer Speicherkapazität anzupassen, führt dies im Vergleich zur Qualität, die auf High-End-Hardware erzielt werden kann, zu einer minderwertigen Qualität. Um diesem Mangel an Skalierbarkeit entgegenzuwirken, schlagen wir vor, ein Flexibles Level of Detail (FLoD) in 3DGS zu integrieren, um eine Szene je nach Hardwarefähigkeiten in verschiedenen Detailebenen rendern zu können. Während bestehende 3DGSs mit LoD sich auf detaillierte Rekonstruktionen konzentrieren, bietet unsere Methode Rekonstruktionen unter Verwendung einer geringen Anzahl von Gaußschen Funktionen für reduzierte Speicheranforderungen und einer größeren Anzahl von Gaußschen Funktionen für mehr Details. Experimente zeigen unsere verschiedenen Rendering-Optionen mit Abwägungen zwischen Rendering-Qualität und Speicherbedarf auf, wodurch Echtzeit-Rendering bei unterschiedlichen Speicherbeschränkungen ermöglicht wird. Darüber hinaus zeigen wir, dass unsere Methode auf verschiedene 3DGS-Frameworks verallgemeinert werden kann, was auf ihr Potenzial für die Integration in zukünftige Spitzenentwicklungen hinweist. Projektseite: https://3dgs-flod.github.io/flod.github.io/
Mit den Fortschritten bei Large Language Models (LLMs) ist ein wichtiger Anwendungsfall entstanden, nämlich die Abfrage von Datenbanken in einfachem Englisch, wobei Benutzerfragen in ausführbare Datenbankabfragen übersetzt werden, was sich signifikant verbessert hat. Allerdings weisen realitätsnahe Datensätze oft eine Vielzahl von Attributen und komplexen Werten auf, was die Aufgabe der LLMs erschwert, relevante Spalten oder Werte aus natürlichsprachlichen Abfragen genau zu identifizieren. Traditionelle Methoden können die Größe und Komplexität der Datensätze nicht vollständig an die LLM weitergeben. Um diese Herausforderungen anzugehen, schlagen wir ein neuartiges Framework vor, das Full-Text Search (FTS) auf der Eingabetabelle nutzt. Dieser Ansatz ermöglicht nicht nur die präzise Erkennung spezifischer Werte und Spalten, sondern begrenzt auch den Suchraum für Sprachmodelle, wodurch die Abfragegenauigkeit verbessert wird. Darüber hinaus unterstützt er eine benutzerdefinierte Autovervollständigungsfunktion, die Abfragen basierend auf den Daten in der Tabelle vorschlägt. Diese Integration verfeinert signifikant die Interaktion zwischen dem Benutzer und komplexen Datensätzen und bietet eine ausgefeilte Lösung für die Einschränkungen, denen die aktuellen Tabellenabfragefähigkeiten gegenüberstehen. Diese Arbeit wird von einer Anwendung für Mac- und Windows-Plattformen begleitet, die die Leser selbst mit ihren eigenen Daten ausprobieren können.
Die Generierung von Bildern durch Konditionierung erleichtert nahtloses Bearbeiten und die Erstellung fotorealistischer Bilder. Allerdings stellen die Konditionierung auf verrauschte oder Out-of-Distribution (OoD) Bilder erhebliche Herausforderungen dar, insbesondere bei der Balance zwischen Treue zum Eingang und Realismus des Ausgangs. Wir stellen Confident Ordinary Differential Editing (CODE) vor, einen neuartigen Ansatz für die Bildsynthese, der OoD-Leitungsbilder effektiv behandelt. Durch die Nutzung eines Diffusionsmodells als generatives Prior verbessert CODE Bilder durch scorebasierte Aktualisierungen entlang der Wahrscheinlichkeitsfluss-Ordinary Differential Equation (ODE)-Trajektorie. Diese Methode erfordert kein aufgabenspezifisches Training, keine handgefertigten Module und keine Annahmen über die Korruptionen, die das Konditionierungsbild beeinflussen. Unsere Methode ist mit jedem Diffusionsmodell kompatibel. An der Schnittstelle von bedingter Bildgenerierung und blinder Bildrestaurierung positioniert, arbeitet CODE vollständig blind und verlässt sich ausschließlich auf ein vortrainiertes generatives Modell. Unsere Methode stellt einen alternativen Ansatz zur blinden Restaurierung dar: Anstatt ein spezifisches Ground-Truth-Bild basierend auf Annahmen über die zugrunde liegende Korruption anzustreben, zielt CODE darauf ab, die Wahrscheinlichkeit des Eingangsbildes zu erhöhen, während die Treue beibehalten wird. Dies führt zu dem wahrscheinlichsten In-Distribution-Bild um das Eingangsbild herum. Unsere Beiträge sind zweifach. Erstens führt CODE eine neuartige Bearbeitungsmethode auf Basis von ODE ein, die im Vergleich zu ihrem SDE-basierten Gegenstück eine verbesserte Kontrolle, Realismus und Treue bietet. Zweitens führen wir eine Intervall-basierte Clip-Methode ein, die die Effektivität von CODE verbessert, indem sie es ermöglicht, bestimmte Pixel oder Informationen zu ignorieren und so den Restaurierungsprozess auf blinde Weise zu verbessern. Experimentelle Ergebnisse zeigen die Wirksamkeit von CODE gegenüber bestehenden Methoden, insbesondere in Szenarien mit schwerer Degradierung oder OoD-Eingaben.