Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper untersuchen wir die zugrunde liegenden Faktoren, die möglicherweise die mathematischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) verbessern. Wir argumentieren, dass das Skalierungsgesetz für mathematische Schlussfolgerungsfähigkeiten in modernen LLMs bei weitem noch nicht gesättigt ist und heben hervor, wie die Qualität des Modells mit zunehmender Datenmenge steigt. Um diese Behauptung zu unterstützen, stellen wir die Skywork-Math Modellreihe vor, die durch überwachtes Feintuning (SFT) an gängigen 7B LLMs unter Verwendung unseres vorgeschlagenen 2,5M-Instanzen Skywork-MathQA Datensatzes trainiert wurde. Skywork-Math 7B hat beeindruckende Genauigkeiten von 51,2% im Wettbewerbsniveau MATH Benchmark und 83,9% im GSM8K Benchmark nur mit SFT-Daten erreicht und übertrifft damit eine frühere Version von GPT-4 in Mathematik. Die überlegene Leistung der Skywork-Math Modelle trägt zu unseren neuartigen zweistufigen Datensynthese- und Modell-SFT-Pipelines bei, die drei verschiedene Augmentierungsmethoden und einen vielfältigen Satz von Ausgangsproblemen umfassen, um sowohl die Quantität als auch die Qualität des Skywork-MathQA Datensatzes über verschiedene Schwierigkeitsgrade hinweg sicherzustellen. Am wichtigsten ist, dass wir mehrere praktische Erkenntnisse liefern, um die mathematischen Schlussfolgerungsfähigkeiten in LLMs für Forschungs- und Industrieanwendungen zu verbessern.
Wir haben bedeutende Fortschritte bei der Entwicklung grundlegender Modelle für die Videodiffusion erzielt. Da diese Modelle mit groß angelegten unüberwachten Daten trainiert werden, ist es entscheidend geworden, diese Modelle an spezifische nachgelagerte Aufgaben anzupassen. Die Anpassung dieser Modelle durch überwachtes Feintuning erfordert das Sammeln von Ziel-Datensätzen von Videos, was herausfordernd und mühsam ist. In dieser Arbeit verwenden wir vorab trainierte Belohnungsmodelle, die durch Präferenzen auf der Grundlage leistungsstarker visueller diskriminativer Modelle gelernt wurden, um Videodiffusionsmodelle anzupassen. Diese Modelle enthalten dichte Gradienteninformationen in Bezug auf generierte RGB-Pixel, was für effizientes Lernen in komplexen Suchräumen wie Videos entscheidend ist. Wir zeigen, dass das Rückpropagieren von Gradienten von diesen Belohnungsmodellen auf ein Videodiffusionsmodell eine rechen- und probeneffiziente Ausrichtung des Videodiffusionsmodells ermöglichen kann. Wir präsentieren Ergebnisse über eine Vielzahl von Belohnungsmodellen und Videodiffusionsmodellen und zeigen, dass unser Ansatz in Bezug auf Belohnungsabfragen und Berechnungen viel effizienter lernen kann als frühere gradientenfreie Ansätze. Unser Code, Modellgewichte und weitere Visualisierungen sind unter https://vader-vid.github.io verfügbar.
Obwohl die meisten aktuellen großen multimodalen Modelle (LMMs) bereits Fotos von natürlichen Szenen und Porträts verstehen können, bleibt ihr Verständnis von abstrakten Bildern wie Diagrammen, Karten oder Layouts und ihre visuellen Schlussfolgerungsfähigkeiten recht rudimentär. Sie haben oft Schwierigkeiten mit einfachen täglichen Aufgaben wie dem Ablesen der Uhrzeit von einer Uhr, dem Verstehen eines Flussdiagramms oder der Planung einer Route mithilfe einer Straßenkarte. Vor diesem Hintergrund entwerfen wir ein multimodales Selbstinstrukt, das große Sprachmodelle und ihre Kodierungsfähigkeiten nutzt, um massive abstrakte Bilder und visuelle Schlussfolgerungsanweisungen über tägliche Szenarien zu synthetisieren. Unsere Strategie schafft mühelos einen multimodalen Benchmark mit 11.193 Anweisungen für acht visuelle Szenarien: Diagramme, Tabellen, simulierte Karten, Dashboards, Flussdiagramme, Beziehungsgraphen, Grundrisse und visuelle Rätsel. Dieser Benchmark, der mit einfachen Linien und geometrischen Elementen erstellt wurde, deckt die Schwächen der meisten fortschrittlichen LMMs wie Claude-3.5-Sonnet und GPT-4o im Verständnis abstrakter Bilder, räumlicher Beziehungsüberlegung und visueller Elementinduktion auf. Darüber hinaus feinabstimmen wir zur Überprüfung der Qualität unserer synthetischen Daten ein LMM unter Verwendung von 62.476 synthetischen Anweisungen für Diagramme, Tabellen und Straßenkarten. Die Ergebnisse zeigen eine verbesserte Diagrammverständnis- und Kartennavigationsleistung und zeigen auch potenzielle Vorteile für andere visuelle Schlussfolgerungsaufgaben auf. Unser Code ist verfügbar unter: https://github.com/zwq2018/Multi-modal-Self-instruct.
Multi-Modale Große Sprachmodelle (MMGSM) sind kürzlich als ein bedeutender Schwerpunkt in der akademischen Welt und der Industrie aufgetaucht. Trotz ihrer Effizienz in allgemeinen multi-modalen Szenarien sind die mathematischen Problemlösungsfähigkeiten in visuellen Kontexten noch unzureichend erforscht. Wir identifizieren drei Schlüsselbereiche innerhalb von MMGSM, die verbessert werden müssen: visuelle Kodierung von mathematischen Diagrammen, Diagramm-Sprachausrichtung und mathematische Schlussfolgerungsfähigkeiten. Dies führt zu einem dringenden Bedarf an umfangreichen, hochwertigen Daten und Trainingspipelines im Bereich der visuellen Mathematik. In diesem Artikel schlagen wir MAVIS vor, das erste MAthematical VISual Instruktionstuning-Paradigma für MMGSM, das eine Reihe von mathematischen visuellen Datensätzen und spezialisierten MMGSM umfasst. Um die drei Probleme anzugehen, enthält MAVIS drei aufeinander aufbauende Trainingsstufen von Grund auf. Zunächst kuratieren wir MAVIS-Caption, bestehend aus 558K Diagramm-Beschriftungspaaren, um einen mathematikspezifischen Vision-Encoder (CLIP-Math) durch kontrastives Lernen zu feinabstimmen, der für eine verbesserte visuelle Kodierung von Diagrammen maßgeschneidert ist. Zweitens nutzen wir MAVIS-Caption, um den CLIP-Math mit einem großen Sprachmodell (LLM) durch eine Projektionsschicht auszurichten, um die Vision-Sprach-Ausrichtung in mathematischen Bereichen zu verbessern. Drittens führen wir MAVIS-Instruct ein, das 900K sorgfältig gesammelte und annotierte visuelle mathematische Probleme umfasst, die angenommen werden, um schließlich das MMGSM für robuste mathematische Schlussfolgerungsfähigkeiten zu instruktionstunen. In MAVIS-Instruct integrieren wir vollständige Chain-of-Thought (CoT) Begründungen für jedes Problem und minimieren textuelle Redundanz, wodurch das Modell auf die visuellen Elemente konzentriert wird. Daten und Modelle sind unter https://github.com/ZrrSkywalker/MAVIS veröffentlicht.
Das Training von großen Sprachmodellen (Large Language Models, LLMs) ist aufgrund der großen Anzahl von Parametern und zugehörigen Optimierungszuständen speicherintensiv. GaLore, eine kürzlich entwickelte Methode, reduziert den Speicherverbrauch, indem Gewichtsgradienten in einen niederdimensionalen Unterraum projiziert werden, ohne die Leistung zu beeinträchtigen. GaLore stützt sich jedoch auf zeitaufwändige Singular Value Decomposition (SVD)-Operationen, um den Unterraum zu identifizieren, und die häufigen Aktualisierungen des Unterraums führen zu erheblichem zusätzlichem Trainingsaufwand. Darüber hinaus bietet GaLore im Vergleich zu LoRA in zugänglicheren Feinabstimmungsszenarien nur minimale Verbesserungen in Genauigkeit und Effizienz. Um diese Einschränkungen zu überwinden, stellen wir Q-GaLore vor, einen neuartigen Ansatz, der den Speicherverbrauch erheblich reduziert, indem Quantisierung und niederdimensionale Projektion kombiniert werden und damit die Vorteile von GaLore übertrifft. Unsere Methode basiert auf zwei wesentlichen Beobachtungen: (i) der Gradienten-Unterraum zeigt vielfältige Eigenschaften, wobei einige Schichten früh im Training konvergieren, während andere häufigen Änderungen unterliegen; (ii) die Projektionsmatrizen sind gegenüber Quantisierung mit wenigen Bits sehr widerstandsfähig. Unter Nutzung dieser Erkenntnisse aktualisiert Q-GaLore den Gradienten-Unterraum adaptiv basierend auf seinen Konvergenzstatistiken und erzielt vergleichbare Leistung, während die Anzahl der SVD-Operationen signifikant reduziert wird. Wir halten die Projektionsmatrizen im INT4-Format und die Gewichte im INT8-Format, wobei stochastisches Runden zur Erfassung akkumulierter Gradienteninformationen integriert wird. Dieser Ansatz ermöglicht eine hochpräzise Trainingsbahn unter Verwendung nur von Gewichten mit geringer Präzision. Wir zeigen, dass Q-GaLore eine äußerst wettbewerbsfähige Leistung bei außergewöhnlicher Speichereffizienz erzielt. Beim Vortraining erleichtert Q-GaLore das Training eines LLaMA-7B-Modells von Grund auf auf einer einzigen NVIDIA RTX 4060 Ti mit nur 16 GB Speicher. Bei der Feinabstimmung reduziert es den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore, während es QLoRA bei gleichem Speicheraufwand kontinuierlich übertrifft.
Wir schlagen eine neuartige hybride Mamba-Transformer-Grundstruktur vor, die als MambaVision bezeichnet wird und speziell für Anwendungen im Bereich der Bildverarbeitung entwickelt wurde. Unser Hauptbeitrag umfasst die Neugestaltung der Mamba-Formulierung, um ihre Fähigkeit zur effizienten Modellierung visueller Merkmale zu verbessern. Darüber hinaus führen wir eine umfassende Ablationsstudie zur Machbarkeit der Integration von Vision-Transformern (ViT) mit Mamba durch. Unsere Ergebnisse zeigen, dass die Ausstattung der Mamba-Architektur mit mehreren Self-Attention-Blöcken in den finalen Schichten die Modellierungskapazität erheblich verbessert, um weitreichende räumliche Abhängigkeiten zu erfassen. Basierend auf unseren Erkenntnissen stellen wir eine Familie von MambaVision-Modellen mit einer hierarchischen Architektur vor, um verschiedenen Designkriterien gerecht zu werden. Für die Bildklassifizierung auf dem ImageNet-1K-Datensatz erreichen MambaVision-Modellvarianten eine neue State-of-the-Art (SOTA)-Leistung in Bezug auf die Top-1-Genauigkeit und die Bildverarbeitungsgeschwindigkeit. In nachgelagerten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantische Segmentierung auf den Datensätzen MS COCO und ADE20K übertrifft MambaVision vergleichbar große Grundstrukturen und zeigt eine günstigere Leistung. Code: https://github.com/NVlabs/MambaVision.
Eine schnell wachsende Anzahl von Anwendungen verlässt sich auf eine kleine Anzahl von Closed-Source-Sprachmodellen (LMs). Diese Abhängigkeit könnte neue Sicherheitsrisiken mit sich bringen, wenn LMs Selbsterkennungsfähigkeiten entwickeln. Inspiriert von menschlichen Identitätsverifizierungsmethoden schlagen wir einen neuartigen Ansatz zur Bewertung der Selbsterkennung in LMs vor, indem wir vom Modell generierte "Sicherheitsfragen" verwenden. Unser Test kann extern durchgeführt werden, um die neuesten Modelle im Auge zu behalten, da er keinen Zugriff auf interne Modellparameter oder Ausgabewahrscheinlichkeiten erfordert. Wir verwenden unseren Test, um die Selbsterkennung in zehn der derzeit öffentlich verfügbaren leistungsstärksten Open- und Closed-Source-LMs zu untersuchen. Unsere umfangreichen Experimente ergaben keine empirischen Beweise für eine allgemeine oder konsistente Selbsterkennung in irgendeinem untersuchten LM. Stattdessen legen unsere Ergebnisse nahe, dass LMs, wenn sie vor die Wahl gestellt werden, versuchen, die "beste" Antwort auszuwählen, unabhängig von ihrer Herkunft. Darüber hinaus finden wir Hinweise darauf, dass Präferenzen bezüglich der Modelle, die die besten Antworten liefern, konsistent sind. Wir decken zusätzlich neue Erkenntnisse über Positionsbias-Überlegungen für LMs in Multiple-Choice-Umgebungen auf.
Mit den bemerkenswerten Fortschritten in der Bildgenerierung und der Generierung von offenen Texten hat die Erstellung von ineinander verschachtelten Bild-Text-Inhalten ein zunehmend faszinierendes Gebiet erreicht. Die multimodale Geschichtenerzeugung, gekennzeichnet durch die Produktion von narrativen Texten und lebendigen Bildern auf ineinander abgestimmte Weise, hat sich als eine wertvolle und praktische Aufgabe mit breiten Anwendungen herauskristallisiert. Diese Aufgabe birgt jedoch erhebliche Herausforderungen, da sie das Verständnis des komplexen Zusammenspiels zwischen Texten und Bildern erfordert sowie die Fähigkeit, lange Sequenzen kohärenter, kontextuell relevanter Texte und Visuals zu generieren. In dieser Arbeit schlagen wir SEED-Story vor, eine neuartige Methode, die ein Multimodales Großes Sprachmodell (MLLM) nutzt, um erweiterte multimodale Geschichten zu generieren. Unser Modell, aufgebaut auf der leistungsstarken Verständnisfähigkeit des MLLM, sagt Text-Token sowie visuelle Token vorher, die anschließend mit einem angepassten visuellen Detokenisierer verarbeitet werden, um Bilder mit konsistenten Charakteren und Stilen zu erzeugen. Wir schlagen außerdem einen multimodalen Aufmerksamkeits-Sinkmechanismus vor, um die Generierung von Geschichten mit bis zu 25 Sequenzen (nur 10 für das Training) auf äußerst effiziente Weise in einem stark autoregressiven Modus zu ermöglichen. Darüber hinaus präsentieren wir einen umfangreichen und hochauflösenden Datensatz namens StoryStream zur Schulung unseres Modells und zur quantitativen Bewertung der Aufgabe der multimodalen Geschichtenerzeugung in verschiedenen Aspekten.
Eine außergewöhnliche mathematische Denkfähigkeit ist eine der Schlüsselfunktionen, die die Leistung großer Sprachmodelle (LLMs) demonstrieren. Wie man die mathematischen Fähigkeiten von LLMs umfassend definiert und bewertet und sogar die Benutzererfahrung in realen Szenarien widerspiegelt, hat sich als kritische Fragestellung herauskristallisiert. Aktuelle Benchmarks konzentrieren sich hauptsächlich auf Problemlösungsfähigkeiten, was ein erhebliches Risiko von Modellüberanpassung darstellt und echte mathematische Denkfähigkeiten nicht genau repräsentiert. In diesem Artikel argumentieren wir, dass ein Modell, das ein Problem wirklich versteht, robust und problemlos auf eine Vielzahl von Aufgaben angewendet werden sollte. Aus diesem Antrieb heraus führen wir MATHCHECK ein, eine gut durchdachte Checkliste zur Prüfung der Aufgabenverallgemeinerung und der Denkrobustheit sowie ein automatisches Tool zur effizienten Generierung von Checklisten. MATHCHECK umfasst mehrere mathematische Denkaufgaben und Robustheitstesttypen, um eine umfassende Bewertung sowohl der mathematischen Denkfähigkeit als auch des Verhaltens zu erleichtern. Unter Verwendung von MATHCHECK entwickeln wir MATHCHECK-GSM und MATHCHECK-GEO zur Bewertung mathematischer textueller Denkfähigkeiten bzw. multimodaler Denkfähigkeiten und dienen als verbesserte Versionen von Benchmarks wie GSM8k, GeoQA, UniGeo und Geometry3K. Wir setzen MATHCHECK-GSM und MATHCHECK-GEO ein, um über 20 LLMs und 11 MLLMs zu bewerten und ihre umfassenden mathematischen Denkfähigkeiten zu beurteilen. Unsere Ergebnisse zeigen, dass während Spitzen-LLMs wie GPT-4o weiterhin in verschiedenen Fähigkeiten auf der Checkliste herausragen, viele andere Modellfamilien einen signifikanten Rückgang aufweisen. Weitere Experimente deuten darauf hin, dass MATHCHECK im Vergleich zu traditionellen mathematischen Benchmarks die wahren mathematischen Fähigkeiten besser widerspiegelt und mathematische Intelligenz linearer darstellt, wodurch unser Design unterstützt wird. Mit unserem MATHCHECK können wir leicht detaillierte Verhaltensanalysen durchführen, um Modelle eingehend zu untersuchen.
Bestehende Multimodale Große Sprachmodelle (MLLMs) betonen zunehmend die komplexe Erfassung verschiedener visueller Elemente, einschließlich mehrerer Objekte, Textinformationen und räumlicher Beziehungen. Ihre Entwicklung für eine umfassende visuelle Wahrnehmung hängt von der Verfügbarkeit hochwertiger Bild-Text-Datensätze ab, die vielfältige visuelle Elemente und durchgängige Bildbeschreibungen bieten. Die Knappheit solcher hyperdetaillierten Datensätze behindert derzeit jedoch den Fortschritt innerhalb der MLLM-Gemeinschaft. Das Engpassproblem resultiert aus den begrenzten Wahrnehmungsfähigkeiten aktueller Bildunterschrift-Engines, die nicht in der Lage sind, vollständige und genaue Annotationen bereitzustellen. Um die Spitzenforschung von MLLMs zur umfassenden visuellen Wahrnehmung zu erleichtern, schlagen wir daher die Perzeptuelle Fusion vor, die eine kostengünstige, aber äußerst effektive Bildunterschrift-Engine für vollständige und präzise Bildbeschreibungen verwendet. Konkret integriert die Perzeptuelle Fusion verschiedene Wahrnehmungsexperten als Bildprioritäten, um explizite Informationen über visuelle Elemente bereitzustellen, und übernimmt ein effizientes MLLM als zentralen Dreh- und Angelpunkt, um die Wahrnehmungsfähigkeiten fortschrittlicher MLLMs nachzuahmen. Wir wählen sorgfältig 1M hochrepräsentative Bilder aus dem unsortierten LAION-Datensatz aus und generieren dichte Beschreibungen mithilfe unserer Engine, genannt DenseFusion-1M. Umfangreiche Experimente bestätigen, dass unsere Engine ihre Gegenstücke übertrifft, wobei der resultierende Datensatz die Wahrnehmungs- und Kognitionsfähigkeiten bestehender MLLMs über verschiedene Vision-Sprach-Benchmarks hinweg signifikant verbessert, insbesondere bei hochauflösenden Bildern als Eingaben. Der Datensatz und der Code sind öffentlich unter https://github.com/baaivision/DenseFusion verfügbar.
Ein erheblicher Schwerpunkt wurde darauf gelegt, große Sprachmodelle (LLMs) mit verschiedenen Tools zur Entwicklung von Agenten mit allgemeiner Verwendung zu integrieren. Dies stellt eine Herausforderung für die Tool-Nutzungsfähigkeiten von LLMs dar. Es gibt jedoch offensichtliche Lücken zwischen bestehenden Tool-Nutzungsbewertungen und realen Szenarien. Aktuelle Bewertungen verwenden oft KI-generierte Abfragen, Einzelschrittaufgaben, Dummy-Tools und ausschließlich textbasierte Interaktionen, was es nicht effektiv ermöglicht, die Problemlösungsfähigkeiten der Agenten in realen Szenarien aufzuzeigen. Um dies anzugehen, schlagen wir GTA vor, einen Benchmark für General Tool Agents, der drei Hauptaspekte umfasst: (i) Echte Benutzerabfragen: von Menschen geschriebene Abfragen mit einfachen realen Zielen, aber impliziter Tool-Nutzung, die vom LLM erfordern, die geeigneten Tools zu überlegen und die Lösungsschritte zu planen. (ii) Tatsächlich bereitgestellte Tools: eine Bewertungsplattform mit Tools aus den Kategorien Wahrnehmung, Operation, Logik und Kreativität zur Bewertung der tatsächlichen Leistung der Agenten bei der Aufgabenausführung. (iii) Echte multimodale Eingaben: authentische Bilddateien wie räumliche Szenen, Screenshots von Webseiten, Tabellen, Code-Schnipsel und gedruckte/handschriftliche Materialien, die als Abfragekontexte verwendet werden, um eng mit realen Szenarien in Einklang zu stehen. Wir entwerfen 229 realweltliche Aufgaben und ausführbare Tool-Ketten zur Bewertung gängiger LLMs. Unsere Ergebnisse zeigen, dass reale Benutzerabfragen für bestehende LLMs eine Herausforderung darstellen, wobei GPT-4 weniger als 50 % der Aufgaben abschließt und die meisten LLMs unter 25 % erreichen. Diese Bewertung zeigt die Engpässe in den Tool-Nutzungsfähigkeiten aktueller LLMs in realen Szenarien auf, was zukünftige Richtungen zur Weiterentwicklung von Agenten mit allgemeiner Verwendung aufzeigt. Der Code und das Datenset sind verfügbar unter https://github.com/open-compass/GTA.
Wir präsentieren MELLE, einen neuartigen Ansatz für sprachsynthetische Text-zu-Sprache-Modelle (TTS) basierend auf kontinuierlichen Token. MELLE generiert autoregressiv kontinuierliche Mel-Spektrogramm-Frames direkt aus dem Textzustand, umgeht dabei die Notwendigkeit der Vektorquantisierung, die ursprünglich für die Audiokompression konzipiert wurde und im Vergleich zu Mel-Spektrogrammen die Treue beeinträchtigt. Insbesondere (i) verwenden wir anstelle des Kreuzentropieverlusts einen Regressionsverlust mit einer vorgeschlagenen Spektrogramm-Flussverlustfunktion, um die Wahrscheinlichkeitsverteilung der kontinuierlichen Token zu modellieren. (ii) Wir haben die Variationsschätzung in MELLE integriert, um Abtastmechanismen zu erleichtern, wodurch die Ausgabenvielfalt und die Modellrobustheit verbessert werden. Experimente zeigen, dass MELLE im Vergleich zu den zweistufigen Codec-Sprachmodellen VALL-E und seinen Varianten Robustheitsprobleme mildert, indem es die inhärenten Mängel des Abtastens diskreter Codes vermeidet, überlegene Leistung in mehreren Metriken erzielt und vor allem ein schlankeres Paradigma bietet. Besuchen Sie https://aka.ms/melle für Demos unserer Arbeit.
In den letzten Jahren wurde eine rasante Entwicklung großer Sprachmodelle (LLMs) beobachtet. Basierend auf den leistungsstarken LLMs erweitern Multi-Modal LLMs (MLLMs) die Modalität von Text auf ein breiteres Spektrum von Domänen und ziehen aufgrund des breiteren Anwendungsspektrums weitreichende Aufmerksamkeit auf sich. Da LLMs und MLLMs auf riesige Mengen an Modellparametern und Daten angewiesen sind, um aufkommende Fähigkeiten zu erreichen, erfährt die Bedeutung von Daten eine zunehmend weitreichende Aufmerksamkeit und Anerkennung. Bei der Verfolgung und Analyse aktueller datenorientierter Arbeiten für MLLMs stellen wir fest, dass die Entwicklung von Modellen und Daten keine zwei separaten Wege sind, sondern miteinander verbunden. Einerseits tragen umfangreichere und qualitativ hochwertige Daten zu einer besseren Leistung von MLLMs bei, andererseits können MLLMs die Entwicklung von Daten erleichtern. Die gemeinsame Entwicklung von Multi-Modal-Daten und MLLMs erfordert einen klaren Überblick darüber, 1) in welcher Entwicklungsphase von MLLMs spezifische datenzentrierte Ansätze eingesetzt werden können, um welche Fähigkeiten zu verbessern, und 2) durch die Nutzung welcher Fähigkeiten und welche Rollen Modelle zur Multi-Modal-Daten beitragen können. Um die Daten-Modell-Ko-Entwicklung für die MLLM-Gemeinschaft zu fördern, überprüfen wir systematisch bestehende Arbeiten im Zusammenhang mit MLLMs aus der Perspektive der Daten-Modell-Ko-Entwicklung. Ein regelmäßig gepflegtes Projekt im Zusammenhang mit dieser Umfrage ist unter folgendem Link zugänglich: https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Neuronale Netzwerke (NN) erzielen bemerkenswerte Ergebnisse in verschiedenen Aufgaben, weisen jedoch einige Schlüsselmerkmale nicht auf: Interpretierbarkeit, Unterstützung für kategoriale Merkmale und leichte Implementierungen, die für Edge-Geräte geeignet sind. Während laufende Bemühungen darauf abzielen, diese Herausforderungen anzugehen, erfüllen Gradient Boosting Trees (GBT) von Natur aus diese Anforderungen. Als Ergebnis sind GBTs zur bevorzugten Methode für überwachtes Lernen in vielen realen Anwendungen und Wettbewerben geworden. Ihre Anwendung in Szenarien des Online-Lernens, insbesondere im Reinforcement Learning (RL), war jedoch begrenzt. In dieser Arbeit überbrücken wir diese Lücke, indem wir Gradient-Boosting RL (GBRL) einführen, ein Framework, das die Vorteile von GBT auf den RL-Bereich ausweitet. Unter Verwendung des GBRL-Frameworks implementieren wir verschiedene Actor-Critic-Algorithmen und vergleichen ihre Leistung mit ihren NN-Gegenstücken. Inspiriert von gemeinsamen Grundstrukturen in NN führen wir einen Ansatz des Baumteilens für Richtlinien und Wertefunktionen mit unterschiedlichen Lernraten ein, um die Effizienz des Lernens über Millionen von Interaktionen zu steigern. GBRL erzielt eine wettbewerbsfähige Leistung in einer Vielzahl von Aufgaben und zeichnet sich in Domänen mit strukturierten oder kategorialen Merkmalen aus. Darüber hinaus präsentieren wir eine leistungsstarke, GPU-beschleunigte Implementierung, die nahtlos in weit verbreitete RL-Bibliotheken integriert ist (verfügbar unter https://github.com/NVlabs/gbrl). GBRL erweitert das Toolkit für RL-Praktiker und zeigt die Machbarkeit und das Potenzial von GBT innerhalb des RL-Paradigmas auf, insbesondere in Domänen, die durch strukturierte oder kategoriale Merkmale gekennzeichnet sind.
Große Sprachmodelle haben eine bemerkenswerte Wirksamkeit bei der Generierung von Streaming-Daten wie Text und Audio gezeigt, dank ihres zeitlich unidirektionalen Aufmerksamkeitsmechanismus, der Korrelationen zwischen dem aktuellen Token und vorherigen Tokens modelliert. Allerdings ist das Video-Streaming trotz des wachsenden Bedarfs an der Echtzeit-Videobearbeitung noch weitgehend unerforscht. Modernste Videodiffusionsmodelle nutzen eine bidirektionale zeitliche Aufmerksamkeit, um die Korrelationen zwischen dem aktuellen Frame und allen umgebenden (einschließlich zukünftigen) Frames zu modellieren, was sie daran hindert, Streaming-Videos zu verarbeiten. Um dieses Problem zu lösen, präsentieren wir Live2Diff, den ersten Versuch, ein Videodiffusionsmodell mit unidirektionaler zeitlicher Aufmerksamkeit zu entwerfen, das speziell auf die Echtzeit-Übersetzung von Streaming-Videos abzielt. Im Vergleich zu früheren Arbeiten gewährleistet unser Ansatz zeitliche Konsistenz und Geschmeidigkeit, indem er den aktuellen Frame mit seinen Vorgängern und einigen anfänglichen Aufwärmframes in Beziehung setzt, ohne zukünftige Frames einzubeziehen. Darüber hinaus verwenden wir ein äußerst effizientes Rauschunterdrückungsschema mit einem KV-Cache-Mechanismus und Pipelining, um die Echtzeit-Übersetzung von Streaming-Videos bei interaktiven Bildraten zu erleichtern. Umfangreiche Experimente zeigen die Wirksamkeit des vorgeschlagenen Aufmerksamkeitsmechanismus und des Pipelines, die frühere Methoden hinsichtlich zeitlicher Geschmeidigkeit und/oder Effizienz übertreffen.
Die Bewegungsmodellierung ist entscheidend für die auf Fluss basierende Video Frame Interpolation (VFI). Bestehende Paradigmen berücksichtigen entweder lineare Kombinationen von bidirektionalen Flüssen oder sagen direkt bilaterale Flüsse für gegebene Zeitstempel vorher, ohne günstige Bewegungsprioritäten zu erforschen, wodurch die Fähigkeit zur effektiven Modellierung von raumzeitlicher Dynamik in Videos aus der realen Welt fehlt. Um diese Einschränkung anzugehen, führen wir in dieser Studie Generalisierbare Implizite Bewegungsmodellierung (GIMM) ein, einen neuartigen und effektiven Ansatz zur Bewegungsmodellierung für VFI. Speziell entwerfen wir, um GIMM als effektives Bewegungsmodellierungsparadigma zu ermöglichen, eine Bewegungskodierungspipeline, um raumzeitliche Bewegungen latent aus bidirektionalen Flüssen zu modellieren, die von vorab trainierten Flussschätzern extrahiert wurden und somit Eingangsspezifische Bewegungsprioritäten effektiv darstellen. Dann sagen wir implizit beliebige Zeitstempel-optische Flüsse innerhalb von zwei benachbarten Eingabeframes über ein adaptives, koordinatenbasiertes neuronales Netzwerk vorher, wobei raumzeitliche Koordinaten und Bewegungslatenz als Eingaben dienen. Unser GIMM kann nahtlos in bestehende auf Fluss basierende VFI-Arbeiten integriert werden, ohne weitere Modifikationen. Wir zeigen, dass GIMM auf den VFI-Benchmarks besser abschneidet als der aktuelle Stand der Technik.
Top-Down-Bird's-Eye-View (BEV)-Karten sind aufgrund ihrer Vielfalt und Flexibilität für nachgelagerte Aufgaben eine beliebte Darstellung für die Bodenroboter-Navigation. Während neuere Methoden vielversprechend sind, um BEV-Karten aus First-Person-View (FPV)-Bildern vorherzusagen, ist ihre Generalisierbarkeit auf kleine Regionen beschränkt, die von aktuellen autonom fahrenden Fahrzeug-basierten Datensätzen erfasst wurden. In diesem Zusammenhang zeigen wir, dass ein skalierbarerer Ansatz zur generalisierbaren Kartenprädiktion durch die Verwendung von zwei groß angelegten, crowd-sourcenden Kartierungsplattformen ermöglicht werden kann: Mapillary für FPV-Bilder und OpenStreetMap für BEV-semantische Karten. Wir stellen Map It Anywhere (MIA) vor, eine Daten-Engine, die eine nahtlose Kuratierung und Modellierung von gelabelten Kartenprädiktionsdaten aus bestehenden Open-Source-Kartenplattformen ermöglicht. Unter Verwendung unserer MIA-Daten-Engine zeigen wir die Leichtigkeit der automatischen Sammlung eines Datensatzes von 1,2 Millionen Paaren von FPV-Bildern & BEV-Karten, die vielfältige Geografien, Landschaften, Umweltfaktoren, Kameramodelle und Erfassungsszenarien umfassen. Wir trainieren zudem ein einfaches, kameramodellunabhängiges Modell auf diesen Daten für die BEV-Kartenprädiktion. Umfangreiche Evaluationen unter Verwendung etablierter Benchmarks und unseres Datensatzes zeigen, dass die von MIA kuratierten Daten eine effektive Vortrainierung für generalisierbare BEV-Kartenprädiktion ermöglichen, wobei die Zero-Shot-Performance die Baselines, die auf bestehenden Datensätzen trainiert wurden, um 35% übertrifft. Unsere Analyse hebt das Potenzial der Verwendung von groß angelegten öffentlichen Karten für die Entwicklung und Prüfung von generalisierbarer BEV-Wahrnehmung hervor und ebnet den Weg für eine robustere autonome Navigation.
In diesem Perspektivenpapier führen wir das Konzept der Spezialisierten Generalistischen Künstlichen Intelligenz (SGAI oder einfach SGI) als entscheidenden Meilenstein auf dem Weg zur Künstlichen Allgemeinen Intelligenz (AGI) ein. Im Vergleich zum direkten Skalieren allgemeiner Fähigkeiten wird SGI definiert als KI, die sich auf mindestens eine Aufgabe spezialisiert, menschliche Experten übertrifft und gleichzeitig allgemeine Fähigkeiten beibehält. Dieser Verschmelzungspfad ermöglicht es SGI, schnell hochwertige Bereiche zu erreichen. Wir kategorisieren SGI in drei Stufen basierend auf dem Beherrschungsgrad professioneller Fähigkeiten und der Leistung der Allgemeinheit. Darüber hinaus diskutieren wir die Notwendigkeit von SGI bei der Bewältigung von Problemen im Zusammenhang mit großen Sprachmodellen, wie deren unzureichende Allgemeinheit, spezialisierte Fähigkeiten, Unsicherheit in der Innovation und praktische Anwendungen. Des Weiteren schlagen wir einen konzeptionellen Rahmen für die Entwicklung von SGI vor, der die Stärken der kognitiven Verarbeitung von System 1 und 2 integriert. Dieser Rahmen umfasst drei Schichten und vier Schlüsselkomponenten, die sich auf die Verbesserung individueller Fähigkeiten und die Förderung der kollaborativen Evolution konzentrieren. Wir schließen mit einer Zusammenfassung der potenziellen Herausforderungen und der Empfehlung zukünftiger Richtungen. Wir hoffen, dass die vorgeschlagene SGI Einblicke in weitere Forschung und Anwendungen zur Erreichung von AGI bieten wird.
Obwohl das Feld der 3D-Szenenrekonstruktion von NeRFs dominiert wird aufgrund ihrer fotorealistischen Qualität, ist kürzlich 3D-Gauß-Splatting (3DGS) aufgetaucht, das eine ähnliche Qualität mit Echtzeit-Renderinggeschwindigkeiten bietet. Beide Methoden zeichnen sich hauptsächlich in gut kontrollierten 3D-Szenen aus, während in-the-wild-Daten - gekennzeichnet durch Verdeckungen, dynamische Objekte und unterschiedliche Beleuchtung - eine Herausforderung darstellen. NeRFs können sich leicht an solche Bedingungen anpassen durch pro-Bild-Einbettungsvektoren, aber 3DGS hat Schwierigkeiten aufgrund seiner expliziten Darstellung und des Mangels an gemeinsamen Parametern. Um dies zu lösen, stellen wir WildGaussians vor, einen neuartigen Ansatz zur Bewältigung von Verdeckungen und Erscheinungsänderungen mit 3DGS. Durch die Nutzung robuster DINO-Merkmale und die Integration eines Erscheinungsmodellierungsmoduls innerhalb von 3DGS erzielt unsere Methode Spitzenresultate. Wir zeigen, dass WildGaussians die Echtzeit-Renderinggeschwindigkeit von 3DGS erreicht und sowohl 3DGS als auch NeRF-Baselines bei der Bewältigung von in-the-wild-Daten übertrifft, und das alles innerhalb eines einfachen architektonischen Rahmens.
Wir schlagen OmniNOCS vor, ein groß angelegtes monokulares Datenset mit 3D-normalisierten Objektkoordinatenraum (NOCS) Karten, Objektmasken und 3D-Begrenzungsrahmenannotationen für Innen- und Außenszenen. OmniNOCS umfasst 20-mal mehr Objektklassen und 200-mal mehr Instanzen als bestehende NOCS-Datensets (NOCS-Real275, Wild6D). Wir nutzen OmniNOCS, um ein neuartiges, auf Transformer basierendes monokulares NOCS-Vorhersagemodell (NOCSformer) zu trainieren, das präzise NOCS, Instanzmasken und Posen aus 2D-Objekterkennungen über verschiedene Klassen hinweg vorhersagen kann. Es handelt sich um das erste NOCS-Modell, das sich auf ein breites Spektrum von Klassen verallgemeinern kann, wenn es mit 2D-Boxen konfrontiert wird. Wir evaluieren unser Modell anhand der Aufgabe der 3D-orientierten Begrenzungsrahmenvorhersage, bei der es vergleichbare Ergebnisse zu modernsten 3D-Erkennungsmethoden wie Cube R-CNN erzielt. Im Gegensatz zu anderen 3D-Erkennungsmethoden liefert unser Modell auch detaillierte und präzise 3D-Objektform und Segmentierung. Wir schlagen einen neuartigen Benchmark für die Aufgabe der NOCS-Vorhersage basierend auf OmniNOCS vor, der als nützliche Grundlinie für zukünftige Arbeiten in diesem Bereich dienen soll. Unser Datenset und Code werden auf der Projektwebsite verfügbar sein: https://omninocs.github.io.
Die Aufgabe der personalisierten Bewertung von Bildästhetik zielt darauf ab, ästhetische Bewertungsmodelle an individuelle Vorlieben anzupassen, basierend auf nur wenigen vom Benutzer bereitgestellten Eingaben. Die Skalierbarkeit und Generalisierungsfähigkeiten der aktuellen Ansätze sind jedoch erheblich eingeschränkt durch ihre Abhängigkeit von einer teuren kuratierten Datenbank. Um diese langjährige Skalierbarkeitsherausforderung zu überwinden, präsentieren wir einen einzigartigen Ansatz, der auf leicht verfügbaren Datenbanken für die allgemeine Bewertung der Bildästhetik und die Bewertung der Bildqualität basiert. Konkret betrachten wir jede Datenbank als eine eigenständige Regressionsaufgabe für Bildbewertungen, die unterschiedliche Grade an Personalisierungspotenzial aufweisen. Durch die Bestimmung optimaler Kombinationen von Aufgabenvektoren, die spezifische Merkmale jeder Datenbank repräsentieren, erstellen wir erfolgreich personalisierte Modelle für Individuen. Dieser Ansatz, der die Integration mehrerer Modelle ermöglicht, erlaubt es uns, eine beträchtliche Menge an Daten zu nutzen. Unsere umfangreichen Experimente zeigen die Wirksamkeit unseres Ansatzes bei der Verallgemeinerung auf zuvor nicht gesehene Domänen - eine Herausforderung, an der frühere Ansätze zu scheitern drohten - und machen ihn daher äußerst anwendbar für reale Szenarien. Unser neuartiger Ansatz trägt signifikant zur Weiterentwicklung des Feldes bei, indem er skalierbare Lösungen für die personalisierte ästhetische Bewertung bietet und hohe Standards für zukünftige Forschung etabliert.