Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Multi-Agenten-Verstärkungslernen (MARL) zeigt signifikante Fortschritte bei der Lösung kooperativer und kompetitiver Multi-Agenten-Probleme in verschiedenen Umgebungen. Eine der Hauptherausforderungen bei MARL besteht darin, die explizite Vorhersage des Verhaltens der Agenten zur Erreichung von Kooperation sicherzustellen. Zur Lösung dieses Problems schlagen wir den Shared Recurrent Memory Transformer (SRMT) vor, der Memory Transformer auf Multi-Agenten-Einstellungen erweitert, indem er individuelle Arbeitsgedächtnisse zusammenführt und global überträgt, wodurch Agenten Informationen implizit austauschen und ihre Aktionen koordinieren können. Wir evaluieren SRMT am teilweise beobachtbaren Multi-Agenten-Pfadfindungsproblem in einer einfachen Engpass-Navigationsaufgabe, bei der Agenten einen schmalen Korridor passieren müssen, sowie an einem Benchmark-Set von POGEMA-Aufgaben. In der Engpass-Aufgabe übertrifft SRMT konsequent eine Vielzahl von Verstärkungslern-Baselines, insbesondere bei spärlichen Belohnungen, und generalisiert effektiv auf längere Korridore als die während des Trainings gesehenen. Auf POGEMA-Karten, einschließlich Labyrinthe, Zufall und MovingAI, ist SRMT wettbewerbsfähig mit aktuellen MARL-, Hybrid- und planungsbasierten Algorithmen. Diese Ergebnisse legen nahe, dass die Integration von gemeinsamem wiederkehrendem Gedächtnis in die auf Transformer basierenden Architekturen die Koordination in dezentralen Multi-Agenten-Systemen verbessern kann. Der Quellcode für Training und Evaluation ist auf GitHub verfügbar: https://github.com/Aloriosa/srmt.
Die Videogenerierung hat durch korrigierte Flusstechniken signifikante Fortschritte erzielt, aber Probleme wie ungleichmäßige Bewegungen und Missabstimmungen zwischen Videos und Anweisungen bestehen weiterhin. In dieser Arbeit entwickeln wir eine systematische Pipeline, die menschliches Feedback nutzt, um diese Probleme zu mildern und das Videogenerierungsmodell zu verfeinern. Konkret beginnen wir mit dem Aufbau eines umfangreichen menschlichen Präferenzdatensatzes, der sich auf moderne Videogenerierungsmodelle konzentriert und paarweise Annotationen über mehrere Dimensionen einbezieht. Anschließend führen wir VideoReward ein, ein multidimensionales Videoprämienmodell, und untersuchen, wie Annotationen und verschiedene Designentscheidungen seine Belohnungseffektivität beeinflussen. Aus einer vereinheitlichten Verstärkungslernperspektive, die darauf abzielt, die Belohnung mit KL-Regularisierung zu maximieren, führen wir drei Ausrichtungsalgorithmen für Flussmodelle ein, indem wir diejenigen von Diffusionsmodellen erweitern. Diese umfassen zwei Trainingsstrategien: direkte Präferenzoptimierung für Fluss (Flow-DPO) und belohnungsgewichtete Regression für Fluss (Flow-RWR), sowie eine Technik zur Inferenzzeit, Flow-NRG, die die Belohnungsanleitung direkt auf rauschige Videos anwendet. Experimentelle Ergebnisse zeigen, dass VideoReward signifikant besser abschneidet als bestehende Belohnungsmodelle und dass Flow-DPO eine überlegene Leistung im Vergleich zu sowohl Flow-RWR als auch Standard-Supervised-Finetuning-Methoden aufweist. Darüber hinaus ermöglicht es Flow-NRG Benutzern, benutzerdefinierte Gewichte für mehrere Ziele während der Inferenz zuzuweisen, um individuellen Anforderungen an die Videoqualität gerecht zu werden. Projektseite: https://gongyeliu.github.io/videoalign.
Wir stellen Sigma vor, ein effizientes großes Sprachmodell, das spezialisiert ist auf das Systemdomäne, ausgestattet mit einer neuartigen Architektur, einschließlich DiffQKV-Aufmerksamkeit, und vortrainiert auf unseren sorgfältig gesammelten Systemdomänendaten. DiffQKV-Aufmerksamkeit verbessert signifikant die Inferenzeffizienz von Sigma, indem sie die Query (Q), Key (K) und Value (V) Komponenten im Aufmerksamkeitsmechanismus differentiell optimiert, basierend auf ihren unterschiedlichen Auswirkungen auf die Modellleistung und Effizienzindikatoren. Speziell führen wir (1) umfangreiche Experimente durch, die die unterschiedliche Sensitivität des Modells gegenüber der Kompression der K- und V-Komponenten zeigen, was zur Entwicklung von differentiell komprimierten KV führt, und (2) schlagen wir eine erweiterte Q vor, um die Q-Kopf-Dimension zu erweitern, was die Repräsentationskapazität des Modells mit minimalen Auswirkungen auf die Inferenzgeschwindigkeit verbessert. Rigorose theoretische und empirische Analysen zeigen, dass DiffQKV-Aufmerksamkeit die Effizienz signifikant verbessert, mit einer Verbesserung der Inferenzgeschwindigkeit um bis zu 33,36% gegenüber der herkömmlichen gruppierten Query-Aufmerksamkeit (GQA) in Szenarien mit langem Kontext. Wir trainieren Sigma auf 6T Token aus verschiedenen Quellen, einschließlich 19,5B Systemdomänendaten, die wir sorgfältig sammeln, und 1T Token synthetisierter und umgeschriebener Daten. In allgemeinen Domänen erreicht Sigma vergleichbare Leistungen wie andere State-of-the-Art-Modelle. In der Systemdomäne stellen wir den ersten umfassenden Benchmark AIMicius vor, bei dem Sigma über alle Aufgaben hinweg bemerkenswerte Leistungen zeigt und GPT-4 signifikant übertrifft, mit einer absoluten Verbesserung von bis zu 52,5%.
Die Gedankenkette (Chain-of-Thought, CoT) -Argumentation wurde in großen Modellen ausführlich erforscht, um komplexe Verständnisaufgaben zu bewältigen. Es bleibt jedoch eine offene Frage, ob solche Strategien auf die Überprüfung und Verstärkung von Szenarien zur Bildgenerierung angewendet werden können. In diesem Papier bieten wir die erste umfassende Untersuchung des Potenzials der CoT-Argumentation zur Verbesserung der autoregressiven Bildgenerierung. Wir konzentrieren uns auf drei Techniken: Skalierung der Testzeitberechnung für die Überprüfung, Ausrichtung der Modellpräferenzen mit der Direkten Präferenzoptimierung (Direct Preference Optimization, DPO) und Integration dieser Techniken für ergänzende Effekte. Unsere Ergebnisse zeigen, dass diese Ansätze effektiv angepasst und kombiniert werden können, um die Leistung der Bildgenerierung erheblich zu verbessern. Angesichts der entscheidenden Rolle von Belohnungsmodellen in unseren Ergebnissen schlagen wir das Potential Assessment Reward Model (PARM) und PARM++ vor, die speziell für die autoregressive Bildgenerierung entwickelt wurden. PARM bewertet adaptiv jeden Generierungsschritt durch einen Potentialbewertungsansatz, der die Stärken bestehender Belohnungsmodelle vereint, und PARM++ führt zusätzlich einen Reflexionsmechanismus ein, um das generierte unbefriedigende Bild selbst zu korrigieren. Unter Verwendung unserer untersuchten Argumentationsstrategien verbessern wir ein Basismodell, Show-o, um überlegene Ergebnisse zu erzielen, mit einer signifikanten Verbesserung um +24 % im GenEval-Benchmark, was Stable Diffusion 3 um +15 % übertrifft. Wir hoffen, dass unsere Studie einzigartige Einblicke bietet und einen neuen Weg für die Integration von CoT-Argumentation in die autoregressive Bildgenerierung ebnet. Der Code und die Modelle sind unter https://github.com/ZiyuGuo99/Image-Generation-CoT verfügbar.
Menschen erwerben Wissen durch drei kognitive Phasen: Informationswahrnehmung, Wissensverständnis und Anpassung des Wissens zur Lösung neuer Probleme. Videos dienen als effektives Medium für diesen Lernprozess und erleichtern das Durchlaufen dieser kognitiven Phasen. Allerdings versagen bestehende Videobenchmarks dabei, die Fähigkeiten zur Wissensaneignung in großen multimodalen Modellen systematisch zu bewerten. Um diese Lücke zu schließen, stellen wir Video-MMMU vor, einen multimodalen, multidisziplinären Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zu bewerten, Wissen aus Videos zu erwerben und zu nutzen. Video-MMMU umfasst eine kuratierte Sammlung von 300 Expertenvideos und 900 menschen-annotierten Fragen aus sechs Disziplinen, die die Wissensaneignung durch aufeinander abgestimmte Frage-Antwort-Paare in den Phasen Wahrnehmung, Verständnis und Anpassung bewerten. Ein vorgeschlagenes Metrik zur Wissensgewinnung, ΔWissen, quantifiziert die Leistungsverbesserung nach dem Ansehen des Videos. Die Evaluation von LMMs zeigt einen steilen Leistungsabfall, wenn die kognitiven Anforderungen steigen, und verdeutlicht eine signifikante Kluft zwischen menschlicher und Modell-Wissensaneignung, was die Notwendigkeit von Methoden zur Verbesserung der Fähigkeit von LMMs, aus Videos zu lernen und sich anzupassen, unterstreicht.
Trotz signifikanter Fortschritte bei großen multimodalen Video-Modellen (Video-LMMs) bleibt die effektive zeitliche Verankerung in Langvideos eine Herausforderung für bestehende Modelle. Um diese Einschränkung zu adressieren, schlagen wir die Temporale Präferenzoptimierung (TPO) vor, ein neuartiges Post-Training-Framework, das entwickelt wurde, um die zeitliche Verankerungsfähigkeiten von Video-LMMs durch Präferenzlernen zu verbessern. TPO übernimmt einen Selbstlernansatz, der es den Modellen ermöglicht, zwischen gut verankerten und weniger genauen zeitlichen Antworten zu unterscheiden, indem kuratierte Präferenzdatensätze auf zwei Granularitäten genutzt werden: lokale zeitliche Verankerung, die sich auf spezifische Videosegmente konzentriert, und umfassende zeitliche Verankerung, die erweiterte zeitliche Abhängigkeiten über gesamte Videosequenzen erfasst. Durch die Optimierung auf diesen Präferenzdatensätzen verbessert TPO signifikant das zeitliche Verständnis und reduziert die Abhängigkeit von manuell annotierten Daten. Umfangreiche Experimente an drei Langvideo-Verständnis-Benchmarks - LongVideoBench, MLVU und Video-MME - zeigen die Wirksamkeit von TPO bei zwei modernsten Video-LMMs. Insbesondere etabliert sich LLaVA-Video-TPO als führendes 7B-Modell im Video-MME-Benchmark und unterstreicht das Potenzial von TPO als skalierbare und effiziente Lösung zur Förderung des zeitlichen Denkens im Verständnis von Langvideos. Projektseite: https://ruili33.github.io/tpo_website.
Mit der raschen Entwicklung von Diffusionsmodellen haben Text-zu-Bild (T2I)-Modelle signifikante Fortschritte gemacht und beeindruckende Fähigkeiten in der prompten Verfolgung und Bildgenerierung gezeigt. Kürzlich eingeführte Modelle wie FLUX.1 und Ideogram2.0 sowie andere wie Dall-E3 und Stable Diffusion 3 haben außergewöhnliche Leistungen bei verschiedenen komplexen Aufgaben gezeigt und Fragen aufgeworfen, ob T2I-Modelle sich in Richtung allgemeiner Anwendbarkeit bewegen. Über die traditionelle Bildgenerierung hinaus zeigen diese Modelle Fähigkeiten in verschiedenen Bereichen, darunter kontrollierte Generierung, Bildbearbeitung, Video, Audio, 3D- und Bewegungsgenerierung sowie Computer Vision-Aufgaben wie semantische Segmentierung und Tiefenschätzung. Allerdings sind die aktuellen Bewertungsrahmen unzureichend, um die Leistung dieser Modelle umfassend über expandierende Bereiche zu bewerten. Um diese Modelle gründlich zu bewerten, haben wir IMAGINE-E entwickelt und sechs prominente Modelle getestet: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 und Jimeng. Unsere Bewertung ist in fünf Schlüsselbereiche unterteilt: strukturierte Ausgabegenerierung, Realismus und physikalische Konsistenz, spezifische Bereichsgenerierung, Generierung herausfordernder Szenarien und Multistil-Erstellungsaufgaben. Diese umfassende Bewertung hebt die Stärken und Grenzen jedes Modells hervor, insbesondere die herausragende Leistung von FLUX.1 und Ideogram2.0 bei strukturierten und spezifischen Bereichsaufgaben, was die zunehmenden Anwendungen und das Potenzial von T2I-Modellen als grundlegende KI-Werkzeuge unterstreicht. Diese Studie liefert wertvolle Einblicke in den aktuellen Stand und die zukünftige Entwicklung von T2I-Modellen, während sie sich in Richtung allgemeiner Verwendbarkeit entwickeln. Bewertungsskripte werden unter https://github.com/jylei16/Imagine-e veröffentlicht.
Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Erfolge in mathematischem Denken gezeigt. Trotz Fortschritten in Methoden wie Ketten-von-Gedanken-Anregung und Selbstkonsistenz-Sampling konzentrieren sich diese Fortschritte oft auf die endgültige Korrektheit, ohne sicherzustellen, dass der zugrunde liegende Denkprozess kohärent und zuverlässig ist. Dieser Artikel stellt Step-KTO vor, ein Schulungsrahmen, der Prozess- und Ergebnisebene binäres Feedback kombiniert, um LLMs auf vertrauenswürdigere Denkwege zu lenken. Durch die Bereitstellung von binären Bewertungen sowohl für die Zwischenschritte des Denkens als auch für die endgültige Antwort ermutigt Step-KTO das Modell, logischen Fortschritten zu folgen, anstatt sich auf oberflächliche Abkürzungen zu verlassen. Unsere Experimente an anspruchsvollen mathematischen Benchmarks zeigen, dass Step-KTO sowohl die Genauigkeit der endgültigen Antwort als auch die Qualität der Zwischenschritte des Denkens signifikant verbessert. Beispielsweise erreicht Step-KTO auf dem MATH-500 Datensatz eine bemerkenswerte Verbesserung der Pass@1-Genauigkeit gegenüber starken Baselines. Diese Ergebnisse unterstreichen das Potenzial der Integration von schrittweisem Prozessfeedback in das Training von LLMs und ebnet den Weg zu interpretierbareren und verlässlicheren Denkfähigkeiten.
Aktuelle Video-Inpainting-Algorithmen integrieren flussbasierte Pixelpropagation mit transformerbasierten Generierungstechniken, um den optischen Fluss zur Wiederherstellung von Texturen und Objekten unter Verwendung von Informationen aus benachbarten Frames zu nutzen, während maskierte Bereiche durch visuelle Transformer vervollständigt werden. Diese Ansätze stoßen jedoch häufig auf Unschärfe und zeitliche Inkonsistenzen bei der Bearbeitung großer Masken, was die Notwendigkeit von Modellen mit verbesserten generativen Fähigkeiten verdeutlicht. In letzter Zeit haben Diffusionsmodelle aufgrund ihrer beeindruckenden Leistung als herausragende Technik in der Bild- und Videogenerierung an Bedeutung gewonnen. In diesem Artikel stellen wir DiffuEraser vor, ein Video-Inpainting-Modell auf Basis stabiler Diffusion, das darauf abzielt, maskierte Bereiche mit mehr Details und kohärenteren Strukturen zu füllen. Wir integrieren Vorabinformationen, um Initialisierung und schwache Konditionierung bereitzustellen, was hilft, Rauschartefakte zu reduzieren und Halluzinationen zu unterdrücken. Darüber hinaus erweitern wir zur Verbesserung der zeitlichen Konsistenz während langer Sequenzinferenzen die zeitlichen rezeptiven Felder sowohl des Vorabmodells als auch von DiffuEraser und verbessern die Konsistenz weiter, indem wir die zeitliche Glättungseigenschaften von Video-Diffusionsmodellen nutzen. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode sowohl in Bezug auf die Vollständigkeit des Inhalts als auch auf die zeitliche Konsistenz die modernsten Techniken übertrifft und dabei eine akzeptable Effizienz beibehält.
Bedenken hinsichtlich Halluzinationen in Large Language Models (LLMs) wurden von Forschern geäußert, dennoch verdient ihr Potenzial in Bereichen, in denen Kreativität entscheidend ist, wie beispielsweise die Arzneimittelforschung, eine nähere Betrachtung. In diesem Artikel stellen wir die Hypothese auf, dass Halluzinationen die Leistung von LLMs in der Arzneimittelforschung verbessern können. Zur Überprüfung dieser Hypothese verwenden wir LLMs, um die SMILES-Zeichenfolge von Molekülen in natürlicher Sprache zu beschreiben und integrieren diese Beschreibungen dann als Teil des Eingabereizes, um spezifische Aufgaben in der Arzneimittelforschung anzugehen. Anhand von sieben LLMs und fünf Klassifizierungsaufgaben bestätigen unsere Ergebnisse die Hypothese: LLMs können eine bessere Leistung erzielen, wenn der Text Halluzinationen enthält. Insbesondere erzielt Llama-3.1-8B einen Anstieg von 18,35 % im ROC-AUC im Vergleich zum Ausgangswert ohne Halluzination. Darüber hinaus bieten Halluzinationen, die von GPT-4o erzeugt werden, die konsistentesten Verbesserungen über verschiedene Modelle hinweg. Zusätzlich führen wir empirische Analysen und eine Fallstudie durch, um die Schlüsselfaktoren, die die Leistung beeinflussen, und die zugrunde liegenden Gründe zu untersuchen. Unsere Forschung beleuchtet das potenzielle Einsatzgebiet von Halluzinationen für LLMs und bietet neue Perspektiven für zukünftige Forschung, die LLMs in der Arzneimittelforschung nutzt.
Text-zu-Bild-Generierungsmodelle können hochwertige Bilder aus Eingabeanfragen erstellen. Sie haben jedoch Schwierigkeiten, die konsistente Generierung von Identität erhaltenden Anforderungen für das Geschichtenerzählen zu unterstützen. Bestehende Ansätze zu diesem Problem erfordern in der Regel umfangreiches Training in großen Datensätzen oder zusätzliche Modifikationen an den ursprünglichen Modellarchitekturen. Dies beschränkt ihre Anwendbarkeit in verschiedenen Bereichen und bei unterschiedlichen Diffusionsmodellkonfigurationen. In diesem Papier beobachten wir zunächst die inhärente Fähigkeit von Sprachmodellen, die als Kontextkonsistenz bezeichnet wird, Identität durch Kontext mit einer einzelnen Anfrage zu erfassen. Inspiriert von der inhärenten Kontextkonsistenz schlagen wir eine neuartige, trainingsfreie Methode für konsistente Text-zu-Bild (T2I)-Generierung vor, genannt "Ein-Anfrage-Eine-Geschichte" (1Prompt1Story). Unser Ansatz 1Prompt1Story konkateniert alle Anfragen zu einer einzelnen Eingabe für T2I-Diffusionsmodelle, wobei Charakteridentitäten zunächst erhalten bleiben. Wir verfeinern dann den Generierungsprozess mithilfe von zwei neuartigen Techniken: Singularwert-Neugewichtung und Identität-erhaltende Kreuz-Aufmerksamkeit, um eine bessere Ausrichtung mit der Eingabebeschreibung für jedes Bild sicherzustellen. In unseren Experimenten vergleichen wir unsere Methode mit verschiedenen bestehenden konsistenten T2I-Generierungsansätzen, um ihre Wirksamkeit anhand quantitativer Metriken und qualitativer Bewertungen zu demonstrieren. Der Code ist verfügbar unter https://github.com/byliutao/1Prompt1Story.
In jüngster Zeit haben Fortschritte in der Videogenerierung verschiedene nachgelagerte Anwendungen erheblich beeinflusst, insbesondere in der Generierung von Videos zur Identitätserhaltung (IPT2V). Allerdings haben bestehende Methoden Schwierigkeiten mit "Copy-Paste"-Artefakten und geringen Ähnlichkeitsproblemen, hauptsächlich aufgrund ihrer Abhängigkeit von niedrigstufigen Gesichtsbildinformationen. Diese Abhängigkeit kann zu starren Gesichtsauftritten und Artefakten führen, die irrelevante Details widerspiegeln. Um diesen Herausforderungen zu begegnen, schlagen wir EchoVideo vor, das zwei Schlüsselstrategien verwendet: (1) ein Identitätsbild-Text-Fusionsmodul (IITF), das hochstufige semantische Merkmale aus Text integriert, saubere Gesichtsidentitätsdarstellungen erfasst und dabei Okklusionen, Posen und Beleuchtungsvariationen verwirft, um die Einführung von Artefakten zu vermeiden; (2) eine zweistufige Schulungsstrategie, die in der zweiten Phase eine stochastische Methode einbezieht, um oberflächliche Gesichtsinformationen zufällig zu nutzen. Das Ziel besteht darin, die Verbesserungen in der Treue, die oberflächliche Merkmale bieten, auszugleichen, während ein übermäßiges Vertrauen auf sie gemildert wird. Diese Strategie ermutigt das Modell, während des Trainings hochstufige Merkmale zu nutzen und fördert letztendlich eine robustere Darstellung von Gesichtsidentitäten. EchoVideo bewahrt Gesichtsidentitäten effektiv und erhält die Integrität des gesamten Körpers. Umfangreiche Experimente zeigen, dass es ausgezeichnete Ergebnisse bei der Generierung von hochwertigen, steuerbaren und treuen Videos erzielt.
Gängige Methoden zur Ausrichtung bereits leistungsfähiger Modelle auf das gewünschte Verhalten beruhen auf der Fähigkeit von Menschen, Aufsicht zu leisten. Zukünftige übermenschliche Modelle werden jedoch die Fähigkeiten von Menschen übertreffen. Daher werden Menschen nur in der Lage sein, übermenschliche Modelle schwach zu beaufsichtigen. Diese erwartete Unzulänglichkeit der menschlichen Bewertung würde die Sicherheit zukünftiger KI-Systeme schwächen. Skalierbare Aufsicht und schwache-bis-starke Verallgemeinerung sind zwei ergänzende Ansätze, um dieses Problem anzugehen. In diesem Papier versuchen wir, die Stärken dieser beiden Ansätze zu kombinieren, um die Ausrichtung weiter zu verbessern. Konkret untersuchen wir Möglichkeiten zur Verbesserung der menschlichen Aufsicht mit einem starken vorab trainierten Modell und beaufsichtigen dann das starke Modell mit verbesserter schwacher menschlicher Aufsicht. Um iterative empirische Fortschritte zu erzielen, betrachten wir eine Analogie: Können wir ein starkes Modell verwenden, um die Aufsicht über ein schwaches Modell zu verbessern und es dann verwenden, um das starke Modell zu beaufsichtigen? Wir testen dies empirisch, indem wir ein kleines schwaches Modell mit Hilfe eines großen starken Modells auf Ground-Truth-Labels feinabstimmen und dann das starke Modell auf Labels feinabstimmen, die vom schwachen Modell generiert wurden. Wir stellen fest, dass eine Debatte einem schwachen Modell dabei helfen kann, vertrauenswürdige Informationen aus einem unzuverlässigen starken Modell zu extrahieren, was als Kontext auf Proben dient, wenn ein schwaches Modell trainiert wird. Wir zeigen auch, dass ein Ensemble schwacher Modelle hilft, lange Argumente zu nutzen, die von starken Modell-Debattierern generiert wurden, und eine robustere Aufsichtsschätzung zu erhalten. Umfangreiche Experimente an den OpenAI schwach-bis-starken NLP-Benchmarks zeigen, dass der kombinierte Ansatz zu einer besseren Ausrichtung führt, was darauf hindeutet, dass Debatten das Potenzial haben, bei der schwach-bis-starken Verallgemeinerung zu helfen.
Multimodale Große Sprachmodelle (MLLMs) haben signifikante Fortschritte gezeigt und bieten eine vielversprechende Zukunft für verkörperte Agenten. Bestehende Benchmarks zur Bewertung von MLLMs nutzen hauptsächlich statische Bilder oder Videos, was die Bewertung auf nicht-interaktive Szenarien beschränkt. Gleichzeitig sind bestehende verkörperte KI-Benchmarks aufgabenspezifisch und nicht vielfältig genug, um die verkörperten Fähigkeiten von MLLMs angemessen zu bewerten. Um dies zu lösen, schlagen wir EmbodiedEval vor, einen umfassenden und interaktiven Bewertungsbenchmark für MLLMs mit verkörperten Aufgaben. EmbodiedEval umfasst 328 verschiedene Aufgaben in 125 verschiedenen 3D-Szenen, die sorgfältig ausgewählt und annotiert wurden. Es deckt ein breites Spektrum bestehender verkörperter KI-Aufgaben mit erheblich verbesserter Vielfalt ab, alles innerhalb eines einheitlichen Simulations- und Bewertungsrahmens, der speziell für MLLMs entwickelt wurde. Die Aufgaben sind in fünf Kategorien organisiert: Navigation, Objektinteraktion, soziale Interaktion, Attribut-Fragenbeantwortung und räumliche Fragenbeantwortung, um verschiedene Fähigkeiten der Agenten zu bewerten. Wir haben die modernsten MLLMs auf EmbodiedEval evaluiert und festgestellt, dass sie im Vergleich zum menschlichen Niveau erhebliche Defizite bei verkörperten Aufgaben aufweisen. Unsere Analyse zeigt die Grenzen bestehender MLLMs in verkörperten Fähigkeiten auf und bietet Einblicke für ihre zukünftige Entwicklung. Wir stellen alle Bewertungsdaten und das Simulationsframework unter https://github.com/thunlp/EmbodiedEval als Open Source zur Verfügung.
Dieses Papier behauptet, dass maschinelles Lernen (ML) weitgehend einen wichtigen Aspekt der allgemeinen Intelligenz vernachlässigt: die Robustheit gegenüber einer qualitativ unbekannten Zukunft in einer offenen Welt. Diese Robustheit steht in Beziehung zur Knight'schen Unsicherheit (KU) in der Wirtschaft, d.h. Unsicherheit, die nicht quantifiziert werden kann und die in den Schlüsselformalismen des ML nicht berücksichtigt wird. Dieses Papier zielt darauf ab, diesen blinden Fleck zu identifizieren, seine Bedeutung zu erörtern und die Forschung zur Bewältigung desselben anzustoßen, was unserer Meinung nach notwendig ist, um wirklich robuste KI für eine offene Welt zu schaffen. Um den blinden Fleck zu verdeutlichen, vergleichen wir einen Bereich des ML, das reinforcement learning (RL), mit dem Prozess der biologischen Evolution. Trotz beeindruckender Fortschritte hat RL nach wie vor Schwierigkeiten in offenen Situationen und scheitert oft an unvorhergesehenen Ereignissen. Zum Beispiel erscheint die Idee, eine selbstfahrende Autopolitik, die nur in den USA trainiert wurde, ohne vorheriges Training in Großbritannien einzusetzen, derzeit äußerst ehrgeizig. Im dramatischen Gegensatz dazu produziert die biologische Evolution routinemäßig Agenten, die in einer offenen Welt gedeihen, manchmal sogar in Situationen, die bemerkenswert außerhalb der Verteilung liegen (z.B. invasive Arten; oder Menschen, die solch einen internationalen Fahrstil ohne vorheriges Training übernehmen). Interessanterweise erreicht die Evolution eine solche Robustheit ohne explizite Theorie, Formalismen oder mathematische Gradienten. Wir untersuchen die Annahmen, die den typischen Formalismen des RL zugrunde liegen, und zeigen, wie sie das Engagement des RL mit den unbekannten Unbekannten einschränken, die für eine sich ständig verändernde komplexe Welt charakteristisch sind. Darüber hinaus identifizieren wir Mechanismen, durch die evolutionäre Prozesse Robustheit gegenüber neuen und unvorhersehbaren Herausforderungen fördern, und diskutieren potenzielle Wege, um sie algorithmisch zu verkörpern. Die Schlussfolgerung ist, dass die faszinierende verbleibende Fragilität des ML möglicherweise auf blinden Flecken in seinen Formalismen beruht und dass bedeutende Fortschritte aus direkter Konfrontation mit der Herausforderung der KU resultieren können.
Große Sprachmodelle (LLMs) erfordern erhebliche Rechenressourcen, weshalb es entscheidend ist, ihre Fähigkeiten zu verbessern, ohne sie von Grund auf neu zu trainieren. Eine zentrale Herausforderung in diesem Bereich ist das katastrophale Vergessen (CF), das die Leistung während des kontinuierlichen Vortrainings (CPT) und des kontinuierlichen überwachten Feintunings (CSFT) beeinträchtigt. Wir schlagen Control LLM vor, einen neuartigen Ansatz, der auf parallel vorab trainierten und erweiterten Transformer-Blöcken basiert und ihre Hidden States durch Interpolationsstrategien ausrichtet. Diese Methode bewahrt effektiv die Leistung bei bestehenden Aufgaben, während sie neues Wissen nahtlos integriert. Umfangreiche Experimente zeigen die Wirksamkeit von Control LLM sowohl im CPT als auch im CSFT. Auf Llama3.1-8B-Instruct erzielt es signifikante Verbesserungen in mathematischem Denken (+14,4% bei Math-Hard) und Codierleistung (+10% bei MBPP-PLUS). Auf Llama3.1-8B verbessert es die mehrsprachigen Fähigkeiten (+10,6% bei C-Eval, +6,8% bei CMMLU und +30,2% bei CMMLU-0shot-CoT). Es übertrifft bestehende Methoden und erreicht den SOTA unter Open-Source-Modellen, die vom gleichen Basismodell abgestimmt wurden, wobei wesentlich weniger Daten und Rechenleistung verwendet werden. Diese Gewinne werden entscheidend realisiert, während starke ursprüngliche Fähigkeiten erhalten bleiben, mit minimaler Verschlechterung (<4,3% bei MMLU) im Vergleich zu >35% bei Open-Source Mathematik- und Codiermodellen. Dieser Ansatz wurde erfolgreich in den von LinkedIn betriebenen GenAI-gestützten Produkten für Jobsuchende und Anzeigen eingesetzt. Um weitere Forschung zu unterstützen, veröffentlichen wir den Trainings- und Evaluierungscode (https://github.com/linkedin/ControlLLM) zusammen mit Modellen, die auf öffentlichen Datensätzen trainiert wurden (https://huggingface.co/ControlLLM) für die Gemeinschaft.
3D-Gaußsche Splatting-Techniken haben eine effiziente fotorealistische Darstellung statischer Szenen ermöglicht. Aktuelle Arbeiten haben diese Ansätze erweitert, um die Oberflächenrekonstruktion und -verfolgung zu unterstützen. Die Verfolgung dynamischer Oberflächen mit 3D-Gaußschen bleibt jedoch aufgrund komplexer Topologieänderungen wie dem Erscheinen, Verschwinden oder Aufteilen von Oberflächen herausfordernd. Um diesen Herausforderungen zu begegnen, schlagen wir GSTAR vor, eine neuartige Methode, die fotorealistische Darstellung, präzise Oberflächenrekonstruktion und zuverlässige 3D-Verfolgung für allgemeine dynamische Szenen mit wechselnder Topologie erreicht. Unter Verwendung von Mehrblickaufnahmen als Eingabe bindet GSTAR Gaußsche an Gitterflächen, um dynamische Objekte darzustellen. Für Oberflächen mit konsistenter Topologie behält GSTAR die Gittertopologie bei und verfolgt die Gitter mithilfe von Gaußschen. In Regionen, in denen sich die Topologie ändert, löst GSTAR adaptiv Gaußsche von dem Gitter, was eine genaue Registrierung und die Generierung neuer Oberflächen basierend auf diesen optimierten Gaußschen ermöglicht. Darüber hinaus führen wir eine oberflächenbasierte Szenenflussmethode ein, die eine robuste Initialisierung für die Verfolgung zwischen den Frames bietet. Experimente zeigen, dass unsere Methode dynamische Oberflächen effektiv verfolgt und rekonstruiert, was eine Vielzahl von Anwendungen ermöglicht. Unsere Projektseite mit dem Code-Release ist verfügbar unter https://eth-ait.github.io/GSTAR/.