Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen InternVL 2.5 vor, eine fortschrittliche multimodale große Sprachmodellserie (MLLM), die auf InternVL 2.0 aufbaut und dessen Kernmodellarchitektur beibehält, während sie signifikante Verbesserungen in Trainings- und Teststrategien sowie Datenqualität einführt. In dieser Arbeit gehen wir auf die Beziehung zwischen Modellskalierung und Leistung ein, indem wir systematisch die Leistungstrends in Vision Encodern, Sprachmodellen, Datensatzgrößen und Testzeitkonfigurationen untersuchen. Durch umfangreiche Evaluationen auf einer Vielzahl von Benchmarks, einschließlich multidisziplinärem Denken, Dokumentenverständnis, Multi-Image-/Videoverständnis, Verständnis der realen Welt, multimodaler Halluzinationserkennung, visueller Verankerung, mehrsprachigen Fähigkeiten und reiner Sprachverarbeitung, zeigt InternVL 2.5 eine wettbewerbsfähige Leistung und konkurriert mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Beachtenswert ist, dass unser Modell das erste Open-Source MLLM ist, das die 70%-Marke beim MMMU-Benchmark überschreitet, eine Verbesserung um 3,7 Punkte durch Chain-of-Thought (CoT)-Denken erzielt und ein starkes Potenzial für die Skalierung zur Testzeit zeigt. Wir hoffen, dass dieses Modell zur Open-Source-Community beiträgt, indem es neue Standards für die Entwicklung und Anwendung multimodaler KI-Systeme setzt. HuggingFace-Demo siehe https://huggingface.co/spaces/OpenGVLab/InternVL
Dieser technische Bericht stellt die EXAONE 3.5 instruktionsangepassten Sprachmodelle vor, die von LG AI Research entwickelt und veröffentlicht wurden. Die EXAONE 3.5 Sprachmodelle werden in drei Konfigurationen angeboten: 32B, 7.8B und 2.4B. Diese Modelle zeichnen sich durch mehrere herausragende Fähigkeiten aus: 1) außergewöhnliche Anweisungsfolgefähigkeiten in realen Szenarien, die die höchsten Punktzahlen in sieben Benchmarks erreichen, 2) herausragendes Verständnis von langem Kontext, das die beste Leistung in vier Benchmarks erzielt, und 3) wettbewerbsfähige Ergebnisse im Vergleich zu modernsten offenen Modellen ähnlicher Größe in neun allgemeinen Benchmarks. Die EXAONE 3.5 Sprachmodelle stehen jedem zu Forschungszwecken offen und können von https://huggingface.co/LGAI-EXAONE heruntergeladen werden. Für kommerzielle Nutzung wenden Sie sich bitte an den offiziellen Kontakt von LG AI Research: [email protected].
In jüngster Zeit haben Fortschritte bei generativen Modellen für Text-zu-Video (T2V) beeindruckende Fähigkeiten gezeigt. Dennoch sind diese Modelle immer noch unzureichend, um synthetisierte Videos mit menschlichen Präferenzen in Einklang zu bringen (z. B. Textbeschreibungen genau widerzuspiegeln), was besonders schwierig zu lösen ist, da menschliche Präferenzen inhärent subjektiv sind und schwierig als objektive Funktionen zu formalisieren sind. Daher schlägt dieser Artikel LiFT vor, eine neuartige Feinabstimmungsmethode, die menschliches Feedback zur Ausrichtung von T2V-Modellen nutzt. Konkret konstruieren wir zunächst einen Datensatz für menschliche Bewertungsannotationen, LiFT-HRA, der ungefähr 10.000 menschliche Bewertungen umfasst, jeweils mit einer Punktzahl und der entsprechenden Begründung. Basierend darauf trainieren wir ein Belohnungsmodell LiFT-Critic, um die Belohnungsfunktion effektiv zu erlernen, die als Stellvertreter für menschliches Urteilsvermögen dient und die Ausrichtung zwischen gegebenen Videos und menschlichen Erwartungen misst. Schließlich nutzen wir die erlernte Belohnungsfunktion, um das T2V-Modell durch Maximierung der belohnungsgewichteten Wahrscheinlichkeit auszurichten. Als Fallstudie wenden wir unseren Prozess auf CogVideoX-2B an und zeigen, dass das feinabgestimmte Modell in allen 16 Metriken besser abschneidet als CogVideoX-5B, was das Potenzial von menschlichem Feedback zur Verbesserung der Ausrichtung und Qualität synthetisierter Videos hervorhebt.
Open-Source Multimodale Large Language Models (MLLMs) haben ein signifikantes Potenzial in einer breiten Palette von multimodalen Aufgaben gezeigt. Ihre Fähigkeiten zur Argumentation bleiben jedoch durch bestehende Anleitung-Feinabstimmungsdatensätze eingeschränkt, die hauptsächlich aus akademischen Datensätzen wie VQA, AI2D und ChartQA umfunktioniert wurden. Diese Datensätze zielen auf einfache Aufgaben ab und bieten nur phrasenweise Antworten ohne Zwischenbegründungen. Um diese Herausforderungen anzugehen, führen wir eine skalierbare und kostengünstige Methode ein, um einen groß angelegten multimodalen Anleitung-Feinabstimmungsdatensatz mit reichen Zwischenbegründungen zu erstellen, die darauf abzielen, CoT-Argumentation hervorzurufen. Unter Verwendung nur von Open-Modellen erstellen wir einen Datensatz, der 12M Anleitung-Antwort-Paare enthält, um diverse, argumentationsintensive Aufgaben mit detaillierten und treuen Begründungen abzudecken. Experimente zeigen, dass das Training von MLLMs auf diesem Datensatz die Argumentationsfähigkeiten signifikant verbessert und Spitzenleistungen bei Benchmarks wie MathVerse (+8,1%), MMMU-Pro (+7%) und MuirBench (+13,3%) erreicht. Darüber hinaus zeigt das Modell bemerkenswerte Verbesserungen von bis zu 4% bei Benchmarks, die nicht auf Argumentation basieren. Ablationsstudien heben weiterhin die Bedeutung von Schlüsselkomponenten wie Umschreiben und Selbstfilterung im Datensatzaufbauprozess hervor.
Neueste Fortschritte in der textgesteuerten Bildbearbeitung ermöglichen es Benutzern, Bildbearbeitungen durch einfache Texteingaben durchzuführen, wobei die umfangreichen Vorkenntnisse von mehrstufigen Diffusions-basierten Text-zu-Bild-Modellen genutzt werden. Allerdings erfüllen diese Methoden oft nicht die Geschwindigkeitsanforderungen, die für Anwendungen in der realen Welt und auf Geräten erforderlich sind, aufgrund des kostspieligen mehrstufigen Umkehr- und Abtastprozesses. Als Antwort darauf stellen wir SwiftEdit vor, ein einfaches, aber äußerst effizientes Bearbeitungswerkzeug, das eine sofortige textgesteuerte Bildbearbeitung ermöglicht (in 0,23 Sekunden). Der Fortschritt von SwiftEdit liegt in seinen zwei neuartigen Beiträgen: einem Ein-Schritt-Umkehrungsrahmen, der eine Bildrekonstruktion in einem Schritt über die Umkehrung ermöglicht, und einer maskengesteuerten Bearbeitungstechnik mit unserem vorgeschlagenen Aufmerksamkeitsneuskalierungsmechanismus zur Durchführung einer lokalen Bildbearbeitung. Umfangreiche Experimente werden durchgeführt, um die Wirksamkeit und Effizienz von SwiftEdit zu demonstrieren. Insbesondere ermöglicht SwiftEdit eine sofortige textgesteuerte Bildbearbeitung, die extrem schneller ist als frühere mehrstufige Methoden (mindestens 50-mal schneller), während sie eine wettbewerbsfähige Leistung bei den Bearbeitungsergebnissen beibehält. Unsere Projektseite befindet sich unter: https://swift-edit.github.io/
Große Sprachmodelle (LLMs) sind bekanntermaßen speicherintensiv während des Trainings, insbesondere mit dem beliebten AdamW-Optimierer. Diese Speicherbelastung erfordert den Einsatz von mehr oder leistungsstärkeren GPUs oder die Reduzierung von Batch-Größen, was die Trainierbarkeit und Durchsatz begrenzt. Um diesem Problem zu begegnen, wurden verschiedene speicher-effiziente Optimierer vorgeschlagen, um den Speicherverbrauch des Optimierers zu reduzieren. Allerdings stehen sie vor kritischen Herausforderungen: (i) Abhängigkeit von kostspieligen SVD-Operationen; (ii) signifikante Leistungskompromisse im Vergleich zu AdamW; und (iii) immer noch erheblicher Speicherüberkopf des Optimierers, um eine wettbewerbsfähige Leistung aufrechtzuerhalten. In dieser Arbeit identifizieren wir, dass die Lernratenanpassungsregel von AdamW effektiv als strukturiertes Lernratenupdate vereinfacht werden kann. Basierend auf dieser Erkenntnis schlagen wir die Approximated Gradient Scaling for Memory-Efficient LLM Optimization (APOLLO) vor, die die Skalierung der Lernrate unter Verwendung eines Hilfs-Optimizerzustands mit niedriger Rangordnung basierend auf rein zufälliger Projektion approximiert. Diese Regel für strukturiertes Lernratenupdate macht APOLLO äußerst tolerant gegenüber weiteren Speicherreduktionen, während sie eine vergleichbare Vor-Trainingsleistung liefert. Selbst die Rang-1-Variante, APOLLO-Mini, erzielt eine überlegene Vor-Trainingsleistung im Vergleich zu AdamW mit Speicherkosten auf SGD-Niveau. Umfangreiche Experimente zeigen, dass die APOLLO-Serie auf Augenhöhe oder besser als AdamW abschneidet, während sie durch nahezu vollständige Beseitigung der Optimierungszustände von AdamW größere Speichereinsparungen erzielt. Diese Einsparungen bieten signifikante systemweite Vorteile: (1) Verbesserte Durchsatzleistung: 3-facher Durchsatz auf einem 8xA100-80GB-Setup im Vergleich zu AdamW durch Unterstützung von 4-fach größeren Batch-Größen. (2) Verbesserte Modell-Skalierbarkeit: Vor-Trainieren von LLaMA-13B mit naivem DDP auf A100-80GB-GPUs ohne systemweite Optimierungen. (3) Vor-Trainieren für Low-End-GPUs: Vor-Trainieren von LLaMA-7B auf einer einzelnen GPU unter Verwendung von weniger als 12 GB Speicher mit Gewichtsquantisierung.
Neueste Entwicklungen bei großen Sprachmodellen, die auf umfangreichen Korpora vortrainiert sind, haben signifikante Erfolge in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben mit minimalem Feintuning gezeigt. Dieser Erfolg bietet neue Möglichkeiten für die Robotik, die lange Zeit durch die hohe Kosten von aktionsbeschrifteten Daten eingeschränkt war. Wir fragen: Angesichts der reichhaltigen Videodaten mit interaktionsbezogenem Wissen als umfangreiches "Korpus", kann ein ähnlicher generativer Vortrainingsansatz effektiv angewendet werden, um das Roboterlernen zu verbessern? Die Hauptherausforderung besteht darin, eine effektive Repräsentation für autoregressives Vortraining zu identifizieren, die den Roboter-Manipulationsaufgaben zugutekommt. Inspiriert von der Art und Weise, wie Menschen neue Fähigkeiten durch Beobachtung dynamischer Umgebungen erlernen, schlagen wir vor, dass effektives robotisches Lernen das wissensbezogene Bewegungen betonen sollte, die eng mit niedrigstufigen Aktionen verbunden sind und hardwareunabhängig sind, was den Transfer gelernter Bewegungen auf tatsächliche Roboteraktionen erleichtert. Zu diesem Zweck stellen wir Moto vor, das den Videoinhalt in latente Bewegungstokenfolgen durch einen Latent Motion Tokenizer umwandelt, der auf unsupervised Weise eine vermittelnde "Sprache" der Bewegung aus Videos lernt. Wir trainieren Moto-GPT durch autoregressive Bewegungstokenvortraining vor, was es ermöglicht, vielfältiges visuelles Bewegungswissen zu erfassen. Nach dem Vortraining zeigt Moto-GPT die vielversprechende Fähigkeit, semantisch interpretierbare Bewegungstoken zu erzeugen, plausible Bewegungsbahnen vorherzusagen und die Rationalität von Bahnen durch die Ausgabewahrscheinlichkeit zu bewerten. Um gelernte Bewegungsprioritäten auf reale Roboteraktionen zu übertragen, implementieren wir eine Co-Feintuning-Strategie, die die Vorhersage latenter Bewegungstoken nahtlos mit der Steuerung des realen Roboters verbindet. Umfangreiche Experimente zeigen, dass das feinabgestimmte Moto-GPT eine überlegene Robustheit und Effizienz bei Roboter-Manipulations-Benchmarks aufweist und damit seine Wirksamkeit bei der Übertragung von Wissen aus Videodaten auf nachgelagerte visuelle Manipulationsaufgaben unterstreicht.
Text-zu-Video-Generierungsmodelle haben in den letzten Jahren signifikante Fortschritte gezeigt. Dennoch haben sie nach wie vor Schwierigkeiten bei der Erzeugung komplexer dynamischer Szenen auf der Grundlage von zusammengesetzten Textvorgaben, wie beispielsweise Attributbindung für mehrere Objekte, zeitliche Dynamiken, die mit verschiedenen Objekten verbunden sind, und Interaktionen zwischen Objekten. Unsere Hauptmotivation ist, dass komplexe Aufgaben in einfachere Aufgaben zerlegt werden können, die jeweils von einem rollenspezialisierten MLLM-Agenten bearbeitet werden. Mehrere Agenten können zusammenarbeiten, um kollektive Intelligenz für komplexe Ziele zu erreichen. Wir schlagen GenMAC vor, ein iteratives, multi-agentenbasiertes Framework, das die zusammengesetzte Text-zu-Video-Generierung ermöglicht. Der kollaborative Arbeitsablauf umfasst drei Phasen: Design, Generierung und Neugestaltung, mit einer iterativen Schleife zwischen den Generierungs- und Neugestaltungsphasen, um die generierten Videos schrittweise zu überprüfen und zu verfeinern. Die Neugestaltungsphase ist die anspruchsvollste Phase, die darauf abzielt, die generierten Videos zu überprüfen, Korrekturen vorzuschlagen und die Textvorgaben, frame-weise Layouts und Anleitungsskalen für die nächste Generationsiteration neu zu gestalten. Um die Halluzination eines einzelnen MLLM-Agenten zu vermeiden, zerlegen wir diese Phase in vier sequenziell ausgeführte MLLM-basierte Agenten: Verifikationsagent, Vorschlagsagent, Korrekturagent und Ausgabe-Strukturierungsagent. Darüber hinaus, um verschiedene Szenarien der zusammengesetzten Text-zu-Video-Generierung zu bewältigen, entwerfen wir einen selbststeuernden Mechanismus zur adaptiven Auswahl des geeigneten Korrekturagenten aus einer Sammlung von Korrekturagenten, die jeweils auf ein Szenario spezialisiert sind. Umfangreiche Experimente zeigen die Wirksamkeit von GenMAC und erreichen eine Leistung auf dem neuesten Stand der Technik in der zusammengesetzten Text-zu-Video-Generierung.
Inwieweit können Multimodale Große Sprachmodelle (MLLMs) zusammengesetzte Bilder verstehen? Zusammengesetzte Bilder (CIs) sind synthetische visuelle Darstellungen, die durch die Verschmelzung mehrerer visueller Elemente wie Diagramme, Poster oder Bildschirmfotos erstellt werden, anstatt direkt von einer Kamera erfasst zu werden. Während CIs in realen Anwendungen weit verbreitet sind, haben sich die jüngsten Entwicklungen von MLLMs hauptsächlich auf die Interpretation natürlicher Bilder (NIs) konzentriert. Unsere Forschung zeigt, dass aktuelle MLLMs vor erheblichen Herausforderungen stehen, um CIs genau zu verstehen, da sie oft Schwierigkeiten haben, Informationen zu extrahieren oder komplexe Schlussfolgerungen auf der Grundlage dieser Bilder durchzuführen. Wir stellen fest, dass vorhandene Trainingsdaten für CIs hauptsächlich für Frage-Antwort-Aufgaben formatiert sind (z. B. in Datensätzen wie ChartQA und ScienceQA), während hochwertige Bildunterschriftsdatensätze, die für eine robuste Vision-Sprach-Abstimmung entscheidend sind, nur für NIs verfügbar sind. Um diese Lücke zu schließen, führen wir Composite Captions (CompCap) ein, ein flexibles Framework, das Große Sprachmodelle (LLMs) und Automatisierungstools nutzt, um CIs mit genauen und detaillierten Bildunterschriften zu synthetisieren. Unter Verwendung von CompCap kuratieren wir CompCap-118K, einen Datensatz mit 118.000 Bildunterschriften-Paaren über sechs CI-Typen. Wir validieren die Wirksamkeit von CompCap-118K durch das überwachte Feintuning von MLLMs in drei Größen: xGen-MM-inst.-4B und LLaVA-NeXT-Vicuna-7B/13B. Die empirischen Ergebnisse zeigen, dass CompCap-118K das Verständnis von MLLMs für CIs signifikant verbessert und durchschnittliche Verbesserungen von 1,7%, 2,0% bzw. 2,9% über elf Benchmarks erzielt.
Die 3D-Gauß-Splatting-Technik hat sich bei der großangelegten Szenenrekonstruktion als äußerst erfolgreich erwiesen, jedoch bestehen weiterhin Herausforderungen aufgrund des hohen Speicherverbrauchs während des Trainings und des Speicheroverheads. Hybridrepräsentationen, die implizite und explizite Merkmale integrieren, bieten einen Weg, um diese Einschränkungen zu mildern. Wenn jedoch eine parallelisierte blockweise Schulung durchgeführt wird, treten zwei kritische Probleme auf, da die Rekonstruktionsgenauigkeit aufgrund reduzierter Datenvielfalt bei unabhängiger Schulung jedes Blocks abnimmt und die parallele Schulung die Anzahl der geteilten Blöcke auf die verfügbare Anzahl von GPUs beschränkt. Um diese Probleme anzugehen, schlagen wir Momentum-GS vor, einen neuartigen Ansatz, der auf Momentum-basierter Selbstdestillation beruht, um Konsistenz und Genauigkeit über die Blöcke hinweg zu fördern, während die Anzahl der Blöcke von der physischen GPU-Anzahl entkoppelt wird. Unsere Methode pflegt einen Lehr-Gauß-Decoder, der mit Momentum aktualisiert wird, um eine stabile Referenz während des Trainings sicherzustellen. Dieser Lehrer bietet jedem Block globale Anleitung in Form von Selbstdestillation und fördert so räumliche Konsistenz bei der Rekonstruktion. Um die Konsistenz über die Blöcke hinweg weiter zu gewährleisten, integrieren wir Blockgewichtung, die das Gewicht jedes Blocks dynamisch anhand seiner Rekonstruktionsgenauigkeit anpasst. Umfangreiche Experimente an großangelegten Szenen zeigen, dass unsere Methode kontinuierlich bessere Leistungen als bestehende Techniken erbringt, eine Verbesserung von 12,8 % im LPIPS gegenüber CityGaussian mit deutlich weniger geteilten Blöcken erzielt und einen neuen Stand der Technik etabliert. Projektpage: https://jixuan-fan.github.io/Momentum-GS_Page/
Multimodale KI hat das Potenzial, dokumentenbezogene Aufgaben signifikant zu verbessern, wie z.B. die Verarbeitung von Quittungen, das Verstehen von Workflows, die Extraktion von Daten aus Dokumenten und das Zusammenfassen von Berichten. Auch Codegenerierungsaufgaben, die lange strukturierte Ausgaben erfordern, können durch Multimodalität verbessert werden. Trotzdem ist ihr Einsatz in kommerziellen Anwendungen oft aufgrund begrenzten Zugangs zu Trainingsdaten und restriktiver Lizenzen eingeschränkt, was den offenen Zugang behindert. Um diese Einschränkungen zu überwinden, stellen wir BigDocs-7.5M vor, einen hochwertigen, frei zugänglichen Datensatz mit 7,5 Millionen multimodalen Dokumenten für 30 Aufgaben. Wir verwenden einen effizienten Datenkuratierungsprozess, um sicherzustellen, dass unsere Daten von hoher Qualität sind und lizenzfreundlich. Unser Prozess betont Rechenschaftspflicht, Verantwortung und Transparenz durch Filterregeln, nachverfolgbare Metadaten und sorgfältige Inhaltsanalyse. Zusätzlich führen wir BigDocs-Bench ein, eine Benchmark-Suite mit 10 neuen Aufgaben, bei denen wir Datensätze erstellen, die realen Anwendungsfällen mit Schlussfolgerungen über grafische Benutzeroberflächen (GUI) und Codegenerierung aus Bildern entsprechen. Unsere Experimente zeigen, dass das Training mit BigDocs-Bench die durchschnittliche Leistung um bis zu 25,8% gegenüber dem Closed-Source GPT-4o bei Dokumentenschlussfolgerungen und strukturierten Ausgabenaufgaben wie Screenshot2HTML oder Image2Latex-Generierung verbessert. Schließlich zeigten menschliche Bewertungen eine Präferenz für Ausgaben von Modellen, die mit BigDocs trainiert wurden, gegenüber GPT-4o. Dies legt nahe, dass BigDocs sowohl Wissenschaftlern als auch der Open-Source-Community helfen kann, KI-Tools zu nutzen und zu verbessern, um multimodale Fähigkeiten und Dokumentschlussfolgerungen zu verbessern. Das Projekt ist unter https://bigdocs.github.io gehostet.
Realitätsnahe Videos bestehen aus Sequenzen von Ereignissen. Die Generierung solcher Sequenzen mit präziser zeitlicher Steuerung ist mit den bestehenden Videogeneratoren, die auf einen einzelnen Textabsatz als Eingabe angewiesen sind, nicht machbar. Wenn diese Generatoren damit beauftragt werden, mehrere Ereignisse zu generieren, die durch eine einzige Anweisung beschrieben sind, ignorieren solche Methoden oft einige Ereignisse oder ordnen sie nicht in der richtigen Reihenfolge an. Um diese Einschränkung zu überwinden, präsentieren wir MinT, einen Multi-Ereignis-Videogenerator mit zeitlicher Steuerung. Unser Schlüsselerkenntnis besteht darin, jedes Ereignis an einen spezifischen Zeitraum im generierten Video zu binden, was es dem Modell ermöglicht, sich jeweils auf ein Ereignis zu konzentrieren. Um zeitbewusste Interaktionen zwischen Ereignisbeschreibungen und Videotokens zu ermöglichen, haben wir eine zeitbasierte Positionscodierungsmethode namens ReRoPE entwickelt. Diese Codierung hilft, die Kreuz-Aufmerksamkeitsoperation zu lenken. Durch Feinabstimmung eines vorab trainierten Video-Diffusionstransformators auf zeitlich verankerten Daten erzeugt unser Ansatz kohärente Videos mit nahtlos verbundenen Ereignissen. Zum ersten Mal in der Literatur bietet unser Modell die Steuerung über die zeitliche Abfolge von Ereignissen in generierten Videos. Umfangreiche Experimente zeigen, dass MinT bestehende Open-Source-Modelle bei weitem übertrifft.
In diesem Paper präsentieren wir PanoDreamer, eine neuartige Methode zur Erzeugung einer kohärenten 360° 3D-Szene aus einem einzigen Eingabebild. Im Gegensatz zu bestehenden Methoden, die die Szene sequenziell generieren, fassen wir das Problem als Einzelbild-Panorama- und Tiefenschätzung auf. Sobald das kohärente Panoramabild und die entsprechende Tiefe erhalten sind, kann die Szene durch das Ausbessern der kleinen verdeckten Regionen und deren Projektion in den 3D-Raum rekonstruiert werden. Unser Hauptbeitrag besteht darin, die Einzelbild-Panorama- und Tiefenschätzung als zwei Optimierungsaufgaben zu formulieren und alternierende Minimierungsstrategien einzuführen, um ihre Ziele effektiv zu lösen. Wir zeigen, dass unser Ansatz bestehende Techniken in der Einzelbild-360°-Szenenrekonstruktion hinsichtlich Konsistenz und Gesamtqualität übertrifft.
Die Rekonstruktion von Innenräumen bleibt aufgrund der inhärenten Komplexität der räumlichen Strukturen und der Häufigkeit von strukturlosen Regionen eine Herausforderung. Die jüngsten Fortschritte in der 3D-Gaußsplatting haben die neuartige Ansichtssynthese mit beschleunigter Verarbeitung verbessert, konnten jedoch noch keine vergleichbare Leistung bei der Oberflächenrekonstruktion erbringen. In diesem Papier stellen wir 2DGS-Room vor, eine neuartige Methode, die 2D-Gaußsplatting für die hochwertige Rekonstruktion von Innenräumen nutzt. Konkret verwenden wir einen saatgesteuerten Mechanismus, um die Verteilung von 2D-Gaußschen zu steuern, wobei die Dichte der Saatpunkte dynamisch durch adaptive Wachstums- und Beschneidungsmechanismen optimiert wird. Um die geometrische Genauigkeit weiter zu verbessern, integrieren wir monokulare Tiefen- und Normalenprioritäten, um Einschränkungen für Details bzw. strukturlose Regionen bereitzustellen. Darüber hinaus werden Mehrsichtkonsistenzbeschränkungen verwendet, um Artefakte zu reduzieren und die Rekonstruktionsqualität weiter zu verbessern. Umfangreiche Experimente mit den Datensätzen ScanNet und ScanNet++ zeigen, dass unsere Methode eine Spitzenleistung bei der Rekonstruktion von Innenräumen erreicht.
Große Sprachmodelle (LLMs) haben den Dialog zu einem zentralen Modus der Mensch-Maschine-Interaktion gemacht, was zur Ansammlung großer Mengen von Gesprächsprotokollen und einer steigenden Nachfrage nach Dialoggenerierung geführt hat. Ein Gesprächslebenszyklus erstreckt sich von der Einleitung über die Zwiesprache bis zum Epilog und umfasst verschiedene Elemente. Trotz zahlreicher Studien zum Thema Dialog fehlen Benchmarks, die umfassende Dialogelemente abdecken, was präzise Modellierung und systematische Bewertung behindert. Um diese Lücke zu schließen, stellen wir eine innovative Forschungsaufgabe vor: Dialogelement-Modellierung, die Elementbewusstsein und Interaktion des Dialogagenten umfasst, und schlagen einen neuen Benchmark namens DEMO vor, der für eine umfassende Dialogmodellierung und -bewertung konzipiert ist. Inspiriert von Imitationslernen bauen wir weiterhin den Agenten auf, der die geschickte Fähigkeit besitzt, Dialogelemente basierend auf dem DEMO-Benchmark zu modellieren. Umfangreiche Experimente zeigen, dass bestehende LLMs nach wie vor erhebliches Verbesserungspotenzial aufweisen, und unser DEMO-Agent eine überlegene Leistung sowohl bei Aufgaben im eigenen Bereich als auch außerhalb des eigenen Bereichs zeigt.
Belohnungen bleiben eine nicht interpretierbare Methode, um Aufgaben für das Reinforcement Learning festzulegen, da Menschen oft nicht in der Lage sind, das optimale Verhalten einer beliebigen Belohnungsfunktion vorherzusagen, was zu einer schlechten Belohnungsgestaltung und Belohnungsmanipulation führt. Sprache bietet einen ansprechenden Weg, um Absichten an Agenten zu kommunizieren und die Belohnungsgestaltung zu umgehen, aber bisherige Bemühungen in dieser Hinsicht wurden durch kostspielige und nicht skalierbare Beschriftungsbemühungen begrenzt. In dieser Arbeit schlagen wir eine Methode für eine vollständig unüberwachte Alternative vor, um sprachliche Anweisungen auf eine Null-Schuss-Art und Weise zu verankern, um Richtlinien zu erhalten. Wir präsentieren eine Lösung, die in Form von Vorstellung, Projektion und Imitation erfolgt: Der Agent stellt sich die Beobachtungssequenz vor, die der sprachlichen Beschreibung einer Aufgabe entspricht, projiziert die vorgestellte Sequenz in unsere Zielbereich und verankert sie in einer Richtlinie. Video-Sprachmodelle ermöglichen es uns, Aufgabenbeschreibungen vorzustellen, die auf dem Wissen von Aufgaben basieren, das aus Video-Text-Zuordnungen im Internetmaßstab gelernt wurde. Die Herausforderung besteht darin, diese Erzeugnisse auf eine Richtlinie zu verankern. In dieser Arbeit zeigen wir, dass wir eine Null-Schuss-Sprache-zu-Verhaltensrichtlinie erreichen können, indem wir zuerst die vorgestellten Sequenzen in echten Beobachtungen eines unüberwachten RL-Agenten verankern und eine geschlossene Lösung für das Imitationslernen verwenden, die es dem RL-Agenten ermöglicht, die verankerten Beobachtungen nachzuahmen. Unsere Methode, RLZero, ist nach unserem Kenntnisstand die erste, die Null-Schuss-Sprache-zu-Verhaltensgenerierungsfähigkeiten ohne jegliche Aufsicht bei einer Vielzahl von Aufgaben in simulierten Bereichen zeigt. Wir zeigen weiterhin, dass RLZero auch Richtlinien Null-Schuss aus Videos mit unterschiedlichen Körpern generieren kann, wie solche, die von YouTube extrahiert wurden.