Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen SELF-DISCOVER vor, ein allgemeines Framework, das es großen Sprachmodellen (LLMs) ermöglicht, selbstständig die aufgabenintrinsischen Denkstrukturen zu entdecken, um komplexe Denkprobleme zu lösen, die für herkömmliche Prompting-Methoden herausfordernd sind. Kern des Frameworks ist ein Selbstentdeckungsprozess, bei dem LLMs mehrere atomare Denkmodule wie kritisches Denken und schrittweises Denken auswählen und sie zu einer expliziten Denkstruktur kombinieren, die die LLMs während der Dekodierung befolgen. SELF-DISCOVER verbessert die Leistung von GPT-4 und PaLM 2 auf anspruchsvollen Denkbenchmarks wie BigBench-Hard, begründeter Agentenlogik und MATH erheblich – um bis zu 32 % im Vergleich zu Chain of Thought (CoT). Darüber hinaus übertrifft SELF-DISCOVER rechenintensive Methoden wie CoT-Self-Consistency um mehr als 20 %, während es 10-40 Mal weniger Rechenleistung für die Inferenz benötigt. Schließlich zeigen wir, dass die selbstentdeckten Denkstrukturen universell anwendbar sind – über Modellfamilien hinweg: von PaLM 2-L zu GPT-4 und von GPT-4 zu Llama2 – und Gemeinsamkeiten mit menschlichen Denkmustern aufweisen.
Vortrainierte große Sprachmodelle (LLMs) zeigen außergewöhnliche Fähigkeiten in der allgemeinen Sprachverarbeitung, stellen jedoch erhebliche Anforderungen an Speicher und Rechenressourcen. Als leistungsstarke Kompressionstechnologie kann die Binarisierung die Modellgewichte auf lediglich 1 Bit reduzieren, wodurch der teure Rechen- und Speicherbedarf gesenkt wird. Bisherige Quantisierungstechniken scheitern jedoch daran, die Leistung von LLMs bei ultra-niedrigen Bitbreiten aufrechtzuerhalten. Als Antwort auf diese Herausforderung präsentieren wir BiLLM, ein bahnbrechendes 1-Bit-Post-Training-Quantisierungsschema, das speziell für vortrainierte LLMs entwickelt wurde. Basierend auf der Gewichtsverteilung von LLMs identifiziert und selektiert BiLLM zunächst strukturell relevante Gewichte und minimiert den Kompressionsverlust durch eine effektive binäre Restapproximationsstrategie. Darüber hinaus schlagen wir unter Berücksichtigung der glockenförmigen Verteilung der nicht relevanten Gewichte eine optimale Teilungssuche vor, um diese präzise zu gruppieren und zu binarisieren. BiLLM erreicht erstmals eine hochgenaue Inferenz (z. B. 8,41 Perplexität bei LLaMA2-70B) mit nur 1,08-Bit-Gewichten über verschiedene LLM-Familien und Bewertungsmetriken hinweg und übertrifft damit die aktuellsten Quantisierungsmethoden für LLMs deutlich. Darüber hinaus ermöglicht BiLLM den Binarisierungsprozess eines LLMs mit 7 Milliarden Gewichten innerhalb von 0,5 Stunden auf einer einzelnen GPU, was eine zufriedenstellende Zeiteffizienz demonstriert.
State-Space-Modelle (SSMs), wie beispielsweise Mamba Gu & Dao (2034), wurden als Alternativen zu Transformer-Netzwerken im Bereich der Sprachmodellierung vorgeschlagen. Sie integrieren Gating-Mechanismen, Faltungen und inputabhängige Token-Auswahl, um die quadratischen Kosten der Multi-Head-Attention zu reduzieren. Obwohl SSMs eine wettbewerbsfähige Leistung zeigen, sind ihre Fähigkeiten im Bereich des In-Context-Learning (ICL) – eine bemerkenswerte emergente Eigenschaft moderner Sprachmodelle, die die Ausführung von Aufgaben ohne Parameteroptimierung ermöglicht – im Vergleich zu Transformern noch unzureichend erforscht. In dieser Studie bewerten wir die ICL-Leistung von SSMs, insbesondere von Mamba, im Vergleich zu Transformer-Modellen über verschiedene Aufgaben hinweg. Unsere Ergebnisse zeigen, dass SSMs in standardmäßigen Regressions-ICL-Aufgaben vergleichbar mit Transformern abschneiden, während sie in Aufgaben wie dem Lernen von spärlicher Parität überlegen sind. Allerdings zeigen SSMs Schwächen bei Aufgaben, die nicht-standardmäßige Retrieval-Funktionalität erfordern. Um diese Einschränkungen zu adressieren, führen wir ein hybrides Modell, \variant, ein, das Mamba mit Attention-Blöcken kombiniert und in Aufgaben, in denen die einzelnen Modelle unabhängig voneinander Schwierigkeiten haben, übertrifft. Unsere Ergebnisse deuten darauf hin, dass hybride Architekturen vielversprechende Ansätze zur Verbesserung des ICL in Sprachmodellen bieten.
Die Skalierung des kontrastiven Sprach-Bild-Pretrainings (CLIP) ist entscheidend, um sowohl Vision- als auch multimodale Modelle zu stärken. Wir präsentieren EVA-CLIP-18B, das bisher größte und leistungsstärkste Open-Source-CLIP-Modell mit 18 Milliarden Parametern. Mit nur 6 Milliarden Trainingsbeispielen erreicht EVA-CLIP-18B eine außergewöhnliche Zero-Shot-Top-1-Genauigkeit von 80,7 % im Durchschnitt über 27 weit anerkannte Bildklassifizierungs-Benchmarks und übertrifft damit seinen Vorgänger EVA-CLIP (5 Milliarden Parameter) und andere Open-Source-CLIP-Modelle deutlich. Bemerkenswerterweise beobachten wir eine konsistente Leistungssteigerung mit der Skalierung der Modellgröße von EVA-CLIP, obwohl ein konstanter Trainingsdatensatz von 2 Milliarden Bild-Text-Paaren aus LAION-2B und COYO-700M beibehalten wird. Dieser Datensatz ist öffentlich verfügbar und deutlich kleiner als die internen Datensätze (z. B. DFN-5B, WebLI-10B), die in anderen state-of-the-art CLIP-Modellen verwendet werden. EVA-CLIP-18B demonstriert das Potenzial der EVA-artigen schwachen bis starken Skalierung von visuellen Modellen. Mit der öffentlichen Bereitstellung unserer Modellgewichte hoffen wir, zukünftige Forschung in Vision- und multimodalen Foundation-Modellen zu fördern.
Die Bild-zu-Video-Generierung (Image-to-Video, I2V) zielt darauf ab, mithilfe des Anfangsbildes (sowie eines Textprompts) eine Videosequenz zu erstellen. Eine große Herausforderung bei der I2V-Generierung besteht darin, die visuelle Konsistenz im gesamten Video aufrechtzuerhalten: bestehende Methoden haben oft Schwierigkeiten, die Integrität des Subjekts, des Hintergrunds und des Stils vom ersten Bild zu bewahren sowie einen flüssigen und logischen Fortgang innerhalb der Videonarative zu gewährleisten. Um diese Probleme zu mildern, schlagen wir ConsistI2V vor, eine diffusionsbasierte Methode zur Verbesserung der visuellen Konsistenz bei der I2V-Generierung. Insbesondere führen wir (1) eine raumzeitliche Aufmerksamkeit über das erste Bild ein, um die räumliche und Bewegungs-Konsistenz zu erhalten, und (2) eine Rauschinitialisierung aus dem niederfrequenten Band des ersten Bildes, um die Layout-Konsistenz zu verbessern. Diese beiden Ansätze ermöglichen es ConsistI2V, hochkonsistente Videos zu generieren. Wir erweitern die vorgeschlagenen Ansätze, um ihr Potenzial zur Verbesserung der Konsistenz bei der autoregressiven Langvideo-Generierung und der Kamerabewegungssteuerung aufzuzeigen. Um die Wirksamkeit unserer Methode zu überprüfen, schlagen wir I2V-Bench vor, einen umfassenden Bewertungsmaßstab für die I2V-Generierung. Unsere automatischen und menschlichen Bewertungsergebnisse demonstrieren die Überlegenheit von ConsistI2V gegenüber bestehenden Methoden.
Skalierungsgesetze liefern wichtige Erkenntnisse, die das Design großer Sprachmodelle (LLMs) leiten können. Bisherige Arbeiten konzentrierten sich hauptsächlich auf die Untersuchung von Skalierungsgesetzen für den Pretraining-Verlust (Upstream). In Transfer-Learning-Szenarien jedoch, in denen LLMs auf einem unüberwachten Datensatz vortrainiert und anschließend auf eine Downstream-Aufgabe feinabgestimmt werden, ist oft auch die Downstream-Leistung von Interesse. In dieser Arbeit untersuchen wir das Skalierungsverhalten in einem Transfer-Learning-Setting, in dem LLMs für maschinelle Übersetzungsaufgaben feinabgestimmt werden. Insbesondere analysieren wir, wie die Wahl der Pretraining-Daten und deren Umfang die Downstream-Leistung (Übersetzungsqualität) beeinflussen, gemessen an zwei Metriken: Downstream-Cross-Entropy und BLEU-Score. Unsere Experimente zeigen, dass die Größe des Feinabstimmungsdatensatzes und die Verteilungsübereinstimmung zwischen den Pretraining- und Downstream-Daten das Skalierungsverhalten maßgeblich beeinflussen. Bei ausreichender Übereinstimmung verbessern sich sowohl die Downstream-Cross-Entropy als auch der BLEU-Score monoton mit mehr Pretraining-Daten. In solchen Fällen zeigen wir, dass es möglich ist, den Downstream-BLEU-Score mit guter Genauigkeit mithilfe eines logarithmischen Gesetzes vorherzusagen. Es gibt jedoch auch Fälle, in denen eine mäßige Fehlausrichtung dazu führt, dass der BLEU-Score schwankt oder sich mit mehr Pretraining verschlechtert, während die Downstream-Cross-Entropy monoton ansteigt. Durch die Analyse dieser Beobachtungen liefern wir neue praktische Erkenntnisse für die Auswahl geeigneter Pretraining-Daten.
Wir stellen MusicRL vor, das erste Musikgenerierungssystem, das durch menschliches Feedback feinabgestimmt wurde. Die Bewertung von Text-zu-Musik-Modellen ist besonders subjektiv, da sowohl das Konzept der Musikalität als auch die spezifische Absicht hinter einer Beschreibung benutzerabhängig sind (z. B. kann eine Beschreibung wie „beschwingte Workout-Musik“ auf ein Retro-Gitarrensolo oder einen Techno-Pop-Beat verweisen). Dies macht nicht nur das überwachte Training solcher Modelle herausfordernd, sondern erfordert auch die Integration kontinuierlichen menschlichen Feedbacks in ihre Feinabstimmung nach der Bereitstellung. MusicRL ist ein vortrainiertes autoregressives MusicLM-Modell (Agostinelli et al., 2023) diskreter Audiotoken, das mit Verstärkungslernen feinabgestimmt wurde, um sequenzielle Belohnungen zu maximieren. Wir entwerfen Belohnungsfunktionen, die speziell auf Texttreue und Audioqualität abzielen, und nutzen diese, um MusicLM zu MusicRL-R zu verfeinern. Wir stellen MusicLM Nutzern zur Verfügung und sammeln einen umfangreichen Datensatz mit 300.000 paarweisen Präferenzen. Mithilfe von Reinforcement Learning from Human Feedback (RLHF) trainieren wir MusicRL-U, das erste Text-zu-Musik-Modell, das menschliches Feedback in großem Maßstab integriert. Menschliche Bewertungen zeigen, dass sowohl MusicRL-R als auch MusicRL-U dem Baseline-Modell vorgezogen werden. Schließlich kombiniert MusicRL-RU die beiden Ansätze und ergibt das laut menschlichen Bewertern beste Modell. Ablationsstudien beleuchten die musikalischen Attribute, die menschliche Präferenzen beeinflussen, und zeigen, dass Texttreue und Qualität nur einen Teil davon ausmachen. Dies unterstreicht die Vorherrschaft der Subjektivität in der musikalischen Wertschätzung und fordert eine stärkere Einbindung menschlicher Zuhörer in die Feinabstimmung von Musikgenerierungsmodellen.
Wir stellen MobileVLM V2 vor, eine Familie deutlich verbesserter Vision-Language-Modelle auf Basis von MobileVLM, die zeigt, dass eine sorgfältige Abstimmung von neuartigen Architekturdesigns, einem verbesserten Trainingsschema, das speziell für mobile VLMs entwickelt wurde, und der Kuratierung umfangreicher, hochwertiger Datensätze die Leistung von VLMs erheblich steigern kann. Insbesondere erreicht MobileVLM V2 1.7B eine bessere oder gleichwertige Leistung auf standardisierten VLM-Benchmarks im Vergleich zu deutlich größeren VLMs im 3B-Maßstab. Bemerkenswerterweise übertrifft unser 3B-Modell eine Vielzahl von VLMs im 7B+-Maßstab. Unsere Modelle werden unter https://github.com/Meituan-AutoML/MobileVLM veröffentlicht.
Jüngste Fortschritte bei großen Sprachmodellen haben das Interesse an ihren außergewöhnlichen und nahezu übermenschlichen Fähigkeiten geweckt, was Forscher dazu veranlasst, Methoden zur Bewertung und Optimierung dieser Fähigkeiten zu untersuchen, ein Prozess, der als Superalignment bezeichnet wird. In diesem Kontext taucht unser Papier in den Bereich der Vision-Foundation-Modelle ein und konzentriert sich auf das Konzept der schwachen-zu-starken Generalisierung, bei der ein schwächeres Modell zur Überwachung eines stärkeren Modells verwendet wird, mit dem Ziel, die Fähigkeiten des letzteren über die Grenzen des ersteren hinaus zu steigern. Wir führen eine neuartige und adaptiv anpassbare Verlustfunktion für die schwache-zu-starke Überwachung ein. Unsere umfassenden Experimente umfassen verschiedene Szenarien, darunter Few-Shot-Lernen, Transferlernen, Lernen mit verrauschten Labels und gängige Wissensdistillationsszenarien. Die Ergebnisse sind beeindruckend: Unser Ansatz übertrifft nicht nur die Leistungsbenchmarks, die durch starke-zu-starke Generalisierung gesetzt wurden, sondern übertrifft auch die Ergebnisse des Feinabstimmens starker Modelle mit vollständigen Datensätzen. Diese überzeugenden Beweise unterstreichen das erhebliche Potenzial der schwachen-zu-starken Generalisierung und zeigen ihre Fähigkeit, die Leistung von Vision-Foundation-Modellen erheblich zu steigern. Der Code ist verfügbar unter https://github.com/ggjy/vision_weak_to_strong.
CodeCompose ist ein KI-gestütztes Code-Erstellungstool, das von großen Sprachmodellen (LLMs) angetrieben wird und Inline-Vorschläge für zehntausende Entwickler bei Meta bereitstellt. In diesem Artikel zeigen wir, wie wir das Produkt von der Anzeige von Einzeilen-Vorschlägen auf Mehrzeilen-Vorschläge skaliert haben. Diese Weiterentwicklung erforderte die Bewältigung mehrerer einzigartiger Herausforderungen, um die Benutzerfreundlichkeit dieser Vorschläge für Entwickler zu verbessern. Zunächst erörtern wir, wie Mehrzeilen-Vorschläge einen „erschütternden“ Effekt haben können, da die Vorschläge des LLMs den bestehenden Code des Entwicklers ständig verschieben, was andernfalls zu einer verringerten Produktivität und Zufriedenheit führen würde. Zweitens dauert die Generierung von Mehrzeilen-Vorschlägen deutlich länger; daher stellen wir mehrere innovative Investitionen vor, die wir getätigt haben, um die wahrgenommene Latenz für die Benutzer zu reduzieren. Diese Optimierungen im Modell-Hosting beschleunigten die Latenz von Mehrzeilen-Vorschlägen um das 2,5-fache. Schließlich führen wir Experimente mit zehntausenden Ingenieuren durch, um zu verstehen, wie sich Mehrzeilen-Vorschläge auf das Benutzererlebnis auswirken, und vergleichen dies mit Einzeilen-Vorschlägen. Unsere Experimente zeigen, dass (i) Mehrzeilen-Vorschläge 42 % der insgesamt akzeptierten Zeichen ausmachen (obwohl sie nur 16 % der angezeigten Vorschläge darstellen) und (ii) Mehrzeilen-Vorschläge den Prozentsatz der eingesparten Tastenanschläge für Benutzer nahezu verdoppelt haben, von 9 % auf 17 %. Mehrzeilen-CodeCompose wurde für alle Ingenieure bei Meta eingeführt, und weniger als 1 % der Ingenieure haben sich gegen Mehrzeilen-Vorschläge entschieden.
Für die Erfassung und Analyse von Gesichtsbewegungen dominieren in der Regel Lösungen, die auf visuellen Hinweisen basieren. Diese können jedoch die Privatsphäre nicht schützen und sind anfällig für Verdeckungen. Inertiale Messeinheiten (IMUs) bieten potenzielle Rettungsmöglichkeiten, werden jedoch hauptsächlich für die Erfassung von Ganzkörperbewegungen eingesetzt. In diesem Artikel schlagen wir IMUSIC vor, um diese Lücke zu schließen – einen neuartigen Ansatz zur Erfassung von Gesichtsausdrücken ausschließlich mithilfe von IMU-Signalen, der sich deutlich von bisherigen visuellen Lösungen unterscheidet. Der Schlüsselentwurf in unserem IMUSIC besteht aus einer Trilogie. Zunächst entwerfen wir Mikro-IMUs, die für die Gesichtserfassung geeignet sind, begleitet von einem anatomiegesteuerten IMU-Platzierungsschema. Dann stellen wir einen neuartigen IMU-ARKit-Datensatz bereit, der umfangreiche gepaarte IMU/visuelle Signale für verschiedene Gesichtsausdrücke und -performances bietet. Diese einzigartige Multimodalität birgt ein enormes Potenzial für zukünftige Richtungen wie die IMU-basierte Analyse von Gesichtsverhalten. Darüber hinaus führen wir mithilfe von IMU-ARKit einen robusten Baseline-Ansatz ein, um Gesichts-Blendshape-Parameter präzise aus reinen IMU-Signalen vorherzusagen. Insbesondere passen wir ein Transformer-Diffusionsmodell mit einer zweistufigen Trainingsstrategie für diese neuartige Tracking-Aufgabe an. Das IMUSIC-Framework ermöglicht es uns, präzise Gesichtserfassungen in Szenarien durchzuführen, in denen visuelle Methoden versagen, und gleichzeitig die Privatsphäre der Nutzer zu schützen. Wir führen umfangreiche Experimente sowohl zur IMU-Konfiguration als auch zu den technischen Komponenten durch, um die Wirksamkeit unseres IMUSIC-Ansatzes zu validieren. Insbesondere ermöglicht IMUSIC verschiedene potenzielle und neuartige Anwendungen, wie z.B. die privatsphäreschützende Gesichtserfassung, die hybride Erfassung gegen Verdeckungen oder die Erkennung minimaler Gesichtsbewegungen, die oft durch visuelle Hinweise unsichtbar sind. Wir werden unseren Datensatz und unsere Implementierungen veröffentlichen, um die Möglichkeiten der Gesichtserfassung und -analyse in unserer Gemeinschaft zu bereichern.
Wir schlagen das Feinabstimmen großer Sprachmodelle für die Generierung stabiler Materialien vor. Obwohl unkonventionell, ist das Feinabstimmen großer Sprachmodelle auf textkodierte atomistische Daten einfach zu implementieren und dennoch zuverlässig, wobei etwa 90 % der generierten Strukturen physikalische Beschränkungen bezüglich Atompositionen und Ladungen einhalten. Mithilfe von Energie-above-hull-Berechnungen sowohl aus gelernten ML-Potenzialen als auch aus Goldstandard-DFT-Berechnungen zeigen wir, dass unser stärkstes Modell (feinabgestimmtes LLaMA-2 70B) Materialien generieren kann, die mit etwa der doppelten Rate (49 % vs. 28 %) als metastabil vorhergesagt werden im Vergleich zu CDVAE, einem konkurrierenden Diffusionsmodell. Aufgrund der inhärenten Flexibilität von Textprompts können unsere Modelle gleichzeitig für die bedingungslose Generierung stabiler Materialien, das Ergänzen partieller Strukturen und die textbedingte Generierung verwendet werden. Schließlich zeigen wir, dass die Fähigkeit von Sprachmodellen, Schlüsselsymmetrien von Kristallstrukturen zu erfassen, mit der Modellgröße zunimmt, was darauf hindeutet, dass die Voreinstellungen vortrainierter LLMs überraschend gut für atomistische Daten geeignet sind.
Vision-Language-Modelle (VLMs) haben ihre breite Anwendbarkeit dank umfangreichen Trainings zur Ausrichtung visueller Anweisungen auf Antworten unter Beweis gestellt. Diese abschließende Ausrichtung führt jedoch dazu, dass Modelle kritisches visuelles Denken ignorieren, was zu Fehlern bei sorgfältigen visuellen Problemen und unzuverlässigen Antworten führt. In diesem Artikel schlagen wir Chain of Manipulations vor, einen Mechanismus, der VLMs ermöglicht, Probleme durch eine Reihe von Manipulationen zu lösen, wobei sich jede Manipulation auf eine Operation am visuellen Eingabematerial bezieht, entweder aus intrinsischen Fähigkeiten (z. B. Verankerung), die durch vorheriges Training erworben wurden, oder durch die Nachahmung menschlicher Verhaltensweisen (z. B. Zoomen). Dieser Mechanismus fördert, dass VLMs zuverlässige Antworten mit nachweislichem visuellen Denken generieren, und ermöglicht es Benutzern, Fehlerursachen in den interpretierbaren Pfaden nachzuvollziehen. Wir trainieren daher CogCoM, ein allgemeines 17B-VLM mit einer speicherbasierten, kompatiblen Architektur, die mit diesem Denkmechanismus ausgestattet ist. Experimente zeigen, dass unser Modell die state-of-the-art-Leistung über 8 Benchmarks aus 3 Kategorien erreicht und mit einer begrenzten Anzahl von Trainingsschritten und den Daten schnell eine wettbewerbsfähige Leistung erzielt. Der Code und die Daten sind öffentlich unter https://github.com/THUDM/CogCoM verfügbar.
Wir stellen EscherNet vor, ein multi-view-bedingtes Diffusionsmodell für die Ansichtssynthese. EscherNet lernt implizite und generative 3D-Repräsentationen, gekoppelt mit einer spezialisierten Kamerapositionskodierung, die eine präzise und kontinuierliche relative Steuerung der Kameratransformation zwischen einer beliebigen Anzahl von Referenz- und Zielansichten ermöglicht. EscherNet bietet außergewöhnliche Allgemeingültigkeit, Flexibilität und Skalierbarkeit in der Ansichtssynthese – es kann mehr als 100 konsistente Zielansichten gleichzeitig auf einer einzigen Consumer-GPU generieren, obwohl es mit einer festen Anzahl von 3 Referenzansichten zu 3 Zielansichten trainiert wurde. Dadurch adressiert EscherNet nicht nur die Zero-Shot-Novel-View-Synthese, sondern vereint auch natürlich die Einzel- und Mehrbild-3D-Rekonstruktion, indem es diese vielfältigen Aufgaben in einem einzigen, kohärenten Framework kombiniert. Unsere umfangreichen Experimente zeigen, dass EscherNet in mehreren Benchmarks state-of-the-art Leistungen erzielt, selbst im Vergleich zu Methoden, die speziell für jedes einzelne Problem entwickelt wurden. Diese bemerkenswerte Vielseitigkeit eröffnet neue Richtungen für die Gestaltung skalierbarer neuronaler Architekturen für die 3D-Vision. Projektseite: https://kxhit.github.io/EscherNet.
Wir stellen das Diffusion World Model (DWM) vor, ein bedingtes Diffusionsmodell, das in der Lage ist, mehrstufige zukünftige Zustände und Belohnungen gleichzeitig vorherzusagen. Im Gegensatz zu traditionellen einstufigen Dynamikmodellen bietet DWM Langzeitvorhersagen in einem einzigen Vorwärtsdurchlauf, wodurch die Notwendigkeit rekursiver Abfragen entfällt. Wir integrieren DWM in die modellbasierte Werteinschätzung, bei der die kurzfristige Rendite durch zukünftige Trajektorien simuliert wird, die aus DWM abgetastet werden. Im Kontext des Offline-Reinforcement-Learnings kann DWM als eine konservative Wertregularisierung durch generatives Modellieren betrachtet werden. Alternativ kann es als Datenquelle angesehen werden, die Offline-Q-Learning mit synthetischen Daten ermöglicht. Unsere Experimente mit dem D4RL-Datensatz bestätigen die Robustheit von DWM bei der Langzeitsimulation. In Bezug auf die absolute Leistung übertrifft DWM einstufige Dynamikmodelle deutlich mit einem Leistungsgewinn von 44 % und erreicht state-of-the-art Leistung.