papers.description
Wir stellen TurboDiffusion vor, ein Beschleunigungsframework für die Videogenerierung, das die end-to-end Diffusionsgenerierung um das 100-200-fache beschleunigen kann, während die Videoqualität erhalten bleibt. TurboDiffusion stützt sich für die Beschleunigung hauptsächlich auf mehrere Komponenten: (1) Aufmerksamkeitsbeschleunigung: TurboDiffusion verwendet Low-Bit-SageAttention und trainierbare Sparse-Linear-Attention (SLA), um die Aufmerksamkeitsberechnung zu beschleunigen. (2) Schritt-Distillation: TurboDiffusion übernimmt rCM für eine effiziente Schritt-Distillation. (3) W8A8-Quantisierung: TurboDiffusion quantisiert Modellparameter und Aktivierungen auf 8 Bit, um lineare Schichten zu beschleunigen und das Modell zu komprimieren. Darüber hinaus integriert TurboDiffusion mehrere weitere technische Optimierungen. Wir führen Experimente mit den Modellen Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P und Wan2.1-T2V-14B-480P durch. Die experimentellen Ergebnisse zeigen, dass TurboDiffusion selbst auf einer einzelnen RTX-5090-GPU eine 100-200-fache Beschleunigung der Videogenerierung erreicht, bei vergleichbarer Videoqualität. Das GitHub-Repository, das Modell-Checkpoints und einfach zu verwendenden Code enthält, ist unter https://github.com/thu-ml/TurboDiffusion verfügbar.
Vision-Language-Modelle (VLM) zeichnen sich durch ein allgemeines Verständnis aus, sind jedoch nach wie vor schwach in der dynamischen räumlichen Reasoning (DSR), also dem Schlussfolgern über die Entwicklung von Objektgeometrien und -beziehungen im 3D-Raum über die Zeit. Dies ist größtenteils auf den Mangel an skalierbaren, 4D-bewussten Trainingsressourcen zurückzuführen. Um diese Lücke in den Bereichen Datensatz, Benchmark und Modell zu schließen, führen wir die DSR Suite ein. Zunächst schlagen wir einen automatisierten Pipeline vor, die Multiple-Choice-Frage-Antwort-Paare aus In-the-Wild-Videos für DSR generiert. Durch die Nutzung moderner Vision-Foundation-Modelle extrahiert die Pipeline umfangreiche geometrische und Bewegungsinformationen, einschließlich Kameraposen, lokaler Punktwolken, Objektmasken, Orientierungen und 3D-Trajektorien. Diese geometrischen Hinweise ermöglichen die Erstellung von DSR-Train für das Lernen und des weiter menschlich verfeinerten DSR-Bench für die Evaluation. Im Vergleich zu früheren Arbeiten legen unsere Daten Wert auf (i) In-the-Wild-Videoquellen, (ii) Objekt- und Szenenebenen-3D-Anforderungen, (iii) Blickpunkttransformationen, (iv) Multi-Objekt-Interaktionen und (v) feinkörnige, prozessuale Antworten. Über Daten hinaus schlagen wir ein leichtgewichtiges Geometry Selection Module (GSM) vor, um geometrische Priors nahtlos in VLMs zu integrieren. Dieses moduliert die Fragesemantik und extrahiert fragerelevantes Wissen aus vortrainierten 4D-Rekonstruktions-Priors in einen kompakten Satz von Geometrie-Tokens. Diese gezielte Extraktion vermeidet es, das Modell mit irrelevantem Wissen zu überfluten. Experimente zeigen, dass die Integration von DSR-Train und GSM in Qwen2.5-VL-7B dessen Fähigkeit zum dynamischen räumlichen Reasoning erheblich verbessert, während die Genauigkeit auf Benchmarks für allgemeines Videoverständnis erhalten bleibt.
Text-to-Audio-Video (T2AV)-Generierung zielt darauf ab, zeitlich kohärente Videos und semantisch synchronisierte Audiodaten aus natürlicher Sprache zu synthetisieren. Dennoch bleibt ihre Evaluation fragmentiert und stützt sich häufig auf unimodale Metriken oder eng gefasste Benchmarks, die keine cross-modale Ausrichtung, Befolgung von Instruktionen und perzeptuelle Realitätsnähe unter komplexen Prompts erfassen. Um diese Einschränkung zu adressieren, stellen wir T2AV-Compass vor – einen vereinheitlichten Benchmark für die umfassende Evaluation von T2AV-Systemen. Dieser besteht aus 500 diversen und komplexen Prompts, die über eine taxonomiegesteuerte Pipeline konstruiert wurden, um semantische Reichhaltigkeit und physikalische Plausibilität zu gewährleisten. Zudem führt T2AV-Compass ein dual-level Evaluationsframework ein, das objektive signalbasierte Metriken für Videoqualität, Audioqualität und cross-modale Synchronisation mit einem subjektiven MLLM-as-a-Judge-Protokoll zur Überprüfung der Instruktionsbefolgung und Realismusbewertung integriert. Eine umfangreiche Evaluation von 11 repräsentativen T2AV-Systemen zeigt, dass selbst die leistungsstärksten Modelle deutlich hinter menschlicher Realitätsnähe und cross-modaler Konsistenz zurückbleiben, mit anhaltenden Defiziten in Audio-Realismus, feinkörniger Synchronisation und Instruktionsbefolgung. Diese Ergebnisse deuten auf erheblichen Verbesserungsbedarf für zukünftige Modelle hin und unterstreichen den Wert von T2AV-Compass als anspruchsvolles und diagnostisches Testfeld für die Weiterentwicklung der Text-zu-Audio-Video-Generierung.
Die "One-Shot"-Technik verkörpert eine eigenständige und anspruchsvolle Ästhetik in der Filmproduktion. Deren praktische Umsetzung wird jedoch häufig durch prohibitive Kosten und komplexe realweltliche Einschränkungen behindert. Obwohl neu aufkommende Video-Generierungsmodelle eine virtuelle Alternative bieten, stützen sich bestehende Ansätze typischerweise auf naive Clip-Verkettung, die häufig die visuelle Geschmeidigkeit und zeitliche Kohärenz nicht aufrechterhalten kann. In diesem Beitrag stellen wir DreaMontage vor, einen umfassenden Rahmen für die beliebig rahmengesteuerte Generierung, der in der Lage ist, nahtlose, ausdrucksstarke und langandauernde One-Shot-Videos aus diversen benutzerbereitgestellten Eingaben zu synthetisieren. Um dies zu erreichen, adressieren wir die Herausforderung in drei Hauptdimensionen. (i) Wir integrieren einen leichtgewichtigen Intermediate-Conditioning-Mechanismus in die DiT-Architektur. Durch den Einsatz einer Adaptive-Tuning-Strategie, die Basistrainingsdaten effektiv nutzt, erschließen wir robuste Fähigkeiten zur beliebigen Rahmensteuerung. (ii) Zur Steigerung der visuellen Qualität und filmischen Ausdruckskraft kuratieren wir einen hochwertigen Datensatz und implementieren eine Visual-Expression-SFT-Stufe. Bei der Behandlung kritischer Probleme wie der Rationalität der Subjektbewegung und Übergangsglätte wenden wir ein maßgeschneidertes DPO-Schema an, das die Erfolgsquote und Nutzbarkeit der generierten Inhalte signifikant verbessert. (iii) Um die Produktion längerer Sequenzen zu ermöglichen, entwerfen wir eine segmentweise autoregressive (SAR) Inferenzstrategie, die speichereffizient arbeitet. Umfangreiche Experimente belegen, dass unser Ansatz visuell eindrucksvolle und nahtlos kohärente One-Shot-Effekte erzielt und dabei Recheneffizienz wahrt, wodurch Nutzer befähigt werden, fragmentierte visuelle Materialien in lebendige, geschlossene One-Shot-Filmerlebnisse zu transformieren.
Wir weisen eine erhebliche Popularitätsverzerrung in modernen Vision-Language-Modellen (VLMs) nach, die bei berühmten Gebäuden eine bis zu 34 % höhere Genauigkeit erzielen als bei gewöhnlichen. Dies deutet auf eine Abhängigkeit von Auswendiggelerntem hin und nicht auf ein generalisierbares Verständnis. Um dies systematisch zu untersuchen, führen wir den größten offenen Benchmark für diese Aufgabe ein: den YearGuessr-Datensatz. Diese Sammlung umfasst 55.546 Gebäudebilder mit multimodalen Attributen aus 157 Ländern, die mit kontinuierlichen ordinalen Labels für ihr Baujahr (1001–2024), GPS-Daten und Seitenaufrufzahlen als Indikator für die Popularität annotiert sind. Mithilfe dieses Datensatzes formulieren wir die Aufgabe der Baujahrsvorhersage als ordinale Regression und führen popularitätsbewusste Intervall-Genauigkeitsmetriken ein, um diese Verzerrung zu quantifizieren. Unser daraus resultierender Benchmark von über 30 Modellen, einschließlich unseres YearCLIP-Modells, bestätigt, dass VLMs bei populären, auswendig gelernten Objekten hervorragend abschneiden, bei unbekannten Subjekten jedoch erheblich Schwierigkeiten haben – was einen kritischen Fehler in ihren Fähigkeiten zur Schlussfolgerung offenlegt. Projektseite: https://sytwu.github.io/BeyondMemo/
Wir stellen Nemotron 3 Nano 30B-A3B vor, ein Mixture-of-Experts-Hybridmodell auf Basis eines Mamba-Transformer-Sprachmodells. Nemotron 3 Nano wurde mit 25 Billionen Text-Tokens vortrainiert, darunter mehr als 3 Billionen neue, einzigartige Tokens zusätzlich zu Nemotron 2, gefolgt von überwachtem Fine-Tuning und Large-Scale Reinforcement Learning in diversen Umgebungen. Nemotron 3 Nano erzielt eine höhere Genauigkeit als unsere vorherige Generation Nemotron 2 Nano, wobei pro Vorwärtsdurchlauf weniger als die Hälfte der Parameter aktiviert werden. Es erreicht bis zu 3,3-mal höheren Inferenz-Durchsatz als ähnlich große Open-Modelle wie GPT-OSS-20B und Qwen3-30B-A3B-Thinking-2507, bei gleichzeitig besserer Leistung in gängigen Benchmarks. Nemotron 3 Nano zeigt verbesserte agentenbasierte, schlussfolgernde und Chat-Fähigkeiten und unterstützt Kontextlängen von bis zu 1 Million Tokens. Wir veröffentlichen sowohl unsere vortrainierte Nemotron 3 Nano 30B-A3B Basis als auch die nachtrainierten Nemotron 3 Nano 30B-A3B Checkpoints auf Hugging Face.
Die Erzeugung hochauflösender Videos, obwohl entscheidend für digitale Medien und Film, wird durch die quadratische Komplexität von Diffusionsmodellen rechenseitig limitiert, was praktische Inferenz unmöglich macht. Um dies zu adressieren, führen wir HiStream ein, ein effizientes autoregressives Framework, das Redundanzen systematisch entlang dreier Achsen reduziert: i) *Spatiale Kompression*: Entrauschen bei niedriger Auflösung vor der Verfeinerung bei hoher Auflösung mit zwischengespeicherten Merkmalen; ii) *Temporale Kompression*: Eine Chunk-für-Chunk-Strategie mit einem Festgrößen-Anker-Cache, die eine stabile Inferenzgeschwindigkeit gewährleistet; und iii) *Zeitschritt-Kompression*: Anwendung weniger Entrauschungsschritte auf nachfolgende, cache-konditionierte Chunks. Auf 1080p-Benchmarks erreicht unser primäres HiStream-Modell (i+ii) state-of-the-art visuelle Qualität bei gleichzeitig bis zu 76,2-fach schnellerer Entrauschung im Vergleich zur Wan2.1-Basislinie und vernachlässigbarem Qualitätsverlust. Unsere schnellere Variante, HiStream+, wendet alle drei Optimierungen an (i+ii+iii), erreicht eine 107,5-fache Beschleunigung gegenüber der Basislinie und bietet eine überzeugende Balance zwischen Geschwindigkeit und Qualität, wodurch die Erzeugung hochauflösender Videos sowohl praktikabel als auch skalierbar wird.
Wir stellen die Nemotron-3-Modellfamilie vor – Nano, Super und Ultra. Diese Modelle bieten herausragende agentenbasierte, schlussfolgernde und konversationelle Fähigkeiten. Die Nemotron-3-Familie nutzt eine Mixture-of-Experts-Hybridarchitektur aus Mamba- und Transformer-Komponenten, um eine branchenführende Durchsatzrate und Kontextlängen von bis zu 1 Million Tokens zu ermöglichen. Die Super- und Ultra-Modelle wurden mit NVFP4 trainiert und integrieren LatentMoE, einen neuartigen Ansatz zur Steigerung der Modellqualität. Die beiden größeren Modelle enthalten zudem MTP-Schichten für eine schnellere Texterzeugung. Alle Nemotron-3-Modelle wurden nachträglich mit Multi-Environment Reinforcement Learning trainiert, wodurch logisches Schlussfolgern, mehrstufige Werkzeugnutzung und eine granulare Steuerung des Reasoning-Budgets ermöglicht werden. Nano, das kleinste Modell, übertrifft vergleichbare Modelle in der Genauigkeit und bleibt dabei äußerst kosteneffizient in der Inferenz. Super ist für kollaborative Agenten und hochvolumige Workloads wie die IT-Ticket-Automatisierung optimiert. Ultra, das größte Modell, bietet state-of-the-art Genauigkeit und Reasoning-Leistung. Nano wird zusammen mit seinem Technischen Bericht und diesem White Paper veröffentlicht, Super und Ultra werden in den kommenden Monaten folgen. Wir werden die Modellgewichte, die Vor- und Nachtrainierungssoftware, Trainingsrezepte sowie alle Daten, für die wir Weiterverbreitungsrechte besitzen, offen bereitstellen.
Tokenizer bilden die grundlegende Basis, auf der Text durch Sprachmodelle (LMs) repräsentiert und verarbeitet wird. Trotz der Bedeutung der Tokenisierung ist ihre Rolle für die Leistung und das Verhalten von LMs aufgrund der Schwierigkeit, den Einfluss der Tokenisierung isoliert zu messen, kaum verstanden. Um diesem Bedarf gerecht zu werden, stellen wir TokSuite vor, eine Sammlung von Modellen und ein Benchmark, das die Erforschung des Einflusses der Tokenisierung auf LMs unterstützt. Konkret trainieren wir vierzehn Modelle, die unterschiedliche Tokenizer verwenden, ansonsten aber identisch sind – mit derselben Architektur, demselben Datensatz, demselben Trainingsbudget und derselben Initialisierung. Zusätzlich stellen wir einen neuen Benchmark zusammen und veröffentlichen ihn, der speziell die Modellleistung unter realen Störungen misst, die wahrscheinlich die Tokenisierung beeinflussen. Zusammen ermöglicht TokSuite eine robuste Entkopplung des Einflusses des Tokenizers eines Modells und unterstützt eine Reihe neuartiger Erkenntnisse, die die jeweiligen Vorzüge und Schwächen einer Vielzahl beliebter Tokenizer aufzeigen.
Agentisches Reinforcement Learning setzt zunehmend auf erfahrungsbasiertes Skalieren, doch reale Umgebungen bleiben nicht-adaptiv, in ihrer Abdeckung begrenzt und schwer zu skalieren. Weltmodelle bieten einen potenziellen Weg, die Lerneffizienz durch simulierte Erfahrung zu verbessern, doch es ist unklar, ob große Sprachmodelle diese Rolle zuverlässig einnehmen können und unter welchen Bedingungen sie Agenten einen bedeutungsvollen Nutzen bringen. Wir untersuchen diese Fragen in textbasierten Umgebungen, die einen kontrollierten Rahmen bieten, um Sprachmodellierung als Next-State-Prädiktion unter Interaktion neu zu interpretieren. Wir führen ein dreistufiges Framework zur Bewertung von LLM-basierten Weltmodellen ein: (i) Treue und Konsistenz, (ii) Skalierbarkeit und Robustheit sowie (iii) Agentennutzen. Über fünf repräsentative Umgebungen hinweg stellen wir fest, dass ausreichend trainierte Weltmodelle kohärente latente Zustände aufrechterhalten, vorhersehbar mit Daten- und Modellgröße skalieren und die Agentenleistung durch Aktionsverifikation, synthetische Trajektoriengenerierung und Warm-Start von Reinforcement Learning verbessern. Gleichzeitig hängen diese Gewinne kritisch von der Verhaltensabdeckung und der Umgebungskomplexität ab, was eine klare Grenze dafür absteckt, wann Weltmodellierung das Agentenlernen effektiv unterstützt.
Jüngste Fortschritte beim Vortrainieren allgemeiner Basismodelle haben die Leistung bei verschiedenen nachgelagerten Aufgaben erheblich verbessert. Während autoregressive (AR) generative Modelle wie GPT das NLP revolutioniert haben, stützen sich die meisten Methoden des visuellen generativen Vortrainings immer noch auf BERT-artige Maskierungsmodellierung, die oft die für die Videoanalyse wesentliche zeitliche Information vernachlässigt. Die wenigen existierenden autoregressiven visuellen Vortrainingsmethoden leiden unter Problemen wie ungenauer semantischer Lokalisierung und schlechter Generierungsqualität, was zu schwacher Semantik führt. In dieser Arbeit schlagen wir NExT-Vid vor, ein neuartiges autoregressives visuelles generatives Vortrainingsframework, das maskierte Next-Frame-Prädiktion nutzt, um Bilder und Videos gemeinsam zu modellieren. NExT-Vid führt einen kontextisolierten autoregressiven Prädiktor ein, um semantische Repräsentation von der Zieldecodierung zu entkoppeln, und einen konditionierten Flow-Matching-Decoder, um die Generierungsqualität und -vielfalt zu verbessern. Durch kontextisoliertes Flow-Matching-Vortraining erzielt unser Ansatz starke Repräsentationen. Umfangreiche Experimente mit großskaligen vortrainierten Modeln zeigen, dass unsere Methode frühere generative Vortrainingsmethoden für visuelles Repräsentationslernen durch aufmerksames Probing in der nachgelagerten Klassifikation konsequent übertrifft.
Wir stellen Streamo vor, ein Echtzeit-Streaming-Video-LLM, das als allgemeiner interaktiver Assistent dient. Im Gegensatz zu bestehenden Online-Videomodellen, die sich eng auf Frage-Antwort-Aufgaben oder Beschriftungen konzentrieren, führt Streamo ein breites Spektrum an Streaming-Videoaufgaben aus, darunter Echtzeiterzählung, Aktionsverständnis, Ereignisbeschriftung, temporäre Ereignisverankerung und zeitkritische Fragebeantwortung. Um diese Vielseitigkeit zu entwickeln, haben wir Streamo-Instruct-465K erstellt, einen groß angelegten Instruction-Following-Datensatz, der speziell für das Verständnis von Streaming-Videos konzipiert ist. Der Datensatz deckt diverse zeitliche Kontexte und Multi-Task-Aufsicht ab und ermöglicht so eine einheitliche Ausbildung über heterogene Streaming-Aufgaben hinweg. Nach einem End-to-End-Training auf dem Instruction-Following-Datensatz durch eine optimierte Pipeline zeigt Streamo starke temporale Reasoning-Fähigkeiten, reaktionsschnelle Interaktion und breite Generalisierung über verschiedene Streaming-Benchmarks hinweg. Umfangreiche Experimente belegen, dass Streamo die Lücke zwischen Offline-Videowahrnehmungsmodellen und Echtzeit-Multimodal-Assistenten schließt und damit einen Schritt in Richtung eines einheitlichen, intelligenten Videoverständnisses in kontinuierlichen Videoströmen macht.
Retrieval-Augmented Generation (RAG) hat sich als leistungsstarkes Paradigma für Large Language Models (LLMs) etabliert, um wissensintensive Anfragen zu behandeln, die domänenspezifische oder aktuelle Informationen erfordern. Um komplexe Multi-Hop-Fragen zu bewältigen, die für Einzelschritt-Retrieval eine Herausforderung darstellen, wurden iterative RAG-Ansätze mit Reinforcement Learning vorgeschlagen. Bestehende iterative RAG-Systeme planen jedoch typischerweise die Zerlegung von Fragen, ohne Informationen über den verfügbaren Retrieval-Korpus zu nutzen, was zu ineffizientem Retrieval und Reasoning-Ketten führt, die kaskadenartig in suboptimale Leistung münden. In diesem Artikel stellen wir Early Knowledge Alignment (EKA) vor, ein einfaches, aber effektives Modul, das LLMs vor der Planung in iterativen RAG-Systemen mit kontextuell relevantem, abgerufenen Wissen am Retrieval-Set ausrichtet. Umfangreiche Experimente mit sechs standardmäßigen RAG-Datensätzen zeigen, dass EKA durch die Etablierung einer stärkeren Reasoning-Grundlage die Retrieval-Präzision signifikant verbessert, kaskadierende Fehler reduziert sowie Leistung und Effizienz steigert. Unsere Analyse aus einer Entropie-Perspektive zeigt, dass die Einbeziehung von frühem Wissen unnötige Exploration während des Reasoning-Prozesses reduziert und es dem Modell ermöglicht, sich effektiver auf relevante Informationsuntergruppen zu konzentrieren. Darüber hinaus erweist sich EKA als vielseitige, trainingsfreie Inferenzstrategie, die nahtlos auf große Modelle skaliert. Verallgemeinerungstests über verschiedene Datensätze und Retrieval-Korpora hinweg bestätigen die Robustheit unseres Ansatzes. Insgesamt schreitet EKA den State-of-the-art in iterativen RAG-Systemen voran und beleuchtet gleichzeitig das kritische Zusammenspiel zwischen strukturiertem Reasoning und effizienter Exploration in Reinforcement Learning-gestützten Frameworks. Der Code ist unter https://github.com/yxzwang/EarlyKnowledgeAlignment veröffentlicht.
Bestehende Benchmarks für KI-Codierungsagenten konzentrieren sich auf isolierte, einfache Aufgaben wie das Beheben eines Fehlers oder das Implementieren einer kleinen Funktion. Die reale Softwareentwicklung ist jedoch grundsätzlich ein langfristiges Unterfangen: Entwickler müssen hochlevelige Anforderungen interpretieren, koordinierte Änderungen über viele Dateien hinweg planen und Codebasen über mehrere Iterationen hinweg weiterentwickeln, wobei die bestehende Funktionalität erhalten bleibt. Wir stellen SWE-EVO vor, einen Benchmark, der Agenten anhand dieser langfristigen Software-Evolutionsherausforderung bewertet. Konstruiert aus Release Notes und Versionsverläufen von sieben ausgereiften Open-Source-Python-Projekten, umfasst das Tool 48 Evolutionsaufgaben, die von Agenten die Implementierung mehrstufiger Änderungen verlangen, die durchschnittlich 21 Dateien umspannen und gegen umfassende Test-Suiten mit durchschnittlich 874 Tests pro Instanz validiert werden. Experimente mit modernsten Modellen zeigen eine frappierende Fähigkeitslücke: Selbst GPT-5 mit OpenHands erreicht auf dem Tool nur eine Lösungsrate von 21 Prozent, verglichen mit 65 Prozent auf dem einfachen SWE-Bench Verified. Dies zeigt, dass aktuelle Agenten mit nachhaltigem, dateiübergreifendem Denken kämpfen. Wir schlagen zudem die Fix Rate vor, eine feingranulare Metrik, die partielle Fortschritte bei der Lösung dieser komplexen, langfristigen Aufgaben erfasst.
In dieser Arbeit stellen wir PhononBench vor, den ersten umfassenden Benchmark für dynamische Stabilität in KI-generierten Kristallen. Unter Nutzung des kürzlich entwickelten MatterSim-Interatomaren Potentials, das DFT-genaue Phononenvorhersagen für über 10.000 Materialien erreicht, ermöglicht PhononBench effiziente großangelegte Phononenberechnungen und Dynamische-Stabilitäts-Analysen für 108.843 Kristallstrukturen, die von sechs führenden Kristallgenerierungsmodellen erzeugt wurden. PhononBench deckt eine weitverbreitete Einschränkung aktueller generativer Modelle bei der Gewährleistung dynamischer Stabilität auf: Die durchschnittliche Rate dynamischer Stabilität über alle generierten Strukturen beträgt nur 25,83 %, wobei das leistungsstärkste Modell, MatterGen, lediglich 41,0 % erreicht. Weitere Fallstudien zeigen, dass bei eigenschaftsorientierter Generierung – hier veranschaulicht durch Bandlücken-Konditionierung mit MatterGen – die Rate dynamischer Stabilität selbst unter der optimalen Bandlücken-Bedingung von 0,5 eV mit nur 23,5 % niedrig bleibt. Bei raumgruppengesteuerter Generierung weisen Kristalle mit höherer Symmetrie eine bessere Stabilität auf (z.B. erreichen kubische Systeme Raten von bis zu 49,2 %), dennoch beträgt die durchschnittliche Stabilität über alle gesteuerten Generierungen immer noch nur 34,4 %. Ein wichtiges zusätzliches Ergebnis dieser Studie ist die Identifizierung von 28.119 Kristallstrukturen, die über die gesamte Brillouin-Zone phononenstabil sind, was einen beträchtlichen Pool zuverlässiger Kandidaten für die zukünftige Materialforschung bereitstellt. Durch die Etablierung des ersten großangelegten Benchmarks für dynamische Stabilität unterstreicht diese Arbeit systematisch die aktuellen Grenzen von Kristallgenerierungsmodellen und bietet essentielle Bewertungskriterien und Leitlinien für ihre zukünftige Entwicklung hin zum Entwurf und zur Entdeckung physikalisch realisierbarer Materialien. Alle modellgenerierten Kristallstrukturen, Phononenberechnungsergebnisse und die in PhononBench entwickelten Hochdurchsatz-Auswertungsworkflows werden unter https://github.com/xqh19970407/PhononBench offen zugänglich gemacht.
Die rasche Verbreitung von Large Language Models (LLMs) und die Vielfalt spezialisierter Benchmarks erfordern einen Wechsel von fragmentierten, aufgabenspezifischen Metriken hin zu einem ganzheitlichen, wettbewerbsorientierten Rankingsystem, das die Leistung über mehrere Fähigkeitsdimensionen hinweg effektiv aggregiert. Aktuelle Evaluierungsmethoden, die primär auf statischer Bewertung basieren, sind grundlegend limitiert. Sie haben Schwierigkeiten, das richtige Mischverhältnis über verschiedene Benchmarks hinweg zu bestimmen, und können kritischerweise die dynamische Wettbewerbsfähigkeit eines Modells oder seine Anfälligkeit bei der Konfrontation mit sequenziellen, hochriskanten Aufgaben nicht erfassen. Um dies zu adressieren, führen wir den neuartigen Competitive Swiss-System Dynamics (CSD)-Rahmen ein. CSD simuliert einen mehrrundigen, sequenziellen Wettbewerb, bei dem Modelle dynamisch über eine kuratierte Abfolge von Benchmarks hinweg basierend auf ihrer kumulierten Gewinn-Verlust-Bilanz gepaart werden. Eine Monte-Carlo-Simulation (N=100.000 Iterationen) wird verwendet, um den statistisch robusten Expected Win Score (E[S_m]) zu approximieren, der das Rauschen durch zufällige Paarungen und Glück in frühen Runden eliminiert. Darüber hinaus implementieren wir eine Failure Sensitivity Analysis, indem wir die Eliminierungsmenge pro Runde (T_k) parametrisieren. Dies erlaubt es uns, Modelle basierend auf ihrer Risikobereitschaft zu profilieren – und so zwischen robusten Generalisten und aggressiven Spezialisten zu unterscheiden. Wir zeigen, dass CSD eine nuanciertere und kontextbewusstere Einstufung liefert als traditionelle aggregierte Bewertungen und statische Paarvergleichsmodelle, und damit einen entscheidenden Schritt in Richtung einer risikobewussten LLM-Evaluierung der nächsten Generation darstellt.