Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Vision-Sprachmodelle (VLMs) formulieren visuelle Verankerung und Erkennung üblicherweise als ein Koordinate-Token-Generierungsproblem, bei dem jede 2D-Box in mehrere 1D-Tokens serialisiert wird, die weitgehend unabhängig voneinander gelernt und dekodiert werden. Diese Token-für-Token-Dekodierung widerspricht der gekoppelten Struktur der Box-Geometrie und erzeugt aufgrund der streng sequentiellen Generierung einen praktischen Inferenz-Engpass. Wir stellen LocateAnything vor, ein einheitliches generatives Verankerungs- und Erkennungsframework, das auf Parallel-Box-Dekodierung (PBD) basiert. Durch die Dekodierung geometrischer Elemente wie Begrenzungsrahmen und Punkte als atomare Einheiten in einem einzigen Schritt bewahrt LocateAnything die intra-box-geometrische Kohärenz und ermöglicht eine erhebliche Parallelisierung. Wir zeigen, dass PBD sowohl den Dekodierungsdurchsatz als auch die Lokalisierungsgenauigkeit verbessert. Darüber hinaus entwickeln wir eine skalierbare Daten-Engine und kuratieren LocateAnything-Data, einen groß angelegten Datensatz mit mehr als 138 Millionen Trainingsbeispielen, der die Datenvielfalt für hochpräzise Lokalisierung erheblich erhöht. Umfangreiche Auswertungen zeigen, dass LocateAnything die Geschwindigkeits-Genauigkeits-Grenze vorantreibt, einen deutlich höheren Dekodierungsdurchsatz erzielt und gleichzeitig die hochwertige IoU-Lokalisierungsqualität über verschiedene Benchmarks hinweg verbessert. Die Ergebnisse unterstreichen die komplementären Vorteile der Parallel-Box-Dekodierung und groß angelegter Trainingsdaten für eine effiziente und präzise einheitliche visuelle Verankerung und Erkennung.
Die rasante Entwicklung generativer Videogrundmodelle hat das Feld in Richtung professioneller filmischer Synthese vorangetrieben. Um diese anspruchsvolle Qualität zu erreichen, verlagert sich die Gemeinschaft hin zu Reinforcement Learning (RL) und agentischen Arbeitsabläufen. Allerdings hat sich die zuverlässige Evaluierung als kritischer Engpass erwiesen. Vorhandene Benchmarks bewerten hauptsächlich „ob es richtig ist“ (grundlegende Prompt-Befolgung), vernachlässigen jedoch grundlegend „ob es gut ist“ (filmische Qualität, Schauspiel und Ästhetik). Darüber hinaus fehlt es den aktuellen automatisierten Metriken an der notwendigen domänenspezifischen Strenge, um vertrauenswürdige Signale zu liefern, was zu einer schwerwiegenden Glaubwürdigkeitslücke zwischen menschlicher ästhetischer Wahrnehmung und maschineller Bewertung führt. Um diese Lücke zu schließen, führen wir EvalVerse ein, ein umfassendes, pipeline-bewusstes und expertenkalibriertes Evaluierungsframework. Wir betrachten die Bewertung der Videogenerierung nicht nur als eine ingenieurtechnische Aufgabe, sondern als ein fundamentales wissenschaftliches Problem: die systematische Digitalisierung subjektiver filmischer Expertise. Erstens organisieren wir Domänenwissen in eine Bewertungstaxonomie, die an den professionellen Filmherstellungs-Workflow (Vorproduktion, Produktion und Nachproduktion) angelehnt ist. Zweitens destillieren wir menschliche Expertenurteile in einen kuratierten Datensatz mit groß angelegten menschlichen Annotationen. Drittens injizieren wir dieses Wissen in Vision-Sprach-Modelle (VLMs) durch eine expertenkalibrierte Feinabstimmungsstrategie, die es dem VLM ermöglicht, explizite Chain-of-Thought-Argumentation durchzuführen. Im Vergleich zu früheren Arbeiten behält EvalVerse nicht nur die Kompatibilität mit grundlegenden „Richtigkeits“-Metriken bei, sondern erweitert die Kriterien signifikant auf „Güte“ und erweitert die Aufgabenabdeckung auf komplexe Mehrfachaufnahmen-Sequenzierung sowie audiovisuelle Integration. Folglich transzendiert EvalVerse durch die Bereitstellung granularer diagnostischer Signale ein statisches Leaderboard und etabliert eine grundlegende Infrastruktur für zukünftige Arbeiten, wie Belohnungsmodelle und Bewertungsagenten.
Während räumliche Grundlagenmodelle auf Standarddatensätzen beeindruckende Leistungen gezeigt haben, bleibt eine entscheidende Frage: Sind sie wirklich Allrounder, die robust über verschiedene nachgelagerte Aufgaben, beliebige Blickwinkel, wechselnde Szenendomanen, unterschiedliche Eingabedichten und spezifische Hardwarebeschränkungen hinweg generalisieren können? Die Beantwortung dieser übergeordneten Frage erfordert eine ganzheitliche Bewertung, doch aktuelle Modelle werden hauptsächlich in spezifischen Domänen evaluiert, für die sie konzipiert oder trainiert wurden. Derartige Evaluierungen sind grundsätzlich durch eine enge Paradigmenabdeckung, begrenzte Szenendomanen und willkürliche Bildauswahl eingeschränkt, was eine Beurteilung ihrer wahren Generalisierungsfähigkeit grundlegend erschwert. Um diese Lücke zu schließen, präsentieren wir SpatialBench, einen paradigmenübergreifenden, domänenvielfältigen Benchmark für räumliche Grundlagenmodelle mit deterministischer Stichprobenauswahl. SpatialBench zeichnet sich durch beispiellosen Umfang und rigoroses deterministisches Design aus und umfasst 19 Datensätze mit 546 Szenen aus 5 verschiedenen räumlichen Domänen. Es evaluiert umfassend 41 Modelle aus 6 Paradigmen in 5 Aufgabensuiten unter 4 verschiedenen Eingabedichteeinstellungen. Unsere umfangreiche Evaluierung zeigt, dass aktuelle Modelle noch keine Allrounder sind, und liefert entscheidende Erkenntnisse für zukünftige Fortschritte. Insbesondere demonstrieren wir, dass Full-Context-Attention die Genauigkeit maximiert, während Strategien mit begrenztem Speicher die Skalierbarkeit für lange Sequenzen ermöglichen. Darüber hinaus zeigen unsere empirischen Evaluierungen bei anspruchsvollen verkörperten und egozentrischen Aufgaben, dass strenge Domänenausrichtung und hohe Datenqualität für die Leistung weitaus entscheidender sind als eine einfache Datensatzskalierung. Um die größte in unserer Analyse identifizierte Datenlücke zu schließen, gehen wir über die Evaluierung hinaus und führen einen groß angelegten Datensatz, DA-Next-5M, und ein starkes Basislinienmodell, DA-Next, ein, um die Grenzen des räumlichen Repräsentationslernens zu erweitern.
Wir stellen MobileGym vor, eine browserbasierte, leichtgewichtige, vollständig steuerbare Umgebung für den alltäglichen mobilen Einsatz, die auf Interaktionstreue abzielt, ohne proprietäre Backends nachzubilden. Es ermöglicht zwei Fähigkeiten, die für alltägliche Apps bisher unerreichbar waren: überprüfbare Ergebnis-Signale durch deterministisches zustandsbasiertes Bewerten über strukturierte JSON-Zustände und skalierbares Online-RL durch kostengünstige parallele Rollouts. Der vollständige Zustand der Umgebung wird als strukturiertes JSON erfasst, konfiguriert, verzweigt und verglichen, und ein einzelner Server kann Hunderte paralleler Instanzen hosten, mit etwa 400 MB Speicher pro Instanz und etwa 3 s Kaltstart. Ein geschichtetes Zustandsmodell und ein deklaratives Aufgaben-Definitionsframework halten die Zustandsprogrammierbarkeit und die Aufgabenerstellung im großen Maßstab praktikabel, und ein einzelner programmatischer Bewertungsmechanismus liefert sowohl deterministische Bewertungsergebnisse als auch dichte RL-Belohnungen. Das begleitende MobileGym-Bench bietet 416 parametrisierte Aufgaben-Vorlagen, darunter 256 Test- und 160 Trainings-Vorlagen, über 28 Apps, mit deterministischen Bewertern und einem strukturierten AnswerSheet-Protokoll, das Fehler durch Freitext-Abgleich vermeidet. In einer Sim-to-Real-Fallstudie erzielt GRPO auf Qwen3-VL-4B-Instruct eine Steigerung von +12,8 Prozentpunkten auf dem 256-Aufgaben-Testset, und auf einem 59-Aufgaben-Teilset mit realen Gerätesignalen behält die Ausführung auf dem realen Gerät 95,1 % des trainingsseitigen Simulationsgewinns. Projektseite: https://mobilegym.github.io.
Multi-View-3D-Rekonstruktion hat mit dem Aufkommen vorwärtsgerichteter 3D-Rekonstruktionsmodelle bemerkenswerte Fortschritte erzielt. Allerdings werden diese Modelle typischerweise unter idealen, beeinträchtigungsfreien Abbildungsbedingungen trainiert und evaluiert, während reale Beobachtungen häufig Beeinträchtigungen enthalten, die sich erheblich von solchen Gegebenheiten unterscheiden. Die Verbesserung der Robustheit für die Multi-View-3D-Rekonstruktion unter beeinträchtigten Bedingungen bleibt daher eine wichtige Herausforderung. Wir stellen Geometry-Aware Representation Denoising (GARD) vor, ein neuartiges Framework, das eine diffusionsbasierte Multi-View-Wiederherstellung direkt im Merkmalsraum eines vorwärtsgerichteten 3D-Rekonstruktionsmodells durchführt. Dieses Design nutzt die geometrybewussten Merkmalsrepräsentationen des 3D-Rekonstruktionssystems, um die genaue Szenengeometrie effektiv wiederherzustellen. Darüber hinaus können die verfeinerten Repräsentationen durch den Einsatz eines zusätzlichen RGB-Bilddecoders auch zur Wiederherstellung hochwertiger RGB-Bilder verwendet werden, was die gleichzeitige Wiederherstellung der 3D-Szenengeometrie und hochwertiger Bilder ermöglicht. Umfassende Experimente auf dem Depth-Anything-3 (DA3)-Benchmark belegen die Wirksamkeit des vorgeschlagenen GARD-Frameworks.
Die audiovisuelle Generierung entwickelt sich rasant von kurzen Clips zu minutenlangen Inhalten, während bestehende Evaluierungsprotokolle weitgehend auf Kurzformate beschränkt bleiben. Aktuelle Benchmarks konzentrieren sich hauptsächlich auf textgesteuerte Generierung von 5–10 Sekunden und unterstützen selten eine einheitliche Bewertung über Text-, Bild- und Videosteuerungsmodalitäten hinweg. Darüber hinaus geben sie nur begrenzte Einblicke, wie sich Identitätskonsistenz, narrative Kohärenz und audiovisuelle Abstimmung über längere Zeiträume hinweg verschlechtern. Um diese Lücke zu schließen, stellen wir LongAV-Compass vor, einen systematischen Benchmark für minutenlange audiovisuelle Generierung. LongAV-Compass umfasst 284 kuratierte Testfälle, die Text-zu-Audio-Video (T2AV), Bild-zu-Audio-Video (I2AV) und Video-zu-Audio-Video (V2AV) abdecken, geordnet nach Anwendungsszenario und Generierungskomplexität. Der Benchmark kombiniert eine taxonomiegestützte Benchmark-Konstruktion mit einem einheitlichen Bewertungsrahmen, der MLLM-gestützte Bewertung mit komplementären perzeptuellen und multimodalen Metriken integriert, darunter DINO-v2, ArcFace, CLIP und ImageBind. Der Rahmen bewertet mehr als 20 feinkörnige Dimensionen, die die Qualität innerhalb von Segmenten, segmentübergreifende Konsistenz, globale narrative Kohärenz, semantische Abstimmung und audiovisuelle Synchronisation abdecken. Durch Experimente mit 11 repräsentativen Modellen sowie Validierung mittels menschlicher Übereinstimmung bietet LongAV-Compass einen diagnostischen Testbed zur Analyse der Einschränkungen aktueller Systeme bei der Erzeugung kohärenter, semantisch abgestimmter und zeitlich konsistenter minutenlanger audiovisueller Inhalte über verschiedene Eingabemodalitäten hinweg.
Trotz der Entwicklung von Diffusions-Großsprachmodellen (D-LLMs) als Alternative zu autoregressiven Großsprachmodellen (AR-LLMs) ist die Sicherheitsüberwachung für D-LLMs bislang weitgehend unerforscht. Im Gegensatz zu AR-LLMs erzeugen D-LLMs Text durch einen mehrstufigen Entrauschungsprozess, der Zwischenrepräsentationen (Hidden States) offenlegt, die sicherheitsrelevante Informationen enthalten können, die in standardmäßigen einstufigen Überwachungsszenarien nicht verfügbar sind. Motiviert durch die Eignung von leichten Probes (Sonden) für eine dauerhafte Überwachung analysieren wir, welche trajektoriebasierten Signale am besten anzeigen, wann solche Probes wahrscheinlich Schwierigkeiten haben. Wir stellen fest, dass das informativste Signal die Sicherheitszögerung (Safety Hesitation) ist: Zwischenrepräsentationen, die wiederholt innerhalb eines schmalen Bereichs der Entscheidungsgrenze des Probes liegen. Die Anzahl solcher Zögerungsschritte in der Trajektorie eines D-LLM sagt das Versagen des Probes effektiv voraus und dient als Proxy für die Schwierigkeit einer Stichprobe. Aufbauend auf dieser Analyse schlagen wir D²-Monitor vor, einen zweistufigen Sicherheitsmonitor für D-LLMs. D²-Monitor verwendet einen leichten Probe als dauerhaften Monitor, um gleichzeitig die Zögerung zu schätzen und eine Basisklassifikation durchzuführen. Wenn die Zögerung einen Schwellenwert überschreitet, wird ein ausdrucksstärkerer, aber rechenintensiverer Probe aktiviert. Dieser dynamische Routing-Mechanismus verteilt die Überwachungsressourcen zur Testzeit effizient. Evaluiert auf 3 Datensätzen (WildguardMix, ToxicChat, OpenAI-Moderation) über 4 D-LLMs hinweg erreicht D²-Monitor eine Spitzenleistung mit einer kompakten Parameteranzahl (≤ 0,85 M Parameter) und zeigt den besten Kompromiss zwischen Effektivität und Effizienz im Vergleich zu 8 Basislinien.
Wir stellen die MiniMax-M2-Serie vor, eine Familie von Mixture-of-Experts-Sprachmodellen, die auf dem Prinzip basieren, dass minimale Aktivierungen maximale reale Intelligenz freisetzen können. Das Flaggschiff M2 umfasst insgesamt 229,9 Milliarden Parameter, von denen pro Token lediglich 9,8 Milliarden aktiviert werden. Die M2-Serie ist durchgängig für den agentischen Einsatz konzipiert und stützt sich auf drei Komponenten: (i) agentische Datenpipelines, die umfangreiche, verifizierbare Trajektorien im Bereich agentischen Codierens und agentischer Zusammenarbeit erzeugen, jede verankert in einem ausführbaren Arbeitsbereich und einer artefaktausgerichteten Belohnung; (ii) Forge, ein skalierbares agentennaives RL-System, das sich an langfristige Agententrajektorien anpasst, gepaart mit Fenster-FIFO-Scheduling, Präfixbaumzusammenführung, Inferenzoptimierung und einer sauberen Entkopplung von Training, Inferenz und Agent, die sowohl White-Box- als auch Black-Box-Agenten unterstützt; (iii) der neueste M2.7-Checkpoint macht einen ersten Schritt in Richtung Selbstevolution – er debuggt selbstständig Trainingsläufe und modifiziert sein eigenes Scaffold. In der Reihe von M2 bis M2.7 überführt diese Kombination einen geringen Aktivierungs-Fußabdruck in Spitzenleistungen bei agentischem Codieren, Tiefensuche, Büroaufgaben und Reasoning-Benchmarks.
Wir untersuchen die filmische Wiederaufnahme auf Serienebene, ein langfristiges Video-zu-Video-Generierungsproblem, das ganze Episoden oder Filme durch Stilisierung oder Schauspieleraustausch lokalisiert, während die Erzählstruktur, die Bewegungschoreografie und die Figurenidentität über Hunderte von Einstellungen hinweg strikt beibehalten werden. Bestehende Video-Generierungs- und -Bearbeitungspipelines versagen in diesem Bereich oft aufgrund von sich verstärkender Identitätsdrift, Hintergrundmutation und semantischer Erosion bei großen Kamerabewegungen und Blickwinkelwechseln. Wir schlagen Soap2Soap vor, ein Multi-Agenten-Framework, das durch einen Dual-Bridge-Konsistenzmechanismus eine langfristige sprachlich-visuelle Konsistenz erzwingt: ein szenenbewusstes JSON-Drehbuch als persistentes semantisches Rückgrat sowie dynamisch zugewiesene visuelle Referenzanker auf Szenen- und Einstellungsebene. Um Drift vor der Videosynthese zu unterdrücken, führen wir die Batch-Keyframe-Konsistenz ein, bei der mehrere Keyframes in einem gemeinsamen latenten Kontext mittels einer gitterbasierten Formulierung gemeinsam generiert werden. Ein geschlossener Rückkopplungs-Verifikationsagent prüft zudem Identität, Stabilität und Übereinstimmung, um eine selektive Neugenerierung auszulösen. Experimente auf SoapBench zeigen deutliche Verbesserungen gegenüber kommerziellen Video-Generierungs-APIs hinsichtlich langfristiger Konsistenz und narrativer Treue.
Testzeit-Skalierung (TTS) verbessert die Reasoning-Fähigkeiten großer Sprachmodelle, indem zusätzliche Inferenzrechenleistung bereitgestellt wird, um den Lösungsraum zu erkunden. Allerdings halten bestehende parallele TTS-Methoden die Zweige während der Suche typischerweise isoliert: Zwischenerkenntnisse bleiben auf den jeweiligen Zweig beschränkt und können andere Zweige nicht rechtzeitig leiten. Diese Informationsisolation führt zu erheblicher redundanter Erkundung, da Zweige wiederholt Informationen neu entdecken, die bereits an anderen Stellen gefunden wurden, und mehr Suchschritte benötigen, um vollständige Entscheidungsinformationen zu sammeln, die für das Erreichen korrekter Antworten erforderlich sind. Um diese Lücke zu schließen, schlagen wir Kollaboratives Paralleles Denken (CPT) vor, ein trainingsfreies Inferenzframework, das den Informationsaustausch über parallele Zweige hinweg während der Suche ermöglicht. CPT extrahiert kompakte Zwischeninformationen aus aktiven Zweigen, unterhält einen deduplizierten Informationspool auf Anfrageebene und verbreitet Pooleinträge über den Eingabekontext, sodass jeder Zweig in nachfolgenden Suchschritten Entdeckungen anderer Zweige wiederverwenden kann, anstatt dieselben Informationen neu zu entdecken. Empirisch zeigen Experimente auf den HMMT- und AIME-Benchmarks, dass CPT eine stärkere Genauigkeits-Latenz-Pareto-Grenze als starke Baselines über verschiedene Rollout-Budgets und Modellskalen hinweg etabliert, was die Zusammenarbeit während der Suche als effektive Richtung für effizientes paralleles TTS hervorhebt.
Wir stellen LLaVA-OneVision-2 (LLaVA-OV-2) vor, das leistungsfähigste Vision-Language-Modell der LLaVA-OneVision-Serie, das auf einer breiten Palette multimodaler Benchmarks überlegene Ergebnisse erzielt. Das Modell baut auf einem nativen OneVision-Encoder auf und integriert Windowed Attention für effiziente lokale Berechnungen bei gleichzeitiger Beibehaltung der nativen Auflösung. Sein wesentlicher Fortschritt liegt in der Codec-Stream-Tokenisierung: Es behandelt komprimierte Videos als kontinuierlichen Bitkostenstrom, wobei die Bitkostendynamik adaptive zeitliche Gruppen bestimmt und Bewegungsresidualhinweise salienten räumlichen Inhalt in kompakte visuelle Leinwände selektiert. Diese Zuteilung konzentriert ein begrenztes Token-Budget auf inhaltsrelevante Ereignisse und ermöglicht so eine stabilere Token-Kompression für lange Videos als feste Gruppen von Bildern. Ein gemeinsames 3D-RoPE platziert Codec-Leinwände, abgetastete Frames und Bilder in einem einheitlichen raumzeitlichen Koordinatensystem. Darüber hinaus bauen wir den Daten- und Trainingsstack von LLaVA-OV-2 auf groß angelegter offener Überwachung auf: etwa 8 Millionen neu beschriftete Videobeispiele für das Vortraining und ein 4 Millionen Beispiele umfassender räumlicher Korpus für die Feinabstimmung. Wir führen außerdem JumpScore ein, einen Benchmark für zeitliche Lokalisierung, der auf feinkörnige Verankerung in hochfrequenten, dicht wiederholten Bewegungen abzielt – ein Bereich, der in bestehenden Videoauswertungen unterrepräsentiert ist. Eine herausragende Fähigkeit von LLaVA-OV-2 ist seine einheitliche Wahrnehmung in den Bereichen Video-Verständnis, zeitliche Verankerung, räumliche Verankerung und Manipulationsspur-Schlussfolgerung. Auf JumpScore erreicht LLaVA-OneVision-2-8B einen JumpScore mAP von 74,9 und übertrifft Qwen3-VL-8B (30,1) um +44,8 Punkte; bei gleichem visuellem Token-Budget auf demselben Benchmark verbessern Codec-Stream-Eingaben die zeitliche Verankerung gegenüber Frame-Abtastung um +9,7 Punkte. Über Standard-Benchmarks hinweg übertrifft LLaVA-OneVision-2-8B Qwen3-VL-8B zudem um durchschnittlich +4,3 Punkte bei Videoaufgaben, +5,3 bei räumlichen Aufgaben und +15,6 durchschnittliche J&F bei Tracking-Aufgaben.
Normalisierungsschichten in modernen großen Sprachmodellen (Large Language Models, LLMs) bestehen aus einer deterministischen Normalisierungsoperation und einem lernbaren Skalierungsvektor. Während die Normalisierungsoperation umfassend untersucht wurde, ist der Skalierungsvektor trotz seiner allgegenwärtigen Verwendung noch wenig verstanden. In dieser Arbeit präsentieren wir eine systematische Untersuchung von Skalierungsvektoren in LLMs aus den Perspektiven der Ausdrucksstärke, Optimierung und Architekturstruktur. Zunächst zeigen wir empirisch, dass Skalierungsvektoren zwar nur einen vernachlässigbaren Anteil der Modellparameter ausmachen, ihr Entfernen jedoch das Pre-Training von LLMs erheblich verschlechtert. Unsere Theorie zeigt weiter, dass Skalierungsvektoren in Pre-Norm-Architekturen die Ausdrucksstärke nicht erhöhen; stattdessen verbessern sie die Optimierung durch einen selbstverstärkenden Vorkonditionierungseffekt auf nachfolgende lineare Abbildungen. Zweitens untersuchen wir die Rolle des Gewichtsabfalls (Weight Decay) für Skalierungsvektoren. Durch die Unterscheidung von Input-Norm- und Output-Norm-Schichten zeigen wir theoretisch, dass Gewichtsabfall für erstere vorteilhaft, für letztere jedoch schädlich ist, aufgrund ihrer unterschiedlichen Rollen in Optimierung und Ausdrucksstärke. Drittens schlagen wir, motiviert durch dieses Verständnis, drei leichte und komplementäre Verbesserungen für Skalierungsvektoren vor: zweigspezifische Heterogenität, verbesserte Platzierung um lineare Abbildungen und Größen-Richtungs-Reparametrisierung. Sowohl Theorie als auch Experimente zeigen, dass jede Verbesserung konsistente Gewinne erzielt. Schließlich fassen wir diese Verbesserungen zu einer einheitlichen Skalierungsvektorstrategie zusammen und evaluieren sie durch umfangreiche LLM-Pre-Training-Experimente an dichten und Mixture-of-Experts-Modellen mit 0,12B bis 2B Parametern, über mehrere Optimierer und Lernratenpläne hinweg, unter industriell relevanten Token-Budgets. Die einheitliche Strategie erzielt durchgängig einen niedrigeren Endverlust als gut abgestimmte Basislinien und zeigt ein günstigeres Skalierungsverhalten, während sie nur vernachlässigbaren Parameter- und Rechenaufwand hinzufügt.
Vision-Language-Action (VLA)-Modelle übernehmen häufig vortrainierte Vision-Language-Modelle (VLM) als Policy-Backbones, doch es bleibt unklar, welche Art von vortrainierter VLM-Repräsentation als VLA-Initialisierung nützlich ist. In dieser Arbeit untersuchen wir die VLA-Initialisierung als ein kontrolliertes Repräsentationsdesign-Problem entlang dreier Achsen: fähigkeitsbezogene verkörperte VQA-Überwachung, Parameteraktualisierungsstrategie und Vortraining mit Roboterdaten. Unsere Experimente zeigen, dass die ursprüngliche vortrainierte VLM-Repräsentation eine wichtige Quelle für die Aktionsleistung ist. Allerdings führt die verkörperte VQA-Adaption nicht zu einheitlichen Verbesserungen: Ihr Nutzen hängt von nachgelagerten Engpässen ab, und Gewinne aus verschiedenen Fähigkeitsbereichen sind nicht einfach additiv. Hinsichtlich der Aktualisierungsstrategie bietet LoRA eine zuverlässigere Initialisierung als vollständiges Feintuning, was darauf hindeutet, dass eine übermäßige Umformung der vortrainierten Repräsentation die VLA-Initialisierung schwächen kann. Das Vortraining mit Roboterdaten verbessert die VLA-Initialisierung weiter, wobei die stärkste Variante durch gestaffeltes LoRA-basiertes Training erzielt wird. Zusammen deuten diese Ergebnisse darauf hin, dass eine effektive VLM-zu-VLA-Adaption handlungsrelevante verkörperte und Roboter-Trajektorien-Signale einbringen sollte, während die vortrainierte VLM-Repräsentation erhalten bleibt, die für das Aktionslernen weiterhin nützlich ist.
Flussabgleich mit Vorhersage von sauberen Daten hat gezeigt, dass die Regression des sauberen Punktes niedrigdimensionale Struktur effektiver ausnutzen kann als die Vorhersage einer verrauschten Größe im Umgebungsraum. Wir fragen, ob dieses Prinzip auch dann nützlich bleibt, wenn Bilder in einen erlernten latenten Raum abgebildet werden, in dem die Kompression bereits einen Großteil der Rohpixelvariabilität entfernt hat. Wir stellen JLT vor, einen 130M latenten Diffusionstransformer über feste FLUX.2-VAE-Codes, und vergleichen die Vorhersage von sauberen latenten Größen mit einem dazu passenden, geschwindigkeitsvorhersagenden DiT unter derselben Repräsentation, demselben Rückgrat und denselben Trainingsbedingungen. Obwohl die drei Variablen x, Epsilon und v für eine feste Korruptionszeit linear ineinander umwandelbar sind, zeigt eine lokale Gauß-Analyse, dass die Geschwindigkeitsregression eine isotrope Ziel-Kovarianz-Untergrenze erbt und niedrigvarianze latente Richtungen verstärkt, während die saubere Vorhersage diese dämpft. Auf ImageNet 256×256 erreicht JLT-B/1 mit klassifikatorfreier Steuerung einen FID-50K von 2,50, mit einer großen Lücke zwischen den angepassten Zielen im Vergleich zur Geschwindigkeitsvorhersage. Diese Ergebnisse deuten darauf hin, dass Vorhersageziele in der latenten Diffusion repräsentationsabhängige geometrische Entscheidungen und keine austauschbaren algebraischen Parametrisierungen sind.
Agentisches Reinforcement Learning (RL) hat sich als effektiv für das Training LLM-basierter Agenten mit externen Werkzeugnutzungsfähigkeiten erwiesen. Wir stellen jedoch fest, dass agentisches RL-Training zunehmend redundante Werkzeugaufrufe induziert und die intrinsische Wissensgrenze des Modells verschwimmen lässt, wobei das Modell nicht mehr unterscheiden kann, wann Werkzeuge benötigt werden und wann parametrisches Wissen ausreicht. Bestehende Lösungen auf Basis von Belohnungsformung erzeugen grobkörnige Optimierungsziele, die dazu neigen, eine unterschiedslose Unterdrückung von Werkzeugaufrufen zu fördern, was zu Belohnungs-Hacking führt. In dieser Arbeit schlagen wir AKBE (Agentic Knowledge Boundary Enhancement) vor, eine On-Policy-Methode, die die intrinsische Wissensgrenze des Modells dynamisch durch Zwei-Pfad-Rollouts (mit und ohne Werkzeug) während des Trainings untersucht. Wir definieren die Wissensgrenze als die instanzspezifische Bestimmung, ob Werkzeuge erforderlich sind, und die minimale Anzahl notwendiger Werkzeugaufrufe. Durch den Vergleich der Korrektheit über die Pfade hinweg kategorisiert AKBE Trajektorien und konstruiert gezielte Überwachungssignale, die für jede Frage effiziente Werkzeugnutzungsmuster vorgeben. Diese Signale werden nahtlos in den agentischen RL-Trainingsloop integriert. Experimente auf sieben QA-Benchmarks zeigen, dass AKBE die Aufgaben genauigkeit um durchschnittlich +1,85 verbessert und die Werkzeugaufrufe im Vergleich zu standardmäßigem agentischem RL um 18% reduziert, was eine um 25% höhere Werkzeugproduktivität ohne Einbußen bei der Genauigkeitseffizienz ergibt. Weitere Analysen deuten auf seine Plug-and-Play-Kompatibilität mit verschiedenen RL-Algorithmen und den Wirkmechanismus jeder Signalkategorie hin. Unser Code ist verfügbar unter https://github.com/CuSO4-Chen/AKBE.
Große Sprachmodelle (LLM)-Agenten sind auf wiederverwendbare Fähigkeiten angewiesen, um komplexe Aufgaben zu lösen. Allerdings behandeln bestehende Ansätze zur Fähigkeitserstellung diese als isolierte und statische Artefakte, was ihre Wiederverwendbarkeit, Zuverlässigkeit und langfristige Verbesserung einschränkt. Wir schlagen den MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) vor, ein fähigkeitszentriertes Agenten-Framework, das es Agenten ermöglicht, ihre Fähigkeit zur Aufgabenlösung kontinuierlich zu verbessern, indem sie Fähigkeiten unter einem einheitlichen Lebenszyklus (Erstellung, Gedächtnis, Verwaltung, Evaluierung und Verfeinerung) erstellen, wiederverwenden und verfeinern. Unser Framework befähigt Agenten, Fähigkeiten bedarfsgerecht zu erstellen, über Aufgaben hinweg zu speichern und wiederzuverwenden, sie effizient zu organisieren und auszuwählen sowie durch Komponententests und Laufzeit-Feedback für eine kontinuierliche Verfeinerung zu evaluieren. Wir führen ferner einen Fähigkeitsspeicher auf Skill-Ebene ein, der für jede Fähigkeit Erfahrungen über verschiedene Aufgaben hinweg akkumuliert und so eine effektivere Wiederverwendung und Anpassung im Laufe der Zeit ermöglicht. Experimente auf SkillsBench liefern erste Belege dafür, dass lebenszyklusverwaltete Fähigkeiten den Aufgabenerfolg, die Effizienz, die Wiederverwendung und die agentenübergreifende Übertragung verbessern können, und unterstreichen die Bedeutung, Fähigkeiten als langlebige, erfahrungsbewusste und testbare Ressourcen zu behandeln.
Soziale Deduktionsspiele haben sich zu einem beliebten Testfeld entwickelt, um Reasoning, Täuschung, Koordination und Glaubensmodellierung in Large-Language-Modell-Agenten (LLM-Agenten) zu untersuchen. Die meisten Umgebungen werden jedoch nur anhand von Spielergebnissen wie Gewinnraten bewertet und beschränken sich weitgehend auf textbasierte Interaktion, was es schwierig macht, festzustellen, ob die Sprache eines Agenten tatsächlich in dem verankert ist, was er wahrgenommen und getan hat, oder die Fehlermodi zu identifizieren, die seinem Verhalten zugrunde liegen. Um diese Lücke zu schließen, stellen wir QUACK vor, eine Open-Source-Umgebung und ein Evaluierungsframework zur Überprüfung der Verankerung von Agentensprache im multimodalen sozialen Denken. QUACK bewertet Agenten auf drei Ebenen: Spieleergebnisse, Verhaltensverläufe und Äußerungskonsistenz. Seine zentrale Aussageverifikationspipeline rekonstruiert den tatsächlichen Verlauf jedes Agenten aus den Engine-Logs und überprüft jede Diskussionsbehauptung daraufhin, wobei automatisch räumliche Halluzinationen, unbegründete Beschuldigungen, Täuschungskollaps und Sprach-Handlungs-Inkonsistenzen gekennzeichnet werden. Bei der Evaluierung von drei führenden VLMs in sowohl homogenen als auch modellübergreifenden adversarialen Umgebungen stellen wir fest, dass selbst der stärkste Agent 15,1 % seiner überprüfbaren räumlichen Behauptungen halluziniert und über die Hälfte seiner Beschuldigungen ohne fundierte Beweise vorbringt. Wir veröffentlichen die vollständige Engine, das Evaluierungsframework, das Toolkit und die Logs unter https://github.com/AAAAA-Academia-Attractions/QUACK.
Visuelles Schlussfolgern durch Bestärkungslernen mit überprüfbaren Belohnungen (RLVR) hat bemerkenswerte Fortschritte erzielt. Bei der Verarbeitung mehrquelliger Eingaben neigen bestehende Ansätze jedoch dazu, diese als bloße Ansammlung von Informationen zu betrachten, ohne explizite Mechanismen, um zu unterscheiden, ob die Integration zusätzlicher Quellen einen Informationsgewinn oder Störungen verursacht. Daher fällt es ihnen schwer, die dynamische Interaktion bei der Integration mehrerer Quellen effektiv zu modellieren, insbesondere wenn diese sich in ihren physikalischen Eigenschaften und ihrer Semantik erheblich unterscheiden, z. B. Infrarot und Tiefe. Dies führt zu einer schlechteren Leistung im Vergleich zum monoquelligen Schlussfolgern, wenn eine bestimmte Quelle das dominante Signal liefert. Um dieses Problem zu lösen, schlagen wir MARS vor, ein neuartiges monoverankertes mehrquelliges Schlussfolgerungsframework, das jede visuelle Modalität als unabhängige Informationsquelle modelliert. Indem unsere Methode monoquellige Belohnungen als dynamische Anker betrachtet, wird der durch die Mehrquellenfusion eingeführte Informationsgewinn explizit in die Vorteilsnormalisierung einbezogen. Dabei wird die gegenseitige Förderung zwischen den Quellen adaptiv betont, während potenzielles Rauschen oder Konflikte während des RLVR unterdrückt werden. Theoretische Analysen zeigen, dass unsere Methode den durch die Mehrquellenintegration eingeführten Informationsgewinn in der Gradientenschätzung effektiv quantifiziert und so eine konsistente Modalitätsregulierung ermöglicht. Empirische Ergebnisse belegen ebenfalls beeindruckende Leistungssteigerungen von 3,2 % und 4,9 % bei GRPO und DAPO über verschiedene Datensätze hinweg und bestätigen die Wirksamkeit unserer Methode.
Große Sprachmodelle (LLMs) haben sich zu interaktiven Agenten entwickelt, die mit Nutzern bei realen Aufgaben zusammenarbeiten. Effektive Zusammenarbeit in solchen Umgebungen hängt zunehmend davon ab, den Nutzer über das explizit Gesagte hinaus zu verstehen, da die Nutzerabsicht oft in fragmentierten täglichen Interaktionen zum Ausdruck kommt und sowohl personalisierte Modellierung als auch proaktive Interaktion erfordert. Allerdings bewerten bestehende Agenten-Benchmarks hauptsächlich logisches Denken und Werkzeugnutzung und übersehen dabei weitgehend die Herausforderungen, die mit dem Ableiten und Nutzen von Nutzerpräferenzen in realistischen Szenarien verbunden sind. Um diese Lücke zu schließen, führen wir VitaBench 2.0 ein, einen Benchmark zur Bewertung personalisierten und proaktiven Agentenverhaltens in langfristigen Nutzerinteraktionen. In VitaBench 2.0 sind Aufgaben als zeitlich geordnete Sequenzen für einzelne Nutzer organisiert, wobei Präferenzen in fragmentierten und heterogenen Interaktionen eingebettet sind. Der erfolgreiche Abschluss von Aufgaben erfordert, dass der Agent kontinuierlich Nutzerpräferenzen aus diesen Interaktionen extrahiert, nutzt und aktualisiert. Darüber hinaus bewerten wir die Proaktivität durch Aufgaben, bei denen Agenten fehlende Informationen erkennen und diese vor Entscheidungen aktiv von Nutzern oder der Umgebung beschaffen müssen. Zur Unterstützung systematischer Analysen stellen wir eine erweiterbare Gedächtnisschnittstelle bereit, die einen kontrollierten Vergleich verschiedener Gedächtnisarchitekturen ermöglicht. Wir testen eine vielfältige Auswahl führender proprietärer und Open-Source-LLMs. Die Ergebnisse zeigen, dass die Personalisierung in der realen Welt selbst für modernste Modelle äußerst herausfordernd bleibt, was eine erhebliche Lücke zwischen aktuellen Fähigkeiten und praktischen Anforderungen offenbart. Umfangreiche Analysen zeigen weiterhin die Fehlermodi und Fähigkeitsengpässe aktueller Agenten bei der personalisierten Entscheidungsfindung in der realen Welt auf und liefern Erkenntnisse für zukünftige Modellverbesserungen.
Aktivierungsorakel zielen darauf ab, die Aktivierungen anderer Modelle für Menschen lesbar zu machen und liefern vielversprechende Ergebnisse im Vergleich zu White-Box-Interpretierbarkeitstechniken. Allerdings ist die Unsicherheitsquantifizierung (UQ) für die natürlichsprachlichen Ausgaben solcher Aktivierungsorakel bisher wenig erforscht. Hier untersuchen wir 6 verschiedene Methoden zur Schätzung der Konfidenz von Aktivierungsorakeln und bewerten, wie gut kalibriert ihre Konfidenzwerte sind. Unsere Experimente mit 6.000 Stichproben pro Orakel (variierender Verbalizer und Kontext-Prompts) zeigen, dass die Bootstrap-Modushäufigkeit die am besten kalibrierte Methode unter den getesteten ist (ECE 5,7% vs. 25,5% für die Antwort-Wort-Log-Wahrscheinlichkeit auf Qwen3-8B; 10,3% vs. 13,1% auf Qwen3.6-27B) und dass die Log-Prob-Baseline als schnelles Triage-Signal zu einem Bruchteil der Kosten dienen kann. Code und der gepatchte Trainer sind verfügbar unter https://github.com/federicotorrielli/probabilistic_activation_oracles.
Große Sprachmodelle (LLMs) werden zunehmend als autonome Agenten eingesetzt, die über mehrere Schritte hinweg denken, Werkzeuge verwenden und handeln. Doch die meisten Halluzinations-Benchmarks bewerten immer noch nur die endgültige Ausgabe und übersehen Fehler, die in den Zwischenschritten von Gedanke–Aktion–Beobachtung entstehen. Wir präsentieren Trajel, einen Datensatz und Evaluierungsrahmen zur Überprüfung von Halluzinationen auf Trajektorienebene in mehrstufigen industriellen Arbeitsabläufen mit mehreren Agenten. Trajel führt eine Fünf-Typen-Taxonomie von Halluzinationen ein (faktisch, referenziell, logisch, prozedural und umfangsbasiert) über Experten-annotierte Agentenspuren aus AssetOpsBench. Wir bewerten überwachte Erkennungsmodelle auf den Ebenen von Teilaufgaben, Trajektorien und Langzeitkontext. Unsere Ergebnisse zeigen, dass die häufigsten Fehlermodi von bestehenden Benchmarks übersehen werden, dass fast die Hälfte der halluzinierten Trajektorien mehrere Typen gleichzeitig umfasst und dass automatisierte Detektoren mit hoher binärer Genauigkeit die subtilsten Typen immer noch falsch klassifizieren. Eine trajektorienbewusste Erkennung übertrifft die standardmäßige Post-hoc-Verifikation deutlich, was eine taxonomiebasierte Evaluierung für einen sichereren Einsatz von Agenten notwendig macht.
Multi-Agenten-LLM-Systeme verbessern das logische Denken, indem sie die Ergebnisse mehrerer Agenten kombinieren. Allerdings können interaktionsintensive Verfahren Fehlerfortpflanzung und hohen Kommunikationsaufwand verursachen. Wenn Agenten Rohantworten oder Reasoning-Spuren austauschen, können falsche Zwischenschritte übernommen und verstärkt werden, was zu einer selbstsicheren, aber falschen Übereinstimmung führt. Zudem steigern mehrstufige Kommunikationen den Token-Verbrauch, die Latenz und die Inferenzkosten. In dieser Arbeit schlagen wir ein Koordinationsframework mit kontrollierter Kommunikation namens DarkForest vor. DarkForest hält die Agenten zunächst unabhängig, sodass jeder Agent eine Antwort generiert, ohne die Ergebnisse der anderen zu sehen. Anschließend werden die Rohantworten in strukturierte Kandidateneinträge geparst, semantisch äquivalente Kandidaten zu Clustern gruppiert und eine kalibrierte Glaubensverteilung über diese Cluster geschätzt – unter Berücksichtigung von Agentenzuverlässigkeit, Konfidenz, Parse-Qualität, Zuverlässigkeit von Unterstützungsmustern sowie Unabhängigkeitskorrekturen. Ein Koordinator erhält lediglich richtlinienzugelassene Evidenz aus diesem Glaubenszustand mit kontrollierter Kommunikation. Experimente mit sechs Reasoning-Benchmarks zeigen, dass DarkForest insgesamt eine führende Qualität erzielt, die stärkste Baseline bei Benchmark-Metriken um bis zu 30,7 % verbessert und den Token-Verbrauch im Vergleich zu kommunikationsintensiven Baselines um bis zu das 6,5-fache reduziert.
Mixture-of-Experts (MoE) hat sich zur De-facto-Architektur für Sprachmodelle mit hundert Milliarden Parametern entwickelt, doch ihre Vorteile im Sub-Milliarden-Bereich für den Einsatz auf dem Gerät sind noch weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir MobileMoE, eine Familie von gerätebasierten MoE-Sprachmodellen mit unter einer Milliarde aktiven Parametern (0,3–0,9 Mrd. aktiv und 1,3–5,3 Mrd. insgesamt), die eine neue Pareto-Front für On-Device-LLMs etabliert. Zunächst formulieren wir ein On-Device-MoE-Skalierungsgesetz, das die MoE-Architektur unter den Speicher- und Rechenbeschränkungen mobiler Geräte gemeinsam optimiert. Dabei identifizieren wir einen Sweet Spot für den mobilen Einsatz – moderate Sparsität mit feinkörnigen und gemeinsam genutzten Experten – der gleichzeitig speicher- und rechenoptimal ist. Aufbauend auf den abgeleiteten Architekturen trainieren wir MobileMoE mit einem Vier-Stufen-Rezept, das Pre-Training, Mid-Training, Instruction Fine-Tuning und quantisierungsbewusstes Training umfasst – alles auf Open-Source-Datensätzen. In 14 Benchmarks erreicht oder übertrifft MobileMoE führende dichte On-Device-LLMs bei 2- bis 4-mal weniger Inferenz-FLOPs und erreicht oder übertrifft den aktuellen MoE-Standard OLMoE-1B-7B mit bis zu 60 % weniger Parametern. Um die letzte Meile zur mobilen Bereitstellung zu überbrücken, liefern wir die erste effiziente MoE-Inferenz auf handelsüblichen Smartphones mit umfassendem On-Device-Profiling. Bei vergleichbarem INT4-Gewichtsspeicher liefert MobileMoE-S einen 1,8- bis 3,8-mal schnelleren Prefill und einen 2,2- bis 3,4-mal schnelleren Decode als die dichte Baseline MobileLLM-Pro.
Die subjektgesteuerte Bildgenerierung zielt darauf ab, neue Bilder zu synthetisieren, die die Identität eines vorgegebenen Subjekts bewahren und gleichzeitig textuellen Anweisungen folgen. Bisherige Ansätze kodieren Text und Referenzbilder oft getrennt, was die crossmodalen Denkfähigkeiten einschränkt und Copy-Paste-Artefakte verursacht. Neuere Frameworks, die multimodale Modelle mit Diffusionsmodellen verbinden, verbessern zwar die Anweisungsbefolgung, vernachlässigen jedoch weitgehend den Identitätserhalt. Um diese Einschränkungen zu adressieren, konditionieren wir Diffusionsmodelle auf multimodale große Sprachmodelle (MLLMs), die Text und Referenzbilder gemeinsam kodieren, und ergänzen diese mit einer VAE-basierten Identitätskonditionierung. Ein neuartiges Dual-Layer-Aggregationsmodul (DLA) wird entwickelt, um mehrstufige MLLM-Merkmale für eine optimale Konditionierung zu aggregieren. Eine mehrstufige Denoising-Strategie wird angewandt, um während der Inferenz schrittweise die semantischen Informationen aus dem MLLM mit den feinen Identitätsdetails aus der VAE auszubalancieren. Umfangreiche Experimente zeigen, dass unser Ansatz multimodales Verständnis mit Identitätserhalt harmonisiert, Copy-Paste-Probleme reduziert und in Bezug auf menschliche Präferenzen bei der subjektgesteuerten Bildgenerierung überlegene Leistung erzielt. Unsere Projekt-Website ist verfügbar unter https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Wir stellen Gemini Embedding 2 vor, ein natives multimodales Embedding-Modell, das die Einbettung von Video-, Audio-, Bild- und Textmodalitäten in einen einheitlichen Repräsentationsraum ermöglicht. Wir nutzen die multimodalen Fähigkeiten von Gemini, um Embeddings für beliebige Kombinationen von ineinander verschachtelten Eingaben über all diese Modalitäten hinweg zu erzeugen, die sich über eine Vielzahl von Aufgaben hinweg gut verallgemeinern lassen. Durch die Anwendung von kontrastivem Lernen in großem Maßstab in einem mehrstufigen Multi-Task-Trainingssetup erzielen wir modernste Leistungen bei wichtigen Embedding-Benchmarks, darunter unimodales, crossmodales und multimodales Retrieval über ein breites Spektrum von Aufgaben hinweg. Wir zeigen, dass unser Embedding-Modell über verschiedene Aufgaben hinweg eine starke Leistung erbringt (mit einem Wert von 62,9 R@1 auf MSCOCO, 68,8 NDCG@10 auf Vatex, 69,9 auf MTEB multilingual und 84,0 auf MTEB Code) und die Leistung spezialisierter Modelle übertrifft. Diese einheitlichen Fähigkeiten machen Gemini Embedding 2 zu einem vielversprechenden Kandidaten für nachgelagerte Anwendungsfälle wie RAG, Empfehlungen und Suche. Darüber hinaus etabliert seine robuste Zero-Shot-Leistung in verschiedenen Bereichen – von Astronomie und Biowissenschaften bis hin zu bildender Kunst und Kochkunst – es als eine hochzuverlässige, sofort einsetzbare Repräsentation selbst für spezialisierte Domänen.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die breite Einführung von LLMs als interaktive Agenten ermöglicht, die zu logischem Schließen, Planung und Werkzeugnutzung fähig sind. Trotz starker Leistung auf bestehenden Benchmarks zeigen solche Agenten oft eine deutliche Verschlechterung, wenn sie in realen Umgebungen eingesetzt werden, die inhärent stochastisch und unvollkommen sind. Wir argumentieren, dass diese Diskrepanz aus einer grundlegenden Diskrepanz zwischen idealisierten Trainingsbedingungen und realen Interaktionsdynamiken entsteht, bei denen aktuelle Paradigmen auf sorgfältig kuratierte Aufgabenanweisungen und stabile, gut kontrollierte Umgebungen angewiesen sind. Um diese Lücke zu schließen, schlagen wir NoisyAgent vor, ein agentisches Trainingsframework, das Umgebungsunvollkommenheiten explizit in den Agentenlernprozess einbezieht. Wir identifizieren zwei Hauptquellen von Interaktionsrauschen in realen Szenarien: Benutzerrauschen, das Mehrdeutigkeiten und Variabilität in der Benutzerinteraktion erfasst, und Werkzeugrauschen, das Fehler und Anomalien bei der Werkzeugausführung widerspiegelt. Wir führen solche Störungen in die Trainingspipeline ein, indem wir Benutzerinteraktionsmuster modifizieren und Werkzeugausführungsergebnisse innerhalb der Trainingsumgebung simulieren. Um das Training zu stabilisieren und gleichzeitig Agenten zu ermutigen, zunehmend herausfordernde Unvollkommenheiten zu bewältigen, wird Rauschen nur auf eine Teilmenge der Rollouts angewendet und in der Schwierigkeit schrittweise erhöht, sobald sich das Modell an das aktuelle Rauschniveau anpasst. Umfangreiche Experimente zeigen, dass unser Ansatz die Agentenrobustheit unter verrauschten und dynamischen Umgebungen konsistent verbessert. Unsere Analyse zeigt, dass das Training unter Rauschbedingungen auch Leistungssteigerungen auf idealisierten Benchmarks erbringt, was darauf hindeutet, dass kontrollierte Exposition gegenüber Umgebungsrauschen verallgemeinerbarere Fähigkeiten im logischen Schließen und Entscheiden fördert. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Interaktionsunvollkommenheiten, um die Kluft zwischen Agententraining und realem Einsatz zu überbrücken.
LLM-basierte Agenten zur GPU-Kernel-Generierung entwickeln sich rasant weiter, doch ihr Fortschritt wird grundlegend durch die Benchmarks eingeschränkt, die sie optimieren. Vorhandene Benchmarks sind nur schlecht auf Produktions-Inferenz-Frameworks abgestimmt: Sie bewerten Kernel auf einer einzelnen GPU mit synthetischen Eingaben, ignorieren den umgebenden Kompilierungs-Stack und belohnen eher das Nachbilden bekannter Optimierungen als das Entdecken neuer. Die daraus resultierenden Belohnungssignale sind irreführend: Agenten lernen, Kernel zu generieren, die in Sandboxen gut abschneiden, aber bei der Integration in reale Systeme zu Schnittstelleninkompatibilitäten, Konflikten mit dem Kompilierungs-Stack und stillen Korrektheitsverschlechterungen führen. Wir stellen FastKernels vor, einen Kernel-Benchmark, der auf einem minimalen Satz von 46 repräsentativen Architekturen aus 8 Kategorien basiert, deren Kernel gemeinsam diejenigen von 96,2 % (409/425) der HuggingFace-Transformers-Architekturen umfassen. FastKernels fungiert gleichzeitig als minimalistisches, produktionsreifes Inferenz-Framework, das auf dem Niveau etablierter Systeme wie vLLM und SGLang bei der Ausführung gängiger LLM-Inferenz läuft und unterversorgte Architekturen deutlich über die zugehörigen Referenzimplementierungen hinaus beschleunigt. Die Schnittstelle jeder Aufgabe spiegelt das entsprechende Modul in der jeweils führenden Bibliothek für ihre Architekturfamilie wider, sodass optimierte Kernel direkt in produktive Codebasen integriert werden können. Bei der Evaluierung moderner Kernel-Agenten auf FastKernels erzielt selbst der stärkste Agent nur eine aggregierte Beschleunigung von 0,94× gegenüber Produktionsbaselines, während schwächere Agenten auf 0,78× bzw. 0,53× kommen – was bestätigt, dass die Diskrepanz zwischen Benchmark und Produktion ein entscheidender Engpass für das Feld ist. Wir veröffentlichen FastKernels als Grundlage für Kernel-Agenten, deren Benchmark-Gewinne sich direkt in Produktionsdurchsatzsteigerungen übersetzen lassen. Der Code ist verfügbar unter https://github.com/Snowflake-AI-Research/fastkernels.
Große Sprachmodelle bewahren unweigerlich sensible Informationen – definiert als Eingaben, die schädliche Generierungen auslösen können – auf, da sie auf riesigen Webkorpora trainiert werden, was Bedenken hinsichtlich Privatsphäre und Sicherheit aufwirft. Bisherige Methoden des maschinellen Vergessens beruhen hauptsächlich auf Nachtraining oder aggressivem Feintuning, die entweder rechenintensiv sind oder dazu neigen, verwandtes Wissen und die allgemeine Nutzbarkeit des Modells zu beeinträchtigen. In dieser Arbeit reformulieren wir maschinelles Vergessen als ein präzises Wissenszuordnungsproblem mittels Modellbearbeitung. Wir schlagen ZeroUnlearn vor, ein Few-Shot-Vergessensframework. Es überschreibt sensible Eingaben, indem es sie auf einen neutralen Zielzustand abbildet und ihre ursprünglichen Repräsentationen entfernt. ZeroUnlearn erzwingt repräsentationale Orthogonalität durch eine multiplikative Parameteraktualisierung mit einer Lösung in geschlossener Form, was effizientes und gezieltes Vergessen ermöglicht. Wir erweitern ZeroUnlearn zudem zu einer gradientenbasierten Variante für das Vergessen mehrerer Beispiele. Experimente zeigen, dass unser Ansatz bestehende Baselines übertrifft und dabei die allgemeine Nutzbarkeit des Modells bewahrt. Unser Code ist auf GitHub verfügbar: https://github.com/XMUDeepLIT/ZeroUnlearn.
Langfristiges agentisches Denken erfordert, dass große Sprachmodelle über lange Interaktionsverläufe hinweg agieren, die Gedanken, Werkzeugaufrufe, Beobachtungen und Teilkonklusionen enthalten. Die Herausforderung besteht nicht nur darin, dass diese Verläufe lang werden, sondern auch darin, dass die für die aktuelle Entscheidung benötigten Informationen über entfernte Schritte verstreut sein können und erst später relevant werden. Bestehende Ansätze begegnen dieser Schwierigkeit, indem sie den Interaktionsverlauf kürzen, in kürzere Surrogate komprimieren oder ausgewählte Teile davon zur Wiederverwendung abrufen. Sie modellieren jedoch nicht explizit, wie der Zugriff auf vergangene Interaktionen an den sich entwickelnden Zustand des Agenten angepasst werden sollte. Stattdessen betrachten wir langfristiges Denken als ein Problem des zustandsadaptiven Gedächtnisses. Zu diesem Zweck schlagen wir State-Adaptive Memory (SAM) vor, ein eigenständiges Framework, das die laufende Interaktion in kompakte Gedächtnishinweise konsolidiert, während gleichzeitig die rohen Trajektorienseiten für einen absichtsgesteuerten Abruf erhalten bleiben. Diese Hinweise werden nicht als Ersatz für die Geschichte behandelt; vielmehr dienen sie als leichtgewichtige Griffe, die es dem Agenten ermöglichen, zeitlich entfernte Informationen entsprechend seinen aktuellen Bedürfnissen zu rekonstruieren, ohne das zugrundeliegende Rückgrat neu trainieren zu müssen. Wir optimieren das Gedächtnismodul weiter durch expertengeführte Überwachung und bestärkendes Lernen und richten es auf den Nutzen auf Trajektorienebene aus. In BrowseComp, BrowseComp-ZH, WideSearch und HLE übertrifft SAM konsistent starke Baselines über verschiedene Agenten-Backbones hinweg. Unsere Ergebnisse deuten darauf hin, dass explizites Gedächtnismodellieren eine einfache und effektive Grundlage für langfristiges agentisches Denken bietet.
Schichtbildgenerierung und -bearbeitung ist eine grundlegende Fähigkeit, die die schichtweise Wiederverwendung, Bearbeitung und Komposition generierter visueller Inhalte ermöglicht – analog zur Wortebenenbearbeitung in natürlicher Sprache. Trotz ihrer Bedeutung bleibt dies in großem Maßstab ein wenig erforschtes Gebiet. Um diese Lücke zu schließen, präsentieren wir MRT, ein 20 Milliarden Parameter umfassendes maskiertes Regionsdiffusionsmodell, das speziell für die Generierung und Bearbeitung mehrschichtiger transparenter Bilder konzipiert wurde und auf über 10 Millionen mehrsprachigen Design-Stichproben mit unterschiedlichen Seitenverhältnissen und Textaufforderungen trainiert wurde. Um diesen Maßstab voll auszuschöpfen, leisten wir zwei wesentliche technische Beiträge. Erstens vereinheitlichen wir drei komplementäre Aufgaben – Text-zu-Schichten, Bild-zu-Schichten und Schichten-zu-Schichten – innerhalb eines gemeinsamen maskierten Regionsdiffusionsrahmens, bei dem selektives Token-Masking eine flexible schichtweise Generierung und Bearbeitung ermöglicht. Zweitens führen wir zur Ermöglichung der Überlaufschichterzeugung eine überlaufbewusste Leinwandschicht ein, die Randunregelmäßigkeiten behandelt und die Synthese halbtransparenter Hintergründe unterstützt, wodurch vollständig bearbeitbare Schichten entstehen, die über die sichtbaren Leinwandgrenzen hinausragen. Darüber hinaus wenden wir Diffusionsdestillation an, um eine 8-schrittige, echtzeitfähige Mehrschichtgenerierung mit minimalem Qualitätsverlust zu erreichen. Umfangreiche Experimente zeigen, dass unser Framework die bisherigen Spitzenverfahren, einschließlich verschiedener kommerzieller Systeme, in allen drei Aufgaben deutlich übertrifft und einen neuen Maßstab für die mehrschichtige transparente Bildgenerierung setzt. Bemerkenswerterweise übertrifft unser Modell das zeitgleich veröffentlichte Qwen-Image-Layered-Modell in der Bild-zu-Schichten-Qualität laut Nutzerstudien deutlich, erreicht eine 10- bis 100-mal schnellere Inferenz und reduziert den GPU-Aktivierungsspeicherverbrauch während der Bild-zu-Schichten-Inferenz um 50–90 %.
Diffusionstransformatoren (DiT) erzielen eine starke Leistung in der Bildgenerierung, verursachen jedoch erhebliche Inferenzkosten. Während frühere Arbeiten diese Kosten durch Quantisierung und Destillation gesenkt haben, ist die halbstrukturierte Sparsität, die die FLOPs nahezu halbieren kann, noch wenig erforscht. Ein Hauptgrund ist, dass sich die meisten bestehenden Ansätze auf die Gewichtsverdünnung konzentrieren und das Entfernen von 50 % der Gewichte kritische Modellkapazität eliminieren und die Generierungsqualität beeinträchtigen kann. Unsere Studie zeigt jedoch, dass DiT-Aktivierungen intrinsisch dünnbesetzt sind und deutlich robuster gegenüber der N:M-halbstrukturierten Verdünnung sind als Gewichte. Motiviert durch diese Beobachtung plädieren wir für einen Paradigmenwechsel von der Gewichtsverdünnung hin zur Aktivierungsverdünnung. Wir schlagen RT-Lynx vor, das eine N:M-Verdünnung auf Aktivierungen anwendet und Fehlerkompensationstechniken integriert, um den Genauigkeitsverlust zu mindern. Darüber hinaus implementieren wir hochoptimierte, auf diese Umgebung zugeschnittene CUDA-Kerne, die in linearen Schichten durchschnittlich eine bis zu 1,55-fache Beschleunigung erzielen. Umfangreiche Experimente mit mehreren Diffusionsmodellen zeigen, dass unsere Methode die Generierungsqualität der Originalmodelle bewahrt und gleichzeitig die Inferenz erheblich beschleunigt.
Agentische Systeme werden immer leistungsfähiger: Agenten definieren Strategien, ergreifen Aktionen und interagieren mit verschiedenen Umgebungen. Diese Autonomie stellt erhebliche Herausforderungen für die Überwachung und Bewertung des Agentenverhaltens dar. Die meisten aktuellen Werkzeuge sind begrenzt; sie konzentrieren sich entweder auf Beobachtbarkeit mit grundlegenden Evaluierungsfähigkeiten oder setzen statische, manuell erstellte Fehlertaxonomien voraus, die sich nicht an neue Domänen anpassen lassen. Um diese Lücke zu schließen, stellen wir Agentic CLEAR vor, ein automatisches, dynamisches und benutzerfreundliches Evaluierungsframework. Es liefert textuelle Einblicke in das Agentenverhalten auf drei Granularitätsebenen: System, Trace und Node. Agentic CLEAR arbeitet oberhalb der Beobachtbarkeitsschicht, ermöglicht eine nahtlose Integration und bietet eine intuitive Benutzeroberfläche, die die Agentenevaluierung sehr zugänglich macht. In unseren Experimenten mit vier Benchmarks, sieben agentischen Umgebungen und Zehntausenden von LLM-Aufrufen zeigen wir, dass Agentic CLEAR qualitativ hochwertiges, datengesteuertes und aufschlussreiches Feedback liefert. Unsere Analyse zeigt eine starke Übereinstimmung mit manuell annotierten Fehlern und die Fähigkeit, die Aufgaben-Erfolgsrate vorherzusagen.
Große Sprachmodelle (LLMs) werden typischerweise auf gemischten Korpora trainiert, was zu Modellen führt, deren Wissen zum Zeitpunkt des Trainings eingefroren ist und deren zeitliche Verankerung nur unzureichend verstanden wird. In dieser Arbeit untersuchen wir die Auswirkungen der Vor-Trainingsdynamik auf den Erwerb zeitsensitiven Faktenwissens, wobei wir uns speziell auf die Datenreihenfolge konzentrieren. Unsere Hauptbeiträge sind zweifach. Erstens stellen wir einen umfassenden Benchmark mit über 7.000 zeitlich verankerten Fragen und ein Evaluationsprotokoll vor, das eine Analyse ermöglicht, ob Modelle Fakten korrekt mit ihren entsprechenden Zeitperioden assoziieren. Zweitens trainieren wir Modelle mit 6 Milliarden Parametern auf zeitlich geordneten Common-Crawl-Snapshots und vergleichen sie mit dem standardmäßigen gemischten Vor-Training. Unsere Ergebnisse zeigen, dass sequentiell trainierte Modelle mit gemischten Basislinien in allgemeinem Sprachverständnis und Allgemeinwissen übereinstimmen, dabei aber durchweg aktuelleres und zeitlich präziseres Wissen aufweisen. Zeitlich geordnetes Vor-Training führt zu einer verbesserten faktischen Aktualität, während gemischtes Vor-Training bei älteren Daten Spitzenwerte erreicht, möglicherweise aufgrund erhöhter Faktenwiederholung. Diese Erkenntnisse, zusammen mit der Veröffentlichung unseres Codes unter https://github.com/kyutai-labs/kairos , Checkpoints und Datensätzen unter https://huggingface.co/collections/kyutai/kairos , bieten eine Grundlage für zukünftige Forschung zum kontinuierlichen Lernen für LLMs.
Können große Sprachmodelle ihre eigenen internen Zustände erkennen und berichten? Eine Reihe von Studien hat argumentiert, dass die Antwort auf diese Frage „ja“ lautet. Wir argumentieren, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung, dass diese Schlussfolgerung möglicherweise verfrüht ist: Um von dieser Schlussfolgerung überzeugt zu sein, müssen wir echte Introspektion von Mustererkennung auf Grundlage oberflächlicher Hinweise unterscheiden. Darüber hinaus argumentieren wir, dass Verhaltensnachweise allein grundsätzlich nicht ausreichen, um starke introspektive Behauptungen zu untermauern. Wir untersuchen vor diesem Hintergrund zwei kürzlich eingeführte Evaluierungsparadigmen neu. Im ersten Paradigma sollen Modelle erkennen, ob ihre internen Zustände manipuliert wurden. Wir stellen fest, dass Modelle solche Eingriffe in ihre internen Zustände nicht zuverlässig von Manipulationen des Inputs unterscheiden können, was darauf hindeutet, dass ihr Erfolg in den ursprünglichen Studien ihre Fähigkeit widerspiegelt, Anomalien allgemein zu erkennen, und nicht spezifisch Eingriffe in ihre internen Zustände. Im zweiten von uns untersuchten Paradigma haben Modelle die Aufgabe, Labels vorherzusagen, die von ihren eigenen verborgenen Zuständen abgeleitet werden. Hier stellen wir fest, dass Klassifikatoren, die nur Zugang zum Input haben, eine gleichwertige Leistung wie die eigenen Kontextvorhersagen des Modells erzielen, was darauf hindeutet, dass die ursprünglichen Ergebnisse nicht schlüssig belegen, dass das Modell einen privilegierten Zugang zu seinen internen Repräsentationen hat. Wir führen außerdem eine umbeschriftete Kontrollbedingung ein, bei der Modelle sich nicht auf die Semantik der Aufgabe verlassen können, um sie zu lösen, sondern stattdessen auf die interne Repräsentation angewiesen sind; Modelle liefern bei dieser besser kontrollierten Version der Aufgabe Ergebnisse, die näher am Zufallsniveau liegen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass die aktuellen Belege nicht ausreichen, um zu belegen, dass große Sprachmodelle metakognitive Überwachung zeigen.
Wir stellen NSF-SciFy vor, einen umfassenden Datensatz wissenschaftlicher Behauptungen und Untersuchungsvorschläge, die aus Zusammenfassungen von Förderprojekten der National Science Foundation (NSF) extrahiert wurden. Während frühere Datensätze zur Verifikation wissenschaftlicher Behauptungen in Größe und Umfang begrenzt waren, stellt NSF-SciFy einen bedeutenden Fortschritt dar: 2,8 Millionen Behauptungen aus 400.000 Zusammenfassungen, die alle wissenschaftlichen und mathematischen Disziplinen abdecken. Wir präsentieren zwei fokussierte Teilmengen: NSF-SciFy-MatSci mit 114.000 Behauptungen aus Materialwissenschaftsprojekten und NSF-SciFy-20K mit 135.000 Behauptungen aus fünf NSF-Direktoraten. Mittels Zero-Shot-Prompting entwickeln wir einen skalierbaren Ansatz zur gemeinsamen Extraktion wissenschaftlicher Behauptungen und Untersuchungsvorschläge. Die Nützlichkeit des Datensatzes demonstrieren wir anhand dreier nachgelagerter Aufgaben: Generierung nicht-technischer Zusammenfassungen, Extraktion von Behauptungen sowie Extraktion von Untersuchungsvorschlägen. Das Feintuning von Sprachmodellen auf unserem Datensatz führt zu erheblichen Verbesserungen, wobei die relativen Zuwächse oft über 100 % liegen, insbesondere bei Aufgaben zur Extraktion von Behauptungen und Vorschlägen. Unsere Fehleranalyse zeigt, dass die extrahierten Behauptungen eine hohe Präzision, aber eine geringere Trefferquote aufweisen, was auf Möglichkeiten zur weiteren methodischen Verfeinerung hindeutet. NSF-SciFy ermöglicht neue Forschungsrichtungen in der groß angelegten Behauptungsverifikation, der Verfolgung wissenschaftlicher Entdeckungen und der metawissenschaftlichen Analyse. Code und Daten sind verfügbar unter https://github.com/darpa-scify/NSFSciFy.
Frühere Arbeiten zeigen, dass eine kontrollierte Kontrastivität zwischen selbstgenerierten Antworten großer Sprachmodelle, gesteuert durch Belohnungswerte, das nachgelagerte Preference Tuning auf Englisch verbessert. Wir erweitern diese Methode auf mehrere Sprachen und evaluieren zwei Modelle über insgesamt 14 Hoch- und Niedrigressourcensprachen hinweg bei einer Vielzahl von Aufgaben. Unser zentrales Ergebnis ist, dass cross-linguales kontrastives Preference Tuning auf selbstgenerierten Antworten (CroCo) ohne sprachspezifische Präferenzannotationen übertragbar ist. Ein auf englischen Präferenzen (auf einer mehrsprachigen Basis) trainiertes Belohnungsmodell erzeugt in den meisten Sprachen nützliche sprachinterne Rangfolgen, und die Kombination sowohl im einsprachigen als auch im mehrsprachigen Umfeld verbessert bei der Mehrheit der Konfigurationen die Leistung gegenüber jedem Modell, während das katastrophale Vergessen des überwachten Feintunings verhindert wird. Wir beobachten, dass die Verbesserungen auf On-Policy-Daten angewiesen sind. Off-Policy-Antworten verringern den Nutzen, und eine Online-Präferenzoptimierung führt zu keiner Verbesserung gegenüber der Offline-Variante. Konkret erreicht oder übertrifft unsere Methode bei strukturierten Aufgaben in 6 von 7 Sprachen bei EuroLLM-9B und in 4 von 7 Konfigurationen bei Aya-3B den Basiswert. Bei offener Textgenerierung gewinnen beide getunten Modelle gegenüber ihrer jeweiligen Basis in 11 evaluierten Sprachen. Insgesamt zeigen wir vielversprechende Richtungen für mehrsprachiges Preference Tuning auf.
Moderne Roboterstrategien verlassen sich zunehmend auf Action Chunking, um komplexe Aufgaben in der physischen Welt auszuführen. Während Action Chunking die zeitliche Konsistenz bei moderaten Aktionsfrequenzen verbessert, wird es unzureichend, wenn die Aktionsfrequenz weiter erhöht wird (z. B. auf 60 Hz). Bei solch hohen Frequenzen gelingt es Strategien oft nicht, Aktionen zu generieren, die sowohl zeitlich glatt als auch räumlich konsistent sind. Wir begegnen dieser Herausforderung, indem wir das hochfrequente Aktionslernen vom Aktionsraum in einen latenten Raum mit einem Variational Autoencoder (VAE) verlagern. Diese Formulierung verbessert sowohl die zeitliche als auch die räumliche Konsistenz der hochfrequenten Steuerung erheblich. Um eine reibungslose Echtzeitausführung zu ermöglichen, führen wir außerdem Reuse-then-Refine ein, eine Strategie zur Verfeinerung auf Chunk-Ebene, die die Kontinuität zwischen benachbarten Aktions-Chunks unter asynchroner Inferenz verbessert. Dadurch können Roboter, die von unserer Strategie gesteuert werden, komplexe kontaktreiche Aufgaben kontinuierlich ausführen, mit weniger Pausen und ruckartigen Bewegungen. Experimente an drei realen kontaktreichen Roboteraufgaben zeigen, dass unser Ansatz Aufgaben konsequent mit flüssigen Bewegungen abschließt. Unser Code und unsere Daten sind verfügbar unter https://github.com/tars-robotics/RTR.
Wir stellen EverAnimate vor, eine effiziente Post-Training-Methode zur langzeitanimierten Videogenerierung, die visuelle Qualität und Charakteridentität bewahrt. Langformatige Animation bleibt herausfordernd, da hochdynamische menschliche Bewegungen vor relativ statischen Umgebungen synthetisiert werden müssen, was die chunkbasierte Generierung anfällig für akkumuliertes Abdriften macht: (i) qualitatives Abdriften auf niedriger Ebene, wie die schrittweise Verschlechterung statischer Hintergründe, und (ii) semantisches Abdriften auf hoher Ebene, wie inkonsistente Charakteridentität und ansichtsabhängige Attribute. Um dieses Problem zu lösen, stellt EverAnimate abgedriftete Strömungstrajektorien wieder her, indem die Generierung an einen persistenten latenten Kontextspeicher gebunden wird, der aus zwei komplementären Mechanismen besteht. (i) Persistente latente Propagation bewahrt über Chunks hinweg einen Kontextspeicher, um Identität und Bewegung im latenten Raum zu propagieren und gleichzeitig zeitliches Vergessen abzuschwächen. (ii) Wiederherstellendes Fluss-Matching führt während des Samplings durch Geschwindigkeitsanpassung ein implizites Wiederherstellungsziel ein und verbessert so die Wiedergabetreue innerhalb der Chunks. Mit nur leichter LoRA-Feinabstimmung übertrifft EverAnimate modernste Langzeitanimationsverfahren sowohl in Kurzzeit- als auch in Langzeitszenarien: Bei 10 Sekunden verbessert es PSNR/SSIM um 8%/7% und reduziert LPIPS/FID um 22%/11%; bei 90 Sekunden steigen die Verbesserungen auf 15%/15% bzw. 32%/27%.
Große Sprachmodelle für vertikale Domänen werden durch den Mangel an komplexen, domänenspezifischen aufgabenorientierten Dialogen eingeschränkt. Bestehende Datenerfassungspipelines stehen vor einem beständigen Trilemma: Expertenannotation ist teuer, reale Dienstleistungsgespräche unterliegen Datenschutz- und Geschäftsbeschränkungen, und statische Korpora werden schnell zeitlich veraltet. Wir schlagen Stream vor, einen datenzentrischen Rahmen, der öffentlich zugängliche Streaming-Medien (Livestreams und Kurzvideos) nutzt, um hochwertige Dienstleistungsdialoge in großem Maßstab zu synthetisieren. Stream gewinnt authentische Interaktionssignale aus verrauschten Streams und synthetisiert Gespräche, indem es eine rollenbasierte Persona-Konstruktion mit der Erstellung von Gesprächsbauplänen (Conversational Blueprints) integriert; darüber hinaus wird eine Retrieval-gestützte Generierung (RAG) eingesetzt, um wissensbewusste Antworten zu unterstützen. Auf Basis von Stream veröffentlichen wir StreamDial, einen groß angelegten multidomänen Datensatz für die Bereiche Automobil, Restaurant und Hotel. StreamDial enthält insgesamt 87.498 Dialogsitzungen und 1.497.320 Gesprächsbeiträge bei durchschnittlich 17,11 Beiträgen pro Sitzung und einer vergleichbaren Größe über die Domänen hinweg. Jede Sitzung ist als strukturiertes Quadrupel ⟨P_u, P_a, B, H⟩ organisiert, das die Dialoghistorie mit expliziten Benutzer-/Agent-Personas und einem Gesprächsbauplan paart und realistische Serviceverhaltensweisen wie Anforderungsgewinnung, Einschränkungskonflikte, Verhandlung und Fehlerbehebung erfasst. Auswertungen mit automatischen Metriken und nachgelagerten Aufgaben zeigen, dass StreamDial die intrinsische Dialogqualität im Vergleich zu starken Baselines verbessert und dass mit StreamDial trainierte Modelle das Dialogue State Tracking über verschiedene Backbones hinweg verbessern; ferner berichten wir über einen vollständig manuell evaluierten Datensatz und vielversprechende mehrsprachige Übertragung auf Qwen3-8B unter einem kontrollierten Trainingsbudget. Die Daten werden unter https://github.com/hitxueliang/DialogDataSetBySTREAM veröffentlicht.