Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning ist zu einem Standardparadigma für die Ausrichtung großer Sprachmodelle an menschlichen Absichten und Aufgabenanforderungen geworden. Während Group Relative Policy Optimization eine effiziente, wertmodellfreie Alternative zu Proximal Policy Optimization bietet, bleibt die Anpassung an reale Multi-Belohnungs-Umgebungen herausfordernd. Übliche Skalarisierungsverfahren wie Reward Combination und Advantage Combination weisen erhebliche Nachteile auf: Reward Combination erzeugt häufig Vorteile mit übermäßig großen quadrierten Beträgen, die zu Trainingsinstabilität führen, während Advantage Combination auf statischen Hyperparametern beruht und zielübergreifende Korrelationen ignoriert. Um diese Einschränkungen zu beheben, schlagen wir Dynamic Variance-adaptive Advantage Optimization (DVAO) vor, das die Kombinationsgewichte dynamisch anhand der empirischen Belohnungsvarianz jedes Ziels innerhalb einer Rollout-Gruppe anpasst. Dabei werden Ziele mit einem stärkeren Lernsignal effektiv aufgewertet und verrauschte Ziele unterdrückt. Wir beweisen mathematisch, dass DVAO begrenzte Vorteilsbeträge für stabiles Training aufrechterhält und einen selbstadaptiven zielübergreifenden Regularisierungsmechanismus einführt. Umfangreiche Experimente an Benchmarks für mathematisches Denken und Werkzeugnutzung mit Qwen3- und Qwen2.5-Modellen zeigen, dass DVAO Basislinienmethoden deutlich übertrifft und eine überlegene multiobjektive Pareto-Grenze sowie robuste Trainingsstabilität erreicht.
Interaktive Weltmodelle entwickeln sich rasant, doch bestehende Benchmarks decken nur einen Teil der erforderlichen Kompetenzen ab, sodass kein einheitlicher Standard für eine systematische Evaluierung existiert. Um diese Lücke zu schließen, stellen wir WBench vor, ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Weltmodelle entlang fünf Dimensionen: Videoqualität, Szenario-Treue, Interaktionstreue, Konsistenz und Physikkonformität. WBench umfasst 289 Testfälle und 1.058 Interaktionsrunden, wobei jeder Fall eine Welteinstellung und eine mehrschrittige Interaktionssequenz spezifiziert, die verschiedene Szenen, Stile, Subjekte sowie sowohl die Ich- als auch die Dritte-Person-Perspektive abdeckt, zusammen mit vier Interaktionstypen: Navigation, Subjektaktion, Ereignisbearbeitung und Perspektivenwechsel. Für die Navigation vereinheitlicht WBench Text-, 6-DoF-Pose- und diskrete Aktionssteuerung, sodass Modelle mit unterschiedlichen nativen Eingabeschnittstellen evaluiert werden können. Die Bewertung verwendet 22 automatische Submetriken, die spezialisierte Computervision-Modelle mit großen multimodalen Modellen kombinieren, und alle Metriken sind gegen menschliche Bewertungen validiert. Bei der Analyse von 20 State-of-the-Art-Modellen zeigt sich, dass kein einzelnes Modell in allen Dimensionen stark abschneidet. Wir liefern detaillierte diagnostische Einblicke in die charakteristischen Stärken, Schwächen und offenen Herausforderungen jedes Modells. Code und Daten sind verfügbar unter https://github.com/meituan-longcat/WBench.
Da persönliche Agenten sich weiterentwickeln, um komplexe, benutzerzentrierte Aufgaben zu bewältigen, wird der statische Klartext-Chat zunehmend zu einem Engpass. Generative UI erweist sich als die notwendige neue Schnittstellenschicht, die in Echtzeit die richtigen Steuerelemente, Optionen und den Zustand aus dem Interaktionskontext dynamisch synthetisiert. Wir stellen Macaron-A2UI vor, ein Modell für Generative UI in persönlichen Agenten. Unser Ziel ist es, über die reine Textinteraktion hinauszugehen, indem wir Agenten befähigen, natürliche Sprache zusammen mit leichtgewichtigen, ausführbaren UI-Aktionen zur Informationssammlung, Präferenzverfeinerung, Bestätigung und Organisation mehrerer Ziele zu generieren. Wir erstellen einen groß angelegten Generative-UI-Korpus aus heterogenen Dialogquellen, führen A2UI-Bench für kontrollierte Evaluierung ein und trainieren Modelle mit 30B, 235B und 754B Parametern mittels parametereffizientem LoRA-basiertem überwachtem Feintuning, gefolgt von belohnungsgesteuertem verstärkendem Lernen. Das beste Macaron-A2UI-Modell erreicht auf A2UI-Bench eine Gesamtpunktzahl von 75,6 ohne explizite Schema-Hinweise und übertrifft damit die stärkste Full-Schema-Frontier-Baseline. Wir veröffentlichen die Modelle, den Benchmark und das Evaluierungsprotokoll, um zukünftige Arbeiten zu Generative UI für persönliche Agenten zu unterstützen.
Autonome Agenten entwickeln sich von Werkzeugen zu einer Schicht sozialer Infrastruktur: Sie durchsuchen das Netz, tätigen Käufe, setzen Software ein, verwalten Systeme und interagieren zunehmend miteinander. Mit der Skalierung dieser Systeme verlagert sich der Engpass von der reinen Modellfähigkeit hin zur Koordination. Agenten müssen zuverlässige Beziehungen aufbauen, mehrseitige Arbeit organisieren, Werte austauschen, eine KI-Ökonomie unterstützen und unter realer Aufsicht sicher und rechenschaftspflichtig bleiben. Dieses Papier stellt das Foundation Protocol (FP) vor, eine graph-basierte Koordinationsschicht für eine aufkommende Mensch-KI-Gesellschaft. FP vereint heterogene Entitäten – darunter Agenten, Werkzeuge, Ressourcen, Menschen, Institutionen und Organisationen – und unterstützt native mehrseitige Organisation sowie ereignisbasierte Zusammenarbeit. Es bietet ferner wirtschaftliche Primitive für Messung, Quittungen und Abrechnung und behandelt Richtlinien, Herkunft und Prüfung als erstklassige Belange. FP ist darauf ausgelegt, bestehende Protokolle zu umhüllen und zu überbrücken, anstatt sie zu ersetzen, und ermöglicht so eine schrittweise Einführung bei gleichzeitiger Reduzierung des Integrations- und Governance-Overheads. Ziel ist es, autonome Handlungsfähigkeit komponierbar zu halten, während Rechenschaftspflicht nicht verhandelbar bleibt, sodass Koordination selbst zur gemeinsamen Infrastruktur für eine offene, pluralistische und regierbare Mensch-KI-Gesellschaft werden kann.
Die 3D-Rekonstruktion aus spärlichen Ansichten wird zunehmend durch Feed-Forward-Splatting-Netzwerke adressiert, die explizite Primitive direkt aus Bildern vorhersagen. Die meisten bestehenden Methoden konzentrieren sich jedoch weiterhin auf Gauß-Primitive und geben Oberflächen nur indirekt preis: Die Extraktion eines nutzbaren Netzes für nachgelagerte Simulationen, physikalische Schlussfolgerungen oder verkörperte Interaktion erfordert noch immer aufwändige nachträgliche Schritte, die das Feed-Forward-Versprechen brechen. Diese Einschränkung ist besonders in posenfreien Umgebungen ausgeprägt, wo Szenenstruktur und Kameraparameter gemeinsam aus spärlichen Beobachtungen geschätzt werden müssen. Wir stellen TriSplat vor, ein Feed-Forward-Rekonstruktionsnetzwerk, das Szenen mit orientierten Dreiecksprimitiven darstellt und direkt simulationsbereite Netz-Szenen aus einem einzigen Vorwärtsdurchlauf exportiert. Ausgehend von Eingabebildern sagt das Netzwerk lokale 3D-Punktkarten, Dreiecksattribute, Kameraposen und optionale intrinsische Parameter vorher. Anstatt die Dreiecksorientierung als uneingeschränkte latente Variable zu regressieren, konstruiert unser Ansatz geometrische Normalen aus den vorhergesagten Punktkarten, verfeinert sie mit einem bildkonditionierten Normalenkopf und wandelt sie in stabile lokale Bezugssysteme für die Dreiecksparametrisierung um. Ein Mono-Normal-Bootstrap-Plan stabilisiert weiterhin das frühe Training, während Opazitäts- und Unschärfe-Scheduling die gelernte Oberflächendarstellung für die direkte Netzextraktion schrittweise schärft. Experimente auf RealEstate10K und DL3DV zeigen, dass diese Darstellung geometrietreue Rekonstruktionen liefert als Gauß-Feed-Forward-Baselines, während sie eine wettbewerbsfähige Qualität der Neuansichtssynthese beibehält. Da die Rendering-Primitive selbst Oberflächendreiecke sind, kann die Ausgabe ohne jegliche Konvertierung direkt von Physik-Engines, Kollisionsdetektoren und Standard-Rendering-Pipelines aufgenommen werden, was sie zu einer praktischen, simulationsbereiten Lösung für die Feed-Forward-3D-Szenenrekonstruktion macht.
Multimodale Modellierung stellt einen entscheidenden Schritt vom modalitätsagnostischen Schließen hin zur Weltmodellierung dar. Während frühe Ansätze überwiegend auf Late Fusion setzen, die Encoder und eingefrorene Sprach-Backbones mit Ausgabeköpfen kombiniert, haben neuere Bemühungen das Paradigma hin zur nativen multimodalen Modellierung (NMM) mit intrinsischer Integration der Modalitäten für überlegene multimodale Leistung verschoben. Trotz ihres Potenzials bleibt der Designraum nativer Architekturen unzureichend definiert. In diesem Beitrag präsentieren wir der Forschungsgemeinschaft eine formalisierte Roadmap für diesen Übergang. Konkret definieren wir formal die architektonische Nativeität und unterscheiden Mid-Fusion und Early-Fusion von nicht-nativen Paradigmen. Weiterhin systematisieren wir die bestehenden nativen Modelle anhand der Eingabe-Ausgabe-Dualität in drei Kategorien: (i) Multi-to-Text für cross-modales Verständnis mit text-only-Ausgabe; (ii) Multi-to-Target für szenarienorientierte Generierung, z.B. Bild-, Audio- und Videogenerierung; und (iii) Multi-to-Multi für einheitliche Modellierung mit symmetrischer Ein- und Ausgabe. Wir liefern eine umfassende und industrietaugliche Untersuchung des Übergangs zum endgültigen NMM-Rahmenwerk, in dem Verständnis und Generierung nahtlos in einem einheitlichen Transformer-Paradigma koexistieren. Wir entpacken systematisch die End-to-End-Pipeline aus industrieller Perspektive – von der architektonischen Koordination, über die massive Datenkuratierung, bis hin zu Full-Stack-Trainingrezepten, Inferenz und Deployment sowie der umfassenden Bewertung für wirklich native Modellierung.
Das Training großer multimodaler Modelle (LMMs) mittels Reinforcement Learning (RL), um nativ Videoverarbeitungswerkzeuge (z. B. Zuschneiden) aufzurufen, hat sich zu einem vielversprechenden Weg für das Verständnis langer Videos entwickelt. Allerdings senden bestehende native-RL-Methoden Werkzeugaufrufe sequenziell (d. h. einen pro Schritt): Ein einzelner falscher Zuschnitt verbreitet Fehler ohne Korrektur durch andere, mehrschrittige Werkzeugaufrufe verfälschen den Kontext, und die Inferenzkosten skalieren linear mit der Anzahl der Schritte. Wir stellen ParaVT vor, das erste Multi-Agenten-End-to-End-RL-trainierte Framework für paralleles Videowerkzeug-Aufrufen (Parallel Video Tool Calling), das mehrere Zeitfenster-Zuschnitte in einem einzigen Schritt ausführt, für einen saubereren Kontext und eine bessere Fehlertoleranz. Doch die Anwendung von Standard-RL auf ParaVT offenbart ein Hindernis, das wir als Tool-Prior-Paradoxon bezeichnen: Die vortrainierten Werkzeug-Priors, die die Werkzeugerkundung ermöglichen, destabilisieren gleichzeitig das kaltgestartete Strukturformat und legen unter Temperatursampling den Belohnungsabkürzungspfad des Überspringens von Werkzeugen offen. Ein modellübergreifender Vergleich mit einem LMM mit schwächeren Priors unterstützt diese Behauptung: Das Format bleibt stabil, aber RL ruft keine Werkzeuge auf, was darauf hindeutet, dass die Prior-Stärke der gemeinsame Treiber sowohl für den Formatzusammenbruch als auch für die Werkzeugerkundung ist. Wir schlagen PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO) vor, das Standard-RL mit zwei komplementären Mechanismen erweitert: (i) eine gezielte Formatbelohnung, die nur an den strukturellen Token-Positionen angewendet wird, die am anfälligsten für einen Zusammenbruch sind, und (ii) eine pro-Prompt-Frame-Budget-Randomisierung, die Trainingsprompts erzeugt, bei denen das Aufrufen des Werkzeugs ein messbares Belohnungssignal gegenüber dem Überspringen liefert. Über sechs Benchmarks zum Verständnis langer Videos hinweg verbessert ParaVT die Qwen3-VL-Baseline um durchschnittlich +7,9 %, wobei PARA-GRPO die Formatkonformität während des Trainings von 0,13 auf 0,64 anhebt. Da Werkzeugfähigkeiten in modernen LMMs zunehmend internalisiert werden, muss RL mit den resultierenden Priors zusammenarbeiten, und ParaVT bietet ein allgemeines Rezept für agentisches RL. Code, Daten und Modellgewichte sind öffentlich verfügbar.
Deep-Research-Agenten erweitern die Rolle von Suchmaschinen von der Rückgabe keyword-basierter Ergebnisse hin zur Synthese von Wissen und verändern damit grundlegend, wie Menschen mit Informationen interagieren. Allerdings bleiben wegweisende Systeme proprietär, während bestehende offene Agenten oft über verschiedene Aufgabentypen hinweg schlecht generalisieren – es bleibt unklar, wie man einen breit einsetzbaren Deep-Research-Agenten trainieren kann. Wir veröffentlichen QUEST, eine Familie offener Modelle (von 2B bis 35B), die als universelle Deep-Research-Agenten fungieren und für eine Vielzahl langfristiger Suchaufgaben ausgelegt sind – mit starken Fähigkeiten in Faktenfindung, Zitationsverankerung und Berichtsynthese. Zur Entwicklung von QUEST schlagen wir ein effektives Trainingsrezept vor, das Mid-Training, überwachtes Feintuning und verstärkendes Lernen kombiniert. Kern dieses Rezepts ist eine kuratierte Datensynthese-Pipeline auf Basis einheitlicher Rubrikbäume, die auf verschiedene Aufgabentypen anwendbar ist und die Synthese von Trainingsdaten mit überprüfbaren Belohnungen ohne menschliche Annotation ermöglicht. Darüber hinaus integriert QUEST einen eingebauten Kontextverwaltungsmechanismus, der effektives langfristiges Denken und Wissenssynthese ermöglicht. Mit nur 8.000 synthetisierten Aufgaben erreicht QUEST auf acht Deep-Research-Benchmarks mit verschiedenen Aufgabentypen nahezu oder sogar die Leistung führender geschlossener Agenten und erzielt die beste Gesamtleistung unter den aktuellen Open-Weight-Agenten. Wir haben alles veröffentlicht: Modelle, Daten und Trainingsskripte.
Effiziente Aufmerksamkeitsalgorithmen sind entscheidend, um die quadratischen Kosten der Aufmerksamkeit in langen Kontexten zu reduzieren. Frühere Arbeiten nutzen blockweise skalierte Quantisierungstechniken auf Blackwell-GPUs, um die Aufmerksamkeitsberechnung auf 4-Bit-Präzision zu verlagern und die Inferenz zu beschleunigen. Diese Techniken führen jedoch in Langkontext-Szenarien zu erheblichen Qualitätseinbußen. Wir zeigen, dass die Auswirkung von Quantisierungsfehlern auf die Ausgabe stark nicht-uniform ist und mit der Bedeutung jeder Query-Key-Interaktion zunimmt, wobei funktional relevante Fehler in einer kleinen Anzahl von Aufmerksamkeitsblöcken konzentriert sind, die die wichtigsten Token enthalten. Wir schlagen ThriftAttention vor, eine Low-Bit-Aufmerksamkeitsvariante, die nahezu FP16-Qualität für lange Kontexte bei FP4-Inferenz-Effizienz liefert. Dieser Ansatz erfolgt in zwei Schritten. Zunächst wählt eine Heuristik schnell eine kleine Anzahl wichtiger Query-Key-Blockpaare für FP16-Präzision aus. Anschließend werden die ausgewählten Blöcke in FP16 und die restlichen Blöcke in FP4 berechnet, wobei beide Pfade über Online-Softmax zu einer einzigen Ausgabe zusammengeführt werden. Wir demonstrieren über Langkontext-Benchmarks und Modellfamilien hinweg, dass ThriftAttention durch die Berechnung von nur 5% der Query-Key-Blöcke in FP16 im Durchschnitt 89,1% des FP4-zu-FP16-Leistungsabstands wiederherstellt. Wir zeigen, dass der Vorteil von ThriftAttention mit der Sequenzlänge wächst und die systematische FP4-Qualitätsverschlechterung bei längeren Kontexten abmildert. Der Code ist verfügbar unter https://github.com/joesharratt1229/ThriftAttention.
Die wissenschaftliche Forschung wird durch KI-Systeme umgestaltet, die über isolierte Unterstützung hinaus zu längerfristigen Arbeitsabläufen übergehen, die Literaturverankerung, Hypothesengenerierung, Experimentierung, Validierung, Berichterstattung und Überarbeitung umfassen. Dieser Wandel markiert einen Übergang von aufgabenbezogener KI für die Wissenschaft hin zur Automatisierung von Forschungsabläufen auf Workflow-Ebene. Dennoch bleiben aktuelle Systeme fragmentiert und unterscheiden sich in Autonomie, Domänenbereich, Ausführungsumgebung, Validierungsmechanismus und menschlicher Aufsicht, während sie weiterhin mit Beweiserhaltung, Reproduzierbarkeit, Ablehnung schwacher Richtungen, Nachverfolgbarkeit der Herkunft, domänenübergreifender Robustheit und verantwortungsbewusstem wissenschaftlichem Abschluss kämpfen. Diese Untersuchung betrachtet diese Entwicklungen durch AutoResearch, definiert als das Entwicklungsspektrum der KI-gestützten Automatisierung wissenschaftlicher Arbeitsabläufe. Darin bezeichnet Vibe Research den menschlich gesteuerten Bereich der promptbasierten Assistenz und menschlich verifizierten Ausführung, während aufkommende KI-geführte Systeme größere Teile des Entdeckungszyklus koordinieren, ohne eine robuste Autonomie zu erreichen. Wir analysieren, wie Forschungssysteme Kontrolle, Evidenz, Ausführung, Validierung und Verantwortlichkeit über Arbeitsabläufe hinweg umverteilen, und ordnen das Feld um fünf Workflow-Bedingungen: Literatur- und Forschungsverankerung; Hypothesenbildung und Planung; Experimentierung und Werkzeugnutzung; Rückmeldung, Validierung und Überprüfung; sowie Berichterstattung und Wissenskommunikation. Weiterhin synthetisieren wir KI-Wissenschaftlersysteme, kooperative Co-Research-Frameworks mit gemischter Initiative, Benchmarks, Domäneneinsätze und Open-Source-Infrastrukturen. Schließlich schlagen wir fünf Bewertungsdimensionen vor – Neuheit, Validität, Impact, Zuverlässigkeit und Herkunft – und zeigen, dass die Autonomie von AutoResearch domänenbedingt ist, indem sie in strukturierten, ausführbaren und schnell verifizierbaren Umgebungen glaubwürdiger ist, aber in verkörperten, verzögerten, heterogenen, ethischen oder institutionell rechenschaftspflichtigen Kontexten eingeschränkt ist.
Multimodales Retrieval stützt sich stark auf Ein-Vektor-Retriever, die reichhaltige, sequentielle Token-Sequenzen in eine einzige globale Repräsentation komprimieren. Obwohl effizient, gehen dabei feinkörnige, lokale Informationen verloren, die für dichte Retrieval-Aufgaben entscheidend sind. Multi-Vektor-Ansätze wurden als Lösung eingeführt, erfordern jedoch strikt ein Training und viele ignorieren die Notwendigkeit einer global zusammenfassenden Repräsentation. Um dieses Problem zu adressieren, stellen wir SMART vor, ein Framework, das die latenten Multi-Vektor-Fähigkeiten standardmäßiger Ein-Vektor-Modelle freischaltet. Wir zeigen zunächst, dass ein standardmäßiges kontrastives Training auf der gepoolten Embedding implizit die Retrieval-Geometrie der vorhergehenden versteckten Zustände über den Gradientenfluss formt. Durch die Anwendung direkter Late-Interaction über diese eingefrorenen versteckten Zustände während der Inferenz fungiert SMART als Plug-and-Play-Upgrade, das die Leistung über verschiedene Modalitäten hinweg konsistent verbessert und selbst die State-of-the-Art-Modelle auf MMEB-V2 weiter verbessert. Wir zeigen auch die überlegene Leistung von SMART, da einfaches leichtgewichtiges Post-Training nicht nur Zeit und Rechenleistung spart, sondern auch weitere Verbesserungen beim visuellen Dokumenten-Retrieval ermöglicht, sodass ein Ein-Vektor-Modell seine SoTA-Multi-Vektor-Pendants übertrifft. Letztendlich bietet SMART sowohl eine hoch effiziente Inferenzverbesserung als auch eine leistungsstarke Feintuning-Technik für multimodales Retrieval. Wir veröffentlichen unseren Code und unsere Gewichte unter https://github.com/HanSolo9682/SMART.
Die Erzeugung vollständiger digitaler Zwillinge aus Videos erfordert präzise Kamerasteuerung, globale Szenenabdeckung sowie strenge räumlich-zeitliche Konsistenzbedingungen, die für perspektivische Videogeneratoren aufgrund ihres begrenzten Sichtfelds (FoV) eine Herausforderung darstellen. Ihr enger Sichtwinkel erzwingt lange oder multiview-Trajektorien, was ansichtsübergreifende Inkonsistenzen und zeitliche Drift verstärkt. Wir argumentieren, dass die 360°-Videoerzeugung eine natürliche Lösung bietet: Panoramische Abdeckung vereinfacht das Trajektoriendesign und liefert einen starken globalen Kontext zur Wahrung der Kohärenz. Wir stellen Pantheon360 vor: Zähmung der Erzeugung digitaler Zwillinge durch 3D-bewusste 360°-Videodiffusion – ein steuerbares 360°-Videoerzeugungsframework, das aus spärlichen 360°-Eingaben hochtreue Videos synthetisiert. Der Kernansatz ist ein expliziter 3D-Cache, der aus der Eingabe rekonstruiert wird und als geometrisches Gerüst für jeden benutzerdefinierten Kamerapfad dient. Dadurch kann sich das Diffusionsmodell auf die photorealisitische Texturverfeinerung konzentrieren, während der 3D-Cache die globale geometrische Konsist erzwingt. Experimente zeigen, dass Pantheon360 überlegene visuelle Qualität und beispiellose geometrische Kohärenz erreicht und so eine zuverlässige und flexible 360°-Szenenerzeugung für nachgeschaltete Simulationen und Digital-Twin-Anwendungen ermöglicht.
Bestärkungslernen mit verifizierbaren Belohnungen (RLVR) hat Durchbrüche in Bereichen wie Mathematik, Werkzeugnutzung und Softwareentwicklung ermöglicht, doch seine Ausweitung auf Computer-Use-Agenten (CUAs) wird durch die Knappheit skalierbarer Trainingsdaten mit deterministischen Belohnungen eingeschränkt. Die Erstellung solcher Daten für CUAs erfordert konsistente Aufgabenanweisungen, eine ausführbare Umgebung und eine verifizierbare Belohnung. Handkuratierte Benchmarks erreichen zwar eine hohe Belohnungstreue, decken jedoch nur wenige Anwendungen ab, und auf LLM-als-Judge basierende Datensätze skalieren zwar breit, entbehren jedoch einer zuverlässigen Verifikation. Wir stellen CUA-Gym vor, eine skalierbare Pipeline, die gemeinsam Aufgabenanweisungen, Umgebungszustände und Belohnungsfunktionen generiert. Konkret erstellt ein Generator-Agent die initialen und goldenen Umgebungszustände, und ein separater Diskriminator-Agent schreibt die Belohnungsfunktion aus der Aufgabenspezifikation. Ein Orchestrator-Agent treibt die beiden durch iterative Runden nach der Ausführung an. Generierte Tupel durchlaufen dann einen abschließenden Filter, der LLM-Mehrheitsabstimmung und Agenten-Rollouts kombiniert, um eine Qualität jenseits der aufgabenbezogenen adversarialen Schleife sicherzustellen. Um der Knappheit an Trainingsumgebungen zu begegnen, synthetisieren wir weiterhin CUA-Gym-Hub, eine breite Suite hochtreuer simulierter Webanwendungen, die auf realen Softwarenutzungsverteilungen basieren und den Umfang der CUA-RLVR-Daten um Größenordnungen erweitern. Mit dieser Pipeline erstellen wir CUA-Gym, einen Datensatz von 32.112 verifizierten RLVR-Trainings-Tupeln, die in 110 Umgebungen verankert sind. Trainiert mit GSPO auf CUA-Gym, erreichen unsere CUA-Gym-A3B und CUA-Gym-A17B 62,1 % bzw. 72,6 % auf OSWorld-Verified und übertreffen damit frühere Open-Source-CUAs vergleichbarer Größe, wobei die Leistung sowohl mit dem Datenvolumen als auch mit der Umgebungsvielfalt gleichmäßig skaliert. Dieselben Checkpoints verbessern sich auch auf dem zurückgehaltenen WebArena-Benchmark, was auf einen Transfer über die Trainingsumgebungen hinaus hindeutet. Wir werden die vollständige Synthese-Pipeline, den Datensatz, die CUA-Gym-Hub-Umgebungen und die Modelle als Open Source veröffentlichen.
Bestehende auf Deep Learning basierende Methoden zur Aufhellung schwacher Beleuchtung werden typischerweise auf begrenzten Datensätzen mit einzelnen Aufhellungszielen trainiert, was ihre Generalisierungsfähigkeit und Steuerbarkeit in realen Anwendungen einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir ControlLight vor – ein kontrollierbares, konsistentes und generalisierbares Framework zur Aufhellung schwacher Beleuchtung. Zunächst konstruieren wir einen großflächigen Datensatz realer minderbelichteter Bilder mit kontinuierlicher Beleuchtungsstärke-Überwachung. Um konsistente Ergebnisse bei unterschiedlichen Kontrollstärken sicherzustellen, führen wir einen fehlausrichtungsbewussten gewichteten Flow-Matching-Verlust ein, der die Bildstruktur über kontinuierliche Aufhellungsstärken hinweg bewahrt. ControlLight ermöglicht es Nutzern, reale minderbelichtete Bilder durch flexible Steuerung der Stärke hin zu zufriedenstellenden Ergebnissen zu bearbeiten, während visuelle Konsistenz und Realismus erhalten bleiben. Umfangreiche Experimente zeigen, dass ControlLight im Vergleich zu bestehenden Ansätzen zur Aufhellung schwacher Beleuchtung eine Spitzenleistung erzielt und gleichzeitig eine starke kontinuierliche Steuerbarkeit sowie Generalisierungsfähigkeit auf reale Szenarien demonstriert.
Agenten auf Basis großer Sprachmodelle werden zunehmend als ständig verfügbare persönliche Assistenten konzipiert, die Zugriff auf alles Relevante in der digitalen Welt des Nutzers haben. Dennoch arbeiten aktuelle Systeme nur über schmale Ausschnitte dieser Welt, was kontextsensitives Denken und effektive Unterstützung einschränkt. Vorhandene Benchmarks liefern ebenfalls nur einen partiellen Nutzerzustand und versagen daher, die Leistung in einem derart breiten, ständig verfügbaren Szenario zu erfassen. Um diese Lücke zu schließen, führen wir Claw-Anything ein, einen Benchmark, der den Agentenkontext entlang dreier Dimensionen erweitert: langfristige Aktivitätsverläufe, voneinander abhängige Backend-Dienste sowie integrierte GUI- und CLI-Interaktion über mehrere Geräte hinweg. Zur Umsetzung dieses Szenarios simulieren wir Monate von Nutzeraktivitäten durch mehrstufige Ereignisinjektion, die komplexe Weltzustände und realistisches Rauschen erzeugen, darunter irrelevante Ereignisse und widersprüchliche Signale. Agenten müssen über reichhaltige kontextuelle Umgebungen nachdenken und gleichzeitig robust gegenüber solchem Rauschen bleiben. Dieser erweiterte Umfang ermöglicht auch die Bewertung proaktiver Unterstützung, bei der Agenten Benutzerbedürfnisse antizipieren und zeitnahe Empfehlungen geben müssen. Experimente zeigen, dass GPT-5.5 nur 34,5% pass@1 erreicht, wesentlich unter früheren Benchmarks, was eine Kluft zwischen den aktuellen Agentenfähigkeiten und den Anforderungen einer ständig verfügbaren persönlichen Assistenz unterstreicht. Zusammen mit dem Benchmark veröffentlichen wir eine automatisierte Datengenerierungspipeline, die 2.000 Trainingsumgebungen erzeugt und das Basismodell um 23,7% verbessert, was den Nutzen einer skalierbaren Dateninfrastruktur demonstriert.
Während KI-Agenten bemerkenswerte Fähigkeiten in den Bereichen logisches Denken und Werkzeuggebrauch demonstrieren, bleiben sie grundsätzlich reaktiv: Sie berechnen Antworten erst nach expliziten Benutzeranfragen. Dieses Paradigma übersieht eine kritische Gelegenheit: Die Leerlaufzeit zwischen Interaktionen bleibt weitgehend ungenutzt, sodass Agenten nicht in der Lage sind, sich auf zukünftige Benutzerbedürfnisse vorzubereiten. Um diese Lücke zu schließen, stellen wir ProAct vor, eine proaktive Agentenarchitektur, die Rechenleistung in Leerlaufzeiten nutzt, um wahrscheinliche zukünftige Benutzeranforderungen vorherzusehen und zu erfüllen. Durch die Analyse der sich entwickelnden Gesprächshistorie zusammen mit persistentem Speicher sagt ProAct bevorstehende Bedürfnisse voraus und beschafft iterativ Informationen, sodass der Agent Wissenslücken schließen und Belege vorbereiten kann, bevor der Benutzer eine Anfrage stellt. Um proaktive Fähigkeiten rigoros zu bewerten, führen wir außerdem ProActEval ein, einen umfassenden Benchmark, der 200 Szenarien in 40 Domänen umfasst, mit vorhersehbaren Bedarfsketten und verschiedenen kognitiven Benutzerprofilen. Empirische Ergebnisse zeigen signifikante Vorteile gegenüber reaktiven Baselines. ProAct beschleunigt die Aufgabenerledigung, indem es die erforderlichen Interaktionsschritte um 14,8 % reduziert, den Benutzeraufwand um 11,7 % verringert und die Halluzinationsrate auf ProActEval um 28,1 % senkt. Darüber hinaus bestätigen MemBench-Auswertungen, dass ProAct eine hochmoderne reflektive Genauigkeit erreicht, was seine nachhaltige und robuste Leistung unterstreicht.
Autoregressive Videogeneratoren sind attraktiv für Streaming-, Langzeithorizont- und interaktive Anwendungen, doch die Destillation starker Black-Box-Lehrer in kausale Studenten bleibt schwierig. Der Student muss unter seiner eigenen Rollout-Verteilung lernen, während praktische Lehrer möglicherweise nur prompt-bedingte fertige Videos bereitstellen und sich in Architektur, Kapazität, zeitlichem Design und Abtastplan unterscheiden können. Diese Schnittstelle macht überwachtes Feintuning off-policy, score-basierte Destillation unanwendbar und direkte adversarialische Nachahmung zu spärlich für die Kreditzuweisung zur Entrauschungszeit. Wir schlagen Adversarial Flow Distillation (AFD) vor, ein On-Policy-Framework für heterogene Black-Box-Videodestillation. AFD fragt den Lehrer ab und rollt den aktuellen Studenten auf denselben Prompts aus, trainiert einen prompt-gepaarten Bradley-Terry-Diskriminator zur Schätzung der Abweichung zwischen sauberen Stichproben von Lehrer und Student und wandelt den resultierenden On-Policy-Vorteil in Vorwärtsprozess-Flow-Matching-Updates auf den eigenen verrauschten Zuständen des Studenten um. Somit bietet AFD eine dichte Geschwindigkeitsfeld-Überwachung, ohne dass Lehrer-Scores, Latents, Entrauschungstrajektorien, Schrittabstimmung oder Reverse-Chain-Reinforcement-Learning erforderlich sind. Experimente mit zwei kausalen AR-Studentenfamilien zeigen, dass AFD die bewegungs- und physiksensitive Generierung konsistent verbessert und dabei die allgemeine Videoqualität erhält; Ablationen bestätigen die Bedeutung von adaptivem On-Policy-Feedback und Vorwärtsprozess-Kreditzuweisung. Die Methode erfordert lediglich saubere Lehrer-Videos und Studenten-Rollouts und bietet einen praktischen Weg, proprietäre oder heterogene Videogeneratoren in effiziente autoregressive Studenten zu destillieren.
Große Sprachmodelle (LLM)-Agenten sammeln bei der Lösung realer Aufgaben umfangreiche episodische Trajektorien, doch bleibt unklar, ob solche Erfahrungen in wiederverwendbare prozedurale Fähigkeiten destilliert werden können. Wir stellen SkillEvolBench vor, einen diagnostischen Benchmark zur Bewertung dieses Schritts von der Erfahrungswiederverwendung zur Fähigkeitsbildung. Er umfasst 180 Aufgaben aus sechs realen Agentenumgebungen, die in rollenbedingte Aufgabenfamilien mit gemeinsamen latenten Prozeduren organisiert sind. Agenten lernen aus Erwerbsaufgaben, aktualisieren eine externe Fähigkeitsbibliothek mittels komprimierter Trajektorien und Verifizierer-Rückmeldung und stehen dann vor eingefrorenen Einsatzaufgaben, die Kontextverschiebung, adversarialle Abkürzungen und Komposition testen. Durch den Vergleich von selbstgenerierter und kuratierter Startfähigkeitsentwicklung mit Kontrollbedingungen ohne Fähigkeiten und mit rohen Trajektorien trennt SkillEvolBench prozedurale Abstraktion von Basisfähigkeit, kuratiertem Vorwissen und direkter Wiederverwendung episodischer Spuren. Über zehn Modellkonfigurationen und drei Agenten-Harnesses hinweg stellen wir fest, dass aktuelle Agenten sich oft lokal anpassen, aber selten robuste wiederverwendbare Fähigkeiten ausbilden. Fähigkeitsbasierte Bedingungen können den Erwerb oder die Wiedergabe verbessern, und einzelne Modelle erzielen manchmal Gewinne auf spezifischen Einsatzachsen, doch diese Gewinne sind bei eingefrorenem Einsatz instabil. Die Wiederverwendung roher Trajektorien übertrifft häufig destillierte Fähigkeiten, was darauf hindeutet, dass aktuelle Abstraktionsverfahren kontextuelle und prozedurale Hinweise verwerfen, die für zukünftige Aufgaben nützlich bleiben. Kapazitäts- und Kostenanalysen zeigen zudem, dass das Schreiben von mehr Fähigkeiten oder größeren Ressourcenbibliotheken der Stufe 3 nicht ausreicht: Zusätzliche Aktualisierungen können die Abdeckung verbessern, führen aber gleichzeitig zu episodespezifischer Drift und prozeduralem Durcheinander. Diese Ergebnisse positionieren SkillEvolBench als Testumgebung, um zu messen, wann einmalige Erfahrung zu dauerhaftem prozeduralem Wissen wird und nicht zu einem aufgabenspezifischen Gedächtnis.
Wir präsentieren Channel-Wise Vector Quantization (CVQ), ein neuartiges Paradigma zur Bildtokenisierung, das patch-basierte Token durch kanalbasierte Token ersetzt. Im Gegensatz zur herkömmlichen Vektorquantisierung, die jedem Patch-Feature-Vektor ein diskretes Token zuweist, quantisiert CVQ jeden Kanal der Feature-Map. Diese Formulierung stellt ein Bild als diskrete Ebenen visueller Details dar, nicht als Raster räumlicher Patches. Aufbauend auf CVQ führen wir ein neues visuelles autoregressives Framework mit „Next-Channel Prediction“ ein. Statt Bilder Patch für Patch in Rasterreihenfolge zu rendern, sagt unser kanalbasiertes autoregressives (CAR) Modell Bildkanäle sequenziell vorher und erzeugt so zunehmend reichere visuelle Details. Konkret skizziert es zunächst die globale Struktur und verfeinert dann feinkörnige Attribute, ähnlich der Arbeitsweise eines menschlichen Künstlers. Empirisch zeigen wir, dass: (1) CVQ eine Codebuchauslastung von 100 % bei einer Codebuchgröße von über 16.000 ohne zusätzliche Maßnahmen erreicht und die Rekonstruktionsqualität im Vergleich zur herkömmlichen VQ deutlich verbessert; und (2) CAR einen DPG-Wert von 86,7 und einen GenEval-Wert von 0,79 erreicht, was eine hohe Effektivität für die Text-zu-Bild-Generierung belegt.
Speicher ist eine grundlegende Komponente für die Ermöglichung von LLM-Agenten mit langem Kontext, die einen persistenten Zustand über Interaktionen hinweg durch einen kontinuierlichen Serve-and-Update-Lebenszyklus unterstützen. Trotz erheblicher Vorarbeiten leiden bestehende Systeme unter erheblichem Wartungsaufwand, der auf zwei wesentliche Einschränkungen zurückzuführen ist: grobkörniges Zustandsmanagement und inhärent sequenzielle Aktualisierungspipelines. Insbesondere sind Aktualisierungen oft eng mit der LLM-Inferenz gekoppelt und erfordern vollständige Zustandsüberschreibungen, was zu schlechter Skalierbarkeit und zunehmender Latenz führt, je mehr Speicher sich ansammelt. Um diese Herausforderungen zu bewältigen, stellen wir MemForest vor, ein Speicherframework, das Agentenspeicher als ein schreibeffizientes Problem des temporären Datenmanagements umformuliert. MemForest durchbricht den sequenziellen Engpass durch parallele Chunk-Extraktion und entkoppelt die Speicherkonstruktion in gleichzeitige, unabhängige Operationen. Um die grobkörnige Wartung weiter zu eliminieren, führen wir MemTree ein, einen hierarchischen temporären Index, der Speicher als zeitlich geordnete Bäume und nicht als flache globale Zusammenfassungen organisiert. Dieses Design ersetzt vollständige Zustandsüberschreibungen durch lokalisierte knotenweise Aktualisierungen, reduziert den Wartungsaufwand auf die betroffenen BaumPfade und bewahrt gleichzeitig natürlich zeitlich entwickelnde Zustände. Wir bewerten MemForest anhand zweier Langkontext-Speicherbenchmarks, LongMemEval-S und LoCoMo. Auf LongMemEval-S erreicht MemForest die beste Gesamtleistung unter den zustandsbehafteten Basislinien mit einer Pass@1-Genauigkeit von 79,8 % und einem Speicherkonstruktionsdurchsatz, der etwa 6-mal höher ist als bei modernsten Ansätzen wie EverMemOS.
Aktuelle Fortschritte bei generativen Modellen unterstreichen die Leistungsfähigkeit geometriebewusster Modellierung in mannigfaltigkeitsbeschränkten Umgebungen. Dennoch bleibt das Fachgebiet bei natürlichen Bildern auf euklidische Annahmen beschränkt und versäumt es, das Potenzial intrinsischer geometrischer Strukturen innerhalb der Daten auszuschöpfen. In dieser Arbeit untersuchen wir die Geometrie natürlicher Bilder und beobachten, dass semantische Informationen überwiegend in Richtungskomponenten kodiert sind, während Normkomponenten durch den globalen Mittelwert angenähert werden können. Diese Eigenschaft gilt sowohl für RGB- als auch für Latenträume, was darauf hindeutet, dass natürliche Bilder effektiv auf einer Hypersphäre modelliert werden können. Aufbauend auf dieser Erkenntnis führen wir das Sphärische Optimal-Transport-Fluss-Matching (SOT-CFM) ein, das den Winkelabstand nutzt, sowie das Sphärische Fluss-Matching (SFM), das die Dynamiken direkt auf der Mannigfaltigkeit einschränkt. Unsere Experimente zeigen, dass diese geometriebewussten Methoden im Vergleich zu euklidischen Basislinien eine überlegene Leistung erzielen. Letztlich bietet diese Arbeit eine neuartige Perspektive, die die Lücke zwischen riemannscher mannigfaltigkeitsbasierter Modellierung und der Generierung natürlicher Bilder überbrückt.
In dieser Arbeit stellen wir InstructSAM vor, ein einheitliches und optimiertes Framework für die Multi-Instanz-Segmentierung unter beliebigen Instruktionen. Wir formulieren die instruktionsgesteuerte Instanzsegmentierung als ein set-strukturiertes Anfragevorhersageproblem und schlagen eine explizite Reasoning-zu-Instanz-Abfrageschnittstelle vor, die elegant ein Vision-Language-Modell (VLM) und SAM3 verbindet. Insbesondere wird eine Reihe lernbarer Instanzabfragen in das VLM injiziert und mit Instruktionen sowie visuellen Informationen kontextualisiert, sodass jede Abfrage als instanzbewusster Slot fungiert. Ein Hybrid-Aufmerksamkeitsmechanismus fördert zudem die Interaktion zwischen diesen Abfragen, visuellen Token und Instruktionstoken, verbessert die Instanzenaufzählung und reduziert doppelte Vorhersagen. Die resultierenden LLM-konditionierten Abfragen werden in den Detektor-Abfragenraum von SAM3 projiziert, um in einem einzigen Vorwärtsdurchlauf eine genaue Multi-Instanz-Segmentierung zu ermöglichen. Dieses Design stattet SAM3 mit hochwertigem Instruktionsverständnis, kompositionellem Denken und Instanz-Level-Set-Vorhersagen aus, ohne seine Kernarchitektur zu verändern. Zur Unterstützung von Training und Evaluation konstruieren wir außerdem Inst2Seg, einen qualitativ hochwertigen und groß angelegten instrukionsbasierten Instanzsegmentierungsdatensatz und -benchmark, der freiformulierte Instruktionen mit Instanz-Level-Masken kombiniert. Umfangreiche Experimente zeigen, dass selbst das 2B-skalierte InstructSAM starke Ergebnisse auf komplexen instruktionsgesteuerten sowie phrasenbasierten Referenzsegmentierungsbenchmarks erzielt. Es übertrifft frühere End-to-End-Methoden und die agentische Pipeline von SAM3 und ermöglicht gleichzeitig eine effiziente Single-Pass-Multi-Instanz-Vorhersage.
Denkketten (Chains of Thought, CoTs) sind zentral für die Interpretation und Überprüfung des Verhaltens großer Sprachmodelle geworden. Dennoch deuten zunehmende Belege darauf hin, dass diese Spuren oft nicht getreu die Berechnungen widerspiegeln, die den Vorhersagen eines Modells zugrunde liegen. Es wurden mehrere Metriken zur Treue (Faithfulness) vorgeschlagen, doch ob sie tatsächlich die Treue messen, bleibt unbekannt. Die Beantwortung dieser Frage erfordert Ground-Truth-Labels, die schwer zu erhalten sind, da interne Berechnungen nicht direkt beobachtbar sind. Folglich berichten die meisten Arbeiten, die Metriken vorschlagen, nur absolute Werte oder Vergleiche mit früheren Metriken, und die wenigen vorhandenen Benchmarks stützen sich auf Proxy-Größen wie Plausibilität oder Wichtigkeit – Eigenschaften, die orthogonal zur Treue sind und in die Irre führen können, ob einer Denkkette vertraut werden kann. Wir begegnen dieser Herausforderung, indem wir Aufgaben konstruieren, deren Ergebnisse offenlegen, welche Zwischenberechnungen sie hervorgebracht haben müssen, und eine automatisierte Kennzeichnungspipeline entwickeln, die Ground-Truth-Treue-Labels sowohl auf Schritt- als auch auf CoT-Ebene liefert. Aufbauend auf dieser Methodik präsentieren wir BonaFide, einen Benchmark mit 3.066 gekennzeichneten Denkketten über 13 Aufgaben und 10 Modelle hinweg, und nutzen ihn für die erste systematische Evaluierung prominenter Treue-Metriken. Unsere Experimente zeigen, dass die meisten Metriken nahe dem Zufallsniveau arbeiten, starke Vorhersageverzerrungen aufweisen und bei längeren Denkketten schlechter abschneiden. Die beste Metrik erreicht nur 0,70 AUROC auf CoT-Ebene, während eine andere 0,59 auf Schritt-Ebene erreicht, wobei keine von ihnen über verschiedene Umgebungen hinweg übertragbar ist und beide mit unerschwinglich hohem Rechenaufwand verbunden sind. Unsere Ergebnisse offenbaren grundlegende Lücken in der aktuellen Treuebewertung und fordern die Entwicklung zuverlässigerer und effizienterer Metriken.
Transformer-basierte große Sprachmodelle werden zunehmend für langfristige Aufgaben eingesetzt; ihr Aufmerksamkeitsmechanismus skaliert jedoch schlecht mit der Kontextlänge. Um dies zu bewältigen, untersuchen wir einen schlafähnlichen Konsolidierungsmechanismus, bei dem ein Modell periodisch aktuellen Kontext in persistente schnelle Gewichte umwandelt, bevor es seinen Schlüssel-Wert-Zwischenspeicher leert. Während des Schlafs führt das Modell N offline rekursive Durchläufe über den angesammelten Kontext durch und aktualisiert die schnellen Gewichte in seinen Zustandsraummodell-(SSM-)Blöcken mittels einer erlernten lokalen Regel. Während der Inferenz verlagert dies zusätzliche Berechnung in den Schlaf und bewahrt gleichzeitig die Latenzzeit der Vorhersage im Wachzustand. Wir testen unsere Methode an kontrollierten synthetischen Aufgaben, darunter zelluläre Automaten und Mehrsprung-Graphabruf, sowie an einer realistischen mathematischen Denkaufgabe, bei der ein regulärer Transformer sowie SSM-Aufmerksamkeits-Hybridmodelle versagen. Anschließend zeigen wir, dass eine Erhöhung der Schlafdauer N bei unseren Modellen die Leistung verbessert, wobei die größten Zugewinne bei Beispielen auftreten, die tiefere Überlegungen erfordern.
Aktuelle Video-zu-4D-Methoden haben Schwierigkeiten mit komplexen Topologieänderungen, transparenten Materialien, dünnen Strukturen und inneren Oberflächen. Wir stellen Helix4D vor, ein Framework zur dynamischen Gittererzeugung, das die ausdrucksstarke Repräsentation von Trellis2 übernimmt und von der Bild-zu-3D-Generierung auf die videobedingte 4D-Generierung überträgt. Unser Ansatz ergibt sich aus zwei Schlüsselfragen: (a) Wie kann die bildlokale Aufmerksamkeit von Trellis2 dazu befähigt werden, Informationen zwischen Bildern auszutauschen, während die vortrainierte Qualität bei seltenen Fällen wie transparenten Objekten und inneren Oberflächen erhalten bleibt? (b) Wie können zeitliche Informationen in eine rein 3D-Positionskodierung eingebracht werden, ohne die vortrainierten Fähigkeiten zu beeinträchtigen? Wir adressieren (a) mit einer gleitenden Fenster-übergreifenden Aufmerksamkeit und Verankerung am ersten Bild. Das erste Bild wird vom Basis-Trellis2-Modell erzeugt und in unser Modell eingespeist, sodass es durch die bildübergreifende Aufmerksamkeit die Qualität von Trellis2 bei seltenen Fällen übernimmt. Wir adressieren (b) mit einer 4D-Zeitkodierung, die redundante niederfrequente räumliche RoPE-Bänder für die Zeit umwidmet und so die Kodierung ohne zusätzliche Parameter von 3D erweitert. Umfangreiche Experimente belegen die Wirksamkeit von Helix4D für die qualitativ hochwertige dynamische Gittererzeugung auf ActionBench und unserem eigenen anspruchsvollen Satz komplexer Dynamiken.
Videovorhersage wird zunehmend als Weg zu generalisierbaren Weltmodellen betrachtet, doch bleibt unklar, ob diese Systeme zugrundeliegende kausale Strukturen erlernen oder lediglich oberflächliche visuelle Korrelationen für die zukünftige Vorhersage ausnutzen. Wir stellen CRONOS vor, einen interventionsbasierten Benchmark zur Bewertung der kontrafaktischen physikalischen Konsistenz: ob die Vorhersagen eines Modells physikalischer Ereignisse angemessen auf kontrollierte Veränderungen der visuellen Eingabe reagieren, wie etwa Variationen des Szenenkontexts, des Blickwinkels, des Objektaussehens und der Objektkategorie. Aufgebaut in einer fotorealistischen Unreal-Engine-Umgebung ermöglicht CRONOS die kontrollierte, detailgetreue Generierung von Videos über verschiedene Szenen und Dynamiken hinweg. Im Gegensatz zu früheren Benchmarks greift CRONOS systematisch in vier Schlüsselfaktoren ein – Blickwinkel, Szene, Objektkategorie und Objektaussehen – während der zugrundeliegende physikalische Ereignistyp, wie eine Kollision, Okklusion oder ein Fall, konstant bleibt. Unsere Evaluierung aktueller Open-Source-Videogeneratoren zeigt erhebliche Defizite in der kontrafaktischen physikalischen Konsistenz: Die Vorhersagequalität für denselben physikalischen Ereignistyp wird durch das Aussehen, die Umgebung und insbesondere durch Blickwinkeländerungen beeinflusst. CRONOS bietet eine kontrollierte und reproduzierbare Testumgebung, um zu diagnostizieren, wie sich die Qualität generierter Videos bei verschiedenen Interventionen verändert, und setzt ein konkretes Ziel für die Entwicklung von Modellen, die konsistent über Veränderungen mehrerer Bedingungen hinweg arbeiten. Der Datensatz und der Code sind auf unserer Projektseite verfügbar.
Metaphorische Videos sind in verschiedenen realen Szenarien weit verbreitet, um komplexe Ideen zu vermitteln, und ihr Verständnis erfordert typischerweise höhere kognitive Fähigkeiten. Das Fehlen systematischer Studien zum Verständnis metaphorischer Videos schränkt nicht nur die praktische Anwendbarkeit von MLLMs ein, sondern behindert auch die gründliche Bewertung ihrer höheren kognitiven Fähigkeiten. Um diese Lücke zu schließen, schlagen wir MetaphorVU-Bench vor, den ersten systematischen und umfassenden Benchmark, der dem Verständnis metaphorischer Videos gewidmet ist. Durch Experimente stellen wir fest, dass aktuelle MLLMs Schwierigkeiten mit dem genauen Verständnis metaphorischer Videos haben, weit hinter dem menschlichen Niveau zurückbleiben, hauptsächlich aufgrund fehlerhafter domänenübergreifender Zuordnung. Motiviert durch diese Erkenntnis erstellen wir einen Metaphern-Wissensgraphen als Zuordnungserweiterung und schlagen MetaphorBoost vor, ein Framework zur Verbesserung während der Inferenz, das eine konsistente Leistungssteigerung erzielt. Unser Benchmark, unsere Analyse und unsere Methode liefern nützliche Erkenntnisse und eine Grundlage für zukünftige Forschung zur Weiterentwicklung von MLLMs.
Vereinheitlichte multimodale Verständnis- und Generierungsmodelle ermöglichen eine reichhaltigere Mensch-KI-Interaktion. Dennoch bleibt die gemeinsame Anpassung der Persönlichkeit, des Dialogstils und der visuellen Identität einer Figur bei gleichzeitiger Wahrung der Ausgabekonsistenz über Modalitäten hinweg weitgehend unerforscht. Um diese Lücke zu schließen, führen wir eine neue Aufgabe ein, das angepasste multimodale Rollenspiel (CMRP). Wir konstruieren den Datensatz RoleScape-20, der 20 Figuren umfasst, einschließlich Trainings- und Evaluationsdaten, die Persönlichkeit, stilistische Beschreibungen, visuelle/expressive Hinweise sowie Text-Bild-Interaktionen abdecken. Aufbauend auf einem vereinheitlichten Modell entwickeln wir UniCharacter, ein zweistufiges Trainingsframework, das Unified Supervised Finetuning (Unified-SFT) und figurenspezifische Gruppen-Richtlinienoptimierung (Character-GRPO) beinhaltet. Mit nur 10 Bildern und entsprechenden Interaktionsbeispielen erwirbt das Modell die Zielfigur und zeigt sowohl im generierten Text als auch in den Bildern eine kohärente Persönlichkeit, einen kohärenten Stil und eine kohärente visuelle Identität. Dieser Prozess benötigt etwa 100 GPU-Stunden. Experimente auf dem RoleScape-20-Datensatz zeigen, dass die vorgeschlagene Methode bisherige Ansätze deutlich übertrifft. Ablationsstudien bestätigen zudem die Wirksamkeit unseres Designs zur kreuzmodalen Konsistenz und unserer Few-Shot-Anpassungsstrategie. Wir argumentieren, dass CMRP in Verbindung mit vereinheitlichter Modellierung eine Grundlage für die nächste Generation charaktervoller und immersiver interaktiver Agenten bietet.
Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion erzeugen qualitativ hochwertige Bilder aus Text, bieten jedoch keine Möglichkeit, visuelle Führung (z. B. Skizzen, Stile) zur Inferenzzeit einzubringen, ohne ein Nachtraining zu erfordern. Bestehende Methoden benötigen entweder rechenintensives Feintuning oder basieren auf Stilübertragungstechniken, die das Risiko einer semantischen Fehlausrichtung mit Textprompts bergen. Wir stellen Visual Concept Fusion (VCF) vor, die erste Methode, die eine duale Konditionierung sowohl auf ein Bild als auch auf einen Textprompt zur Inferenzzeit ermöglicht, ohne jegliches konzeptspezifisches Training. VCF ermöglicht die Injektion visueller Konzepte in Stable Diffusion, indem CLIP-Bildmerkmale mit dem Texteinbettungsraum abgeglichen werden. VCF besteht aus drei Komponenten: (1) einem leichten Aligner, der Bildtokens mithilfe von InfoNCE- und Cross-Attention-Rekonstruktionsverlusten auf die Texteinbettungsmannigfaltigkeit abbildet, (2) einer Fusionsstrategie, die sowohl textuelle als auch visuelle Semantik bewahrt, und (3) einem optionalen Prompt-Noise-Optimierungsmodul (PNO) zur Verfeinerung zur Testzeit. Unsere Experimente zeigen, dass VCF erfolgreich visuelle Attribute einschließlich Stil, Komposition und Farbpalette von Referenzbildern überträgt, während die Bindung an den Prompt erhalten bleibt. Quantitative Ergebnisse zeigen einen Trade-off zwischen Textausrichtung (CLIP-Score) und visueller Übereinstimmung (LPIPS), wobei VCF die Basislinien in der Referenztreue übertrifft.
Generative Priors in der Bild-Superauflösung (SR) beeinträchtigen oft die originalgetreue Rekonstruktion. Wir führen diese Einschränkung auf eine grundlegende spektrale Fehlausrichtung zwischen isotropen Zielsetzungen und der intrinsischen natürlichen Bildmannigfaltigkeit zurück. Während die Direkte Präferenzoptimierung einen Weg zur Ausrichtung bietet, gelingt es ihr aufgrund ihrer Abhängigkeit von spektral flachem Gauß'schen Rauschen nicht, authentische hochfrequente Details von Halluzinationen zu unterscheiden. Um diese geometrische Lücke zu schließen, schlagen wir ASASR vor, ein theoretisch fundiertes Framework, das den generativen Fluss in eine Sobolev-induzierte Riemann'sche Geometrie umformt, indem es den Rauschübergangskern explizit einfärbt, um den natürlichen spektralen Abfall nachzubilden. Um diese geometrische Ausrichtung voranzutreiben, integrieren wir einen parametrischen Gegner, der auf dem Riesz'schen Darstellungssatz basiert und gezielte negative Stichproben synthetisiert, die den Worst-Case-Sobolev-Gradienten entsprechen, um die Optimierung entlang des Tangentialraums plausibler struktureller Fehler zu lenken. Umfangreiche Evaluierungen zeigen, dass ASASR führende generative Basislinien übertrifft, insbesondere bei der Wahrung spektraler Konsistenz und struktureller Treue, und eine robuste Lösung bietet, die Artefakte wirksam reduziert.
Große Sprachmodelle (LLM) werden zunehmend durch Interaktion verbessert, doch die meisten Selbstevolutionsmethoden passen entweder die Policy oder die Lernumgebung isoliert an. Wir identifizieren diese strukturelle Lücke als Agent-Umgebungs-Fehlanpassung: Die Fähigkeitsgrenze des Agenten verändert sich während des Trainings, während die Umgebung, die die Aufsicht bereitstellt, statisch bleibt oder nur schwach an die offenbarten Fehler des Agenten gekoppelt ist. Wir schlagen SEAL vor, ein geschlossenes Koevolutionsrahmenwerk für interaktive werkzeugnutzende Agenten. SEAL sammelt On-Policy-Trajektorien unter ausführbarer Verifikation, diagnostiziert fehlgeschlagene Rollouts in feingranulare Fehlerlabels auf Gesprächsrunde-Ebene und nutzt diese Diagnosen als gemeinsames Signal sowohl für die umgebungsseitige Anpassung als auch für die modellseitige Policy-Optimierung. Die Umgebung entwickelt ihre trainierbare Lernschnittstelle weiter, indem sie klarere Werkzeugaffordanz-Hinweise, Einschränkungsinformationen und wiederherstellungsorientiertes Feedback bereitstellt, während die Policy mit diagnosegesteuerter Vorteilsneugewichtung aktualisiert wird. Umfangreiche Experimente mit mehrschrittigen Bewertungen der Werkzeugnutzung innerhalb und außerhalb der Verteilung zeigen, dass SEAL das ressourcenarme Agentenlernen verbessert: Mit nur 400 Trainingsbeispielen erzielt es durchschnittliche Punktsteigerungen von +8,25 bis +26,25 über drei Backbones und zeigt positiven Out-of-Distribution-Transfer. Diese Ergebnisse belegen den Wert der gemeinsamen Anpassung des Lernenden und seines trainierbaren Lernsubstrats für robuste selbstverbessernde LLM-Agenten.
In letzter Zeit haben Reinforcement Learning with Verifiable Rewards (RLVR) und Test-Time Scaling (TTS) die LLM-Codegenerierung durch ausführbare Verifikation vorangebracht. Doch Ground-Truth Unit Tests (GT UTs) bleiben ein Engpass: SOTA-RLVR-Methoden benötigen sie für kostspieliges Training, während bestehende TTS-Methoden ohne sie an Wettbewerbsfähigkeit verlieren. Dies motiviert GT-freies TTS, bei dem bestehende Methoden direkt selbstgenerierte UTs verwenden, um Code-Kandidaten zu verfeinern und auszuwählen. Jedoch sind solche UTs oft verrauscht oder fälschlicherweise mit falschem Code gekoppelt, und die Qualität der UTs kann wiederum ohne zuverlässigen Code nicht validiert werden. Die zentrale Herausforderung besteht daher darin, beide gleichzeitig zu verbessern. Zu diesem Zweck stellen wir CoSPlay vor, ein GT-freies, trainingsfreies Framework, das Codes und UTs durch kooperatives Selbstspiel gemeinsam verbessert. Es untersucht zunächst verschiedene Lösungsideen und identifiziert deren potenzielle Fehlermodi, um diskriminative UT-Ideen zu erzeugen. Anschließend verwendet es bidirektionale Bestehenszählsignale aus der Code-UT-Ausführungsmatrix, um schwache Codes iterativ zu entfernen oder zu korrigieren und unzuverlässige UTs zu aktualisieren oder zu ersetzen, sodass sich die beiden Pools gemeinsam weiterentwickeln. Schließlich, wenn mehrere Codes bei der höchsten Bestehenszahl gleichauf liegen, wählt es den endgültigen Code aus dem größten Output-Konsens-Cluster, da korrekte Codes bei denselben Eingaben übereinstimmen, während falsche Codes abweichen. Experimente auf vier anspruchsvollen Benchmarks zeigen, dass CoSPlay auf Qwen2.5-7B-Instruct den durchschnittlichen BoN von 22,1 % auf 33,2 % und die UT-Genauigkeit von 14,6 % auf 78,3 % verbessert und damit dem RLVR-Modell CURE-7B entspricht oder es übertrifft. Angewendet auf CURE-7B verbessert es BoN um weitere 5,7 %. CoSPlay generalisiert auch über verschiedene Backbones hinweg und übertrifft GT-freie TTS-Baselines unter vergleichbaren Token-Budgets, mit anhaltenden Verbesserungen bei steigendem Budget. Diese Ergebnisse deuten auf eine skalierbare Inferenzstrategie für wettbewerbsfähige Codegenerierung ohne jegliche GT-Daten hin.
Jüngste Fortschritte bei der Diffusionsdestillation mit wenigen Schritten ermöglichen eine effiziente Bildgenerierung, doch die Ausrichtung dieser Modelle auf menschliche Präferenzen bleibt eine Herausforderung. Wir schlagen die Reward-Tilted Distribution Matching Distillation (RTDMD) vor, ein zweistufiges Framework, das die Verteilungsanpassungsdestillation mit belohnungsgesteuertem bestärkendem Lernen für Flussgeneratoren mit wenigen Schritten vereint. Wir zeigen, dass die Minimierung der KL-Divergenz zu einer belohnungsgeneigten Lehrer-Verteilung auf natürliche Weise in einen Verteilungsanpassungsterm und einen Belohnungsmaximierungsterm zerfällt. In der ersten Stufe führen wir die Ambient-Consistent Distribution Matching Distillation (AC-DMD) ein, die eine unterintervallweise Verteilungsanpassung durchführt und die Fake-Score-Zielfunktion um einen Konsistenzregularisierer erweitert, damit das Fake-Score-Modell die sich unter begrenzten Aktualisierungen verschiebende Generatorverteilung verfolgen kann. In der zweiten Stufe optimieren wir beide Terme gemeinsam: Für den Belohnungsmaximierungsterm leiten wir einen hybriden Policy-Gradienten her, der einen GRPO-artigen Schätzer für die stochastischen Zwischenübergänge mit direkter Belohnungsrückpropagation durch den deterministischen letzten Schritt kombiniert, und führen zudem die Schritt-Teilmenge-GRPO (SubGRPO) ein, um die Varianz zu verringern. Experimente mit SD3, SD3.5 und FLUX.2 zeigen, dass RTDMD mit nur 4 Inferenzschritten neue Spitzenergebnisse in Bezug auf Präferenz-, Ästhetik- und Kompositionsmetriken erzielt und damit frühere Methoden zur Text-zu-Bild-Generierung mit wenigen Schritten übertrifft. Code und Modelle sind unter https://github.com/Harahan/RTDMD verfügbar.
Da LLM-basierte Agenten zunehmend an Online-Diskursen teilnehmen, ist das Red-Teaming ihrer Fähigkeit zur Unterstützung politischer Einflusskampagnen entscheidend für die Informationsintegrität. Zu diesem Zweck konzentrieren wir uns auf lokal eingesetzte Open-Source-LLMs, im Gegensatz zu reinen API-Modellen der Spitzenklasse, da sie besser mit den operationellen Einschränkungen von datenschutzbewussten böswilligen Akteuren übereinstimmen, die in Social-Media-Umgebungen agieren. Wir führen einen empirischen Red-Teaming-Rahmen ein, um die Overton-Fenster (OWs) von LLMs zu messen, definiert als die Bandbreite politischer Meinungen, die ein Modell zu kontroversen Themen zuverlässig äußern kann, sowie um zu quantifizieren, wie einfache natürlichsprachliche Jailbreaks diesen Bereich erweitern. Wir bewerten über 30 LLMs, die 10 Modellfamilien und fünf Herkunftsländer umfassen. Wir finden systematische Asymmetrien in der politischen Ausdrucksfähigkeit: Open-Source-LLMs sind typischerweise eher bereit, linksgerichtete Social-Media-Inhalte zu generieren, OWs tendieren dazu, sich umgekehrt zur Modellgröße zu verengen, und regionale Unterschiede sind erheblich, trotz ungleicher Repräsentation im Open-Source-Ökosystem. Die Jailbreak-Wirksamkeit variiert ebenfalls stark zwischen Modellfamilien, was einen Arbeitsablauf zur Identifizierung effektiver Kombinationen von Jailbreak-Techniken motiviert. Insgesamt etablieren unsere Ergebnisse einen praktischen Rahmen zur Prüfung der politischen Steuerbarkeit von Open-Source-LLMs und zur Unterstützung zukünftiger Forscher bei der Entwicklung stärkerer Gegenmaßnahmen gegen durch LLMs ermöglichte Einflusskampagnen.
Reward Hacking tritt auf, wenn ein Modell eine Proxy-Belohnung verbessert, indem es Abkürzungen ausnutzt, anstatt die beabsichtigte Aufgabe zu lösen. Wir untersuchen diese Fehlerform anhand der Geometrie von Verstärkungslern-Updates in Sprachmodellen und argumentieren, dass Hacking entsteht, wenn die Optimierung von einer stabilen, niedrigdimensionalen Lernbahn abweicht. Wir analysieren diese Abweichung durch dominante singuläre Richtungen von Parameter-Updates und zeigen, dass Reward-Hacking-Läufe eine wesentlich stärkere Richtungsänderung aufweisen als saubere Läufe. Motiviert durch diese Beobachtung führen wir die Projektion auf vertrauenswürdige Richtungen ein, die Gradienten darauf beschränkt, innerhalb eines sauberen Referenzunterraums zu bleiben. In Reward-Hacking-Experimenten zum mathematischen Reasoning verzögert der vorgeschlagene Ansatz die Ausnutzung von Abkürzungen und bewahrt die Aufgabenleistung besser.
Sparse-Encoder ermöglichen eine hochpräzise Suche, indem sie die Termwichtigkeit innerhalb eines Vokabularraums darstellen, doch ihre auf das Englische zentrierten Strukturen stellen ein kritisches Hindernis für den Sprachtransfer bei nicht-englischen Sprachen dar. Um diese strukturelle Einschränkung zu überwinden, schlagen wir SemBridge vor, eine neuartige Einbettungsinitialisierungsmethode, die für die sprachübergreifende Anpassung in Sparse-Encodern durch die Nutzung mehrsprachiger Brückenmodelle konzipiert ist. SemBridge stellt semantische Alignments zwischen Quell- und Zielvokabularen her, indem mehrsprachige dichte Einbettungen als Brücke verwendet werden. Anstatt sich direkt auf alle Quelltokens zu stützen, wählt SemBridge eine kleine Menge semantisch verwandter quellsprachlicher Tokens aus und verwendet sie, um jedes zielsprachliche Token zu initialisieren, wodurch semantisches Rauschen effektiv herausgefiltert und Ziel-Tokens als präzise Linearkombinationen von Kernsynonymen rekonstruiert werden. Dies beschleunigt die Konvergenz während der Feinabstimmung und verbessert die Trainingseffizienz. Umfangreiche Experimente mit fünf Sprachen und vier Sparse-Architekturen zeigen, dass SemBridge eine überlegene Zero-Shot-Retrieval-Leistung erzielt und die Retrieval-Leistung nach der Feinabstimmung im Vergleich zu bestehenden Baselines konsistent verbessert. Diese Ergebnisse bestätigen SemBridge als praktische Lösung für den Einsatz leistungsstarker Sparse-Retrieval-Systeme in verschiedenen sprachlichen Umgebungen.
Durch große Sprachmodelle gestützte mobile GUI-Agenten haben rasche Fortschritte gemacht, was dringenden Bedarf an realistischer und umfassender Evaluierung schafft. Vorhandene Benchmarks priorisieren Reproduzierbarkeit, sind jedoch aufgrund der Schwierigkeit, Belohnungen auf realen Anwendungen zu konstruieren, oft auf Open-Source-Apps oder Dateioperationen beschränkt, was eine Lücke zwischen Benchmark-Einstellungen und realer Nutzung hinterlässt. Darüber hinaus konzentrieren sich die meisten Benchmarks auf grundlegende Grounding- und Navigationsaufgaben mit begrenzter Abdeckung komplexer, langfristiger Interaktionen. Um diese Einschränkungen zu adressieren, führen wir SimuWoB ein, einen vollständig synthetischen Benchmark für mobile GUI-Agenten mit 120 anspruchsvollen Aufgaben, die verschiedene Typen und Schwierigkeitsgrade umfassen. Wir entwickeln ein robustes Framework zur Generierung virtueller Umgebungen, das hochgetreue Aufgaben und Umgebungen synthetisiert und automatisch gültige Belohnungen für jede Aufgabe bereitstellt. Jede Umgebung wird als backend-freie Webseite bereitgestellt, die über eine URL zugänglich ist, was eine effiziente und reproduzierbare Evaluierung ermöglicht. Wir führen umfassende Experimente mit mehreren hochmodernen mobilen GUI-Agenten durch. Die durchschnittliche Erfolgsrate beträgt lediglich 27,92 % und sinkt bei langfristigen Aufgaben auf 17,82 %, was erhebliche Schwächen aktueller Agenten in komplexen Szenarien offenbart. Ein Vergleich der Evaluierungsergebnisse mit realen Beispielaufgaben zeigt, dass Agentenbewertungen auf Basis unserer synthetischen Umgebung gut generalisieren. Darüber hinaus liefern wir diagnostische Einblicke über wichtige Fähigkeitsdimensionen hinweg und diskutieren Implikationen für die zukünftige Entwicklung mobiler GUI-Agenten.
Die zeitliche Kreditzuweisung im Bestärkenden Lernen stellt seit jeher eine zentrale Herausforderung dar. Inspiriert durch die mehrskalige zeitliche Kodierung des Dopaminsystems in der Neurobiologie hat die jüngste Forschung versucht, mehrere Diskontierungsfaktoren in Actor-Critic-Architekturen wie Proximal Policy Optimization (PPO) einzuführen, um kurzfristige Reaktionen mit langfristiger Planung auszugleichen. Allerdings zeigt diese Arbeit, dass eine blinde Fusion mehrskaliger Signale in komplexen Aufgaben mit verzögerter Belohnung zu schwerwiegenden algorithmischen Pathologien führen kann. Wir weisen systematisch nach, dass die Offenlegung eines temporalen Aufmerksamkeits-Routing-Mechanismus gegenüber Politikgradienten zu Surrogatzielfunktions-Hacking führt, während die Verwendung gradientenfreier Unsicherheitsgewichtung eine irreversible myopische Degeneration auslöst – ein Phänomen, das wir als Paradoxon der temporalen Unsicherheit bezeichnen. Um diese Probleme zu beheben, schlagen wir eine Zielentkopplungs-Architektur vor: Auf der Critic-Seite behalten wir mehrskalige Vorhersagen bei, um ein unterstützendes Repräsentationslernen zu erzwingen, während wir auf der Actor-Seite kurzfristige Signale strikt isolieren und die Politik ausschließlich auf Basis langfristiger Vorteile aktualisieren. Strenge empirische Evaluierungen über mehrere unabhängige Zufallskeeds in der LunarLander-v2-Umgebung zeigen, dass unsere vorgeschlagene Architektur statistisch signifikante Leistungsverbesserungen erzielt. Ohne auf Hyperparameter-Hacking angewiesen zu sein, überschreitet sie konsistent die Schwelle "Umgebung gelöst" mit minimaler Varianz, eliminiert vollständig Politikzusammenbrüche und entkommt den schwebenden lokalen Optima, in denen Einzelzeitskalen-Baselines gefangen bleiben. Der Quellcode zur Reproduktion unserer Experimente ist öffentlich zugänglich unter https://github.com/ben-dlwlrma/Representation-Over-Routing.
Kommunikation ermöglicht Koordination im Multi-Agenten-Verstärkungslernen (MARL), aber viele reale Anwendungen, z. B. Such- und Rettungseinsätze mit Drohnenschwärmen, arbeiten unter starken Bandbreitenbeschränkungen. Viele Kommunikationsarchitekturen weisen immer noch einen gekoppelten Engpass auf, bei dem eine gemeinsame latente Repräsentation sowohl für die Politikausführung als auch für die agentenübergreifende Kommunikation verwendet wird. Folglich schränkt die Reduzierung der Nachrichtengröße direkt den latenten Raum der Politik ein, was oft zu einer erheblichen Leistungsverschlechterung führt. Wir adressieren dies mit zwei Beiträgen. Erstens führen wir β ein, ein normalisiertes agentenspezifisches Bandbreitenbudget, das Sparsität, Runden und Nachrichtendimension in eine einzige vergleichbare Einschränkung vereinheitlicht. Zweitens stellen wir SLIM vor, eine minimale Architektur, die den Kommunikationspfad von der latenten Repräsentation der Politik entkoppelt. Dadurch können wir den Effekt der Bandbreite vom Effekt der Politik-Kapazität isolieren und gleichzeitig von einer schrittweisen Kommunikation profitieren. Wir evaluieren unsere Methode an mehreren teilweise beobachtbaren MARL-Benchmarks, bei denen Kommunikation essentiell ist. Unser Ansatz erzielt Spitzenleistungen und zeigt Skalierbarkeit und Robustheit unter eingeschränkter Kommunikation, mit nur geringfügiger Verschlechterung, wenn die Bandbreite reduziert wird.
Evaluationssysteme sind Softwaresysteme, die die Modellbewertung orchestrieren, indem sie den Modellaufruf, das Laden von Daten, die Metrikberechnung und die Ergebnisberichterstattung verwalten. Trotz ihrer entscheidenden Rolle in der Infrastruktur des maschinellen Lernens haben ihre betrieblichen Herausforderungen und technischen Belange bisher nur begrenzte Aufmerksamkeit erhalten. Wir stellen eine empirische Studie von 57 Evaluationssystemen vor, die ein fünfstufiges Systemmodell ableitet und 16.560 Probleme nach Workflow-Phase und Grundursache klassifiziert. Die meisten betrieblichen Herausforderungen der Systeme konzentrieren sich auf die Spezifikationsphase (41,4 % der Probleme), in der die Systeme externe Modelle, Datensätze und Bewertungsinstanzen integrieren. Die drei häufigsten Grundursachen für betriebliche Herausforderungen sind nicht implementierte Funktionen (24,3 %), Dokumentationslücken (20,3 %) und fehlende Eingabevalidierung (17,2 %), die zusammen 61,7 % der klassifizierten Probleme ausmachen und sowohl Fehler in der vorhandenen Funktionalität als auch Fähigkeitslücken umfassen, die beabsichtigte Workflows blockieren. Die Grundursachen variieren auch je nach Workflow-Phase: Umweltinkompatibilität und externe Abhängigkeitsbrüche machen 36,2 % der Bereitstellungsprobleme aus, während algorithmische Fehler (25,9 %) und Validierungslücken (22,5 %) bei Bewertungsproblemen dominieren. Zusammen bilden diese Beiträge eine empirische Grundlage dafür, die Evaluationsentwicklung als eigenständiges Thema der Softwareentwicklung zu betrachten.
CLI-Agenten sind die nächste Entsprechung zu einer verkörperten Umgebung für Sprachmodelle: Das Modell gibt Befehle aus, das Terminal führt sie aus, und der zurückgegebene Strom – stdout, Fehler, Dateien, Logs und Traces – hält die Konsequenzen fest. Wir argumentieren, dass dieser Strom ein Supervisionssignal darstellt, aber das Standard-Agenten-RL verwirft ihn: GRPO-artiges Training aktualisiert Aktions-Token mit spärlichen ergebnisbezogenen Belohnungen, während die bereits im Rollout enthaltenen Umgebungsantworten ignoriert werden. Fehlgeschlagene Rollouts liefern trotz reichhaltiger Hinweise auf das Reaktionsverhalten der Umgebung kaum Policy-Gradient-Signal. Wir stellen ECHO (Environment Cross-entropy Hybrid Objective) vor, ein Hybridziel, das den standardmäßigen Policy-Gradient-Verlust auf Aktions-Token mit einem Hilfsverlust kombiniert, der die Policy darauf trainiert, aus ihren eigenen Aktionen resultierende Umgebungsbeobachtungstoken vorherzusagen. ECHO nutzt denselben Vorwärtsdurchlauf wie GRPO, erfordert keine zusätzlichen Rollouts und verwandelt Terminal-Feedback in dichte Überwachung für alle Rollouts. ECHO verdoppelt den GRPO pass@1 auf TerminalBench-2.0: Qwen3-8B verbessert sich von 2,70 % auf 5,17 %, und Qwen3-14B von 5,17 % auf 10,79 %. ECHO erzeugt zudem Policys, die die Terminaldynamik besser vorhersagen, selbst auf Trajektorien, die sie nicht selbst generiert haben: Über zurückgehaltene Rollouts hinweg reduziert es die Umgebungstoken-Kreuzentropie drastisch, während GRPO allein sie kaum verändert. Ausgehend vom Basis-Modell Qwen3-8B erreicht ECHO auf zurückgehaltenen Terminalaufgaben ohne Experten-Demonstrationen die Leistung von Expert-SFT-gefolgt-von-GRPO und stellt auf TerminalBench-2.0 etwa die Hälfte des Initialisierungsvorteils durch Expert-SFT wieder her. In einigen Fällen ermöglicht der Umgebungsvorhersageverlust allein eine verifiziererlose Selbstverbesserung, sodass Policys sich durch reines Lernen aus Umgebungsinteraktionen auf unbekannten OOD-Aufgaben verbessern können. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Umgebungsbeobachtungen nicht nur Kontext für zukünftige Aktionen sind, sondern ein dichtes, on-policy-Supervisionssignal, das in jedem Rollout bereits vorhanden ist.
Die Analyse der Verkehrssicherheit erfordert die Integration von Unfalldaten, Straßeneigenschaften und Geodaten mittels GIS-gestützter Arbeitsabläufe, doch der Zugang bleibt über Behörden und Interessengruppen hinweg ungleichmäßig. Technische Voraussetzungen schaffen eine Kluft zwischen den für die Sicherheitsplanung zentralen Analyseinstrumenten und den praktischen Anwendern, die sie nutzen können. Kommunale Ämter, Schulausschüsse und Anwohner mögen Sicherheitsbedenken haben, aber nur eingeschränkte Möglichkeiten, relevante Daten abzurufen, zu filtern, zu kartieren und zu analysieren. Generative KI bietet einen Weg, diese Kluft zu verkleinern, doch ihr Einsatz im öffentlichen Sektor wirft Fragen nach Zuverlässigkeit, Reproduzierbarkeit und Governance auf. Dieser Beitrag stellt eine schemagebundene, natürlichsprachliche Schnittstelle für die Verkehrssicherheitsanalyse vor, die ein großes Sprachmodell (LLM) zur Interpretation der Benutzerabsicht nutzt, während eine deterministische, nachvollziehbare Ausführung gegenüber einer autoritativen Datenbank gewährleistet wird. Benutzeranfragen werden in strukturierte semantische Frames übersetzt, durch eine regelbasierte Schicht validiert, in einen typisierten gerichteten azyklischen Graphen räumlicher Operationen kompiliert und gegen eine PostGIS-Datenbank ausgeführt. Diese begrenzte Architektur trennt die Sprachinterpretation von der deterministischen Ausführung, hält Ergebnisse reproduzierbar und schemagebunden und baut Zugangsbarrieren ab. Das Framework wird anhand einer landesweiten Verkehrssicherheitsdatenbank von Massachusetts evaluiert, die Unfalldaten, Straßeneigenschaften und Geodatenschichten (u.a. Schulen, Bushaltestellen, Fußgängerüberwege und Gemeindegrenzen) integriert. Alle Anfragen wurden erfolgreich ausgeführt; die Validierungsschicht korrigiert Fehler bei 29 % der Evaluierungsanfragen, was die Diskrepanz zwischen flexibler natürlicher Sprache und strengen schemagebundenen Anforderungen widerspiegelt. Die Ergebnisse deuten darauf hin, dass die Kombination von natürlichsprachlicher Zugänglichkeit mit deterministischer Ausführung ein praktikabler Weg zur Verbreiterung des Zugangs zu Verkehrssicherheitsdaten ist, mit Implikationen für vertrauenswürdige KI in der öffentlichen Planung.
Online-3D-Rekonstruktion erfordert die Schätzung von Kameraposen und Szenengeometrie unter strengen kausalen und speicherbegrenzten Bedingungen. Bestehende Methoden leiden häufig unter Drift, Ruckeln oder Zusammenbrüchen bei langen Sequenzen. Wir führen diese Fehler auf eine grundlegende Fehlanpassung zurück. Streaming-Geometrie ist inhärent zeitlich heterogen, mit Evidenzen, die von kurzlebigen Korrespondenzen bis hin zu persistenten globalen Skalen reichen. Aktuelle Architekturen erzwingen jedoch einheitliche und pathologische Einflussmuster. So erzwingen gleitende Fenster harte Cutoffs, während ungesteuerte Rekurrenz und kausale Aufmerksamkeit zu Cachesättigung und spikeartigen Attention Sinks führen. Um dies zu lösen, formalisieren wir die geometrische Propagation als einen Evidenzeinflusskern und schlagen HorizonStream vor, einen langfristigen Transformer, der diesen Kern explizit faktorisiert. Für den langreichweitigen zeitlichen Faktor lernt Geometric Linear Attention kanalspezifische Abklingraten, um eine begrenzte, multiskalige Propagation geometrischer Evidenzen zu ermöglichen. Für den kurzreichweitigen räumlichen Faktor führt Geometric Local Attention mit Spatiotemporal RoPE zuverlässiges 3D-Matching durch und unterdrückt gleichzeitig Attention Sinks. Schließlich gewinnen Metric Readout Tokens stabile Skalierung und starre Posen direkt aus dem persistenten geometrischen Zustand. Umfangreiche Experimente zeigen, dass HorizonStream, trainiert nur auf 48-Frame-Clips, stabil auf Sequenzen mit über 10.000 Frames bei konstantem Speicher und linearer Zeit generalisiert und damit eine State-of-the-Art-Leistung bei der Streaming-3D-Rekonstruktion erzielt. Projektseite: https://3dagentworld.github.io/horizonstream/
Da interaktive, auf LLMs basierende Anwendungen entwickelt und verfeinert werden, müssen Modellentwickler die Qualität generierter Texte entlang vieler möglicher Achsen bewerten. Für einfachere Systeme mag eine menschliche Evaluierung praktikabel sein, aber in komplexen Systemen wie Konversations-Chatbots kann die Menge an generiertem Text die Ressourcen für menschliche Annotationen überfordern. Modellentwickler haben begonnen, sich stark auf die Auto-Evaluierung zu verlassen, bei der LLMs auch zur Beurteilung der Generierungsqualität eingesetzt werden. Allerdings konzentrieren sich bestehende LLM-als-Richter-Benchmarks weitgehend auf einfache Frage-Antwort-Aufgaben, die nicht der Komplexität mehrfacher Gesprächsrunden entsprechen. Wir stellen RankJudge vor, einen Benchmark-Generator zur Bewertung von LLM-als-Richter in mehrfachen Gesprächsrunden, die auf Referenzdokumenten basieren. RankJudge erzeugt Gesprächspaare, bei denen ein Gespräch einen einzelnen Fehler aufweist, der in einer Gesprächsrunde eingefügt wurde. Diese Konstruktion ermöglicht es, gepaarte Gespräche eindeutig als besser oder schlechter zu kennzeichnen und Fehlerkategorien präzise auf einzelne Runden zu isolieren, was ein strenges gemeinsames Korrektheitskriterium für die Beurteilung ermöglicht. Wir implementieren RankJudge in den Bereichen maschinelles Lernen, Biomedizin und Finanzen, evaluieren 21 führende LLM-Richter und ordnen diese Richter mittels des Bradley-Terry-Modells. Unsere Formulierung erlaubt zudem die Einstufung jedes Gesprächspaares mit Schwierigkeitsgraden, die wir nutzen, um den Evaluierungsausschnitt dynamisch zu kuratieren und so das Beschriftungsrauschen zu reduzieren, wie durch menschliche Annotationen bestätigt wird. Wir stellen fest, dass die Rangfolgen der Richter unter teilweiser Beobachtbarkeit, gröberen Korrektheitskriterien und einem alternativen Random-Walk-Bewertungsalgorithmus stabil bleiben.
Aktuelle bewegungsgesteuerte Bild-zu-Video-Generierungsmodelle folgen strikt benutzerdefinierten Trajektorien, die oft spärlich, ungenau und kausal unvollständig sind. Eine solche Abhängigkeit führt häufig zu unnatürlichen oder unplausiblen Ergebnissen, insbesondere durch das Fehlen sekundärer kausaler Konsequenzen. Um dieses Problem anzugehen, stellen wir MotiMotion vor, ein neuartiges Framework, das Bewegungskontrolle als ein Schlussfolgerungs-dann-Generierungs-Problem umformuliert. Um kausal fundierte und mit gesundem Menschenverstand konsistente Interaktionen zu fördern, nutzen wir einen trainingsfreien visuell-sprachlichen Reasoner, um Bildraumkoordinaten primärer Trajektorien zu verfeinern und plausible sekundäre Bewegungen zu halluzinieren. Zur weiteren Verbesserung der Bewegungsnatürlichkeit schlagen wir ein konfidenzbewusstes Kontrollschema vor, das die Führungsstärke moduliert und es dem Modell ermöglicht, hochkonfidenten Plänen genau zu folgen, während es Artefakte bei niedrigkonfidenten Eingaben mithilfe seiner internen generativen Priors korrigiert. Zur Unterstützung einer systematischen Evaluierung kuratieren wir einen neuen Bild-zu-Video-Benchmark, MotiBench, der aus interaktionszentrierten Szenen besteht, in denen neue Ereignisse durch Bewegung ausgelöst werden. Sowohl die VLM-basierte Evaluierung als auch eine Menschenstudie auf MotiBench zeigen, dass MotiMotion Videos mit plausiblerem Objektverhalten und -interaktion erzeugt und gegenüber bestehenden Ansätzen bevorzugt wird.
Die automatisierte Bewertung von Fahrbahnschäden erfordert mehr als eine Bildklassifikation oder grobe Bounding-Box-Erkennung; sie verlangt eine präzise Lokalisierung feiner, verzweigter und unregelmäßiger Risse, um die für wartungsrelevante Quantifizierungen notwendige geometrische Genauigkeit zu erreichen. In dieser Arbeit wird ein visionbasiertes Analyseverfahren für Fahrbahnschäden vorgestellt, das auf der Instanzsegmentierung mit Mask R-CNN basiert, und anhand von UWGB-StreetCrack evaluiert – einem eigens erstellten, im Feld aufgenommenen Straßenbilddatensatz, der mit einem fahrzeugmontierten Smartphone erfasst und manuell mit Polygonlabels für Längsrisse, Querrisse, Netzrisse und Schlaglöcher versehen wurde. Fünf auf Detectron2 basierende Mask-R-CNN-Backbone-Varianten wurden unter einem einheitlichen Feintuning-Protokoll untersucht. Das leistungsfähigste Modell – Mask R-CNN mit einem ResNet-101-FPN-Backbone – erreichte eine Präzision von 84,23 %, einen Recall von 90,04 % und einen F1-Score von 87,04 % gemäß dem projektspezifischen Bounding-Box-Abgleichprotokoll. Dasselbe Modell lieferte einen aggregierten vorhergesagten Rissflächenanteil von 2,164 %, der nahe am Ground-Truth-Rissflächenanteil von 2,170 % liegt. Zur Kontextualisierung des Segmentierungssystems im Vergleich zu einem detektororientierten Ansatz wurde ein auf CSPDarknet53 basierender YOLO-Detektor ebenfalls angepasst und auf dem Datensatz neu trainiert; er erreichte im Validierungsprotokoll eine Präzision von 27,5 % und einen Recall von 20,7 %. Die Ergebnisse zeigen, dass die Instanzsegmentierung ein praktikabler Ansatz für Feldaufnahmen von Fahrbahnoberflächen und die aggregierte Rissflächenschätzung ist, während gleichzeitig offene Herausforderungen in Bezug auf Annotationskonsistenz, Klassenungleichgewicht, Konfundierungsunterdrückung und maskenbasierte Benchmarking-Verfahren deutlich werden.
Langform-Bildbeschriftung offenbart ein Problem der Belohnungsgranularität beim bestärkenden Lernen (RL): Bildunterschriften werden als gesamte Sequenzen bewertet, während die wichtigen Fehler auf der Ebene einzelner visueller Behauptungen auftreten. Eine gute detaillierte Bildunterschrift sollte sowohl treu als auch informativ sein, Halluzinationen vermeiden, ohne wichtige Details auszulassen. Paarweise Präferenzen, referenzbasierte Metriken und ganzheitliche skalare Belohnungen komprimieren diese lokalen Fehler jedoch zu einem einzigen Signal auf Sequenzebene und verschleiern so den Zielkonflikt zwischen Faktentreue und Vollständigkeit. Wir stellen ClaimDiff-RL vor, ein Rahmenwerk, das referenzbedingte atomare Behauptungsunterschiede als Belohnungseinheit für das RL von Bildunterschriften verwendet. Für ein gegebenes Bild, eine erzeugte Bildunterschrift und eine Referenzunterschrift erfasst ein multimodaler Beurteiler visuell verankerte Unterschiede, überprüft jeden Unterschied am Bild, ordnet offene Vokabular-Fehlertypen und Schweregrade zu und liefert pro Unterschied Statistiken für die Belohnungszusammensetzung. Dadurch werden halluzinierte Behauptungen und ausgelassene wichtige Fakten getrennt messbar und justierbar. Experimente zeigen, dass ganzheitliche skalare Belohnungen Halluzinationen reduzieren können, indem sie fehlende Fakten erhöhen, während ClaimDiff-RL diesen Zielkonflikt zwischen Treue und Vollständigkeit offenlegt und ausgewogenere Betriebspunkte ermöglicht. Auf einem 160-Bilder umfassenden, manuell annotierten Diagnose-Benchmark, öffentlichen Beschriftungs-Benchmarks und VQA-Benchmarks verbessert ClaimDiff-RL das Gleichgewicht zwischen Halluzination und fehlenden Fakten, bewahrt die allgemeine Leistungsfähigkeit und übertrifft sogar Gemini-3-Pro-Preview in mehreren feinkörnigen Fähigkeitsdimensionen wie Objektzählung, räumlichen Beziehungen und Szenenerkennung. Diese Ergebnisse deuten darauf hin, dass typisierte, überprüfbare Behauptungsunterschiede eine effektive Belohnungseinheit für feinkörniges und diagnostizierbares Beschriftungs-RL darstellen.
Large Reasoning Models (LRMs) zeigen Mechanismen des Zurückverfolgens und der Selbstverifikation, die es ihnen ermöglichen, Zwischenschritte zu überarbeiten und korrekte Lösungen zu erreichen, was zu einer starken Leistung bei komplexen logischen Benchmarks führt. Wir stellen die Hypothese auf, dass solche Verhaltensweisen nur dann vorteilhaft sind, wenn das Modell über eine ausreichend starke „Kritikfähigkeit“ verfügt, um eigene Fehler zu erkennen. Diese Arbeit untersucht systematisch, wie aktuelle LRMs sich von Fehlern erholen, indem wir arithmetische Fehler in ihre Zwischenschritte des Reasoning einfügen. Bemerkenswerterweise entdecken wir ein eigentümliches, aber wichtiges Phänomen: Obwohl sich der Fehler durch die gesamte Gedankenkette (Chain-of-Thought, CoT) ausbreitet, ohne dass eine verbalisierte Korrektur erfolgt, erreicht das Modell nach Abschluss des Denkprozesses dennoch die korrekte endgültige Antwort. Diese Erholung deutet auf die Existenz eines internen Mechanismus hin, der dem Modell hilft, Fehler zu erkennen und Selbstkorrektur auszulösen – den wir als verborgene Kritikfähigkeit bezeichnen. Aufbauend auf einer Merkmalsraumanalyse identifizieren wir einen hochgradig interpretierbaren Kritikvektor, der dieses Verhalten repräsentiert. Umfangreiche Experimente über mehrere Modellskalen und -familien hinweg zeigen, dass die Lenkung latenter Repräsentationen mit diesem Vektor die Fehlererkennungsfähigkeit des Modells verbessert und die Leistung testzeitlicher Skalierung ohne zusätzliche Trainingskosten steigert. Unsere Ergebnisse liefern ein wertvolles Verständnis des Kritikverhaltens von LRMs und deuten auf eine vielversprechende Richtung zur Kontrolle und Verbesserung ihres Selbstverifikationsmechanismus hin. Unser Code ist verfügbar unter: https://github.com/mail-research/lrm-critique-vectors.
Die Erkennung von Log-Anomalien ist eine entscheidende Aufgabe für den Systembetrieb und die Sicherheitsgewährleistung. In großskalierten vernetzten Systemen fallen jedoch riesige Mengen an Logdaten an, während Annotationen auf Instanzebene unerschwinglich teuer sind, was eine feinkörnige Anomalielokalisierung erheblich erschwert. Um diese Herausforderung zu bewältigen, schlagen wir LogMILP (Log-Anomalielokalisierung basierend auf Multi-Instance Learning, verbessert durch Prototypen und Perturbation) vor – ein schwach überwachtes Framework, das sowohl eine Anomalieerkennung auf Bündelebene als auch eine Anomalielokalisierung auf Instanzebene allein unter Verwendung von Bündellabeln ermöglicht. Unsere Methode führt das Modell mittels prototypengeführter struktureller Modellierung in Kombination mit einer Regularisierung der Konsistenz kontrafaktischer Perturbationen dazu, die entscheidenden Logeinträge zu identifizieren, und verbessert so die Zuverlässigkeit und Interpretierbarkeit der Lokalisierung unter grobkörniger Überwachung. Experimentelle Ergebnisse auf drei öffentlichen Datensätzen zeigen, dass LogMILP eine wettbewerbsfähige Erkennungsleistung erzielt und gleichzeitig eine deutlich zuverlässigere Lokalisierung auf Instanzebene liefert. Unser Code ist unter https://github.com/YUK1207/LogMILP als Open Source verfügbar.