Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei Reasoning-Modellen haben die langfristige mathematische und wissenschaftliche Problemlösung erheblich vorangebracht, wobei mehrere Systeme mittlerweile Goldmedaillen-Niveau bei Aufgaben der Internationalen Mathematik-Olympiade (IMO) und der Internationalen Physik-Olympiade (IPhO) erreichen. In dieser Arbeit stellen wir ein einfaches und einheitliches Rezept vor, um ein nachtrainiertes Reasoning-Backbone in einen strengen olympiadetauglichen Löser zu verwandeln. Das Rezept nutzt zunächst ein Reverse-Perplexitäts-Curriculum für SFT, um rigoroses Beweissuch- und Selbstüberprüfungsverhalten zu vermitteln, skaliert dieses Verhalten dann durch eine zweistufige RL-Pipeline, die von RL mit überprüfbaren Belohnungen zu feinerem Beweis-Ebene-RL übergeht, und steigert schließlich die Lösungsleistung durch Testzeit-Skalierung. Durch Anwendung dieses Rezepts trainieren wir ein 30B-A3B-Backbone mit SFT auf etwa 340.000 Teil-8K-Token-Trajektorien, gefolgt von 200 RL-Schritten. Das resultierende Modell, SU-01, unterstützt stabiles Schlussfolgern bei schwierigen Problemen mit Trajektorien über 100.000 Token und erreicht Goldmedaillen-Niveau bei mathematischen und physikalischen Olympiaden, einschließlich IMO 2025/USAMO 2026 und IPhO 2024/2025. Es zeigt zudem eine starke Generalisierung wissenschaftlichen Schlussfolgerns auf Bereiche jenseits von Mathematik und Physik.
Echtzeit-interaktive Videogenerierung erfordert eine latenzarme, streamingfähige und steuerbare Ausgabe. Bestehende autoregressive (AR) Diffusionsdestillationsmethoden haben im Block-weisen 4-Schritt-Regime starke Ergebnisse erzielt, indem bidirektionale Basismodelle in wenige-Schritt-AR-Schüler destilliert wurden. Dennoch bleiben sie durch eine grobe Antwortgranularität und eine nicht vernachlässigbare Abtastlatenz eingeschränkt. In dieser Arbeit untersuchen wir ein aggressiveres Szenario: bildweise Autoregression mit nur 1–2 Abtastschritten. In diesem Regime identifizieren wir die Initialisierung eines Wenige-Schritt-AR-Schülers als zentralen Engpass: Bestehende Strategien sind entweder zielabweichend, für Wenige-Schritt-Generierung ungeeignet oder zu rechenintensiv für eine Skalierung. Wir schlagen Causal Forcing++ vor, eine prinzipientreue und skalierbare Pipeline, die kausale Konsistenzdestillation (Causal CD) zur Wenige-Schritt-AR-Initialisierung nutzt. Die Kernidee besteht darin, dass Causal CD denselben AR-bedingten Flussabbildung wie die kausale ODE-Destillation erlernt, jedoch die Aufsicht von einem einzigen Online-Lehrer-ODE-Schritt zwischen benachbarten Zeitschritten erhält. Dies vermeidet die Notwendigkeit, vollständige PF-ODE-Trajektorien vorzuberechnen und zu speichern. Dadurch wird die Initialisierung sowohl effizienter als auch einfacher zu optimieren. Die resultierende Pipeline, \ours, übertrifft den aktuellen Stand der Technik (4-Schritt-Block-weises Causal Forcing) im \textbf{bildweisen 2-Schritt-Setting} um 0,1 im VBench Gesamtergebnis, 0,3 in der VBench-Qualität und 0,335 in VisionReward, während die Latenz des ersten Bildes um 50\% und die Trainingskosten der Phase 2 um etwa das Vierfache reduziert werden. Wir erweitern die Pipeline zudem auf die aktionsbedingte Weltmodellgeneration im Sinne von Genie3. Projektseite: https://github.com/thu-ml/Causal-Forcing und https://github.com/shengshu-ai/minWM.
Reinforcement Learning (RL) hat sich als zentrales Paradigma für das Post-Training von LLM-Agenten etabliert, doch das belohnungsbasierte Signal auf Trajektorienebene bietet für langfristige Interaktionen nur eine grobe Steuerung. On-Policy Self-Distillation (OPSD) ergänzt RL durch dichte tokenweise Anleitung von einem Lehrerzweig, der mit privilegierten Kontextinformationen angereichert ist. Die Übertragung von OPSD auf mehrfach interagierende Agenten erweist sich jedoch als problematisch: Die sich verstärkende Instabilität bei mehreren Interaktionen erschwert die Steuerung, während fähigkeitskonditionierte privilegierte Anleitung eine asymmetrische Behandlung erfordert – negative Ablehnungen durch den Lehrer können auf unvollständige Fähigkeitssuche oder -nutzung zurückgehen. Wir stellen SDAR (Self-Distilled Agentic Reinforcement Learning) vor, das OPSD als ein durch Gatter gesteuertes Hilfsziel behandelt, während RL als primäres Optimierungsrückgrat erhalten bleibt. SDAR überführt losgelöste tokenweise Signale in ein Sigmoid-Gatter, verstärkt die Destillation bei von Lehrern befürworteten positiven Abweichungstoken und dämpft negative Lehrerablehnungen sanft ab. In den Qwen2.5- und Qwen3-Familien zu ALFWorld, WebShop und Search-QA verbessert SDAR die Ergebnisse gegenüber GRPO erheblich (+9,4% bei ALFWorld, +7,0% bei Search-QA, +10,2% bei WebShop-Acc), vermeidet die Instabilität von einfachem GRPO+OPSD und übertrifft durchgehend hybride RL–OPSD-Baselines über verschiedene Modellgrößen hinweg.
Gedächtnis ist für große visuell-sprachliche Modelle (engl. large vision-language models, LVLMs) unerlässlich, um lange, multimodale Interaktionen zu bewältigen. Zwei methodische Richtungen bieten diese Fähigkeit: Langkontext-LVLMs und gedächtnisgestützte Agenten. Allerdings führt kein bestehender Benchmark einen systematischen Vergleich der beiden Ansätze bei Fragen durch, die tatsächlich multimodale Belege erfordern. Um diese Lücke zu schließen, stellen wir MEMLENS vor, einen umfassenden Benchmark für das Gedächtnis in multimodalen Sitzungsinteraktionen über mehrere Sitzungen hinweg. Dieser umfasst 789 Fragen zu fünf Gedächtnisfähigkeiten (Informationsextraktion, schlussfolgerndes Denken über mehrere Sitzungen, zeitliches Schlussfolgern, Wissensaktualisierung und Antwortverweigerung) bei vier standardmäßigen Kontextlängen (32K–256K Token) unter Verwendung eines kreuzmodalen Token-Zähl-Schemas. Eine Bildablationstudie bestätigt, dass zur Lösung von MEMLENS visuelle Belege erforderlich sind: Das Entfernen von Belegbildern senkt die Genauigkeit zweier führender LVLMs auf unter 2 % bei den 80,4 % der Fragen, deren Belege Bilder enthalten. Bei der Evaluierung von 27 LVLMs und 7 gedächtnisgestützten Agenten stellen wir fest, dass Langkontext-LVLMs durch direkte visuelle Verankerung eine hohe Genauigkeit bei kurzen Kontexten erreichen, aber mit zunehmender Gesprächslänge nachlassen, während Gedächtnisagenten längenstabil sind, aber unter der Kompression während der Speicherung an visueller Genauigkeit verlieren. Das schlussfolgernde Denken über mehrere Sitzungen hinweg begrenzt die meisten Systeme auf unter 30 %, und keiner der beiden Ansätze allein löst die Aufgabe. Diese Ergebnisse motivieren hybride Architekturen, die Langkontext-Aufmerksamkeit mit strukturiertem multimodalen Abruf kombinieren. Unser Code ist verfügbar unter https://github.com/xrenaf/MEMLENS.
Wir stellen SANA-WM vor, ein effizientes Open-Source-Weltmodell mit 2,6 Milliarden Parametern, das nativ für die Erzeugung von einminütigen Videos trainiert wurde und hochauflösende 720p-Videos im Minutenbereich mit präziser Kamerasteuerung synthetisiert. SANA-WM erreicht eine visuelle Qualität, die mit großen industriellen Basislinien wie LingBot-World und HY-WorldPlay vergleichbar ist, bei gleichzeitig deutlich verbesserter Effizienz. Vier Kernentwürfe treiben unsere Architektur an: (1) Hybride lineare Aufmerksamkeit kombiniert bildweise Gated DeltaNet (GDN) mit Softmax-Aufmerksamkeit für speichereffiziente Modellierung langer Kontexte. (2) Die duale Zweig-Kamerasteuerung gewährleistet eine präzise Einhaltung von 6-Freiheitsgrad-Trajektorien. (3) Die zweistufige Generierungspipeline wendet auf die Ausgaben von Stufe 1 einen Langvideo-Verbesserer an, wodurch Qualität und Konsistenz über Sequenzen hinweg verbessert werden. (4) Die robuste Annotationspipeline extrahiert aus öffentlichen Videos genaue metrische 6-Freiheitsgrad-Kameraposen, um qualitativ hochwertige, räumlich-zeitlich konsistente Aktionsbeschriftungen zu erzeugen. Getrieben von diesen Entwürfen demonstriert SANA-WM eine bemerkenswerte Effizienz in Bezug auf Daten, Trainingsrechenleistung und Inferenzhardware: Es verwendet nur 213.000 öffentliche Videoclips mit metrischer Posenüberwachung, schließt das Training in 15 Tagen auf 64 H100 ab und erzeugt jeden 60-Sekunden-Clip auf einer einzelnen GPU; seine destillierte Variante kann auf einer einzelnen RTX 5090 mit NVFP4-Quantisierung eingesetzt werden, um einen 60-sekündigen 720p-Clip in 34 Sekunden zu entrauschen. In unserem Ein-Minuten-Weltmodell-Benchmark zeigt SANA-WM eine stärkere Aktionsbefolgungsgenauigkeit als frühere Open-Source-Basislinien und erreicht eine vergleichbare visuelle Qualität bei 36-fach höherem Durchsatz für skalierbare Weltmodellierung.
Das Langzeitgedächtnis von Agenten wird zunehmend multimodal, dennoch testen bestehende Evaluierungen selten, ob Agenten die für spätere Schlussfolgerungen benötigten visuellen Belege bewahren. In früheren Arbeiten konnten viele visuell fundierte Fragen nur mit Bildunterschriften oder Textspuren beantwortet werden, wodurch Antworten abgeleitet werden konnten, ohne die feinkörnigen visuellen Belege zu bewahren. Gleichzeitig fehlen weitgehend schwierigere Fälle, die Schlussfolgerungen über sich ändernde visuelle Zustände erfordern. Daher führen wir MemEye ein, ein Framework, das Gedächtnisfähigkeiten aus zwei Dimensionen bewertet: eine misst die Granularität entscheidender visueller Belege (von szenenebenen bis zu pixelebenen Belegen), und die andere misst, wie abgerufene Belege verwendet werden müssen (von einzelnen Belegen bis zur evolutionären Synthese). Unter diesem Framework konstruieren wir einen neuen Benchmark über 8 Lebensszenario-Aufgaben mit ablationsgesteuerten Validierungsgattern zur Bewertung von Beantwortbarkeit, Abkürzungsresistenz, visueller Notwendigkeit und Schlussfolgerungsstruktur. Durch die Evaluierung von 13 Gedächtnismethoden über 4 VLM-Backbones hinweg zeigen wir, dass aktuelle Architekturen immer noch Schwierigkeiten haben, feinkörnige visuelle Details zu bewahren und über Zustandsänderungen im Laufe der Zeit zu schlussfolgern. Unsere Ergebnisse zeigen, dass das langfristige multimodale Gedächtnis von Beleglenkung, zeitlicher Verfolgung und Detail Extraktion abhängt.
Wir stellen Darwin Family vor, ein Framework für trainingsfreie evolutionäre Fusion großer Sprachmodelle mittels gradientenfreier Gewichtsraum-Rekombination. Wir untersuchen, ob sich Spitzenleistungen im logischen Denken ohne zusätzliches Training verbessern lassen, indem latente Fähigkeiten, die bereits in bestehenden Checkpoints kodiert sind, neu organisiert werden. Darwin führt drei zentrale Ideen ein: (i) ein 14-dimensionales adaptives Fusionsgenom, das eine feinkörnige Rekombination auf Komponenten- und Blockebene ermöglicht; (ii) MRI-Trust-Fusion, die diagnostische Signale zur Schichtwichtigkeit mit evolutionärer Suche durch einen lernbaren Vertrauensparameter adaptiv ausbalanciert; und (iii) einen Architektur-Mapper, der architekturübergreifende Kreuzungen zwischen heterogenen Modellfamilien ermöglicht. Empirisch erreicht das Flaggschiff Darwin-27B-Opus 86,9 % auf GPQA Diamond, belegt Platz 6 unter 1.252 bewerteten Modellen und übertrifft sein vollständig trainiertes Basismodell ohne jegliches gradientenbasiertes Training. Über Skalen von 4B bis 35B Parametern hinweg verbessern Darwin-Modelle konsistent ihre Elternmodelle, unterstützen rekursive Multi-Generations-Evolution und ermöglichen eine trainingsfreie evolutionäre Fusion, die Transformer- und Mamba-basierte Komponenten kombiniert. Insgesamt demonstriert die Darwin Family, dass diagnostikgesteuerte evolutionäre Fusion eine praktikable und reproduzierbare Alternative zu kostspieligen Post-Training-Pipelines für auf logisches Denken fokussierte Sprachmodelle darstellt.
LLM-basierte autonome Agenten haben beeindruckende Fähigkeiten in den Bereichen Reasoning, Planung und Werkzeugnutzung gezeigt, bleiben jedoch eingeschränkt, wenn Aufgaben eine dauerhafte Koordination über Rollen, Werkzeuge und Umgebungen hinweg erfordern. Multi-Agenten-Systeme begegnen diesem Problem durch strukturierte Zusammenarbeit spezialisierter Agenten, aber eine engere Koordination erhöht auch ein wenig erforschtes Risiko: Fehler können sich über Agenten und Interaktionsrunden hinweg ausbreiten und zu Ausfällen führen, die schwer zu diagnostizieren sind und selten in strukturelle Selbstverbesserung münden. Bisherige Übersichtsarbeiten behandeln individuelle Agentenfähigkeiten, Multi-Agenten-Kooperation oder die Selbstevolution von Agenten getrennt und lassen die kausalen Abhängigkeiten zwischen ihnen unberücksichtigt. Diese Übersichtsarbeit bietet eine einheitliche Betrachtung, die um vier kausal verknüpfte Phasen organisiert ist, die wir als LIFE-Progression bezeichnen: Grundlage der Fähigkeiten legen (Lay the capability foundation), Agenten durch Zusammenarbeit integrieren (Integrate agents through collaboration), Fehler durch Attribution finden (Find faults through attribution) und durch autonome Selbstverbesserung evolvieren (Evolve through autonomous self-improvement). Für jede Phase liefern wir systematische Taxonomien und charakterisieren formal die Abhängigkeiten zwischen benachbarten Phasen, wodurch aufgezeigt wird, wie jede Phase die nächste sowohl bedingt als auch einschränkt. Über die Synthese bestehender Arbeiten hinaus identifizieren wir offene Herausforderungen an den Phasengrenzen und schlagen eine phasenübergreifende Forschungsagenda für geschlossene Multi-Agenten-Systeme vor, die kontinuierlich Ausfälle diagnostizieren, Strukturen neu organisieren und Agentenverhalten verfeinern können – und damit aktuelle Koordinationsrahmen hin zu selbstorganisierenden Formen kollektiver Intelligenz erweitern. Indem diese bisher fragmentierten Forschungsstränge zusammengeführt werden, zielt diese Übersichtsarbeit darauf ab, sowohl eine systematische Referenz als auch eine konzeptionelle Roadmap für autonome, sich selbst verbessernde Multi-Agenten-Intelligenz zu bieten.
Große Sprachmodelle (LLMs) als Agenten werden zunehmend mit der Erwartung konfrontiert, kohärente, langfristige und personalisierte Gedächtnisinhalte aufrechtzuerhalten. Aktuelle Benchmarks messen jedoch hauptsächlich das Abrufen statischer Fakten und übersehen dabei die Fähigkeit, gespeicherte Überzeugungen zu revidieren, wenn neue Belege auftauchen. Wir identifizieren einen kritischen und wenig erforschten Fehlermodus, den impliziten Konflikt: Eine spätere Beobachtung macht eine frühere Erinnerung ungültig, ohne dass eine explizite Negation vorliegt, sodass kontextuelle Inferenz und gesunder Menschenverstand zur Erkennung erforderlich sind. Um diese Fähigkeit rigoros zu evaluieren, führen wir STALE ein, einen Benchmark mit 400 expertengültigen Konfliktszenarien (1.200 Evaluierungsabfragen über drei Untersuchungsdimensionen), die über 100 alltägliche Themen mit Kontexten von bis zu 150.000 Token abdecken. Wir schlagen ein dreidimensionales Untersuchungsrahmenwerk vor, das die Zustandsauflösung (Erkennen, dass eine frühere Überzeugung veraltet ist), die Prämissenresistenz (Ablehnen von Abfragen, die fälschlicherweise einen veralteten Zustand voraussetzen) und die implizite Politikadaption (proaktives Anwenden aktualisierter Zustände im nachgelagerten Verhalten) testet. Eine systematische Evaluierung führender LLMs und spezialisierter Gedächtnisrahmenwerke offenbart eine durchgängige Kluft zwischen dem Abrufen aktualisierter Belege und dem Handeln danach: Selbst das am besten bewertete Modell erreicht nur 55,2 % Gesamtgenauigkeit. Modelle akzeptieren oft veraltete Annahmen, die in der Abfrage eines Nutzers eingebettet sind, und haben Schwierigkeiten zu erkennen, wann eine Änderung eines Aspekts des Nutzerzustands verwandte Erinnerungen ungültig machen sollte. Um eine erste Basislinie für zustandsbewusstes Gedächtnis zu schaffen, präsentieren wir zudem CUPMem, einen Prototypen, der die Revisionsfähigkeit beim Schreiben durch strukturierte Zustandskonsolidierung und ausbreitungssensitive Suche verstärkt. Dies deutet darauf hin, dass eine explizite Zustandsbereinigung ein vielversprechender Weg für robustes agentisches Gedächtnis ist.
Große Sprach- und Vision-Language-Modelle treiben zunehmend Agenten an, die im Auftrag eines Nutzers über Kommandozeilen-Schnittstellen (CLI) agieren. Die meisten Agenten-Benchmarks basieren jedoch weiterhin auf synthetischen Sandboxes, kurzfristigen Aufgaben, simulierten Service-APIs und finalen Antwortprüfungen, sodass unklar bleibt, ob Agenten realistische langfristige Arbeiten in den Laufzeitumgebungen, in denen sie eingesetzt werden, bewältigen können. Diese Arbeit stellt WildClawBench vor, einen nativen Laufzeit-Benchmark mit 60 von Menschen verfassten, zweisprachigen, multimodalen Aufgaben, die sechs thematische Kategorien abdecken. Jede Aufgabe benötigt im Durchschnitt etwa 8 Minuten Echtzeit und über 20 Werkzeugaufrufe und läuft in einem reproduzierbaren Docker-Container, der einen echten CLI-Agenten-Harness (OpenClaw, Claude Code, Codex oder Hermes Agent) mit Zugriff auf echte Werkzeuge (anstelle simulierter Dienste) beherbergt. Die Bewertung ist hybrid und kombiniert deterministische, regelbasierte Prüfungen, Umgebungszustands-Audits von Nebeneffekten sowie einen LLM/VLM-Bewerter zur semantischen Verifikation. Über 19 Spitzenmodelle hinweg erreicht das beste Modell, Claude Opus 4.7, unter OpenClaw lediglich 62,2% Gesamtergebnis, während jedes andere Modell unter 60% bleibt; allein der Wechsel des Harness verändert das Ergebnis eines einzelnen Modells um bis zu 18 Prozentpunkte. Diese Ergebnisse zeigen, dass die Bewertung langfristiger, nativer Laufzeit-Agenten für aktuelle Spitzenmodelle noch lange keine abgeschlossene Aufgabe ist. Wir veröffentlichen die Aufgaben, den Code und die containerisierten Werkzeuge, um reproduzierbare Evaluierungen zu unterstützen.
Die kameragesteuerte Videogenerierung hat erhebliche Fortschritte gemacht und ermöglicht es, generierte Videos vorgegebenen Kameratrajektorien folgen zu lassen. Bestehende Methoden lernen jedoch meist kamerabedingte Konditionierungen durch Kameracodierer, Kontrollzweige oder Modifikationen von Aufmerksamkeit und Positionscodierung, die oft ein nachträgliches Training auf kameramarkierten Videos in großem Maßstab erfordern. Trainingsfreie Alternativen vermeiden ein solches nachträgliches Training, verlagern den Aufwand jedoch oft auf eine Optimierung zur Testzeit oder zusätzliche Führung während der Entrauschung. Wir schlagen Warp-as-History vor, eine einfache Schnittstelle, die kamerainduzierte Verzerrungen in kamerabedingte Pseudo-Historie mit Zielbild-Positionsausrichtung und Auswahl sichtbarer Token umwandelt. Bei einer gegebenen Ziel-Kameratrajektorie konstruieren wir aus vergangenen Beobachtungen eine kamerabedingte Pseudo-Historie und speisen diese über den Pfad der visuellen Historie des Modells ein. Entscheidend ist, dass wir deren Positionscodierung auf die zu entrauschenden Zielbilder ausrichten und verzerrte Historien-Token ohne gültige Quellbeobachtungen entfernen. Ohne jegliches Training, architektonische Modifikation oder Optimierung zur Testzeit offenbart diese Schnittstelle eine nicht-triviale Zero-Shot-Fähigkeit eines eingefrorenen Videogenerierungsmodells, Kameratrajektorien zu folgen. Darüber hinaus verbessert ein leichtgewichtiges, offline durchgeführtes LoRA-Feintuning an nur einem kameramarkierten Video diese Fähigkeit weiter und verallgemeinert auf ungesehene Videos, wobei die Kamerabindung, die visuelle Qualität und die Bewegungsdynamik ohne Optimierung zur Testzeit oder Anpassung an das Zielvideo verbessert werden. Umfangreiche Experimente an verschiedenen Datensätzen bestätigen die Wirksamkeit unserer Methode.
Da das Ökosystem großer Sprachmodelle (LLMs) wächst, zeigen einzelne Modelle unterschiedliche Fähigkeiten in Bezug auf Abfragen, Benchmarks und Domänen, was die Entwicklung von LLM-Routing motiviert. Während sich frühere Arbeiten weitgehend auf das Design von Router-Mechanismen konzentriert haben, sind LLM-Profile, die die Fähigkeiten von Modellen erfassen, noch wenig erforscht. In dieser Arbeit fragen wir: Wie wirkt sich das Design von LLM-Profilen auf die Routing-Leistung über verschiedene Router hinweg aus? Die Beantwortung dieser Frage hilft, die Rolle von Profilen beim Routing zu klären, das Profildesign vom Router-Design zu entkoppeln und einen faireren Vergleich sowie eine prinzipientreue Entwicklung von Routing-Systemen zu ermöglichen. Zu diesem Zweck betrachten wir LLM-Profiling als ein Problem der strukturierten Informationsintegration über heterogene Interaktionsverläufe hinweg. Wir entwickeln einen allgemeinen Designraum für LLM-Profile, genannt RouteProfile, entlang vier Schlüsseldimensionen: Organisationsform, Repräsentationstyp, Aggregationstiefe und Lernkonfiguration. Durch systematische Evaluierung über drei repräsentative Router hinweg, sowohl unter Standard- als auch unter Generalisierungseinstellungen für neue LLMs, zeigen wir, dass: (1) strukturierte Profile durchweg besser abschneiden als flache; (2) Abfrageebenen-Signale zuverlässiger sind als grobe Domänenebenen-Signale; und (3) die Generalisierung auf neu eingeführte Modelle am meisten von strukturierten Profilen unter trainierbaren Konfigurationen profitiert. Insgesamt hebt unsere Arbeit das Design von LLM-Profilen als wichtige Richtung für zukünftige Routing-Forschung hervor.
Agentengedächtnis wird typischerweise entweder offline aus kuratierten Demonstrationen oder online aus Interaktionen nach dem Einsatz aufgebaut. Unabhängig davon, wie es aufgebaut wird, sieht sich ein Agent jedoch einer Kaltstartlücke gegenüber, wenn er erstmals in eine neue Umgebung eingeführt wird, ohne dass aufgabenspezifische Erfahrungen verfügbar sind. In dieser Arbeit untersuchen wir den Aufbau von Gedächtnis vor der Aufgabenausführung: ob ein Agent prozedurales Gedächtnis aufbauen kann, bevor er Aufgaben in der Zielumgebung beobachtet, indem er nur selbstgenerierte synthetische Übungen nutzt. Doch allein synthetische Interaktion reicht nicht aus, da synthetische Aufgaben ohne Kontrolle darüber, was geübt und was gespeichert wird, redundant, undurchführbar und letztlich uninformativ werden; zudem verschlechtert sich das Gedächtnis aufgrund ungefilterter Trajektorien schnell. Um dies zu überwinden, stellen wir Preping vor, ein vorschlagsgesteuertes Framework für den Gedächtnisaufbau. Sein Kern ist das Vorschlagsgedächtnis, ein strukturierter Kontrollzustand, der zukünftige Übungen formt. Ein Vorschlagsgenerator (Proposer) erzeugt synthetische Aufgaben, die von diesem Zustand abhängen, ein Löser (Solver) führt sie aus, und ein Validator bestimmt, welche Trajektorien für die Gedächtnisaufnahme geeignet sind, während er gleichzeitig Rückmeldung zur Steuerung zukünftiger Vorschläge gibt. Experimente auf AppWorld, BFCL v3 und MCP-Universe zeigen, dass Preping die Leistung im Vergleich zu einer Baseline ohne Gedächtnis erheblich verbessert und eine mit starken, auf Spielbüchern basierenden Methoden (die auf offline oder online Erfahrung aufbauen) vergleichbare Leistung erzielt, wobei die Einsatzkosten auf AppWorld um das 2,99-Fache und auf BFCL v3 um das 2,23-Fache niedriger sind als beim Online-Gedächtnisaufbau. Weitere Analysen zeigen, dass der Hauptvorteil nicht allein aus dem synthetischen Umfang resultiert, sondern aus der Steuerung von Machbarkeit, Redundanz und Abdeckung auf Seiten des Vorschlagsgenerators in Kombination mit selektiven Gedächtnisaktualisierungen.
Langzeitgedächtnis ist für LLM-Agenten, die über mehrere Sitzungen hinweg operieren, unerlässlich. Dennoch behandeln bestehende Gedächtnissysteme die Abrufinfrastruktur als statisch: Gespeicherte Inhalte entwickeln sich weiter, während Bewertungsfunktionen, Fusionsstrategien und Richtlinien zur Antwortgenerierung bei der Bereitstellung eingefroren bleiben. Wir argumentieren, dass ein wirklich adaptives Gedächtnis eine Ko-Evolution auf zwei Ebenen erfordert: das gespeicherte Wissen und den Abrufmechanismus, der es abfragt. Wir stellen EvolveMem vor, eine selbstentwickelnde Gedächtnisarchitektur, die ihre gesamte Abrufkonfiguration als strukturierten Aktionsraum offenlegt, der von einem LLM-gestützten Diagnosemodul optimiert wird. In jeder Evolutionsrunde liest das Modul die Fehlerprotokolle pro Frage, identifiziert Grundursachen und schlägt gezielte Konfigurationsanpassungen vor; ein bewachter Meta-Analysator wendet diese mit automatischer Rücknahme bei Verschlechterung und Erkundung bei Stagnation an. Diese geschlossene Selbstevolution verwirklicht einen AutoResearch-Prozess: Das System führt autonom iterative Forschungszyklen zu seiner eigenen Architektur durch und ersetzt so die manuelle Konfigurationsabstimmung. Ausgehend von einer minimalen Ausgangsbasis konvergiert der Prozess autonom und entdeckt effektive Abrufstrategien, einschließlich völlig neuer Konfigurationsdimensionen, die im ursprünglichen Aktionsraum nicht vorhanden waren. Auf LoCoMo übertrifft EvolveMem die stärkste Baseline um 25,7% relativ und erreicht eine relative Verbesserung von 78,0% gegenüber der minimalen Baseline. Auf MemBench übertrifft EvolveMem die stärkste Baseline um 18,9% relativ. Entwickelte Konfigurationen übertragen sich mit positivem statt katastrophalem Transfer über Benchmarks hinweg, was darauf hindeutet, dass der Selbstevolutionsprozess universelle Abrufprinzipien und nicht benchmarkspezifische Heuristiken erfasst. Code ist verfügbar unter https://github.com/aiming-lab/SimpleMem.
Wir möchten oft Bilder erzeugen, die sowohl fotorealistisch als auch 3D-konsistent sind und präzisen Vorgaben zu Geometrie, Material und Kameraperspektive folgen. Typischerweise wird dies erreicht, indem ein Bildgenerator, der auf Milliarden von echten Bildern vortrainiert wurde, mit Renderings von synthetischen 3D-Assets feinabgestimmt wird, bei denen Annotationen für Kontrollsignale verfügbar sind. Obwohl dieser Ansatz die gewünschten Steuerungen erlernen kann, beeinträchtigt er oft die Realitätstreue der Bilder aufgrund der Domänenlücke zwischen Fotos und Renderings. Wir beobachten, dass dieses Problem größtenteils dadurch entsteht, dass das Modell eine unbeabsichtigte Assoziation zwischen dem Vorhandensein von Kontrollsignalen und dem synthetischen Erscheinungsbild der Bilder lernt. Um dem entgegenzuwirken, stellen wir Realiz3D vor, ein leichtgewichtiges Framework zum Trainieren von Diffusionsmodellen, das Kontrollen und visuelle Domäne entkoppelt. Die Kernidee besteht darin, die visuelle Domäne – real oder synthetisch – explizit getrennt von anderen Kontrollsignalen zu lernen, indem eine Kovariate eingeführt wird, die, eingespeist in kleine Residualadapter, die Domäne verschiebt. Dadurch kann der Generator darauf trainiert werden, Steuerbarkeit zu erlangen, ohne sich an eine bestimmte visuelle Domäne anzupassen. Auf diese Weise kann das Modell dazu angeleitet werden, realistische Bilder zu erzeugen, selbst wenn Kontrollen angewendet werden. Wir verbessern die Übertragbarkeit der Steuerung auf die reale Domäne, indem wir Erkenntnisse über die Rollen verschiedener Schichten und Denoising-Schritte in diffusionsbasierten Generatoren nutzen, was neue Trainings- und Inferenzstrategien ermöglicht, die die Lücke weiter verringern. Wir demonstrieren die Vorteile von Realiz3D bei Aufgaben wie Text-zu-Multiview-Generierung und Texturierung aus 3D-Eingaben, wobei Ergebnisse erzielt werden, die sowohl 3D-konsistent als auch fotorealistisch sind.
Visuelles Denken, oft durchsetzt mit intermediären visuellen Zuständen, hat sich als vielversprechende Richtung in diesem Bereich etabliert. Ein naheliegender Ansatz besteht darin, während des Denkprozesses direkt Bilder über vereinheitlichte Modelle zu generieren, was jedoch rechenintensiv und architektonisch anspruchsvoll ist. Neuere Alternativen umfassen agentisches Denken über Code- oder Tool-Aufrufe sowie latentes Denken mit lernbaren verborgenen Einbettungen. Allerdings verursachen agentische Methoden Latenzen durch Kontextwechsel bei der externen Ausführung, während latente Methoden an mangelnder Aufgabenverallgemeinerung leiden und sich mit autoregressiver Parallelisierung nur schwer trainieren lassen. Um ihre Stärken zu vereinen und gleichzeitig ihre Schwächen zu mildern, schlagen wir ATLAS vor, ein Framework, in dem ein einzelnes diskretes 'Wort', bezeichnet als funktionales Token, sowohl als agentische Operation als auch als latente visuelle Denkeinheit dient. Jedes funktionale Token ist mit einer internalisierten visuellen Operation verknüpft, benötigt jedoch keine visuelle Überwachung und bleibt ein Standard-Token im Vokabular des Tokenizers, das durch nächste-Token-Vorhersage generiert werden kann. Dieses Design vermeidet die Erzeugung weitschweifiger intermediärer visueller Inhalte, während die Kompatibilität mit dem standardmäßigen skalierbaren SFT- und RL-Training gewahrt bleibt, ohne architektonische oder methodische Änderungen. Um die Seltenheit funktionaler Tokens während des RL weiter zu adressieren, führen wir Latent-Anchored GRPO (LA-GRPO) ein, das das Training stabilisiert, indem es funktionale Tokens mit einem statisch gewichteten Hilfsziel verankert und stärkere Gradientenaktualisierungen bereitstellt. Umfangreiche Experimente und Analysen zeigen, dass ATLAS auf anspruchsvollen Benchmarks eine überlegene Leistung erzielt, während es eine klare Interpretierbarkeit bewahrt. Wir hoffen, dass ATLAS ein neues Paradigma bietet, das die zukünftige Forschung im visuellen Denken inspiriert.
Die Multi-Agenten-Pfadfindung (MAPF) ist eine weit verbreitete Abstraktion für Multi-Roboter-Bahnplanungsprobleme, bei denen sich mehrere homogene Agenten gleichzeitig in einer gemeinsamen Umgebung bewegen. Obwohl die optimale Lösung von MAPF NP-schwer ist, sind skalierbare und effiziente Lösungsverfahren für reale Anwendungen wie Logistik und Suche und Rettung von entscheidender Bedeutung. Aus diesem Grund hat die Forschungsgemeinschaft verschiedene dezentrale suboptimale MAPF-Löser vorgeschlagen, die maschinelles Lernen nutzen. Solche Methoden betrachten MAPF (aus der Perspektive eines einzelnen Agenten) als ein Dec-POMDP, bei dem ein Agent in jedem Zeitschritt basierend auf der lokalen Beobachtung eine Aktion wählen muss, und lösen das Problem typischerweise durch bestärkendes Lernen oder Imitationslernen. Wir folgen demselben Ansatz, führen jedoch zusätzlich ein lernbares Kommunikationsmodul ein, das speziell darauf ausgelegt ist, die Zusammenarbeit zwischen Agenten durch effizienten Merkmalsaustausch zu verbessern. Wir stellen den Local Communication for Multi-agent Pathfinding (LC-MAPF) vor, ein generalisierbares vortrainiertes Modell, das mehrstufige Kommunikation zwischen benachbarten Agenten anwendet, um Informationen auszutauschen und ihre Koordination zu verbessern. Unsere Experimente zeigen, dass die eingeführte Methode die bestehenden lernbasierten MAPF-Löser, einschließlich Ansätzen des Imitationslernens und bestärkenden Lernens, in verschiedenen Metriken in einer Vielzahl (unbekannter) Testszenarien übertrifft. Bemerkenswerterweise beeinträchtigt der eingeführte Kommunikationsmechanismus nicht die Skalierbarkeit von LC-MAPF, ein häufiger Engpass für kommunikationsbasierte MAPF-Löser.
Viele reale Programmierherausforderungen sind offen formuliert und lassen keine bekannte optimale Lösung zu. Dennoch konzentrierte sich der jüngste Fortschritt bei LLM-basiertem Programmieren auf wohldefinierte Aufgaben wie Feature-Implementierung, Fehlerbehebung und Competitive Programming. Offenes Programmieren bleibt eine Schwachstelle von LLMs, vor allem weil offene Trainingsprobleme rar und teuer in der Erstellung sind. Unser Ziel ist es, offene Programmierprobleme in großem Umfang zu synthetisieren, um leistungsfähigere LLM-Coder zu trainieren. Wir stellen FrontierSmith vor, ein automatisiertes System zur iterativen Evolution offener Probleme aus bestehenden geschlossenen Programmieraufgaben. Ausgehend von Competitive-Programming-Problemen generiert FrontierSmith Kandidaten für offene Varianten, indem es die Problemziele ändert, Ausgaben einschränkt und Eingaben verallgemeinert. Anschließend wird eine quantitative Metrik zur Ideendivergenz verwendet, um Probleme auszuwählen, die bei verschiedenen Lösern wirklich unterschiedliche Ansätze hervorrufen. Agenten generieren dann Testfälle und Verifier für die überlebenden Kandidaten. Auf zwei Benchmarks für offenes Programmieren führen Trainings mit unseren synthetischen Daten zu erheblichen Verbesserungen gegenüber den Basismodellen: Qwen3.5-9B verbessert sich um +8,82 Punkte auf FrontierCS und um +306,36 (Elo-basierte Leistung) auf ALE-bench; Qwen3.5-27B verbessert sich um +12,12 bzw. +309,12. Die synthetisierten Probleme veranlassen die Agenten außerdem zu mehr Iterationen und Token-Nutzung, ähnlich wie von Menschen kuratierte Probleme, was darauf hindeutet, dass geschlossene Keimprobleme ein praktischer Ausgangspunkt für langfristige Programmierdaten sein können.
Das Training kausaler Transformatoren mit extrem langen Sequenzen wird durch die quadratische Zeit- und Speicherkomplexität der skalierten Punktprodukt-Aufmerksamkeit (SDPA) begrenzt. In dieser Arbeit schlagen wir Lighthouse Attention vor, einen rein trainingsbasierten, symmetrischen, selektionsgesteuerten hierarchischen Aufmerksamkeitsalgorithmus, der die gewöhnliche SDPA umhüllt und gegen Ende des Trainings leicht entfernt werden kann. Unsere hierarchische Selektion ist zudem gradientenfrei, was uns den Umgang mit einem komplexen und potenziell ineffizienten Backward-Pass-Kernel erspart. Unser Beitrag ist dreifach: (i) Ein subquadratischer hierarchischer Vor- und Nachverarbeitungsschritt, der eine adaptive Kompression und Dekompression der Sequenz durchführt. (ii) Eine symmetrische Kompressionsstrategie, die gleichzeitig Queries, Keys und Values zusammenfasst und dabei die Left-to-Right-Kausalität bewahrt, was die Parallelität erheblich verbessert. (iii) Ein zweistufiger Trainingsansatz, bei dem wir die meiste Zeit mit Lighthouse Attention vortrainieren und am Ende mit einem kurzen Training ein vollständiges Aufmerksamkeitsmodell wiederherstellen. Wir führen vorläufige klein angelegte LLM-Vortrainings-Experimente durch, die die Wirksamkeit unserer Methode im Vergleich zum vollständigen Aufmerksamkeitstraining unter ansonsten identischen Bedingungen zeigen. Dabei erzielen wir eine kürzere Gesamttrainingszeit und einen niedrigeren endgültigen Loss nach der Wiederherstellungsphase. Der vollständige Code ist verfügbar unter: https://github.com/ighoshsubho/lighthouse-attention
Robotische Imitationsdaten sind häufig multimodal: Ähnliche visuell-sprachliche Beobachtungen können von unterschiedlichen Aktionssequenzen gefolgt werden, da menschliche Demonstratoren mit verschiedenen kurzfristigen Absichten, Aufgabenphasen oder aktuellem Kontext handeln. Bestehende, rahmenbedingte VLA-Modelle leiten jede Sequenz ausschließlich aus der aktuellen Beobachtung und Anweisung ab, sodass sie bei teilweiser Beobachtbarkeit über benachbarte Neuplanungsschritte hinweg unterschiedliche Absichten erneut abtasten können, was zu Konflikten zwischen den Sequenzen und instabiler Ausführung führt. Wir stellen IntentVLA vor, ein kontextabhängiges VLA-Framework, das aktuelle visuelle Beobachtungen in eine kompakte, kurzzeitige Absichtsdarstellung kodiert und diese zur Konditionierung der Sequenzgenerierung nutzt. Darüber hinaus führen wir AliasBench ein, einen auf 12 Aufgaben ausgelegten, mehrdeutigkeitsbewussten Benchmark auf RoboTwin2 mit abgestimmten Trainingsdaten und Evaluierungsumgebungen, die kurzzeitige Beobachtungsmehrdeutigkeit isolieren. In AliasBench, SimplerEnv, LIBERO und RoboCasa verbessert IntentVLA die Ausführungsstabilität und übertrifft starke VLA-Baselines.
Verstärkungslernen hat sich als leistungsstarkes Werkzeug zur Verbesserung diffusionsbasierter Text-zu-Bild-Modelle erwiesen, jedoch sind bestehende Methoden weitgehend auf die Optimierung einzelner Aufgaben beschränkt. Die Erweiterung des Verstärkungslernens auf mehrere Aufgaben ist herausfordernd: Gemeinsame Optimierung leidet unter aufgabenübergreifender Interferenz und Ungleichgewicht, während Kaskaden-RL umständlich und anfällig für katastrophales Vergessen ist. Wir schlagen DiffusionOPD vor, ein neues Mehraufgaben-Trainingsparadigma für Diffusionsmodelle, das auf Online Policy Distillation (OPD) basiert. DiffusionOPD trainiert zunächst aufgabenspezifische Lehrer unabhängig voneinander und destilliert deren Fähigkeiten in einen einheitlichen Schüler entlang der eigenen Ausrolltrajektorien des Schülers. Dies entkoppelt die Einzelaufgaben-Erkundung von der Mehraufgaben-Integration und vermeidet den Optimierungsaufwand, alle Aufgaben von Grund auf gemeinsam zu lösen. Theoretisch heben wir das OPD-Framework von diskreten Token auf kontinuierliche Markov-Prozesse an und leiten eine geschlossene KL-Zielfunktion pro Schritt her, die sowohl die stochastische SDE- als auch die deterministische ODE-Verfeinerung durch Mittelwertanpassung vereinheitlicht. Wir zeigen formal und empirisch, dass dieser analytische Gradient im Vergleich zu herkömmlichen PPO-artigen Policy-Gradienten eine geringere Varianz und eine bessere Allgemeingültigkeit aufweist. Umfangreiche Experimente belegen, dass DiffusionOPD sowohl im Hinblick auf die Trainingseffizienz als auch auf die endgültige Leistung durchweg sowohl Mehraufgaben-RL- als auch Kaskaden-RL-Baselines übertrifft und in allen evaluierten Benchmarks Spitzenergebnisse erzielt.
Hochwertige 3D-Szenenrekonstruktion hat sich in letzter Zeit in Richtung generalisierbarer Feedforward-Architekturen entwickelt, die eine Erzeugung komplexer Umgebungen in einem einzigen Durchlauf ermöglichen. Trotz ihrer starken Leistung bei der Wahrnehmung statischer Szenen bleiben diese Modelle jedoch bei der Reaktion auf dynamische menschliche Anweisungen eingeschränkt, was ihren Einsatz in interaktiven Anwendungen begrenzt. Bestehende Bearbeitungsmethoden verlassen sich typischerweise auf eine 2D-Lifting-Strategie, bei der einzelne Ansichten unabhängig voneinander bearbeitet und dann wieder in den 3D-Raum zurückgehoben werden. Diese indirekte Pipeline führt oft zu unscharfen Texturen und inkonsistenter Geometrie, da 2D-Editoren das erforderliche räumliche Bewusstsein vermissen, um die Struktur über mehrere Blickwinkel hinweg zu bewahren. Um diese Einschränkungen zu adressieren, schlagen wir VGGT-Edit vor, ein Feedforward-Framework für textgesteuerte native 3D-Szenenbearbeitung. VGGT-Edit führt eine tiefensynchronisierte Texteinspritzung ein, um die semantische Anleitung mit den räumlichen Posen des Backbones abzugleichen, was eine stabile Befehlsverankerung gewährleistet. Dieses semantische Signal wird dann von einem Residual-Transformationskopf verarbeitet, der direkt 3D-geometrische Verschiebungen vorhersagt, um die Szene zu verformen, während die Hintergrundstabilität erhalten bleibt. Um hochgetreue Ergebnisse sicherzustellen, überwachen wir das Framework mit einer multivariaten Zielfunktion, die geometrische Genauigkeit und konsistenz über verschiedene Ansichten hinweg erzwingt. Wir erstellen außerdem den DeltaScene-Datensatz, einen großen Datensatz, der durch eine automatisierte Pipeline mit 3D-Übereinstimmungsfilterung generiert wird, um eine hohe Grundwahrheitsqualität zu gewährleisten. Experimente zeigen, dass VGGT-Edit 2D-Lifting-Baselines deutlich übertrifft und schärfere Objektdetails, stärkere Multi-View-Konsistenz sowie nahezu sofortige Inferenzgeschwindigkeit liefert.
Agentenmodellierung zielt darauf ab, LLMs in autonome Agenten zu verwandeln, die komplexe Aufgaben durch Planung, logisches Denken, Werkzeugnutzung und mehrschrittige Interaktion mit Umgebungen lösen können. Trotz erheblicher Investitionen wird die offene Forschung weiterhin durch Infrastruktur- und Trainingslücken eingeschränkt. Viele leistungsstarke Systeme stützen sich auf proprietäre Codebasen, Modelle oder Dienste, während die meisten Open-Source-Frameworks sich eher auf Orchestrierung und Evaluierung konzentrieren als auf skalierbares Agententraining. Wir stellen Orchard vor, ein Open-Source-Framework für skalierbare Agentenmodellierung. Sein Kern ist Orchard Env, ein leichtgewichtiger Umgebungsdienst, der wiederverwendbare Primitive für die Verwaltung des Sandbox-Lebenszyklus über Aufgabendomänen, Agenten-Harnesses und Pipelinestufen hinweg bereitstellt. Aufbauend auf Orchard Env entwickeln wir drei Rezepte für die Agentenmodellierung. Orchard-SWE zielt auf Codierungsagenten ab. Wir destillieren 107.000 Trajektorien aus MiniMax-M2.5 und Qwen3.5-397B, führen Credit-Assignment-SFT ein, um aus produktiven Segmenten ungelöster Trajektorien zu lernen, und wenden Balanced Adaptive Rollout für RL an. Ausgehend von Qwen3-30B-A3B-Thinking erreicht Orchard-SWE nach SFT 64,3 % auf SWE-bench Verified und 67,5 % nach SFT+RL und setzt damit einen neuen State of the Art unter Open-Source-Modellen vergleichbarer Größe. Orchard-GUI trainiert einen 4B starken Computer-Nutzungs-Agenten für Bild und Sprache mit nur 400 destillierten Trajektorien und 2.200 offenen Aufgaben. Es erzielt Erfolgsraten von 74,1 %, 67,0 % und 64,0 % auf WebVoyager, Online-Mind2Web bzw. DeepShop und ist damit das stärkste Open-Source-Modell, während es weiterhin mit proprietären Systemen konkurrieren kann. Orchard-Claw zielt auf persönliche Assistenten-Agenten ab. Mit nur 200 synthetischen Aufgaben trainiert, erreicht es 59,6 % pass@3 auf Claw-Eval und 73,9 % in Kombination mit einem stärkeren ZeroClaw-Harness. Insgesamt zeigen diese Ergebnisse, dass eine leichte, offene, Harness-agnostische Umgebungsschicht wiederverwendbare agentische Daten, Trainingsrezepte und Evaluierungen über verschiedene Domänen hinweg ermöglicht.
Sobald ein neues Medium entsteht, wird es nicht nur zur Übermittlung offensichtlicher Inhalte genutzt. Die von ihm transportierte Information wirkt typischerweise auf zwei Ebenen: eine ist der direkt dargestellte Inhalt, die andere der darunterliegende Subtext – die impliziten Ideen und Absichten, die der Urheber durch das Medium zu vermitteln sucht. In ähnlicher Weise dient Video, seit Videotechnologien weit verbreitet sind, nicht nur als leistungsstarkes Werkzeug zur Aufzeichnung und Übermittlung visueller Informationen, sondern auch als Träger von Emotionen, Einstellungen und sozialen Bedeutungen, die oft nur schwer explizit zu artikulieren sind. Daher liegt die wahre Bedeutung vieler Videos nicht allein in dem, was auf dem Bildschirm gezeigt wird; sie ist oft im Kontext, der Ausdrucksweise und den sozialen Erfahrungen der Zuschauer eingebettet. Manche Formen solcher Video-Subtexte sind humorvoll, andere tragen Ironie, Spott oder Kritik in sich. Diese impliziten Bedeutungen können zudem je nach kulturellem Hintergrund und sozialer Gruppe sehr unterschiedlich interpretiert werden. Die meisten bestehenden Videoverstehensmodelle konzentrieren sich jedoch noch immer vorrangig auf das wörtliche visuelle Verständnis, etwa das Erkennen von Objekten, Handlungen oder zeitlichen Beziehungen, und ihnen fehlt eine systematische Fähigkeit, die in Videos verborgenen metaphorischen, ironischen und sozialen Bedeutungen zu verstehen. Um diese Lücke zu schließen, stellen wir ViMU vor, den ersten Benchmark, der dazu entwickelt wurde, die Fähigkeit von Spitzenmodellen zum Verständnis von Video-Subtext systematisch zu bewerten. ViMU prüft, ob Videoverstehensmodelle über die wörtliche Wahrnehmung hinausgehen und implizite Bedeutungen ableiten können, während sie ihre Interpretationen auf multimodale Evidenz stützen und sowohl offene als auch Multiple-Choice-Fragen beantworten. Wesentlich ist, dass alle Fragen hinweisfrei gestaltet sind, sodass den Modellen vor der Beantwortung keine entscheidenden Beweise preisgegeben werden.
Autoregressive (AR) Videodiffusionsmodelle verwenden ein Streaming-Generierungsframework, das die Echtzeit-Generierung langer Videosequenzen ermöglicht, wie das Self-Forcing-Trainingsparadigma zeigt. Allerdings leiden bestehende AR-Videodiffusionsmodelle aufgrund der redundanten Schlüssel-Wert (KV)-Caches über historische Frames hinweg weiterhin unter erheblicher Aufmerksamkeitskomplexität und hohem Speicherbedarf, was die Skalierbarkeit einschränkt. In dieser Arbeit begegnen wir dieser Herausforderung, indem wir KV-Cache-Kompression in autoregressive Videodiffusion einführen. Wir beobachten, dass Aufmerksamkeitsköpfe in gängigen AR-Diffusionsmodellen deutlich unterschiedliche Aufmerksamkeitsmuster und funktionale Rollen aufweisen, die über Stichproben und Denoising-Schritte hinweg stabil bleiben. Aufbauend auf unserer empirischen Untersuchung der kopfweisen funktionalen Spezialisierung unterteilen wir die Aufmerksamkeitsköpfe in zwei Kategorien: statische Köpfe, die sich auf Übergänge zwischen autoregressiven Blöcken und Intra-Frame-Treue konzentrieren, und dynamische Köpfe, die Inter-Frame-Bewegung und Konsistenz steuern. Anschließend schlagen wir Forcing-KV vor, eine hybride KV-Cache-Kompressionsstrategie, die für statische Köpfe strukturierte statische Bereinigung und für dynamische Köpfe dynamische Bereinigung auf Basis segmentspezifischer Ähnlichkeit durchführt. Bei gleichbleibender Ausgabequalität erreicht unsere Methode eine Generierungsgeschwindigkeit von über 29 Bildern pro Sekunde auf einer einzelnen NVIDIA H200 GPU sowie eine Reduzierung des Cache-Speichers um 30 %, was zu bis zu 1,35-facher und 1,50-facher Beschleunigung bei LongLive und Self Forcing in 480P-Auflösung führt und sich auf 2,82-fache Beschleunigung in 1080P-Auflösung skaliert. Code und Demovideos finden Sie unter https://zju-jiyicheng.github.io/Forcing-KV-Page.
Jüngste Fortschritte in der Bildgenerierung haben die Erstellung hochwertiger Bilder erheblich vereinfacht. Allerdings liegen diese Ausgaben grundsätzlich nur als flache Darstellung vor, bei der Vordergrundelemente, Hintergrund und Text innerhalb eines festgelegten Bildbereichs miteinander verknüpft sind. Folglich bleibt eine flexible Bearbeitung nach der Generierung eine Herausforderung, was eine deutliche letzte-Meile-Lücke hin zur praktischen Nutzbarkeit offenbart. Bestehende Ansätze stützen sich entweder auf seltene proprietäre Schichtressourcen oder konstruieren teilweise synthetische Daten aus begrenzten strukturellen Vorbedingungen. Beide Strategien stehen jedoch vor grundlegenden Herausforderungen in Bezug auf die Skalierbarkeit. In dieser Arbeit untersuchen wir, ob rein synthetische Schichtdaten die Zerlegung von Grafikdesign verbessern können. Wir gehen dabei von der Annahme aus, dass eine effektive Zerlegung im Grafikdesign keine so präzise Modellierung der Abhängigkeiten zwischen den Schichten erfordert wie bei der Komposition natürlicher Bilder, da Designelemente oft bewusst als modulare und semantisch trennbare Komponenten angeordnet sind. Konkret führen wir eine datenzentrierte Studie auf Basis der CLD-Baseline durch, eines hochmodernen Frameworks zur Schichtzerlegung. Ausgehend von dieser Baseline erstellen wir unseren eigenen synthetischen Datensatz, SynLayers, generieren textuelle Überwachungssignale mithilfe von Vision-Language-Modellen und automatisieren Inferenzeingaben durch VLM-vorhergesagte Begrenzungsrahmen. Unsere Studie offenbart drei wichtige Erkenntnisse: (1) Selbst das Training mit rein synthetischen Daten kann nicht skalierbare Alternativen wie den weit verbreiteten PrismLayersPro-Datensatz übertreffen, was seine Nutzbarkeit als skalierbaren und effektiven Ersatz demonstriert; (2) die Leistung verbessert sich konsequent mit zunehmendem Trainingsdatenumfang, wobei die Zuwächse bei etwa 50K Stichproben zu stagnieren beginnen; und (3) synthetische Daten ermöglichen eine ausgewogene Kontrolle über die Verteilungen der Schichtanzahl und vermeiden so das in realen Datensätzen häufig beobachtete Ungleichgewicht bei der Schichtanzahl. Wir hoffen, dass diese datenzentrierte Studie eine breitere Nutzung synthetischer Daten als praktische Grundlage für Editiersysteme für geschichtetes Design fördert.
Kausale autoregressive Videodiffusionsmodelle ermöglichen eine Echtzeit-Streaming-Generierung, indem sie zukünftige Blöcke aus bereits erzeugten Inhalten extrapolieren. Die Destillation solcher Generatoren aus hochgenauen bidirektionalen Lehrern liefert konkurrenzfähige Modelle mit wenigen Schritten, doch eine anhaltende Diskrepanz zwischen den während des Trainings auftretenden Historienverteilungen und denen, die zur Inferenz entstehen, schränkt die Generierungsqualität über lange Horizonte ein. Wir führen das Real-time Autoregressive Video Extrapolation Network (RAVEN) ein, ein Framework für Trainingszeit-Tests, das jeden Selbst-Rollout in eine verschachtelte Sequenz aus sauberen historischen Endpunkten und verrauschten Denoising-Zuständen umpackt. Diese Formulierung richtet die Trainingsaufmerksamkeit an der Extrapolation zur Inferenz aus und ermöglicht es, dass Verluste nachgelagerter Blöcke die Historienrepräsentationen überwachen, von denen zukünftige Vorhersagen abhängen. Weiterhin schlagen wir die Consistency-model Group Relative Policy Optimization (CM-GRPO) vor, die einen Konsistenzabtastschritt als bedingten Gauß-Übergang umformuliert und Online-Verstärkungslernen (RL) direkt auf diesen Kernel anwendet, wodurch der in früheren Flussmodell-RL-Formulierungen verwendete Euler-Maruyama-Hilfsprozess vermieden wird. Experimente zeigen, dass RAVEN aktuelle kausale Videodestillationsbaselines in Bezug auf Qualität, Semantik und Dynamikgradbewertungen übertrifft und dass CM-GRPO in Kombination mit RAVEN weitere Verbesserungen erzielt.
Multimodale große Labor-Modelle (MLLMs) haben weiterhin Schwierigkeiten mit räumlichem Verständnis unter dem vorherrschenden perspektivischen Bildparadigma, das das enge Sichtfeld der menschlichen Wahrnehmung übernimmt. Für Navigation, robotergestützte Suche und 3D-Szenenverständnis bietet die 360-Grad-Panoramaerfassung eine Form der Übererfassung, indem sie die gesamte Umgebung auf einmal erfasst. Allerdings zerlegen bestehende MLLM-Pipelines Panoramen typischerweise in mehrere perspektivische Ansichten, wobei die sphärische Struktur der äquirektangularen Projektion (ERP) weitgehend implizit bleibt. In dieser Arbeit untersuchen wir das pano-native Verständnis, das erfordert, dass ein MLLM über ein ERP-Panorama als kontinuierlichen, beobachterzentrierten Raum schlussfolgert. Dazu definieren wir zunächst die Schlüsselfähigkeiten für pano-natives Verständnis, einschließlich semantischer Verankerung, sphärischer Lokalisierung, Referenzrahmentransformation und tiefenbewusstem 3D-Raumverständnis. Anschließend bauen wir eine groß angelegte Metadaten-Erstellungspipeline auf, die gemischte ERP-Panoramen in geometriebewusste, sprachfundierte und tiefenbewusste Aufsichtsdaten umwandelt, und instanziieren diese Signale als fähigkeitsorientierte Instruktionstuning-Daten. Auf der Modellseite führen wir PanoWorld mit sphärischer räumlicher Kreuzaufmerksamkeit ein, die sphärische Geometrie in den visuellen Strom einbringt. Darüber hinaus konstruieren wir PanoSpace-Bench, einen diagnostischen Benchmark zur Bewertung des ERP-nativen räumlichen Denkens. Experimente zeigen, dass PanoWorld sowohl proprietäre als auch Open-Source-Baselines auf den Benchmarks PanoSpace-Bench, H* Bench und R2R-CE Val-Unseen deutlich übertrifft. Diese Ergebnisse belegen, dass robustes Panorama-Denken dedizierte pano-native Aufsichtsdaten und geometriebewusste Modellanpassung erfordert. Der gesamte Quellcode und die vorgeschlagenen Daten werden öffentlich verfügbar gemacht.
Speichersysteme sind entscheidend für Rollenspiel-Agenten (RPAs), um eine langfristige Konsistenz zu gewährleisten. Bestehende RPA-Speichermethoden (z. B. Profiling) stützen sich jedoch hauptsächlich auf rekursive Zusammenfassungen, deren Kompression zwangsläufig wichtige Details verwirft. Um dieses Problem zu lösen, schlagen wir ein suchbasiertes Speicherframework namens BOOKMARKS vor, das aktiv aufgabenrelevante Lesezeichen für die aktuelle Aufgabe (z. B. die Darstellung einer Figur) initialisiert, verwaltet und aktualisiert. Ein Lesezeichen ist strukturiert als Antwort auf eine Frage zu einem bestimmten Zeitpunkt in der Handlung. Für jede aktuelle Aufgabe wählt BOOKMARKS wiederverwendbare vorhandene Lesezeichen aus oder initialisiert neue (zu Beginn der Handlung) mit nützlichen Fragen. Diese Lesezeichen werden dann mit dem aktuellen Handlungspunkt synchronisiert, wobei ihre Antworten entsprechend aktualisiert werden, sodass sie in zukünftigen Verankerungsrunden effizient wiederverwendet werden können. Im Vergleich zur rekursiven Zusammenfassung bietet BOOKMARKS (1) eine aktive Verankerung zur Erfassung aufgabenspezifischer Details und (2) eine passive Aktualisierung, um unnötige Berechnungen zu vermeiden. In der Implementierung unterstützt BOOKMARKS Konzept-, Verhaltens- und Zustandssuchen, die jeweils durch eine effiziente Synchronisationsmethode ermöglicht werden. BOOKMARKS übertrifft RPA-Speicher-Basislinien bei 85 Figuren aus 16 Artefakten signifikant und demonstriert damit die Wirksamkeit suchbasierter Speicher für RPAs.
Wir verfolgen eine Vision für sich selbst verbessernde Sprachmodelle, in der das Modell nicht nur Probleme oder Abläufe zur Nachahmung erzeugt, sondern die Umgebungen konstruiert, die es trainieren. Im zero-data reasoning RL wird dadurch die Selbstverbesserung von einer Datengenerierungsschleife zu einer Umgebungskonstruktionsschleife umgestaltet, wobei jedes Artefakt ein wiederverwendbares ausführbares Objekt ist, das Instanzen abtastet, Referenzen berechnet und Antworten bewertet. Ob diese Vision eine nachhaltige Verbesserung ermöglicht, hängt von einer einzigen Eigenschaft ab: Die Umgebungen müssen eine stabile Lösen-Verifizieren-Asymmetrie aufweisen – das Modell muss in der Lage sein, einmal ein Orakel zu schreiben, das es in natürlicher Sprache bei neuen Instanzen nicht zuverlässig ausführen kann. Diese Asymmetric tritt in zwei komplementären Formen auf. Manche Aufgaben sind algorithmisch schwer zu durchdenken, aber trivial als Code: Ein dynamisches Programm oder eine Graphtraversierung, einmal kompiliert, liefert unbegrenzt viele kalibrierte Instanzen. Andere sind inhärent schwer zu lösen, aber einfach zu verifizieren, wie eingepflanzte Teilmengensummen- oder Constraint-Erfüllungsprobleme. Beide erzeugen eine dauerhafte Lücke zwischen Vorschlagen und Lösen, die die Policy nicht durch Ausnutzung des Verifizierers schließen kann, und genau diese Lücke hält die Belohnung informativ, während der Lernende sich verbessert. Wir setzen diese Sichtweise in EvoEnv um, einer Ein-Policy-Generator-, Löser-Methode, die Python-Umgebungen aus zehn Seeds synthetisiert und sie erst nach stufenweiser Validierung, semantischer Selbstüberprüfung, lösungsrelativer Schwierigkeitskalibrierung und Neuheitsprüfungen zulässt. Die stärksten Belege stammen aus dem bereits starken Regime: Bei Qwen3-4B-Thinking verringern feste öffentliche Daten-RLVR und feste handgefertigte Umgebungs-RLVR den Durchschnitt, während EvoEnv ihn von 72,4 auf 74,8 verbessert, ein relativer Gewinn von 3,3 %. Stabile Selbstverbesserung, so legen wir nahe, hängt nicht davon ab, mehr synthetische Daten zu erzeugen, sondern davon, dass Modelle lernen, Welten zu konstruieren, deren Schwierigkeit strukturell außerhalb ihrer eigenen Reichweite bleibt.
Die Erzeugung realistischer menschlicher Bewegungen ist eine zentrale, aber noch ungelöste Herausforderung in der Videogenerierung. Während Reinforcement-Learning (RL)-basiertes Post-Training zu jüngsten Fortschritten bei der allgemeinen Videoqualität geführt hat, wird seine Anwendung auf menschliche Bewegungen durch ein Belohnungssignal eingeschränkt, das die Bewegungsrealität nicht zuverlässig bewerten kann. Bestehende Videobelohnungen stützen sich hauptsächlich auf 2D-perzeptive Signale, ohne den 3D-Körperzustand, Kontakt und die Dynamik, die der artikulierten menschlichen Bewegung zugrunde liegen, explizit zu modellieren, und weisen oft hohe Bewertungen für Videos mit schwebenden Körpern oder physikalisch nicht plausiblen Bewegungen zu. Um dies zu adressieren, schlagen wir PhyMotion vor, eine strukturierte, feinkörnige Bewegungsbelohnung, die wiederhergestellte 3D-Menschentrajektorien in einem Physik-Simulator verankert und die Bewegungsqualität entlang mehrerer Dimensionen physikalischer Machbarkeit bewertet. Konkret stellen wir SMPL-Körpernetze aus generierten Videos wieder her, übertragen sie auf einen Humanoiden im MuJoCo-Physik-Simulator und bewerten die resultierende Bewegung entlang dreier Achsen: kinematische Plausibilität, Kontakt- und Gleichgewichtskonsistenz sowie dynamische Machbarkeit. Jede Komponente liefert ein kontinuierliches und interpretierbares Signal, das an einen spezifischen Aspekt der Bewegungsqualität gebunden ist, wodurch die Belohnung erfassen kann, welche Aspekte der Bewegung physikalisch korrekt sind oder verletzt werden. Experimente zeigen, dass PhyMotion eine stärkere Korrelation mit menschlichen Bewertungen erzielt als bestehende Belohnungsformulierungen. Diese Gewinne übertragen sich auf das RL-basierte Post-Training, wo die Optimierung von PhyMotion zu größeren und konsistenteren Verbesserungen führt als die Optimierung bestehender Belohnungen, wodurch die Bewegungsrealität sowohl bei autoregressiven als auch bei bidirektionalen Videogeneratoren unter automatischen Metriken und in blinder menschlicher Evaluierung (+68 Elo-Punkte) verbessert wird. Ablationsstudien zeigen, dass die drei Achsen komplementäre Überwachungssignale liefern, während die Belohnung die allgemeine Videogenerierungsqualität mit nur geringem Trainingsaufwand erhält.
On-Policy-Selbstdestillation hat sich als wirksames Rezept für das Reasoning großer Sprachmodelle (LLMs) etabliert, bei dem ein privilegierter Lehrer die eigenen Rollouts des Schülers überwacht und dabei auf die Referenzlösung konditioniert. Eine Designentscheidung, die nahezu allen derartigen Methoden gemeinsam ist, wurde jedoch nie hinterfragt: Der Lehrer sieht stets das vollständige Referenz-Reasoning. Wir argumentieren, dass diese Voreinstellung selbst Teil des Problems ist und identifizieren eine lehrerseitige Expositionsdiskrepanz: Wenn der Lehrer auf Reasoning konditioniert, das weit über die aktuelle Kompetenz des Schülers hinausgeht, werden die resultierenden Tokenziele zu stark, um absorbiert zu werden. Ein kontrollierter Durchlauf mit festgelegter Exposure verdeutlicht dies in zweierlei Hinsicht: 1) Vollständige Exposure ist nicht durchgängig die beste Wahl, und 2) die Lehrer-Schüler-Diskrepanz wächst monoton, je mehr privilegiertes Reasoning der Lehrer sieht. Dies motiviert, die Lehrer-Exposure nicht als festen Hyperparameter, sondern als lernbare Kontrollvariable zur Trainingszeit zu behandeln. Daher schlagen wir Adaptive Teacher Exposure for Self-Distillation (ATESD) vor. ATESD modelliert das Offenlegungsverhältnis mit einem leichten Beta-Policy-Controller, der auf kompakten Trainingszustandsstatistiken konditioniert ist, und verwendet eine einmal exponierte Exposure für ein kurzes Haltefenster von Schüler-Updates. Um diesen Exposure-Controller lernbar zu machen, optimieren wir ihn mit einer diskontierten Lernfortschrittsbelohnung, die jede getroffene Entscheidung anhand ihrer Auswirkungen auf die zukünftige Verbesserung des Schülers bewertet und nicht anhand der unmittelbaren Verluständerung – dies adressiert die verzögerte Kreditzuweisung, die durch On-Policy-Destillation entsteht. Experimente auf AIME 24, AIME 25 und HMMT 25 mit Qwen3-{1.7B, 4B, 8B} zeigen, dass ATESD durchweg bessere Ergebnisse erzielt als konkurrierende Self-Distillation- und RL-Baselines, mit Verbesserungen gegenüber OPSD um +0,95, +2,05 bzw. +2,33 Average@12 Punkte, und etabliert adaptive Lehrer-Exposure als wirksame neue Achse für Reasoning-Selbstdestillation.
Die Verwendung multimodaler Grundlagenmodelle zur Analyse von Tabellenbildern ist eine anspruchsvolle, aber wertvolle Anwendung in Verbraucher- und Unternehmensszenarien. Trotz ihrer Bedeutung stützen sich aktuelle Evaluierungen weitgehend auf strukturierte Texttabellen oder sauber gerenderte Bilder, sodass die visuelle Komplexität von Tabellenbildern aus der realen Welt nur unzureichend erforscht ist. Solche Bilder zeichnen sich durch unterschiedliche Layouts und vielfältige Bereiche aus, die ein anspruchsvolles Strukturverständnis und numerisches Schlussfolgern erfordern. Um diese Lücke zu schließen, führen wir WildTableBench ein, die erste Frage-Antwort-Benchmark für natürlich vorkommende Tabellenbilder aus realen Umgebungen. WildTableBench umfasst 402 Tabellenbilder mit hoher Informationsdichte, die aus Online-Foren und Websites verschiedener Bereiche gesammelt wurden, zusammen mit 928 manuell annotierten und verifizierten Fragen, die 17 Untertypen in fünf Kategorien abdecken. Wir evaluieren 21 führende proprietäre und Open-Source multimodale Grundlagenmodelle anhand dieser Benchmark. Nur ein Modell erreicht eine Genauigkeit von über 50 %, während alle übrigen Modelle zwischen 4,1 % und 49,9 % liegen. Wir führen weiterhin diagnostische Analysen durch, um Modellfehler zu charakterisieren und zeigen anhaltende Schwächen in der strukturellen Wahrnehmung und im Schlussfolgern auf. Diese Ergebnisse und Analysen liefern nützliche Einblicke in die aktuellen Modellfähigkeiten und etablieren WildTableBench als wertvolle diagnostische Benchmark für das Verständnis von Tabellenbildern.
Text-Image-Super-Resolution (Text-SR) erfordert mehr als nur visuell plausible Detailsynthese: Geringfügige Fehler in der Strich-Topologie können die Zeichenidentität verändern und die Lesbarkeit beeinträchtigen. Bestehende Methoden verbessern die Texttreue durch stärkere erkennungsbasierte oder generative Vorwissen, stehen jedoch unter starker Degradation noch vor zwei ungelösten Herausforderungen: Der aus niedrigqualitativen Eingaben extrahierte Textzustand kann selbst unzuverlässig sein, und ein plausibles globales Vorwissen bestimmt nicht vollständig die feinkörnigen Strichgrenzen. Wir stellen PRISM vor, ein Diffusions-basiertes Text-SR-Framework mit einem einzigen Schritt, das diese beiden Herausforderungen durch Flow-Matching Prior Rectification (FMPR) und einen strukturgeführten unsicherheitsbewussten Residuen-Encoder (SURE) adressiert. FMPR konstruiert ein privilegiertes Vorwissen während des Trainings aus gepaarten niedrigqualitativen/hochqualitativen latenten Repräsentationen und lernt einen Flussabgleich, der degradierte Einbettungen in diesen wiederherstellungsorientierten Vorwissensraum überführt, was eine genauere und zuverlässigere globale Textführung ermöglicht. SURE sagt zudem unsicherheitsbewusste strukturelle Residuen vorher, um zuverlässige lokale Grenzinformationen selektiv zu absorbieren und gleichzeitig mehrdeutige Strichhinweise zu unterdrücken. Zusammen ermöglichen diese Komponenten eine explizite globale Vorwissen-Rektifikation und lokale Strukturverfeinerung in einem einzigen Diffusions-Wiederherstellungsdurchlauf. Experimente sowohl auf synthetischen als auch auf realen Benchmarks zeigen, dass PRISM mit Inferenz im Millisekundenbereich eine Spitzenleistung erzielt. Unser Datensatz und Code werden unter https://github.com/faithxuz/PRISM verfügbar sein.
In dieser Arbeit untersuchen wir Lösungsoperatoren physikalischer Feldgleichungen auf geometrischen Gittern aus einer funktionalanalytischen Perspektive. Wir zeigen, dass die Hodge-Orthogonalität spektrale Interferenzen grundlegend auflöst, indem sie nicht lernbare topologische Freiheitsgrade von lernbaren geometrischen Dynamiken trennt und so eine additive Approximation ermöglicht, die auf strukturerhaltende Unterräume beschränkt ist. Aufbauend auf der Hodge-Theorie und dem Operator-Splitting leiten wir eine prinzipielle Zerlegung auf Operatorebene ab. Das Ergebnis ist eine hybride Euler-Lagrange-Architektur mit einer induktiven Verzerrung auf algebraischer Ebene, die wir als Hodge-Spektral-Dualität (HSD) bezeichnen. In unserem Rahmenwerk verwenden wir diskrete Differentialformen zur Erfassung topologisch dominierter Komponenten und einen orthogonalen Hilfsraum zur Darstellung komplexer lokaler Dynamiken. Unsere Methode erzielt überlegene Genauigkeit und Effizienz auf geometrischen Graphen bei verbesserter Wiedergabetreue physikalischer Invarianten. Unser Code ist verfügbar unter https://github.com/ContinuumCoder/Hodge-Spectral-Duality.
Latentes Fluss-Matching zur Bilderzeugung transportiert üblicherweise Gaußsches Rauschen entlang linearer Pfade zu Variational-Autoencoder-Latents. Beide Endpunkte konzentrieren sich jedoch in dünnen sphärischen Schalen, und eine euklidische Sehne verlässt diese Schalen selbst dann, wenn eine Vorverarbeitung ihre Radien angleicht. Durch die Zerlegung jedes latenten Tokens in radiale und Winkelkomponenten zeigen wir mittels Komponententausch-Sonden, dass die dekodierten wahrnehmungsbezogenen und semantischen Inhalte überwiegend durch die Richtung getragen werden, während der Radius einen weitaus geringeren Beitrag leistet. Daher projizieren wir Daten-Latents auf einen festen Token-Radius, verwenden die radiale Projektion des Gaußschen Rauschens als sphärische Prior, stimmen den Decoder bei eingefrorenem Encoder fein ab und ersetzen die lineare Interpolation durch sphärische lineare Interpolation. Die resultierenden geodätischen Pfade bleiben zu jedem Zeitschritt auf der Sphäre, und ihre Geschwindigkeitsziele sind konstruktionsbedingt rein winkelmäßig. Bei vergleichbarem Training verbessert die Methode konsistent den klassenbedingten ImageNet-256 FID über verschiedene Bild-Tokenizer hinweg, lässt die Diffusionsarchitektur unverändert und erfordert weder einen Hilfs-Encoder noch ein Repräsentationsabgleichsziel.
Die Bewertung von instruktionsgesteuerten Bildbearbeitungen erfordert Belohnungen, die subtile menschliche Präferenzen widerspiegeln. Aktuelle Belohnungsmodelle sind jedoch typischerweise auf groß angelegte Präferenzannotationen und zusätzliches Modelltraining angewiesen. Dies führt zu einer Daten-Effizienzlücke: Menschen können die angestrebten Bewertungskriterien oft anhand weniger Beispiele ableiten, während Modelle üblicherweise mit Hunderttausenden von Vergleichen trainiert werden. Wir stellen RewardHarness vor, ein selbstevolvierendes agentisches Belohnungsframework, das die Modellierung von Belohnungen als Kontextevolution und nicht als Gewichtsoptimierung neu definiert. Anstatt aus groß angelegten Annotationen zu lernen, passt sich RewardHarness an menschliche Präferenzen an, indem es iterativ eine Bibliothek von Werkzeugen und Fähigkeiten aus nur 100 Präferenz-Demonstrationen weiterentwickelt. Gegeben ein Quellbild, bearbeitete Kandidatenbilder und eine Bearbeitungsanweisung wählt ein Orchestrator die relevanteste Teilmenge von Werkzeugen und Fähigkeiten aus der gepflegten Bibliothek aus, und ein eingefrorener Sub-Agent nutzt diese, um eine Argumentationskette zu konstruieren, die ein Präferenzurteil erzeugt. Durch den Vergleich vorhergesagter Urteile mit Ground-Truth-Präferenzen sowie die Analyse von Erfolgen und Misserfolgen im Argumentationsprozess verfeinert der Orchestrator automatisch seine Bibliothek von Werkzeugen und Fähigkeiten, ohne zusätzliche menschliche Annotationen. Unter Verwendung von nur 0,05 % der EditReward-Präferenzdaten erreicht RewardHarness eine durchschnittliche Genauigkeit von 47,4 % auf Bildbearbeitungs-Bewertungsbenchmarks und übertrifft GPT-5 um 5,3 Prozentpunkte. Wenn als Belohnungssignal für die GRPO-Feinabstimmung verwendet, erzielen RL-abgestimmte Modelle einen Wert von 3,52 auf dem ImgEdit-Bench. Projektseite: https://rewardharness.com.
KI-Agenten werden zunehmend in dynamischen, offenen Umgebungen eingesetzt, die eine Anpassung an neu eintreffende Informationen erfordern. Um diese Fähigkeit für realistische Anwendungsfälle effizient zu messen, schlagen wir den Aufbau fundierter Simulationen vor, die reale Ereignisse in der Reihenfolge ihres Auftretens wiedergeben. Wir entwickeln FutureSim, in dem Agenten Weltereignisse jenseits ihrer Wissensgrenze vorhersagen, während sie mit einer chronologischen Wiedergabe der Welt interagieren: echte Nachrichtenartikel, die eintreffen, und Fragen, die sich über den simulierten Zeitraum hinweg klären. Wir bewerten führende Agenten in ihrem nativen Rahmen und testen ihre Fähigkeit, Weltereignisse über einen Zeitraum von drei Monaten von Januar bis März 2026 vorherzusagen. FutureSim zeigt eine deutliche Trennung ihrer Fähigkeiten: Die Genauigkeit des besten Agenten beträgt 25 %, und viele weisen einen schlechteren Brier-Skill-Score auf, als gar keine Vorhersage zu treffen. Durch sorgfältige Ablationen zeigen wir, wie FutureSim eine realistische Umgebung bietet, um aufkommende Forschungsrichtungen wie langfristige Testzeit-Anpassung, Suche, Gedächtnis und Schlussfolgerungen über Unsicherheit zu untersuchen. Insgesamt hoffen wir, dass unser Benchmark-Design den Weg ebnet, um den Fortschritt der KI bei offener Anpassung über lange Zeiträume in der realen Welt zu messen.
Die Erzeugung einer 3D-Szene auf Straßenebene aus einem einzelnen Satellitenbild ist eine entscheidende, aber anspruchsvolle Aufgabe. Aktuelle Methoden zeigen einen deutlichen Zielkonflikt: Geometrie-Kolorierungsmodelle erreichen eine hohe geometrische Genauigkeit, sind jedoch typischerweise auf Gebäude fokussiert und weisen keine semantische Vielfalt auf. Im Gegensatz dazu nutzen Proxy-basierte Modelle Feed-Forward-Bild-zu-3D-Frameworks, um ganzheitliche Szenen durch gemeinsames Lernen von Geometrie und Textur zu erzeugen – ein Prozess, der reichhaltige Inhalte, aber grobe und instabile Geometrie liefert. Wir führen diese geometrischen Fehler auf die extreme Blickwinkellücke und die spärliche, inkonsistente Überwachung zurück, die Satelliten-zu-Straße-Daten innewohnen. Wir stellen Sat3DGen vor, um diese grundlegenden Herausforderungen anzugehen, das eine Geometrie-zuerst-Methodik verkörpert. Diese Methodik verbessert das Feed-Forward-Paradigma, indem sie neuartige geometrische Randbedingungen mit einer Perspektivenansicht-Trainingsstrategie integriert und explizit den Hauptquellen geometrischer Fehler entgegenwirkt. Diese geometriezentrierte Strategie führt zu einem dramatischen Sprung sowohl in der 3D-Genauigkeit als auch im Fotorealismus. Zur Validierung haben wir zunächst einen neuen Benchmark erstellt, indem wir den VIGOR-OOD-Testdatensatz mit hochauflösenden DSM-Daten kombiniert haben. In diesem Benchmark verbessert unsere Methode den geometrischen RMSE von 6,76 m auf 5,20 m. Entscheidend ist, dass dieser geometrische Sprung auch den Fotorealismus steigert und die Fréchet Inception Distance (FID) von 40 auf 19 im Vergleich zur führenden Methode Sat2Density++ reduziert, obwohl keine zusätzlich maßgeschneiderten Bildqualitätsmodule verwendet werden. Wir demonstrieren die Vielseitigkeit unserer hochwertigen 3D-Assets durch verschiedene nachgelagerte Anwendungen, darunter semantische Karte-zu-3D-Synthese, Multi-Kamera-Videogenerierung, großflächige Vernetzung und unüberwachte Einzelbild-Digital Surface Model (DSM)-Schätzung. Der Code wurde auf https://github.com/qianmingduowan/Sat3DGen veröffentlicht.
Omni-modale Sprachmodelle sollen Audio-, visuelle Eingaben und Sprache gemeinsam verstehen, doch die Verbesserungen in Benchmarks können überhöht sein, wenn bereits visuelle Beweise allein ausreichen, um eine Abfrage zu beantworten. Wir untersuchen, ob aktuelle omni-modale Benchmarks visuelle Abkürzungen von einer echten audio-visuell-sprachlichen Evidenzintegration trennen und wie sich Post-Training unter einem visuell entstörten Evaluierungssetting verhält. Wir prüfen neun omni-modale Benchmarks mit rein visuellen Sondierungsmethoden, entfernen visuell lösbare Abfragen und behalten vollständige Teilmengen bei, wenn Filterung undefiniert ist oder Vergleiche instabil machen würde. Dies ergibt OmniClean, eine bereinigte Evaluierungssicht mit 8.551 beibehaltenen Abfragen aus 16.968 geprüften Abfragen. Auf OmniClean evaluieren wir OmniBoost, eine dreistufige Post-Training-Methode basierend auf Qwen2.5-Omni-3B: gemischtes bi-modales SFT, gemischtes Modalitäts-RLVR und SFT auf selbst-destillierten Daten. Ausgewogenes bi-modales SFT bringt begrenzte und ungleichmäßige Gewinne, RLVR liefert die erste breite Verbesserung, und Selbstdistillation formt das Benchmark-Profil um. Nach SFT auf selbst-destillierten Daten erreicht das 3B-Modell eine Leistung, die mit Qwen3-Omni-30B-A3B-Instruct vergleichbar und aggregiert leicht überlegen ist, ohne einen stärkeren omni-modalen Lehrer zu verwenden. Diese Ergebnisse zeigen, dass omni-modaler Fortschritt leichter interpretierbar ist, wenn die Evaluierung visuelle Leckagen kontrolliert, und dass kleine omni-modale Modelle von stufenweisem Post-Training mit selbst-destillierter Omni-Abfrage-Supervision profitieren können. Projektseite: https://cheliu-computation.github.io/omni/
Wir untersuchen die zeitliche Verkettung von Teilpolitiken in Markov-Entscheidungsprozessen (MDP) mit zeitvariierenden Belohnungsfunktionen. Wir führen General Dijkstra Search (GDS) ein und beweisen, dass global optimale zielerreichende Politiken durch zeitliche Komposition zwischenzeitlich optimaler Teilpolitiken wiederhergestellt werden können. Motiviert durch das „Suchen, Auswählen, Aktualisieren“-Prinzip, das GDS zugrunde liegt, schlagen wir Dynamic Latent Routing (DLR) vor, eine Nachtrainingsmethode für Sprachmodelle, die gemeinsam diskrete latente Codes, Routing-Politiken und Modellparameter durch dynamische Suche in einer einzigen Trainingsphase lernt. In Einstellungen mit wenigen Daten zum Feintuning erreicht DLR in vier Datensätzen und sechs Modellen eine vergleichbare oder bessere Leistung als überwachtes Feintuning, mit einem durchschnittlichen Zugewinn von +6,6 Prozentpunkten, während frühere diskret-latente Basislinien durchweg schlechter abschneiden als SFT. Mechanistische Analysen und gezielte Code-Ablationen zeigen, dass DLR strukturierte Routing-Verhaltensweisen mit unterschiedlichen kausalen Rollen erlernt.
Wir stellen ein neues computergestütztes Framework zur Erkennung und Strukturierung manipulativer politischer Narrative vor – eine Aufgabe, die durch die Verlagerung politischer Diskussionen in soziale Medien an Bedeutung gewonnen hat. Eine der zentralen Herausforderungen besteht dabei in der Unterscheidung zwischen manipulativen politischen Narrativen und legitimer Kritik. Manche Beiträge können zudem tatsächliche Ereignisse in einen manipulativen Kontext umrahmen. Um gute Clusterergebnisse zu erzielen, filtern wir manipulative Beiträge vorab mithilfe eines detaillierten Few-Shot-Prompts, der dokumentierte Kampagnennarrative mit legitimer Kritik kombiniert, um diese zu unterscheiden. Dieser Prompt befähigt ein Reasoning-Modell zur Zuweisung von Labels, sodass nur Beiträge mit manipulativen Narrativen für die weitere Verarbeitung erhalten bleiben. Die verbleibenden Beiträge werden anschließend eingebettet und mittels UMAP dimensionsreduziert, bevor HDBSCAN angewendet wird, um narrative Gruppen aufzudecken. Ein wesentlicher Vorteil dieses unüberwachten Ansatzes ist seine Unabhängigkeit von einer vordefinierten Liste von Zielkategorien, was die Entdeckung neuer narrativer Cluster ermöglicht. Schließlich wird ein Reasoning-Modell eingesetzt, um das Narrativ hinter jedem Cluster zu entschlüsseln. Dieser Ansatz, angewandt auf über 1,2 Millionen Social-Media-Beiträge, identifizierte effektiv 41 unterschiedliche manipulative Narrativecluster, indem er promptbasierte Filterung mit unüberwachtem Clustering kombinierte.
Wahlen stellen einen entscheidenden Meilenstein in der fortlaufenden Entwicklung einer Nation dar. Um die politische Rhetorik verschiedener Strömungen – von links bis rechts – besser zu verstehen, schlagen wir ein Transformer-basiertes Modell vor, das die politische Ausrichtung eines Textes auf einem kontinuierlichen Links-Rechts-Spektrum projizieren kann, dargestellt durch einen normalisierten Skalar d zwischen -1 und 1. Dieser Ansatz ermöglicht es Analysten, sich auf bestimmte Segmente der politischen Landschaft zu konzentrieren, etwa auf Konservative, während liberale und rechtsextreme Bewegungen ausgeschlossen werden. Eine solche Aufgabe ist nur mit Multiklassen-Klassifikatoren zu bewältigen, sofern die gewünschte Ausrichtung in einer ihrer vordefinierten Klassen enthalten ist. Um das am besten geeignete Basismodell unter 13 Kandidaten-Transformern für diese Aufgabe zu ermitteln, erstellten wir vier verschiedene Korpora. Ein Korpus bestand aus annotierten Plenarprotokollen des Deutschen Bundestages, ein weiteres basierte auf dem offiziellen Online-Entscheidungstool Wahl-O-Mat. Das dritte Korpus umfasste Artikel aus 33 Zeitungen, die jeweils nach ihrer politischen Ausrichtung identifiziert wurden, und das vierte enthielt 535.200 Tweets von 597 Abgeordneten des 20. und 21. Deutschen Bundestages. Zur Vermeidung von Überanpassung verwendeten wir zwei verschiedene Korpora für das Training bzw. zwei für das Testen. Für die leistungsbezogene Domäne erzielte DeBERTa-large den höchsten F1-Wert (F1=0,844) sowie für den domänenfremden Test auf X (Twitter) eine ACC von 0,864. Hinsichtlich des domänenfremden Tests mit Zeitungen übertraf Gemma2-2B (MAE = 0,172). Diese Studie zeigt, dass Transformer-Modelle politische Framing in deutschen Nachrichten auf dem Niveau von Meinungsumfragen erkennen können. Unsere Ergebnisse deuten darauf hin, dass sowohl die Modellarchitektur als auch die Verfügbarkeit domänenspezifischer Trainingsdaten ebenso einflussreich sein können wie die Modellgröße für die Schätzung des politischen Bias. Wir diskutieren methodische Einschränkungen und skizzieren Richtungen zur Verbesserung der Robustheit von Bias-Messungen.
Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat große Erfolge bei der Entwicklung großer Sprachmodelle (LLMs) mit Chain-of-Thought-Rollouts für viele Aufgaben wie Mathematik und Programmierung erzielt. Dennoch hat RLVR Schwierigkeiten mit der Stichprobeneffizienz bei schwierigen Problemen, bei denen korrekte Rollouts schwer zu generieren sind. Frühere Arbeiten schlagen vor, dieses Problem durch demonstrationsgestütztes RLVR zu lösen, d. h. durch überwachtes Feintuning (SFT), wenn RL scheitert; allerdings erfordert SFT oft große Datenmengen, deren Beschaffung teuer sein kann. In diesem Papier schlagen wir FEST vor, einen demonstrationsgestützten RLVR-Algorithmus mit wenigen Beispielen (Few-Shot). Er erzielt überzeugende Ergebnisse mit nur 128 zufällig aus einem SFT-Datensatz ausgewählten Demonstrationen. Wir stellen fest, dass drei Komponenten für den Erfolg entscheidend sind: das überwachte Signal, das On-Policy-Signal und fallende Gewichte auf den Few-Shot-SFT-Datensatz, um Overfitting durch mehrfaches Epochentraining zu verhindern. Auf mehreren Benchmarks übertrifft FEST Baseline-Verfahren mit deutlich weniger SFT-Daten und erreicht sogar deren Leistung mit dem vollständigen Datensatz.
Generative Videomodelle werden zunehmend als implizite Weltmodelle untersucht, doch die Bewertung, ob sie physikalisch plausible 3D-Strukturen und Bewegungen erzeugen, bleibt eine Herausforderung. Die meisten bestehenden Videoauswertungspipelines stützen sich stark auf menschliche Urteile oder erlernte Bewerter, was subjektiv sein und geometrische Fehler nur schwach diagnostizieren kann. Wir stellen PDI-Bench (Perspective Distortion Index) vor, ein quantitatives Rahmenwerk zur Prüfung der geometrischen Kohärenz in generierten Videos. Ausgehend von einem generierten Clip gewinnen wir objektzentrierte Beobachtungen mittels Segmentierung und Punktverfolgung (z. B. SAM 2, MegaSaM und CoTracker3), heben diese mittels monokularer Rekonstruktion in 3D-Weltkoordinaten an und berechnen eine Reihe von Residuen der projektiven Geometrie, die drei Fehlerdimensionen erfassen: Skalen-Tiefen-Abgleich, 3D-Bewegungskonsistenz und 3D-Struktursteifigkeit. Zur Unterstützung einer systematischen Evaluation erstellen wir PDI-Dataset, das verschiedene Szenarien abdeckt, die diese geometrischen Randbedingungen beanspruchen. Bei modernsten Videogeneratoren deckt PDI konsistente geometriespezifische Fehlermodi auf, die von gängigen perzeptuellen Metriken nicht erfasst werden, und liefert ein diagnostisches Signal für Fortschritte hin zu physikalisch fundierter Videogenerierung und physikalischen Weltmodellen. Unser Code und Datensatz sind verfügbar unter https://pdi-bench.github.io/.
Industrielle LLM-Agentensysteme trennen häufig die Planung von der Ausführung, dennoch erzeugen LLM-Planer regelmäßig strukturell ungültige oder unnötig lange Arbeitsabläufe, was zu anfälligen Fehlern sowie vermeidbaren Werkzeug- und API-Kosten führt. Wir stellen SPIN vor, einen Planungs-Wrapper, der validierte Planung mit gerichteten azyklischen Graphen (DAG) mit präfixbasierter Ausführungssteuerung kombiniert. SPIN erzwingt einen strikten DAG-Vertrag durch die Methode `_validate_plan_text` und Reparatur-Prompting, erzeugt vor der nachgelagerten Ausführung ausführbare Pläne und bewertet anschließend DAG-Präfixe inkrementell, um anzuhalten, sobald das aktuelle Präfix zur Beantwortung der Anfrage ausreicht. In AssetOpsBench reduziert SPIN über 261 Szenarien die ausgeführten Aufgaben von 1061 auf 623 und verbessert Accomplished von 0,638 auf 0,706, während die Werkzeugaufrufe pro Durchlauf von 11,81 auf 6,82 sinken. In MCP Bench verbessert der gleiche Wrapper die Bewertungen für Planung, Grundierung und Abhängigkeitsaspekte sowohl bei GPT OSS1 als auch bei Llama 4 Maverick.
Mixture-of-Experts (MoE)-Architekturen verbessern die Effizienz großer Sprachmodelle, indem sie pro Token nur eine Teilmenge der Experten aktivieren. Das standardmäßige MoE verwendet jedoch eine feste Top-K-Routingstrategie, was zu redundanter Berechnung und suboptimaler Inferenzlatenz führt. Bestehende Beschleunigungsmethoden erfordern entweder kostspieliges Neutraining mit Architekturänderungen oder leiden aufgrund von Trainings-Inferenz-Diskrepanz bei hoher Sparsity unter einem starken Leistungsabfall. Um diese Einschränkungen zu überwinden, schlagen wir BEAM (Binary Expert Activation Masking) vor, eine neuartige Methode, die token-adaptive Expertenauswahl durch trainierbare binäre Masken lernt. Mit einem Straight-Through-Schätzer und einem zusätzlichen Regularisierungsverlust induziert BEAM dynamische Expertensparsity durch End-to-End-Training, während die Modellfähigkeit erhalten bleibt. Zudem implementieren wir einen effizienten benutzerdefinierten CUDA-Kernel für BEAM, der eine nahtlose Integration mit dem vLLM-Inferenzframework gewährleistet. Experimente zeigen, dass BEAM über 98% der ursprünglichen Modellleistung beibehält, während die FLOPs der MoE-Schicht um bis zu 85% reduziert werden, was eine bis zu 2,5-mal schnellere Dekodierung und einen 1,4-mal höheren Durchsatz ermöglicht. Dies belegt seine Wirksamkeit als praktische Plug-and-Play-Lösung für effiziente MoE-Inferenz.
Während KI-Agenten von Chat-Schnittstellen zu Systemen übergehen, die private Daten lesen, Werkzeuge aufrufen und mehrstufige Arbeitsabläufe ausführen, werden Schutzmechanismen zur letzten Verteidigungslinie gegen konkrete Einsatzrisiken. In diesen Umgebungen sind Fehler der Schutzmechanismen nicht mehr bloße Antwortqualitätsfehler: Sie können Geheimnisse preisgeben, unsichere Aktionen autorisieren oder legitime Arbeit blockieren. Die schwierigsten Fehler sind oft kontextabhängig: Ob eine Aktion akzeptabel ist, hängt von lokalen Datenschutznormen, Organisationsrichtlinien und Nutzererwartungen ab, die sich einer vor dem Einsatz festgelegten Spezifikation widersetzen. Dies schafft eine praktische Lücke: Schutzmechanismen müssen sich an ihre eigene Betriebsumgebung anpassen, doch das Feedback aus dem Einsatz ist typischerweise auf spärliche, verrauschte, von Nutzern gemeldete Fehler beschränkt, und wiederholtes Feintuning ist oft unpraktikabel. Um diese Lücke zu schließen, schlagen wir LiSA (Lifelong Safety Adaptation) vor, ein konservatives Policy-Induktionsframework, das eine feste Basis-Schutzvorrichtung durch strukturiertes Gedächtnis verbessert. LiSA wandelt gelegentliche Fehler in wiederverwendbare Policy-Abstraktionen um, sodass spärliche Berichte über Einzelfälle hinaus verallgemeinern können, fügt konfliktbewusste lokale Regeln hinzu, um Überverallgemeinerung in gemischten Kontexten zu verhindern, und wendet eine evidenzbewusste Konfidenzsteuerung über eine untere A-posteriori-Schranke an, sodass die Gedächtnisnutzung mit der akkumulierten Evidenz skaliert, nicht allein mit der empirischen Genauigkeit. Über PrivacyLens+, ConFaide+ und AgentHarm hinweg übertrifft LiSA bei spärlichem Feedback durchgängig starke gedächtnisbasierte Basislinien, bleibt auch bei verrauschtem Nutzerfeedback mit Label-Flip-Raten von bis zu 20 % robust und verschiebt die Latenz-Performance-Grenze über das reine Backbone-Modell-Scaling hinaus. Letztlich bietet LiSA einen praktischen Weg, um KI-Agenten gegen den unvorhersehbaren langen Schwanz realweltlicher Randrisiken abzusichern.
Trotz rasanter Fortschritte verlassen sich aktuelle Text-zu-Bild-Modelle (T2B) überwiegend auf ein Ein-Schritt-Generierungsparadigma, das bei komplexer Semantik Schwierigkeiten hat und mit zunehmender Parameterskalierung abnehmende Erträge verzeichnet. Während neuere Mehrschritt-Ansätze mit Reasoning vielversprechend erscheinen, werden sie durch unbegründete Planungshalluzinationen ohne Verifikation, monolithische nachträgliche Reflexion, Instabilitäten bei der Optimierung langer Kontexte und eine prohibitiv hohe Inferenzlatenz behindert. Um diese Engpässe zu überwinden, schlagen wir das Closed-Loop Visual Reasoning (CLVR)-Framework vor, ein umfassendes System, das visuell-sprachliches logisches Planen mit diffusionsbasierter Pixelerzeugung tief koppelt. CLVR führt eine automatisierte Datenengine mit schrittweiser visueller Verifikation ein, um zuverlässige Reasoning-Trajektorien zu synthetisieren, und schlägt Proxy Prompt Reinforcement Learning (PPRL) vor, um Instabilitäten bei der Optimierung langer Kontexte zu beheben, indem verschachtelte multimodale Verläufe in explizite Belohnungssignale für eine genaue kausale Attribuierung destilliert werden. Um zudem den durch iteratives Denoising verursachten gravierenden Latenzengpass zu mildern, führen wir das theoretisch fundierte Δ-Space Weight Merge (DSWM) ein, das Alignment-Gewichte mit handelsüblichen Destillations-Priors fusioniert und so die Kosten pro Schritt auf nur 4 NFEs senkt, ohne dass eine teure erneute Destillation erforderlich ist. Umfangreiche Experimente belegen, dass CLVR bestehende Open-Source-Baselines über mehrere Benchmarks hinweg übertrifft und sich der Leistung proprietärer kommerzieller Modelle annähert, wodurch allgemeine Testzeit-Skalierungsfähigkeiten für die komplexe visuelle Generierung erschlossen werden.
Gesprächsbetrug, wie Liebes- und Investitionsbetrug, entwickelt sich zu einer bedeutenden Form von Online-Betrug. Im Gegensatz zu einmaligen Betrugsködern wie gefälschten Lotterie- oder unbezahlten Mautnachrichten entfalten sie sich durch mehrere Gesprächsrunden, in denen Betrüger die Opfer mithilfe sich entwickelnder psychologischer Techniken allmählich manipulieren. Die bestehende Forschung konzentriert sich jedoch hauptsächlich auf die statische Betrugserkennung oder synthetische Betrugsfälle, sodass offen bleibt, ob Sprachmodelle verstehen können, wie reale Betrugsfälle im Laufe der Zeit fortschreiten. Wir stellen PreScam vor, einen Benchmark zur Modellierung des Betrugsverlaufs anhand früher Gespräche. PreScam basiert auf von Nutzern eingereichten Betrugsmeldungen und filtert und strukturiert 177.989 Rohmeldungen zu 11.573 Gesprächsbetrugsfällen aus 20 Betrugskategorien. Jeder Fall ist hierarchisch nach dem Betrugslebenszyklus aufgebaut, der durch die vorgeschlagene Betrugs-Kill-Chain definiert ist, und auf Gesprächsebene mit psychologischen Handlungen des Betrügers und Opferreaktionen annotiert. Wir benchmarken Modelle anhand zweier Aufgaben: der Echtzeit-Abschlussvorhersage, die schätzt, ob ein Gespräch sich der Abschlussphase nähert, und der Vorhersage der Betrügeraktionen, die die nächsten Handlungen des Betrügers prognostiziert. Die Ergebnisse zeigen eine deutliche Lücke zwischen oberflächlicher Sprachgewandtheit und Verlaufsmodellierung: überwachte Encoder übertreffen Zero-Shot-LLMs bei der Echtzeit-Abschlussvorhersage deutlich, während die Vorhersage der nächsten Aktion selbst für starke LLMs nur mäßig erfolgreich bleibt. Insgesamt zeigen diese Ergebnisse, dass aktuelle Modelle einige betrugsrelevante Hinweise erfassen können, jedoch immer noch Schwierigkeiten haben, nachzuvollziehen, wie das Risiko eskaliert und wie die Manipulation über Gesprächsrunden hinweg verläuft.
Zeitreihenprognose ist nicht bloß numerische Extrapolation, sondern erfordert oft die Verarbeitung unstrukturierter kontextueller Daten wie Nachrichten oder Ereignisse. Während spezialisierte Time Series Foundation Models (TSFMs) hervorragend auf der Grundlage numerischer Muster prognostizieren können, bleiben sie gegenüber realen textuellen Signalen ignorant. Umgekehrt sind LLMs zwar als Nullschuss-Prognostiker im Kommen, doch ihre Leistung ist je nach Domäne und kontextueller Verankerung ungleichmäßig. Um diese Lücke zu schließen, stellen wir Nexus vor, ein Multi-Agenten-Prognoseframework, das die Vorhersage in spezialisierte Phasen zerlegt: Isolierung makro- und mikromorphologischer zeitlicher Schwankungen, Integration kontextueller Informationen, sofern verfügbar, und Synthese einer endgültigen Prognose. Diese Zerlegung ermöglicht es Nexus, sich von saisonalen Signalen bis hin zu volatilen, ereignisgesteuerten Informationen anzupassen, ohne dabei auf externe statistische Anker oder monolithisches Prompting angewiesen zu sein. Wir zeigen, dass aktuelle LLMs eine wesentlich stärkere intrinsische Prognosefähigkeit besitzen als bisher anerkannt, was entscheidend davon abhängt, wie numerische und kontextuelle Argumentation organisiert sind. Bewertet auf Daten, die strikt nach den Wissensgrenzen der LLMs liegen, einschließlich Zillow-Immobilienkennzahlen und volatilen Aktienmärkten, erreicht Nexus durchgängig eine gleichwertige oder bessere Leistung als hochmoderne TSFMs und starke LLM-Baselines. Über die numerische Genauigkeit hinaus erzeugt Nexus hochwertige Argumentationsketten, die explizit die grundlegenden Treiber hinter jeder Prognose aufzeigen. Unsere Ergebnisse belegen, dass Prognosen in der realen Welt ein agentisches Argumentationsproblem darstellen, das weit über die reine Sequenzmodellierung hinausgeht.
Wir stellen CurveBench vor, einen Benchmark für hierarchisches topologisches Denken auf der Grundlage visueller Eingaben. CurveBench umfasst 756 Bilder von paarweise nicht schneidenden Jordan-Kurven in leichten, polygonalen, topografie-inspirierten, labyrinthartigen sowie dichten Zählkonfigurationen. Jedes Bild ist mit einem Wurzelbaum annotiert, der die Enthaltenseinsbeziehungen zwischen ebenen Regionen kodiert. Wir formulieren die Aufgabe als strukturierte Vorhersage: Ein Modell muss aus einem Bild den vollständigen Wurzelbaum der Enthaltenseinsbeziehungen rekonstruieren, der durch die Kurven induziert wird. Trotz der visuellen Einfachheit der Aufgabe erreicht das stärkste evaluierte Modell, Gemini 3.1 Pro, nur 71,1 % Baumgenerierungsgenauigkeit auf CurveBench-Easy und 19,1 % auf CurveBench-Hard. Wir demonstrieren den Nutzen des Benchmarks weiterhin durch RLVR-artiges Feintuning von Open-Weight-Vision-Language-Modellen. Unser trainiertes Qwen3-VL-8B-Modell verbessert sich gegenüber Qwen-3-VL-8B-Thinking von 2,8 % auf 33,3 % Baumgenerierungsgenauigkeit auf CurveBench-Easy und übertrifft damit GPT-5.4 und Claude Opus 4.5 gemäß unserem Evaluierungsprotokoll. Die verbleibende Lücke, insbesondere bei CurveBench-Hard, zeigt, dass exaktes topologiebewusstes visuelles Denken noch lange nicht gelöst ist.
Vision-Language-Action (VLA)-Modelle erzielen bemerkenswerte Flexibilität und Generalisierung über klassische Kontrollparadigmen hinaus. Allerdings werden die meisten gängigen VLAs unter einem Einzelbild-Beobachtungsparadigma trainiert, was sie strukturell blind für zeitliche Dynamiken macht. Folglich verschlechtern sich diese Modelle in nicht-stationären Szenarien erheblich, selbst wenn sie auf dynamischen Datensätzen trainiert oder feinabgestimmt werden. Bestehende Ansätze erfordern entweder teures Nachtraining oder leiden unter Latenzengpässen und schlechter zeitlicher Konsistenz über Aktionsblöcke hinweg. Wir schlagen Pace-and-Path Correction vor, einen trainingsfreien, geschlossen lösbaren Operator zur Inferenzzeit, der jeden VLA mit chunk-basierten Aktionen umhüllt. Aus einer einzigen quadratischen Kostenfunktion führt die gemeinsame Minimierung zu einer einheitlichen Lösung, die sich orthogonal in zwei getrennte Kanäle zerlegen lässt. Der Pace-Kanal komprimiert die Ausführung entlang der geplanten Richtung, während der Path-Kanal einen orthogonalen räumlichen Versatz anwendet, wodurch gemeinsam die wahrgenommenen Dynamiken innerhalb des Chunk-Fensters absorbiert werden. Wir evaluieren unseren Ansatz auf einem umfassenden diagnostischen Benchmark MoveBench, der darauf ausgelegt ist, Bewegung als einzige kontrollierte Variable zu isolieren. Empirische Ergebnisse zeigen, dass unser Framework durchgängig modernste trainingsfreie Wrapper und dynamisch-adaptive Methoden übertrifft und die Erfolgsraten um bis zu 28,8% bzw. 25,9% in absoluten Werten gegenüber grundlegenden VLA-Modellen in rein dynamischen bzw. statisch-dynamischen gemischten Umgebungen verbessert.