Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wissenschaftliche Abbildungen gehören zu den effektivsten Mitteln, um komplexe Forschungsideen zu vermitteln, doch die Erstellung publikationsreifer Illustrationen bleibt einer der arbeitsintensivsten Teile der Manuskripterstellung. Existierende automatisierte Systeme zielen jeweils auf einen einzigen Abbildungstyp unter reiner Texteingabe ab und lassen die Vielfalt der tatsächlich von Forschern genutzten Typen und Bedingungen unberücksichtigt; ihre Rasterausgaben können zudem nicht lokal überarbeitet werden. Da wissenschaftliche Abbildungen strukturierte Kompositionen diskreter semantischer Komponenten sind, erfordern die lokalisierten Fehler, die Generatoren bei solchen Layouts produzieren, nicht ein leistungsfähigeres Backend, sondern eine Steuerungsarchitektur. Wir setzen diese Architektur in zwei komplementären Systemen um: Crafter, ein Multi-Agenten-Steuerungsrahmenwerk zur Abbildungsgenerierung, das ohne Architekturänderungen über Abbildungstypen und Eingabebedingungen hinweg generalisiert, und CraftEditor, das dasselbe Muster anwendet, um Rasterausgaben in editierbare SVGs zu überführen. Darüber hinaus führen wir CraftBench ein, einen Benchmark, der drei Abbildungstypen und vier Eingabebedingungen mit menschlicher Qualitätsannotation abdeckt. Experimente zeigen, dass Crafter sowohl eigenständige Generatoren als auch die agentische Baseline auf PaperBanana-Bench und CraftBench deutlich übertrifft, wobei Ablationsstudien den unabhängigen Beitrag jeder Komponente bestätigen; CraftEditor wandelt Ausgaben originalgetreu in editierbare SVGs um, die alle Baselines übertreffen. Unser Code und Benchmark sind verfügbar unter https://github.com/HaozheZhao/Crafter.
Parametereffizientes Feintuning (PEFT) wird in der Regel als kostengünstigere Alternative zum vollständigen Feintuning betrachtet. Wir untersuchen eine breitere Rolle: kleine trainierbare Adapter als persistenter lokaler Zustand über leistungsstarken, gemeinsam genutzten Basismodellen. In diesem Rahmen stellt das Basismodell eine gemeinsame Kompetenz bereit, während die Adapter instanzspezifisches Verhalten tragen, wie etwa Präferenzen, Fähigkeiten, Werkzeuggewohnheiten und gedächtnisähnliche Aktualisierungen. Wir gliedern das Problem entlang dreier Skalierungsachsen: Hochskalierung, bei der stärkere gemeinsame A-priori-Wissen kleine lokale Aktualisierungen nützlicher macht; Herunterskalierung, bei der wir untersuchen, wie klein Adapter sein können, während sie zuverlässig bleiben; und Ausweitung, bei der viele persistente adaptierte Instanzen nebeneinander existieren. MinT bietet ein Beispiel für eine Infrastruktur zur Verwaltung von Adapter-Identität, Revision, Herkunft, Evaluierung und Serving-Residenz. Zusammengenommen deuten die Ergebnisse darauf hin, dass PEFT ein kompaktes Substrat für persistente persönliche Modelle darstellen kann und nicht nur einen kostengünstigen Ersatz für vollständiges Feintuning.
Mit zunehmenden Fähigkeiten von Agenten werden bestehende Benchmarks wie τ^2-Bench zunehmend gesättigt. Dennoch bleibt die Konstruktion neuer Benchmark-Aufgaben komplex, kostspielig und arbeitsintensiv. Darüber hinaus erfasst der Standardansatz, bei dem Szenarien zunächst in natürlicher Sprache verfasst und dann auf Werkzeugsequenzen abgebildet werden, nur einen geringen Teil der von Agenten genutzten Werkzeugmuster. In diesem Beitrag adressieren wir diese Probleme, indem wir den Aufgabenkonstruktionsprozess umkehren. Wir schlagen TASTE: Task Synthesis from Tool Sequence Evolution vor, eine automatische Methode zur Erzeugung anspruchsvoller Aufgaben mit breiterem Werkzeugabdeckungsgrad. TASTE nutzt ein adaptives kontrastives n-Gramm-Modell, das auf von LLM beurteilten Gültigkeitssignalen trainiert wird. Dies ermöglicht das Sampling gültiger Werkzeugsequenzen, die eine Vielzahl von Werkzeugkombinationen abdecken. TASTE wählt anschließend repräsentative Sequenzen aus dem Pool mittels Clustering aus, instanziiert sie zu vollständigen Benchmark-Aufgaben und verfeinert sie durch iterative Schwierigkeitsentwicklung. Mit TASTE konstruieren wir τ^c-Bench, eine anspruchsvolle Erweiterung der drei Domänen von τ^2-Bench. Wir evaluieren 11 Agenten/Benutzer-LLM-Paare und stellen fest, dass Modelle, die τ^2-Bench nahezu sättigen, auf unseren Aufgaben erhebliche Leistungseinbußen erleiden (z. B. fällt Gemini-3-Flash von 0,82–0,94 auf 0,28–0,61). Über die erhöhte Schwierigkeit hinaus verdoppelt sich bei unseren generierten Aufgaben die Anzahl der eindeutigen Werkzeugkombinationen, die Agenten ausführen müssen. Unsere Ergebnisse deuten darauf hin, dass hohe Punktzahlen auf bestehenden Benchmarks oft eher auf Sättigung als auf robuste Aufgabenlösungsfähigkeit zurückzuführen sind. Durch die Automatisierung der Erzeugung schwieriger, abdeckungsreicher Benchmarks ermöglicht TASTE eine kontinuierliche, skalierbare Bewertung zukünftiger Agenten.
Die Bewertung von Grenzmodellen verlagert sich von grundlegenden Fähigkeiten (z. B. Befolgungsfähigkeit und logisches Denken) hin zu kompositionalen, agentischen Fähigkeiten, doch koreanische agentische Benchmarks sind nach wie vor rar. Wir stellen K-BrowseComp vor, einen auf das Browsen im Web ausgerichteten Agenten-Benchmark, der im koreanischen Kontext verankert ist und aus 400 Aufgaben besteht. Die 300 Aufgaben umfassende Teilmenge K-BrowseComp-Verified wurde manuell von muttersprachlichen Koreanern erstellt und validiert. In dieser Teilmenge erreichen Grenzmodelle wie GPT-5.5, DeepSeek-V4-Pro und GLM-5.1 lediglich 30,00–45,67 % – ein deutlicher Rückgang gegenüber BrowseComp – während koreanische LLMs, die über das südkoreanische Programm für proprietäre KI-Basismodelle (Korea’s Proprietary AI Foundation Model program) veröffentlicht wurden, nur 0,00–10,33 % erzielen. Darüber hinaus konstruieren wir eine synthetische Teilmenge mit 100 Aufgaben unter Verwendung harter Few-Shot-Beispiele und einer auf Fehlermodi abzielenden Generierung, um die Asymmetrie zwischen dem Lösen und dem Erstellen von Web-Browsing-Aufgaben auszunutzen. Auf der adversariell gefilterten synthetischen Diagnoseteilmenge erreicht das stärkste Modell nur 26,00 %; wir weisen diese Teilmenge separat als gezielten Stresstest aus. Wir veröffentlichen unsere Daten und unseren Code öffentlich.
Suchagenten werden häufig als Strategien über wachsende Transkripte hinweg trainiert: Das Modell muss entscheiden, wie es suchen soll, während es sich gleichzeitig daran erinnert, was es gesehen hat, welche Beweise nützlich sind, welche Einschränkungen noch offen sind und welche Behauptungen tatsächlich überprüft wurden. Wir argumentieren, dass diese Formulierung zu viel routinemäßige Zustandsverwaltung in die Strategie legt: Das bestärkende Lernen wird gezwungen, sowohl semantische Suchentscheidungen als auch wiederherstellbare Buchführung zu optimieren, die die Umgebung zuverlässiger verwalten kann. Wir stellen Harness-1 vor, einen 20B großen Suchagenten (Retrieval-Unteragent), der mit bestärkendem Lernen in einem zustandsbehafteten Such-Harness trainiert wurde. Der Harness verwaltet ein umgebungsseitiges Arbeitsgedächtnis, das einen Kandidatenpool, eine mit Wichtigkeit markierte kuratierte Sammlung, kompakte Beweisverknüpfungen, Verifikationsaufzeichnungen, komprimierte und deduplizierte Beobachtungen sowie eine budgetbewusste Kontextdarstellung umfasst. Die Strategie behält die semantischen Entscheidungen: wonach gesucht werden soll, welche Dokumente behalten oder verworfen werden sollen, was überprüft werden soll und wann angehalten werden soll. Über acht Retrieval-Benchmarks aus den Bereichen Web, Finanzen, Patente und Multi-Hop-QA erreicht Harness-1 eine durchschnittliche kuratierte Trefferquote von 0,730, übertrifft den nächststärksten offenen Such-Unteragenten um +11,4 Punkte und bleibt wettbewerbsfähig mit deutlich größeren Frontier-Modell-Suchern. Seine Gewinne sind besonders stark bei zurückgehaltenen Transfer-Benchmarks, was darauf hindeutet, dass bestärkendes Lernen über explizite Suchzustände Retrieval-Verhalten hervorbringen kann, das über die Trainingsdomänen hinaus generalisiert. Unser Code ist verfügbar unter https://github.com/pat-jj/harness-1.
Spekulative Dekodierung beschleunigt die Inferenz großer Sprachmodelle, indem ein Zielmodell mit einem leichten Entwurfsmodell kombiniert wird, dessen vorgeschlagene Token parallel verifiziert werden. Eine gängige Methode zur Erstellung von Entwurfsmodellen wie EAGLE-3 oder DFlash ist das überwachte Feintuning (SFT) auf zielgenerierten Trajektorien. Wir beobachten jedoch, dass SFT schnell ein Plateau erreicht: Die Akzeptanzlänge des Entwurfsmodells bei Testdaten verbessert sich nicht mehr. Der Grund ist eine Offline-zu-Inferenz-Diskrepanz: Beim SFT lernt das Entwurfsmodell aus festen, zielgenerierten Trajektorien, während es während der spekulativen Dekodierung auf Blöcken evaluiert wird, die unter seiner eigenen Policy vorgeschlagen wurden. Dies motiviert die On-Policy-Destillation (OPD), bei der das Zielmodell das Entwurfsmodell auf entwurfsinduzierten Zuständen überwacht. Dennoch bleibt OPD für Entwurfsmodelle schwierig, da sie keine vollständigen Sequenzen zuverlässig eigenständig durchführen können, während die zielunterstützte Generierung dazu führt, dass die gesammelten Sequenzen der Zielverteilung folgen und somit das On-Policy-Signal eliminieren. Daher schlagen wir Draft-OPD vor, das eine zielunterstützte Durchführung für stabile Fortsetzungen nutzt und das Entwerfen von den verifikations-exponierten Fehlerpositionen wiederholt. Dies ermöglicht es dem Entwurfsmodell, aus Zielrückmeldungen sowohl über akzeptierte als auch über abgelehnte Vorschläge zu lernen, wobei das Training auf die entwurfsinduzierten Fehler fokussiert wird, die die spekulative Akzeptanz einschränken. Experimente zeigen, dass Draft-OPD für Denkmodelle bei verschiedenen Aufgaben eine über 5-fache verlustfreie Beschleunigung erreicht und damit eine Verbesserung von 23 % bzw. 13 % gegenüber EAGLE-3 und DFlash erzielt.
Spekulatives Decodieren beschleunigt die Inferenz von LLMs, indem mehrere Token entworfen und parallel mit dem Zielmodell verifiziert werden. Allerdings wird seine praktische Beschleunigung durch die Abwägung zwischen Entwurfsqualität und Entwurfskosten eingeschränkt: Autoregressive Entwurfsmodelle modellieren kausale Abhängigkeiten zwischen den Entwurfstoken, verursachen jedoch sequentiellen Overhead, während parallele Entwurfsmodelle die Entwurfskosten senken, aber die Modellierung von Abhängigkeiten innerhalb eines Blocks schwächen. In dieser Arbeit schlagen wir Domino vor, ein Framework für spekulatives Decodieren, das die Modellierung kausaler Abhängigkeiten von der teuren autoregressiven Entwurfsausführung entkoppelt. Domino verwendet zunächst ein paralleles Entwurfs-Backbone, um vorläufige Entwurfsverteilungen für den gesamten Block zu erzeugen, und wendet dann einen leichten Domino-Head an, um diese mit präfixabhängigen kausalen Informationen zu verfeinern. Um die lehrergesteuerte kausale Kodierung zu stabilisieren, führen wir weiterhin ein basisverankertes Trainingscurriculum ein, das zunächst das parallele Backbone stärkt und dann die Optimierung schrittweise in Richtung der kausal korrigierten endgültigen Verteilung verlagert. Experimente mit Qwen3-Modellen zeigen, dass Domino unter dem Transformers-Backend eine End-to-End-Beschleunigung von bis zu \(5.49\times\) und unter SGLang-Serving eine Durchsatzbeschleunigung von bis zu \(5.8\times\) erreicht.
Wasserzeichen betten statistische Signaturen in KI-generierten Text ein, um Erkennung und Zuordnung zu ermöglichen. Wir decken eine grundlegende Schwachstelle auf: Wenn Nutzer auf mehrere Modelle zugreifen (der heutigen Realität), versagen Wasserzeichen trivialerweise. Wasserzeichen verschieben die Ausgabeverteilungen von der ursprünglichen Verteilung, und in wettbewerblichen Märkten sind diese Störungen typischerweise über die Anbieter hinweg unabhängig. Wir beweisen theoretisch, dass die Mittelung der Ausgabewahrscheinlichkeitsverteilungen die nicht mit Wasserzeichen versehene Verteilung bis auf einen Fehlerterm zweiter Ordnung wiederherstellt. Empirisch gesehen heben bereits 3–5 gemittelte Modelle diese Störungen auf. Wir führen WASH (Watermark Attenuation via Statistical Hybridisation) ein, das praktische Herausforderungen bei der Ensemblierung löst: Vokabularinkongruenz und Tokenisierungsunterschiede zwischen heterogenen Modellen. Experimente mit sechs Wasserzeichenverfahren und drei LLMs zeigen, dass die Mittelung über 3 Modelle die Detektions-z-Werte von 5–300 auf unter 2 (unter dem Erkennungsschwellenwert von 4) senkt, die TPR bei 5 % FPR auf unter 50 % reduziert, die Qualität um 27,5 % verbessert und bei der Erzeugung langer Sequenzen 6-mal schneller läuft als die beste Basislinie. Unsere Ergebnisse legen nahe, dass eine robuste KI-Text-Erkennung durch Wasserzeichen entweder die Akzeptanz dieser grundlegenden Schwachstelle oder eine beispiellose Koordination zwischen den Modellanbietern erfordert.
Die standardmäßige Vorhersage des nächsten Tokens (Next-Token Prediction, NTP) überwacht Sprachmodelle ausschließlich über diskrete Labels im Ausgabelogit-Raum. Wir argumentieren, dass diese spärliche One-Hot-Überwachung den latenten Repräsentationsraum unterbestimmt lässt, sodass verborgene Zustände in entartete und anisotrope Konfigurationen abdriften können, die die Generalisierung einschränken. Um dieses Problem zu lösen, schlagen wir die Nächste-Implizite-Token-Vorhersage (Next Implicit Token Prediction, NITP) vor, die die diskrete Vorhersage um eine dichte kontinuierliche Überwachung direkt im Repräsentationsraum ergänzt. NITP trainiert das Modell, den impliziten semantischen Inhalt des nächsten Tokens vorherzusagen, indem Repräsentationen aus flachen Schichten desselben Modells als stabile selbstüberwachte Ziele verwendet werden. Wir liefern eine theoretische Analyse, die zeigt, dass NITP die Optimierungslandschaft regularisiert, indem es unterbestimmte Freiheitsgrade reduziert und eine kompakte, strukturierte Repräsentationsgeometrie fördert. Empirisch verbessert NITP bei dichten Modellen und MoE-Modellen mit 0,5 Mrd. bis 9 Mrd. Parametern konsistent die nachgelagerte Leistung bei vernachlässigbarem zusätzlichem Rechenaufwand. Bei einem 9B-MoE-Modell erreicht NITP eine absolute Verbesserung von 5,7 % auf MMLU-Pro sowie Zugewinne von 6,4 % auf C3 und 4,3 % auf CommonsenseQA, bei etwa 2 % zusätzlichen Trainings-FLOPs und ohne zusätzliche Inferenzkosten. Unsere Implementierung ist verfügbar unter https://github.com/aHapBean/NITP.
Das aktuelle "Reasoning with Video"-Paradigma nutzt Videogenerierungsmodelle (VGMs), um zeitlich kohärente visuelle Trajektorien zur Lösung von Reasoning-Aufgaben zu erzeugen. Obwohl hochmoderne VGMs in der visuellen Qualität herausragend sind, fällt es ihnen oft schwer, aufgabenspezifische Regeln zu verstehen und zu befolgen, was zu logischen Fehlern in verschiedenen Reasoning-Szenarien führt. Bisherige Bemühungen versuchen, Vision-Language-Modelle (VLM) als Problemlöser vorab einzusetzen, um textuelle Anleitungen für das VGM zu erstellen oder zu verfeinern. Allerdings gelingt es textuellen Beschreibungen nicht, komplexe raumzeitliche Details zu erfassen, und VGMs haben oft Schwierigkeiten, feinkörnige oder langschwänzige Anweisungen selbst bei einem gültigen Plan getreu auszuführen. Während VLMs als Löser Schwierigkeiten haben, besitzen sie starke Wahrnehmungsfähigkeiten, um die Einhaltung von Prozessbeschränkungen und das Erreichen des Endziels zu bewerten. Diese Stärke nutzend, führen wir einen Paradigmenwechsel ein, der die Rolle von VLMs zu "Lehrern" wandelt. Konkret extrahiert ein VLM-Lehrer aufgabenspezifische Regeln, um differenzierbare Belohnungen zu formulieren, und leitet einen VGM-Reasoner durch eine Online-Optimierung eines leichten LoRA-Moduls zur Testzeit an. Diese Strategie ermöglicht eine adaptive Optimierung zur Testzeit und erweitert die Reasoning-Fähigkeiten über die intrinsischen Grenzen des VGM hinaus. Evaluierungen auf symbolischen (VBVR-Bench) und allgemeinen (RULER-Bench) Video-Reasoning-Benchmarks zeigen, dass die vorgeschlagene Methode einen durchschnittlichen Leistungsgewinn von 16,7 Punkten erzielt und damit das VLM-als-Löser-Paradigma (+0,4 Punkte) und Best-of-N-Skalierung (+2,2 Punkte) bei vergleichbaren Testzeitkosten deutlich übertrifft. Diese Ergebnisse zeigen, dass die Integration von VLMs als Testzeit-Lehrer ein vielversprechendes Paradigma für die Erzielung von generalisierbarem Video-Reasoning bietet. Projektseite: https://VLM-as-Teacher.github.io/
Obwohl das Verständnis von Videostreams bedeutende Fortschritte gemacht hat, erfordern reale Anwendungen wie Live-Sportübertragungen, autonomes Fahren und Multi-Screen-Kollaboration inhärent kontinuierliche, streamübergreifende Interaktionen. Allerdings beschränken sich bestehende Benchmarks auf Einzelstrom-Paradigmen, was eine kritische Lücke bei der Bewertung von Online-Stream-übergreifendem Denken hinterlässt. Um diese zu schließen, stellen wir X-Stream vor, den ersten Benchmark, der sich dem Verständnis von Multi-Stream-Streaming widmet. Mit 4.220 sorgfältig kuratierten Frage-Antwort-Paaren aus 932 Videos bewertet X-Stream 11 Teilaufgaben in Multi-Fenster-, Multi-Ansichts- und Multi-Geräte-Szenarien. Entscheidend ist, dass unser Datensatz mithilfe einer neuartigen Dual-Verifikations-Pipeline erstellt wird, die eine übermäßige Abhängigkeit von einem einzelnen Stream verhindert. Des Weiteren führen wir erstmals die Konzeptualisierung multimodaler großer Sprachmodelle (MLLMs) als naive Multiplexer ein und bewerten systematisch ihre Leistung durch die Brille der Signal-Multiplexing-Theorie. Unsere umfangreichen Online-Inferenzexperimente offenbaren eine deutliche Realität: Modernste MLLMs haben erhebliche Schwierigkeiten mit gleichzeitigen Streams, erreichen nur etwa 50 % der Punkte und zeigen eine schlechte proaktive Fähigkeit. Letztendlich deckt X-Stream den Trade-off aktueller Multiplexing-Schemata auf und bietet sowohl ein praktisches Bewertungsprotokoll als auch empirische Leitlinien für die nächste Generation von Multi-Stream-Agenten.
Kausale Videodiffusion mit langem Ausrollen hat sich auf einen KV-Cache mit festem Schiebefenster konzentriert, wobei jüngste Fortschritte innerhalb dieses Layouts dadurch erzielt wurden, dass entweder geändert wurde, welche Tokens das Fenster belegen oder wie ihre Positionen kodiert werden. Das KV-Layout pro Kopf selbst, ein dominanter Faktor für den Speicher- und Latenzbedarf im Streaming-Modus, blieb weitgehend unverändert. In diesem Beitrag präsentieren wir die erste Untersuchung von Multi-Head Latent Attention (MLA) in der Videodiffusion. VideoMLA ersetzt die Schlüssel und Werte pro Kopf durch ein gemeinsames niedrigrangiges Inhalts-Latent und einen gemeinsamen entkoppelten 3D-RoPE-Positionsschlüssel, wodurch der KV-Speicher pro Token in jeder gecachten Schicht um 92,7 % reduziert wird. Darüber hinaus untersuchen wir, warum MLA in der Videodiffusion erfolgreich ist, obwohl die spektrale Annahme, die in Sprachmodellen oft zu seiner Motivation dient, nicht zutrifft: Vorab trainierte Videoaufmerksamkeit ist nicht niedrigrangig, mit einem effektiven Rang bei 99 % Energie, der weit über jeder praktischen latenten Dimension liegt. VideoMLA erhält die Qualität bei Kompressionsverhältnissen, bei denen eine direkte spektrale Approximation einen großen Rekonstruktionsfehler vorhersagen würde. Wir zeigen, dass der MLA-Engpass und nicht das vorab trainierte Spektrum den effektiven Rang bestimmt: Sowohl spektrale als auch zufällige Initialisierung belegen nahezu das gesamte Rangbudget ab der Initialisierung, und das Training bewahrt dieses Budget, während es sich innerhalb dessen anpasst. Auf VBench erreicht VideoMLA vergleichbare Ergebnisse mit Baselines für kurzfristiges Streaming von Videodiffusion, erzielt die beste Gesamtbewertung bei langen Horizonten unter den evaluierten Methoden und verbessert den Durchsatz um das 1,23-Fache auf einer einzelnen B200.
Agenten großer Sprachmodelle (LLMs) verlassen sich zunehmend auf wiederverwendbare externe Fähigkeiten, um langfristige interaktive Aufgaben zu lösen. Existierende trainingsfreie Pipelines zur Fähigkeitsanpassung aktualisieren Fähigkeiten in der Regel anhand vollständiger Trajektorien oder Rückmeldungen auf Sitzungsebene, was die Fehlerzuordnung grob macht und oft instabile oder zu weit gefasste Überarbeitungen erzeugt. Wir schlagen SkillAdaptor vor, ein trainingsfreies Framework zur schrittweisen Fähigkeitsanpassung mit expliziter Fehlerzuordnung, das in Agenten-Harnesses der OpenClaw-Klasse integriert werden kann. Bei einer fehlgeschlagenen Trajektorie identifiziert SkillAdaptor den ersten handhabbaren Fehlerschritt, weist die Verantwortung Kandidatenfähigkeiten zu und führt gezielte Aktualisierungen unter expliziten Akzeptanzprüfungen durch, während das Grundmodell eingefroren bleibt. Wir evaluieren auf WebShop, PinchBench und Claw-Eval mit Kimi-K2.5, GLM-5 und GPT-5.2. SkillAdaptor verbessert sich gegenüber den Basislinien ohne Fähigkeiten und mit Fähigkeitsanpassung in allen drei Testumgebungen, mit den größten Einzelmetrikverbesserungen von +1,5 Punkten beim PinchBench-Durchschnittswert %, +1,8 beim Claw-Eval-Durchschnittswert und +1,7 bei der WebShop-Erfolgsrate. Diese Ergebnisse zeigen, dass die schrittweise Zuordnung eine stabilere und auditierbare trainingsfreie Fähigkeitswartung unterstützt. Der Code wird unter https://github.com/zjunlp/SkillAdaptor veröffentlicht.
Der Mensch kann den in einem Zielbild vorgegebenen Blickwinkel durch aktive Kopf- und Körperbewegungen reproduzieren, während die räumliche Intelligenz von Foundation-Modellen bislang vor allem als passives Verständnis vorab gesammelter Beobachtungen untersucht wurde. Wir führen die Zielblickwinkelreproduktion (Target Viewpoint Reproduction, TVR) ein – eine aktive Aufgabe, bei der ein Agent seinen Blickwinkel in einer 3D-Umgebung so anpasst, bis seine Beobachtung mit einem vorgegebenen Zielbild übereinstimmt – sowie TVRBench, einen Indoor-Simulationsbenchmark, der die Szenengröße und den visuellen Reichtum des Zielblicks umfasst. TVR ist bei Weitem nicht gelöst: Im Evaluierungssplit erreichen die stärksten Open-Source- und Closed-Source-Modelle lediglich 7,8 % bzw. 12,0 % Erfolg. Eine detaillierte Analyse identifiziert zwei durchgängige Engpässe: Standardmodelle tun sich mit mehrschrittiger visueller Historie schwer, und die Leistung fällt stark ab, wenn die Blickwinkelreproduktion eine Körpertranslation anstelle einer Drehung vor Ort erfordert – eine Lücke bei der Abbildung räumlicher Diskrepanzen auf verkörperte Bewegung wird offengelegt. Um diese Lücke zu verkleinern, bauen wir ein einheitliches TVR-Posttraining-Framework auf, das Expertentrajektorien-SFT, rationaleüberwachte CoT-SFT, offline Single-turn-GRPO und On-Policy-Multi-turn-GRPO aus Live-Simulator-Rollouts umfasst. Die visuell-aktionsbasierte SFT liefert den Hauptgewinn und steigert einen 9B-Open-Source-Modell auf 50,8 % Erfolg; Multi-turn-GRPO bietet eine gezielte Multi-Room-Verfeinerung und erreicht insgesamt 51,4 %, während CoT-Überwachung und Single-turn-GRPO die Closed-Loop-Leistung verschlechtern. Diese Ergebnisse etablieren TVRBench als Testumgebung zur Messung und zum Training von Foundation-Modellen, die in 3D-Umgebungen aktiv wahrnehmen und handeln. Unser Code, Daten und Modelle sind verfügbar unter https://github.com/aim-uofa/TVRBench.
Räumliche Intelligenz erfordert visuelle Repräsentationen, die sowohl semantische Objekte als auch geometrische Strukturen in der physischen Welt erfassen. Um dies zu unterstützen, werden heute zwei wichtige Pre-Training-Schemata als grundlegende Backbones weit verbreitet eingesetzt: Vision-Language-Modelle (VLMs), die Sprachüberwachung nutzen, um visuelle Beobachtungen mit semantischen Konzepten abzugleichen, und Video-Generierungsmodelle (VGMs), die aus zeitlich sich entwickelnden visuellen Welten lernen. Es bleibt jedoch unklar, welches Pre-Training-Schema ein besseres Repräsentationssubstrat für räumliche Intelligenz bietet. In dieser Arbeit präsentieren wir die erste systematische Frozen-Feature-Probing-Studie von VLMs und VGMs entlang dreier repräsentativer Achsen räumlicher Intelligenz: semantisches Tagging, Instanzen-Gruppierung und 3D-Geometrie-Vorhersage. Mithilfe des leichtgewichtigen Probes ermöglicht unser Framework einen kontrollierten Vergleich darüber, welche Informationen bereits in den eingefrorenen Repräsentationen der beiden Modellfamilien kodiert sind. Die experimentellen Ergebnisse zeigen eine klare Komplementarität: VLMs sind stärker im semantischen Tagging und in der Instanzen-Gruppierung, während VGMs zugänglichere Signale für dichte Geometrie und Kamerabewegung liefern. Darüber hinaus liefert eine naive Fusion der beiden bereits eine Repräsentation, die sowohl in Geometrie als auch in Semantik herausragt, was auf eine vielversprechende Richtung für den Aufbau stärkerer Raumintelligenz-Backbones durch effektive Integration von Merkmalen aus beiden Modellfamilien hindeutet. Unser Code ist verfügbar unter https://github.com/om-ai-lab/Probing-VLM-VGM.
Langzeit-Suchagenten sammeln über viele Tool-Aufrufe hinweg große Mengen abgerufener Inhalte an, wodurch die Effizienz des Kontextbudgets zunehmend an Bedeutung gewinnt. Ein minimaler Eingriff besteht darin, veraltete Beobachtungen aus dem Kontext zu maskieren, während sich die Trajektorie entwickelt. Es bleibt jedoch unklar, wann diese Form der Kontextverwaltung hilft und warum. Wir untersuchen die Beobachtungsmaskierung mittels einer systematischen Analyse über verschiedene Agenten-Backbones (4B bis 284B Parameter) und drei Retriever hinweg anhand von Offline- und Live-Web-Agentic-Search-Benchmarks. Wir stellen fest, dass der Genauigkeitsgewinn durch Maskierung einer asymmetrischen, umgekehrten U-Form folgt, wenn man ihn gegen die Genauigkeit des Modells ohne Kontextverwaltung aufträgt: ein Plateau bei schwachen Retrivern, ein Höhepunkt, wenn ein starker Retriever auf ein Modell mittlerer Kapazität trifft, und ein scharfer Einbruch, wenn das Modell gesättigt ist. Dieses Muster spiegelt das Zusammenspiel von Retriever-Recall und der impliziten Filterkapazität des Modells wider und nicht einen der beiden Faktoren isoliert. Mechanistisch betrachtet setzt die Maskierung einen Token-gegen-Zug-Kompromiss um: Sie entfernt Beobachtungen, auf die das Modell größtenteils aufgehört hat zu achten, sowie Seiten, die der Agent selten wieder öffnet. Die hinzugefügten Züge helfen, wenn sie Fehlschläge in Erfolge verwandeln, schlagen jedoch fehl, wenn die Maskierung Beweise entfernt, die das Modell ansonsten genutzt hätte. Daher betrachten wir die Kontextverwaltung als eine regimesabhängige Intervention und bieten eine ganzheitliche Perspektive zur Analyse der Kontextnutzung bei agentischem Deep Search. Wir veröffentlichen unser Scaffold und die Trajektorien hier (https://github.com/i-DeepSearch/observation-masking), um zukünftige Forschung zu unterstützen.
Wenn ein großes Sprachmodell unter bestärkendem Lernen früh in einer Trajektorie einen falschen Denkschritt ausführt, zwingen Standardalgorithmen es dazu, bis zum maximalen Horizont weiter zu generieren, wobei Rechenleistung für Tokens aufgewendet wird, die niemals eine positive Belohnung erhalten, und die Schätzwerte des Vorteils durch Nachfehler-Rauschen verunreinigt werden. Wir schlagen ESPO (Early-Stopping Proximal Policy Optimization) vor, das Trajektorienfehler während der Generierung erkennt und Rollouts vorzeitig beendet. Bei jedem Generierungsschritt berechnet ESPO einen Ersatz-Regret unter ausschließlicher Verwendung der bereits während des Samplings berechneten Logits und bricht ab, wenn der geglättete kumulative Regret seine geschätzten Werte signifikant überschreitet. Abgebrochene Trajektorien werden als absorbierende Fehlerzustände mit einer terminalen Belohnung behandelt, wodurch negative Temporal-Difference (TD)-Fehler in der Nähe des erkannten Fehlerschritts konzentriert werden, ohne dass ein zusätzliches Belohnungsmodell oder menschliche Annotation erforderlich ist. Auf DeepSeek-R1-Distill-Qwen-7B, trainiert für mathematisches Denken, übertrifft ESPO PPO auf AIME 2024 (46,28 % gegenüber 45,25 %), AMC 2023 (85,83 % gegenüber 82,94 %) und MATH-500 (87,42 % gegenüber 85,43 %) und spart dabei kumulativ mehr als 20 % der Rollout-Tokens.
Multi-Agent-LLM-Workflows leiten Inferenzen über spezialisierte Rollen, um die Genauigkeit der Endaufgabe zu steigern, doch das gemeinsame Training dieser Rollen mit Reinforcement Learning ist auf bisher kaum verstandene Weise instabil. Wir untersuchen, unter welchen Bedingungen ein End-to-End-RL-Training von Multi-Agent-LLM-Workflows die Basis-Modelle verbessert, und vergleichen Shared-Policy-Training (alle Rollen aktualisieren eine gemeinsame Policy) mit Isolated-Policy-Training (jede Rolle verfügt über eigene Parameter). Unsere experimentelle Matrix umfasst die Workflows Eval-Opt, Voting und Orch-Workers, mathematische und Programmieraufgaben sowie drei Modellgrößen (0,6B, 1,7B, 4B). Wir stellen fest, dass Multi-Agent-RL die Basis-Modelle meist verbessert, die Gewinne jedoch gemeinsam von Workflow, Aufgabe und Skalierung abhängen – nicht allein von der Policy-Sharing-Strategie. Isolated-Policy erzielt tendenziell eine höhere Spitzengenauigkeit, stürzt jedoch häufiger von einer akkuraten Endkluft ab, während Shared-Policy-Training das Scheitern nicht beseitigt, sondern es in qualitativ andere Muster umverteilt. Anschließend erklären wir die stärksten dieser Muster durch rollenbezogene Gradientendynamiken, die durch die Workflow-Topologie und das Policy-Routing bedingt sind: Unter Isolated-Policy verstärken parallele gleichartige Rollen bei gemeinsamen Prompts die Gradienten pro Rolle und treiben in Voting- und Orch-Workers-Workflows eine terminale Verschlechterung voran; unter Shared-Policy führt die asymmetrische Gradientenmasse pro Schritt dazu, dass die gemeinsame Policy von der dominierenden Rolle eingenommen wird, was je nach Aufgabe und Workflow unterschiedliche Fehlerbilder erzeugt. Zusammengenommen zeigen die empirische Landkarte und ihre zugrundeliegenden Mechanismen, dass Policy-Sharing den Trainingsdruck über unterschiedliche Kanäle umleitet, statt gleichmäßige Stabilität zu bieten, und somit eine Designentscheidung darstellt, die mit workflow- und aufgabenabhängigen Kompromissen verbunden ist.
Das Model Context Protocol (MCP) hat sich als transformierender Standard für die Verbindung großer Sprachmodelle (Large Language Models, LLMs) mit externen Datenquellen und Werkzeugen etabliert und wurde in persönlichen Anwendungen sowie auf Entwicklungsplattformen rasch übernommen. Allerdings konzentrieren sich vorhandene Benchmarks vorrangig auf generische informationssuchende Werkzeuge und erfassen nicht die praktischen Herausforderungen, die persönliche soziale Anwendungen mit sich bringen, bei denen Werkzeuge mit individuellen Konten oder lokalen Datenbanken interagieren. Um diese entscheidende Lücke zu schließen, führen wir MCP-Persona ein, den ersten Benchmark, der speziell für die Bewertung der Agentenleistung in realen, personalisierten MCP-Werkzeugen konzipiert ist. MCP-Persona umfasst eine vielfältige Auswahl weit verbreiteter Anwendungen, von Social-Media-Plattformen wie Reddit und Xiaohongshu (Rednote) bis hin zu Unternehmenskollaborations-Suiten wie Lark (Feishu) und Slack. Unsere umfangreichen Experimente mit verschiedenen hochmodernen (State-of-the-Art, SOTA) Agenten zeigen deren erhebliche Schwierigkeiten bei der Nutzung personalisierter Werkzeuge und unterstreichen damit die entscheidende Rolle des Benchmarks bei der Identifizierung und Behebung dieser Einschränkungen. MCP-Persona ist öffentlich verfügbar unter https://github.com/wwh0411/MCP-Persona.
Dichte Selbstaufmerksamkeit ist der Rechen- und Qualitätsengpass bei der Inferenz von Langvideo-Diffusion: Die Kosten wachsen quadratisch mit der Sequenzlänge, und jenseits des Trainingshorizonts konvergiert das Modell zu einer nahezu statischen Ausgabe, also zu einem „eingefrorenen“ sich wiederholenden Video. Ansätze nach dem Stand der Technik sind entweder zu kostspielig, z. B. erfordern sie ein Nachtraining, oder sie erfüllen weder Leistungs- noch Qualitätsziele in skalierbarer Weise. Zu diesem Zweck führen wir Long Video Sparse Attention (LVSA) ein, eine trainingsfreie, modellunabhängige blockweise dünnbesetzte Aufmerksamkeit für Video-Diffusion-Transformer, die ein strukturiertes Fenstermuster mit rotierenden globalen Ankern kombiniert und so den festen Gitterbias beseitigt, der zeitliche Artefakte über große Entfernungen verursacht. LVSA reduziert in Kombination mit einem FlashInfer-Kernel den Rechenaufwand im Vergleich zu dichter Aufmerksamkeit um bis zu 3,17x bei Wan 2.1 1.3B bei einem 6-fachen Horizont, um 2,98x bei Wan 2.1 14B bei einem 6-fachen Horizont und um 3,33x bei HunyuanVideo 1.5 bei einem 1,5-fachen Horizont. Über die Reduzierung des Rechenaufwands hinaus ermöglicht LVSA die Generierung von HunyuanVideo 1.5 bei einem 2-fachen Horizont, was ansonsten auf einer einzelnen GPU zu einem Speicherüberlauf führen würde. Darüber hinaus bietet LVSA Beschleunigungen von bis zu 2,41x im Vergleich zu RIFLEx und 3,27x im Vergleich zu UltraViCo auf Wan 2.1 1.3B. Um die Anwendbarkeit auf verschiedenen Plattformen zu demonstrieren, wenden wir LVSA auf NPUs an und erzielen im Vergleich zu dichter Aufmerksamkeit Beschleunigungen von bis zu 2,71x bei Wan 2.2 A14B und 3,24x bei Wan 2.1 1.3B. Um die Qualität fair zu bewerten, führen wir VQeval ein, ein Werkzeug, das sich wiederholende Videofehler korrekt bewertet, die stattdessen in Evaluatoren nach dem Stand der Technik wie VBench-Long belohnt werden. LVSA ist qualitätsneutral bei Generierung mit Trainingshorizontlänge und qualitätssteigernd bei verlängerten Längen.
In offenen Umgebungen ist Exploration grundlegend für autonome Agenten, doch aktuelle Sprachmodellagenten haben damit Schwierigkeiten. Effektive Exploration erfordert Gedächtnis, aber die Speicherung roher Interaktionsverläufe ist über lange Trajektorien hinweg rechenintensiv. Während latentes Gedächtnis eine Lösung zur Komprimierung von Interaktionsverläufen bietet, fehlen ihm zuverlässige Aufsichtssignale für das Training. Wir stellen Joint Agent Memory and Exploration Learning (JAMEL) vor, ein Framework, das agentisches Gedächtnis und Explorationspolitik gemeinsam durch neuheitsgetriebene Interaktion trainiert. Wir beobachten, dass Gedächtnis und Exploration eine gegenseitig abhängige Schleife bilden: anhaltende Exploration erfordert Gedächtnis, um erschöpfte Verhaltensweisen von ungesehenen zu unterscheiden, während neuheitssuchende Interaktion die Aufsicht bietet, die nötig ist, um Gedächtnis für zukünftige Exploration nützlich zu machen. Durch die Nutzung deterministischer und persistenter Neuheitssignale wie Codeabdeckung im GUI-Bereich bieten wir natürliche, annotationsfreie Aufsicht für das Gedächtnismodul. Empirische Evaluierungen zeigen, dass JAMEL erfolgreich auf unbekannte Umgebungen generalisiert. Seine Explorationsfähigkeit übertrifft Open-Weight-Baselines und erreicht die Explorationstiefe eines Closed-Source-Modells bei reduziertem Token-Verbrauch. Unser Code und Modell sind unter https://github.com/MobileLLM/JAMEL als Open Source verfügbar.
Autoregressive (AR) Videodiffusion ermöglicht die Synthese variabler Längen, doch die Generierung über lange Horizonte leidet häufig unter akkumulierten Fehlern und Identitätsdrift. Aus Effizienzgründen verwenden bestehende Methoden während der Generierung üblicherweise eine gleitende Fensteraufmerksamkeit (Sliding-Window-Attention). Dies erzeugt eine irreversible Generierungstrajektorie: Sobald das aktive Fenster Erscheinungsfehler akkumuliert, können nachfolgende Generierungen nur auf dieser degradierten Trajektorie konditionieren und noch weiter abweichen. Wir beheben diese Einschränkung, indem wir die lange Videogenerierung als ein retrievalgestütztes Generierungsproblem (RAG) formulieren. Anstatt uns ausschließlich auf das letzte Fenster zu stützen, behandeln wir zuvor generierte Latents als eine dynamische, durchsuchbare Historie. Wir schlagen LongLive-RAG vor, ein allgemeines Retrieval-Framework für die AR-Videogenerierung. Bei jedem neuen Block verwendet LongLive-RAG eine Abfrage-Einbettung (Query Embedding), um relevante historische Latents abzurufen. Dieser rechenleichte Retrieval-Schritt fügt nur einen geringen Overhead im Vergleich zur Generierung hinzu und ermöglicht es dem Generator, auf nicht-lokale Kontexte zu konditionieren, anstatt nur auf das letzte Fenster. Um das Retrieving diskriminativer zu gestalten, führen wir den Window Temporal Delta Loss ein, der redundante lokale Ähnlichkeiten unterdrückt und die Einbettungen dazu anregt, bedeutungsvolle zeitliche Veränderungen zu erfassen. Zusammen tragen diese Komponenten dazu bei, die durch die Sliding-Window-Attention verursachte Fehlerakkumulation zu reduzieren. Experimente mit mehreren AR-Backbones und Generierungslängen zeigen eine verbesserte Qualität langer Videos und den besten durchschnittlichen VBench-Long-Rang. Unseres Wissens nach ist LongLive-RAG die erste Methode unter den offenen AR-Langvideogenerierungsverfahren, die selbstgenerierte Latenz-Historien als inhaltsadressierbaren Retrieval-Speicher formuliert. Der Code ist verfügbar unter https://github.com/qixinhu11/LongLive-RAG.
Die Dekodierung visueller Inhalte aus fMRT-Signalen, die während der Betrachtung von Bildern aufgezeichnet werden, und insbesondere die Beantwortung von Fragen zu den gesehenen Bildern ist eine seit langem bestehende Herausforderung. Obwohl in den letzten Jahren bedeutende Fortschritte bei der visuellen Fragebeantwortung (VQA) mittels fMRT erzielt wurden, bleibt die Leistung begrenzt. Darüber hinaus werden aktuelle Modelle, obwohl sie zunehmend genauere Vorhersagen treffen können, selten als Werkzeuge zum Verständnis der Struktur visueller Repräsentationen im Gehirn eingesetzt. Wir stellen Brain-IT-VQA vor, ein Framework für die visuelle Fragebeantwortung aus fMRT-Daten. Aufbauend auf dem Brain Interaction Transformer (Brain-IT) dekodiert unsere Methode Sprachtoken aus der Gehirnaktivität und integriert diese mit einem Sprachmodell, um visuelle Fragen zu beantworten. Unser Modell übertrifft frühere fMRT-basierte Ansätze zur Bildbeschreibung und VQA deutlich. Darüber hinaus führen wir NSD-VQA ein, einen neuen Datensatz und Benchmark für die visuelle Fragebeantwortung aus fMRT-Daten. Im Gegensatz zu bestehenden Bild-fMRT-VQA-Datensätzen, die typischerweise nur wenige breite und schwach kontrollierte Fragen pro Bild bereitstellen, bietet NSD-VQA durchschnittlich 20 Frage-Antwort-Paare pro Bild über 20 kontrollierte Fragenkategorien hinweg, die mehrere Ebenen des visuellen Verständnisses aufschlüsseln. Dies ermöglicht eine zuverlässigere und interpretierbarere Bewertung trotz begrenzter fMRT-Testdaten. Zusammen bieten Brain-IT-VQA und NSD-VQA sowohl ein leistungsstarkes Vorhersageframework als auch ein Werkzeug zur Untersuchung von Gehirnrepräsentationen. Mit diesem Benchmark quantifizieren wir, welche Formen visueller und semantischer Informationen zuverlässig aus fMRT-Antworten auf natürliche Bilder dekodiert werden können. Darüber hinaus analysieren wir die Beiträge verschiedener Gehirnregionen über Fragetypen hinweg.
Echtzeit-Streaming zur gemeinsamen Audio-Video-Erzeugung für Figurenanimation erfordert einen Generator, der das angeforderte Transkript spricht, die visuelle Identität über Chunks hinweg beibehält und innerhalb eines strengen Wiedergabebudgets läuft. Diese Anforderungen sind schwer gleichzeitig zu erfüllen: chunkweise autoregressive Erzeugung kann Transkript-Audio-Fehlausrichtung und visuelle Drift akkumulieren, während die für niedrige Latenz erforderliche Wenige-Schritt-Destillation oft die räumliche Diversität und zeitliche Qualität beeinträchtigt. Wir präsentieren StreamChar, ein Streaming-Framework, das die Langzeit-Orchestrierung von der Kurzfenster-Audio-Video-Entrauschung trennt. Ein LLM-basierter Orchestrator nutzt das Transkript und historischen Kontext, um rahmenabgestimmte Audiobedingungen zu erzeugen, und ein gemeinsames Audio-Video-DiT führt eine lokale bidirektionale Entrauschung mit Referenz- und Bewegungsrahmenbedingungen durch. Für eine effiziente Bereitstellung verwenden wir eine zweistufige Destillationspipeline, die zunächst den Sampler komprimiert und dann den Studenten unter Online-Chunk-Rollouts feinabstimmt. Ein fortschrittsbewusster Zeiger richtet partielle Transkripte während der Rollout-Schulung mit erzeugtem Audio aus, und ein Sink-Chunk-Speicher bietet einen persistenten visuellen Anker zur Reduzierung von Langzeitdrift. Experimente mit Kurzclip- und Langzeitprotokollen zeigen, dass StreamChar in Echtzeit auf einer einzelnen H100-GPU läuft und einen günstigen systemweiten Kompromiss zwischen Transkripttreue, audiovisueller Synchronisation, visueller Qualität und Streaming-Stabilität im Vergleich zu aktuellen gemeinsamen und audiogesteuerten Basislinien bietet.
LLM-Agenten greifen zunehmend auf extern kuratierte Skills zurück – prozedurale Anweisungen, die zum Entscheidungszeitpunkt abgerufen werden – um ihre Leistung bei langfristigen interaktiven Aufgaben zu verbessern. Existierende Skill-Bibliotheken werden typischerweise als modellagnostisch behandelt, wobei dieselben Skill-Formulierungen über verschiedene Backbones mit erheblich unterschiedlichen Kapazitäten und Verhaltensweisen hinweg wiederverwendet werden. Unsere kontrollierten Experimente über mehrere Modellskalen hinweg zeigen jedoch, dass die Wirksamkeit von Skills stark modellabhängig ist: Ein Skill, der einem Backbone nützt, kann einem anderen schaden. Ausgehend von dieser Beobachtung schlagen wir MASA (Model-Aware Skill Alignment) vor, ein Framework, das Skills an jeden Ziel-Backbone anpasst, ohne die Agentengewichte zu verändern. MASA arbeitet in zwei Stufen: (1) eine hierarchische Skill-Evolutions-Pipeline, die allgemeine und aufgabenspezifische Skills iterativ mittels Hill-Climbing und UCB-gesteuerter Baumsuche umschreibt, gesteuert durch Umgebungsfeedback und Modellfähigkeitsprofile; und (2) ein leichtgewichtiger, modellkonditionierter Skill-Umschreiber, der auf Evolutionsverläufen trainiert wird, um die Anpassung in einem einzigen Vorwärtsdurchlauf zu reproduzieren. Experimente in drei interaktiven Umgebungen und mit vier Backbones zeigen, dass MASA konsistent die beste Gesamtleistung erzielt, mit Verbesserungen von bis zu 25,8 Punkten gegenüber der stärksten Baseline. Der gelernte Umschreiber generalisiert zudem auf unbekannte Aufgaben und Umgebungen ohne zusätzliche Suche und übertrifft dabei durchweg einen viel größeren Teacher-LLM bei einem Bruchteil der Inferenzkosten.
Die Entwicklung leistungsfähiger visueller Web-Agenten erfordert mehrstufiges Denken über längere Zeithorizonte, präzise Verankerung und robuste Interaktion mit dynamischen realen Websites. Trotz rascher Fortschritte bleiben die stärksten Systeme weitgehend proprietär, während offene Agenten weiterhin stark auf überwachtes Nachtraining mit umfangreichen Sammlungen kuratierter Web-Trajektorien angewiesen sind. Diese Abhängigkeit führt zu einem erheblichen Skalierbarkeitsengpass: Hochwertige Demonstrationen sind teuer zu sammeln, und statische Datensätze decken die Vielfalt des sich ständig verändernden offenen Webs nur unzureichend ab. Obwohl Online-RL bei textbasierten Agenten vielversprechend ist, bleibt sein Potenzial für das Training visueller Web-Agenten direkt auf Live-Websites weitgehend unerforscht. In dieser Arbeit stellen wir OpenWebRL vor, ein offenes Framework für das Training visueller Web-Agenten mit mehrstufigem Online-RL auf realen Websites. OpenWebRL deckt die gesamte Trainingspipeline ab, einschließlich skalierbarer Live-Browser-Infrastruktur, überwachter Initialisierung, multimodaler Kontextverwaltung, trajektorienbasierter Erfolgsbewertung und effizienter mehrstufiger Politikoptimierung. Mit diesem Rahmen trainieren wir OpenWebRL-4B, das einen neuen Open-Source-State-of-the-Art auf anspruchsvollen Live-Web-Benchmarks setzt. Mit nur 0,4K Initialisierungstrajektorien und 2,2K offenen RL-Trainingsaufgaben erreicht OpenWebRL-4B eine Erfolgsquote von 67,0% auf Online-Mind2Web und 64,0% auf DeepShop, übertrifft frühere offene Agenten ähnlicher oder größerer Größe und bleibt wettbewerbsfähig mit proprietären Systemen wie OpenAI CUA und Gemini CUA. Über die starke Benchmark-Leistung hinaus untersuchen wir systematisch die wichtigsten Designentscheidungen, die Online-RL für visuelle Web-Agenten effektiv machen, und analysieren, wie RL agentisches Denken verbessert. Insgesamt bietet unsere Arbeit einen praktischen Weg zur Entwicklung leistungsfähigerer, reproduzierbarerer und kosteneffizienterer offener Web-Agenten. Wir werden unsere Trainingsdaten, Modelle und Code veröffentlichen, um zukünftige Forschung zu unterstützen.
Spekulative Dekodierung (SD) beschleunigt die Inferenz von LLMs mit geringer Parallelität durch ein Entwurf-dann-Verifizierungs-Paradigma. Allerdings basieren gängige Methoden typischerweise auf Mehrfach-Token-Vorhersagen, was zu zunehmender Vorhersageschwierigkeit und serieller Entwurfslatenz führt. Um diese Probleme zu adressieren, schlagen wir die Spekulative Pipeline-Dekodierung (SPD) vor – ein bahnbrechendes Framework, das das wahre Potenzial der Pipeline-Parallelität erschließt. Durch die Aufteilung des Ziel-LLMs in n Pipeline-Stufen ermöglicht SPD dem LLM, n Tokens parallel zu verarbeiten und so die Dekodierung zu beschleunigen. Um die Pipeline bei der Dekodierung einzelner Sequenzen kontinuierlich zu füllen, aggregiert ein Spekulationsmodul Zwischenmerkmale über verschiedene Pipelinetiefen hinweg, um das nächste Token vorherzusagen – dies geschieht strikt parallel zum Pipeline-Schritt des Zielmodells und realisiert eine begrenzte Schwierigkeit, höhere Akzeptanzraten und null Latenzblasen. Unsere Experimente zeigen, dass SPD im Vergleich zu gängigen Basislinien einen signifikant höheren theoretischen Geschwindigkeitsgewinn erzielt und eine hoch skalierbare Lösung zur Beschleunigung der LLM-Dekodierung bietet. Unser Code ist verfügbar unter https://github.com/yuyijiong/speculative_pipeline_decoding.
Verstärkungslernen (RL) verbessert Agenten auf Basis großer Sprachmodelle (LLMs), indem es ihnen beibringt, welche Aktionen zu hohen Belohnungen führen, liefert jedoch nur wenig Aufschluss darüber, was diese Aktionen in der Umgebung bewirken. Weltmodellierung (WM) kann diese Lücke schließen, doch bestehende Ansätze erfordern oft separate Simulatoren, zusätzliche Trainingsphasen oder zusätzliche Rechenzeit während der Inferenz. Wir beobachten, dass On-Policy-RL-Rollouts bereits das benötigte Signal enthalten: Jeder Übergang paart eine Aktion mit der daraus resultierenden nächsten Beobachtung. Basierend auf dieser Beobachtung schlagen wir PaW vor, ein Co-Training-Framework für Policy und Weltmodellierung, das während des RL eine zusätzliche WM-Überwachung für dieselbe Policy hinzufügt, ohne das Inferenzparadigma zu ändern. Um die zusätzliche WM-Überwachung informativ und stabil zu gestalten, führt PaW drei Komponenten ein: aktionsentropiebasierte WM-Datenauswahl, rauschresistenter WM-Verlust und belohnungsadaptive Verlustgewichtung. Experimente mit drei Benchmarks für agentische Aufgaben zeigen konsistente Verbesserungen gegenüber starken RL-Baselines über verschiedene Modelle und RL-Algorithmen hinweg. Diese Ergebnisse deuten darauf hin, dass standardmäßige RL-Rollouts eine praktische Quelle für WM-Überwachung beim Training von Sprachagenten darstellen.
Das Verständnis von Affordances verbindet visuelle Wahrnehmung und physische Aktion und dient als erklärbare Schnittstelle für die Roboter-Manipulation in offenen, unstrukturierten realen Umgebungen. Dennoch bleibt die Entwicklung eines Affordance-Grundlagenmodells, das nicht nur versteht, wo und wie die Interaktion stattfinden sollte, sondern auch über verschiedene Umgebungen, Objekte und Aufgaben hinweg generalisiert, eine langjährige Forschungsherausforderung. Bisherige Methoden adressieren typischerweise nur einen Teil dieser Herausforderung: Sie lokalisieren entweder aufgabenrelevante Regionen, ohne ausführbare Bewegungen zu spezifizieren, oder sagen Bewegungen vorher, jedoch mit begrenzter Skalierbarkeit. In diesem Papier präsentieren wir unser Modell, einen Schritt in Richtung eines Affordance-Grundlagenmodells für das Verständnis von Funktionalität. Aus einer einzelnen RGB-D-Beobachtung und einer sprachlichen Aufgabenbeschreibung sagt unser Modell eine aufgabenspezifische funktionale Maske (wo interagiert werden soll) und eine 3D-Bewegungskurve nach Kontakt (wie interagiert werden soll) vorher. Zur Unterstützung der Generalisierung in offenen Welten bauen wir eine groß angelegte, standardisierte Datenpipeline auf, die heterogene Roboter-, Human-, Simulations- und reale Scandaten in ein gemeinsames Affordance-Schema mit Sprache, Masken und objektzentrierten 3D-Bewegungslabels überführt. Wir evaluieren unser Modell aus drei Perspektiven: Für die Affordance-Segmentierung übertrifft unser Modell alle Basislinien mit großem Abstand über 8 Testdatensätze aus 4 Benchmarks und verbessert den mittleren gIoU/cIoU um +23,9/+26,3; für die Kontaktpunktvorhersage sagt es wesentlich genauere Punkte voraus, mit einem Trefferratengewinn von 12,7–61,3 % gegenüber der besten Basislinie; und für die 3D-Bewegung erzielt es die beste Leistung auf allen drei Testdatensätzen. Unser Modell kann für reale Roboter-Manipulationen eingesetzt werden, ohne eine Feinanpassung an die Roboter-Körperlichkeit oder aufgabenspezifische Heuristiken, und demonstriert die Fähigkeit, sich an Affordance-Aufgaben in offenen Welten anzupassen. Projektseite: https://www.zhaoningwang.com/AFUN
Wiederverwendbare Fähigkeiten sind ein zentraler Mechanismus zur Erweiterung der Agentenfähigkeiten, da sie es Agenten ermöglichen, Erfahrungen zu sammeln und zunehmend komplexe Aufgaben zu lösen. Dennoch speichern die meisten bestehenden Methoden zum Erlernen von Fähigkeiten wiederverwendbare Erfahrungen als reine Text-Assets, wie Anweisungen, Argumentationsspuren oder zusammengefasste Trajektorien. Wir argumentieren, dass dieses rein textbasierte Paradigma einen fundamentalen Engpass für visuell-zentrierte Aufgaben darstellt, bei denen wiederverwendbares Wissen oft von räumlicher Anordnung, visueller Verankerung, feinkörnigem Erscheinungsbild und lokalisierten Zustandsänderungen abhängt. Um diese Einschränkung zu adressieren, schlagen wir \NAME vor, ein multimodales Fähigkeitsparadigma, das deklarative textuelle Logik mit expliziter visueller Unterstützung kombiniert. Wir unterscheiden drei wiederverwendbare Formen: statische Priors für stabile räumliche Konventionen, dynamische Priors für situatives visuelles Arbeitsgedächtnis und verschränkte visuelle Fähigkeiten, die geordnete Textschritte mit den Quellframes, Screenshots oder Seitenbereichen verknüpfen, die sie rechtfertigen. Visuelle Fähigkeiten beschreiben nicht nur, was zu tun ist, sondern kodieren auch, wo hinzusehen ist, wie zu inspizieren ist und wie visuelle Ergebnisse zu überprüfen sind. Um die Konstruktion visueller Fähigkeiten zu skalieren, führen wir \SYSTEM ein, ein automatisches System, das Agentenerfahrungen in wiederverwendbare multimodale Fähigkeiten umwandelt, indem es textuelle Argumentation, räumliche Referenzen, visuelle Grenzen und Interaktionsmuster aus Aufgaben-Trajektorien bewahrt. Experimente mit GUI und anderen visuell-zentrierten Aufgaben zeigen, dass visuelle Fähigkeiten durchgängig besser abschneiden als rein textbasierte Fähigkeiten, insbesondere wenn der Erfolg räumliche Korrespondenz, visuelle Evidenz und zustandsbewusste Interaktion erfordert. Diese Ergebnisse stützen unsere zentrale These: Wiederverwendbare Agentenfähigkeiten sollten über Text hinausgehen und zu multimodalen Assets für zukünftige multimodale Agenten werden.
Vision-Sprach-Modelle (VLMs) zeigen ein starkes visuelles Verständnis und werden zunehmend in verkörperten KI-Systemen eingesetzt, bei denen zuverlässige Wahrnehmung unter realen Bedingungen unerlässlich ist. Bestehende Benchmarks bewerten VLMs jedoch anhand von sauberen Bildern oder isolierten Störungen, nicht aber anhand von Belastungen, die durch die physikalische Szenenentstehung verursacht werden. Dieses Design hat zwei Einschränkungen: Es deckt nur eine enge Teilmenge alltäglicher visueller Belastungen ab, und einige Störungen treten in realistischen verkörperten Szenen selten auf. Diese Lücke wirft eine grundlegende Frage auf: Wie können wir visuelle Belastung prinzipiell definieren, sodass sie die vielfältigen Faktoren erfasst, die in physischen Umgebungen auftreten? Um diese Frage zu beantworten, formulieren wir visuelle Wahrnehmung aus einer inversen Grafikperspektive und führen RoboStressBench ein, einen Benchmark zur Bewertung der Robustheit von VLMs gegenüber physikalischen visuellen Belastungen in verkörperten Szenen. Inspiriert von der physikalischen Rendering-Gleichung zerlegt RoboStressBench visuelle Belastung in vier physikalisch fundierte Dimensionen: Material (M), Blickwinkel (V), Beleuchtung (L) und Geometrie (G). Dieses Design ermöglicht es RoboStressBench, ein breites Spektrum visueller Belastungen in realen Umgebungen abzudecken und gleichzeitig eine kontrollierte Analyse ihrer Auswirkungen auf VLM-Fähigkeiten wie visuelle Erkennung, Schlussfolgern und Planung zu ermöglichen. Durch umfassende Bewertungen modernster VLMs identifizieren wir belastungsspezifische Fehlermodi und zeigen, dass verschiedene physikalische Faktoren unterschiedliche verkörperte Fähigkeiten beeinträchtigen, die oft durch aggregierte Genauigkeit verdeckt werden. Wir führen weiterhin einen belastungsbewussten agentischen Löser ein, der visuelle Stressoren erkennt und vor dem Schlussfolgern visuelle Bearbeitungsfähigkeiten aufruft, um die Robustheit in Stressszenarien zu verbessern. Insgesamt bietet RoboStressBench einen prinzipiellen Bewertungsrahmen zur Diagnose und Verbesserung der VLM-Wahrnehmung unter realem physikalischen Stress und unterstützt die Entwicklung zuverlässigerer verkörperter KI-Systeme.
Large Vision-Language Models (LVLMs) bilden visuelle Eingaben in dichte Token-Sequenzen ab, was zu einem quadratischen Rechenengpass bei der Inferenz führt. Eine elastische visuelle Token-Kompression begegnet diesem Problem, indem sie ein einzelnes Modell trainiert, das mit mehreren visuellen Token-Budgets betrieben werden kann. Bestehende Ansätze stoßen jedoch bei aggressiver Kompression an ihre Grenzen. Rein räumliche Kompression, wie beim verschachtelten Pooling, verhält sich wie ein unvollkommener Tiefpassfilter und induziert spektrale Aliasing-Effekte, die feine Details verschleiern. Rein query-basierte Kompression, wie beim verschachtelten Query-Resampling, ersetzt explizite gitterausgerichtete Token durch nicht-lokale Zusammenfassungen und beeinträchtigt die räumliche Verankerung erheblich. Um diesen Repräsentationskonflikt zu lösen, führen wir PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding) ein, eine Architektur zur visuellen Tokenisierung, die die Arbeit der Merkmalsextraktion dynamisch aufteilt. PARCEL etabliert räumliche Pool-Token als niederfrequente Layout-Anker und konditioniert elastische Query-Token auf diese Anker durch Pool-konditioniertes Query-Resampling. Dies regt die Query-Token dazu an, sich auf komplementäre visuelle Merkmale zu konzentrieren, anstatt redundante räumliche Abbildungen durchzuführen. Umfangreiche Auswertungen über 27 Benchmarks hinweg zeigen, dass PARCEL die Pareto-Grenze zwischen Leistung und Effizienz verbessert, indem es bestehende Matroschka-Baselines über verschiedene visuelle Token-Budgets hinweg konsistent übertrifft, während es das Paradigma „einmal trainieren, überall einsetzen“ beibehält.
Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten in den Bereichen Wahrnehmung, logisches Denken und Aktionsgenerierung gezeigt. Allerdings bleibt unklar, ob sie in dynamischen offenen Welten eigenständig erkunden können. Bestehende verkörperte und spielbasierte Benchmarks komprimieren Interaktionen oft in Kurzzeithorizont-Aufgaben oder verknüpfen Erfolg mit domänenspezifischen Spielmechaniken. In dieser Arbeit stellen wir den MineExplorer-Benchmark zur Bewertung der Erkundungsfähigkeiten von MLLM-Agenten in offenen Welten in Minecraft vor. Zunächst filtern wir atomare Aufgaben, deren Lösung stark auf Minecraft-spezifischem Wissen beruht, um allgemeine Schlussfolgerungen in offenen Welten besser widerzuspiegeln. Anschließend organisieren wir den Benchmark um eine ReAct-artige Fähigkeitsformulierung und setzen atomare Aufgaben zu impliziten Multi-Hop-Aufgaben zusammen. Um zuverlässige Instanzen zu konstruieren, verwendet MineExplorer einen mehrstufigen Synthese-Workflow, der gemeinsam Aufgaben-Graphen, Sandkastenszenen und regelbasierte Meilensteinbewerter entwirft. Eine menschliche Evaluierung zeigt, dass der mehrstufige Synthese-Workflow signifikant zuverlässigere Instanzen erzeugt als eine Einzelagentenbasislinie. Experimente mit fortschrittlichen MLLM-Agenten zeigen, dass die Erkundung offener Welten weiterhin eine Herausforderung darstellt: Starke Modelle bewältigen viele Einzel-Hop-Aufgaben, verschlechtern sich jedoch drastisch, wenn versteckte Voraussetzungen über längere Trajektorien koordiniert werden müssen. Weitere Analysen zeigen, dass die Aufgabenschwierigkeit mit der Agentenerfüllung korreliert und dass größere Modelle oder Denkmodi nicht durchgängig zu besseren Ergebnissen führen. Code und Datensatz sind verfügbar unter https://github.com/Jometeorie/MineExplorer.
Vision-Sprache-Aktion-Modelle (VLA-Modelle) basieren auf der Prämisse, dass semantisches Verständnis aus vortrainierten Sprach- oder Vision-Sprache-Backbones die Vorhersage von Roboteraktionen leiten sollte. Dennoch wird die Feinabstimmung von Robotern als Imitation über aufgabenspezifische Aktionsverteilungen optimiert, und viele Evaluierungen können durch visuelle oder Instruktions-Aktions-Shortcuts gelöst werden. Wir führen RoboSemanticBench (RSB) ein, einen verkörperten Benchmark zur Diagnose der semantischen Verankerung in der Aktionsvorhersage: ob nachtrainierte VLA-Modelle komplexe Instruktionssemantik nutzen können, um das korrekte physische Ziel auszuwählen und zu manipulieren. In jeder Episode erhält ein Roboter eine Multiple-Choice-Frage aus Mathematik oder Allgemeinwissen, beobachtet Antwortblöcke als Kandidaten und muss den Block greifen, der der richtigen Antwort entspricht. RSB umfasst kontrollierte Arithmetik, mathematisches Verständnis auf Grundschulniveau sowie Alltagsverstand oder Faktenwissen in Vier-Auswahl- und Zehn-Auswahl-Suiten. Über repräsentative VLA-Modelle hinweg stellen wir fest, dass viele Politiken lernen, Kandidatenblöcke zu greifen, aber den semantisch korrekten Block nach Kontrolle des Greiferfolgs mit nahezu zufälligen oder unterzufälligen Raten auswählen, was eine anhaltende Lücke zwischen semantischer Kompetenz auf Backbone-Ebene und Aktionsvorhersage offenbart.
Die Auswahl der besten Antwort aus mehreren Stichproben eines kleinen Modells mithilfe eines stärkeren Bewerters ist eine einfache Inferenzzeitstrategie, versagt jedoch, wenn das kleine Modell bereits falsche Schlussfolgerungspfade eingeschlagen hat. Die PRM-geführte Suche umgeht dies, indem sie während der Generierung mögliche Fortsetzungen bewertet, erfordert jedoch ein Belohnungsmodell, das mit schrittweisen Labels trainiert wurde. Wir schlagen die Chunk-Level-geführte Generierung vor, eine trainingsfreie Alternative, die ein handelsübliches großes Sprachmodell als Prozessbewerter verwendet. In jedem Schritt zieht ein kleines Modell k feste Kandidaten-Blöcke fester Länge, während das größere Modell die Kandidaten mittels Likelihoods bewertet, ohne selbst Text zu generieren. Der ausgewählte Block wird vor dem nächsten Schritt festgelegt, wodurch die Generierung gesteuert wird, bevor sich Fehler ausbreiten können. Wir setzen dieses Rahmenwerk mit zwei Auswahlregeln um: Likelihood-geführte Auswahl (LGS), die den Block mit der höchsten längennormalisierten Log-Wahrscheinlichkeit des großen Modells auswählt, und Kontrastiv-geführte Auswahl (CGS), die die Log-Wahrscheinlichkeit des kleinen Modells subtrahiert, um Blöcke zu bevorzugen, bei denen die Präferenz des großen Modells von der des kleinen Modells abweicht. Wir zeigen, dass die Bewertung variabler Denkschritte mit Likelihoods großer Modelle aufgrund eines systematischen Längenbias unzuverlässig ist, der selbst nach Längennormalisierung bestehen bleibt, und dass Blöcke fester Länge diese Verzerrung vermeiden. Auf GSM8K, MATH, Minerva Math, AMC23 und AIME24 mit Qwen2.5-1.5B, geführt von Qwen2.5-32B, sowie Llama-3.2-1B, geführt von Llama-3.1-70B, übertrifft CGS das Mehrheitsvotum um bis zu 28 Prozentpunkte und erreicht bei gleichen Führungsbudgets auf den meisten Benchmarks ohne Training eines Belohnungsmodells die Leistung der Qwen2.5-Math-PRM-72B-geführten Suche oder übertrifft sie. Mit Qwen2.5-7B, geführt von Qwen2.5-72B, erreicht CGS bei k=16 81,8% auf MATH und 63,6% auf Minerva Math, was einer Verbesserung von 4–6 Prozentpunkten gegenüber dem Mehrheitsvotum entspricht. Schließlich erzeugt die Chunk-Level-geführte Generierung deutlich kürzere Denkketten als die PRM-geführte Suche.
Computer-Use-Agenten (CUAs) werden derzeit hauptsächlich als einzelne serielle Agenten eingesetzt. Diese Konfiguration ist für komplexe Aufgaben mit langem Zeithorizont suboptimal, die von Aufgabenzerlegung, paralleler Ausführung und konsistenter Neuplanung auf Basis neuer Informationen profitieren. In diesem Paper argumentieren wir, dass wir stattdessen dazu übergehen sollten, Multi-Agent-Computer-Use (MACU)-Systeme zu evaluieren und zu entwickeln. Diese Systeme, die Planung und parallele Ausführung betonen, beheben viele der Schwachstellen einzelner CUA-Agenten. Wir schlagen einen allgemeinen Multi-Agenten-Ansatz vor, bei dem ein Managermodell Computer-Use-Aufgaben als gerichteten azyklischen Graphen (DAG) zerlegt, der relevante Abhängigkeiten und Ziele für Unteragenten kodiert. In jeder Iteration delegiert der Manager parallele CUA-Unteragenten zur Bearbeitung von Knoten an der Bereitschaftsgrenze des DAGs und überarbeitet den DAG kontinuierlich (fügt Knoten hinzu, bricht sie ab oder schreibt sie um), sobald neue Erkenntnisse von den Unteragenten eingehen. Dieses Design behandelt die teilweise beobachtbare Umgebung der Computernutzung als zentrale Herausforderung: Informationen, die nachgelagerte Agenten möglicherweise nicht erneut beobachten können, werden über die Manager- und DAG-Struktur aufbewahrt und weitergegeben. Wir zeigen, dass MACU auf Desktop- (OSWorld) und Webnavigations-Benchmarks (Online-Mind2Web, WebTailBench, Odysseys) durchgängig Verbesserungen von 3,4–25,5 % gegenüber starken Einzelagenten-Baselines erzielt, günstigere Testzeit-Skalierung aufweist und komplexe langfristige Aufgaben löst, bei denen einzelne CUA-Agenten feststecken. Bei Odysseys, einem Benchmark für langfristige Webnavigation, verbessert MACU die durchschnittliche Echtzeit für den Aufgabenabschluss um etwa das 1,5-Fache, was seine Wirksamkeit bei der Beschleunigung traditionell langsamer CUA-Pipelines demonstriert. Unsere Ergebnisse unterstreichen, dass Multi-Agenten-Koordination eine vielversprechende Achse für die Skalierung von Computer-Use-Agenten darstellt, um produktiver und effektiver über längere Zeiträume zu arbeiten. Wir veröffentlichen den gesamten Code und interaktive Visualisierungen unter https://jykoh.com/multi-agent-computer-use.
Die Messung des strukturierten Objektverständnisses in visuellen Foundation-Modellen bleibt aufgrund inkonsistenter Evaluierungsprotokolle und begrenzter Teilebene-Überwachung eine Herausforderung. Semantische Korrespondenz (SC) bewertet diese Fähigkeit, indem sie testet, ob Objektteile über Instanzen und Kategorien hinweg unter großen Variationen in Erscheinungsbild, Blickwinkel und Geometrie abgeglichen werden können. Um eine systematische SC-Evaluierung zu ermöglichen, führen wir SOCO ein, einen neuen Benchmark für Semantic Object Correspondence, der eine Taxonomie von Korrespondenztypen einführt und konsistente, funktional bedeutsame Keypoint-Annotationen über 100 Kategorien und über 1 Million Korrespondenzpaare bereitstellt. Darüber hinaus enthält SOCO sprachliche Beschreibungen der Keypoints, was die Evaluierung von großen Vision-Language-Modellen (LVLMs) und deren feinkörnigem Teilebene-Verständnis ermöglicht. Umfassende Experimente zeigen, dass (i) visuelle Foundation-Backbones starke semantische Strukturen kodieren, aber Korrespondenzen schlecht über verwandte Kategorien übertragen und die Position von Objektteilen nur teilweise erfassen, (ii) LVLMs bei der textgesteuerten Teilelokalisierung stärker sind als beim visuellen Referenzvergleich über Bilder hinweg, was eine Lücke zwischen sprachbasierter Lokalisierung und feinkörniger visueller Korrespondenz offenbart, und (iii) die Korrespondenzleistung die Leistung bei dichten Downstream-Aufgaben, einschließlich Segmentierung, Tracking, 3D-Posenschätzung und 3D-Erkennung, stärker vorhersagt als die ImageNet-Klassifikation. Zusammen betrachtet positionieren diese Ergebnisse SOCO als Benchmark für die Qualität strukturierter, teilebezogener Repräsentationen in visuellen und multimodalen Foundation-Modellen.
Das Unlearning großer Sprachmodelle (LLM) hat sich als entscheidender Post-hoc-Mechanismus für den Datenschutz und die KI-Sicherheit erwiesen, doch die Überprüfung, ob Zielwissen tatsächlich gelöscht wurde, bleibt eine Herausforderung. Bestehende Metriken auf Ausgabeebene versagen dabei zu erkennen, wenn dieses Wissen aus internen Repräsentationen wiederherstellbar bleibt. Aktuelle White-Box-Studien decken solche Restwissensbestände auf, stützen sich jedoch häufig auf Hilfstraining oder datensatzspezifische Anpassungen, sodass keine verallgemeinerbare Metrik existiert. Um diese Einschränkungen zu adressieren, schlagen wir den Unlearning Depth Score (UDS) vor, eine Metrik, die die mechanistische Tiefe des Unlearnings mittels Activation Patching quantifiziert. UDS identifiziert zunächst mittels einer Retain-Modell-Baseline die Schichten, die das Zielwissen kodieren, und misst dann auf einer Skala von 0 bis 1, wie viel davon im entlernten Modell gelöscht ist. In einer Meta-Evaluation über 20 Metriken an 150 entlernten Modellen aus 8 Methoden erzielt UDS die höchste Treue und Robustheit, was unseren kausalen Ansatz als den zuverlässigsten für die Unlearning-Evaluation bestätigt. Fallstudien zeigen zudem, dass White-Box-Metriken auf Schichtebene unterschiedlich ausfallen können und dass die Löschtiefe je nach Beispiel variiert. Wir stellen Richtlinien zur Integration von UDS in bestehende Benchmarking-Frameworks und zur Optimierung der Evaluierungspipeline bereit. Code und Daten sind verfügbar unter https://github.com/gnueaj/unlearning-depth-score.
Das Verständnis von Diagramm- und Tabellenbildern ist entscheidend für die Anwendung von Vision-Language-Modellen (VLMs) auf das Verständnis realer Dokumente. Während sich englische Benchmarks rasant weiterentwickelt haben, sind nicht-englische Pendants rar, sodass unklar bleibt, inwieweit dieser Fortschritt sprachübergreifend generalisiert. Ein zentrales Hindernis ist die Schwierigkeit, realistische und vielfältige nicht-englische Diagramm- und Tabellenbilder in großem Umfang zu sammeln. Um dies zu adressieren, nutzen wir Regierungsweißbücher als skalierbare Quelle für die Benchmark-Konstruktion jenseits des Englischen, da sie natürlich vorkommende Diagramme und Tabellen in unterschiedlichen Formaten und Domänen enthalten und in vielen Ländern frei zugänglich sind. Als erste Umsetzung führen wir HakushoBench ein, einen anspruchsvollen japanischen Chart- und Table-VQA-Benchmark, der aus 33 Regierungsweißbüchern erstellt wurde. HakushoBench umfasst 2.053 Bilder aus über zehn Bildtypen mit manuell annotierten QA-Paaren, die darauf ausgelegt sind, ein tiefes und ganzheitliches Verständnis von Diagrammen und Tabellen zu bewerten, nicht nur lokale visuelle Hinweise. Experimente mit einer breiten Palette von VLMs zeigen, dass HakushoBench für Modelle mit offenen Gewichten herausfordernd bleibt: Das beste Open-Weight-Modell erreicht nur 58,6 % Genauigkeit, und eine Lücke von 34,9 Punkten zwischen Open-Weight- und proprietären Modellen unterstreicht den erheblichen Verbesserungsbedarf beim komplexen Diagramm- und Tabellenverständnis. Wir veröffentlichen unseren Datensatz und unseren Code.
Echte Video-Intelligenz erfordert mehr als das Erkennen des Sichtbaren: Sie verlangt nachzuvollziehen, warum Ereignisse ablaufen, vorherzusagen, was sich unter anderen Bedingungen ändern würde, und zu entscheiden, was als Nächstes zu tun ist. Diese Entwicklung von der Wahrnehmung über kausales Schließen und Simulation bis hin zur strategischen Planung bezeichnen wir als Strategische Video-Intelligenz (SVI). Kein existierender Benchmark evaluiert diesen Fähigkeitsstapel: Freie Videodaten entbehren überprüfbarer Ground Truth für kausale und strategische Fragen, während synthetische Umgebungen die Komplexität realer Multiagentensysteme opfern. Um diese Lücke zu schließen, führen wir SVI-Bench ein, einen groß angelegten Benchmark, der Mannschaftssportarten als dynamische Mikrowelt nutzt – er verbindet die Komplexität realer Multiagenten-Interaktion (10 bis 22 Agenten, die unter gegnerischem Druck koordinierte Entscheidungen treffen) mit der Überprüfbarkeit expliziter Regeln und eindeutiger Ergebnisse. SVI-Bench umfasst rund 35.000 Stunden Übertragungsvideo, 15 Millionen annotierte Aktionen, 15.000 Stunden Expertenkommentare, 23.000 Spielberichte und 103.000 strukturierte statistische Aufzeichnungen aus Basketball, Fußball und Eishockey – alles erstellt über eine Daten-Engine, die rohe Spieldaten in ein dichtes, querverwiesenes Korpus umwandelt. Wir ordnen die Evaluation in 9 Aufgaben ein, die eine progressive Hierarchie mit vier Säulen abdecken: Dynamisches Szenenverständnis, Kausales Schließen, Strategische Simulation und Agentische Synthese. Bei der Evaluierung starker multimodaler und agentischer Basislinien stellen wir einen Fähigkeitsabgrund fest: Modelle schneiden bei Wahrnehmungsaufgaben kompetent ab (etwa 73 % Genauigkeit bei feinkörniger Aktionsfragenbeantwortung), fallen aber bei jeder höheren kognitiven Ebene stark ab. Agentische Aufgaben erweisen sich als am schwierigsten: Das stärkste Modell erreicht nur 5 % Genauigkeit, wenn es eigenständig Beweise aus einem Korpus von 1,8 Millionen Clips sammeln und integrieren muss.
Agentische Suche erfordert, dass Sprachmodell-Agenten viele Quellen erkunden und komplexe informationssuchende Fragen beantworten. Die Skalierung der Rechenzeit zur Testzeit ist ein vielversprechender Ansatz, um diese Agenten zu verbessern, allerdings können aktuelle Methoden versagen, da korrekte Antworten oft spärlich gesät sind und die auswahlbasierte Bewertung von der Kalibrierung des Modells abhängt. Wir schlagen FineVerify vor, ein feinkörniges Selbstverifikations-Framework, das jede Frage in überprüfbare Teilfragen zerlegt, sampleierte Kandidaten anhand jeder Teilfrage verifiziert und den Kandidaten mit der höchsten aggregierten Punktzahl auswählt. Diese Pro-Check-Struktur verwandelt die Auswahl in einfachere lokale Urteile und erzeugt Punktzahlen unter denselben expliziten Kriterien. Über vier Benchmarks zur agentischen Suche und zwei Modelle hinweg übertrifft FineVerify konsistent die standardmäßigen Skalierungsbaselines. Mit nur vier sampleierten Trajektorien verbessert es GPT-5-mini um durchschnittlich 8,2 Genauigkeitspunkte und Gemini-3-flash um 5,6 %. Mit 12 Samples ermöglicht FineVerify GPT-5-mini, das führende GPT-5 auf BrowseComp-Plus zu übertreffen. Über die Genauigkeit hinaus erzeugt FineVerify interpretierbare Verifikationsspuren, die bei der Prüfung von Benchmark-Fehlern helfen, was auf breitere Anwendungen zur Inspektion agentischer Suchsysteme hindeutet. Code und Daten sind verfügbar unter https://github.com/XuZhao0/fineverify.
Physische KI-Systeme bilden zunehmend multimodale Beobachtungen, Sprachbefehle und gelernte Weltrepräsentationen auf physikalisch folgenreiche Handlungen ab. Robotik-Grundlagenmodelle, Vision-Language-Action-Modelle und weltmodellbasierte autonome Systeme können Entscheidungen konditionieren, die Fahrzeuge, Roboter, Drohnen und Industriemaschinen bewegen. Dieser Übergang offenbart ein Sicherheitsproblem, das von konventioneller KI-Inhaltsmoderation oder klassischer Robotiksicherheit allein nicht vollständig erfasst wird: Ein Black-Box-Modell kann eine physikalisch folgenreiche Handlung ausführen, während es sicher, plausibel und semantisch kohärent erscheint. Der resultierende Fehler kann still sein, verursacht durch Sensordrift, Okklusion, Zustandsschätzungsfehler, Verteilungsverschiebung, halluzinierte Affordanzen oder ungültige physikalische Annahmen, bevor nachgelagerte Hardware-Controller eine Verletzung erkennen. Über verkörperte Grundlagenmodelle, Weltmodelle, Robotiksimulation, Sicherheitsbenchmarks für verkörperte KI, sichere Steuerung, Laufzeitsicherheit, Unsicherheitsschätzung, Verifikation und Guardrail-Evaluierung hinweg haben sich Modellfähigkeiten und Sicherheitsmechanismen weitgehend auf getrennten technischen Pfaden entwickelt. Eine wiederkehrende Lücke, die hier synthetisiert wird, besteht darin, dass kein einzelner, in dieser Übersicht betrachteter Ansatz eine vollständige Laufzeit-Autorisierungsgrenze zwischen Black-Box-Physischen-KI-Modellen und physikalischer Ausführung bereitstellt. Die resultierende Analyse entwickelt eine abgegrenzte Problemformulierung, eine Definition des stillen physikalischen Handlungsfehlers, eine Taxonomie von Laufzeit-Guardrail-Funktionen sowie Evaluierungsanforderungen für den Vergleich von Guardrails als Sicherungsmechanismen für Physische KI.
Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einer Kernmethode für das Post-Training großer Sprachmodelle (Large Language Models, LLMs) entwickelt. Während die Politikoptimierung durch alle abgetasteten Token unter einer global ausgestrahlten skalaren Belohnung angetrieben wird, bleiben die heterogenen Politikverhalten entlang von Trajektorien weitgehend unbeachtet und ohne Differenzierung. Bestehende Arbeiten adressieren dies durch Kreditzuweisung, darunter die Neugewichtung von Token-Vorteilen und die selektive Tokenoptimierung; allerdings sind die Kriterien für die Zuweisung während des Trainings prinzipiell statisch, was eine anpassungsfähige Politikentwicklung einschränkt. In dieser Arbeit argumentieren wir, dass der Zeitpunkt, zu dem Lernsigmente zugewiesen werden, ebenso wichtig sein kann wie der Ort ihrer Zuweisung auf Token, und führen die zeitliche Dimension ein, die die Kriterien der Kreditzuweisung im Verlauf der RLVR-Optimierung plant. Wir stellen fest, dass die Priorisierung gezielter Token, die mit spezifischen Politikverhalten hervorgehoben werden, sowie die allmähliche Abschwächung hin zu einer allgemeinen Optimierung zu stabileren und effizienteren Lerndynamiken führt. Darüber hinaus zeigen wir, dass einfache Trajektorienperzentile eine natürliche Perspektive zur Unterscheidung von Politikverhalten bieten und in Verbindung mit zeitlicher Planung effektiv funktionieren. Unsere Analyse offenbart, dass die Standardoptimierung die Politikentropie erheblich reduziert, wenn gleichzeitig heterogene Verhalten berücksichtigt werden, während zeitliche Planung gesündere Politikentwicklungsdynamiken ermöglicht. Experimente mit mathematischen und allgemeinen Reasoning-Benchmarks zeigen durchgängige Verbesserungen und legen nahe, dass zeitliche Planung eine vielversprechende Optimierungsdimension darstellt.
Satz-Embeddings sind eine grundlegende Komponente für semantische Suche, Clustering, Klassifikation und retrieval-gestützte Generierung. Dieses Paper stellt embeddingmagibu-200m vor, ein auf Türkisch fokussiertes Satz-Embedding-Modell, das 768-dimensionale, L2-normalisierte Vektoren erzeugt und ein Kontextfenster von 8.192 Tokens unterstützt – weit über das 512-Token-Limit früherer BERT-basierter türkischer Encoder hinaus. Statt eines vollständigen Vortrainings wird eine effiziente dreistufige Anpassungspipeline eingeführt: (1) Konstruktion eines türkisch-optimierten mehrsprachigen Tokenizers mit einem Vokabular von 131.072 durch Bereinigung redundanter Tokens aus dem Teacher-Vokabular und Integration mehrsprachiger Tokens mittels Frequenzanalyse auf einem 40-sprachigen Korpus, (2) Klonen eines Teacher-Embedding-Modells unter Beibehaltung der Transformer-Backbone-Gewichte und Initialisierung einer kompatiblen Embedding-Tabelle für das neue Vokabular mittels Token-Mapping durch Mittelwertbildung sowie (3) Offline-Embedding-Destillation aus vorberechneten Teacher-Vektoren unter Verwendung eines Cosinus-Ähnlichkeitsziels über ein ausgewogenes 40-sprachiges Wikipedia-Korpus. Das resultierende Schülermodell umfasst etwa 200 Millionen Parameter und lässt sich auf einer einzelnen GPU in etwa vier Stunden trainieren, da die Online-Inferenz des Teachers während des Trainings vermieden wird – zu Gesamtkosten von 5–20 $. Empirisch werden Pearson-/Spearman-Korrelationen von 77,55 %/77,45 % auf STSbTR erzielt, womit das 300M-Parameter-Teacher-Modell (73,84 %/72,92 %) übertroffen wird. Auf TR-MTEB (26 Aufgaben) wird eine durchschnittliche Punktzahl von 63,9 % erreicht (7. Platz von 26 Modellen), was einen wettbewerbsfähigen Kosten-Qualitäts-Kompromiss bei 33 % weniger Parametern als der Teacher bietet. Zur Förderung der Reproduzierbarkeit und nachgelagerten Nutzung werden alle Artefakte veröffentlicht, darunter Modellgewichte, Tokenizer-Dateien, vorberechnete Embedding-Datensätze sowie Open-Source-Tools zum Klonen und zur Destillation.
Prozedurale 3D-Modellierung mittels Code entwickelt sich zu einem vielseitigen Paradigma, das deterministische, engine-bereite und präzise bearbeitbare Assets bietet, die neuronalen 3D-Generatoren von Natur aus fehlen. Die Erstellung solcher prozeduralen Inhalte erfordert jedoch tiefgehende Kenntnisse in 3D-Software-APIs, parametrischem Design und geometrischem Denken auf Code-Ebene. In dieser Arbeit schlagen wir 3DCodeBench vor, einen systematischen Benchmark zur Evaluierung von Vision-Language-Modell (VLM)-Agenten für die prozedurale 3D-Generierung in 3D-Modellierungssoftware. Konkret bewertet 3DCodeBench, wie effektiv 12 fortschrittliche VLMs als prozedurale 3D-Modellierer dienen können, indem sie Text- und Bildreferenzen in prozeduralen Code für 3D-Modellierungssoftware übersetzen. In Anerkennung der Tatsache, dass automatisierte Metriken die wahrnehmungsbezogene Qualität von 3D-Formen möglicherweise nicht vollständig erfassen, bauen wir 3DCodeArena, eine Ranking-Plattform, die auf paarweisen menschlichen Präferenzen für generierte 3D-Ergebnisse basiert. Aus umfangreichen Evaluierungen und Ergebnissen beobachten wir: (1) Fehler resultieren meist aus API-Fehlanpassungen, während erfolgreiche Renderings immer noch unter nicht verbundenen oder schwebenden 3D-Geometriekomponenten leiden. (2) Testzeit-Skalierung, wie höhere Denkbudgets und mehrstufige Verfeinerung, verbessert die Gesamtleistung. Unsere Ergebnisse unterstreichen einen kritischen Bedarf an hochwertigen prozeduralen Codierungsdaten, um kommerzielle VLMs voranzubringen. Darüber hinaus erfordert effektive prozedurale 3D-Modellierung eine robuste Ausführungsumgebung, die hochauflösendes Feedback für iterative Verfeinerung bietet. Wir veröffentlichen 3DCodeBench, einschließlich des kuratierten groß angelegten Datensatzes mit multimodalen (Text/Bild) Prompts, prozeduralem Code, 3D-Objekt-Tripletts, Evaluierungsprotokoll und der öffentlichen 3DCodeArena-Plattform als grundlegendes Toolkit zur Erforschung VLM-basierter prozeduraler 3D-Modellierer.
Da reale Anwendungen zunehmend die Verarbeitung von Eingaben mit 100k+ Tokens erfordern, wird die Kluft zwischen Kontextlänge und Inferenzeffizienz zu einem kritischen Engpass. Kontextkomprimierung bietet einen Weg, die Prefill-Kosten zu senken, während die Aufgaben-Genauigkeit erhalten bleibt. Allerdings weisen bestehende trainingsfreie, auf Aufmerksamkeit basierende Methoden erhebliche Lücken bei anspruchsvollen Langkontext-Aufgaben wie dem logischen Schließen über Code auf. Wir stellen LongAttnComp vor, eine auf Langkontexte adaptierte Version von AttnComp, die eine leichtgewichtige, auf Kreuzaufmerksamkeit basierende Bewertungsschicht feinabstimmt und tokenweises Chunking, einen Token-Budget-Top-p-Algorithmus, positionsbezogene Neuordnung sowie einen formatagnostischen Abfrage-Parser einführt. Darüber hinaus entwerfen wir ein zweistufiges Feinabstimmungsrezept für den Kompressor: Stufe 1 baut eine allgemeine Retrieval-Grundlage aus NIAH-artigen Daten auf, und Stufe 2 erweitert diese mit Multi-Hop- und Reasoning-Daten für eine breitere Abdeckung von Langkontext-Aufgaben. Auf InfiniteBench Code-Debug erreicht LongAttnComp die Genauigkeit des Vollkontexts oder übertrifft sie, übertrifft trainingsfreie Basislinien deutlich und überträgt sich auf vier Zielmodelle aus drei Familien. Auf LongBench v2 schließt das zweistufige Rezept die Lücke von Stufe 1 beim Multi-Dokumenten-Reasoning weitgehend, während die Code-Debug-Leistung erhalten bleibt.
Diese Arbeit befasst sich mit der Herausforderung, 3D-Netze als native Modalität in multimodale große Sprachmodelle (MLLMs) zu integrieren. Diffusionsbasierte große Rekonstruktionsmodelle entkoppeln semantisches Verständnis von geometrischem Denken und arbeiten als zustandslose Rekonstrukteure, die auf dichten 2D-Pixel-Priors basieren. Neuere MLLM-basierte Methoden behandeln die 3D-Modalität als externen Output statt als native Komponente der multimodalen Sequenz und nehmen inkrementelle Anpassungen vor, ohne systematisch zu analysieren, wie geometrische Mannigfaltigkeiten mit MLLM-Feature-Räumen ausgerichtet werden. Wir stellen EVA01 vor, ein einheitliches Framework, das die Modalitätsgrenzen von MLLMs erweitert, um 3D-Netzverständnis, -generierung und kontextbewusste Bearbeitung nativ zu integrieren. Aufbauend auf einer Mixture-of-Transformers (MoT)-Architektur entkoppelt EVA01 das Modell in einen vortrainierten Verständnis-Experten (E_{und}) und einen strukturell gespiegelten Generierungs-Experten (E_{gen}), die durch gemeinsam genutzte globale Selbstaufmerksamkeit mit harter Modalitätslenkung verbunden sind. Dieses Design stimmt den semantischen latenten Raum des MLLM-Backbones mit der geometrischen Mannigfaltigkeit ab und ermöglicht die direkte Übertragung multimodaler Priors ohne Zwischenrepräsentationen in 2D. Ergebnisse zeigen, dass EVA01 eine State-of-the-Art-native Text-zu-3D-Generierungstreue erreicht und robuste Langzeit-Mehrfachbearbeitung mit Identitätserhaltung ermöglicht – eine Fähigkeit, die für zustandslose Rekonstruktionspipelines grundsätzlich unzugänglich ist. Unsere Erkenntnisse bieten zudem architektonische Einblicke für die Integration von 2D-Grundlagenmodellen mit 3D-Aufgaben und informieren das Design 3D-nativer multimodaler Systeme. Projektseite: https://www.seeles.ai/research/pages/EVA01
Akademische Forscher benötigen effiziente und zuverlässige Methoden zur Erhebung hochwertiger Informationen aus vertrauenswürdigen Quellen. Moderne Werkzeuge für KI-gestützte Forschung leiden jedoch weiterhin unter der Tendenz großer Sprachmodelle (LLMs), faktisch ungenaue oder sinnlose Ausgaben zu produzieren, die üblicherweise als Halluzinationen bezeichnet werden. Wir wenden das extraktive Frage-Antwort-System VerbatimRAG auf Forschungspapiere im ACL Anthology an, das Benutzeranfragen direkt wörtlichen Textabschnitten in abgerufenen Dokumenten zuordnet. Wir erstellen einen neuartigen Ground-Truth-Datensatz für die Aufgabe, Benutzeranfragen relevanten Textabschnitten in Forschungspapieren zuzuordnen, und verwenden diesen, um eine Vielzahl extraktiver Modelle zu trainieren und zu evaluieren. Die manuelle Annotation wird von NLP-Forschern durchgeführt und basiert auf synthetischen Benutzeranfragen, die mittels einer maßgeschneiderten Pipeline auf Basis der ScIRGen-Methodik generiert wurden, gepaart mit Textabschnitten aus Forschungspapieren, die von VerbatimRAG abgerufen wurden. In diesem Benchmark erreicht ein 150M-Parameter ModernBERT-Token-Klassifikator, der mit silberner Überwachung aus unserer Pipeline trainiert wurde, das beste F1 auf Wortebene (53,6), vor dem stärksten evaluierten LLM-Extraktor (48,7).
SwiGLU hat sich als Standard-Gating-Aktivierung in modernen Transformer-MLPs etabliert, doch seine Gate-Schärfe – die Glätte und Selektivität der Gating-Funktion – bleibt während des Trainings typischerweise festgelegt. In dieser Arbeit schlagen wir Confidence-Aware SwiGLU (κ-SwiGLU) vor, eine Variante von SwiGLU für Mixture-of-Experts (MoE)-Modelle, die die Expert-Gate-Schärfe gemäß der tokenweisen Routing-Konfidenz anpasst. Konkret parametrisiert κ-SwiGLU den Schärfekoeffizienten des SiLU-Gates als eine lernbare Funktion des Router-Logits, sodass jede Expert-Gate-Einheit zwischen glattem, breit aktivem Gating und scharfem, selektivem Gating interpolieren kann. Wir evaluieren κ-SwiGLU auf dem FineWeb-Edu-Datensatz mit MoE-Transformer-Modellen, deren Größe von 8 bis 28 Schichten reicht. In diesen Einstellungen verbessert κ-SwiGLU die durchschnittliche CORE-Leistung, fügt dabei vernachlässigbare Parameter hinzu und verursacht nur einen geringen Rechenaufwand, was zeigt, dass konfidenzbewusste Gate-Schärfe ein vielversprechender Mechanismus zur Verbesserung von MoE-MLPs ist. Der Code ist verfügbar unter https://github.com/askerlee/kappa-swiglu.
Deep Research Agents haben eine starke Fähigkeit in mehrschrittiger Informationsabfrage, logischem Schlussfolgern und der Erstellung langer Berichte gezeigt, aber bestehende Benchmarks und Systeme bleiben überwiegend textzentriert, mit begrenzter Bewertung, ob visuelle Elemente faktisch zuverlässig und gut mit der umgebenden Analyse abgestimmt sind. Um diese Lücke zu schließen, führen wir TVIR (Text–Visual Interleaved Report Generation) ein, das TVIR-Bench, einen Benchmark von 100 von Experten kuratierten multimodalen Deep-Research-Aufgaben, die erfordern, dass visuelle Elemente spezifische analytische Unterziele erfüllen, und TVIR-Agent, ein hierarchisches Multi-Agenten-Framework, das als starke Baseline für die Erstellung von Gliederungen, das Abrufen von Bildern, das Generieren von Diagrammen mit nachvollziehbaren Quellen und das Verfassen von Berichten durch kontextbewusstes sequenzielles Schreiben dient, umfasst. Wir entwickeln ferner ein duales Bewertungsframework, das textuelle Bewertung und visuelle Bewertung kombiniert. Experimente über neun Deep-Research-Systeme hinweg zeigen, dass TVIR-Agent eine starke Gesamtleistung erzielt, was die Bedeutung expliziten multimodalen Designs und der Bewertung für evidenzgesteuerte Berichtserstellung unterstreicht.
Für effektive Unterstützung in der realen Welt benötigen KI-Agenten eine robuste Theory of Mind (ToM): die Fähigkeit, mentale Zustände von Menschen aus ihrem Verhalten zu erschließen. Trotz jüngster Fortschritte bestehen weiterhin mehrere zentrale Herausforderungen, darunter (1) Online-Inferenz mit robusten Unsicherheitsaktualisierungen über mehrere Hypothesen hinweg; (2) effizientes Schlussfolgern, das für Echtzeitunterstützung geeignet ist; und (3) das Fehlen von Ground-Truth-Annotationen mentaler Zustände in realen Anwendungsdomänen. Wir begegnen diesen Herausforderungen mit der Einführung von MindZero, einem Rahmenwerk für selbstüberwachtes Reinforcement Learning, das multimodale große Sprachmodelle (MLLMs) für effizientes und robustes Online-Schlussfolgern über mentale Zustände trainiert. Während des Trainings wird das Modell dafür belohnt, Hypothesen über mentale Zustände zu generieren, die die von einem Planer geschätzte Wahrscheinlichkeit beobachteter Aktionen maximieren, ähnlich wie beim modellbasierten ToM-Schlussfolgern. Diese Methode macht daher explizite Annotationen mentaler Zustände überflüssig. Nach dem Training verinnerlicht MindZero das modellbasierte Schlussfolgern in eine schnelle Single-Pass-Inferenz. Wir evaluieren MindZero im Vergleich zu Basislinien bei anspruchsvollen Aufgaben des mentalen Schlussfolgerns und der KI-Unterstützung in Gridworld- und Haushaltsdomänen. Wir stellten fest, dass LLMs allein unzureichend sind; modellbasierte Methoden verbessern die Genauigkeit, sind jedoch langsam, kostspielig und durch die Kapazität des zugrunde liegenden MLLM begrenzt. Im Gegensatz dazu verbessert MindZero die intrinsische ToM-Fähigkeit von MLLMs und übertrifft modellbasierte Methoden sowohl in Genauigkeit als auch Effizienz deutlich, was zeigt, dass mentales Schlussfolgern effektiv als selbstüberwachte Fähigkeit erlernt werden kann.
Trotz der rasanten Fortschritte bei Text-zu-Bild-Modellen (T2I-Modellen) bleibt die Erzeugung von Bildern, die komplexe kompositionelle Promptvorgaben (Attributbindungen, Objektbeziehungen, Zählen) präzise widerspiegeln, eine Herausforderung. Um dem zu begegnen, schlagen wir BiDPO vor, ein Framework zur Verbesserung der Fähigkeit von T2I-Modellen zur kompositionellen Text-zu-Bild-Generierung. Zunächst stellen wir eine sorgfältig entwickelte Pipeline zur Konstruktion eines großen Präferenzdatensatzes, BiComp, mit strenger Qualitätskontrolle vor. Anschließend erweitern wir Diffusion DPO, um Bild- und Textpräferenzen gemeinsam zu optimieren, was sich als äußerst effektiv erweist, um die Modelle zu verbessern, komplexe Textvorgaben bei der Generierung zu befolgen. Zur weiteren Verbesserung der feinkörnigen Ausrichtung wenden wir eine regionsbezogene Steuerungsmethode an, die sich auf für kompositionelle Konzepte relevante Bereiche konzentriert. Experimentelle Ergebnisse zeigen, dass unser BiDPO die kompositionelle Treue wesentlich verbessert und auf mehreren Benchmarks konsistent bessere Ergebnisse als frühere Methoden erzielt. Unser Ansatz unterstreicht das Potenzial präferenzbasierter Feinabstimmung für komplexe Text-zu-Bild-Aufgaben und bietet eine flexible und skalierbare Alternative zu bestehenden Techniken.
Videoweltmodelle (Weltmodelle) haben vielversprechende Ergebnisse bei der Policy-Bewertung und -Verbesserung gezeigt, indem sie realistische zukünftige Beobachtungen basierend auf Ego-Roboter-Aktionen imaginieren. Während Weltmodelle Verteilungen über Zukünfte modellieren können, stützen sich Policy-Bewertung und -Verbesserung typischerweise auf nominelle Imaginationen, die auswirkungsreiche Ergebnisse von Roboteraktionen übersehen können, es sei denn, es werden unverhältnismäßig viele Stichproben gezogen. Um robuste Policy-Bewertung und -Verbesserung auf Basis von Weltmodell-Imaginationen zu ermöglichen, schlagen wir StressDream vor, das Imaginationen zur Inferenzzeit hin zu auswirkungsreichen, aber plausiblen Ergebnissen lenkt, indem das anfängliche Rauschen von diffusionsbasierten Weltmodellen optimiert wird. Allerdings ist die Optimierung des hochdimensionalen Rauschens eine Herausforderung: Die Optimierung muss nuancierte, szenenabhängige Zieleignisse in generierten Videos berücksichtigen und gleich sicherstellen, dass kein verzerrungsfreies (OOD) Rauschen entsteht, das zu unplausiblen Imaginationen führt. Wir begegnen diesem Problem mit zwei komplementären Zielen: einem semantischen Ziel mit einem Vision-Language-Modell, das durch die Analyse des generierten Videos informative Gradienten liefert, und einem Plausibilitätsziel, das verhindert, dass das optimierte Rauschen in den OOD-Bereich abdriftet. Mit hochmodernen Videoweltmodellen für autonomes Fahren und Robotermanipulation zeigen wir, dass StressDream Imaginationen effektiv zu auswirkungsreichen, aber plausiblen Ergebnissen lenkt, die zur Inferenzzeit durch Text spezifiziert werden, wie etwa Aufgabenfehler, und so eine robuste Policy-Bewertung und -Verbesserung ermöglicht, indem Aktionen identifiziert werden, deren plausible Zukünfte unerwünschte Ergebnisse beinhalten. Videoresultate sind verfügbar unter https://junwon.me/StressDream/.
Wir stellen eine Funktionsform (die wir als Unified Neural Scaling Law (UNSL) bezeichnen) vor, die das Skalierungsverhalten tiefer neuronaler Netze präzise modelliert und extrapoliert, wenn mehrere Dimensionen gleichzeitig variiert werden (d. h. wie sich die interessierende Bewertungsmetrik ändert, wenn gleichzeitig die Anzahl der Modellparameter, die Größe des Trainingsdatensatzes, die Anzahl der Trainingsschritte, die Anzahl der Inferenzschritte, die Rechenleistung und verschiedene Hyperparameter variiert werden), und zwar für verschiedene Architekturen und für jede einzelne Aufgabe innerhalb einer Vielzahl von vorgelagerten und nachgelagerten Aufgaben. Diese Menge umfasst groß angelegte Bildverarbeitung, Sprachverarbeitung, Mathematik und Reinforcement Learning. Im Vergleich zu anderen Funktionsformen für neuronale Skalierung liefert diese Funktionsform Extrapolationen des Skalierungsverhaltens, die für diese Menge wesentlich genauer sind.
Prädiktive Physical-AI-Systeme geben Zustands-Rollouts, Aktions-Chunks und latente Pläne aus, jedoch impliziert ein niedriger quadratischer Mittelfehler (RMSE) nicht, dass ein bestimmter Vorschlag physikalisch ausführbar ist. Wir formulieren physikalische Zulässigkeit als eine Vorhersage-Steuerungsschnittstelle: Vor der Ausführung wird ein dekodierter Vorschlag als Kandidatendynamik behandelt und mittels kinematischer, dynamischer sowie direkt-zu-zusammengesetzter Horizontbedingungen evaluiert. Das Bestehen ist kein Garant für Aufgabenerfolg; eine Zurückweisung identifiziert eine Verletzung des spezifizierten physikalischen Rahmens und liefert eine komponentenbezogene Begründung. Auf Hugging Face LeRobot PushT zeigt kontrollierte Falsifikation, dass der ein-Schritt-Vorhersage-RMSE und standardisierte Dynamikresiduen eine Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC) von 0,982 bzw. 0,972 erreichen, rein kinematische Bedingungen eine AUC von 0,592, und das vollständige Gatter eine AUC von 0,957 mit bedingungsbezogener Zuordnung. In wiederholungsbasierten Interventionsversuchen verhindern residuenbasierte Filter und das vollständige physikalische Zulässigkeitsgatter 87–89 % der ungültigen Vorschläge, während der mittlere Fortschritt nahe 0,998 erhalten bleibt.
Große Sprachmodelle lösen komplexe Probleme, indem sie lange Ketten expliziter Denkschritte (Reasoning-Token) erzeugen. Obwohl dies effektiv ist, macht es das Denken teuer, längenempfindlich und auf (diskrete) natürliche Sprache beschränkt. Während latentes Denken eine kontinuierliche Alternative bietet, bleibt die Bestimmung nützlicher Strukturen für latente Zwischenzustände eine offene Herausforderung. In dieser Arbeit formulieren wir latentes Denken als ein geometrisches Pfadapproximationsproblem im vortrainierten Token-Embedding-Raum des Modells. Wir führen das Geometrische Latente Denken (GLR) ein, das einen leichten Übergangs-Head (Transition Head) verwendet, um iterative Richtungsaktualisierungen im Embedding-Raum vorherzusagen. Mithilfe von textuellen Chain-of-Thought-Spuren als Anker lernt GLR, diskrete Denktrajektorien zu approximieren, während kontinuierliche Abweichungen von exakten Token-Embeddings erlaubt sind. Auswertungen an mathematischen Denk-Benchmarks mit Qwen3-Modellen offenbaren ein emergentes Phänomen: Geometrisches latentes Denken führt zu deutlich kürzeren Generierungen, ohne ein explizites Längenziel. Indem frühe explizite Denkschritte durch kontinuierliche latente Schritte ersetzt werden, erreichen Modelle oft korrekte Antworten mit erheblich weniger gesamten Generierungsschritten. Diese Ergebnisse deuten darauf hin, dass kontinuierliche Trajektorien als kompakte Zwischen-Denkzustände wirken und einen neuen Trade-off zwischen latentem Rechenbudget, Ausgabelänge und Genauigkeit offenlegen.
Diagramme sind ein primäres Medium zur Vermittlung quantitativer und relationaler Informationen, doch die systematische Evaluierung von Diagramm-Parsing-Modellen bleibt schwierig. Bestehende Benchmarks konzentrieren sich auf enge Diagrammtypen und lassen diagrammatische Strukturen wie Flussdiagramme und Mindmaps weitgehend unberücksichtigt, während Modelle Ausgaben in inkompatiblen Formaten produzieren und Datensätze selten die in der Praxis vorkommenden gedruckten oder handgezeichneten Bilder enthalten. Um diese Probleme zu adressieren, führen wir ChartArena ein, einen umfassenden bilingualen Benchmark, der acht Diagrammfamilien abdeckt, die sowohl numerische Diagramme als auch diagrammatische Strukturen umfassen, jeweils evaluiert in drei visuellen Szenarien: digitale Renderings, gedruckte Fotos und handgezeichnete Fotos. Der Datensatz wird durch eine kollaborative Annotation-Pipeline aus Mensch und Agent mit mehrstufiger menschlicher Verifikation erstellt, um die Zuverlässigkeit der Annotationen zu gewährleisten. Um einen fairen modellübergreifenden Vergleich zu ermöglichen, entwickeln wir zudem ein formatunabhängiges Evaluationsprotokoll, das heterogene Ausgaben in zwei kanonische semantische Räume abbildet – eine normalisierte Triplet-Ansicht und eine gerichtete Graphenansicht – und diese mit strukturbewussten Metriken bewertet. Durch umfangreiche Evaluierung von 26 führenden MLLMs stellen wir drei konsistente Ergebnisse fest: (i) führende proprietäre Modelle wie Gemini 3.1 Pro liegen insgesamt vorn, doch die stärksten Open-Source-Systeme holen schnell auf; (ii) Dokumenten-Parsing-Modelle verarbeiten numerische Diagramme angemessen, fallen aber bei diagrammatischen Strukturen stark zurück; und (iii) spezialisierte Diagramm-Parser bleiben auf enge Diagrammfamilien beschränkt. Über alle Modelle hinweg bleiben Radar-Diagramme und handgezeichnete Szenarien besonders herausfordernd. Diese Erkenntnisse zeigen, dass ChartArena klare Fähigkeitslücken aufdeckt und eine einheitliche Grundlage für zukünftige Fortschritte bietet. ChartArena ist öffentlich verfügbar unter https://github.com/pspdada/ChartArena.
Inverse Grafik ist ein seit langem bestehendes und stark unterbestimmtes Problem, bei dem versucht wird, Bilder als editierbare 3D-Szenen zu rekonstruieren, die gerendert, neu beleuchtet und manipuliert werden können. In dieser Arbeit untersuchen wir, ob vortrainierte Vision-Language-Modelle (VLMs) inverse Grafik direkt aus einem einzelnen Bild ausführbar umsetzen können, indem sie eine Szene als ein editierbares Blender-Programm rekonstruieren – ohne auf spezialisierte 2D- oder 3D-Basismodelle, differenzierbares Rendering oder Multi-View-Überwachung angewiesen zu sein. Wir stellen Staged Executable Inverse Graphics (SEIG) vor, ein agentisches Framework, das eine 3D-Szene aus einem einzelnen Bild rekonstruiert, indem es Szenenfaktoren wie Geometrie, Materialien, Komposition und Beleuchtung schrittweise direkt im ausführbaren Blender-Code-Raum verfeinert. Wir evaluieren unser Framework an verschiedenen Szenen anhand einer Reihe von Rekonstruktionsmetriken, die die Pixelgenauigkeit, Wahrnehmungstreue und semantische Genauigkeit abdecken. Unsere Experimente zeigen, dass die gestaffelte Rekonstruktion die Rekonstruktionstreue erheblich verbessert und unterstreichen die Bedeutung der Aufgabenzerlegung für ausführbare inverse Grafik mit allgemeinen VLMs. Abschließend präsentieren wir verschiedene nachgelagerte Anwendungen, die durch die rekonstruierten editierbaren Blender-Szenen ermöglicht werden.
Wir beschreiben eine Bibliothek für mathematische Finanzwirtschaft, die im Beweisassistenten Lean 4 auf Basis von Mathlib und dem BrownianMotion-Paket erstellt wurde. Sie ist breit gefächert: mehr als zweihundert sorgenfreie Theoreme aus elf Bereichen, von den maßtheoretischen Grundlagen der stochastischen Analysis in stetiger Zeit über die Derivatebewertung bis hin zur angewandten Risiko-, Portfolio- und Fixed-Income-Theorie, und unseres Wissens nach die umfassendste maschinengeprüfte Entwicklung der mathematischen Finanzwirtschaft bis heute. Die Breite bildet den Rahmen, nicht den Schwerpunkt. Zwei Dinge machen sie mehr als einen Katalog. Sie reicht weit genug in die stetige Theorie hinein, um das L2-Itô-Integral als beschränkte lineare Isometrie zu konstruieren und das risikoneutrale Bewertungsmaß abzuleiten, anstatt es anzunehmen. Und sie führt ein Treueaudit durch: jedes Ergebnis wird danach klassifiziert, wie seine Lean-Aussage mit der von ihm behaupteten Mathematik zusammenhängt, und eine bau-erzwungene Schranke legt die Axiome fest, die jeder Beweis tatsächlich verwendet, sodass ein Leser genau sehen kann, was bewiesen wurde und was nur unter zusätzlichen Hypothesen bewiesen wurde. Wir schließen mit einem ehrlichen Ergebnis: Eine formale Grundlage über der klassischen Finanzmathematik liefert zertifizierte Vereinheitlichung bekannter Ergebnisse und keine neue Finanztheorie. Der Beitrag ist daher methodologischer und infrastruktureller Art: wiederverwendbare verifizierte Grundlagen für die mathematische Finanzwirtschaft, zusammen mit dem Treueaudit.
Wir stellen eine neuartige Formulierung für die gitterfreie Simulation reduzierter Ordnung von verformbaren hyperelastischen Objekten vor. Bisherige Arbeiten zur Simulation reduzierter Ordnung in der Elastodynamik stellen die Eingabegeometrie entweder durch Netze dar, die aufgrund der Herausforderungen beim Scannen und Triangulieren komplexer Formen schwer zu erhalten sein können, oder durch neuronale Felder, die eine formabhängige Optimierung erfordern. Wir schlagen vor, eine Darstellung mittels der Reproduzierenden Kernel-Partikel-Methode (RKPM) zu verwenden, die die Konstruktion von Skinning-Gewichten reduzierter Ordnung durch Lösen eines generalisierten Eigenwertsystems auf der Hessematrix der elastischen Energie ermöglicht. Wir zeigen, dass diese Formulierung nicht nur eine 40-fache Trainingsbeschleunigung im Vergleich zur formabhängigen Optimierung neuronaler Felder bewirkt, sondern auch geringere Simulationsfehler erzielt, wenn sie gegen die konvergierten Ergebnisse der Finite-Elemente-Methode evaluiert wird. Wir präsentieren unsere Simulationsergebnisse an einer Vielzahl von Objekten in verschiedenen Darstellungen, darunter Netze und Gauß'sche Splats, sowie die Anwendung unserer Methode in der nachgelagerten Aufgabe der Robotersimulation.
Groß angelegte mehrsprachige Bitexte weisen häufig zwei unterschiedliche Probleme auf: nicht-parallele Satzpaare und Übersetzungen geringer Qualität. Wir zerlegen die modellbasierte Bewertung solcher Daten in zwei unabhängige Komponenten: die Parallelitätsbewertung mithilfe mehrsprachiger Einbettungen und die referenzfreie Qualitätsschätzung (QE). Für die Parallelität evaluieren wir vier Einbettungsmodelle anhand von FLORES-200- und BOUQuET-Retrieval-Aufgaben, die 6.654 Quell-Ziel-Richtungen in unserem Zielsprachenpaar-Inventar abdecken. Für die QE bewerten wir neun referenzfreie Evaluatoren anhand professioneller FLORES-200-Übersetzungen über 41.412 geordnete Quell-Ziel-Richtungen hinweg. Die Ergebnisse zeigen, dass kein Modell über alle Übersetzungsrichtungen hinweg universell zuverlässig ist. Naive QE-Ensembles verwässern starke Modellsignale, während eine dokumentierte Zielsprachenabdeckung stark mit höheren QE-Werten assoziiert ist. Insgesamt deuten diese Ergebnisse darauf hin, dass die Bewertung mehrsprachiger Paralleldaten am besten als ein richtungsbewusstes Routing- und Kalibrierungsproblem angegangen wird, bei dem nicht erwartet werden kann, dass eine einzige universelle Metrik für alle Sprachen ausreicht.
Reasoning-Modelle werden anhand von Single-Turn-Benchmarks evaluiert, aber in Multi-Turn-Dialogen eingesetzt, in denen Nutzer korrekte Antworten hinterfragen. Unter anhaltendem adversariellem Druck entdecken wir einen bisher undokumentierten Fehlermodus: Die Chain-of-Thought bleibt von der ersten bis zur letzten Runde faktisch korrekt, während die ausgegebene Antwort ins Falsche kippt. Wir nennen dies untreue Kapitulation (UK) und isolieren es mit einem 2×2 latent-verhaltensorientierten Framework, das sowohl Flip-Rate-Metriken als auch Single-Turn-Faithfulness-Probes übersehen. Über drei Datensätze (MT-Consistency, MMLU-Pro, GSM8K) hinweg liegt die latent-korrekte Rate beim Verhaltens-Flip im Denkmodus nahe 50% und fällt unter no_think auf 11–15% – gepaarte, modellinterne Kausalbelege dafür, dass Reasoning die Lücke erzeugt. Über Modelle hinweg folgt der Effekt dem Reasoning-Kanal (hoch bei Qwen3-32B und GPT-OSS-20B, niedrig bei inline-CoT Gemma-4-31B-it). Ein unabhängiger GPT-4o-Richter bestätigt 86% der UK-Labels; ein Token-Level-Probe zeigt, dass das Argmax des Antwort-Slots in 84% der UK-Zellen korrekt ist; und eine naive trace-verankerte Verteidigung schlägt fehl. Wir veröffentlichen alle Trajektorien, Traces und Richterlabels.
Ein Retrieval-gestütztes Generierungssystem (RAG), das über einem institutionellen Korpus mit mehreren Autoren eingesetzt wird, kann dieselbe Frage je nach der abgerufenen Quelle unterschiedlich beantworten – ein Fehlermodus, den das vorherrschende Einzel-Goldstandard-Paradigma nicht diagnostizieren kann. Wir argumentieren, dass Quellenabhängigkeit eine fehlende Achse der NLP-Evaluierung darstellt und dass ihre Prüfung bedeutet, die Evaluierungseinheit von der Korrektheit der Antwort auf die Beziehung zwischen den Quellen zu verlagern. Wir konkretisieren dies am Beispiel der Aufklärung von Transplantationspatienten, wo institutionelle Quellen nachweislich voneinander abweichen, und veröffentlichen drei Artefakte: TransplantQA, einen Benchmark mit echten Patienten-fragen, die jeweils durch die Verankerung der Generierung in mehreren institutionellen Handbüchern als potenziellen Quellen beantwortet werden; HERO-QA, eine hierarchische Retrieval-Strategie, die jede Antwort verankert und prüft; sowie einen strukturierten Bewerter, der Zwischenquellenbeziehungen anhand einer validierten 5-Label-Taxonomie bewertet. Im großen Maßstab deckt besseres Retrieval weit mehr Uneinigkeit auf als frühere Schätzungen vermuten ließen – es unterschätzt deren Häufigkeit, nicht ihre Intensität. Das Framework ist domänenunabhängig und auf juristische sowie bildungsbezogene RAG-Systeme übertragbar: Die Messung von Quellenabhängigkeit ist eine Verantwortung für eingesetzte Multi-Quellen-NLP-Systeme im Allgemeinen.
LLM-generierte Reviews für wissenschaftliche Paper gewinnen erheblich an Bedeutung und werden sogar offiziell von großen Konferenzen pilotiert. Wir müssen davon ausgehen, dass nicht nur Reviewer LLM-Unterstützung nutzen, sondern auch Autoren LLMs zur Überarbeitung ihrer Paper vor der Einreichung einsetzen. In dieser Arbeit führen wir empirische Experimente mit Papern aus dem 2025 ACL Rolling Review (ARR) durch, um LLM-Reviews sowohl aus der Perspektive des Autors als auch des Reviewers zu bewerten. Zunächst stellen wir eine begrenzte Übereinstimmung von LLM-Reviews mit menschlichen Reviews fest. Im besten Fall ist die Übereinstimmung angemessen. Wir finden jedoch auch, dass die LLM-menschliche Übereinstimmung je nach Prompts und Modellen erheblich variiert. Schließlich untersuchen wir das Szenario, in dem der Autor einen iterativen Entwurf-Überarbeitungs-Workflow nutzt, um die Einreichung entsprechend des LLM-Reviews zu verbessern. Wir stellen fest, dass dieses "Gaming" von LLM-Reviews in bestimmten Szenarien effektiv sein kann und zu einem statistisch signifikanten Anstieg der Gesamtbewertungen für bis zu 35 % der Paper führt. Wir veröffentlichen unseren Code: https://github.com/uhh-hcds/reviewarcade.
KI-Systeme sind fehlbar, und Menschen können Fehler machen, wenn sie entscheiden, ob sie der KI mehr vertrauen als ihrem eigenen Urteil. Daher erfordert die Verbesserung der Mensch-KI-Zusammenarbeit ein Verständnis dafür, wann, warum und wie Menschen entscheiden, sich auf KI zu verlassen. Wir untersuchen zwei unterschiedliche Entscheidungen zur Abhängigkeit: die Delegationsentscheidung – die Entscheidung, wann die KI autonom handeln soll, ohne ihr Ergebnis zu kennen, und die Übernahmeentscheidung – die Bewertung von KI-Vorschlägen und die Entscheidung, wie diese genutzt werden. Beide dieser entkoppelten Abhängigkeitsmuster prägen die Zusammenarbeit, aber frühere Arbeiten untersuchen sie selten gemeinsam in realistischen Umgebungen mit denselben Nutzern. Wir schließen diese Lücke, indem wir kollaborative Mensch-KI-Teams untersuchen, die in einem Frage-Antwort-Spiel gegeneinander antreten, bei dem Menschen wählen können, wann und wie sie mit KI-Agenten zusammenarbeiten, um zu gewinnen. Unsere 24 Spiele bringen 23 menschliche Experten mit 16 KI-Agenten zusammen und erfassen 387 Delegations- und 1440 Übernahmeentscheidungen. Während die Mensch-KI-Zusammenarbeit besser abschneidet als KI oder Menschen allein, treffen Menschen suboptimale Kooperationsentscheidungen, sowohl durch zu geringes Vertrauen in korrekte KI-Vorschläge (3,9 % der verpassten Gelegenheiten) als auch durch übermäßiges Vertrauen, wenn die KI sie in die Irre führt (1,7 %). Beide Seiten tragen zu falschen Antworten bei: Die berichtete Modellkonfidenz liegt nahe am Zufallsniveau, wenn Menschen und KI uneins sind, während Bestätigungsfehler eine höhere Unterabhängigkeit (64,5 %) verursacht, wenn ein KI-Vorschlag mit der anfänglich falschen Antwort des Menschen übereinstimmt. Um diese Lücke zu schließen, empfehlen wir kalibrierte Konfidenz, evidenzbasierte Erklärungen und Mechanismen, die Nutzern helfen, ihr Vertrauen zu verfeinern.
In dieser Arbeit wird das Training eines neuronalen Netzes exakt als eine Suche durch Hamilton-Jacobi-Anfangswertprobleme identifiziert: jeder Gradientenschritt wählt die Anfangsdaten einer viskosen Hamilton-Jacobi-Gleichung, deren Hopf-Cole-Propagator am besten zu den Beobachtungen passt; bei der Inferenz ist der Eingabe der räumliche Punkt, an dem diese Lösung ausgewertet wird, und die Anfangsbedingung ist bereits in den Gewichten kodiert. Die Korrespondenz ist exakt für Log-Sum-Exp-Schichten und strukturell für breitere Architekturen: Residualnetzwerke, Transformatoren und rekurrente Architekturen (RNNs, LSTMs, SSMs) diskretisieren jeweils dieselbe Klasse von Hamilton-Jacobi-Gleichungen, mit architekturabhängigem Hamilton-Operator und Viskosität. Ein einzelner Deformationsparameter \(\varepsilon\) vereint alle vier Perspektiven (Netzwerk, tropische Algebra, viskose PDE, konvexe Optimierung) in einem kommutativen Diagramm, das unter Lipschitz-Bedingungen abgeschlossen ist. Zu den quantitativen Konsequenzen gehören: die minimax-optimale Generalisierungsrate \(O(n^{-1/(d+2)})\) für festes \(t\); adversarial Robustheit, gesteuert durch \(\varepsilon\); Backpropagation als die Kostenzustandsgleichung des Hamilton-Systems für Residualnetzwerke (Pontryagin-Maximumprinzip); Skalierungsexponenten, die mit der intrinsischen Dimension der Daten mittels PDE-Quadratur übereinstimmen; und eine geschlossene \(O(N)\)-Einflussfunktion (Softmax-Attributionsgewichte \(\pi_j\)), deren Entropielandschaft mit zunehmendem \(\varepsilon\) Faltenverzweigungen durchläuft, die jeweils Attributionsbecken verschmelzen.
Die diachrone Entwicklung vom Lateinischen zu den romanischen Sprachen umfasste eine Umstrukturierung des grammatischen Genussystems von einer dreiteiligen Konfiguration (Maskulinum, Femininum, Neutrum) zu einer zweiteiligen (Maskulinum, Femininum) in den meisten romanischen Sprachen. In dieser Arbeit stellen wir ein interpretierbares Deep-Learning-Framework vor, um dieses Phänomen sowohl auf lexikalischer als auch auf kontextueller Ebene zu untersuchen. Zunächst zeigen wir, dass herkömmliche Tokenisierungsstrategien für dieses ressourcenarme historische Umfeld nicht ausreichend robust sind und dass unser vorgeschlagener Tokenizer die Leistung gegenüber diesen Basislinien verbessert. Auf lexikalischer Ebene bewerten wir den Beitrag morphologischer Merkmale zur Genusvorhersage. Auf kontextueller Ebene quantifizieren wir die Beiträge verschiedener Wortartkategorien zur Vorhersage des grammatischen Geschlechts. Zusammen charakterisieren diese Analysen die Verteilung von Genusinformationen zwischen dem Lemma und seinem Satzkontext. Wir machen unsere Codebasis, Datensätze und Ergebnisse öffentlich unter https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-} verfügbar.
Die Skalierung großer Sprachmodelle (Large Language Models, LLMs) hat zwar erhebliche Leistungssteigerungen ermöglicht, aber auch beträchtliche Herausforderungen bei der Inferenzeffizienz geschaffen. Während Mixture-of-Experts-Architekturen (MoE) dieses Problem durch die Entkopplung von Modellgröße und Inferenzkosten angehen, ist das Training von MoEs von Grund auf oft instabil und rechenintensiv. Die Umwandlung vortrainierter dichter Modelle in spärliche MoEs hat sich als alternative Lösung etabliert; allerdings basieren bestehende Methoden typischerweise auf heuristischem Neuron-Clustering oder zufälliger Aufteilung, um das Feed-Forward-Netzwerk (FFN) in Experten zu partitionieren. In dieser Arbeit schlagen wir DOT-MoE vor, ein neuartiges Framework, das die Zerlegung dichter Schichten als ein differentielles optimales Transportproblem (Differentiable Optimal Transport, DOT) formuliert. Anstelle statischer Heuristiken modellieren wir die Neuronenzuweisung als ein balanciertes Transportproblem und nutzen differenzierbare Sinkhorn-Knopp-Iterationen, um strikte Expertenkapazitätsbeschränkungen durchzusetzen. Darüber hinaus verwenden wir Straight-Through-Schätzer (STE), um die diskrete Neuron-zu-Experte-Zuweisung und die Token-zu-Experte-Routing-Politik end-to-end gemeinsam zu erlernen. Umfangreiche Experimente über mehrere Architekturen und Benchmarks hinweg zeigen, dass DOT-MoE strukturiertes Pruning, heuristisches Clustering und zufällige Aufteilungen als Baseline signifikant übertrifft, wobei 90% der ursprünglichen Leistung des dichten Modells erhalten bleiben, während die aktiven Parameter um 50% reduziert werden.
Das Erlernen einer gemeinsamen Repräsentation zwischen gesprochenem Text und Geste ist zentral für den Abruf, die Synthese und das Verständnis von Co-Speech-Gesten, bleibt jedoch für semantisch bedeutungsvolle Gesten eine Herausforderung, deren kommunikative Absicht nicht allein durch Bewegung erfasst wird. Die direkte kontrastive Ausrichtung zwischen Transkripten und kontinuierlichen Bewegungs-Embeddings betont oft niedrigstufige Kinematik übermäßig und übersieht den symbolischen Gehalt semantischer Gesten. Wir schlagen semantische Bewegungsanker vor, Abstraktionen der Gestikbewegung in natürlicher Sprache, die physische Form und kommunikative Absicht erfassen. Unsere Methode diskretisiert 3D-Gesten in Körper-Hand-Bewegungsprimitiven, verbalisiert sie zu strukturierten Beschreibungen und verankert sie im Transkript, um eine auxiliäre kontrastive Überwachung zu ermöglichen. Auf BEAT2 verbessert unsere Methode den Text-zu-Geste R@1 um 8,2 % gegenüber einer direkten Text-Bewegungs-Baseline und übertrifft frühere Abrufansätze sowohl in der Text-zu-Geste- als auch in der Geste-zu-Text-Abrufrichtung. Über aggregierte Abrufmetriken hinaus hilft die Überwachung durch semantische Bewegungsanker dabei, Gesten abzurufen, die für die gesprochene Abfrage semantisch bedeutungsvoll sind, anstatt auf generische Bewegungsmuster zurückzugreifen. Eine nachgelagerte Studie zur abrufgestützten Gestengenerierung zeigte, dass Nutzer die mit unserem Ansatz abgerufenen Gesten signifikant gegenüber einer abrufgestützten Generierungs-Baseline bevorzugten, was belegt, dass semantisch fundiertes Retrieval zu Gesten führt, die die kommunikative Absicht in der nachgelagerten Generierung besser vermitteln.
Die menschliche Annotation ist die empirische Grundlage eines Großteils der NLP-Forschung – von der Datensatzerstellung bis zur Modellevaluierung – doch in Publikationen bleibt oft unklar, wer die Annotationen durchgeführt hat und wie der Annotationsprozess kontrolliert wurde. Wir legen die erste groß angelegte, aufgabenbezogene Prüfung der Berichterstattung über menschliche Annotationen in den wichtigsten NLP-Konferenzen vor und untersuchen, welche Annotationsdetails dokumentiert werden, welche fehlen und wie sich die Berichterstattung über Zeit, Thema, Konferenz und den beabsichtigten Verwendungszweck des menschlichen Urteils hinweg unterscheidet. Wir führen eine einheitliche Taxonomie der Annotationsberichterstattungspraktiken ein und validieren eine LLM-gestützte Extraktionspipeline anhand von Annotated-gold, einem menschlich begutachteten Goldstandard mit 41 Artikeln und 72 Annotationsaufgaben, wobei das beste Modell eine mit menschlichen Übereinstimmungen vergleichbare Übereinstimmung mit den begutachteten Labels erreicht (Krippendorffs Alpha 0,606 gegenüber 0,585 für die Übereinstimmung zwischen Menschen). Mithilfe dieser Pipeline erstellen wir Annotated-llm, einen Datensatz, der ACL-Konferenzbeiträge aus den Jahren 2018–2025 abdeckt und 2.667 extrahierte Annotationsaufgaben aus 1.603 Artikeln umfasst. Wir stellen fest, dass Artikel häufig operationelle Details wie Rekrutierungsstrategien, die Expertise der Annotator:innen und den Annotationsumfang angeben, jedoch oft Angaben auslassen, die zur Beurteilung der Annotationsvalidität erforderlich sind – darunter Schulung, Sprachkompetenz, Vergütung, soziodemografische Daten, Begutachtung und Übereinstimmungswerte – insbesondere in Studien zur Modellevaluierung. Unsere Ergebnisse zeigen, dass sich die Annotationsberichterstattung im NLP im Laufe der Zeit verbessert hat, aber weiterhin uneinheitlich ist. Sie etablieren zudem ein skalierbares Rahmenwerk und Mindestberichtsempfehlungen, um menschliche Annotationen zuverlässiger, reproduzierbarer und interpretierbarer zu machen.
Robotermanipulation erfordert Modelle, die ausführbare Aktionen generieren und gleichzeitig deren zukünftige Konsequenzen antizipieren und bewerten, bevor sie physisch ausgeführt werden. Wir stellen τ₀-World Model (τ₀-WM) vor, ein einheitliches Video-Aktions-Weltmodell, das Policy-Lernen, Videoprädiktion und Aktionsbewertung in einem einzigen zukunftsprädiktiven Rahmenwerk integriert. τ₀-WM basiert auf einem gemeinsamen Video-Diffusions-Backbone und bietet zwei komplementäre Schnittstellen. Erstens ein Video-Aktionsmodell, das aus Multi-View-Beobachtungen, Sprachinstruktionen und Roboterzustand gemeinsam zukünftige visuelle Latente und kontinuierliche Aktionsblöcke vorhersagt. Zweitens ein aktionskonditionierter Videosimulator, der Kandidatenaktionsblöcke in Multi-View-Zukünfte ausrollt und dichte Aufgabenfortschrittswerte vorhersagt. Das Modell wird auf etwa 27.300 Stunden echter Roboter-Teleoperation, UMI-artiger Interaktion, egozentrischer Humanvideos sowie Rollout- oder Fehlertrajektorien unter Verwendung modalspezifischer Supervisionsmasken trainiert. Zur Inferenzzeit nutzt τ₀-WM Berechnungen zur Laufzeit, um Aktionskandidaten zu sampeln, sie mittels Redenoising-Konsistenz zu bewerten und mittels simulatorbasierter Korrektur minderwertige Kandidaten zu verbessern. Bei anspruchsvollen langzeithorizontalen und feinkörnigen Roboter-Manipulationsaufgaben zeigt τ₀-WM überlegene Leistung im Vergleich zu anderen relevanten Basislinien.
Die Forschung zur Erkennung KI-generierter Texte hat eine Reihe von Ansätzen hervorgebracht, um menschliche von KI-Prosa zu unterscheiden, wobei einige davon eine hohe In-Distribution-Leistung erzielen. Die praktische Anwendbarkeit blieb jedoch aus, da die Ergebnisse nicht mit den Bedürfnissen der Nutzer – etwa von Dozierenden – übereinstimmen, denen ein numerischer Wert ohne zugehörige Erklärung präsentiert wird. Wir adressieren dieses Problem mit einer neuartigen Architektur namens TELL, die Erklärbarkeit von Grund auf integriert. Während unser System wie andere Detektoren zur Vergleichbarkeit weiterhin einen numerischen Wert liefert, verfolgt TELL einen grundlegend anderen Ansatz: Wir zielen darauf ab, dem Nutzer die „Verräter“ (tells) zu zeigen, anhand derer das Modell einen Text als KI- oder menschengeschrieben einstuft. Dies befähigt den Nutzer, mithilfe eigener Urteilskraft und unter Berücksichtigung des Kontexts des Textes und seines mutmaßlichen Autors selbst zu entscheiden, wer den Text verfasst hat. Wir trainieren TELL auf einem maßgeschneiderten SFT-Datensatz mit domänenspezifischen Autorschaftsannotationen und verfeinern das System zusätzlich mittels GRPO mit Curriculum Learning, um die Leistung zu verbessern. Wir erreichen eine konkurrenzfähige Leistung im Vergleich zu modernen Detektoren (AUROC 0,927), während wir nativ Annotationen bereitstellen, die die Grundlage der Detektorentscheidung erläutern. Darüber hinaus evaluieren wir die Qualität unserer Erklärungen anhand eines Datensatzes menschlicher Annotationen und berichten eine hohe Gewinnrate (im Mittel 72,3 %) hinsichtlich Konkretheit, Falsifizierbarkeit, Kohärenz, Plausibilität und Fundiertheit der Annotationen, sodass Nutzer kritisch denken und eigenständig entscheiden können. Unsere Arbeit formuliert somit das Problem der Erkennung KI-generierter Texte aus einer menschenzentrierten Perspektive neu und ebnet den Weg für eine neue Familie von Detektoren, die auf native Erklärbarkeit setzen.