Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Benchmarks auf Repository-Ebene wie SWE-bench haben zu einem rasanten Anstieg der Fähigkeiten von Code-Agenten geführt. Dennoch behandeln sie Codierungsaufgaben in der Regel als ganzheitliches, binäres Vorhersageproblem (z. B. gelöst oder nicht gelöst) und vernachlässigen dabei feingranulare Agentenfähigkeiten wie Repository-Verständnis, Kontextabruf, Code-Lokalisierung und Fehlerdiagnose. In diesem Papier stellen wir SWE-Explore vor, einen Benchmark, der die Bewertung der Repository-Erkundung isoliert – einer kritischen Fähigkeit von Code-Agenten. SWE-Explore fordert einen Erkunder dazu auf, zu einem gegebenen Repository und einem Issue eine nach Relevanz geordnete Liste relevanter Codebereiche innerhalb eines festgelegten Zeilenbudgets zurückzugeben. Der Benchmark umfasst 848 Issues aus 10 Programmiersprachen und 203 Open-Source-Repositories. Für jede Instanz leiten wir zeilengenaue Referenzdaten aus unabhängigen Agenten-Trajektorien ab, die dasselbe Issue erfolgreich gelöst haben, und destillieren daraus die spezifischen Codebereiche, die deren Lösungspfade tatsächlich konsultiert haben. Wir bewerten die Exploration hinsichtlich Abdeckung, Ranking und Kontexteffizienz und zeigen, dass diese Metriken stark mit dem nachgelagerten Reparaturverhalten korrelieren. Über eine breite Palette von Retrieval-Methoden, allgemeinen Code-Agenten und spezialisierten Lokalisierern hinweg zeigt sich, dass agentische Erkunder eine klare Stufe oberhalb klassischer Retrieval-Verfahren bilden. Während die Lokalisierung auf Dateiebene bei modernen Methoden bereits sehr gut ist, bleiben die zeilengenaue Abdeckung und das effiziente Ranking die Schlüsseldimensionen, anhand derer sich führende Erkunder unterscheiden.
Jüngste KI-Systeme haben bei einer Vielzahl von Benchmarks starke Ergebnisse erzielt, doch diese Erfolge haben sich nicht in wirtschaftlich bedeutsame Anwendungen in vielen Berufsfeldern übersetzt. Wir argumentieren, dass diese Lücke weitgehend ein Evaluationsproblem darstellt: Weit verbreitete Benchmarks ermangeln einer kontinuierlichen Leistungsmessung an realen und wirtschaftlich wertvollen Arbeitsabläufen. Dieses Papier stellt Agents' Last Exam (ALE) vor, einen Benchmark zur Bewertung von KI-Agenten an langfristigen, wirtschaftlich wertvollen realen Aufgaben mit überprüfbaren Ergebnissen. Entwickelt in Zusammenarbeit mit über 250 Branchenexpertinnen und -experten, deckt ALE nicht-physische Branchen ab, die unter Bezugnahme auf O*NET/SOC 2018 (der bundesstaatlichen Berufstaxonomie der USA) definiert sind. Es ist um eine Aufgaben-Taxonomie mit 55 Teilgebieten organisiert, die in 13 Branchencluster gruppiert sind und über 1000 Aufgaben umfassen. Aktuelle Ergebnisse zeigen, dass die schwierigste Stufe noch lange nicht gesättigt ist: Über gängige Harness- und Backbone-Konfigurationen hinweg beträgt die durchschnittliche vollständige Bestehensquote 2,6 %. ALE ist als lebendiger Benchmark konzipiert: Sein Aufgabenpool wächst kontinuierlich, wenn neue Arbeitsabläufe und Branchen aufgenommen werden. Im weiteren Sinne soll ALE nicht nur eine weitere Rangliste sein, sondern ein Instrument zur Schließung der Kluft zwischen Benchmark-Erfolg und BIP-relevanter Wirkung.
On-Policy-Destillation (OPD) wird zunehmend eingesetzt, um das Reasoning großer Sprachmodelle zu verbessern, doch ihre Trainingsdynamik ist noch unzureichend verstanden. Wir charakterisieren den Verlauf von OPD-Updates im Parameterraum und vergleichen ihn mit überwachtem Feintuning (SFT) und bestärkendem Lernen mit überprüfbaren Belohnungen (RLVR). Eine Reihe von Diagnostiken im Parameterraum ordnet OPD durchgängig einem relaxierten, nicht-prinzipiellen Regime zu: Im Vergleich zu SFT beeinflussen seine Updates weniger Gewichte und meiden Hauptrichtungen stärker, während sie im Vergleich zu RLVR weniger stark eingeschränkt bleiben. Über diese statische Lokalisierung hinaus zeigt OPD ein Subspace-Locking: Seine kumulativen Updates treten schnell in einen engen niedrigdimensionalen Kanal ein. Eine Beschränkung des Trainings auf den bereits in der frühen Phase gebildeten Update-Unterraum erhält die OPD-Leistung, verschlechtert jedoch SFT erheblich, was darauf hindeutet, dass der gesperrte Unterraum für OPD funktional ausreichend ist. Kontrollexperimente zeigen zudem, dass eine Ausdünnung der Update-Tokens und eine Verschiebung der Rollout-Generierung ins Off-Policy die Rangdynamik erhalten, während die Vermischung des OPD-Ziels mit RLVR sie verändert. Insgesamt deuten diese Ergebnisse darauf hin, dass OPD nicht nur ein Zwischenpunkt zwischen SFT und RLVR ist, sondern eine eigene Update-Geometrie im Parameterraum induziert.
Agentensysteme nutzen zunehmend textuelle Fähigkeiten, um wiederverwendbare Aufgabenprozeduren zu kodieren. Die Einbettung dieser Fähigkeiten in den Prompt bei jedem Schritt verursacht jedoch einen erheblichen Kontext-Overhead und legt den Inhalt der Fähigkeiten als Klartext offen. Wir stellen LatentSkill vor, ein Framework, das textuelle Fähigkeiten mithilfe eines vortrainierten Hypernetzwerks in Plug-and-Play-LoRA-Adapter umwandelt. LatentSkill speichert Fähigkeitswissen im Gewichtsraum anstatt im Kontextraum, entfernt schrittweise Fähigkeits-Token und bewahrt gleichzeitig modulares Laden, Skalieren und Komponieren. Bei ALFWorld und Search-QA übertrifft LatentSkill die entsprechende In-Context-Skill-Baseline bei deutlich geringerer Anzahl von Prefill-Tokens: Es verbessert den ALFWorld-Erfolg um 21,4 bzw. 13,4 Punkte auf den gesehenen und ungesehenen Aufteilungen bei 64,1 % weniger Prefill-Tokens und verbessert die exakte Übereinstimmung bei Search-QA um 3,0 Punkte bei 72,2 % geringerem Skill-Token-Overhead. Weitere Analysen zeigen, dass generierte Skill-LoRAs eine strukturierte semantische Geometrie bilden, präzise über den LoRA-Skalierungskoeffizienten gesteuert werden können und durch Arithmetik im Parameterraum komponiert werden können, wenn die Skill-Komponenten ausgerichtet sind. Diese Ergebnisse deuten darauf hin, dass Fähigkeiten im Gewichtsraum eine effiziente, modulare und weniger exponierte Grundlage für die Erweiterung von LLM-Agenten bieten.
Videoweltmodelle, die über generierte Einzelbilder hinweg 3D-Raumkonsistenz aufrechterhalten, basieren typischerweise auf explizitem Punktwolkenspeicher, der im RGB-Raum konstruiert wird. Dieses Design ist sowohl rechenintensiv, da wiederholtes Rendern und VAE-Kodierung erforderlich sind, als auch von Natur aus verlustbehaftet, da der Hin- und Rückweg durch den Pixelraum wertvolle Merkmale der erlernten latenten Repräsentation verwirft. In dieser Arbeit führen wir latenten räumlichen Speicher für Videoweltmodelle ein – einen persistenten 3D-Cache, der Szeneninformationen direkt im Diffusions-Latentraum speichert und eine Rekonstruktion im Pixelraum vermeidet. Darauf aufbauend schlagen wir Mirage vor, ein Framework für latenten räumlichen Speicher, das den Speicher durch Heben latenter Token in 3D mittels tiefengeführter Rückprojektion konstruiert und Abfragen durch Synthese neuer Ansichten mittels direktem Warping im Latentraum ermöglicht. Diese einheitliche Formulierung beseitigt sowohl den Informationsverlust der Rekonstruktion im Pixelraum als auch den Rechenaufwand durch wiederholte Kodierung und Rendering. Experimente zeigen, dass latenter räumlicher Speicher im Vergleich zu expliziten 3D-Baselines eine bis zu 10,57-mal schnellere End-to-End-Videogenerierung und eine 55-fache Reduktion des Speicherbedarfs erreicht. Unter Ausnutzung der geometrischen Vorkenntnis des Diffusionsmodells erzielt Mirage Spitzenleistungen auf WorldScore und eine hohe Rekonstruktionsqualität auf RealEstate10K.
Während aktuelle textgesteuerte Video-Editing-Modelle bei elementaren Aufgaben (z. B. Stilübertragung, Objekteinfügung) gut abschneiden, sind reale Benutzeranfragen hochgradig kompositionell. Ein einzelner Prompt erfordert oft mehrere gekoppelte Bearbeitungen, wie etwa die Modifikation von Subjekten, Aktionen und Kameraperspektiven, während gleichzeitig unzusammenhängende raumzeitliche Inhalte streng erhalten bleiben müssen. Bestehende Benchmarks, die stark durch isolierte Bearbeitungen und grobe globale Metriken eingeschränkt sind, versagen bei der Diagnose, wie Modelle mit solch komplexen Arbeitsabläufen umgehen. Um diese Lücke zu schließen, stellen wir CoVEBench vor, einen kompositionellen Video-Editing-Benchmark, der 416 kuratierte Quellvideos, 626 Mehrpunkt-Bearbeitungsanweisungen und 9.990 feinkörnige Checklistenpunkte umfasst. CoVEBench deckt verschiedene Bearbeitungsdimensionen ab und bewertet Modelle mittels MLLM-bewerteter Anweisungserfüllung und Videotreue sowie automatisierter Metriken für die Videoqualität. Umfangreiche Experimente zeigen, dass kompositionelles Editing eine tiefgreifende Herausforderung bleibt: Aktuelle Modelle lassen häufig Bearbeitungen aus, verletzen Erhaltungsbedingungen oder führen Artefakte ein, wenn sie mehrere Operationen gleichzeitig ausführen müssen. CoVEBench bietet eine anspruchsvolle, diagnostische Testumgebung, um das Video-Editing hin zu realistischen Benutzerworkflows voranzubringen.
Herkömmliche LLMs halten den vollständigen KV-Cache während des Decodings geladen, was zu einem schwerwiegenden GPU-Speicher-Engpass für den Dienst mit extrem langen Kontexten führt. In diesem Bericht schlagen wir Lookahead Sparse Attention (LSA) vor, ein neuartiges Inferenzparadigma, das von einem auf der DeepSeek-V4-Architektur basierenden Neural Memory Indexer angetrieben wird. Anstatt passiv auf alle historischen Token zu achten, sagt LSA proaktiv zukünftige Kontextanforderungen voraus und behält nur die abfragekritischen KV-Blöcke im GPU-Speicher. Entscheidend ist, dass wir diese Architektur mittels einer backbone-freien entkoppelten Trainingsstrategie instanziieren. Indem wir den Indexer als eine Standard-Dual-Encoder-Architektur formulieren, trainieren wir ihn unabhängig mit standardmäßigen Retrieval-Trainingsframeworks, ohne jemals das massive Backbone-Modell in den GPU-Speicher zu laden. Wir zeigen, dass dieses "Weniger ist mehr"-Paradigma die Serviereffizienz erheblich maximiert und gleichzeitig als effektiver Attention-Denoiser bei Aufgaben fungiert, die auf langfristiges globales Gedächtnis angewiesen sind. In primären Long-Context-Evaluierungssuiten (z.B. LongBench-v2, LongMemEval und RULER) komprimiert FM-DS-V4 den durchschnittlichen physischen KV-Cache-Fußabdruck auf lediglich 13,5% der Vollkontext-Baseline, während die nachgelagerte Genauigkeit durchgängig erhalten oder leicht erhöht wird (im Durchschnitt +0,6% absolute Marge). Entscheidend ist, dass FlashMemory bei extremen 500K-Skalen den physischen KV-Cache-Overhead um über 90% unterdrückt, ohne die Kern-Schlussfolgerungsfähigkeiten des Backbones zu destabilisieren.
Räumliches Denken ist eine grundlegende Fähigkeit multimodaler großer Sprachmodelle (MLLMs), um die physische Welt wahrzunehmen und in ihr zu operieren. Bestehende Benchmarks beruhen jedoch überwiegend auf passiver Evaluierung (z. B. statischem VQA) oder simulatorspezifischen Pipelines und sind daher nicht in der Lage, allgemeines interaktives räumliches Verständnis zu bewerten. Wir stellen SpatialWorld vor, einen einheitlichen Benchmark, der speziell für die Bewertung des interaktiven räumlichen Verständnisses multimodaler Agenten in komplexen realen Aufgaben konzipiert wurde. SpatialWorld integriert acht heterogene Simulations-Backends unter einem gemeinsamen, simulatorunabhängigen Protokoll und umfasst 760 von Menschen annotierte Aufgaben aus verschiedenen Bereichen (z. B. Haushaltsroutinen, Reisen, soziale Zusammenarbeit). Die Agenten müssen Aufgaben unter ausschließlich visueller, partieller Beobachtbarkeit lösen, aktiv egozentrische visuelle Evidenz sammeln und Entscheidungen über eine einheitliche, textbasierte Aktionsschnittstelle treffen, die nativ für MLLMs geeignet ist. Zur zuverlässigen Evaluierung enthält jede Aufgabe einen von Menschen validierten Ausgangszustand, eine Referenztrajektorie und einen Endzustands-Verifizierer. Die Evaluierung von 15 fortschrittlichen Agenten zeigt, dass robustes räumliches Aufgabenlösen weiterhin eine Herausforderung darstellt: Das stärkste Modell, GPT-5, erreicht eine durchschnittliche Aufgabenerfolgsrate (TSR) von nur 17,4 %, während das führende Open-Source-Modell, Qwen-3.5, auf 14,1 % kommt. Weitere Analysen decken eine deutliche Diskrepanz zwischen Aufgabenerfolg und Ausführungseffizienz sowie erhebliche domänenspezifische Leistungsschwankungen auf. Diese Engpässe bei der aktiven Exploration und langfristigen Planung positionieren SpatialWorld als anspruchsvolles Testfeld für zukünftige räumliche Agenten.
Wir untersuchen, ob psychometrische Fragebögen für Menschen als verlässliche Werkzeuge zur Charakterisierung und Vorhersage des Verhaltens großer Sprachmodelle (LLMs) in alltäglichen Benutzerinteraktionen dienen können. Dazu analysieren wir acht quelloffene LLMs, indem wir ihre Werte- und Persönlichkeitsprofile vergleichen, die aus zwei verschiedenen Methoden abgeleitet wurden: Likert-Selbstauskünfte auf etablierten Fragebögen (PVQ-40/21 und BFI-44/10) sowie Generierungswahrscheinlichkeiten über wertgeladene Antworten auf alltägliche Benutzeranfragen. Die beiden Profile weichen erheblich voneinander ab. Die konstruktinterne Itemkonsistenz, die häufig als Beleg für stabile LLM-Dispositionen angeführt wird, verschwindet in den Generierungswahrscheinlichkeiten. Wir führen diese Diskrepanz darauf zurück, dass explizite lexikalische Hinweisreize in etablierten Fragebogenitems den Modellen ermöglichen, das Zielkonstrukt zu erkennen und in konsistenter, sozial erwünschter Weise zu antworten, während realistische Benutzeranfragen keine derartigen Hinweise bieten. Darüber hinaus verschieben demografische Persona-Prompts die Antworten der Modelle auf menschliche Fragebögen in einer Weise, die mit tatsächlichen menschlichen Mustern übereinstimmt; solche Verschiebungen treten jedoch nicht in den Generierungswahrscheinlichkeiten von Antworten auf realistische Benutzeranfragen auf, was ihre begrenzte Fähigkeit zeigt, das Verhalten von Zielgruppen in realen Benutzerinteraktionen zu simulieren. Insgesamt zeigt unsere Studie, dass psychometrische Fragebögen für Menschen unzureichende Werkzeuge zur Vorhersage des LLM-Verhaltens sind, und schlägt ein generierungsbasiertes Profiling als genauere Messmethode vor.
Wir präsentieren Echo-Memory, eine kontrollierte Studie zu Gedächtnismechanismen in aktionskonditionierten Weltmodellen. Diese Modelle generieren mehrsegmentige Videos aus einem ersten Bild, einer Texteingabe und einer Kamera-Aktionssequenz, doch ihr zentrales Versagen liegt oft im Gedächtnis und nicht in der lokalen Bildsynthese: Nachdem die Kamera die Szene verlassen und wieder betreten hat, kann sich die Szene oder ein hervorstechendes Objekt stillschweigend verändern. Bisherige Gedächtnisdesigns sind schwer vergleichbar, da Verbesserungen mit Unterschieden in Backbone, Training, Abruf und Evaluation verknüpft sind. Echo-Memory fixiert die Aktions-zu-Video-Schnittstelle und variiert nur, wie die Historie gespeichert und vom Generator gelesen wird. Auf Basis eines gemeinsamen Video-Diffusion-Backbones, Optimierers, Kamera-Aktions-Darstellung, Samplers und Evaluations-Pipelines vergleichen wir Rohkontext, kompressionsbasiertes Gedächtnis, räumliche Zusammenfassungen mit verschiedenen Auslesepfaden sowie Zustandsraum-Rekurrenz. Diese abgestimmte Matrix trennt vier sonst vermischte Achsen: Kapazität, Kompression, Auslesen und Rekurrenz. Zudem evaluieren wir das Gedächtnis durch ein Drei-Zweig-Protokoll: Wiedergabequalität, In-Domain-Loop-Wiederbesuche und Open-Domain-Rückkehrproben. Die Zweige widersprechen sich regelmäßig und zeigen, dass Wiedergabetreue allein kein ausreichender Indikator für das Erinnern einer Welt ist. Drei Ergebnisse folgen daraus. Rohkontext ist eine starke Kapazitätsbaseline und verbessert die Open-Domain-Rückkehr weit mehr als die Wiedergabemetriken. Kompaktheit ist kein freier Ersatz für Kapazität: aggressive räumliche und hybride Kompressionsspeicher verlieren die für die Rückkehr erforderlichen salienten Belege. Schließlich erweist sich blockweise Zustandsraum-Rekurrenz als der stärkste Open-Domain-Rückkehrmechanismus in unserer Matrix, was zeigt, dass die Struktur des impliziten Gedächtnisses ebenso wichtig ist wie die Entscheidung, es zu nutzen. Diese Ergebnisse liefern ein kompaktes Protokoll zur Untersuchung von Gedächtnis in Aktionsweltmodellen über isolierte Wiedergabemetriken hinaus.
Die Inferenz von Sprachmodellen mit langen Kontexten wird durch den Speicher begrenzt, da der KV-Cache mit der Kontextlänge wächst. Neuere Techniken zur Komprimierung des KV-Cache bleiben hinter den Erwartungen zurück: Sie verschlechtern entweder die Modellqualität erheblich oder erfordern beträchtliche Zeit und Rechenleistung, um einen einzigen langen Prompt zu komprimieren. Darüber hinaus setzen viele Methoden voraus, dass die Eingabe in das Kontextfenster des Zielmodells passt, und sind im Allgemeinen nicht mit modernen Produktions-Inferenz-Engines kompatibel. Encoder-Decoder-Kompressoren, die eine lange Token-Sequenz auf eine kürzere Sequenz latenter Einbettungen abbilden, die von einem Decoder verarbeitet werden, sind prinzipiell eine attraktive Alternative. Allerdings sind bestehende Ansätze im Hinblick auf die Genauigkeits-Effizienz-Grenze nicht mit der KV-Cache-Komprimierung konkurrenzfähig. In dieser Arbeit überdenken wir die Encoder-Decoder-Komprimierung und schließen diese Lücke. Zunächst führen wir eine Architektursuche durch, indem wir viele Varianten von Grund auf vortrainieren, um zu ermitteln, wie Encoder-Decoder-Kompressoren am besten entworfen und trainiert werden können. Auf der Grundlage unserer Ergebnisse trainieren wir kontinuierlich eine Familie von Modellen mit 0,6B-Encoder und 4B-Decoder auf jeweils über 350 Mrd. Token mit Kompressionsverhältnissen von 1:4, 1:8 und 1:16 vor. Wir führen Latent Context Language Models (LCLMs) ein, eine Familie von Kompressoren, die die Pareto-Grenze in Bezug auf allgemeine Aufgabenleistung, Kompressionsgeschwindigkeit und Spitzenspeichernutzung verbessern. Wir zeigen, dass LCLMs als effiziente Grundlage für längerfristig agierende Agenten dienen, indem sie dem Agenten ermöglichen, einen komprimierten langen Kontext zu überfliegen und relevanten Abschnitte bei Bedarf adaptiv zu erweitern.
Vision-Language-Model (VLM)-Agenten werden zunehmend in interaktiven Spielumgebungen eingesetzt. Spiele-Benchmarks für VLM-Agenten berichten jedoch in der Regel lediglich einen einzigen Erstversuchs-Score pro (Agent, Spiel)-Paar, konzentrieren sich auf das Einzelspieler-Solo und entbehren einheitlicher Protokolle zur Bewertung heterogener Agentenklassen (kommerzielle VLMs, Open-Weight-VLMs und spezialisierte Spielstrategien) auf einer gemeinsamen Grundlage. Wir schließen diese Lücken mit OmniGameArena, einem Echtzeit-Benchmark aus zwölf neu erstellten Unreal-Engine-5-Spielen, die Solo (7), PvP (3) und Koop (2) mit einheitlichen Aktionsschnittstellen abdecken, sowie der Improvement Dynamics Curve (IDC), einem agentischen Reflexionsrahmen, in dem ein werkzeugnutzender Reflektor-LLM einen begrenzten Fähigkeits-Prompt über mehrere Runden hinweg autonom verfeinert. Über die Kaltstart-Bestenliste hinaus liefert die IDC zwei weitere Beobachtungsgrößen für jedes (Agent, Spiel)-Paar: wie sich der Score über die Reflexionsrunden entwickelt und wie die erlernte Fähigkeit auf nicht gehaltene Aufgabenvarianten reagiert. Wir berichten diese Beobachtungsgrößen für zwölf VLM-Agenten auf der Kaltstart-Bestenliste und für vier Top-Agenten unter der IDC.
Lineare Aktivierungssteuerung hat sich als einfache und empirisch wirksame Methode zur Kontrolle des Verhaltens von Sprachmodellen etabliert. In jüngerer Zeit wurden sphärische Steuerungsparadigmen vorgeschlagen, um die Einschränkungen additiver Interventionen zu adressieren, oft motiviert durch die Annahme, dass die Norm der verborgenen Zustände keine konzeptrelevanten Informationen trägt. In dieser Arbeit überprüfen wir diese Annahme anhand einer kontrollierten empirischen Studie, die darauf ausgelegt ist, die Rollen der Winkel- und Radialkomponenten zu entflechten. Wir zeigen, dass sich Steuerungsmethoden hauptsächlich darin unterscheiden, wie sie zwei geometrische Effekte koppeln: die Veränderung der Winkelausrichtung eines Tokens mit einer Konzeptrichtung und die Veränderung seiner Norm im verborgenen Zustand. Über sieben Sprachmodelle hinweg stellen wir fest, dass Konzepte primär in der Winkelstruktur repräsentiert werden, was die Motivation für sphärische Methoden stützt, dass die Norm jedoch für die Stabilität und die nachgelagerten Effekte der Steuerung weiterhin wichtig ist. Unsere Ergebnisse erklären, warum Interventionen mit ähnlichen konzeptuellen Effekten sich unterschiedlich verhalten können, und legen nahe, dass Aktivierungssteuerung durch interpretierbare Winkel- und Radialkomponenten der Intervention parametrisiert werden sollte, anstatt durch einen einzelnen additiven Koeffizienten, der diese beiden Effekte vermischt.
LLM-Agenten stützen sich zunehmend auf externe Inferenzbedingungen: Prompts, Werkzeuge, Gedächtnis, SOPs, Fähigkeiten und Rückmeldungen aus der Testumgebung. Diese Komponenten verbessern die Aufgabenausführung, ohne die Modellgewichte zu ändern, werden jedoch oft durch heuristische Reflexion oder durch Wiederverwendung beobachteter Erfolge und Misserfolge überarbeitet, als ob allein die Anzahl der Beobachtungen eine zuverlässige Überzeugung darstellte. Wir stellen Bayesian-Agent vor, ein natives und umgebungsübergreifendes Framework, das wiederverwendbare Fähigkeiten und SOPs als Hypothesen darüber behandelt, ob ein eingefrorenes Modell unter einer bestimmten Aufforderung, einem bestimmten Kontext und einer bestimmten Testumgebung erfolgreich sein wird. Bayesian-Agent zeichnet verifizierte Trajektorien-Evidenzen auf, pflegt eine merkmalsbedingte kategoriale Posteriori über jede Fähigkeit und bildet den Posterior-Zustand auf überprüfbare Aktionen wie Patchen, Aufteilen, Komprimieren, Zurückziehen und Erkunden ab. Modellbezogene Prompts erhalten ausführbare Leitplanken und Fehlermodus-Patches, während Zusammenfassungen der Posteriori für Prüfungen verfügbar bleiben. Mit DeepSeek-v4-Flash verbessert die inkrementelle Reparatur SOP-Bench von 80 % auf 95 %, Lifelong AgentBench von 90 % auf 100 % und RealFin-Bench von 45 % auf 65 %. Wir evaluieren zudem Bayesian-Agents natives Backend sowie optionale GenericAgent, Mini-Swe-Agent und Claude Code Backends. Die Ergebnisse umfassen positive, negative, gesättigte und Fallstudien-Szenarien und legen nahe, dass die Evolution von Agent-Fähigkeiten am besten als posteriori-gesteuerte Optimierung der Testumgebung und nicht als unkalibrierte Prompt-Akkumulation betrachtet wird. Der Quellcode ist verfügbar unter https://github.com/DataArcTech/Bayesian-Agent.
Echtzeit-Videowiederherstellung (VR) für Live-Streams erfordert hochauflösende Ausgaben unter strengen Latenzanforderungen pro Frame. Bestehende einschrittige diffusionsbasierte VR-Modelle sind aufgrund zweier Hauptengpässe weiterhin schwer auf Verbraucher-GPUs einzusetzen: der quadratischen räumlichen Aufmerksamkeit bei hohen Auflösungen und dem Latenz- und Speicher-Overhead großer Video-Autoencoder. Wir stellen SwiftVR vor, ein Streaming-Einschritt-generatives VR-Framework, das beide Engpässe unter einem kausalen chunk-weisen Protokoll reduziert. Für die Aufmerksamkeit sammelt maskenfreie Self-Attention mit verschobenen Fenstern jedes räumliche Fenster durch deterministische Indexierung in einen dichten Tensor, wobei alle Aufmerksamkeitsaufrufe auf dem dichten Pfad der skalierten Punktprodukt-Aufmerksamkeit (SDPA) verbleiben – ohne Masken, zyklische Verschiebungen, Padding oder hardware-spezifische sparse Kerne. Da SwiftVR nur standardmäßige dichte SDPA-Aufrufe verwendet, lässt sich das trainierte Modell ohne Nachtraining oder benutzerdefinierte Kerne auf Verbraucher-GPUs übertragen. Für die Autoencoder ermöglicht ein leichter Restoration-bewusster Autoencoder eine schnelle chunk-weise Dekodierung bei gleichzeitiger Erhaltung der Rekonstruktionsqualität. Auf einer einzelnen H100 erreicht SwiftVR etwa 31 FPS bei 2560×1440 und etwa 14 FPS bei 3840×2160, während alle verglichenen diffusionsbasierten VR-Baselines bei 4K das Speicherlimit überschreiten. Auf einer Consumer-RTX-5090 erreicht SwiftVR etwa 26 FPS bei 1920×1080. Unseres Wissens nach ist SwiftVR das erste generative VR-Modell, das Echtzeit-1080p-Streaming auf einer Verbraucher-GPU ermöglicht und dabei hohe no-reference-perzeptuelle Qualität mit geringeren Inferenzkosten erzielt. Das Projekt ist verfügbar unter https://h-oliday.github.io/SwiftVR.
Welt-Aktions-Modelle haben sich als vielversprechendes Paradigma für die Robotermanipulation etabliert, da sie visuelle Szenendynamik und Aktionen gemeinsam modellieren, um physikalische Vorannahmen in das Politiklernen einzubringen. Allerdings koppeln bestehende Welt-Aktions-Modelle die Vorhersage der Welt und die Ausführung von Aktionen auf derselben zeitlichen Auflösung, was den Weltzweig dazu zwingt, kurzfristige Bildvariationen zu modellieren, die redundant und wenig informativ sind. Wir vertreten die These, dass eine strikte Bindung von Weltvorhersage und Aktionsausführung an denselben zeitlichen Rhythmus das Potenzial des Videozweigs für die verkörperte Steuerung unterfordern könnte. Daher schlagen wir AHA-WAM vor, ein asynchrones, horisontadaptives Welt-Aktions-Modell, das auf einer dualen Diffusion-Transformer-Architektur (DiT) basiert und die Welt-Aktions-Modellierung um diese zeitliche Asymmetrie herum neu organisiert. AHA-WAM setzt den Video-DiT als niederfrequenten Weltplaner ein, der über vergangene Beobachtungen hinweg einen rollierenden Schlüssel-Wert-Speicher unterhält und wiederverwendbare, schichtweise latente Kontexte freigibt, die die langfristige Szenenentwicklung kodieren. Gleichzeitig führt ein hochfrequenter Aktions-DiT kurze Aktionsblöcke im geschlossenen Regelkreis aus, indem er über eine schichtweise gemeinsame Aufmerksamkeit auf diesen Kontext zugreift. Zur Unterstützung der asynchronen Ausführung führen wir ein horisontadaptives Offset-Training und eine beobachtungsgesteuerte Videokontext-Routinge (OVCR) ein, die es dem Aktions-Experten ermöglichen, langfristigen Weltkontext zu nutzen, während er gleichzeitig auf den Echtzeit-Ausführungszustand reagiert, ohne den Video-DiT erneut ausführen zu müssen. Experimente mit RoboTwin und realen Manipulationsaufgaben zeigen, dass AHA-WAM ohne jegliches Vortraining mit Roboterdaten eine Spitzenleistung erzielt: eine durchschnittliche Erfolgsrate von 92,80 % bei RoboTwin und 78,3 % Erfolg bei vier realen Aufgaben, während es eine geschlossene Regelkreissteuerung mit 24,17 Hz erreicht und eine 4,59-fache Beschleunigung gegenüber Fast-WAM erzielt.
Whisper, ein weit verbreitetes ASR-Modell, ist dafür bekannt, Halluzinationen zu erzeugen – kohärente Transkriptionen, die für Nicht-Sprach-Audio generiert werden und vollständig vom Eingangssignal losgelöst sind. Wir untersuchen, ob Halluzinationen anhand der internen Repräsentationen von Whisper erkannt und abgemildert werden können. Dazu extrahieren wir Aktivierungen des Audio-Encoders und bewerten zwei Repräsentationsräume: rohe Whisper-Aktivierungen und Sparse-Autoencoder (SAE)-Latente. Wir zeigen, dass beide Räume linear separierbare, halluzinationsbezogene Informationen codieren, wobei die Diskriminationskraft in einer spärlichen Merkmalsteilmenge konzentriert ist und mit tieferen Encoder-Schichten zunimmt. Wir schlagen zwei Steuerungsstrategien vor: Steuerung im Aktivierungsraum und Steuerung im SAE-latenten Raum. Die SAE-basierte Steuerung reduziert die Halluzinationsrate auf dem vollständigen Nicht-Sprach-Testdatensatz für Whisper small von 72,63 % auf 14,11 % und für Whisper large-v3 von 86,88 % auf 27,33 %, bei geringer WER-Verschlechterung auf Sprachdaten, und nähert sich damit der Leistung von Methoden auf Basis von Feinabstimmung.
Wir stellen DEI vor: Diversity in Evolutionary Inference, ein verteiltes Quality-Diversity (QD)-Suchframework, das heterogene große Sprachmodelle (LLMs) als Mutationsoperatoren auf Peerknoten einsetzt, die mit nicht-blockierenden kollektiven Operationen kommunizieren. Im Gegensatz zur homogenen parallelen Suche, die die induktiven Verzerrungen eines einzelnen Modells auf alle Worker repliziert, behandelt DEI die jeweils unterschiedlichen kreativen Prioritäten jedes LLMs als komplementäre Quelle verhaltensbezogener Neuartigkeit. Durch die Erweiterung des Digital-Red-Queen-Frameworks mit DEI teilen Knoten am Ende jeder Runde lokale optimale Lösungen, um die Population der nächsten Runde zu speisen. Dies erzeugt modellübergreifenden adversarialen Druck, der die Robustheit über das reine Intra-Modell-Self-Play hinaus steigert. Evaluiert auf der Core-War-Domäne, einem kompetitiven Programmier-Benchmark, bei dem Redcode-Kriegerprogramme in einer simulierten Maschine gegeneinander antreten, erreicht ein heterogenes Ensemble aus vier Knoten (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 und Claude Haiku 4.5) einen um 124 Prozent höheren QD-Score im zusammengeführten Archiv (45,90 vs. 20,46) und eine um 28 Prozent höhere Abdeckung (80,6 Prozent vs. 63,0 Prozent der Zellen) im Vergleich zu einer Einzelknoten-Baseline bei gleichem Gesamtbudget an LLM-Aufrufen. Das heterogene Ensemble übertrifft auch ein gleich budgetiertes homogenes Ensemble hinsichtlich QD-Score, Abdeckung und der Allgemeingültigkeit der zurückgehaltenen Lösungen über alle vier Modellfamilien hinweg. Diese Ergebnisse liefern den ersten empirischen Beleg dafür, dass Modellvielfalt, nicht bloße Parallelität, der entscheidende Treiber für Gewinne bei verteilter LLM-basierter QD-Suche ist.
Belohnungsmodelle (RMs) liefern kritische Rückmeldungssignale für das Post-Training von LLMs, insbesondere in Pipelines für verstärktes Feintuning (RFT) und bestärkendes Lernen (RL). Die derzeitige Bewertung von Belohnungen basiert jedoch auf heterogenen Kriterien wie regelbasierten Verifizierern, Ground-Truth-Referenzen, prozeduralen Checklisten und komplexen Bewertungsrastern, wobei ein einheitlicher Mechanismus zur Integration aller Evidenztypen bislang nicht erforscht ist. Zu diesem Zweck schlagen wir das Skill Reward Model (Skill-RM) vor, ein einheitliches Framework, das die Belohnungsmodellierung als Ausführung einer wiederverwendbaren Reward-Evaluation-Skill neu formuliert. Indem die Berechnung der Belohnung als strukturierte agentische Aufgabe behandelt wird, bietet Skill-RM eine konsistente Schnittstelle zur Orchestrierung heterogener Ressourcen und wählt dynamisch Evidenz aus und aggregiert sie, die auf die spezifischen Anforderungen jeder Eingabe zugeschnitten ist. Dieser Ansatz ermöglicht es dem Belohnungsmodell, über eine statische Bewertung hinauszugehen und sorgt für Konsistenz und Transparenz über verschiedene Aufgaben hinweg. Umfangreiche Experimente mit Belohnungs-Benchmarks und nachgelagerten Anwendungen, einschließlich Best-of-N-Auswahl und bestärkendem Lernen, zeigen, dass Skill-RM durchgängig bessere Ergebnisse als traditionelle Judge-Baselines erzielt. Unsere Ergebnisse deuten darauf hin, dass Skill-RM nicht nur eine einheitliche Lösung für die Belohnungsmodellierung bietet, sondern durch die strategische und dynamische Orchestrierung von Evidenz auch eine überlegene Leistung erreicht. Der Code ist verfügbar unter https://github.com/Qwen-Applications/Skill-RM.
Obwohl Omni-modale Große Sprachmodelle (OLLMs) beeindruckende Fähigkeiten bei der gemeinsamen Verarbeitung von Audio- und Videoströmen gezeigt haben, bleibt ihre Fähigkeit, komplexe, vielschichtige Benutzeranweisungen genau zu befolgen, weitgehend unerforscht. Bestehende Benchmarks konzentrieren sich hauptsächlich auf ganzheitliches Videoverständnis oder textbasierte Anweisungsbefolgung und erfassen nicht das komplexe Zusammenspiel zwischen Modalitäten und Benutzervorgaben. Um diese Lücke zu schließen, stellen wir OmniCap-IF vor, den ersten umfassenden Benchmark, der speziell zur Bewertung der Anweisungsbefolgungsfähigkeiten im omni-modalen Beschriften entwickelt wurde. OmniCap-IF umfasst ein systematisches Framework, das Bildunterschriften entlang zweier Dimensionen bewertet: Formatkorrektheit und Inhaltskorrektheit. Unser Benchmark umfasst 50 verschiedene Einschränkungstypen über rein visuelle, rein auditive und audio-visuelle Modalitäten hinweg und integriert zeitliche Verankerung zur Bewertung der räumlich-zeitlichen Präzision. Umfangreiche Auswertungen prominenter Modelle anhand von 1.920 hochwertigen Stichproben zeigen erhebliche Leistungsunterschiede auf. Darüber hinaus deckt unsere Analyse einen kritischen „Format-Inhalts-Zielkonflikt“ auf, der zeigt, dass eine zunehmende Formatierungskomplexität die omni-modalen Denkfähigkeiten der Modelle direkt beeinträchtigt. Abschließend stellen wir zur Weiterentwicklung des Feldes einen 54K großen Anweisungsoptimierungsdatensatz, OmniCap-IF-54K, zusammen und präsentieren OmniCaptioner-IF, das sowohl bei der Einhaltung komplexer Anweisungen als auch bei der allgemeinen omni-modalen Beschriftungsleistung bemerkenswerte Verbesserungen erzielt.
Muon verbessert die Trainingseffizienz beim Training großer Sprachmodelle im Vergleich zu Adam um etwa das Zweifache, doch der lokale geometrische Ursprung dieses Vorteils bleibt unklar. Unsere Arbeit unternimmt einen ersten Schritt zur Entmystifizierung der Überlegenheit von Muon gegenüber Adam aus einer Krümmungsperspektive. Erstens wenden wir eine Taylor-Approximation zweiter Ordnung auf die Trainingslandschaft an und zeigen, dass Muon bei gleichem Validierungsverlust eine größere Einschritt-Verlustabnahme erzielt als Adam. Die beiden Optimierer weisen vergleichbare Gewinne erster Ordnung auf, doch Muon zieht sich durchgängig eine geringere Krümmungsstrafe zweiter Ordnung zu. Zweitens zerlegen wir diese Krümmungsstrafe in die quadratische Aktualisierungsnorm und die Normalisierte Richtungsschärfe (NDS). Wir stellen fest, dass Muon und Adam vergleichbare Aktualisierungsnormen aufweisen, sodass Muons geringere Krümmungsstrafe durch eine niedrigere NDS und nicht durch die Aktualisierungsskala getrieben wird. Drittens untersuchen wir, wie Trainingsdaten und Modellstruktur Muons NDS-Vorteil formen. Anhand von Zipf-probabilistischen kontextfreien Grammatikdaten (PCFG) mit kontrolliertem Ungleichgewicht zeigen wir, dass Datenungleichgewicht Muons NDS-Vorteil gegenüber Adam verstärkt. Eine Intra-/Inter-Layer-Zerlegung zeigt zudem, dass Muons niedrigere NDS in der mittleren und späten Trainingsphase hauptsächlich durch eine geringere schichtinterne Krümmung aufrechterhalten wird. Über empirische Belege hinaus analysieren wir stilisierte quadratische Probleme mit heterogener Krümmung und Gradientenausrichtung auf Modi hoher Krümmung. Wir beweisen, dass Muon eine geringere durchschnittliche NDS als GD erreicht, indem es die Aktualisierungsenergie über Krümmungsgruppen ausgleicht; bei ausreichend starker Krümmungsheterogenität führt dies auch nach der gleichen Anzahl von Schritten zu einem geringeren lokalen quadratischen Verlust.
Tiefenrecherche-Agenten haben bemerkenswerte Fähigkeiten bei komplexen informationssuchenden Aufgaben gezeigt, doch diese Leistungsfähigkeit geht mit hohen Rechenkosten einher. Angetrieben von genauigkeitsorientierten Trainingsparadigmen setzen aktuelle Modelle auf Brute-Force-Strategien, die durch blinde Tool-Abhängigkeit und performative Schlussfolgerungen gekennzeichnet sind – sie erzeugen lange, redundante Trajektorien, die zur Lösung dieser Aufgaben keineswegs notwendig sind, was zu verschwenderischen Tool-Aufrufen und übermäßigem Token-Verbrauch führt. Um diese Effizienzfalle zu überwinden, schlagen wir SlimSearcher vor, ein prinzipienbasiertes Framework, das die Pareto-Grenze zwischen Genauigkeit und Rechenkosten sowohl beim überwachten Feintuning (SFT) als auch beim Reinforcement Learning (RL) verschiebt. In der SFT-Phase nutzt SlimSearcher eine Pareto-effiziente Filterung, um sowohl erfolgreiche als auch ökonomische Trajektorien zu destillieren und das Modell zu inhärent effizienzbewusstem Suchverhalten zu führen. Während des RL führen wir Adaptive Reward Gating ein, einen dynamischen Belohnungsformungsmechanismus, der relative Tool- und Token-Effizienz innerhalb einer Stichprobenkohorte bewertet. Durch die Kaskadierung dieser adaptiven Effizienzmetriken mit einem strengen Korrektheits-Gate vermeidet unser Ansatz effektiv die Kürze-Verzerrung, die mit absoluten Strafen verbunden ist, und mildert Belohnungs-Hacking. Umfangreiche Experimente auf langfristigen Benchmarks, darunter GAIA, BrowseComp und XBenchDeepSearch, zeigen, dass SlimSearcher die durchschnittliche Anzahl von Tool-Aufrufrunden um 17%–58% reduziert, während die Genauigkeit beibehalten oder verbessert wird.
Sprachbasierte große Sprachmodelle sind in der Regel auf gesprochene Antworten beschränkt, was ihre ausgabeseitigen Fähigkeiten auf das verbalisierbare reduziert und textnative Fähigkeiten wie Codegenerierung, strukturierte Analyse und mehrstufiges Denken in Echtzeitinteraktionen unterdrückt – für Aufgaben, die persistente, strukturierte und überprüfbare Zwischenergebnisse erfordern. Bisherige Arbeiten verbessern das gesprochene Denken oder den Vollduplex-Gesprächswechsel, behandeln Text jedoch weiterhin als verborgenen Zwischenzustand oder untergeordnete Modalität statt als erstklassigen Ausgabekanal. Wir schlagen Hören-Schreiben-Sprechen (LWS) vor, ein textorientiertes Dreikanal-Paradigma, bei dem ein einzelnes autoregressives LLM kontinuierlich Benutzeraudio hört, sichtbaren Freitext als primäre Ausgabe schreibt und parallel dazu eine Echtzeit-Sprachantwort unter einem gemeinsamen kausalen Aufmerksamkeitskontext spricht. Dieses Verhalten wird vollständig durch ein Token-Schema umgesetzt, ohne architektonische Änderungen, und über eine zweistufige Datenpipeline erlernt, die sekündliche kognitive Annotationen synthetisiert, die mit dem offengelegten Eingabezeitstrahl konsistent sind. Empirisch zeigt LWS eine starke Vollduplex-Interaktion auf Full-Duplex-Bench, erreicht 4,72 auf VoiceBench AlpacaEval, erzielt 92,6 % Schreib-Sprech-Konsistenz und übertrifft durchgängig seine internen Ablationen auf URO-Bench. Diese Ergebnisse deuten darauf hin, dass sichtbares Schreiben als erstklassiger Ausgabekanal für Sprachinteraktion dienen kann, ohne die Echtzeit-Reaktionsfähigkeit zu opfern. Der Code und der Datensatz sind auf der Projektseite verfügbar: https://royalzhang.com/project/lws-page/.
Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einem führenden Paradigma entwickelt, um die Denkfähigkeit großer Sprachmodelle durch ergebnisbasierte Überwachung zu verbessern. Allerdings werden überprüfbare Belohnungen auf Gruppenebene häufig uninformativ: Wenn alle abgetasteten Spuren einer gegebenen Eingabeaufforderung identische Belohnungen erhalten, liefert die Schätzung des gruppenrelativen Vorteils kein Gradientensignal, selbst wenn sich die Spuren in ihrer Denkqualität erheblich unterscheiden. Wir schlagen Reasoning Arena vor, ein adaptives Trainingsframework, das solche nicht-diversen Belohnungsgruppen an ein Bewertungssystem weiterleitet, anstatt sie zu verwerfen. Über die Prüfung der endgültigen Antwort hinaus konstruiert Reasoning Arena Spurenturniere, bei denen Denkspuren direkt miteinander verglichen werden, um feinere Präferenzen innerhalb der Gruppe aufzudecken und die Denkqualität in reichhaltige relative Belohnungssignale umzuwandeln. Um die Schätzung der Belohnungen effizient zu gestalten, wird nicht jedes Paar erschöpfend verglichen; stattdessen wird jede neue Spur gegen einen kleinen, dynamisch aktualisierten Pool zuvor generierter Spuren als Anker evaluiert, um effizient eine relative Rangfolge zu etablieren. Anschließend passen wir ein Bradley-Terry-Modell an den unvollständigen Vergleichsgraphen an, was eine skalierbare RL-Integration ohne quadratische Paarvergleiche ermöglicht. Empirische Ergebnisse zeigen, dass Reasoning Arena den RLVR-Baseline durchschnittlich um 7,6 % bei Wettbewerbsmathematik- und Programmier-Benchmarks übertrifft. Durch die Umwandlung sonst nutzloser Null-Vorteils-Stichproben in nützliche Gradientenaktualisierungen beschleunigt unsere Methode das Training um 27 % bis 41 %, spart fast 50 % des Generierungsaufwands und verbessert die allgemeine Denkleistung erheblich.
Weltaktionsmodelle (WAMs) erweitern das Erlernen von Roboterpolitiken, indem sie die Vorhersage zukünftiger Zustände als zusätzliches Trainingsziel einbeziehen, was die Politik dazu anregt, aufgabenrelevante zeitliche Strukturen in ihren Repräsentationen zu kodieren. Aktuelle WAMs basieren oft auf groß angelegten generativen Architekturen, die hohe Trainingskosten und Inferenzlatenz verursachen, was ihre Bereitstellung als effiziente Closed-Loop-Politiken erschwert. Wir schlagen Light-WAM vor, ein leichtgewichtiges Weltaktionsmodell für effiziente Robotermanipulation. Konkret baut es auf einem kompakten Video-Backbone auf und führt eine Überwachung durch zukünftige Videos in einem heruntergetasteten latenten Raum durch, wodurch die Kosten des Video-Co-Trainings gesenkt werden, während seine Vorteile für das Repräsentationslernen erhalten bleiben. Für die Aktionsvorhersage führt Light-WAM den StateFusionActionExpert ein, der angepasste Zustände aus mehreren Backbone-Schichten liest, sie durch Pooling mit gelernten Abfragen fusioniert und in einem einzigen Vorwärtsdurchlauf direkt Aktionsblöcke vorhersagt. Dieses Design bietet eine effiziente Schnittstelle zwischen Video-Backbone-Repräsentationen und Roboteraktionen und vermeidet die Notwendigkeit schwerer generativer Aktions-Experten. Experimente zeigen, dass Light-WAM eine starke Leistung auf LIBERO beibehält und eine nutzbare Multitasking-Leistung auf RoboTwin 2.0 erreicht, wobei es nur 0,44 Mrd. trainierbare Parameter verwendet. Es erreicht zudem eine Inferenzlatenz von 72,03 ms bei einem Spitzen-GPU-Speicher von 4,1 GiB und einem verbesserten Trainingsdurchsatz.
Abrufgestützte QA-Pipelines leiten abgerufene Passagen oft durch einen LLM-Umschreiber, bevor sie von einem kleineren Leser verarbeitet werden, was den F1-Wert bei Multi-Hop-Benchmarks um Dutzende von Punkten erhöht; dieser Gewinn wird üblicherweise auf eine verbesserte Evidenzqualität zurückgeführt. Wir untersuchen mittels eines kontrollierten Interventionsaudits, ob dieser Anstieg kausal durch das Erscheinen des Gold-Antwort-Strings im umgeschriebenen Kontext verursacht wird und nicht durch die Kuration an sich. Für jeden umgeschriebenen Kontext führen wir den Leser erneut aus, nachdem eine von vier kontrollierten Bearbeitungen an der Kompilierungsausgabe vorgenommen wurde: Entfernen der Gold-Antwort-Spanne, Ersetzen durch eine längenangepasste zufällige Nicht-Antwort-Spanne (Placebo) oder Einfügen der Gold-Antwort in Umschreibungen, in denen sie fehlte (am Präfix oder an einer Satzgrenze in der Mitte). Über zwölf abgeschlossene (Zelle, Baseline)-Interventionsläufe hinweg, die drei Leserfamilien (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), zwei Datensätze (HotpotQA, 2WikiMultihopQA) und drei Compiler-Anordnungen (MA-only, MB-only, MA+verify) umfassen, führt das Entfernen der Gold-Antwort zu einem Abfall des Leser-F1 um 28 bis 64 Punkte über das längenangepasste Placebo hinaus auf gepaarten Antwort-in-Kompilierung-Schichten, und das Voranstellen der Gold-Antwort in Umschreibungen, denen sie fehlte, erhöht den F1 in 10 von 12 (Zelle, Baseline)-Kombinationen um +0,7 bis +9,7 Punkte. Ein begleitendes Fünf-Sentinel-Audit zeigt, dass die herkömmliche Einzel-[MASK]-Sonde selbst sentinel-anfällig ist: Bei 2Wiki berichtet sie ein +4,12~F1 „Nicht-Leckage-Residuum“, das unter vier alternativen Sentinel-Wächtern auf -3,33 bis -7,81~F1 kippt und einen Äquivalenztest für drei dieser vier nicht besteht (1/4~bestanden). Wir schlagen keinen neuen Umschreiber oder keine Abhilfe vor; wir veröffentlichen den Intervention Runner und das Sentinel-Panel, damit andere Behauptungen über Umschreibergewinne an demselben Standard getestet werden können.
Deep Research (DR) hat sich als neues agentisches Paradigma zur Bewältigung komplexer, offener Forschungsaufgaben etabliert, das Systeme erfordert, die iterativ Probleme rahmen, Belege beschaffen, Quellen verifizieren und umfangreiche Berichte synthetisieren können. In der Praxis sind aktuelle DR-Systeme jedoch durch vier miteinander verbundene Einschränkungen begrenzt: die Planung über lange Horizonte bei unzureichend spezifiziertem Umfang, die Engpässe bei der Zerlegung und Terminierung solcher Aufgaben innerhalb eines einzelnen Agenten, das Halluzinationsrisiko bei der Synthese langer Texte sowie die eingeschränkte Prüfbarkeit von Prozessen. Dieser technische Bericht stellt DuMate-DeepResearch vor, ein Multi-Agenten-DR-Framework, das auf der Qianfan Agent Foundry aufbaut. Das Framework entkoppelt den Agent Core, der Aufgabenverständnis, Planung und Terminierung übernimmt, von einem erweiterbaren Tool Ecosystem für Abruf, Belegbeschaffung und Berichterstellung, wodurch jede Zwischenentscheidung und jeder Werkzeugaufruf explizit nachvollziehbar wird. Darauf aufbauend führt DuMate-DeepResearch drei Mechanismen ein: (i) eine graphbasierte dynamische Planungsstrategie, die den Forschungsfahrplan grob-zu-fein erweitert und kontinuierlich durch Reflexion, Neuplanung, Rückverfolgung und parallele Verzweigungen überarbeitet; (ii) ein rekursives zweistufiges Ausführungsdesign, das jede komplexe Suchteilaufgabe an einen inneren Search Agent delegiert, der seine eigene Planungsschleife durchführt, wodurch verrauschte Abfragen isoliert und die langfristige Ausführung stabilisiert werden; (iii) eine rubrikbasierte Testzeit-Optimierung, die dynamisch aufgabenspezifische Qualitätskriterien generiert und diese als lebendige Argumentationsgerüste für belegbasierte Synthese und adaptives Anhalten nutzt. In zwei Deep-Research-Benchmarks erzielt DuMate-DeepResearch neue Bestleistungen: die beste Gesamtpunktzahl (58,03%) auf DeepResearch Bench und die beste Gesamtpunktzahl (61,95%) auf DeepResearch Bench II, während es gleichzeitig den ersten Platz bei Informationsabruf und Analyse belegt.
Text-zu-Bild-Modelle verwenden Textaufforderungen als primäre Schnittstelle zur menschlichen Absicht. Diese Aufforderungen werden von einem Text-Encoder in Einbettungen (Embeddings) kodiert, die den Bilderzeugungsprozess steuern. Über die Bedeutung einzelner Token hinaus kodieren Texteinbettungen kontextuelle Informationen über die gesamte Aufforderung, wie etwa Kompositionalität und Attributsbindung. Es ist jedoch noch unzureichend erforscht, ob Bildmodelle diese reichhaltigeren Informationen tatsächlich nutzen. Hier gehen wir der Frage nach: Welche Aspekte der Textrepräsentation sind für die Bilderzeugung essenziell? Wir zeigen, dass auf Diffusionstransformatoren basierende Text-zu-Bild-Modelle üblicherweise nur auf zwei relativ einfache Aspekte der Textrepräsentation angewiesen sind: (i) die Zusammenführung benachbarter Token zu einer Wortrepräsentation für Wörter, die sich über mehrere Token erstrecken, und (ii) die Wortreihenfolge, die durch die Positionskodierung des Text-Encoders eingeprägt wird. Um dies zu belegen, konstruieren wir eine neue Texteinbettung, die nur die Bedeutung einzelner Wörter und deren Reihenfolge kodiert, jedoch keine kontextuellen Informationen über die gesamte Aufforderung enthält. Wir stellen fest, dass diese Darstellung als Beutel positionsmarkierter Wörter ausreicht, um die Bilderzeugung erfolgreich zu steuern, wobei eine visuelle Qualität und Texttreue erreicht wird, die mit der durch vollständige Texteinbettung gesteuerten Erzeugung vergleichbar ist. Dies zeigt, dass Text-zu-Bild-Modelle entgegen der allgemeinen Annahme oft nicht die reichhaltigen Informationen nutzen, die in der Texteinbettung über die Bedeutung einzelner Wörter und die Wortreihenfolge hinaus kodiert sind. Stattdessen wird das Dekodieren komplexer linguistischer Strukturen vom Bildmodell selbst durchgeführt. Projektwebseite: https://nsping13.github.io/contextless-TTI/
Vision-Language-Action (VLA)-Modelle entwickeln sich zu einem vielversprechenden Paradigma für die Robotermanipulation, da sie universelle Strategien ermöglichen, die aus großen Korpora von Demonstrationen und Aktionsannotationen trainiert werden. Allerdings erfordert die Anpassung dieser Modelle an neue Aufgaben nach wie vor typischerweise aufgabenspezifische Demonstrationen, Aktionsannotationen und zusätzliche Feinabstimmung, was den Einsatz kostspielig und schwer skalierbar macht. Wir stellen WIZARD vor, ein Meta-Learning-Framework im Gewichtsraum, das die aufgabenspezifische Feinabstimmung umgeht, indem es aufgabenspezifische LoRA-Parameter für eine eingefrorene VLA-Strategie generiert. Basierend nur auf einer Sprachinstruktion und einem kurzen Demonstrationsvideo sagt WIZARD die entsprechenden Anpassungsgewichte in einem einzigen Vorwärtsdurchlauf voraus, ohne Zielaufgaben-Aktionslabels oder Optimierung zur Testzeit. Während des Meta-Trainings lernt WIZARD, Aufgabenbelege direkt auf Experten-LoRA-Updates abzubilden und so Beziehungen zwischen Aufgaben im Gewichtsraum zu erfassen. Experimente auf LIBERO zeigen, dass WIZARD die Leistung auf unbekannten Datensatzsammlungen um bis zu etwa das Zweifache und auf unbekannten Aufgaben um bis zu etwa das 14-fache verbessert. Auf einem Franka Emika Panda übertrifft WIZARD konsistent eine in der realen Domäne angepasste Basislinie, was zeigt, dass die generierten Adapter eine aufgabenbezogene Spezialisierung über die Simulation hinaus ermöglichen.
On-Policy-Destillation (OPD) hat sich zu einem zentralen Nachbearbeitungswerkzeug für große Sprachmodelle (LLMs) entwickelt, indem sie eine dichte Token-für-Token-Lehrerüberwachung entlang der studenteneigenen Rollouts bereitstellt. In dieser Arbeit identifizieren wir eine gemeinsame strukturelle Ursache für OPD, die wir als Präfixfehler bezeichnen. Bei Präfixfehlern induziert die dichte Token-für-Token-Überwachung eine bimodale Lehrermischung und fragmentierte Gradienten, die durch Token-Level-Verlustkürzung oder -Neugewichtung nicht behoben werden können. Diese Beobachtung motiviert uns, über Token-Level-Verlustinterventionen hinaus zu Korrekturen auf Trajektorienebene zu gehen. Daher schlagen wir Trajektorien-verfeinerte Destillation (TRD) vor, eine Korrekturmethode auf Trajektorienebene, die den Rollout des Studenten unter der Lehrerführung innerhalb des On-Policy-Unterstützungsbereichs revidiert. Durch die Korrektur problematischer Präfixe vor der Destillation mildert TRD den Präfixfehler an seiner Quelle. Darüber hinaus verbessert TRD die Exploration, indem es den Studenten unter Lehrerführung alternativen gültigen Ableitungen aussetzt, selbst wenn die ursprünglichen Rollouts bereits korrekt sind. TRD kann auch auf On-Policy-Selbstdestillation (OPSD) angewendet werden, eine Variante mit gemeinsamen Parametern, die das Studentenmodell, konditioniert auf privilegierte Informationen, als Lehrer verwendet. Über eine breite Palette von Benchmarks und Basismodellen auf mehreren Skalen hinweg übertrifft TRD durchgängig frühere Baselines, verbessert die Einzelversuchsgenauigkeit und erweitert die Abdeckung des logischen Denkens. Der Code ist verfügbar unter https://github.com/louieworth/trd.
Reinforcement Learning mit verifizierbaren Belohnungen hat die Fähigkeit zum logischen Denken in Vision-Language-Modellen erheblich verbessert. Für die Erstellung von Röntgen-Thorax-Befunden sind die standardmäßigen Belohnungen (d.h. exakte Übereinstimmungsgenauigkeit und schrittweise Prozesse) jedoch ungeeignet, da die Befunde aus ungeordneten und orthogonalen Feststellungen bestehen und nicht aus einer kausalen Reasoning-Kette. Wir adressieren diese Lücke mit einer mengenbasierten Sichtweise: Jeder Befund wird in Sätze aufgeteilt und durch ein eingefrorenes Sentence-Transformer-Modell eingebettet, was zu ungeordneten Einbettungsmengen führt. Wir schlagen die Verwendung von Set-to-Set-Distanzen zwischen generierten und Referenzeinbettungen als kontinuierliche, permutationsinvariante Belohnungen vor. Über zwei Datensätze und drei Vision-Language-Modelle (Qwen3-VL-2B/4B, Gemma3-4B) hinweg übertrifft das Post-Training mit GRPO auf Basis von Set-to-Set-Distanz-Belohnungen durchgängig sowohl das überwachte Feintuning als auch GRPO mit exakter Übereinstimmung bei allen Hauptmetriken (BERTScore, RadGraph F1 und CheXbert F1 mit durchschnittlich relativen Verbesserungen von 6,80 %, 7,82 % bzw. 4,45 %). Dieselben Set-Distanzen ermöglichen auch eine Best-of-N-Selektion zur Testzeit: Die Bewertung von Kandidaten anhand ihrer Distanz zu Einbettungen von Trainingsbefunden übertrifft die Zufallsauswahl bei unseren trainierten Modellen sowie bei drei quelloffenen LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) mit einer durchschnittlichen relativen Verbesserung von 16,4 % beim BERTScore. Als Streaming-Signal eingesetzt, unterstützen sie eine effizientere Form des Testzeit-Skalings: Das Aussortieren niedrig bewerteter Kandidaten während der Generierung reduziert die erzeugten Token um über 50 %, während die Befundqualität der vollständigen Best-of-N-Selektion erhalten bleibt. Zusammen etablieren diese Ergebnisse Set-Distanz-Belohnungen als einheitliches Signal sowohl für das Post-Training als auch für das Testzeit-Scaling bei der Erstellung von Röntgen-Thorax-Befunden. Unser Code ist öffentlich verfügbar unter: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.
Vision Transformers arbeiten auf festen Patch-Gittern, was zu phasenabhängiger Instabilität bei dichten Vorhersagen führen kann: Eine Änderung der Patch-Aufteilung kann die Token-Evidenz ändern, die einem Pixel zur Verfügung steht, insbesondere in der Nähe von Grenzen. Wir formalisieren die Patch-Gitter-Phase als Störvariable und schlagen die Phasenmarginalisierung vor, eine Post-hoc-Marginalisierungsmethode, die strukturierte Patch-Gitter-Phasen auswertet, dichte Ausgaben invers ausrichtet und sie im ursprünglichen Bildkoordinatensystem aggregiert. Die zentrale Variante, die einheitliche Phasenmarginalisierung mit K = 4, ist trainingsfrei und verbessert die kanonische K = 1-Baseline in den gemessenen Segmentierungs-, Tiefen- und lokalen Abgleichseinstellungen. In einem kontrollierten Cityscapes-Experiment bietet die einheitliche Phasenmarginalisierung einen bescheidenen rechenangepassten Vorteil gegenüber der generischen, verschiebungsbasierten Vierfach-Testzeit-Augmentierung (TTA) (+0,31 mittlerer Schnitt-über-Vereinigung gegenüber der stärksten getesteten generischen Reihe). Eine Skalierungsstudie zeigt ferner, dass K = 4 einen praktischen Kosten-Genauigkeits-Kompromiss darstellt: K = 8 ist im Wesentlichen unverändert und K = 16 fügt wenig Genauigkeit bei viel höherer Latenz hinzu. Diese Ergebnisse positionieren die Patch-Gitter-Phase als messbare Störvariable und die Phasenmarginalisierung als einfache Diagnose- und Post-hoc-Marginalisierungs-Baseline für dichte ViT-Vorhersagen.
Das Training visuell-sprachlicher Web-Agenten mit mehrstufigem Reinforcement Learning ist rechenintensiv und weist zwei dominante Ineffizienzformen auf: untätige GPUs in synchronem RL sowie Trajektorien, die mehr Schritte und Tokens als nötig verwenden. Wir stellen AsyncWebRL vor, das beide Probleme angeht. Auf der Systemseite überlappt ein asynchrones Design Rollout, Gradientenaktualisierung und Richtlinienaktualisierung über Iterationen hinweg, ergänzt durch zwei webspezifische Anpassungen – einen permanenten Rollout-Pool und eine leichtgewichtige Bildschirmfoto-Verarbeitung –, die zusammen eine bis zu 2,9-fache Beschleunigung des end-to-end-Trainingsdurchsatzes gegenüber der bisher schnellsten offenen synchronen Pipeline (WebGym) erzielen. Auf der algorithmischen Seite identifizieren wir den Pro-Trajektorien-Normalisierer 1/|τ_i| im mehrstufigen GRPO als Ursache für die Ineffizienz auf Trajektorien- und Token-Ebene: Da Fehlschläge systematisch länger sind als Erfolge, gewichtet er den negativen Gradienten auf fehlgeschlagenen Tokens herab, sodass die Richtlinie weiterhin ausführliche Gedächtnisschemata produziert. Der Ersatz von 1/|τ_i| durch eine Konstante 1/k bricht diese Kopplung, verkürzt Trajektorien und erhält gleichzeitig den Gesamterfolg. Zusammen setzen diese Beiträge einen neuen Open-Source-Spitzenwert auf dem Out-of-Distribution-Test-Split von WebGym (+5,8 % relativ gegenüber dem vorherigen Bestwert von 42,9 %), mit den größten Zuwächsen bei den schwierigeren Unterbereichen (+42 % relativ bei Medium, +48 % relativ bei Hard).
Schwach-zu-Stark-Verallgemeinerung untersucht, wie ein starker Schüler mithilfe der Aufsicht eines schwächeren Lehrers verbessert werden kann, wenn zuverlässige Labels knapp sind. Wir betrachten dies primär als ein Problem der Datenauswahl, bei dem die zentrale Herausforderung darin besteht, zu identifizieren, welche schwachen Labels zuverlässig genug sind, um als Trainingssignal zu dienen. Um dies zu adressieren, führen wir Vertrauensfunktionen ein, die jedem schwachen Label einen skalaren Vertrauenswert zuweisen, und nutzen diese Werte, um die schwache Aufsicht zu filtern. In mehreren Domänen, darunter Weltwissen, quantitatives Denken und Strategiespiele, erzielt das Vertrauensfiltering Schüler, die mit der Grundwahrheitsüberwachung gleichziehen und sie teilweise übertreffen, was eine nahezu verlustfreie Schwach-zu-Stark-Verallgemeinerung ermöglicht. Darüber hinaus ermöglichen Vertrauensfunktionen eine iterative Schwach-zu-Stark-Kette, die Gewinne verstärkt, indem sie einen Schüler trainiert und ihn als nächsten Lehrer wiederverwendet, wodurch die Gewinne potenziert werden. Es gibt mehrere Mechanismen, denen die Vorteile von Vertrauensfunktionen zugeschrieben werden können.
Chain-of-Thought (CoT) verbessert die Leistung Großer Sprachmodelle (LLMs) und wurde auf Multimodale Große Sprachmodelle (MLLMs) ausgeweitet. Neuere Arbeiten gehen weiter vom textbasierten multimodalen Schließen zum verschränkt-modalen Schließen über, bei dem Zwischenschritte sowohl textuelle Begründungen als auch visuelle Belege einbeziehen können. In dieser Arbeit schlagen wir eine kühnere und ambitioniertere Idee vor: Könnten Bilder allein als Schlussfolgerungsmedium sowohl für Sprach- als auch für multimodale Aufgaben dienen? Um dies zu untersuchen, schlagen wir das optische Schließen vor, das Bilder als eigenständiges Schlussfolgerungsmedium behandelt. Wir setzen dieses Konzept mit zwei Varianten um: dem typografiebasierten optischen Schließen, das visuelle Layouts für kompakte Begründungsdarstellungen optimiert, und dem grafikbasierten optischen Schließen, das Text und grafische Elemente zu strukturierten visuellen Begründungen zusammenfügt. In Benchmarks für mathematisches, wissenschaftliches und verschränkt-modales Schließen kann das optische Schließen mit dem traditionellen textbasierten Schließen mithalten oder es sogar übertreffen, während es die Anzahl der Reasoning-Token bei Sprachaufgaben um durchschnittlich 28,57 % und bei multimodalen Aufgaben um 16 % reduziert und damit eine 1,96-fache Token-Effizienz im Vergleich zum textbasierten Schließen erreicht. Diese Ergebnisse zeigen, dass Bilder Begründungen effektiv und effizient kodieren können und gleichzeitig eine einheitliche visuelle Grundlage für das Schließen bieten.
Aktuelle videobasierte Weltmodelle haben Pixelraum-Umgebungen auf Kamerae Ebene interaktiv gemacht: Benutzer können Blickwinkel navigieren, während das Modell kohärente visuelle Fortsetzungen generiert. Dennoch bleiben ihre Aktionsräume unvollständig – Nutzer können die Kamera bewegen, aber nicht auf einzelne Objekte einwirken. Da reale Interaktion inhärent objektzentriert ist, ähneln solche Modelle eher passiven Szenenbeobachtern als wirklich manipulierbaren Umgebungen. Wir präsentieren WorldCraft, ein Framework, das interaktive Video-Weltmodelle von Kameranavigation zu Objekt-Trajektorien-Aktionen erweitert. Auf Basis eines Benutzerklicks und einer skizzierten Bahn generiert WorldCraft zukünftige Frames, in denen das ausgewählte Objekt der vorgegebenen Trajektorie folgt, während die Kamera weiterhin die Szene navigiert. WorldCraft erreicht dies durch eine trajektorienzentrierte Steuerungspipeline: Zunächst repräsentiert die Normalized World Trajectory (NWT) die nutzergezeichnete Bewegung in einem kamerainvarianten Weltkoordinatensystem und projiziert sie dynamisch unter der aktuellen Kamerapose neu, wodurch Objektbewegung von kamerabedingter Bildschirmverschiebung getrennt wird; Spatial-Pathway LoRA (SP-LoRA) injiziert dieses Weltraumsignal dann über den räumlichen Steuerungspfad des Modells und fügt Objektmanipulationsfähigkeit hinzu, während der vortrainierte Kameraregler erhalten bleibt; schließlich behandelt Trajectory-Anchored State Persistence (TASP) die Welt-Trajektorie als persistenten räumlichen Zustand und aktualisiert das autoregressive Gedächtnis nach der trajektorienbasierten Generierung, sodass bewegte Objekte nach Verlassen des Kamerabilds an ihren aktualisierten Positionen wieder erscheinen können. Experimente zeigen, dass WorldCraft präzise Objektsteuerung ermöglicht, die Kameragenauigkeit des videobasierten Weltmodells unter reiner Kameraevaluierung bewahrt und den Objektzustand über lange autoregressive Abfolgen mit kamerabildfernen Ausflügen aufrechterhält.
KI-Evaluierungsergebnisse werden in großem Umfang produziert, aber über Bestenlisten, Modellkarten, Benchmark-Artikel und Unternehmensblogs hinweg inkonsistent berichtet. Der Preis dafür ist interpretativer Natur: Leser können Ergebnisse aus verschiedenen Quellen nicht zuverlässig vergleichen, erkennen nicht, was ein Bericht auslässt, und können eine aggregierte Behauptung nicht auf die zugrundeliegenden Belege zurückführen. Neuere Arbeiten adressieren zwar isolierte Komponenten, hinterlassen aber drei Lücken: Sie decken nur enge Ausschnitte des Evaluationslebenszyklus ab und fügen sich nicht zu einem einzigen interpretierbaren Datensatz zusammen; sie spezifizieren statische Repräsentationen, die nicht zwischen den unterschiedlichen Fragen differenzieren, die verschiedene Interessengruppen an denselben Beleg haben; und sie bleiben reine Vorschläge auf dem Papier, denen die für eine breite Adoption erforderliche Extraktionsinfrastruktur fehlt. Wir stellen eine operative Berichtsschicht vor, die Benchmark-Metadaten, Evaluationslaufdaten und Modellmetadaten zu einem einheitlichen Datensatz zusammenführt. Wir (1) leiten ein Berichtsschema aus einer strukturierten Analyse von 52 Artikeln und 10 Interviews mit Interessengruppen ab, (2) implementieren vier interpretative Signale (Reproduzierbarkeit, Dokumentationsvollständigkeit, Herkunft und Risiko sowie Ergebnisvergleichbarkeit), die über auf Forschungs- und Nicht-Forschungspublikum abgestimmte Lesemodi dargestellt werden, und (3) setzen ein Überwachungswerkzeug ein, das über 5.816 Modelle, 635 Benchmarks und 101.843 Ergebnisse hinweg angewendet wird und systematische Lücken in der derzeitigen Berichtspraxis aufdeckt.
Prompt-Injektionsdetektoren sind heterogen: Jeder ist in einem anderen Angriffssegment stark, und keiner ist stets zuverlässig. Dennoch behandeln bestehende Systeme die Erkennung weiterhin als feste Ein-Detektor-Pipeline und überlassen jede Anfrage den blinden Flecken eines einzelnen Detektors. Wir formulieren die Verteidigung als Detektorzuweisung um: Bei einem heterogenen Pool wird pro Anfrage entschieden, welche Detektoren ausgeführt werden und ob eine Eskalation an einen LLM-Richter erfolgen soll. Unser Framework SCOUT (Skalierbare und kontrollierbare Ergebnisvorhersage für unsicherheitsbewusste Triage) trifft diese Entscheidung dynamisch, indem es die stichprobenbezogene Zuverlässigkeit und Latenz jedes Detektors aus dessen Verhalten bei ähnlichen vergangenen Eingaben vorhersagt und dem Betreiber eine einzelne Sicherheits-Nutzen-Schwelle bereitstellt (wobei der Nutzen die Durchlassrate für harmlose Anfragen und die Wanduhrzeit bündelt). Zur Bewertung dieser Umgebung erstellen wir SCOUT-450, einen Benchmark, der die strukturell komplexen, agentenorientierten Injektionen erfasst, die in älteren Prompt-Injektionsdatensätzen unterrepräsentiert sind. Auf SCOUT-450 reduziert ein sicherheitsorientierter Arbeitspunkt die Angriffserfolgsrate um 46 % und die Gesamtwanduhrzeit um 40 % im Vergleich zu einem ständig aktiven GPT-4o-Richter, bei einem Nutzenverlust von 5,1 Punkten bei harmlosen Anfragen. SCOUT überträgt sich außerdem auf drei externe Benchmarks (BIPIA, IPI und IHEval) und verbessert die Sicherheits-Nutzen-Grenze.
Agent-Benchmarks bewerten Einreichungen mit Ergebnisprüfern, die typischerweise manuell erstellt und spröde sind, was sie anfällig für Reward Hacking macht. Wir überprüfen 1.968 Aufgaben aus fünf Terminal-Agent-Benchmarks und stellen fest, dass 323 (16%) von Grenzmodellen allein anhand der Aufgabenbeschreibung hackbar sind. Dies verfälscht sowohl Leaderboard-Rankings als auch RL-Trainingssignale, dennoch ist die Standardreaktion manuell und reaktiv. Wir führen die Hacker-Fixer-Schleife ein, eine Methode zur Erstellung manipulationsresistenter Prüfer ohne manuelle Anpassung pro Aufgabe. Die Schleife wechselt drei LLM-Agenten ab: Ein Hacker versucht, den Prüfer zu passieren, ohne die Aufgabe zu lösen; ein Fixer passt den Prüfer an, um jeden entdeckten Exploit abzuweisen; und ein Löser bestätigt, dass der angepasste Prüfer weiterhin legitime Lösungen zulässt. Die Schleife iteriert: Jeder Patch formt neu, was der Prüfer belohnt, und bringt den nächsten Exploit hervor. Wir fügen ferner Prüferzugriff hinzu und lassen Patches über Aufgaben hinweg übertragen, um das Spektrum der von der Schleife entdeckten Exploits zu erweitern. Auf KernelBench senkt die Schleife die Angriffserfolgsrate von 62% auf 0% auf einem zurückgehaltenen Korpus öffentlich gemeldeter Exploits. Wir stellen zudem fest, dass schwächere Agenten in der Schleife gegen deutlich stärkere Hacker verteidigen können: Die Schleife von Gemini 3 Flash senkt die Angriffserfolgsrate der stärkeren Gemini 3.1 Pro und Claude Opus 4.7 von 76% bzw. 61% auf 0% auf KernelBench, und die von Gemini 3.1 Pro von 39% auf 17% auf Terminal Bench über 77 Aufgaben. Wir veröffentlichen Terminal Wrench (323 hackbare Umgebungen, 3.632 Hack-Trajektorien) als Momentaufnahme der aktuellen Angriffsfläche, unsere gepatchten Prüfer, die von der Schleife entdeckten Exploits und unsere Implementierung als Grundlage für zukünftige Arbeiten.
Bestehende wissenschaftliche Relationsextraktions-Benchmarks konzentrieren sich hauptsächlich auf Domänen wie die Informatik, in denen Entitäten Aufgaben, Methoden, Datensätze, Materialien oder Metriken sind. Dies hinterlässt eine Lücke in variablenorientierten empirischen Feldern wie der Psychologie, in denen Ergebnisse als Beziehungen zwischen Konstrukten, Messungen, Interventionen und Ergebnissen ausgedrückt werden. Wir führen die variablenzentrierte empirische Graphextraktion ein – die Aufgabe, wissenschaftliche Abstracts in typisierte Graphen zu überführen, deren Knoten normalisierte Variablen sind und deren Kanten empirische und hierarchische Beziehungen darstellen. Zur Unterstützung dieser Aufgabe konstruieren wir EmpiriGraph-Psy, einen Benchmark bestehend aus 210 psychologischen Abstracts, die von domänengeschulten Annotatoren mit normalisierten Variablen, Konzepthierarchien, empirischen Beziehungstypen und Validierungszuständen annotiert wurden. Wir evaluieren Grenz- und Open-Weight-LLMs sowohl mittels direkter Extraktion als auch mittels einer stufenweisen Graphenkonstruktionspipeline, die Variablenextraktion, Normalisierung, Hierarchieerstellung, Evidenzauswahl, Relationsextraktion und Kantenvalidierung trennt. Die stufenweise Pipeline übertrifft die direkte Extraktion deutlich, wobei die beste Konfiguration einen Makro-F1-Wert von 0,74 erreicht. Die Fehleranalyse zeigt, dass Moderationsbeziehungen und Konzepthierarchien die schwierigsten Fälle bleiben, was die Herausforderung verdeutlicht, empirische Aussagen höherer Ordnung und implizite Abstraktionsstrukturen aus wissenschaftlichen Abstracts zu extrahieren.
Das Verständnis darüber, was generative Modelle aus Trainingsdaten behalten, bleibt eine Herausforderung mit Implikationen für Urheberrecht und Datenschutz. Über die wörtliche Wiedergabe hinaus können Modelle subtilere Spuren ihrer Trainingsdaten kodieren, die nie in ihren Ausgaben sichtbar werden, aber dennoch ausgenutzt werden können. Wir untersuchen dieses Regime für Rectified Flows, die zunehmend in eingesetzten generativen Systemen verwendet werden. Wir analysieren den Interpolationspfad X_λ = (1-λ)X_0 + λX_1, der das Training von Rectified Flows definiert. Wir zeigen, dass eine Lücke zwischen der Rekonstruktion von Trainings- und Testdaten besteht, die einer glockenförmigen Kurve über λ folgt, sich während des Trainings akkumuliert, während die Validierungsmetriken stabil bleiben. Das Signal hat ein Maximum, dessen Lage wir unter Gaußschen Annahmen in geschlossener Form ableiten. Wir validieren diese Vorhersagen sowohl für Audio als auch für Bilder und zeigen, dass die glockenförmige Struktur universell ist, während die Vorhersage des Maximums gilt, wenn unsere Annahmen erfüllt sind. Als Machbarkeitsnachweis nutzen wir diese spezifische λ-aufgelöste Struktur, um einen Membership Inference Attack durchzuführen, der Mitglieder des Trainingssatzes von Nichtmitgliedern unterscheidet.
Medizinische Agentensysteme werden zunehmend dafür vorgesehen, interaktive klinische Entscheidungsfindung zu unterstützen, anstatt nur statische Fragen zu beantworten. In solchen Umgebungen müssen effektive Agenten frühere Erfahrungen über sich entwickelnde Fälle hinweg wiederverwenden, doch bestehende Gedächtnismechanismen bewahren oft rohe historische Spuren, die redundant, verrauscht und schwer zu kontrollieren sind. Noch wichtiger ist, dass sie selten unterscheiden, welche Erinnerungen für zukünftiges Denken tatsächlich nützlich sind. Dies schränkt ihre Fähigkeit ein, kompakte und zuverlässige Erfahrungen für langfristiges klinisches Denken zu sammeln. Um diese Lücke zu schließen, schlagen wir SkeMex vor, ein Post-Deployment-Selbstevolutionsframework, das medizinische Agenten durch ein fähigkeitsbasiertes Gedächtnis verbessert, ohne Modellgewichte zu aktualisieren. SkeMex destilliert informative Interaktionstrajektorien in strukturierte Fähigkeiten, die wiederverwendbares prozedurales Wissen kodieren, und organisiert sie in einem mehrzweigigen Repository, das allgemeine, aufgabenspezifische und aktionsbezogene Erfahrungen umfasst. Um zu bestimmen, welche Erinnerungen wiederverwendet und behalten werden sollen, schätzt SkeMex den kontextabhängigen Nutzen aus Umgebungsfeedback und nutzt diesen zur Steuerung eines wertbewussten Abrufs und einer Repository-Governance. Ein geschlossener Kreislauf aus "Lesen – Schreiben – Bewerten – Steuern" unterstützt die kontinuierliche Evolution, indem neue Fähigkeiten geschrieben, Nutzenwerte aktualisiert, nützliche Erinnerungen gefördert und schädliche Einträge entfernt werden. Experimente über verschiedene klinische Aufgaben hinweg zeigen, dass SkeMex repräsentative gedächtnisbasierte Agenten sowohl in Offline- als auch in Online-Umgebungen durchweg übertrifft. Es generalisiert zudem über verschiedene Modell-Backbones und unterstützt übertragbares Fähigkeitsgedächtnis. Alle Daten und der Code werden öffentlich zur Verfügung gestellt.
Wir stellen SigmaScale vor, eine Methode zum Erlernen von Hilfsskalierungsmatrizen S zur Unterstützung der auf trunkierter Singulärwertzerlegung (SVD) basierenden Kompression großer Sprachmodelle (Large Language Models, LLMs). Anstatt Skalierungsmatrizen analytisch herzuleiten, optimiert SigmaScale zwei Vektorsätze, die diagonale Zeilen- und Spaltenskalierungstransformationen unter einem aktivierungsbewussten Kompressionsverlust definieren. Wir zeigen, dass erlernte Skalierung den effektiven intrinsischen Rang von Gewichtsmatrizen senkt, was sich in einer Reduzierung der Effektiv-Rang-Entropie widerspiegelt, und dass diese Reduzierung stark mit dem Kompressionsverlust korreliert. Experimente mit Llama 3.1 8B Instruct und Qwen3-8B zeigen, dass SigmaScale mit eng verwandten modernen SVD-basierten Kompressionsmethoden bei Perplexitäts- und Zero-Shot-Benchmarks konkurrieren kann. Durch die Verwendung erlernter aktivierungsbewusster Transformationen erkundet SigmaScale einen flexibleren Weg zur Niedrigrang-LLM-Kompression, indem es sich an die Struktur einzelner Modellgewichte anpasst. Der bei bestimmten Aufgaben beobachtete Vorteil macht unseren Ansatz zu einer validen Option für Anwendungen, die reduzierte LLM-Inferenzkosten erfordern.
Große Sprachmodelle werden zunehmend von anderen Modellen bewertet, was die naheliegende Frage aufwirft: Kann ein Modell vorhersagen, wie ein Bewerter seine eigene Ausgabe bewerten wird? Wir stellen fest, dass diese Fähigkeit bereits weitgehend vorhanden ist, bevor ein gezieltes Training erfolgt: Mittels Few-Shot-Prompts sagt ein Basismodell die Qualitätsbewertungen für mehrere Attribute eines externen Bewerters bei offenen Antworten bereits deutlich über dem Zufallsniveau voraus – und das über drei Vergleichsmaßstäbe hinweg. Wir führen die Selbstevaluations-Hervorlockung (Self-Evaluation Elicitation, SEE) ein, eine Methode, die diese latente Fähigkeit durch einen kurzen Zyklus freilegt: eine an die Kalibrierung gekoppelte Verstärkungslernphase, die die Antwort verbessert und den Bewerter vorhersagt, gefolgt von einer maskierten Destillationsphase, die die Vorhersage schärft, während die Antwort unberührt bleibt. Ausgehend von 160 einzigartigen Beispielen, etwa 31-mal weniger als bei einem Verstärkungslern-Baseline, verbessert SEE die Kalibrierung auf zurückgehaltenen Daten über drei Vergleichsmaßstäbe hinweg, während die Antwortqualität erhalten bleibt. Die hervorgelockte Selbstevaluation ist scharf innerhalb der eigenen Token-Verteilung des Modells lokalisiert und stabil gegenüber Bewertern, mit denen es nie trainiert wurde, was auf ein übertragbares Qualitätskonzept hindeutet, nicht auf die Präferenz eines einzelnen Bewerters. Diese Ergebnisse stellen das bewertungsausgerichtete Selbstevaluationsproblem als ein Problem der Hervorlockung und nicht der Akquisition neu dar.
Latentes visuelles Denken (LVR) fügt zwischen Wahrnehmung und Antwortgenerierung in Vision-Language-Modellen (VLMs) überwachte latente Token ein. Das Feld verwendet die Ausrichtung zwischen diesen Latenten und ihren visuellen Zielen, d. h. Kosinus-Ähnlichkeit oder mittlerer quadratischer Fehler (MSE), sowohl als Trainingsverlust als auch als Qualitätsmetrik, unter der Annahme, dass eine bessere Ausrichtung eine bessere Antwort ergibt. Wir testen dies mit einer entworfenen Matrix von fünf LVR-Varianten und stellen fest, dass die Annahme umgekehrt ist: Die Kosinus-Ausrichtung ist über alle fünf Varianten hinweg negativ mit der Genauigkeit korreliert (r = –0,94). Zur Erklärung führen wir PRISM ein, ein Paar von Inferenzzeit-Diagnostiken: eine lineare Sonde, die fragt, wo die Antwort dekodierbar ist, und einen Korruptionstest, der fragt, ob das Latente tragend ist. Die überwachten Latenten werden weitgehend umgangen. Ihre Korruption verändert die Genauigkeit um höchstens vier Punkte. Die Antwort ist stromabwärts des Latenten dekodierbar, aber nicht an ihm selbst, und die Größe dieser Dekodierbarkeitslücke sagt voraus, wie stark jede Variante unter Störung auf ihr Latentes angewiesen ist. In Übereinstimmung mit einer Information-Bottleneck-Interpretation des Verlusts formt das Hilfsziel das Sprachmodell über gemeinsame Parameter um, anstatt über die latente Variable, die es nominell optimiert.
Standard-Transformer wenden Self-Attention einheitlich auf jeder Schicht und für jedes Token an, unabhängig davon, ob die Eingabe eine dynamische Kreuztoken-Interaktion erfordert. Wir schlagen CHIAR-Former (Chiaroscuro Attention) vor, einen hybriden Transformer mit vier Schichten, der jedes Token basierend auf der spektralen Entropie pro Token, einem theoretisch begründeten Komplexitätssignal, einem von drei Operatoren zuweist – DCT-Spektralmischung, RBF-Kernel-Mischung oder vollständiger Self-Attention. Durch systematische Ablation auf WikiText-103 entdecken wir ein Routing-Collapse: Der Router lehnt RBF konsequent zugunsten von DCT und Attention ab, was zeigt, dass Spektralmischung und dynamische Attention komplementär und ausreichend sind. Eine speziell entwickelte Variante mit nur DCT+Attention erreicht auf WikiText-103 ein Val PPL von 36,54 – eine Verbesserung um 45 % gegenüber einer Full-Attention-Baseline (PPL 66,62) bei 62,5 % weniger Attention-FLOPs. Wir erweitern die Evaluierung auf WikiText-2, IMDB-Sentiment-Klassifikation und synthetische ListOps-Operationen und etablieren ein klares Einsatzgebiet: CHIAR-Former übertrifft auf großskaligen natürlichen Texten, wo die Token-Diversität spektrale Spezialisierung unterstützt, während Full-Attention bei kleinen Datensätzen und synthetischen Mustererkennungsaufgaben weiterhin Vorteile bietet. Diese Ergebnisse – sowohl die Erfolge als auch die Misserfolge – definieren gemeinsam, wann und warum sich spektrales Routing lohnt.
Langfristige agentische Aufgaben stellen ein fundamentales Kreditzuweisungsproblem für ergebnisbasierte Verstärkungslernverfahren dar: Belohnungen auf Trajektorienebene überprüfen die finale Korrektheit, liefern jedoch nur begrenzte Hinweise darauf, welche Zwischenschritte der Argumentation oder Werkzeuginteraktionen zum Ergebnis beitragen. Die Schwierigkeit ist besonders ausgeprägt bei mehrschrittigen Suchagenten, bei denen erfolgreiche Trajektorien irreführende Aktionen enthalten können und fehlgeschlagene Trajektorien wertvolle beweissammelnde Schritte enthalten können. Wir schlagen PBSD (Privileged Bayesian Self-Distillation) vor, eine Bayes-kalibrierte Selbst-Destillationsmethode für feinkörnige Kreditzuweisung unter spärlichen Endbelohnungen. PBSD misst die Trajektorienqualität durch das Posterior-zu-Prior-Wahrscheinlichkeitsverhältnis der überprüften Antwort und wendet die Bayes-Regel an, um dieses schwer zu schätzende antwortseitige Verhältnis in ein handhabbares Likelihood-Verhältnis zwischen einem Standard-Schülermodell und einem priviligierten, antwortbedingten Lehrermodell zu überführen. Die autoregressive Zerlegung dieses Bayesschen Evidenzwerts liefert Signale auf Zug-Ebene, die identifizieren, ob jeder Zwischenschritt das überprüfte Ergebnis unterstützt oder untergräbt. Folglich bietet PBSD ein prinzipielles und elegantes Umgewichtungsschema, das spärliche Ergebnisüberwachung in Bayes-kalibrierte Kreditsignale auf Zug-Ebene transformiert, während es vollständig mit der Standard-Policy-Optimierung kompatibel ist. Experimente zeigen, dass PBSD die Leistung sowohl in domäneninternen als auch in domänenübergreifenden Umgebungen konsistent verbessert und effektiv Wissen vom Training mit kurzem Kontext zur Inferenz mit langem Kontext überträgt, was darauf hindeutet, dass sein feinkörniger Kreditzuweisungsmechanismus ein effektiveres Policylernen ermöglicht und eine verbesserte Generalisierung bewirkt.
Die jüngsten Fortschritte in der Roboter-Manipulation wurden maßgeblich durch Lernen aus groß angelegten Demonstrationen vorangetrieben. Für Aufgaben der Lokomotions-Manipulation humanoider Roboter erzwingen bestehende Datenquellen jedoch einen unbefriedigenden Kompromiss zwischen Trajektorienqualität und Skalierbarkeit. Teleoperation in der realen Welt liefert Trajektorien höchster Qualität, erfordert jedoch dedizierte physische Räume und zeitaufwändige Szenenrücksetzungen. Simulation bietet einen alternativen Ausweg aus diesem Dilemma: Sie kann saubere, körperangepasste Daten in großem Umfang ohne physische Hardware erzeugen. In diesem Artikel schlagen wir OASIS vor, ein simulationsdatengetriebenes Framework für die Lokomotions-Manipulation humanoider Roboter. OASIS rekonstruiert automatisch realistische Objekt-Assets aus realen Bildern mittels eines 3D-generativen Modells. Basierend auf diesen Assets werden Trajektorien zunächst durch Teleoperation in der Simulation gesammelt und anschließend in einer Nachbearbeitungsphase unter verschiedenen Domänenrandomisierungen erweitert. Mit den resultierenden Simulationsdaten entwerfen wir zudem eine hierarchische visuomotorische Strategie für die Lokomotions-Manipulation humanoider Roboter. Umfangreiche Experimente am realen humanoiden Roboter zeigen, dass die mit unseren Simulationsdaten trainierte Strategie bei der Nullschuss-Anwendung auf den meisten Aufgaben eine höhere Erfolgsrate erzielt als die auf realen Teleoperationsdaten trainierte, was maßgeblich auf die breite Abdeckung von Beleuchtungs- und Umweltvariationen durch unsere Simulationsrendering zurückzuführen ist, die reale Roboterdaten nicht erfassen können. Die Projektseite ist verfügbar unter https://oasis-humanoid.github.io/.
Diese Arbeit untersucht agentisches 3D-Raumverständnis, d.h. MLLM-Agenten, die durch Werkzeuggebrauch 3D-Schlussfolgerungen durchführen. Bestehende Methoden nutzen Werkzeuge häufig falsch und zeigen in 3D-Szenarien verzerrte Werkzeugpräferenzen, sodass das agentische Paradigma nur marginale Verbesserungen gegenüber nicht-agentischen Strategien erzielt. Wir zeigen, dass 3D-Raumverständnisaufgaben szenenübergreifend heterogen sind, während diese Agenten eine einheitliche Werkzeugnutzungsstrategie auf alle Szenen anwenden, anstatt Werkzeuge gemäß der spezifischen Szene und Aufgabe auszuwählen. Um dies zu adressieren, schlagen wir Skill-3D vor, ein Framework, das selbstentwickelnde, szenenbewusste Fähigkeiten (Skills) erlernt. Konkret identifiziert Skill-3D die Aufgabenszene und zeichnet die Werkzeugnutzungstrajektorie des Agenten in einem Szenenspeicher (Scene Memory) auf. Dabei werden erfolgreiche Trajektorien aus ähnlichen Szenen aggregiert und in einen wiederverwendbaren, szenenbewussten Skill destilliert, während fehlgeschlagene Trajektorien als Lehren (Lessons) an den Skill angehängt werden. Während des Trainings wird, sobald eine ähnliche Szene erneut auftritt, der entsprechende Skill injiziert, um den Agenten zu leiten, wodurch neue Trajektorien entstehen, deren Erfolge und Misserfolge den Skill weiter verfeinern. Dies bildet eine Schleife, in der sich der Speicher und die Skill-Bibliothek gemeinsam weiterentwickeln. Experimente zeigen, dass Skill-3D die Werkzeugnutzung bei 3D-Raumverständnis erheblich verbessert (von 39 % auf 78 % auf VSI-Bench), was den Agenten zu korrektem und ausreichendem Werkzeuggebrauch führt. Beispielsweise verbessert es Gemini-3-Flash um 67 % auf MMSI-Bench. Darüber hinaus führen wir ein agentisches Post-Training über Skill-gesteuerte Trajektorien durch, das Qwen3-VL-8B um 43 % auf VSI-Bench steigert.
Die Ausstattung großer Sprachmodelle (Large Language Models, LLMs) mit der Fähigkeit, zuverlässige mehrschrittige Arbeitsabläufe auszuführen, ist zu einer zentralen Herausforderung in der künstlichen Intelligenz geworden. Trotz jüngster Fortschritte bei den agentischen Fähigkeiten von LLMs fehlt den meisten Agentensystemen nach wie vor eine formale Methode zur Spezifikation, Verifikation und Fehlersuche ihrer Arbeitsabläufe und Ausführungspfade. Diese Herausforderung spiegelt ein seit langem bestehendes Problem in der Mathematik wider, bei dem die Mehrdeutigkeit natürlicher Sprachen (Natural Languages, NLs) die Entwicklung formaler Sprachen (Formal Languages, FLs) motiviert. Inspiriert von diesem Paradigma schlagen wir **Lean4Agent** vor – nach unserem Kenntnisstand das erste Framework, das Lean4, eine abhängig typisierte formale Sprache, zur Modellierung und Verifikation von Agentenverhalten einsetzt. **Lean4Agent** führt **FormalAgentLib** ein, eine erweiterbare Lean4-Bibliothek zur formalen Modellierung und Verifikation der semantischen Konsistenz von Agentenabläufen unter expliziten Annahmen, sowie zur Lokalisierung von zur Laufzeit aufgetretenen Fehlern, die durch Ablaufverfolgungen sichtbar werden. Aufbauend auf **FormalAgentLib** entwickeln wir **LeanEvolve**, das die Ergebnisse von **FormalAgentLib** nutzt, um Arbeitsabläufe zu überarbeiten und so ihre Leistungsfähigkeit zu steigern. Umfangreiche Experimente mit einer schwierigen Problemauswahl aus SWE-Bench-Verified sowie einer Auswahl aus ELAIP-Bench mit fünf führenden LLMs zeigen, dass die verifikationsbestandenen Arbeitsabläufe die fehlgeschlagenen im Durchschnitt um **11,94 %** übertreffen, und **LeanEvolve** die SWE-Leistung um durchschnittlich **7,47 %** weiter verbessert. Darüber hinaus legt **Lean4Agent** den Grundstein für ein neues Forschungsfeld, das ausdrucksstarke, abhängig typisierte formale Sprachen zur formalen Modellierung und Verifikation von Agentenverhalten nutzt.
Die Experten-Mischung (Mixture-of-Experts, MoE) ist heute die dominierende Architektur für führende Sprachmodelle, erfordert jedoch, dass alle Expertenparameter im Speicher geladen werden, was sie für den speicherbeschränkten Einsatz weniger geeignet macht. Bestehende Kompressionsmethoden reduzieren die Anzahl der Experten, aber das Ergebnis bleibt ein MoE-Modell mit derselben grundlegenden Einschränkung. Wir stellen den ersten systematischen Rahmen für die Umwandlung eines trainierten MoE in eine standardmäßige, vollständig dichte Architektur vor: Experten werden bewertet, ausgewählt und gruppiert, dann zu einem dichten FFN verkettet und durch Wissensdestillation vom MoE-Lehrer verfeinert. Wir evaluieren 7 Bewertungs-, 5 Gruppierungs- und 2 Größenskalierungsmethoden über eine Reihe ausgewählter Expertenanzahlen auf Qwen3-30B-A3B und erhalten 350 Konfigurationen. Wir stellen fest, dass die Wahl der Bewertungsmethode den größten Einfluss hat, wobei unsere neuartige diversitätsbewusste Bewertung durchweg besser abschneidet als frühere Methoden auf Qwen3-30B-A3B, DeepSeek-V2-Lite und GPT-OSS-20B. Unter kontrolliertem Vergleich bei übereinstimmender Parameterzahl übertrifft die MoE-zu-Dicht-Umwandlung die dicht-zu-dicht-Bereinigung (Pruning) um +6,3 Prozentpunkte in der durchschnittlichen Genauigkeit nachgelagerter Aufgaben nach etwa 4 Milliarden Token Destillation bei 1,6-fach höherer Trainings-Wanduhrgeschwindigkeit.
Reflexion-artige Agenten verlassen sich auf selbstgenerierte Reflexionen als Gedächtnis und nehmen dabei implizit an, dass Agenten ihre eigenen Fehler genau diagnostizieren können. Wir zeigen, dass diese Annahme systematisch scheitern kann: Sowohl in ALFWorld als auch in HumanEval speichern Agenten selbstbewusste, aber falsche Interpretationen der Aufgabe und handeln weiterhin auf deren Grundlage über mehrere Versuche hinweg, obwohl die Umgebung sich jedes Mal auf die korrekte Aufgabe zurücksetzt. Wir bezeichnen diese Fehlerform als Gedächtniskonfabulation und führen die Reflexionswiederholungsrate (RRR) ein, eine protokollbasierte Metrik, die wiederholte Abhängigkeit von falschem reflexiven Inhalt erkennt. Mithilfe der RRR identifizieren wir 16 eingefrorene Umgebungen in ALFWorld, in denen 0 von 121 Reflexionen das korrekte Zielobjekt erwähnen, sowie 4 analoge Fälle in HumanEval. Unsere Abhilfe ersetzt die offene Selbstdiagnose durch eine programmatische Extraktion von Trajektorien-Fehlersignalen, erhöht die korrekte Objekterwähnung von 0% auf 86%, senkt die RRR von 0,64 auf 0,10 und löst 3 der 16 eingefrorenen ALFWorld-Umgebungen, was darauf hindeutet, dass reflexives Gedächtnis falsche Überzeugungen eher verstärken als korrigieren kann.
Passive hyperspektrale Bildgebung im langwelligen Infrarot (LWIR) unter einer Standoff-Geometrie hängt von atmosphärischer Absorption und Emission sowie von reflektierter Strahldichte ab, wodurch die atmosphärische Kompensation unerlässlich wird, um Kenntnisse über ein Zielobjekt zu erlangen. Trotz ihrer Bedeutung wurde diese Kompensation aufgrund ihrer praktischen und modellierungstechnischen Schwierigkeit weitgehend vernachlässigt. In dieser Arbeit stellen wir ein leichtgewichtiges, mengenbasiertes Deep-Learning-Framework vor, das mehrere Strahldichtemessungen, die in verschiedenen Standoff-Entfernungen erfasst wurden, als Eingabe nimmt und gemeinsam die Transmission, die atmosphärische Pfadstrahldichte und ein gemeinsames Downwelling-Spektrum schätzt. Wir analysieren die gelernte Repräsentation mit einem sparse Autoencoder und stellen fest, dass mehrere latente Merkmale auf geografisch kohärenten Teilmengen der Testdaten aktiviert werden, obwohl keine Standortüberwachung vorliegt. Experimente auf einem mit MODTRAN generierten Standoff-LWIR-Datensatz zeigen eine geringe spektrale Verzerrung über alle geschätzten Produkte hinweg. Der Datensatz und der Code sind öffentlich verfügbar unter: https://factral.co/SAE-LWIR/
Cross-View-Geolokalisierung schätzt die geografische Position eines Bodenbildes durch Abgleich mit einer Luftbilddatenbank. Bestehende Methoden lösen dies entweder durch großflächige Suche oder präzise Posenbestimmung, jedoch nicht durch beides: suchbasierte Methoden ermöglichen eine flächendeckende Suche auf Kosten der Lokalisierungsgenauigkeit, während Methoden zur Posenbestimmung nur in einem eingeschränkten Suchraum hohe Präzision erreichen. Ein naives Hintereinanderschalten dieser Pipelines führt zu Fehlerfortpflanzung und inkonsistenten Merkmalsdarstellungen. Wir formulieren Cross-View-Geolokalisierung als einheitliches Problem, das gleichzeitige stadtweite Suche und präzise 3-DoF-Posenbestimmung erfordert. Wir schlagen CIPER (Cross-view Image-retrieval and Pose-estimation transformER) vor, eine einzelne Architektur, die beide Aufgaben durch gegenseitig vorteilhaftes Merkmalslernen gemeinsam ausführt. CIPER verwendet einen gemeinsamen Transformer-Encoder mit aufgabenspezifischen Tokens, um globale Suchmerkmale von räumlichen Lokalisierungshinweisen zu trennen. Um die große Domänenlücke zwischen Boden- und Luftaufnahmen zu überbrücken, führen wir einen bidirektionalen Transformer-Pose-Decoder ein, der Bodenmerkmale als räumliche Abfragen für bidirektionale Kreuzattention nutzt. Eine Set-Vorhersagestrategie ermöglicht zudem eine stabile 3-DoF-Regression unter einem einheitlichen Multi-Task-Ziel. Experimente auf VIGOR, KITTI und Ford Multi-AV zeigen wettbewerbsfähige Leistung, insbesondere bei eingeschränktem Sichtfeld und beliebigen Ausrichtungsbedingungen. Der Code ist verfügbar unter https://github.com/yurimjeon1892/CIPER.
Referenzfreie Treue-Metriken überprüfen jede atomare Behauptung eines Modells anhand der Grundwahrheit und werden zunehmend zur Bewertung von grundierter Generation eingesetzt. Wir zeigen, dass sie einen blinden Fleck teilen: Sie messen nur die Präzision – werden die genannten Behauptungen gestützt? – und belohnen daher Enthaltung, da ein Modell nahezu perfekte Treue erzielen kann, indem es fast nichts sagt. Wir machen dies messbar mittels Formel-1-Telemetrie, einem Bereich, in dem strategische Grundwahrheiten deterministisch und, entscheidend, vollständig abgeleitet werden: Für jede Entscheidung kennen wir die vollständige Menge der relevanten Fakten. Diese Vollständigkeit – die in Open-Domain-Treue-Benchmarks fehlt – erlaubt es uns, den Recall (Abdeckung der relevanten Fakten) exakt sowie die Präzision zu messen. In einem mehrsprachigen (EN/ES/PT) Benchmark mit 7.253 Entscheidungsinstanzen aus 150 Rennen deckt das präziseste Frontier-Modell weniger als die Hälfte der relevanten Fakten ab und belegt nach F1 den letzten Platz, sodass die Anforderung von Abdeckung die Systeme neu ordnet; derselbe Effekt zeigt sich in einem zweiten Bereich mit vollständigem Oracle (NOAA-Wettervorhersagen). Eine Prompt-Ablation zeigt, dass die geringe Abdeckung kein Artefakt unzureichenden Promptings ist: Die explizite Aufforderung an Modelle, gründlich zu sein, schließt die Lücke nicht. Wir kombinieren Treue und Abdeckung zu einem einzigen Score, validieren die Metrik (kontrollierte Perturbation; Übereinstimmung zwischen einem modellfreien Regex-Extraktor und einem familienübergreifenden LLM-Extraktor, systemweiter Spearman 1.0) und präsentieren eine verifikatorgesteuerte Generierungsmethode, die Präzision und Recall ohne Referenzen verbessert. Wir veröffentlichen den Benchmark, strukturierte Annotationen, die Metrik, Baseline-Methoden und eine interaktive Demo.
Große Sprachmodelle (Large Language Models, LLMs) bieten einen vielversprechenden Ansatz für die maschinelle Übersetzung (Machine Translation, MT) extrem ressourcenarmer Sprachen, indem sie linguistische Ressourcen durch kontextuelles Lernen (In-Context Learning) einbeziehen. Allerdings fällt es LLMs oft schwer, grammatikalische Informationen während der Übersetzung effektiv anzuwenden. Inspiriert von jüngsten Fortschritten im Bereich des Ketten-Denkens (Chain-of-Thought Reasoning) untersuchen wir, ob die ressourcenarme MT von strukturierten Zwischenschritten der linguistischen Analyse und des grammatikalischen Denkens profitieren kann. Wir schlagen eine Pipeline vor, die schrittweise linguistische Denkspuren automatisch aus Universal-Dependencies-Baumbanken, Wörterbüchern und Grammatikregelbanken generiert. Wir evaluieren diese Spuren in drei Umgebungen: kontextuelles Lernen (ICL), überwachtes Feintuning (SFT) und verstärkendes Feintuning (RFT), wobei Xibe und Chintang als Testfälle dienen. Unsere Ergebnisse zeigen, dass linguistische Denkspuren am effektivsten als Leitfaden während der Inferenz wirken: Bei ICL verbessern zuverlässige satzspezifische Spuren die Übersetzungsleistung in den meisten Modellen, Sprachen und Metriken erheblich. Im Gegensatz dazu führen linguistische Denkspuren als Trainingsdaten zu geringeren und weniger konsistenten Verbesserungen, da die Modelle das Format der Spuren lernen, aber oft fehlerhafte Inhalte generieren. Diese Ergebnisse legen nahe, dass LLMs grammatikalische Informationen für die ressourcenarme MT nutzen können, wenn zuverlässige linguistische Analysen vorliegen, während das Erlernen der Erzeugung solcher Analysen weiterhin ein wesentlicher Engpass bleibt.
Unternehmenseigenschaftsgraphen unterscheiden sich erheblich in ihrer Schemastruktur, internen Terminologie, Domänenannahmen, Governance-Einschränkungen und Benutzerinteraktionsmustern. Ein einsatzrelevanter Text2Cypher-Benchmark spiegelt daher die Fragen wider, die Benutzer und Agenten tatsächlich an diesen Graphen stellen. Die Erstellung eines solchen Benchmarks ist schwierig, da Schemata und Werte einzigartig sind und sich die Graphstruktur im Laufe der Zeit ändert. Jedes NL-Abfrage-Paar muss zudem ausführbar sein, reale Graphenentitäten verwenden, Diversität bewahren und über Abfragetypen und Schwierigkeitsgrade hinweg ausgewogen bleiben. Wir stellen PIPE-Cypher vor, eine lokale Benchmark-Erstellungspipeline, die einen Live-Eigenschaftsgraphen und optionale Startabfragen aus Kundenfragen, Analystenlogs oder Agenten-Toolaufrufen in ausgewogene NL-zu-Cypher-Benchmarks umwandelt. PIPE-Cypher kombiniert Schema-Profiling, Reverse-Query-Grounding, eingeschränkte Generierung, deterministische Cypher-Governance, Ausführungsvalidierung, Schwärzung, Diversitätskontrollen und einen kalibrierten lokalen LLM-Richter. Mit lokaler Qwen3.5-9B-Generierung und -Bewertung exportiert PIPE-Cypher 3.000 akzeptierte FinBench/SNB-Beispiele, führt drei geprüfte Ablationsstudien durch, kalibriert das Richterverhalten mit menschlichen Labels und bewertet 11 lokale Downstream-Modelle. Der resultierende Benchmark ist bewusst diskriminierend: Zero-Shot-Transfer ist schwach, während eine Few-Shot-Kontrolle zeigt, dass schemaspezifische Beispielsammlungen kompatiblen Modellfamilien helfen können. Insgesamt macht PIPE-Cypher das Text2Cypher-Benchmarking zu einem wiederholbaren Prozess, der sich mit dem Graphen, seinen Benutzern und seinen Zielworkloads weiterentwickelt.
Wir stellen EMMA vor, ein physik-informiertes multimodales Framework, das alle identifizierbaren dynamischen Parameter eines Systems direkt aus rohen Video-, Audio- und bildbasierten Zeitreihenbeobachtungen rekonstruiert. Im Gegensatz zu früheren rein videobasierten Ansätzen, die mit verdeckten Zuständen, verborgenen Aktuatoreingaben oder Annahmen über bekannte Anfangsbedingungen und Koordinatensysteme kämpfen, führt EMMA eine gemeinsame Inferenz expliziter Parameter, impliziter dynamischer Komponenten und Kalibrierungsinvarianzen innerhalb eines einheitlichen kontinuierlichen Zeitmodells durch. EMMA nutzt ein Liquid Time-Constant (LTC)-Netzwerk, um latente Dynamiken aus heterogenen Modalitäten zu lernen, während ein physik-constrainierter Verlust die Konsistenz mit den zugrundeliegenden Differentialgleichungen erzwingt. Eine einheitliche Feature-Pipeline ermöglicht eine konsistente Ausrichtung über Videotrajektorien, akustische Signaturen und diagrammbasierte Messungen hinweg, sodass EMMA Parameter unter erzwungenen, impliziten und multivariaten Dynamiken schätzen kann, ohne Segmentierungsmasken, differenzierbares Rendering oder spezialisierte Sensoren zu benötigen. Über mehr als 100 Szenarien hinweg, darunter fünf standardmäßige dynamische Benchmarks (75 Delfys-Videos), reale Rover- und Quadrotorsysteme mit verborgenen Eingaben sowie Simulations-Diagramm-Fallstudien zu biologischen und chaotischen Systemen, liefert EMMA eine robuste Multi-Parameter-Rekonstruktion und übertrifft bestehende Einzelmodalitäts- und Gleichungsentdeckungs-Baselines deutlich. Unsere Ergebnisse etablieren EMMA als eine allgemeine, skalierbare Lösung für physik-konsistente Modellextraktion aus opportunistischen multimodalen Daten. Code und Daten sind verfügbar unter: https://github.com/ImpactLabASU/EMMA-CVPR2026