Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Ultra-Langkontext-Fähigkeiten werden für moderne Large Language Models (Frontier-LLMs) unverzichtbar: Agenten-Workflows, codebasierte Schlussfolgerungen auf Repository-Ebene und dauerhafter Speicher erfordern alle, dass das Modell gemeinsam über Hunderttausende bis Millionen von Tokens aufmerksam wird, doch die quadratischen Kosten der Softmax-Aufmerksamkeit machen dies im Einsatzmaßstab untragbar. Wir stellen MiniMax Sparse Attention (MSA) vor, eine blockweise sparse Aufmerksamkeit, die auf Grouped Query Attention (GQA) aufbaut. Ein leichtgewichtiger Index-Zweig bewertet Schlüssel-Wert-Blöcke und wählt unabhängig ein Top-k-Subset für jede GQA-Gruppe aus, was gruppenspezifisches sparsames Retrieval ermöglicht, während die effiziente blockweise Ausführung erhalten bleibt; der Hauptzweig führt dann exakte block-sparse Aufmerksamkeit nur über die ausgewählten Blöcke durch. Entworfen nach einem Prinzip der Einfachheit und Skalierbarkeit, ist MSA bewusst schlank gehalten und ermöglicht eine unkomplizierte effiziente Bereitstellung auf einer breiten Palette von GPUs. Um Sparsity in praktische Beschleunigungen zu übersetzen, entwickeln wir MSA gemeinsam mit einem GPU-Ausführungspfad, der exp-freie Top-k-Auswahl und KV-äußere sparse Aufmerksamkeit nutzt, um die Tensor-Core-Auslastung bei blockgranularem Zugriff zu verbessern. In einem 109B-Parameter-Modell mit nativem multimodalen Training liefert MSA eine vergleichbare Leistung wie GQA, während es den Aufmerksamkeitsrechenaufwand pro Token bei 1M Kontext um das 28,4-fache reduziert. In Kombination mit unserem mitentwickelten Kernel erreicht MSA 14,2-fache Prefill- und 7,6-fache Decoding-Wall-Clock-Beschleunigungen auf H800. Unser Inferenz-Kernel ist verfügbar unter: https://github.com/MiniMax-AI/MSA. Ein produktionsreifes, nativ multimodales Modell, das auf MSA basiert, wurde unter https://huggingface.co/MiniMaxAI/MiniMax-M3 veröffentlicht.
Große Sprachmodelle (LLM) basierte Agenten haben auf einer Vielzahl von Benchmarks eine starke Leistung erzielt, wobei jedoch die meisten Evaluierungen statische Umgebungen voraussetzen. Im Gegensatz dazu ist der reale Einsatz inhärent dynamisch, sodass Agenten ihr Wissen, ihre Fähigkeiten und ihr Verhalten kontinuierlich an sich verändernde Umgebungen und aktualisierte Aufgabenbedingungen anpassen müssen. Um diese Lücke zu schließen, stellen wir EvoArena vor, eine Benchmark-Suite, die Umweltveränderungen als Sequenzen fortschrittlicher Aktualisierungen in den Bereichen Terminal, Software und soziale Präferenzen modelliert. Wir schlagen ferner EvoMem vor, ein patch-basiertes Gedächtnisparadigma, das die Gedächtnisevolution als strukturierte Aktualisierungsverläufe aufzeichnet und es Agenten ermöglicht, durch Veränderungen ihres Gedächtnisses Rückschlüsse auf die Umweltentwicklung zu ziehen. Experimente zeigen, dass aktuelle Agenten bei EvoArena Schwierigkeiten haben und eine durchschnittliche Genauigkeit von 39,6 % über die sich entwickelnden Terminal-, Software- und sozialen Präferenzdomänen erreichen. EvoMem verbessert die Leistung durchgängig, mit einer durchschnittlichen Steigerung von 1,5 % auf EvoArena und verbessert zudem Standard-Benchmarks wie GAIA und LoCoMo um 6,1 % bzw. 4,8 %. Über einzelne Aufgaben hinaus verbessert EvoMem die Genauigkeit auf Kettenebene um 3,7 % auf EvoArena, wobei der Erfolg die vollständige Bearbeitung einer aufeinanderfolgenden Sequenz zusammenhängender evolutionärer Teilaufgaben erfordert. Die mechanistische Analyse zeigt, dass EvoMem die Erfassung von Belegen im Gedächtnis verbessert, was auf eine bessere Bewahrung vollständiger sich entwickelnder Umweltzustände hindeutet. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Evolution sowohl in der Evaluierung als auch im Gedächtnis für einen zuverlässigen Agenteneinsatz.
Computer-Use-Agenten (CUAs) operieren zunehmend in Laufzeitumgebungen, die visuelle Desktop-Steuerung, Kommandozeilenausführung, Code-Editierung, Browser und externe Werkzeuge kombinieren. Bestehende Benchmarks bewerten diese Schnittstellen jedoch oft als voneinander trennbare Fähigkeiten, sodass die langfristige schnittstellenübergreifende Orchestrierung untergetestet bleibt. Daher führen wir WeaveBench ein, einen langfristigen Hybrid-Schnittstellen-Benchmark mit 114 Aufgaben aus 8 realen Arbeitsbereichen, der auf echten Benutzeranfragen und öffentlich überprüfbaren Artefakten basiert. Jede Aufgabe erfordert von den Agenten, GUI-Beobachtungen/-Aktionen mit CLI-/Code-Operationen innerhalb einer einzigen Trajektorie zu kombinieren. Wir evaluieren diese Aufgaben auf einem realen Ubuntu-Desktop innerhalb eingesetzter CLI-Agent-Laufzeitumgebungen, die um ein minimales Desktop-Steuerungs-Plugin erweitert wurden. Zudem schlagen wir einen begleitenden trajektorienbewussten Bewerter vor, der Liefergegenstände, Dateien, Screenshots, Protokolle und Aktionsspuren prüft und dabei Abkürzungsverhalten wie erfundene visuelle Belege oder hartcodierte Metriken erkennt. Über die Kombinationen von Frontier-Modell und Laufzeitumgebung hinweg erreicht die beste Bestehensrate nur 41,2 %, was zeigt, dass der Benchmark noch lange nicht gesättigt ist. Der trajektorienbewusste Bewerter zeigt zudem, dass eine rein ergebnisorientierte Benotung die Agentenleistung erheblich überschätzt. Insgesamt deckt WeaveBench eine kritische Lücke in der CUA-Evaluierung auf und bietet eine effektive Testumgebung, um zu messen, ob Agenten GUI-, CLI- und Code-Operationen über langfristige reale Aufgaben hinweg orchestrieren können.
Räumliches Denken – die Fähigkeit, zu bestimmen, wo sich Objekte befinden, wie sie zueinander in Beziehung stehen und wie sie sich im 3D-Raum bewegen – bleibt eine grundlegende Herausforderung für Sprach-Bild-Modelle (Vision-Language Models, VLMs). Werkzeugunterstützte Agenten versuchen, dies zu adressieren, indem sie VLMs mit spezialisierten Wahrnehmungsmodulen erweitern, doch ihre Effektivität wird durch die Aktionsschnittstelle begrenzt, über die diese Werkzeuge aufgerufen werden. In dieser Arbeit untersuchen wir, wie die Gestaltung dieser Schnittstelle die Fähigkeit des Agenten zum offenen räumlichen Denken prägt. Existierende räumliche Agenten setzen entweder auf eine einmalige Codeausführung, die sich vor der Beobachtung irgendeines Zwischenergebnisses auf eine vollständige Analysestrategie festlegt, oder auf eine strukturierte Werkzeugaufruf-Schnittstelle, die oft weniger Flexibilität für freies Kombinieren von Operationen oder eine an jede Aufgabe angepasste Analyse bietet. Beide Ansätze bieten nur begrenzte Flexibilität für offenes, komplexes 3D/4D-räumliches Denken. Daher schlagen wir SpatialClaw vor, ein trainingsfreies Framework für räumliches Denken, das Code als Aktionsschnittstelle nutzt. SpatialClaw unterhält einen zustandsbehafteten Python-Kernel, der mit Eingabebildern und einer Suite von Wahrnehmungs- und Geometrieprimitiven vorbelegt ist, sodass ein auf einem VLM basierender Agent pro Schritt eine ausführbare Zelle schreiben kann, die auf allen vorherigen Ausgaben aufbaut. Dadurch kann der Agent Wahrnehmungsergebnisse flexibel zusammensetzen und manipulieren und seine Analyse sowohl an zwischenzeitliche textuelle und visuelle Beobachtungen als auch an die Anforderungen jedes einzelnen Problems anpassen. Evaluiert auf 20 Benchmarks zum räumlichen Denken, die ein breites Spektrum statischer und dynamischer 3D/4D-räumlicher Denkaufgaben abdecken, erreicht SpatialClaw eine durchschnittliche Genauigkeit von 59,9 % und übertrifft den aktuellen räumlichen Agenten um +11,2 Prozentpunkte, mit durchgängigen Verbesserungen über sechs VLM-Grundmodelle aus zwei Modellfamilien hinweg, ohne benchmark- oder modellspezifische Anpassungen.
Wir präsentieren MaxProof, ein Framework zur Testzeit-Skalierung auf Populationsebene für mathematische Beweise auf Wettbewerbsniveau in der MiniMax-M3-Serie. M3 trainiert zunächst drei beweisorientierte Fähigkeiten – Beweisgenerierung, Beweisverifikation und kritikbedingte Beweisreparatur – unter Verwendung eines mehrstufigen generativen Verifizierers, der auf eine niedrige Falsch-Positiv-Rate ausgelegt ist. Diese Fähigkeiten werden zu einem einzigen veröffentlichten M3-Modell zusammengeführt. Zur Testzeit behandelt MaxProof das Modell als Generator, Verifizierer, Verfeinerer und Rangierer, durchsucht eine Population von Kandidatenbeweisen und gibt durch Turnierauswahl einen endgültigen Beweis aus. Mit der Testzeit-Skalierung durch MaxProof erreicht das M3-Modell 35/42 bei der IMO 2025 und 36/42 bei der USAMO 2026 und übertrifft damit auf beiden Wettbewerben die menschliche Goldmedaillenschwelle.
Jüngste Bildgeneratoren haben beeindruckenden Fotorealismus und die Fähigkeit zur Befolgung von Anweisungen bei der Einzelbildgenerierung und -bearbeitung gezeigt. Aufgrund ihrer Architektur sind sie jedoch nicht in der Lage, eine verschränkte Generierung (Text-Bild-Sequenz) zu erreichen, die entscheidende Anwendungen in visuellen Erzählungen, Führung und verkörperter Manipulation hat. Selbst die neuesten quelloffenen Unified Multimodal Models (UMMs) zeigen in dieser Hinsicht eine begrenzte Leistung. In diesem Beitrag stellen wir InterleaveThinker vor, die erste Multi-Agent-Pipeline, die darauf ausgelegt ist, jeden vorhandenen Bildgenerator mit Fähigkeiten zur verschränkten Generierung auszustatten. Insbesondere setzen wir einen Planungsagenten ein, um die Bild-Text-Eingabesequenz zu organisieren und den Bildgenerator über die erforderliche Ausführung in jedem Schritt zu instruieren. Anschließend führen wir einen Kritikagenten ein, um die Ausgaben des Generators zu bewerten, Proben zu identifizieren, die von den geplanten Anweisungen abweichen, und die Anweisungen für die erneute Generierung zu verfeinern. Zur Implementierung dieser Pipeline erstellen wir die Datensätze Interleave-Planner-SFT-80k und Interleave-Critic-SFT-112k, um einen Format-Kaltstart durchzuführen. Anschließend entwickeln wir Interleave-Critic-RL-13k, um die schrittweise Anweisungskorrekturfähigkeit innerhalb einer Generierungstrajektorie mittels GRPO zu verstärken. Da eine einzelne verschränkte Generierungstrajektorie über 25 Generatoraufrufe umfassen kann, ist die Optimierung der gesamten Trajektorie rechnerisch unpraktikabel. Daher schlagen wir eine Genauigkeitsbelohnung und eine schrittweise Belohnung vor, die es ermöglichen, mit einstufigem RL die gesamte Generierungstrajektorie effektiv zu steuern. Die Ergebnisse zeigen, dass InterleaveThinker die Leistung bei verschiedenen Bildgeneratoren verbessert. Bei Benchmarks zur verschränkten Generierung erreicht es eine mit Nano Banana und GPT-5 vergleichbare Leistung. Überraschenderweise verbessert es auch das Basismodell in reasoning-basierten Benchmarks erheblich; zum Beispiel beobachten wir bei 4-Schritt-FLUX.2-klein substanzielle Verbesserungen bei WISE und RISE.
Multimodale Große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge im visuellen Verständnis erzielt, doch ihre Leistung verschlechtert sich unter realen visuellen Störungen erheblich. Zwar existieren vorhandene Ansätze zur Verbesserung der Robustheit, jedoch sind diese begrenzt: Black-Box-Feature-Ausrichtung entbehrt der Interpretierbarkeit, und textbasiertes Reasoning im White-Box-Setting kann verlorene Pixel-feine Details nicht wiederherstellen. Diese Arbeit untersucht eine grundlegende Forschungsfrage: Können MLLMs gestörte visuelle Inhalte eigenständig wiederherstellen? Zur Beantwortung schlagen wir Robust-U1 vor, ein neuartiges Framework, das MLLMs mit expliziter visueller Selbstwiederherstellungsfähigkeit für robustes Verständnis ausstattet. Der Ansatz umfasst drei Kernphasen: überwachtes Feintuning für initiale Rekonstruktion, Verstärkungslernen mit dualen Belohnungen (Pixel-genaue SSIM- und semantische CLIP-Ähnlichkeit) zur Ausrichtung auf hohe visuelle Qualität sowie multimodales Reasoning, das sowohl die gestörte Eingabe als auch das wiederhergestellte Bild gemeinsam betrachtet. Umfangreiche Experimente belegen, dass Robust-U1 auf dem Benchmark für reale Störungen modernste Robustheit erreicht und unter gegnerischen Störungen auf allgemeinen VQA-Benchmarks überlegene Leistung beibehält. Analysen bestätigen, dass eine hochwertige visuelle Wiederherstellung die Reasoning-Leistung direkt verbessert, womit sich Selbstwiederherstellung als entscheidender Mechanismus für robustes visuelles Verständnis erweist. Der Quellcode ist verfügbar unter https://github.com/jqtangust/Robust-U1.
Das Training von Deep-Search-Agenten erfordert überprüfbare Fragen, deren Antworten erst verfügbar werden, wenn durch die Suche ausreichend Belege beschafft wurden. Bestehende Synthesemethoden erhöhen die scheinbare Schwierigkeit oft durch eine Anreicherung der Graphstrukturen, doch allein die strukturelle Komplexität garantiert keine tatsächliche Suchschwierigkeit: Der beabsichtigte Suchprozess kann über einen kostengünstigeren Identifikationspfad zusammenbrechen. Wir formalisieren diese Lücke mit einem abkürzungsbewussten Schwierigkeitsrahmen (shortcut-aware difficulty framework) und identifizieren vier handhabbare Abkürzungsrisiken (shortcut risks): gemeinsame Evidenzabdeckung (evidence co-coverage), Einzelhinweis-Selektivität (single-clue selectivity), exponierte Konstanten (exposed constants) und Vorwissensbindung (prior-knowledge binding). Zur Diagnose ihrer tatsächlichen Auswirkungen nutzen wir Trajektorien-Signaturen (trajectory signatures), darunter Lösungskosten (solving cost), Antworttrefferzeit (answer hit time) und Vorabkurzschlussrate (prior-shortcut rate). Aufbauend auf diesem Rahmen führen wir FORT ein, ein Rahmenwerk zur Synthese abkürzungsresistenter Trainingsdaten (Framework of Shortcut-Resistant Training-Data Synthesis). FORT erstellt abkürzungsresistente Trainingsdaten, indem es die Abkürzungsrisiken über die Auswahl von Entitäten, die Konstruktion von Evidenzgraphen, die Formulierung von Fragen und die adversarielle Verfeinerung steuert. Experimente zeigen, dass FORT im Vergleich zu bestehenden Open-Source-Deep-Search-Datensätzen längere Suchzeiten vor der Antwort und weniger Abkürzungsmuster hervorruft. Unter Verwendung der resultierenden Trajektorien trainieren wir FORT-Searcher ausschließlich mit überwachtem Feintuning (SFT) und erzielen damit die insgesamt beste Leistung unter den vergleichbar großen Open-Source-Suchagenten auf anspruchsvollen Deep-Search-Benchmarks. Relevante Ressourcen werden unter https://github.com/RUCAIBox/FORT-Searcher bereitgestellt.
Wissenschaftliche Labore nutzen zunehmend KI-Systeme zur Versuchsplanung, doch der physische Akt des wissenschaftlichen Arbeitens bleibt ihnen weitgehend verwehrt. KI kann beim Lesen von Fachliteratur, der Hypothesengenerierung und der Protokollplanung helfen, die Ausführung dieser Protokolle am Labortisch erfordert jedoch weiterhin einen menschlichen Bediener. Vision-Language-Action (VLA)-Modelle bieten eine mögliche Schnittstelle zwischen schriftlichen Protokollen und der Roboterausführung, doch bestehende Modelle werden vorwiegend mit Demonstrationen aus Haushalten und auf Tischplatten trainiert und begegnen selten den Instrumenten, transparenten Flüssigkeiten oder festgelegten Protokollabläufen, die in wissenschaftlichen Laboren vorkommen. Um diese Lücke zu schließen, bedarf es sowohl Laborspezifischer Überwachung als auch eines einheitlichen Lernrahmens, der die unterschiedlichen Roboterausführungen zur Durchführung experimenteller Protokolle abdecken kann. Daher identifizieren wir Daten und Verkörperung als zentrale Engpässe neben dem Modelldesign. Zur Lösung der Datenseite entwickeln wir RoboGenesis, einen simulationsbasierten Workflow und eine Daten-Engine, die konfigurierte Laborabläufe aus atomaren Fähigkeiten zusammensetzt, Rollouts validiert und filtert sowie strukturierte Demonstrationen für unterstützte Roboterprofile exportiert. Auf der Modellebene präsentieren wir LabVLA, trainiert mit einem zweistufigen Rezept: Ein FAST-Aktions-Token-Vortraining macht zunächst das Qwen3-VL-4B-Instruct-Backbone handlungsbewusst, bevor kontinuierliche Steuerung erlernt wird, und ein Flow-Matching-Posttraining fügt dann unter Wissensisolierung einen DiT-Aktions-Experten an. Im LabUtopia-Benchmark erzielt LabVLA unter allen evaluierten Basislinien sowohl bei verteilungsinternen als auch bei verteilungsexternen Einstellungen die höchste durchschnittliche Erfolgsrate.
Spekulative Dekodierung (SD) adressiert die hohen Inferenzkosten großer Sprachmodelle, indem leichte Entwurfsmodelle Kandidaten generieren, die große Verifizierer parallel validieren. Existierende Entwurf-Verifizier-Methoden verwenden binäre Entscheidungen: Akzeptanz oder vollständige Neuberechnung. Wir stellen jedoch fest, dass viele abgelehnte Token korrekt durch ein schlankes Submodell verifiziert werden können, das aus dem vollständigen Verifizierer mittels Intra-Modell-Routing abgeleitet wird, anstatt durch den vollständigen Verifizierer. Dies motiviert unseren schlanken Verifizierer (slim-verifier), der Token mit moderatem Verifikationsaufwand behandelt und so teure Aufrufe des großen Modells reduziert. Wir schlagen Verification via Intra-Model Routing for Speculative Decoding (VIA-SD) vor, ein mehrstufiges Framework, das einen gerouteten schlanken Verifizierer verwendet. Entwurfs-Token werden hierarchisch verarbeitet: direkte Akzeptanz bei hoher Konfidenz, Regeneration durch den schlanken Verifizierer bei mittlerer Konfidenz und Verifikation durch das vollständige Modell bei Unsicherheit. Über vier repräsentative Aufgaben und mehrere Modellfamilien hinweg reduziert VIA-SD die Ablehnungsraten um 0,10–0,22 und erzielt 10–20% Beschleunigungen gegenüber starken SD-Baselines, bei 2,5- bis 3-facher Beschleunigung gegenüber Dekodierung ohne Entwurf. Darüber hinaus ist VIA-SD mit bestehenden SD-Frameworks kompatibel, ohne deren Trainingsverfahren zu ändern. Unsere Ergebnisse legen mehrstufige SD als allgemeines Paradigma für skalierbare und effiziente LLM-Inferenz nahe. Projektseite: https://zju-xyc.github.io/VIA-SD-Project-Page/
Die multimodale Bildfusion zielt darauf ab, komplementäre Informationen aus verschiedenen Modalitäten in einem fusionierten Bild zu integrieren, das reichhaltige lokale Details bewahrt und gleichzeitig eine global konsistente Erscheinung beibehält. Bestehende Ansätze bauen gemeinsame Repräsentationen auf 2D-Feature-Gittern auf, die sich hervorragend zur Modellierung lokaler Strukturen eignen, aber nur begrenzte Kontrolle über globale Erscheinungsfaktoren auf Bildebene bieten. Um diese Ziele auszugleichen, führen wir eine kompakte 1D-Token-Schnittstelle basierend auf einem eingefrorenen, vortrainierten Bildtokenisierer zur Modellierung nicht-lokaler Erscheinungs-/Basis-Faktoren ein. Anstatt den Tokenisierer als Rekonstruktions-Backbone zu verwenden, nutzt unser Design den 1D-Token-Raum als globalen Träger, während der 2D-Raumpfad für die Wiederherstellung lokaler Strukturen erhalten bleibt. Konkret führen wir die Selektive Token-Bearbeitung (Selective Token Editing, STE) ein, die eine kleine Anzahl kritischer Tokens spärlich aktualisiert/ersetzt. Dies bietet einen leichten Mechanismus zur Steuerung der globalen Erscheinungskohärenz, während der Fusions-Backbone unverändert bleibt und zusätzliche Verluste vermieden werden. Experimente auf vier häufig verwendeten Benchmarks zeigen, dass unsere Methode die insgesamt beste Leistung erzielt, mit konsistenten, multi-metrischen Verbesserungen sowohl in der globalen Kohärenz als auch in der lokalen Treue. Projektseite: https://zju-xyc.github.io/1D-Fusion-Project-Page/
Ganzheitliche visuelle Tokenisierer sind grundlegend für vereinheitlichte multimodale Modelle (UMMs), da sie verschiedene visuelle Eingaben in einen einheitlichen Repräsentationsraum abbilden. In diesem Papier stellen wir HYDRA-X vor, das erste UMM, das Bild- und Videotokenisierung innerhalb eines einzigen Vision Transformers (ViT) vereint. Unser Design wird von zwei zentralen Herausforderungen getrieben: der effizienten Integration raumzeitlicher Rekonstruktionsfähigkeit in einen nativen ViT und der Einbettung von bild- und videoebenen semantischen Bewusstsein in den latenten Raum. Zur Bewältigung der ersten Herausforderung zeigen umfassende Ablationen zwei wesentliche Erkenntnisse: (1) Eine frame-level kausale zeitliche Aufmerksamkeit reicht für die visuelle Rekonstruktion aus, während eine vollständige raumzeitliche Aufmerksamkeit diese verschlechtert; und (2) hierarchische zeitliche Kompression übertrifft einstufige Alternativen erheblich. Für die zweite Herausforderung schlagen wir einen leichten Dekompressor vor, der zeitlich komprimierte Merkmale unter gemeinsamer Bild-Video-Lehrersupervision hochskaliert und damit komplementäre semantische Strukturen in dem kompakten latenten Raum erzwingt. Aufbauend auf diesem ganzheitlichen Tokenisierer schlagen wir eine grundlegende Verbesserung der Bearbeitungspipeline vor: Die Quell-Ziel-Interaktion sollte auf der latenten Ebene innerhalb des Tokenisierers stattfinden, nicht auf der semantischen Ebene innerhalb des LLM, was die Bearbeitungskonsistenz erheblich verbessert und die Konvergenz beschleunigt. Als 7B dichtes Modell implementiert, erzielt HYDRA-X starke Leistungen in Bild- und Video-Verständnis- und Generierungsaufgaben und ebnet den Weg für zukünftige UMMs mit einheitlichem Tokenisierer.
LLM-basierte Agenten zeigen ein zunehmendes Potenzial zur Automatisierung wissenschaftlicher Entdeckungen. Gegeben eine optimierbare Metrik und eine Ausführungsumgebung können sie wissenschaftliche Lösungen vorschlagen, validieren und iterieren und haben Ergebnisse erzielt, die von Menschen entworfene Ansätze übertreffen. Da die Modellfähigkeiten weiter zunehmen, argumentieren wir, dass der Engpass für autonome wissenschaftliche Entdeckung sich vom Vorschreiben von Agenten-Workflows hin zur Gestaltung von Agentenumgebungen verschiebt: den Ressourcen, Einschränkungen und Schnittstellen, die das Agentenverhalten formen. Wir fassen dies als Umgebungsengineering zusammen: die Schaffung von Umgebungen, die produktive Verhaltensweisen wie ergebnisoffene Erkundung, systematische Artefaktverwaltung und Zusammenarbeit zwischen Agenten verstärken, während schädliche Verhaltensweisen wie Belohnungs-Hacking und reibungsreiche menschliche Aufsicht unterdrückt werden. Wir stellen EurekAgent vor, ein umgebungsentwickeltes Agentensystem für metrikgetriebene autonome wissenschaftliche Entdeckung. EurekAgent gestaltet die Umgebung entlang vier Dimensionen: Berechtigungsengineering für gebundene Agentenausführung und isolierte Evaluierung; Artefakt-Engineering für dateisystem- und Git-basierte Zusammenarbeit; Budget-Engineering für kostenbewusste Erkundung; und Human-in-the-Loop-Engineering für einfache menschliche Überwachung und Eingriffnahme. EurekAgent erzielt neue State-of-the-Art-Ergebnisse bei mehreren Mathematik-, Kernel-Engineering- und maschinellem Lernen-Aufgaben, darunter neu entdeckte State-of-the-Art-26-Kreis-Packungen mit Gesamt-API-Kosten von weniger als 11 US-Dollar. Wir veröffentlichen unseren Code und unsere Ergebnisse als Open Source und fordern, dass Umgebungsengineering als zentrale Forschungsrichtung für die Entwicklung zuverlässiger autonomer Forschungsagenten etabliert wird.
Der Erfolg von Großen Sprachmodellen beim mathematischen Denken hängt stark von der Erzeugung vielfältiger und gültiger Lösungspfade während der Rollout-Phase ab. Allerdings stehen aktuelle Rollout-Techniken vor einem grundlegenden Zielkonflikt: Sampling auf Token-Ebene führt oft zu redundanten Trajektorien, die sich nur in der Umformulierung unterscheiden, während Methoden auf Einbettungsebene, die zufälliges Rauschen nutzen, häufig die semantische Konsistenz stören. Um dies zu lösen, führen wir N-GRPO ein, eine neuartige Erkundungsstrategie, die in das Group Relative Policy Optimization (GRPO)-Framework integriert ist. Anstatt auf Sampling auf Token-Ebene oder natives Rauschen auf Einbettungsebene zu setzen, nutzt unser Ansatz Semantic Neighbor Mixing. Dieser Mechanismus konstruiert dynamisch Eingaberepräsentationen, indem er die Einbettungen eines Anker-Tokens und seiner nächsten semantischen Nachbarn mischt, wodurch Diversität eingebracht wird, während gleichzeitig strikt die lokale semantische Mannigfaltigkeit eingehalten wird. Experimentelle Bewertungen an den DeepSeek-R1-Distill-Qwen-Modellen verschiedener Größen zeigen, dass N-GRPO nicht nur konsistente Verbesserungen gegenüber starken Baselines bei Mathe-Denken-Benchmarks erzielt, sondern auch robuste Generalisierungsfähigkeiten bei Out-of-Distribution-Aufgaben aufweist.
Latente Gedankenkette komprimiert das Denken, indem sie sichtbare Denkspuren durch eine kontinuierliche Wiederholung verborgener Zustände ersetzt, aber bestehende Formulierungen sind mit standardmäßigem On-Policy Reinforcement Learning (RL) schwer zu optimieren und kausal schwer zu interpretieren. Unsere entscheidende Erkenntnis ist, dass ein einzelnes Paar expliziter Grenztoken beide Probleme gleichzeitig lösen kann: diskrete Eintritts- und Austrittsanker machen den latenten Block mit standardmäßigem On-Policy RL kompatibel, und dieselben Anker bieten einen natürlichen Ansatzpunkt für mechanistische Analysen. Motiviert davon schlagen wir SWITCH vor, ein schaltbares latentes Denkframework. Das Modell gibt <swi> aus, um in den latenten Modus zu wechseln, und </swi>, um ihn zu verlassen. Da die Grenzen gewöhnliche diskrete Token sind, ist das GRPO-Policy-Verhältnis an jedem Entscheidungspunkt wohldefiniert. Dieselben Anker setzen die latenten Schritte auch direkten Sondierungen und kausalen Interventionen aus. Wir trainieren das Modell mit einem sichtbar-zu-latenten Curriculum und einem Switch-GRPO-Ziel, das Gradienten durch rekurrente latente Berechnung propagiert. SWITCH übertrifft frühere Ansätze zum latenten Denken mit Wiederholung verborgener Zustände in ähnlichem Maßstab durchweg. Mechanistische Analyse durch die Grenztoken zeigt weiterhin drei Ergebnisse: (i) <swi> ist eine scharf lokalisierte, gelernte Umschaltstrategie und kein stilistisches Artefakt; (ii) der latente Schritt, den es öffnet, führt problemspezifische, kausal wichtige Berechnungen durch, anstatt als inaktiver Platzhalter zu fungieren; und (iii) diese Berechnung ist bei einem einzigen Übergang des verborgenen Zustands beim Eintritt konzentriert. Zusammen zeigen diese Ergebnisse, dass latentes Denken mit Wiederholung verborgener Zustände sowohl RL-trainierbar ist als auch für direkte mechanistische Analysen offen steht, einschließlich der Frage, wie On-Policy RL selbst das Modell von innen heraus verbessert.
Wir stellen VideoMDM vor, ein diffusionsbasiertes Framework, das 3D-Bewegungsprioritäten des Menschen direkt aus präzisen 2D-Posen lernt, die aus monokularen Videos extrahiert wurden – ohne jegliche 3D-Grundwahrheit. Ein vortrainierter 2D-zu-3D-Hebemechanismus liefert approximative 3D-Posensequenzen, die als verrauschter Lehrer dienen: Diese werden diffundiert, vom Modell in 3D entrauscht und in 2D überwacht, indem die Vorhersage rückprojiziert und mit genauen Schlüsselpunkten verglichen wird. Wir zeigen, dass unter milden Annahmen ein tiefengewichteter 2D-Rückprojektionsverlust im Erwartungswert einer direkten 3D-Überwachung entspricht, und passen standardmäßige 3D-Bewegungsregularisierer – Geschwindigkeitskonsistenz und Ausrichtung überparametrisierter Darstellungen – an diese 2D-Umgebung an. Im Gegensatz zu Methoden, die 2D nur bei der Inferenz zu 3D heben, erlernt VideoMDM während des Trainings eine kohärente 3D-Bewegungsmannigfaltigkeit. Auf HumanML3D schließt es fast die Lücke zu vollständig 3D-überwachtem MDM (FID 0,88 vs. 0,54); auf den realen Videodatensätzen Fit3D und NBA lernt die Methode, Bewegungen zu generieren, die von Menschen durchgängig bevorzugt werden, mit starken quantitativen Ergebnissen.
Trotz der Erzeugung zunehmend fotorealistischer Bilder weisen Text-zu-Bild (T2I)-Modelle weiterhin lokalisierte, subtile und strukturell komplexe Fehler auf. Die Diagnose dieser Fehler erfordert ein Feedback auf Instanzebene, das beantwortet, wo ein Defekt auftritt, um welchen Typ es sich handelt, warum er defekt ist und welche Bedeutung er für die Gesamtbildqualität hat. Während neuere dichte Feedback-Methoden über skalare Überwachung hinausgehen, formulieren ihre heatmap-zentrierten Darstellungen die Diagnose dennoch als Pixelfeld-Regression, was die Lokalisierung von Defekten mit variabler Kardinalität und die Bindung semantischer Gründe an einzelne Fehler erschwert. Um diesen Repräsentationsengpass zu beheben, schlagen wir Structured Defect Grounding (SDG) vor, das die T2I-Diagnose als strukturierte Mengenvorhersage formuliert, indem jeder Defekt als (Ort, Typ, Grund, Wichtigkeit)-Tupel modelliert wird. Um diese Formulierung trainierbar und messbar zu machen, führen wir SDG-30K ein, einen Datensatz mit 30.000 Bildern und boxbasierten Annotationen über vier moderne T2I-Generatoren hinweg, zusammen mit einem dedizierten Auswertungsprotokoll, SDG-Eval. Aufbauend auf dieser strukturierten Darstellung präsentieren wir ferner ein Diagnose-zu-Ausrichtungs-Framework, in dem ein Vision-Language-Modell (VLM) als SDG-Detektor fungiert und BoxFlow-GRPO vorhergesagte Defektmengen in boxabgeleitete, wichtkeitsgewichtete räumliche Belohnungen für die Ausrichtung des Diffusionsmodells umwandelt. Umfangreiche Experimente zeigen, dass unser SDG-Detektor führende proprietäre VLMs beim strukturierten Defekt-Grounding übertrifft, während SDG-geleitete Belohnungen konsequent die T2I-Ausrichtung verbessern und lokalisierte Bildverfeinerungen unterstützen. Diese Ergebnisse etablieren SDG als eine einheitliche Schnittstelle auf Instanzebene zur Diagnose, Bewertung und Verbesserung moderner generativer Modelle.
Wir stellen MoVerse vor, ein Echtzeit-Video-Weltmodell, das aus einem einzelnen Bild mit schmalem Sichtfeld eine interaktiv navigierbare Szene erzeugt. Diese Umgebung ist anspruchsvoll, da die Eingabe nur einen kleinen Teil der Umgebung erfasst, während interaktives Roaming eine vollständige umgebende Welt, persistente Geometrie, steuerbare Kamerabewegung und zeitlich kohärente Beobachtungen mit hoher Wiedergabetreue erfordert. MoVerse geht dieses Problem an, indem es die Welterstellung von der Beobachtungsdarstellung trennt. Zunächst erweitert es die Eingabe mithilfe topologiebewusster Diffusion in ein schwerkraftausgerichtetes 360-Grad-Panorama, um das fehlende Sichtfeld vor der 3D-Analyse zu schließen. Anschließend hebt es das Panorama mithilfe panoramischer geometriebewusster Residuum-Vorhersage in ein persistentes 3D-Gauß-Gerüst, was einen dichten und direkt darstellbaren räumlichen Speicher ergibt. Schließlich übersetzt ein gaußbedingter Videorenderer Gerüstdarstellungen entlang benutzerdefinierter Kameratrajektorien in fotorealistische Videos. Um diesen Renderer für die Interaktion praktikabel zu machen, trainieren wir einen bidirektionalen Diffusions-Lehrer für hochwertiges bedingtes Rendern und destillieren ihn in einen kausalen autoregressiven Schüler für Streaming mit begrenzter Latenz. Dieses Design kombiniert die Steuerbarkeit und Langzeitkonsistenz expliziter 3D-Darstellungen mit der Wahrnehmungsqualität generativer Videomodelle. MoVerse unterstützt Echtzeit-Szenen-Roaming mit 8 FPS auf einer einzelnen NVIDIA RTX 4090 GPU und demonstriert einen praktischen Weg zur Welterstellung aus einem Einzelbild mit interaktivem Video-Output.
Große Sprachmodelle werden zunehmend als Agenten für langfristige Aufgaben eingesetzt, ihre Leistung wird jedoch nicht nur durch die Modellfähigkeit und die Umgebungsgestaltung bestimmt, sondern auch durch die Kopplung, die die Interaktion zwischen Agent und Umgebung vermittelt. Bestehende Kopplungen sind größtenteils manuell entwickelt, was ihre Skalierung erschwert, wenn Trajektorien länger und Interaktionen komplexer werden. In dieser Arbeit stellen wir die Frage, ob Kopplungen durch ein lernbares Plug-in-Modul erzeugt werden können, das end-to-end trainierbar ist. Wir führen HarnessBridge ein, eine leichtgewichtige, lernbare Kopplungssteuerung, die die Schnittstelle zwischen Agent und Umgebung als bidirektionale Projektion parametrisiert. HarnessBridge lernt zwei bidirektionale Projektionen: die Beobachtungsprojektion, die rohe Trajektorien in kompakte, entscheidungsrelevante Zustände destilliert, und die Aktionsprojektion, die vorgeschlagene Aktionen in ausführbare Übergänge oder trajektoriegestützte Zurückweisungen umwandelt. Wir trainieren HarnessBridge auf einem Kopplungs-Supervisionsdatensatz mittels vereinheitlichtem Instruktions-Tuning. Auf Terminal-Bench~2.0 und SWE-bench Verified erreicht oder übertrifft HarnessBridge leistungsstarke spezialisierte Kopplungen, während der Token-Verbrauch und die Trajektorienlänge erheblich reduziert werden, und es generalisiert von kleineren Generatoren auf größere kommerzielle Modelle.
Die Diffusionsdestillation in wenigen Schritten hat sich für die Erzeugung in 4–8 Schritten zunehmend etabliert, doch eine weitere Reduzierung auf 2 Schritte bleibt herausfordernd. In dieser Arbeit stellen wir Z-Image Turbo++ vor, ein qualitativ hochwertiges 2-Schritt-Bildgenerierungsmodell, das aus dem 8-Schritt-Z-Image-Turbo-Lehrermodell destilliert wurde. Unsere Methode adressiert die zentralen Engpässe der erhöhten Aufgabenschwierigkeit und der begrenzten Modellkapazität bei der 2-Schritt-Generierung durch drei einfache, aber effektive Designentscheidungen, die auf dieses Regime zugeschnitten sind. Erstens schlagen wir verteilungsangepasstes kontradiktorisches Lernen vor, bei dem vom Lehrer erzeugte Bilder anstelle externer realer Bilder als echte Stichproben für das GAN-Training verwendet werden, was ein erreichbareres und informatives kontradiktorisches Ziel bietet. Zweitens übernehmen wir eine schrittentkoppelte Parametrisierung, die den beiden Denoisingschritten unabhängige Modellparameter zuweist, um ihren unterschiedlichen Kapazitätsanforderungen besser gerecht zu werden. Drittens führen wir ein End-to-End-Training mit iterativer Regularisierung durch, das es dem ersten Schritt ermöglicht, Gradienten aus der endgültigen Bildqualität zu erhalten, während durch einen expliziten Schritt-1-Verlust eine sinnvolle Zwischenerzeugung erhalten bleibt. Zusammen verringern diese Designs die Qualitätslücke zwischen 2-Schritt- und 8-Schritt-Generierung sowohl in qualitativen als auch quantitativen Bewertungen erheblich und unterstreichen das Potenzial maßgeschneiderter Destillationsstrategien zur Verbesserung des Qualitäts-Effizienz-Kompromisses bei der Generierung in wenigen Schritten.
Tiefensuche erfordert, dass Agenten komplexe Fragen durch mehrstufige Websuche, Browsen, Beweisvergleich und Synthese beantworten. Eine zentrale Herausforderung besteht darin, zu entscheiden, wie gesucht werden soll, wenn mehrere Richtungen plausibel erscheinen, aber nur einige später zu verlässlichen Beweisen führen. Wenn ein Agent gierig der aktuell vielversprechendsten Richtung folgt, kann er eine schwache Fortsetzung immer weiter ausdehnen. Wenn er ohne Disziplin erkundet, kann er das Budget für zusammenhangslose Versuche verschwenden. Wir schlagen TreeSeeker vor, ein Inferenzzeit-Framework für kontrolliertes Versuch-und-Irrtum in der Tiefensuche. TreeSeeker organisiert die Suche als Branch-and-Return-Suche über baumstrukturierte Zustände, wobei jeder Zweig eine vorläufige Richtung für ein Teilziel darstellt. In jeder Runde liest TreeSearch alle Teilzielbäume, identifiziert aktive Ziele und verwendet textuelle UCB-Signale für Wert, Unsicherheit und Risiko, um zwischen der Ausnutzung eines vielversprechenden Zweigs, der Erkundung einer unsicheren Alternative oder dem Beschneiden einer unproduktiven Fortsetzung und der Rückkehr zu einem früheren Verzweigungspunkt zu wählen. TreeMem unterstützt diesen Regelkreis, indem es Beweise, Unsicherheit, Konflikte, Fortschritt und Fehlersignale an den Zweigen anheftet, die sie erzeugt haben, sodass Versuchsergebnisse spätere Entscheidungen leiten können. Experimente auf XBench-DeepSearch, BrowseComp und BrowseComp-ZH zeigen, dass TreeSeeker durchweg starke Open-Source-Baselines übertrifft, was darauf hindeutet, dass explizite Branch-and-Return-Kontrolle stärkeres Reasoning und Werkzeugausführung ergänzt.
Bewertungen der adversarialen Robustheit großer Sprachmodelle (LLMs) berichten typischerweise über die Angriffserfolgsrate (ASR) unter festgelegten Abfragebudgets und behandeln implizit alle Angriffe als gleich kostenintensiv. In der Praxis kann der Rechenaufwand verschiedener Angriffsstrategien um Größenordnungen variieren. Folglich kann die ASR bei einem festen Budget den tatsächlichen Aufwand, der erforderlich ist, um ein Modell zu jailbreaken, verschleiern, was die Beurteilung erschwert, ob der Nutzen eines Angriffs seine Kosten für den Angreifer rechtfertigt. Wir schlagen ein rechenbewusstes Bewertungsframework vor, das auf dem Rechendruck basiert, gemessen in kumulativen Gleitkommaoperationen (FLOPs) als Proxy für den adversarialen Aufwand. Wir führen Risiko-Rechen-Kurven ein, die Rechenbudgets auf Angriffsrisiken abbilden, und leiten zwei Metriken ab, die den durchschnittlichen Druck zusammenfassen, der für den Erfolg eines bestimmten Angriffs erforderlich ist. Über zehn Modelle aus drei Familien und vier verschiedenen Stadien des Sprachmodelltrainings und der Alignments hinweg, bewertet mit drei Angriffsstrategien (gradientenbasiert, iterative Verfeinerung und vorlagenbasiert) an zwei Jailbreak-Robustheit-Benchmarks, stellen wir Folgendes fest: (1) Alignment-Training hat nicht-monotone Auswirkungen auf die Robustheit im Rechenraum; (2) eine Skalierung der Modellgröße verringert die Effektivität gradientenbasierter Angriffe, hat jedoch begrenzte Auswirkungen auf günstigere vorlagenbasierte Angriffe; (3) gradientenbasierte Angriffe, die an einem Surrogatmodell optimiert wurden, können auf ein separates Zielmodell übertragen werden, was eine Möglichkeit zur Reduzierung der Angreiferkosten bietet; (4) die Rechenkosten variieren um bis zu {approx}5{times} zwischen Schadenskategorien innerhalb eines einzelnen Modells; und (5) sicherheitsausgerichtetes RL erhöht die Gesamtkosten, während einige Kategorien unverhältnismäßig zugänglich bleiben. Wir veröffentlichen unser Framework, um eine rechenbewusste Risikobewertung und -evaluation zu ermöglichen.
Visuelles Denken erfordert die Integration von Evidenz, die über Regionen, Attribute und Beziehungen verteilt ist, wodurch Einzelketten-Schlussfolgerungen anfällig für frühzeitige perzeptuelle Festlegungen und Halluzinationen werden. Wir stellen Visual Para-Thinker++ vor, ein Multi-Agenten-Framework mit einer einzigen Policy, bei dem eine gemeinsame MLLM-Policy als rollenbedingte Haupt-, Arbeits- und Zusammenfassungs-Agenten instanziiert wird. Der Haupt-Agent zerlegt die Aufgabe mit festen Zuordnungsmustern; die Arbeits-Agenten schließen parallel unter Kontextisolierung; und der Zusammenfassungs-Agent gleicht die vollständigen Schlussfolgerungsspuren der Arbeits-Agenten ab, anstatt per Mehrheitsentscheidung über endgültige Labels zu befinden. Die gemeinsame Policy wird mittels Multi-Agent-Capability-Injection und Rollen-entkoppelter Multi-Agent-Optimierung trainiert, die rollenspezifische Belohnungen und Vorteile den entsprechenden Token-Segmenten zuweist, um Gradientenkonflikte zwischen kooperierenden Rollen zu reduzieren. Eine native Inferenz-Engine ermöglicht einen effizienten Multi-Agenten-Rollout durch gemeinsam genutztes visuelles Präfix und Wiederverwendung des KV-Cache. Auf V*, CountBench, der RefCOCO-Familie und HallusionBench übertrifft Visual Para-Thinker++ konsequent Einzelpfad- und Inferenzzeit-Parallel-Baselines, mit besonders starken Verbesserungen bei halluzinationsempfindlichem visuellem Denken.
Die Vorhersage von Verhaltenstendenzen großer Sprachmodelle (LLMs) anhand kostengünstiger psychometrischer Tests ist entscheidend für deren sicheren Einsatz – allerdings nur, wenn Selbstberichte (SR) das Verhalten zuverlässig vorhersagen. Jüngste Arbeiten dokumentierten eine erhebliche SR-Verhaltens-Dissoziation bei LLMs, stützten sich dabei jedoch auf breite Persönlichkeitsmerkmale (Big Five), die selbst beim Menschen spezifisches Verhalten nur schwach vorhersagen. Zudem ließ die Isolation von Gesprächssitzungen in Kombination mit schwachem Kontextabgleich die Frage offen, ob LLMs tatsächlich mangelnde Kohärenz aufweisen oder ob die Bedingungen zum Nachweis einer solchen Kohärenz nicht erfüllt waren. Wir kontrastieren die Big Five mit der Theorie des geplanten Verhaltens (TPB), die auf ein bestimmtes Verhalten ausgerichtete Absichten misst und menschliches Verhalten deutlich besser vorhersagt als breite Merkmale. Wir führen Experimente zu vier Verhaltensaufgaben und elf führenden LLMs durch, wobei wir auch Sitzungskontext und Identitätsinduktion variieren. Wir stellen fest, dass SR-Verhaltens-Kohärenz existiert, aber selektiv ist. 1) Innerhalb eines gemeinsamen Gesprächs erreicht die Theorie des geplanten Verhaltens eine Kohärenz auf menschlichem Niveau; die Big Five tun dies nicht. 2) Über separate Gespräche hinweg überlebt die Kohärenz nur bei Verhaltensweisen, die außerhalb des unmittelbaren Prompts verankert sind (z. B. implizite, durch Training geprägte Voreingenommenheit), und bricht zusammen, wenn das Verhalten stark durch den Kontext vorbereitet wird (wie bei Speichelleckerei). 3) Persona-Prompting macht Selbstberichte über Gespräche hinweg konsistenter, führt aber nicht zu einer Angleichung des Verhaltens. Diese Ergebnisse deuten darauf hin, dass grobe Persönlichkeitsrahmen wie die Big Five möglicherweise nicht die besten Werkzeuge zur Prüfung des Einsatzverhaltens sind. Es werden aufgaben- und verhaltensspezifischere Instrumente benötigt, und selbst diese müssen über Aufgaben und Kontexte hinweg evaluiert werden.
On-Policy-Destillation (OPD) trainiert einen Schüler auf dessen eigenen Trajektorien mit dichter Pro-Token-Überwachung durch einen stärkeren Lehrer und übertrifft häufig die Off-Policy-Destillation sowie das standardmäßige Reinforcement Learning. Wir stellen jedoch fest, dass seine Wirksamkeit implizit auf zwei Annahmen beruht, die in der Praxis häufig verletzt werden: die trajektorienweise Ausrichtung zwischen Schüler und Lehrer sowie die gleichmäßige Zuverlässigkeit der Lehrerpräferenzen auf Token-Ebene. Daher schlagen wir die Sign-Gated On-Policy Distillation (SG-OPD) vor, die einen binären Verifizierer als Vertrauenssignal für den Lehrer auf zwei sich ergänzenden Granularitätsebenen einsetzt: gestaffeltes Lehrer-Sampling mischt vom Verifizierer bestätigte Lehrer-Rollouts beim Kaltstart ein, und ein Vorzeichenkonsistenz-Gatter extrahiert den Destillations-Update auf Token, bei denen der Lehrer mit der verifiziererkorrigierten Richtung übereinstimmt, und interpoliert ihn, wo er abweicht. Experimente zu mathematischen Reasoning-Benchmarks auf Wettbewerbsniveau zeigen, dass SG-OPD durchgängig besser abschneidet als Standard-OPD, mit durchschnittlichen Verbesserungen von 1,98 bzw. 7,50 auf Pro-Stichproben- bzw. Pro-Fragen-Ebene.
Kompakte Sprachmodelle (LMs) senken Kosten, Latenz und Bereitstellungsrisiko für Werkzeugagenten. Doch die Werkzeugnutzung im MCP-Stil erfordert mehr als isolierte Funktionsaufrufe: Ein Agent muss Werkzeuge aus Live-Katalogen entdecken, Schemata erfüllen, Abhängigkeiten über Zwischenergebnisse hinweg erhalten und endgültige Antworten in ausgeführten Belegen verankern. Kleine Planer erzeugen oft plausible Arbeitsablaufgraphen, die unter Werkzeugauflösung, Parametervalidierung, Abhängigkeitsverfolgung oder Ausführung scheitern. Wir argumentieren, dass diese Fehlerart durch Destillation kleiner Korpora schlecht behandelt wird. Einige hundert Lehrer-Traces können das Arbeitsablaufsformat lehren, decken aber selten das Wiederherstellungsverhalten ab, das zur Reparatur fehlgeschlagener Pläne bei sich ändernden Werkzeugkatalogen erforderlich ist. Wir stellen Evoflux vor, eine Evolutionssuchmethode zur Inferenzzeit, die kompakte Werkzeugnutzung als Reparatur ausführbarer Werkzeugarbeitsabläufe betrachtet. Es entwickelt typisierte Arbeitsablaufgraphen durch strukturierte Bearbeitungen, Ausführungsfeedback, adaptive Intensität, metagestütztes Redesign und Diversitätsbereinigung. Bei ausgelagerten MCP-Bench-Aufgaben, die Live-MCP-Server und 250 Werkzeuge umfassen, erhöht Evoflux die Ausführbarkeit von etwa 3% auf 17–24% bei kleinen Planern. Im Gegensatz dazu gleichen SFT und SFT+DPO auf denselben suchgewonnenen Daten entweder aus, schneiden schlechter ab oder brechen unter die Zero-Shot-Leistung ein; ReAct erreicht höhere Spitzenwerte, jedoch mit höherer Varianz und Tokenkosten. Diese Ergebnisse zeigen, dass ausführungsgestützte Suche bei knappen Lehrer-Trace-Budgets zuverlässiger ist.
Interaktive LLM-Agenten werden zunehmend Teil des Arbeitsalltags, aber sie werden im Laufe der Zeit nicht zuverlässig einfacher zu handhaben: Eine in einer Sitzung gemerkte Korrektur kann in der nächsten Sitzung immer noch verletzt werden. Wir untersuchen diese Diskrepanz zwischen Präferenzzugriff und Präferenzeinhaltung. In Aufgaben, die aus anonymisierten realen Nutzer-Friktionsfällen abgeleitet wurden, bleiben bei der Mem0-Speicherung dennoch 57,5 % der anwendbaren Präferenzprüfungen verletzt. Wir führen TRACE (Test-time Rule Acquisition and Compiled Enforcement) ein, eine einsetzbare Skill-Layer-Pipeline für Coding-Agent-Laufzeitumgebungen, die Nutzerkorrekturen extrahiert, sie in atomare Regeln umschreibt und sie in Laufzeitprüfungen kompiliert, die bestanden werden müssen, bevor ein Agent zukünftige Aufgaben abschließt. Im Gegensatz zu Laufzeitprüfungen, die von Entwicklern im Voraus geschrieben werden, stammen TRACE-Skills aus den eigenen Chat-Korrekturen der Nutzer. Wir evaluieren TRACE mit simulierten User-in-the-Loop-Experimenten an ClawArena-Coding-Agent-Aufgaben und speicherintensiven Aufgaben, die von MemoryArena abgeleitet wurden. Auf ClawArena reduziert TRACE die Verletzung zurückgehaltener Präferenzen von 100,0 % auf 37,6 % bei verteilungsinternen Aufgaben und von 100,0 % auf 2,0 % bei verteilungsfremden Aufgaben. Bei den von MemoryArena abgeleiteten Aufgaben reduziert TRACE die verteilungsinterne Verletzung von 100,0 % auf 60,5 %, während es die stärkste Speicherbasislinie beim Aufgabenbestehen erreicht oder übertrifft. Diese Ergebnisse deuten darauf hin, dass die Kompilierung von Korrekturen in Laufzeitdurchsetzung ein wiederkehrendes Friktionsversagen beheben kann, das Speicher allein nicht zuverlässig löst, wodurch die Notwendigkeit für Nutzer verringert wird, dieselbe Korrektur in zukünftigen Sitzungen erneut zu formulieren. Der Experimentcode ist verfügbar unter https://github.com/YujunZhou/TRACE_exp, und der einsetzbare Skill ist verfügbar unter https://github.com/YujunZhou/tellonce.
Suchagenten – große Sprachmodelle, die mit Suchwerkzeugen ergänzt werden – haben den Bedarf an zukunftssicheren Evaluierungsbenchmarks verstärkt. Bestehende Benchmarks wie BrowseComp stützen sich auf statisches Wissen und sind daher anfällig für Testset-Kontamination und parametrische Memorisierung. Folglich können Modelle durch Faktenabruf anstelle echter Suche hohe Punktzahlen erzielen, was die wahre Browsing-Kompetenz durch Argumentationsabkürzungen verschleiert. In dieser Arbeit stellen wir EvoBrowseComp vor, einen sich weiterentwickelnden Benchmark aus 400 englischen und 400 chinesischen kontaminationsfreien komplexen Fragen, die mittels Live-Web-Durchquerung synthetisiert wurden. Zur Erhebung dieser Fragen entwerfen wir ein kollaboratives Drei-Agenten-Framework: (1) einen QA-Syntheseagenten, der aktuelles Wissen aus dem Live-Web abruft, um QA-Paare zu synthetisieren; (2) einen Informationsfilteragenten, der das abgerufene Wissen hinsichtlich Glaubwürdigkeit und Popularität filtert, um parametrische Abkürzungen zu blockieren; und (3) einen übergeordneten Leitagenten, der Fragen in Schlussfolgerungsgraphen formalisiert, um logische Redundanzen und Abkürzungen in synthetisierten QA-Paaren zu reduzieren. Da das Framework eine vollautomatische Synthese unterstützt, kann EvoBrowseComp regelmäßig aktualisiert werden, um Datenkontamination zu verhindern und zeitliche Aktualität zu gewährleisten. Umfangreiche Experimente bestätigen seine hohe Schwierigkeit, die eine breite horizontale Suche erfordert. Es etabliert ein skalierbares Paradigma für automatisch aktualisierbares Benchmarking mit hohem Schwierigkeitsgrad, das sowohl mit dem sich wandelnden Weltwissen als auch mit den fortschreitenden Agentenfähigkeiten Schritt hält.
Geometrie ist invariant gegenüber dem Blickwinkel, wodurch jede Sammlung von Bildern eine redundante Kodierung eines einzigen 3D-Zustands darstellt. Bestehende Feed-Forward-Rekonstruktionsmodelle nutzen dies nicht aus: Pro-Ansicht-Methoden erzeugen überlappende, nicht ausgerichtete Punktkarten, die linear mit der Anzahl der Eingaben wachsen, während globale latente Methoden eine feste Ausgabe mit niedriger Auflösung liefern. Wir stellen Surflo vor, das eine variable Anzahl von unposierten RGB-Ansichten in K latente Tokens komprimiert – einen globalen Zustand – und orientierte 3D-Oberflächenpunkte decodiert, indem diese unabhängig voneinander durch Flow Matching vom Rauschen auf die Oberfläche transportiert werden. Dadurch wird die Ausgabe von einem festen Gitter oder Token-Budget befreit: Dasselbe Latent liefert in einem einzigen Vorwärtsdurchlauf von einigen tausend bis zu einer Million Punkte. Um die lokalen Inkonsistenzen zu unterdrücken, die der unabhängigen punktweisen Decodierung innewohnen, führt ein Guidance-Term zur Inferenzzeit nahegelegene Punkte durch Injektion eines photometrischen Gradienten während der ODE-Integration zusammen. Surflo erreicht oder übertrifft Feed-Forward-Baselines in Oberflächenmetriken, ist eine Größenordnung schneller als optimierungsbasierte Methoden, die hunderte Ansichten benötigen, und ist der einzige Feed-Forward-Ansatz, der ein globales Latent mit Decodierung in beliebiger Auflösung kombiniert.
Wir stellen Flash-GMM vor, einen fusionierten Triton-Kernel zur effizienten Berechnung von Gaußschen Mischmodellen (GMMs) über große Datenmengen in einem einzigen GPU-Durchlauf. Durch die Eliminierung der Notwendigkeit, die vollständige Verantwortlichkeitsmatrix im GPU-Speicher zu materialisieren, erreicht Flash-GMM eine 20-fache Beschleunigung gegenüber bestehenden Implementierungen und ermöglicht das Training auf Datensätzen, die mehr als 100-mal größer sind als zuvor auf einem Gerät möglich. Um die Auswirkungen zu demonstrieren, integrieren wir Flash-GMM in den IVF-Grobquantisierer für die approximative Nächste-Nachbar-Suche (ANN). Wir zeigen, dass weiches GMM-Clustering nun ein praktikabler Ersatz für k-means ist und dass GMM-Verantwortlichkeiten genutzt werden können, um Grenzvektoren mehreren Clustern zuzuweisen. Unser Ansatz erreicht festgelegte Recall-Ziele mit bis zu 1,7-mal weniger Distanzberechnungen oder gleichbedeutend mit +2–12 recall@10 bei gleichem Rechenaufwand. Wir veröffentlichen den Kernel als Open-Source-Projekt.
Die Repräsentationsausrichtung mit vortrainierten visuellen Modellen hat sich in letzter Zeit als vielversprechend für die Beschleunigung des Trainings von Diffusionstransformatoren erwiesen. Durch die Angleichung intermediärer Diffusionsmerkmale an merkmalsfreie Repräsentationen aus selbstüberwachten visuellen Encodern verbessern bestehende Methoden die Konvergenz und die Generierungsqualität. Allerdings führt eine solche Ausrichtung auch eine nichttriviale Einschränkung ein: Diffusionsmodelle arbeiten auf verrauschten Eingaben, deren nutzbare Information über Zeitschritte variiert, während die Referenzmerkmale aus merkmalsfreien Bildern extrahiert werden. In diesem Beitrag beleuchten wir diese Diskrepanz aus der Perspektive der Token-Ebene. Wir stellen fest, dass bei einer vollständigen Token-Repräsentationsausrichtung Tokens mit großen Ausrichtungsgradientennormen eine stabile räumliche Präferenz aufweisen. Dies deutet darauf hin, dass das Ausrichtungsziel nicht alle Tokens gleichmäßig beeinflusst und das Modell dazu verleiten kann, sich auf den vollständigen Satz merkmalsfreier Bild-Tokens zu stützen. Um dieses Problem zu adressieren, schlagen wir MaskAlign vor, eine Methode zur Token-Teilmenge-Repräsentationsausrichtung, die während des Trainings eine Ausrichtung auf zufällig abgetastete Token-Teilmengen anwendet. Indem das Modell über Iterationen hinweg verschiedenen Token-Teilmengen ausgesetzt wird, reduziert MaskAlign die Abhängigkeit der Repräsentationsausrichtung vom vollständigen Tokensatz und begünstigt ein Ausrichtungsverhalten, das unter Token-Teilmenge-Perturbationen stabiler ist. Um den Informationsverlust durch direktes Verwerfen von Tokens zu mildern, führen wir zusätzlich einen leichten Vor-Maskierungs-Token-Mischblock ein, der vor der Maskierung Informationen über Tokens hinweg teilt.
Robotiksimulatoren sind ein Eckpfeiler der modernen Forschung in der Luftrobotik und dienen sowohl als Plattform für die Entwicklung neuer Regelungsalgorithmen als auch als Datenquelle für das Training von Reinforcement-Learning (RL)-Policies. Allerdings stehen bestehende Lernumgebungen für Quadrocopter oft vor einem Zielkonflikt zwischen physikalischer Genauigkeit, Multi-Agenten-Unterstützung und dem Durchsatz, der für moderne Deep-RL-Pipelines erforderlich ist. In diesem Beitrag stellen wir MuJoCo-Drones-Gym vor, eine quelloffene, Gymnasium-kompatible Multi-Drohnen-Umgebung, die auf der MuJoCo-Physik-Engine aufbaut. MuJoCo-Drones-Gym unterstützt eine beliebige Anzahl von Bitcraze Crazyflie 2.x Nano-Quadrocoptern und bietet eine modulare API zur Auswahl von (i) dem Physikmodell (Starrkörper-MuJoCo, explizite Python-Dynamik oder eine beliebige Teilmenge von Bodeneffekt, Blattwiderstand und Inter-Drohnen-Abtrieb), (ii) der Aktionsschnittstelle (RPM pro Motor, kollektiver normierter Schub, Geschwindigkeitssollwerte oder PID-Wegpunktbefehle) und (iii) dem Beobachtungsraum (kinematische Zustandsvektoren, RGB-/Tiefen-/Segmentierungskameras oder Nachbarschaftsnäheinformationen). Ein PettingZoo-ParallelEnv-Wrapper ermöglicht unmittelbares Multi-Agenten-Verstärkungslernen, während eine Suite von sieben Aufgabenumgebungen – Schweben, Geschwindigkeitsverfolgung, Multi-Drohnen-Schweben, Wegpunktnavigation, Formationsflug, Torrennen und eine generische Multi-Agenten-Vorlage – die Breite der Schnittstelle demonstriert. Wir beschreiben das Umgebungsdesign, die zugrundeliegende Physik und Quadrocopter-Dynamik und veranschaulichen die Verwendung anhand von Regelungs- und Lernbeispielen, die denen des eng verwandten Projekts gym-pybullet-drones ähneln, während wir die verbesserte Kontaktbehandlung, das Rendering und die Parallelisierbarkeit von MuJoCo nutzen.
Multi-Agenten-Systeme kommunizieren meist über Text, was mit verlustbehafteten und teuren Dekodierungs- und Neukodierungskosten verbunden ist. Die KV-Cache-Kommunikation stellt eine vielversprechende Alternative dar, doch die meiste bisherige Arbeit ist homogen, verwendet identische Kopien desselben Modells und umgeht die zentrale Herausforderung der latenten Ausrichtung zwischen Modellen; bestehende heterogene Methoden sind ebenfalls restriktiv, da sie typischerweise gemeinsame Eingaben voraussetzen und übertragene Caches hauptsächlich zur Steuerung nutzen. Wir untersuchen eine grundlegendere Frage: Können heterogene Agenten ausreichend gut ausgerichtet werden, um echtes „Gedankenlesen" zu ermöglichen und sowohl das, was ein Agent sieht, als auch die Art und Weise, wie er denkt, zu übertragen? Unsere informationsstrukturelle Analyse offenbart eine Dualität: Kontextbewusste Übertragung wird von spärlichen Reasoning-Signalen angetrieben, während kontextunbewusste Übertragung, bei der der Empfänger keine Eingabe sieht, die Bewahrung dichten kontextuellen Wissens erfordert. Motiviert durch diese Erkenntnis schlagen wir eine dichte Ausrichtung für heterogene KV-Cache-Kommunikation vor, mittels einer leichten modellübergreifenden Cache-Transformation und zweiphasigem Training: Rekonstruktion gefolgt von Generierung. Über alle sechs Richtungen von {Qwen3-4B, 8B, 14B} und sechs In-Domain- und Out-of-Domain-Benchmarks hinweg übertrifft unsere Methode frühere heterogene Baselines, erreicht oder übertrifft Textkommunikation in kontextbewussten Szenarien bei etwa 2- bis 3-fach geringerem Rechenaufwand und bleibt in kontextunbewusster Übertragung effektiv, wo frühere Methoden versagen.
Die potenziellen Auswirkungen von Weltmodellen (WMs, d. h. erlernten Simulatoren) auf die Robotik sind weitreichend – Politikevaluierung, Politikverbesserung und Planung zur Testzeit – alles mit begrenzter Interaktion mit der realen Welt. Um diese nachgelagerten Fähigkeiten zu erschließen, muss ein WM gleichzeitig drei Anforderungen erfüllen: (i) Treue (d. h. Erzeugung simulierter Trajektorien, die mit der Realität korrelieren), (ii) Konsistenz (d. h. Erzeugung simulierter Trajektorien, die über lange Horizonte kohärent sind) und (iii) Effizienz (d. h. schnelle Erzeugung simulierter Trajektorien). Wir stellen WEAVER (World Estimation Across Views for Embodied Reasoning) vor: eine WM-Architektur, die alle drei Anforderungen gleichzeitig erfüllt und Spitzenergebnisse bei robotischen Manipulationsaufgaben liefert. WEAVER ist ein Multi-View-WM, das darauf trainiert wird, zukünftige latente Größen und Belohnungswerte mittels eines Flow-Matching-Verlusts vorherzusagen. Wir destillieren die wichtigen Designentscheidungen hinsichtlich Modellarchitektur, Speicher und Vorhersagezielen, die erforderlich sind, um die Art von dynamischen Manipulationsaufgaben mit langem Horizont zu erschließen, die bisherige Weltmodellierungsansätze verwirrt haben. Wir wenden WEAVER auf Robotikhardware an und demonstrieren seine Wirksamkeit bei der Politikevaluierung (ρ=0,870 Korrelation mit der realen Erfolgsrate), der Politikverbesserung (reale Erfolgsratensteigerung von 38 % auf Basis des Robotergrundmodells π_{0.5}) und der Planung zur Testzeit (reale Erfolgsratensteigerung von 14 % mit einer 5- bis 10-fachen Beschleunigung gegenüber früheren WMs). WEAVER zeigt auch eine bessere Leistung als frühere WMs, wenn es auf Out-of-Distribution-Szenarien evaluiert wird. Code, Modelle und Videos unter: https://arnavkj1995.github.io/WEAVER/ .
Die autonome Websuche stellt für LLM-Agenten weiterhin eine Herausforderung dar, und die leistungsfähigsten allgemeinen Systeme basieren auf proprietären Reasoning-Modellen, deren Inferenzkosten für die repetitiven Aufgaben, bei denen solche Agenten am nützlichsten wären, unerschwinglich sind. Wir argumentieren, dass diese Lücke nicht auf unzureichende Modellfähigkeiten zurückzuführen ist, sondern auf Agentenarchitekturen, die drei kognitive Vorteile des Menschen nicht nachbilden: selektive Aufmerksamkeit für relevante Seitenbereiche, dauerhaftes Gedächtnis für die Website-Struktur und prozedurale Routine bei gängigen Interaktionsmustern. Wir stellen WebChallenger vor, ein Web-Agenten-Framework, das jede dieser Lücken durch Architekturdesign statt durch Modellgröße schließt. Es basiert auf PageMem: einer strukturierten Seitenrepräsentation, die deterministisch aus dem DOM erstellt wird und jede Seite als Hierarchie semantischer Abschnitte mit kurzen Zusammenfassungen darstellt. Auf dieser gemeinsamen Grundlage bauen wir drei Mechanismen, die die drei kognitiven Vorteile widerspiegeln: eine Teile-und-herrsche-Beobachtungspipeline, die es dem Agenten ermöglicht, Abschnittszusammenfassungen zu überfliegen und Details nur aus aufgabenrelevanten Bereichen zu extrahieren; ein leichtgewichtiges Erkundungs- und Gedächtnissystem, das jede Website einmal durchläuft, um eine wiederverwendbare Karte von Seiten und Elementverhalten zu erstellen; sowie zusammengesetzte Aktionsworkflows, die gängige mehrstufige Interaktionen zu einzelnen Agentenaktionen zusammenfassen und Teilzustandsänderungen automatisch handhaben. Da alle drei Komponenten auf PageMem aufsetzen, generalisiert das Framework über Websites hinweg, ohne site-spezifische Adapter. Mit marktüblichen Open-Weight-Modellen ohne Feinabstimmung erreicht unser System 56,3 % auf WebArena, 48,7 % auf VisualWebArena, 51,0 % auf Online-Mind2Web und 70,9 % auf WorkArena und nähert sich damit führenden proprietären Systemen zu einem Bruchteil der Kosten an. Unser Code ist unter https://github.com/jayoohwang1/webchallenger veröffentlicht.
Aufbauend auf vortrainierten visuellen Basismodellen (VFMs) sind Repräsentations-Autoencoder (RAEs) in jüngster Zeit als vielversprechender Ansatz zur Konstruktion semantisch reichhaltiger latenter Räume für die Bilderzeugung hervorgetreten. Ihre Rekonstruktionsqualität bleibt jedoch oft suboptimal, vor allem weil tiefe VFM-Repräsentationen nicht ausreichend feine visuelle Details bewahren. Diese Einschränkung wird nach einer Diskretisierung noch gravierender, da fehlende Information auf niedriger Ebene nur schwer wiederhergestellt werden kann. Tatsächlich beobachten wir, dass flache VFM-Merkmale erheblich reichere lokale Erscheinungs- und Strukturdetails erhalten, die die hochgradige Semantik ergänzen, die von den in bestehenden RAEs verwendeten tiefen Merkmalen getragen wird. Motiviert durch diese komplementäre Eigenschaft schlagen wir Ideal vor, ein Framework zur tiefgehenden Ausrichtung (In-depth Alignment) für die diskrete Repräsentations-Autocodierung. Durch die gemeinsame Ausrichtung quantisierter Tokens sowohl auf flache als auch auf tiefe VFM-Merkmale ermöglicht Ideal, dass die resultierenden diskreten visuellen Tokens sowohl visuelle Wiedergabetreue als auch reichhaltige Semantik bewahren. Umfangreiche Experimente zeigen, dass Ideal eine überlegene Rekonstruktionsleistung erzielt, mit einem rFID von 0,61 auf ImageNet und einer Verbesserung um 0,28 gegenüber der bisher besten Methode. Bei der Verwendung für die autoregressive Bilderzeugung erzielt Ideal zudem einen gFID von 1,89 und etabliert damit einen neuen Stand der Technik für die autoregressive Bilderzeugung.
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Schlussfolgerungsfähigkeiten in allgemeinen Bereichen gezeigt, ihre Leistung bleibt jedoch in spezialisierten Umgebungen wie dem Gesundheitswesen begrenzt, insbesondere in mehrsprachigen und ressourcenarmen Szenarien. Diese Lücke ist in Regionen wie dem ländlichen Indien kritisch, wo Patienten komplexe medizinische Anfragen oft in einheimischen indischen Sprachen formulieren und auf multimodale Eingaben wie medizinische Bilder angewiesen sind. Bestehende englischzentrierte MLLMs können solche Anwendungsfälle nur unzureichend unterstützen und schränken den gleichberechtigten Zugang zu KI-gestützter Gesundheitsunterstützung ein. Um dieser Herausforderung zu begegnen, stellen wir ArogyaBodha vor, einen groß angelegten mehrsprachigen multimodalen medizinischen Frage-Antwort-Datensatz, der aus acht heterogenen Quellen erstellt wurde und 31 Körpersysteme, sechs Bildgebungsmodalitäten sowie 21 klinische Fachgebiete in Englisch und sieben wichtigen indischen Sprachen abdeckt. Darüber hinaus schlagen wir ArogyaSutra vor, ein Akteur-Kritik-basiertes Multi-Agenten-Framework, das Werkzeugverankerung mit dualen Gedächtnismechanismen für eine schrittweise, schlussfolgerungsbewusste Entscheidungsfindung integriert und gespeicherte Akteur-Kritik-Simulationsverläufe zur Destillation nutzt. Experimente zeigen, dass unser Datensatz und Framework die mehrsprachige medizinische Schlussfolgerungsgenauigkeit in allen indischen Sprachen verbessern, wobei Ablationen den Beitrag jeder Komponente bestätigen. Der Quellcode und der Datensatz sind verfügbar unter: https://iitp-cse.github.io/ArogyaSutra/
Wir sind umgeben von verschiedenen Objekten mit beweglichen, gegliederten Teilen, z. B. Kiste, Griff, Tür. Eine genaue und generalisierbare Wahrnehmung von Gelenkteilen ist essenziell, um die Manipulationsfähigkeiten von Robotern zu verbessern. Aufbauend auf diesem Bedarf haben sich neuere Arbeiten zur Wahrnehmung von Gelenkteilen in zwei Hauptrichtungen entwickelt: Ein Forschungsansatz verwendet posenbasierte Darstellungen, die einen hohen manuellen Aufwand erfordern; parallel dazu extrahieren affordanzbasierte Methoden zukünftige Objektbewegungen aus Punktverfolgung ohne zusätzlichen manuellen Aufwand, leiden jedoch unter qualitativ schlechten Daten. In diesem Beitrag schlagen wir eine neue Darstellung von Gelenkteilen vor, die Geometrische Primärstruktur (GPS), eine Abstraktion der Geometriestruktur von Teilen, um Skalierbarkeit und Qualität auszugleichen. Für eine effiziente und skalierbare Datenerfassung wird GPS mit einem tragbaren Virtual-Reality(VR)-Gerät integriert und benötigt nur eine Minute, um eine Objektsequenz zu annotieren. Diese direkte manuelle Annotation liefert eine höhere Qualität als die geschätzte Affordanz. Mit diesem effizienten VR-GPS-System sammeln wir 41.000 Bilder für 234 Objekte aus sechs Teilklassen und trainieren ein generalisierbares GPS-Modell mit einem einzelnen RGB-D-Objektbild als Eingabe. Für die Objektmanipulation setzen wir eine heuristische Strategie ein, die auf GPS-Vorhersagen basiert. Ohne domänenspezifisches Feintuning erreicht unsere Methode eine Erfolgsquote von 73 % und deckt 270 Anfangszustände für 9 Objekte ab. Unser Code, unsere Daten und das wiederverwendbare Werkzeug sind verfügbar unter https://enlighten0707.github.io/gps.
Sind LLM-Agenten mit Werkzeugaufruf während eines gesamten Gesprächs gleichermaßen sicher? Wir stellen fest: Das ist nicht der Fall – Agenten sind zu Beginn einer Sitzung am verwundbarsten und werden nach einigen regulären agentischen Aufgaben deutlich sicherer. Dieses Phänomen bezeichnen wir als **Kaltstart-Sicherheitslücke** (engl. _cold-start safety gap_). Zur systematischen Untersuchung führen wir **Safety Over Depth for Agents (SODA)** ein, einen Benchmark, der kontrolliert, wie viele reguläre agentische Aufgaben ein Agent vor dem Auftreten einer Sicherheitsbedrohung absolviert – mit bis zu 20 vorangehenden Aufgaben. Bei der Evaluierung von 7 Modellen aus 4 Familien verbessert sich die Sicherheit um 9–52 %, wenn die Anzahl der vorangehenden regulären agentischen Aufgaben von null auf zwanzig steigt. Eine Repräsentationsanalyse bestätigt, dass sich die versteckten Zustände der Modelle mit zunehmender Anzahl vorangehender Aufgaben allmählich in einen sicherheitsausgerichteten Bereich verschieben. Durch die systematische Untersuchung, welcher Teil des vorangehenden Gesprächs am relevantesten ist, zeigen wir, dass die regulären agentischen Aufgaben selbst der Haupttreiber der Sicherheit sind, während die eigenen vorherigen Antworten des Agenten einen geringeren Einfluss auf die Sicherheit haben, jedoch für die spätere Nützlichkeit essenziell sind. Diese Schlussfolgerung wird durch Evaluierungen auf Open-Source-Sicherheitsbenchmarks (AgentHarm, Agent Safety Bench) und Nützlichkeitsbenchmarks (BFCL, API-Bank) untermauert, die bestätigen, dass das Aufwärmen des Agenten mit regulären agentischen Aufgaben vor dem Einsatz ihn sicherer macht und seine volle Funktionsfähigkeit erhält. Basierend auf diesen Erkenntnissen empfehlen wir eine einfache Einsatzstrategie: den Agenten einige reguläre agentische Aufgaben absolvieren zu lassen, bevor er sicherheitskritischen Anfragen ausgesetzt wird, um die Kaltstart-Sicherheitslücke zu schließen. Unser Code ist verfügbar unter https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.
Große Sprachmodelle, die als Agenten über umfangreiche Werkzeugkataloge eingesetzt werden, stoßen auf einen kritischen Werkzeug-Retrieval-Engpass. Da einbettungsbasierte Retrieval-Ansätze auf kompakte Encoder angewiesen sind, die spezialisierte Werkzeugsemantiken möglicherweise unzureichend erfassen, adressiert das parametrische Werkzeug-Retrieval dieses Problem, indem jedes Werkzeug als ein an das LLM-Vokabular angehängtes virtuelles Token kodiert wird. Dieses wird in zwei Stufen (Memorisierung und dann Retrieval-SFT) feinabgestimmt, um das LLM als Retriever zu nutzen, und erzielt starke Leistungen auf den Standard-Retrieval-Benchmarks von ToolBench. Diese Benchmarks verwenden jedoch verbose, vollständig spezifizierte Abfragen, und ihre Evaluierung wendet eine eingeschränkte Dekodierung an, die die Ausgaben auf gültige Token-Pfade begrenzt – was nicht offenbart, ob das Modell seine Werkzeuge tatsächlich versteht. Wir führen ToolSense ein, ein quelloffenes, LLM-gestütztes Diagnose-Framework, das jeden Werkzeugkatalog als Eingabe nimmt und automatisch drei Benchmarks generiert: einen Realistic Retrieval Benchmark (RRB) mit Abfragen auf drei Ambiguitätsstufen, einen MCQ-Sondierungs-Benchmark und einen QA-Sondierungs-Benchmark. Die Anwendung von ToolSense auf ToolBench (~47.000 Werkzeuge) und die Evaluierung von fünf parametrischen Modell-Trainingskonfigurationen offenbart eine Wissens-Retrieval-Dissoziation: Bei RRB-Abfragen fallen mehrere Konfigurationen um etwa 50–64 Prozentpunkte im Vergleich zu vollständig spezifizierten ToolBench-Benchmarks ab und unterschreiten die Einbettungsmodell-Baseline. Darüber hinaus erzielen einige Modelle trotz starker Retrieval-Leistung nahezu zufällige Ergebnisse bei Fakten-Sondierungen, was auf eine Wissens-Retrieval-Dissoziation hindeutet. Wir stellen das ToolSense-Framework und die ToolBench-Diagnose-Benchmarks unter https://github.com/SAP/toolsense als Open Source zur Verfügung.
Expressive Performance Rendering (EPR) zielt darauf ab, realistische Darbietungen zu erzeugen, die durch Notensequenzen vorgegeben sind. Allerdings manipulieren Flow-Matching-Audio-Bearbeitungsmodelle nur synchronisierte Musikbeispiele gleicher Dauer, was ihr Verständnis des expressiven Timings einschränkt. Wir stellen PianoKontext vor, ein Flow-Matching-Rendering-Modell für klassische Klaviermusik, das Darbietungen variabler Länge im latenten Raum eines vortrainierten Music2Latent-Modells generiert. Wir synthetisieren MIDI-Partituren in ausdrucksloses Audio (Deadpan Audio) und verwenden Dynamic Time Warping (DTW) im latenten Raum, um gepaarte Daten für das Training zu konstruieren. Die ausgerichteten Einbettungen werden in DiT-Blöcken verkettet, was ein einfaches und effektives Erlernen der Abhängigkeiten zwischen der Partitur und den Darbietungen ermöglicht. Audiobeispiele sind auf unserer Demoseite verfügbar: https://realfolkcode.github.io/pianokontext_demo/.
Fortschritte in der Handschriftenerkennung haben die großflächige Transkription historischer Dokumente ermöglicht, bieten jedoch nach wie vor nur begrenzten Zugang zu interpretierbaren visuellen Messungen für die Paläographie, die Untersuchung historischer Schriften. In diesem Artikel liegt unsere zentrale Erkenntnis darin, dass die morphologische Schriftanalyse, insbesondere die Fähigkeit, Zeichenprototypen aus zeilenweisen Transkriptionen zu lernen, die Definition skalierbarer, aussagekräftiger und stabiler paläographischer Messungen ermöglicht. Genauer gesagt nutzen wir eine transformergestützte Erkennungsarchitektur zusammen mit einem prototypbasierten Zeilenrekonstruktionsmodul, um prototypische Zeichen sowie deren Vorkommen, Verformung und Positionierung zu lernen. Unsere Beiträge sind zweifach. Erstens führen wir eine tiefe Architektur und Lernmethodik ein, die eine effiziente Zeichenmodellierung mit ausschließlich zeilenweiser Transkriptionsaufsicht ermöglicht, die das Learnable-Typewriter-Basismodell deutlich übertrifft und eine genaue Vorhersage von Begrenzungsrahmen für Zeichen ermöglicht, wodurch ihr Potenzial für paläographische Messungen erschlossen wird. Zweitens führen wir die paläographische Relevanz automatischer Messungen ein und demonstrieren sie, die durch unsere Architektur für Zeichen, Bigramme und Abstände zwischen grafischen Einheiten ermöglicht werden. Für diese Demonstration erweitern wir die Annotationen des Kodex Paris, BnF, fr. 2813, der im späten 14. Jahrhundert von Karl V. in Auftrag gegeben und von vier Händen kopiert wurde, auf 160 Seiten. Wir visualisieren unsere Messungen über diese Seiten und zeigen, wie sie es uns nicht nur ermöglichen, grafische Profile zu unterscheiden, sondern auch subtile Variationen zu entdecken und zu analysieren. Diese Fallstudie verdeutlicht die Skalierbarkeit unseres Ansatzes und seine Sparsamkeit hinsichtlich der erforderlichen Trainingsdaten, da eine einzelne Textspalte ausreicht, um unsere Messungen auf jeder der 160 Seiten zu berechnen. Daten und Code sind öffentlich zugänglich unter: https://malamatenia.github.io/morphology4metrology-analysis.
Lernen kompatibler Repräsentationen zielt darauf ab, Merkmalsdarstellungen zu lernen, die im Laufe der Zeit austauschbar verwendet werden können, wenn ein Modell aktualisiert wird. In dieser Arbeit zeigen wir, dass stationäre Repräsentationen, die durch d-Simplex-fixierte Klassifikatoren gelernt werden, Kompatibilität im Sinne ihrer formalen Definition implizieren. Dieses Ergebnis legt eine Grundlage für zukünftige Arbeiten und kann direkt in praktischen Lernszenarien genutzt werden. Wir befassen uns mit der Herausforderung, Kompatibilität mithilfe von d-Simplex-fixierten Klassifikatoren zu lernen, wenn das Modell sequenziell feinabgestimmt wird. Das Lernen gemäß einem d-Simplex-fixierten Klassifikator mit dem Kreuzentropieverlust gleicht Merkmalsverteilungen auf der Ebene der Statistiken erster Ordnung an. Folglich kann es höhergradige Abhängigkeiten in der Repräsentation zwischen Modellaktualisierungen möglicherweise nicht vollständig erfassen. Um dieses Problem zu lösen, zeigen wir, dass das Training des Modells mit einem d-Simplex-fixierten Klassifikator mittels einer konvexen Kombination des Kreuzentropieverlusts und eines kontrastiven Verlusts nicht nur höhergradige Abhängigkeiten erfasst, sondern auch äquivalent zum Lernen mit der Kreuzentropie unter Kompatibilitätsbedingungen ist. Wir bestätigen unsere Ergebnisse mit umfangreichen Experimenten, die auch ein neues Szenario berücksichtigen, bei dem ein vortrainiertes Modell sequenziell feinabgestimmt und gelegentlich durch ein verbessertes Modell ersetzt wird. Wir zeigen, dass stationäre Repräsentationen unterbrechungsfreie Abrufdienste ermöglichen (ohne erneute Verarbeitung von Galeriebildern), während die Leistung bei Modellaktualisierungen und -ersetzungen verbessert wird, und damit den State-of-the-Art erreichen. Code unter https://github.com/miccunifi/iamcl2r.
Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend für Zero-Shot-Annotationen und LLM-als-Richter-Aufgaben eingesetzt, doch ihre Zuverlässigkeit hängt davon ab, wie modellinterne A-priori-Informationen mit benutzerbereitgestellten Anweisungen interagieren. Wir untersuchen drei Dimensionen dieser Interaktion: (1) wie sich die Vertrautheit eines LLMs mit Daten und Aufgabendefinitionen auf die Leistung auswirkt, (2) inwieweit zusätzliche Informationen in Prompts Zero-Shot-Fehler korrigieren können („Entscheidungsresistenz“) und (3) die Anfälligkeit von Modellen gegenüber fehlausgerichteten Aufgabendefinitionen. Durch Experimente zur Toxizitätserkennung über verschiedene Datensätze hinweg (soziale Medien, Gaming, Nachrichten und Foren) unter Verwendung von dichten sowie Mixture-of-Experts-Modellen stellen wir fest, dass fast zwei Drittel der Zero-Shot-Fehler resistent gegenüber Korrekturen sind, mit einer Gesamtrettungsrate (Anteil der durch Prompting korrigierten anfänglichen Fehler) von nur 34,8 %. Fehler mit hoher Konfidenz erweisen sich dabei als besonders korrekturresistent. Werden LLMs fehlausgerichtete Definitionen vorgegeben, befolgen sie diese, während das Konfidenzniveau im Vergleich zur korrekt ausgerichteten Bedingung unverändert bleibt. Entscheidend ist, dass wir die definitionsspezifische Vertrautheit (Definition-Specific Familiarity, DSF) einführen, welche die Übereinstimmung zwischen dem internen Konzept eines Modells und der Aufgabendefinition misst. Nach Kontrolle von Störvariablen auf Datensatzebene zeigt DSF einen positiven Zusammenhang mit der Modellleistung (partielles r = +0,41), während drei verschiedene Metriken zur Textmemorierung (ROUGE-L, BERTScore und Einbettungs-Cosinus-Ähnlichkeit) alle keinen positiven Zusammenhang aufweisen. Diese Ergebnisse zeigen die Grenzen der promptbasierten Korrektur bei Annotationsaufgaben und unterstreichen die Bedeutung der Definitionsausrichtung gegenüber der Memorierung auf Textebene.