Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erzeugung in wenigen Schritten ist seit langem ein Ziel, wobei aktuelle Ein-Schritt-Generierungsmethoden wie MeanFlow bemerkenswerte Ergebnisse erzielen. Bisher konzentriert sich die Forschung zu MeanFlow hauptsächlich auf die Klassenzu-Bild-Generierung. Eine intuitive, aber unerforschte Richtung ist jedoch, die Bedingung von festen Klassenlabels auf flexible Texteingaben zu erweitern, um eine inhaltsreichere Erstellung zu ermöglichen. Im Vergleich zu begrenzten Klassenlabels stellen Textbedingungen größere Herausforderungen an das Verständnisvermögen des Modells, was die effektive Integration leistungsstarker Textencoder in das MeanFlow-Framework erfordert. Überraschenderweise führt – obwohl die Einbeziehung von Textbedingungen einfach erscheint – die Integration leistungsfähiger LLM-basierter Textencoder mit herkömmlichen Trainingsstrategien zu unbefriedigenden Ergebnissen. Um die zugrunde liegende Ursache zu ermitteln, führen wir detaillierte Analysen durch und zeigen, dass aufgrund der extrem begrenzten Anzahl von Verfeinerungsschritten in der MeanFlow-Generierung (z.B. nur einem Schritt) die Textmerkmalrepräsentationen eine ausreichend hohe Diskriminierungsfähigkeit besitzen müssen. Dies erklärt auch, warum diskrete und leicht unterscheidbare Klassenmerkmale im MeanFlow-Framework gut funktionieren. Aufbauend auf diesen Erkenntnissen nutzen wir einen leistungsstarken LLM-basierten Textencoder, der nachweislich die erforderlichen semantischen Eigenschaften besitzt, und passen den MeanFlow-Generierungsprozess an dieses Framework an, wodurch erstmals eine effiziente textkonditionierte Synthese ermöglicht wird. Darüber hinaus validieren wir unseren Ansatz am weit verbreiteten Diffusionsmodell und zeigen signifikante Verbesserungen der Generierungsleistung. Wir hoffen, dass diese Arbeit eine allgemeine und praktische Referenz für die zukünftige Forschung zur textkonditionierten MeanFlow-Generierung bietet. Der Code ist verfügbar unter https://github.com/AMAP-ML/EMF.
Chain-of-Thought (CoT)-Reasoning hat sich zu einem wichtigen Treiber für die Trajektorienvorhersage in der VLA-basierten autonomen Fahrzeugführung entwickelt, doch ihre autoregressive Natur verursacht Latenzen, die für einen Echtzeiteinsatz zu hoch sind. Latente CoT-Methoden versuchen diese Lücke zu schließen, indem sie die Schlussfolgerung in kontinuierliche verborgene Zustände komprimieren, bleiben dabei jedoch stets hinter ihren expliziten Gegenstücken zurück. Wir vermuten, dass dies daran liegt, dass rein sprachlich latente Repräsentationen eine symbolische Abstraktion der Welt komprimieren, anstatt die kausalen Dynamiken, die das Fahrverhalten tatsächlich steuern. Daher präsentieren wir OneVL (One-step latent reasoning and planning with Vision-Language explanations), ein vereinheitlichtes VLA- und Weltmodell-Framework, das die Schlussfolgerung durch kompakte latente Tokens leitet, die von dualen Hilfs-Decodern überwacht werden. Neben einem Sprach-Decoder, der den textuellen CoT rekonstruiert, führen wir einen visuellen Weltmodell-Decoder ein, der zukünftige Bild-Tokens vorhersagt und so den latenten Raum zwingt, die kausalen Dynamiken von Straßengeometrie, Agentenbewegung und Umweltveränderungen zu internalisieren. Eine dreistufige Trainingspipeline richtet diese latenten Zustände progressiv an Trajektorien-, Sprach- und Bildzielen aus und gewährleistet eine stabile gemeinsame Optimierung. Zur Inferenzzeit werden die Hilfs-Decoder entfernt und alle latenten Tokens in einem einzigen parallelen Durchgang vorab gefüllt, was der Geschwindigkeit einer reinen Antwortvorhersage entspricht. In vier Benchmarks ist OneVL die erste latente CoT-Methode, die explizite CoT übertrifft, state-of-the-art Genauigkeit bei Latenzen wie bei reinen Antworten liefert und den direkten Beweis erbringt, dass eine stärkere Komprimierung – wenn sie durch Sprach- und Weltmodell-Aufsicht geleitet wird – generalisierbarere Repräsentationen erzeugt als ausführliche Token-für-Token-Schlussfolgerungen. Projektseite: https://xiaomi-embodied-intelligence.github.io/OneVL
Große Sprachmodelle werden zunehmend als universelle Agenten eingesetzt, die mit externen, zustandsbehafteten Werkzeugumgebungen interagieren. Das Model Context Protocol (MCP) und umfassendere Agenten-Fähigkeiten bieten eine einheitliche Schnittstelle zur Verbindung von Agenten mit skalierbaren Dienstleistungen der realen Welt, doch die Robustheit trainierter Agenten bleibt durch den Mangel an realistischen Umgebungen und prinzipiellen Mechanismen für lebenslanges Lernen eingeschränkt. In diesem Artikel stellen wir Agent-World vor, eine sich selbst entwickelnde Trainingsarena zur Weiterentwicklung allgemeiner Agenten-Intelligenz durch skalierbare Umgebungen. Agent-World besteht aus zwei Hauptkomponenten: (1) Agentische Umwelt-Aufgaben-Entdeckung, die autonom themenausgerichtete Datenbanken und ausführbare Werkzeug-Ökosysteme aus Tausenden realer Umgebungsthemen erkundet und überprüfbare Aufgaben mit kontrollierbarem Schwierigkeitsgrad synthetisiert; und (2) Kontinuierliches sich selbst entwickelndes Agenten-Training, das Reinforcement-Learning in multiplen Umgebungen mit einer sich selbst entwickelnden Agenten-Arena kombiniert, die Fähigkeitslücken durch dynamische Aufgabensynthese automatisch identifiziert und gezieltes Lernen vorantreibt, wodurch die Ko-Evolution von Agenten-Policies und Umgebungen ermöglicht wird. In 23 anspruchsvollen Agenten-Benchmarks übertreffen Agent-World-8B und 14B durchgängig starke proprietäre Modelle und Umgebungsskalierungs-Baselines. Weitere Analysen zeigen Skalierungstrends in Bezug auf Umgebungsvielfalt und Selbstentwicklungszyklen auf und bieten Erkenntnisse für den Aufbau allgemeiner Agenten-Intelligenz.
Die Spieleentwicklung befindet sich an der Schnittstelle von kreativem Design und komplexer Softwareentwicklung, die das gemeinsame Orchestrieren von Spiel-Engines, Echtzeitschleifen und eng gekoppelten Zuständen über viele Dateien hinweg erfordert. Während große Sprachmodelle (LLMs) und Code-Agenten isolierte Programmieraufgaben heute mühelos lösen, scheitern sie regelmäßig, wenn sie aufgefordert werden, ein vollständig spielbares Spiel aus einem hochrangigen Design zu erstellen – sie scheitern an dateiübergreifenden Inkonsistenzen, defekten Szenenverknüpfungen und logischer Inkohärenz. Wir schließen diese Lücke mit OpenGame, dem ersten Open-Source-Agenten-Framework, das explizit für die end-to-end Erstellung von Webbrowserspielen entwickelt wurde. Im Kern liegt die Game Skill, eine wiederverwendbare, sich entwickelnde Fähigkeit, die aus einer Template Skill besteht – einer wachsenden Bibliothek von Projektskeletten aus Erfahrung – und einer Debug Skill, die ein lebendiges Protokoll verifizierter Korrekturen pflegt. Zusammen ermöglichen sie dem Agenten, stabile Architekturen zu erstellen und Integrationsfehler systematisch zu beheben, anstatt isolierte Syntaxfehler zu patchen. Angetrieben wird dieses Framework von GameCoder-27B, einem Code-LLM, das durch eine dreistufige Pipeline aus kontinuierlichem Pre-Training, überwachtem Fine-Tuning und executionsbasiertem Reinforcement Learning speziell für die Beherrschung von Spiel-Engines trainiert wurde. Da die Verifizierung von interaktiver Spielbarkeit grundsätzlich schwieriger ist als die Überprüfung von statischem Code, führen wir zudem OpenGame-Bench ein, eine Evaluierungspipeline, die die agentenbasierte Spielgenerierung anhand von Build-Health, visueller Nutzbarkeit und Intent-Alignment mittels Headless-Browser-Ausführung und VLM-Bewertung bewertet. Über 150 verschiedene Spiel-Prompts hinweg etabliert OpenGame einen neuen State-of-the-Art. Wir hoffen, dass OpenGame Code-Agenten über diskrete Softwareentwicklungsprobleme hinaus hin zur Erstellung komplexer, interaktiver Echtzeitanwendungen vorantreibt. Unser Framework wird vollständig open-source verfügbar sein.
Videoweltenmodelle haben bemerkenswerte Erfolge bei der Simulation von Umgebungsdynamiken als Reaktion auf Aktionen von Nutzern oder Agenten erzielt. Sie werden als aktionskonditionierte Videogenerierungsmodelle modelliert, die historische Frames und aktuelle Aktionen als Eingabe verwenden, um zukünftige Frames vorherzusagen. Dennoch sind die meisten bestehenden Ansätze auf Einzelagenten-Szenarien beschränkt und erfassen nicht die komplexen Interaktionen, die realen Multi-Agenten-Systemen innewohnen. Wir stellen MultiWorld vor, einen einheitlichen Rahmen für Multi-Agenten-Multi-Perspektiven-Weltmodellierung, der eine präzise Steuerung mehrerer Agenten bei gleichzeitiger Wahrung der Multi-Perspektiven-Konsistenz ermöglicht. Wir führen das Multi-Agenten-Konditionsmodul ein, um eine präzise Multi-Agenten-Steuerbarkeit zu erreichen, und den Global-State-Encoder, um kohärente Beobachtungen über verschiedene Perspektiven hinweg sicherzustellen. MultiWorld unterstützt flexible Skalierung der Anzahl von Agenten und Perspektiven und synthetisiert verschiedene Perspektiven parallel für hohe Effizienz. Experimente in Mehrspieler-Spielumgebungen und Multi-Roboter-Manipulationsaufgaben zeigen, dass MultiWorld Baseline-Methoden in Bezug auf Videotreu, Aktionsfolgefähigkeit und Multi-Perspektiven-Konsistenz übertrifft. Projektseite: https://multi-world.github.io/
Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) hat eine bemerkenswerte Wirksamkeit bei der Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle gezeigt. Da sich Modelle zu nativ multimodalen Architekturen weiterentwickeln, wird die Erweiterung von RLVR auf das Videoverständnis immer wichtiger, ist jedoch weitgehend unerforscht geblieben. Dies liegt an der Vielfalt der Videoaufgabentypen, dem Rechenaufwand für das wiederholte Decodieren und Vorverarbeiten hochdimensionaler visueller Eingaben sowie der Schwierigkeit einer reproduzierbaren Evaluierung über zahlreiche sensible Hyperparameter hinweg. Bestehende Open-Source-RL-Trainingsframeworks bieten eine solide Infrastruktur für Text- und Bildszenarien, es fehlen ihnen jedoch systematische Optimierungen, die speziell auf die Video-Modalität zugeschnitten sind. In dieser Arbeit stellen wir EasyVideoR1 vor, ein vollständiges und effizientes Reinforcement-Learning-Framework, das speziell für das Training großer Vision-Language-Modelle an Videoverständnisaufgaben entwickelt wurde. EasyVideoR1 leistet die folgenden Beiträge: (1) eine vollständige Video-RL-Trainingspipeline mit Offline-Vorverarbeitung und Tensor-Caching, die redundantes Video-Decodieren eliminiert und einen Durchsatzgewinn um das 1,47-fache erzielt; (2) ein umfassendes, aufgabenbewusstes Belohnungssystem, das 11 verschiedene Video- und Bildproblemtypen mit einheitlichem Routing und modularer Erweiterbarkeit abdeckt; (3) ein gemischtes Offline-Online-Datentraining, das kuratierte hochwertige Trajektorien mit On-Policy-Exploration kombiniert, was das Lernen anspruchsvollerer Aufgaben begünstigt; (4) gemeinsames Bild-Video-Training mit unabhängig konfigurierbaren Pixel-Budgets, das es beiden Modalitäten ermöglicht, sich gegenseitig zu verstärken; und (5) ein asynchrones Multi-Benchmark-Evaluierungsframework, das 22 Mainstream-Videoverständnis-Benchmarks abdeckt und dessen reproduzierte Genauigkeit eng mit den offiziell berichteten Scores übereinstimmt.
Große Sprachmodelle werden typischerweise durch überwachtes Feintuning (SFT) und Reinforcement Learning (RL) nachtrainiert, doch die effektive Vereinigung effizienter Wissensintegration mit robuster Generalisierung bleibt eine Herausforderung. In dieser Arbeit liefern wir eine Analyse der Trainingsdynamik, die zeigt, dass SFT als Spezialfall der Policy-Gradient-Optimierung mit einem extrem spärlichen impliziten Belohnungssignal und instabiler Inverse-Probability-Wichtung interpretiert werden kann. Diese Faktoren führen gemeinsam zu Pfadabhängigkeit, Entropiekollaps und Gradientenexplosion. Aufbauend auf dieser Diagnose schlagen wir Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Nachtrainierungsframework, das diese intrinsischen Limitationen durch zwei Mechanismen adressiert: Group Advantage Learning, das diverse Antwortgruppen konstruiert und normalisierte kontrastive Supervision ableitet, um Belohnungssparsamkeit zu mildern, sowie Dynamic Coefficient Rectification, das Inverse-Probability-Gewichte adaptiv begrenzt, um die Optimierung zu stabilisieren und gleichzeitig effiziente Wissensintegration zu bewahren. Experimente zeigen, dass GFT SFT-basierte Methoden konsistent übertrifft und Policies erzeugt, die sich nahtloser in nachfolgendes RL-Training integrieren lassen.
Große Sprachmodelle entwickeln sich schnell zu interaktiven Coding-Agenten, die End-to-End-Webentwicklung beherrschen können. Bisherige Benchmarks bewerten jedoch nur Teilaspekte dieser Fähigkeit – typischerweise textgesteuerte Generierung mit statischen Korrektheitsmetriken – und lassen visuelle Treue, Interaktionsqualität und Codebase-weite Logik weitgehend unberücksichtigt. Wir stellen WebCompass vor, einen multimodalen Benchmark, der eine einheitliche Lebenszyklus-Bewertung von Webentwicklungskompetenz ermöglicht. Da reales Web-Coding einen iterativen Zyklus aus Generierung, Bearbeitung und Fehlerbehebung darstellt, umfasst WebCompass drei Eingabemodalitäten (Text, Bild, Video) und drei Aufgabentypen (Generierung, Bearbeitung, Reparatur), was sieben Aufgabekategorien ergibt, die professionelle Arbeitsabläufe widerspiegeln. Durch eine mehrstufige Pipeline mit menschlicher Beteiligung kuratieren wir Instanzen aus 15 Generierungsdomänen, 16 Bearbeitungstypen und 11 Fehlerkategorien, jeweils annotiert mit Schwierigkeitsgraden (Einfach/Mittel/Schwer). Für die Evaluation nutzen wir ein checklistengesteuertes LLM-as-a-Judge-Protokoll für Bearbeitung und Reparatur und entwickeln ein neuartiges Agent-as-a-Judge-Paradigma für die Generierung: Hierbei werden generierte Websites automatisch in einem echten Browser ausgeführt, interaktive Verhaltensweisen via Model Context Protocol (MCP) erkundet und gezielte Testfälle iterativ synthetisiert – was menschlichem Akzeptanztesting nahekommt. Die Evaluation repräsentativer Closed-Source- und Open-Source-Modelle zeigt: (1) Closed-Source-Modelle bleiben deutlich leistungsstärker und ausgewogener; (2) Bearbeitung und Reparatur weisen unterschiedliche Schwierigkeitsprofile auf – Reparatur erhält Interaktivität besser, bleibt aber ausführungsintensiv; (3) Ästhetik ist der persistenteste Engpass, besonders bei Open-Source-Modellen; (4) Framework-Wahl beeinflusst Ergebnisse maßgeblich: Vue ist durchgängig herausfordernd, während React und Vanilla/HTML je nach Aufgabentyp stärker abschneiden.
Die Erstellung von Umgebungen zum Training und zur Evaluierung von Greifagenten bleibt ein manueller, personalintensiver Prozess, der nicht skalierbar ist. Wir sind der Ansicht, dass nicht nur ein Datensatz, sondern eine automatisierte Pipeline benötigt wird, die in der Lage ist, auf Abruf diverse, verifizierte Umgebungen zu generieren. Zu diesem Zweck stellen wir ClawEnvKit vor, eine autonome Generierungspipeline, die diesen Formalismus aus natürlichen Sprachbeschreibungen instanziiert. Die Pipeline besteht aus drei Modulen: (1) einem Parser, der strukturierte Generierungsparameter aus natürlicher Spracheingabe extrahiert; (2) einem Generator, der die Aufgabenspezifikation, die Werkzeugschnittstelle und die Bewertungskonfiguration erzeugt; und (3) einem Validierer, der Machbarkeit, Vielfalt, strukturelle Validität und interne Konsistenz über die generierten Umgebungen hinweg durchsetzt. Mit ClawEnvKit konstruieren wir Auto-ClawEval, den ersten großflächigen Benchmark für Greifagenten, der 1.040 Umgebungen in 24 Kategorien umfasst. Empirisch erreicht Auto-ClawEval bei Kohärenz und Klarheit menschenkuratierte Umgebungen oder übertrifft sie, bei 13.800-fach geringeren Kosten. Ausgewertet über 4 Modellfamilien und 8 Agenten-Frameworks zeigen wir, dass Framework-Engineering die Leistung um bis zu 15,7 Prozentpunkte gegenüber einer reinen ReAct-Basislinie steigert, die Vollständigkeit die primäre Variationsachse bleibt – ohne dass ein Modell den Benchmark sättigt – und die automatisierte Generierung eine Evaluierung in bisher unmöglichem Maßstab ermöglicht. Über statisches Benchmarking hinaus ermöglicht ClawEnvKit Live-Evaluierung: Benutzer beschreiben eine gewünschte Fähigkeit in natürlicher Sprache und erhalten auf Abruf eine verifizierte Umgebung, was die Evaluierung zu einem kontinuierlichen, benutzergetriebenen Prozess macht. Derselbe Mechanismus dient als Generator für Trainingsumgebungen auf Abruf, der Aufgabenverteilungen erzeugt, die sich an den aktuellen Schwächen eines Agenten orientieren, anstatt durch bestehende Benutzerprotokolle begrenzt zu sein.
Große Sprachmodelle haben bedeutende Fortschritte im logischen Denken durch Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) erzielt. Mit zunehmenden Modellfähigkeiten wird die Konstruktion hochwertiger Belohnungssignale jedoch immer schwieriger, weshalb es entscheidend ist zu verstehen, wann RLVR unter schwächeren Formen der Supervision erfolgreich sein kann. Wir führen eine systematische empirische Untersuchung über verschiedene Modellfamilien und Denkdomänen unter drei Schwach-Supervision-Szenarien durch: knappe Daten, verrauschte Belohnungen und selbstüberwachte Proxy-Belohnungen. Wir stellen fest, dass die Generalisierung von den Dynamiken der Trainingsbelohnungssättigung bestimmt wird: Modelle, die generalisieren, zeigen eine verlängerte Vor-Sättigungsphase, in der Trainingsbelohnung und Downstream-Leistung gemeinsam ansteigen, während Modelle, die schnell sättigen, eher auswendig lernen als zu verstehen. Wir identifizieren die Schlussfolgerungstreue, definiert als das Ausmaß, in dem Zwischenschritte die Endantwort logisch stützen, als die Eigenschaft vor dem RL, die vorhersagt, in welches Regime ein Modell fällt, während Output-Diversität allein nicht aussagekräftig ist. Motiviert durch diese Erkenntnisse, entwirren wir die Beiträge von kontinuierlichem Pre-Training und supervised Fine-Tuning und stellen fest, dass SFT auf expliziten Denkpfaden für Generalisierung unter schwacher Supervision notwendig ist, während kontinuierliches Pre-Training auf Domänendaten den Effekt verstärkt. Gemeinsam auf Llama3.2-3B-Base angewendet, ermöglichen diese Interventionen Generalisierung über alle drei Szenarien hinweg, in denen das Basismodell zuvor versagte.
Während sich die Fähigkeitsgrenzen autonomer Agenten stetig erweitern und sie zunehmend in der Lage sind, spezialisierte Aufgaben durch Plug-and-Play-externe Fähigkeiten zu bewältigen, testen aktuelle Benchmarks größtenteils nur, ob Modelle vorgegebene Fähigkeiten nutzen können. Ungeklärt bleibt, ob sie Fähigkeiten aus Erfahrung entdecken, sie nach Fehlschlägen reparieren und über die Zeit hinweg eine kohärente Bibliothek pflegen können. Wir stellen SkillFlow vor, einen Benchmark mit 166 Aufgaben aus 20 Familien, bei deren Konstruktion innerhalb jeder Familie ein domainspezifischer Ausführungsfluss (Domain-Agnostic Execution Flow, DAEF) zugrunde liegt. Dieser definiert ein Agenten-Workflow-Framework, sodass diese Aufgaben einen konsistenten Arbeitsablauf teilen. Agenten werden unter einem agentischen lebenslangen Lernprotokoll (Agentic Lifelong Learning) evaluiert, bei dem sie ohne vordefinierte Fähigkeiten starten, Aufgaben sequenziell innerhalb jeder Familie lösen, Erkenntnisse durch trajectorien- und rubrikengesteuerte Fähigkeits-Patches externalisieren und die aktualisierte Bibliothek fortführen. Experimente zeigen eine erhebliche Fähigkeitslücke. Für Claude Opus 4.6 verbessert die lebenslange Fähigkeitsentwicklung die Aufgabenerfüllung von 62,65 % auf 71,08 % (+8,43 Punkte). Eine hohe Fähigkeitsnutzung bedeutet jedoch nicht zwangsläufig einen hohen Nutzen: Kimi K2.5 verzeichnet trotz einer Fähigkeitsnutzungsrate von 66,87 % nur einen Zuwachs von +0,60 Punkten, während Qwen-Coder-Next lediglich eine Aufgabenerfüllungsrate von 44,58 % erreicht und sich im Vergleich zur Basiskonfiguration sogar verschlechtert. SkillFlow liefert eine strukturierte Testumgebung für diese Forschungsrichtung sowie eine tiefgehende empirische Analyse der Fähigkeitsentdeckung, -korrektur, -übertragung und ihrer Fehlermodi unter lebenslanger Evaluation.
Das Zusammenführen separat trainierter LoRA-Adapter ist eine praktische Alternative zum gemeinsamen Multitask-Training, führt jedoch häufig zu Leistungseinbußen. Bestehende Methoden behandeln das LoRA-Update ΔW = BA meist als ein einzelnes Objekt und unterscheiden nicht zwischen den beiden LoRA-Matrizen. Wir zeigen, dass die Hauptquelle für Interferenzen beim LoRA-Merge von der ausgabeseitigen Matrix B stammt. Über verschiedene Aufgaben hinweg verwendet B wiederholt einen kleinen Satz gemeinsamer Richtungen, während A deutlich aufgabenspezifischer bleibt. Infolgedessen betont der zusammengeführte Adapter diese gemeinsamen Richtungen übermäßig hervor, und aufgabenspezifische Informationen gehen verloren. Wir schlagen Pico (Pre-merge interference calibration in output-space) vor, eine datenfreie Methode, die B vor dem Merge kalibriert, indem übermäßig genutzte gemeinsame Richtungen herunterskaliert und anschließend das zusammengeführte Update neu skaliert wird. Pico lässt sich direkt in bestehende Merge-Methoden wie Task Arithmetic, TIES und TSV-M integrieren. Über acht verschiedene Benchmarks aus den Bereichen Mathematik, Programmierung, Finanzen und Medizin verbessert Pico die durchschnittliche Genauigkeit um 3,4–8,3 Punkte gegenüber der jeweiligen Basismethode und erzielt die insgesamt beste Durchschnittsleistung. Pico ermöglicht es zusammengeführten Adaptern sogar, das mit allen Aufgabendaten trainierte LoRA zu übertreffen. Diese Ergebnisse zeigen, dass das LoRA-Merging besser funktioniert, wenn die beiden LoRA-Matrizen separat behandelt werden.
On-policy Distillation (OPD) ist ein zunehmend wichtiges Paradigma für das Nachtraining von Sprachmodellen. Wir identifizieren jedoch ein weit verbreitetes Skalengesetz der Fehlkalibrierung: Während OPD die Aufgabengenauigkeit effektiv steigert, führt es systematisch zu schwerer Überkonfidenz der Modelle. Wir führen dieses Versagen auf eine Informationsasymmetrie zurück: Die Lehrer-Supervision wird unter dem privilegierten Kontext gebildet, der während des Trainings verfügbar ist, während das eingesetzte Modell sein Vertrauen nur mit den zur Laufzeit verfügbaren Informationen angeben muss. Wir formalisieren diese Perspektive theoretisch und zeigen, dass der lehrer-konditionierte Erfolg im Allgemeinen kein valides Ziel für das Laufzeit-Konfidenzniveau darstellt und dass hilfreicher privilegierter Kontext einen Entropie-Kollaps und eine systematische Optimismus-Verzerrung verursacht. Um dies zu beheben, schlagen wir ein kalibrationsbewusstes OPD-Framework, CaOPD, vor, das die empirische Konfidenz aus Modell-Rollouts schätzt, die selbstberichtete Konfidenz durch dieses auf den Schüler gegründete Ziel ersetzt und die überarbeitete Antwort durch die gleiche Self-Distillation-Pipeline distilliert. Experimente mit verschiedenen Modellen und Domänen zeigen, dass CaOPD eine pareto-optimale Kalibrierung erreicht und gleichzeitig wettbewerbsfähige Fähigkeiten beibehält, sowie robust unter Out-of-Distribution- und kontinuierlichem Lernen generalisiert. Unsere Ergebnisse unterstreichen, dass die Fähigkeitsdistillation keine kalibrierte Konfidenz impliziert und dass Konfidenz als wesentliches Ziel im Nachtraining behandelt werden sollte. Code: https://github.com/SalesforceAIResearch/CaOPD
Vision-Language Models zeigen bemerkenswerte Fähigkeiten, haben aber oft Schwierigkeiten mit kompositionellem Reasoning und weisen Schwachstellen in Bezug auf Wortstellung und Attributbindung auf. Diese Einschränkung ergibt sich aus einer Knappheit an informativen Beispielen, die benötigt werden, um subtile semantische Variationen während des kontrastiven Pretrainings zu differenzieren. Obwohl Hard Negative Mining einen vielversprechenden Ansatz bietet, fehlen bestehenden Methoden explizite Mechanismen, um festzulegen, welche linguistischen Elemente modifiziert werden sollen. Anstatt generative Architekturen zu entwickeln, identifiziert diese Studie lexikalische Konkretheit als grundlegenden Determinanten für die Wirksamkeit negativer Beispiele. Die Modifikation hochkonkreter Begriffe erzeugt ausgeprägtere strukturelle und visuelle Diskrepanzen und liefert damit ein deutlich stärkeres Lernsignal. Aufbauend auf diesem Prinzip wird ConcretePlant vorgeschlagen, um wahrnehmungsbasierte Konzepte systematisch zu isolieren und zu manipulieren. Analysen der InfoNCE-Funktion zeigen zudem ein schwerwiegendes Gradientenungleichgewicht, bei dem leicht unterscheidbare Paare den Optimierungsprozess unverhältnismäßig dominieren und die verfügbare Bandbreite für nuanciertes Lernen einschränken. Um diese Degradierung zu beheben, wird der Cement-Loss mit einem margenbasierten Ansatz formuliert. Indem psycholinguistische Scores mit dem Schwierigkeitsgrad von Beispielen korreliert werden, kalibriert diese Zielgröße die Bestrafung für einzelne Trainingspaare dynamisch. Umfassende Evaluationen untermauern diese theoretischen Annahmen. Das integrierte Framework, bezeichnet als Slipform, erreicht state-of-the-art Genauigkeit in diversen kompositionellen Evaluierungsbenchmarks, allgemeinem cross-modalem Retrieval sowie linearer Klassifikation mit Einzel- und Mehrfachlabels.
Computer-Use-Agents haben bei realen Aufgaben wie Webbrowsing, Desktop-Automatisierung und Software-Interaktion rasche Fortschritte erzielt und in einigen Fällen sogar die menschliche Leistung übertroffen. Doch selbst wenn Aufgabe und Modell unverändert bleiben, kann ein Agent, der einmal erfolgreich war, bei einer wiederholten Ausführung derselben Aufgabe versagen. Dies wirft eine grundlegende Frage auf: Wenn ein Agent eine Aufgabe einmal bewältigen kann, was hindert ihn daran, dies zuverlässig zu tun? In dieser Arbeit untersuchen wir die Ursachen für mangelnde Zuverlässigkeit bei Computer-Use-Agents anhand von drei Faktoren: Stochastizität während der Ausführung, Mehrdeutigkeit in der Aufgabenspezifikation und Variabilität im Agentenverhalten. Wir analysieren diese Faktoren in OSWorld durch wiederholte Ausführungen derselben Aufgabe gepaart mit statistischen Tests, die aufgabenbezogene Veränderungen über verschiedene Einstellungen hinweg erfassen. Unsere Analyse zeigt, dass die Zuverlässigkeit sowohl davon abhängt, wie Aufgaben spezifiziert werden, als auch davon, wie sich das Agentenverhalten über verschiedene Ausführungen hinweg verändert. Diese Ergebnisse legen nahe, dass Agenten unter wiederholter Ausführung evaluiert werden müssen, dass Agenten Mehrdeutigkeiten in Aufgaben durch Interaktion klären können sollten und dass Strategien zu bevorzugen sind, die über mehrere Durchläufe hinweg stabil bleiben.
Das mathematische Problemlösen bleibt eine anspruchsvolle Prüfung des logischen Denkvermögens für große Sprach- und multimodale Modelle, doch bestehende Benchmarks sind in Bezug auf Umfang, Sprachabdeckung und Aufgabenvielfalt begrenzt. Wir stellen MathNet vor, einen hochwertigen, umfangreichen, multimodalen und mehrsprachigen Datensatz von Olympiade-tauglichen Mathematikproblemen zusammen mit einem Benchmark zur Bewertung mathematischen Denkens in generativen Modellen und mathematischer Retrieval-Fähigkeiten in embedding-basierten Systemen. MathNet umfasst 47 Länder, 17 Sprachen und zwei Jahrzehnte von Wettbewerben und besteht aus 30.676 von Experten verfassten Problemen mit Lösungen aus verschiedenen Domänen. Zusätzlich zum Kerndatensatz erstellen wir einen Retrieval-Benchmark, der von menschlichen Experten kuratierte Paare mathematisch äquivalenter und strukturell ähnlicher Probleme umfasst. MathNet unterstützt drei Aufgaben: (i) Problemlösung, (ii) mathematikbasiertes Retrieval und (iii) retrieval-verstärktes Problemlösen. Experimentelle Ergebnisse zeigen, dass selbst modernste Reasoning-Modelle (78,4 % für Gemini-3.1-Pro und 69,3 % für GPT-5) weiterhin vor Herausforderungen stehen, während Embedding-Modelle Schwierigkeiten haben, äquivalente Probleme zu finden. Wir zeigen ferner, dass die Leistung von Retrieval-Augmented Generation stark von der Retrieval-Qualität abhängt; so erzielt DeepSeek-V3.2-Speciale beispielsweise Gewinne von bis zu 12 % und erreicht die höchsten Werte im Benchmark. MathNet bietet den größten hochwertigen Olympiade-Datensatz zusammen mit dem ersten Benchmark zur Bewertung des Retrievals mathematischer Probleme. Wir veröffentlichen sowohl den Datensatz als auch den Benchmark öffentlich unter https://mathnet.mit.edu.
Aktuelle End-to-End-Sprachdialogmodelle ermöglichen eine natürliche Interaktion. Allerdings stoßen Modelle, die sich ausschließlich auf Konversationsfähigkeiten stützen, oft an ihre Grenzen, wenn die Nutzeranforderungen zunehmend komplexer werden. Die Integration agentenhafter Fähigkeiten ist daher unerlässlich: Durch die Nutzung von Werkzeugen können diese Modelle ihre Wissensgrenzen erweitern und reale Aufgaben besser lösen. Dennoch konzentriert sich die bestehende Forschung weitgehend auf die grundlegende Wahrnehmung und Generierung, während die Erforschung solcher werkzeuggestützten Erweiterungen vergleichsweise begrenzt ist. Um diese Lücke zu schließen, stellen wir VoxMind vor, einen integrierten Rahmen, der entwickelt wurde, um End-to-End-Sprachdialogmodelle mit umfassenden agentenhaften Fähigkeiten auszustatten. Unter Nutzung unseres kuratierten 470-Stunden AgentChat-Datensatzes integrieren wir einen "Think-before-Speak"-Mechanismus, der es dem Modell ermöglicht, strukturiertes Schlussfolgern als kritische Voraussetzung für die Planung und Antwortgenerierung zu internalisieren. Darüber hinaus schlagen wir, um Latenzengpässe durch die Integration umfangreicher Werkzeuge zu mildern, eine Multi-Agent Dynamic Tool Management-Architektur vor. Durch die asynchrone Delegierung von Abfragetasks an einen Hilfsagenten, der mit der Denkrichtung des Hauptmodells abgestimmt ist, entkoppelt dieses System die Inferenzlatenz effektiv von der Größe des Werkzeugsatzes. Experimentelle Ergebnisse bestätigen, dass VoxMind signifikante Verbesserungen in der Agentenleistung erzielt: Im Vergleich zu starken Baselines steigt die Aufgabenabschlussrate von 34,88 % auf 74,57 % und übertrifft dabei Gemini-2.5-Pro bei Sprachagentenaufgaben, während die allgemeine Gesprächsqualität erhalten bleibt. Der Quellcode und die zugehörigen Daten sind öffentlich unter https://github.com/MM-Speech/VoxMind verfügbar.
Langfristig agierende Large Language Model (LLM)-Agenten sind grundlegend durch den Kontext begrenzt. Mit zunehmender Interaktionsdauer häufen sich Werkzeugbeschreibungen, abgerufene Erinnerungen und unverarbeitete Umgebungsrückmeldungen an und verdrängen die für Entscheidungsfindung benötigten Informationen. Gleichzeitig geht wertvolle, aus Aufgaben gewonnene Erfahrung häufig über verschiedene Episoden hinweg verloren. Wir vertreten die Auffassung, dass die langfristige Leistung nicht von der Kontextlänge bestimmt wird, sondern davon, wie viel entscheidungsrelevante Information innerhalb eines begrenzten Kontextbudgets erhalten bleibt. Wir stellen GenericAgent (GA) vor, ein universelles, sich selbst weiterentwickelndes LLM-Agentensystem, das auf einem einzigen Prinzip aufbaut: der Maximierung der Kontextinformationsdichte. GA setzt dies durch vier eng verbundene Komponenten um: einen minimalen atomaren Werkzeugsatz, der die Schnittstelle einfach hält, einen hierarchischen On-Demand-Speicher, der standardmäßig nur eine komprimierte Überblicksdarstellung zeigt, einen Selbstentwicklungsmechanismus, der verifizierte Vergangenheitstrajektorien in wiederverwendbare Standardarbeitsanweisungen (SOPs) und ausführbaren Code umwandelt, sowie eine Kontextkürzungs- und Komprimierungsschicht, die die Informationsdichte während langer Ausführungen aufrechterhält. Bei Aufgabenabschluss, Werkzeugeffizienz, Speichereffektivität, Selbstentwicklung und Web-Browsing übertrifft GA durchgängig führende Agentensysteme, verbraucht dabei deutlich weniger Tokens und Interaktionen und entwickelt sich kontinuierlich weiter. Projekt: https://github.com/lsdefine/GenericAgent
Aktuelle multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten im Verständnis von Kurzvideos demonstriert, doch die Übersetzung langformatiger narrativer Videos in detaillierte, zeitlich verankerte Drehbücher bleibt eine große Herausforderung. Diese Arbeit stellt die neuartige Video-zu-Drehbuch (V2S) Aufgabe vor, die darauf abzielt, hierarchische, szenenweise Drehbücher zu generieren, die Charakteraktionen, Dialoge, Ausdrücke und Audiohinweise umfassen. Um dies zu ermöglichen, erstellen wir einen erstmalig menschlich annotierten Benchmark und schlagen ein zeitlich bewusstes hierarchisches Evaluierungsframework vor. Darüber hinaus präsentieren wir OmniScript, ein 8-Milliarden-Parameter omni-modales (audiovisuelles) Sprachmodell, das für das langformatige narrative Verständnis konzipiert ist. OmniScript wird über eine progressive Pipeline trainiert, die Chain-of-Thought Supervised Fine-Tuning für Plot- und Charakterlogik nutzt, gefolgt von bestärkendem Lernen mit zeitlich segmentierten Belohnungen. Umfangreiche Experimente zeigen, dass OmniScript trotz seiner Parameter-Effizienz größere Open-Source-Modelle signifikant übertrifft und eine Leistung erreicht, die mit state-of-the-art proprietären Modellen, einschließlich Gemini 3-Pro, in sowohl zeitlicher Lokalisierung als auch semantischer Genauigkeit über mehrere Felder hinweg vergleichbar ist.
Es wird angenommen, dass LLM-basierte Agenten Umgebungsbeobachtungen in ihre Schlussfolgerungen integrierieren: Die Entdeckung hochrelevanter, aber unerwarteter Informationen sollte natürlicherweise dazu führen, dass ein Modell seine eigenen Entdeckungen nutzt. Wir zeigen, dass diese Annahme für aktuelle LLM-basierte Agenten falsch ist, die Schwierigkeiten haben, auf unerwartete Informationen zu reflektieren oder zu reagieren. In drei Benchmarks (Terminal-Bench, SWE-Bench, AppWorld) injizieren wir vollständige Aufgabenlösungen in die Agentenumgebungen, um einem Modell die Lösung einer Aufgabe gezielt zugänglich zu machen. Während Agenten diese Lösungen auf Terminal-Bench in 79–81 % der Durchläufe entdecken, interagieren sie mit diesen oder nutzen sie nur in 37–50 % der Fälle aus. Diese Kluft ist in AppWorld am deutlichsten: Agenten sehen in über 90 % der Versuche eine Dokumentation, die besagt, dass ein Befehl „die vollständige Lösung für diese Aufgabe zurückgibt“, nutzen dies aber in weniger als 7 % der Versuche aus. Wir zeigen, dass Agenten das fehlt, was wir als *Environmental Curiosity* (Umgebungsneugier) bezeichnen: die Fähigkeit, unerwartete, aber relevante Beobachtungen zu erkennen und als Reaktion auf Umgebungsreize zu untersuchen. Wir identifizieren drei Hauptfaktoren, die die Umgebungsneugier beeinflussen: die verfügbaren Werkzeuge im Agenten-Scaffold, die Rechenkapazität zur Laufzeit (Inferenz) und die Verteilung der Trainingsdaten. Unsere Ergebnisse zeigen, dass Konfigurationen, die die Neugier maximieren, auch die beste Leistung in den unveränderten Benchmarks erzielen. Doch selbst gemeinsam optimierte Agenten ignorieren in der Mehrheit der Versuche entdeckte Lösungen: Aktuelle Agenten nutzen die Umgebung, um erwartete Informationen abzurufen, aber nicht, um ihre Strategie zu überarbeiten oder nützliche Reize maximal auszubeuten.
Die visuelle Dekodierung aus Hirnsignalen stellt eine zentrale Herausforderung an der Schnittstelle von Computer Vision und Neurowissenschaften dar und erfordert Methoden, die neuronale Repräsentationen mit computergestützten Modellen des Sehens verknüpfen. Ein übergeordnetes Ziel der Forschung ist die Entwicklung generalisierbarer, subjektübergreifender Modelle. Ein Haupthindernis hierfür ist die erhebliche Variabilität neuronaler Repräsentationen zwischen Individuen, was bisher die Erstellung individuell angepasster Modelle oder separates Fine-Tuning für jede Versuchsperson erforderte. Um diese Herausforderung zu bewältigen, stellen wir einen meta-optimierten Ansatz zur semantischen visuellen Dekodierung aus fMRT-Daten vor, der sich ohne jegliches Fine-Tuning auf neue Probanden generalisieren lässt. Unser Modell leitet lediglich anhand einer kleinen Anzahl von Bild-Hirnaktivierungs-Beispielen eines neuen Individuums dessen einzigartige neuronale Kodierungsmuster ab, um eine robuste und effiziente visuelle Dekodierung zu ermöglichen. Unser Ansatz ist explizit für In-Context-Learning des Kodierungsmodells des neuen Probanden optimiert und führt die Dekodierung durch hierarchische Inferenz durch Invertierung des Encoders durch. Zunächst schätzen wir für mehrere Hirnregionen die visuellen Encoder-Parameter pro Voxel, indem wir einen Kontext über mehrere Stimuli und Reaktionen konstruieren. Zweitens erstellen wir einen Kontext, der Encoder-Parameter und Antwortwerte über mehrere Voxel umfasst, um eine aggregierte funktionale Invertierung durchzuführen. Wir demonstrieren eine starke Generalisierung über Probanden und Scanner hinweg mit verschiedenen visuellen Architekturen, ohne Neutraining oder Fine-Tuning. Darüber hinaus benötigt unser Ansatz weder anatomische Ausrichtung noch Stimulus-Überlappung. Diese Arbeit stellt einen entscheidenden Schritt in Richtung eines generalisierbaren Foundation-Modells für die nicht-invasive Hirndekodierung dar.
Die meisten Agenten heutzutage „entwickeln sich selbst“ weiter, indem sie von Menschen definierte Belohnungen und Regeln befolgen. Dieser Prozess bleibt jedoch grundsätzlich von externer Aufsicht abhängig; ohne menschliche Anleitung kommt die Evolution zum Stillstand. In dieser Arbeit trainieren wir Agenten darauf, eine intrinsische Meta-Evolutionsfähigkeit zu besitzen, um spontan Kenntnisse über unbekannte Umgebungen *vor* der Aufgabendurchführung zu erlernen. Um diese Fähigkeit zu vermitteln, entwickeln wir einen ergebnisbasierten Belohnungsmechanismus, der misst, inwieweit das selbstgenerierte Weltwissen eines Agenten seine Erfolgsquote bei nachgelagerten Aufgaben verbessert. Dieses Belohnungssignal wird ausschließlich während der Trainingsphase verwendet, um dem Modell beizubringen, wie es effektiv explorieren und zusammenfassen kann. Zum Inferenzzeitpunkt benötigt der Agent keine externen Belohnungen oder menschlichen Anweisungen mehr. Er führt spontan eine native Selbstevolution durch, um sich mithilfe seiner internen Parameter an unbekannte Umgebungen anzupassen. Bei der Anwendung auf Qwen3-30B und Seed-OSS-36B führt dieser Wechsel zur nativen Evolution zu einer Leistungssteigerung von 20 % auf WebVoyager und WebWalker. Am bemerkenswertesten ist, dass das generierte Weltwissen sogar einem kompakten Qwen3-14B-Modell ermöglicht, den ununterstützten Gemini-2.5-Flash zu übertreffen – was ein neues Paradigma für wahrhaft sich entwickelnde Agenten etabliert.
Spiele bieten ein überzeugendes Paradigma für die Entwicklung allgemeiner Denkfähigkeiten in Sprachmodellen, da sie natürlicherweise strategische Planung, probabilistische Inferenz und adaptive Entscheidungsfindung erfordern. Bisherige Self-Play-Ansätze stützen sich jedoch ausschließlich auf endgültige Spielergebnisse und bieten keinen Mechanismus, um übertragbare Denkmuster von spielspezifischen Heuristiken zu unterscheiden. Wir stellen STRATAGEM vor, das zwei grundlegende Hindernisse für den Transfer von Denkfähigkeiten adressiert: Domänenspezifität, bei der gelernte Muster in der Spielsemantik verankert bleiben, und kontextuelle Stasis, bei der statische Spielkontexte keine fortschreitende Denkentwicklung fördern. STRATAGEM verstärkt selektiv Trajektorien, die abstraktes, domänenunabhängiges Denken zeigen, durch einen Transferierbarkeitskoeffizienten für Reasoning, während es adaptive Denkentwicklung durch eine Belohnung für Reasoning-Evolution anregt. Experimente mit Benchmarks für mathematisches Denken, allgemeines Reasoning und Code-Generierung zeigen substantielle Verbesserungen, mit besonders deutlichen Gewinnen bei wettbewerbsorientierter Mathematik, wo mehrstufiges Denken entscheidend ist. Ablationsstudien und humane Evaluation bestätigen, dass beide Komponenten zu übertragbarem Reasoning beitragen.
Multimodale LLMs können numerische Inhalte über verschiedene Modalitäten hinweg genau wahrnehmen, versagen jedoch bei der exakten Multiplikation mehrstelliger Zahlen, wenn dasselbe zugrundeliegende Rechenproblem in Form von Ziffern, Zahlwörtern, Bildern oder Audiodaten präsentiert wird. Da bestehende Benchmarks oft systematisch gepaarte Instanzen über Modalitäten hinweg vermissen lassen, ist es nach wie vor schwierig, genuine arithmetische Grenzen innerhalb von und zwischen Modellfamilien zu vergleichen. Daher führen wir einen kontrollierten multimodalen Multiplikations-Benchmark ein, der Faktoren wie Stellenlänge, Stellen-Sparsity, Darstellungsform (z.B. Ziffern vs. Zahlwörter) und Modalität (Text, gerenderte Bilder, Audio) faktoriell variiert, mit gepaarten Instanzen aus einem reproduzierbaren Generator. Wir definieren zudem die arithmetische Last, C, als Produkt der Gesamt- und der Nicht-Null-Stellenanzahl – ein kompakter, mechanistisch motivierter Proxy für die Anzahl der Operationen. In allen Evaluationen fällt die Genauigkeit stark ab, wenn C wächst, und erreicht oft Werte nahe Null bei C > 100. Tatsächlich bleibt C prädiktiv für die Leistung über Modalitäten und Modelle hinweg, mit R-Quadrat-Werten oft > 0,5, die an die Werte komplexerer Maße der arithmetischen Last heranreichen, welche die Anzahl der intermediären Rechenschritte zählen. Eine separate Zerlegung in Wahrnehmungs- versus Berechnungskomponente zeigt, dass der multimodale Leistungsabfall primär rechnerischer und nicht wahrnehmungsbedingter Natur ist: Bei Tests mit angeglichener Wahrnehmung liegen die Modelle über alle Modalitäten hinweg nahe der Perfektion (> 99 %), selbst wenn die Multiplikationsgenauigkeit einbricht. Über die Messung, wann Modelle versagen, hinaus fragen wir, welche Verfahren sie präferiert anwenden. Wir führen einen „Forced-Completion“-Loss-Probe ein, der heuristik-spezifische Reasoning-Präfixe bewertet – einschließlich schriftlicher Multiplikation, distributiver Zerlegung sowie Runden/Kompensation. Hierbei wird die Zerlegung sowohl in Text- als auch in Bildmodalitäten bevorzugt; heuristik-spezifische LoRA-Adapter erzeugen nahezu orthogonale Updates, verschlechtern jedoch die Genauigkeit, was darauf hindeutet, dass das Basismodell einen gut abgestimmten internen Router beibehält.
Wir stellen SemanticQA vor, eine Evaluierungssuite zur Bewertung von Sprachmodellen (LMs) in Aufgaben der semantischen Phrasenverarbeitung. Die Benchmark konsolidiert bestehende Ressourcen für Mehrworteinheiten (MwE) und strukturiert sie zu einer einheitlichen Testumgebung um. Sie umfasst sowohl allgemeine lexikalische Phänomene, wie lexikalische Kollokationen, als auch drei feinkörnige Kategorien: idiomatische Ausdrücke, Nominalkomposita und verbale Konstruktionen. Mit SemanticQA bewerten wir LMs verschiedener Architekturen und Größenordnungen in Extraktions-, Klassifikations- und Interpretationsaufgaben sowie sequenziellen Aufgabenkompositionen. Wir zeigen erhebliche Leistungsunterschiede auf, insbesondere bei Aufgaben, die semantisches Schlussfolgern erfordern, was Unterschiede in der Schlussfolgereffizienz und im semantischen Verständnis von LMs verdeutlicht und Erkenntnisse für die Entwicklung von LMs mit besserem Verständnis nicht-trivialer semantischer Phrasen liefert. Die Evaluierungswerkzeuge und Daten von SemanticQA sind unter https://github.com/jacklanda/SemanticQA verfügbar.
Im Gegensatz zur Code-Vervollständigung erfordert das Debugging die Lokalisierung von Fehlern und das Anwenden gezielter Änderungen. Wir beobachten, dass fortschrittliche LLMs beim Debugging häufig korrekte, aber überarbeitete Lösungen regenerieren. Um zu bewerten, wie weit LLMs vom präzisen Debugging entfernt sind, führen wir das Precise Debugging Benchmark (PDB)-Framework ein, das automatisch jeden Coding-Datensatz in einen Debugging-Benchmark mit präzisionsbewusster Auswertung umwandelt. PDB generiert fehlerhafte Programme, indem verifizierte atomare Fehler synthetisiert und zu Multi-Bug-Programmen kombiniert werden. Wir definieren zwei neuartige Metriken: Edit-Level-Precision (Änderungspräzision) und Bug-Level-Recall (Fehlerabdeckung), die messen, wie viele notwendige Änderungen vorgenommen werden und wie viele Fehler behoben werden. Wir veröffentlichen zwei Bewertungs-Benchmarks: PDB-Single-Hard für Einzeilenfehler und PDB-Multi für Mehrzeilenfehler. Experimente zeigen, dass Spitzenmodelle wie GPT-5.1-Codex und DeepSeek-V3.2-Thinking zwar Unit-Test-Bestandenquoten von über 76% erreichen, aber eine Präzision von unter 45% aufweisen, selbst wenn sie explizit angewiesen werden, minimales Debugging durchzuführen. Abschließend zeigen wir, dass iterative und agentenbasierte Debugging-Strategien die Präzision oder Abdeckung nicht wesentlich verbessern, was die Notwendigkeit unterstreicht, die Post-Training-Pipelines für Codierungsmodelle zu überdenken.
Native Omni-modale Large Language Models (OLLMs) haben sich von Pipeline-Architekturen zu einheitlichen Repräsentationsräumen weiterentwickelt. Diese native Integration führt jedoch zu einem kritischen, aber bisher wenig erforschten Phänomen: der Modalitätspräferenz. Um diese Lücke zu schließen, quantifizieren wir zunächst systematisch die Modalitätspräferenz von OLLMs anhand eines neu erstellten konfliktbasierten Benchmarks und der Metrik der Modalitätsauswahlrate. Unsere Auswertung von zehn repräsentativen OLLMs zeigt einen bemerkenswerten Paradigmenwechsel: Im Gegensatz zur „Text-Dominanz“ traditioneller VLMs weisen die meisten OLLMs eine ausgeprägte visuelle Präferenz auf. Um die zugrundeliegenden Mechanismen besser zu verstehen, führen wir Layer-weite Analysen durch und zeigen, dass diese Modalitätspräferenz nicht statisch ist, sondern sich progressiv in den mittleren bis späten Schichten herausbildet. Aufbauend auf diesen Erkenntnissen nutzen wir diese internen Signale zur Diagnose cross-modaler Halluzinationen und erzielen wettbewerbsfähige Leistungen in drei nachgelagerten multimodalen Benchmarks ohne aufgabenspezifische Daten. Unsere Arbeit liefert sowohl ein mechanistisches Verständnis als auch ein praktisches Werkzeug für die Entwicklung vertrauenswürdigerer OLLMs. Unser Code und zugehörige Ressourcen sind öffentlich verfügbar unter: https://github.com/icip-cas/OmniPreference.
Große Sprachmodelle (LLMs) werden intensiv für forschungsintensive Aufgaben untersuchtigt, doch Ressourcen zum Testen, ob sie wissenschaftliche Schlussfolgerungen aus strukturierten biomedizinischen Evidenzen ableiten können, bleiben begrenzt. Wir stellen MedConclusion vor, einen umfangreichen Datensatz mit 5,7 Millionen strukturierten Abstracts aus PubMed zur biomedizinischen Schlussfolgerungsgenerierung. Jeder Eintrag kombiniert die Abschnitte eines Abstracts ohne Schlussfolgerung mit der ursprünglichen, vom Autor verfassten Konklusion und bietet so eine natürlich vorkommende Grundlage für Evidenz-zu-Schlussfolgerungs-Argumentation. MedConclusion umfasst auch Metadaten auf Zeitschriftenebene wie biomedizinische Kategorie und SJR, was Subgruppenanalysen über biomedizinische Domänen hinweg ermöglicht. In einer ersten Studie evaluieren wir diverse LLMs unter Prompting-Einstellungen für Schlussfolgerungen und Zusammenfassungen und bewerten die Ausgaben sowohl mit referenzbasierten Metriken als auch mittels LLM-als-Gutachter. Wir stellen fest, dass das Verfassen von Schlussfolgerungen sich verhaltensmäßig vom Schreiben von Zusammenfassungen unterscheidet, starke Modelle unter aktuellen automatischen Metriken eng beieinander liegen und die Identität des Gutachters die absoluten Bewertungen erheblich verschieben kann. MedConclusion stellt eine wiederverwendbare Datenressource zur Erforschung wissenschaftlicher Evidenz-zu-Schlussfolgerungs-Argumentation bereit. Unser Code und unsere Daten sind verfügbar unter: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Große Sprachmodelle (LLMs) haben in verschiedenen Bereichen außergewöhnliche Leistungen gezeigt, werden jedoch zunehmend durch hohe Inferenzlatenz eingeschränkt. Early Exit hat sich als vielversprechende Lösung zur Beschleunigung der Inferenz erwiesen, indem redundante Schichten dynamisch umgangen werden. In decoder-only-Architekturen wird die Effizienz von Early Exit jedoch stark durch das KV-Cache-Absence-Problem eingeschränkt, bei dem übersprungene Schichten die notwendigen historischen Zustände für nachfolgende Token nicht bereitstellen können. Bestehende Lösungen wie Neubrechnung oder Maskierung führen entweder zu erheblichem Latenzoverhead oder verursachen starken Präzisionsverlust und schließen so die Lücke zwischen theoretischer Schichtenreduzierung und praktischer Beschleunigung der Echtzeit nicht. In diesem Artikel stellen wir River-LLM vor, ein trainingsfreies Framework, das nahtloses token-level Early Exit ermöglicht. River-LLM führt einen leichtgewichtigen KV-Shared Exit River ein, der es ermöglicht, dass der fehlende KV-Cache des Backbones während des Exit-Prozesses natürlich generiert und erhalten wird, wodurch kostspielige Wiederherstellungsoperationen entfallen. Darüber hinaus nutzen wir die Ähnlichkeit von Zustandsübergängen innerhalb von Decoder-Blöcken, um kumulative KV-Fehler vorherzusagen und präzise Exit-Entscheidungen zu steuern. Umfangreiche Experimente zu mathematischem Reasoning und Code-Generierung zeigen, dass River-LLM eine 1,71- bis 2,16-fache praktische Beschleunigung erreicht, während eine hohe Generierungsqualität erhalten bleibt.
Die Genomtechnik hat eine bemerkenswerte Präzision auf Sequenzebene erreicht, doch die Vorhersage des transkriptomischen Zustands, den eine Zelle nach einer Perturbation einnehmen wird, bleibt ein ungelöstes Problem. Einzelzell-CRISPR-Screens messen, wie weit sich Zellen von ihrem ungestörten Zustand entfernen, doch diese Effektstärke ignoriert eine grundlegende Frage: Bewegen sich die Zellen gemeinsam? Zwei Perturbationen mit identischer Stärke können qualitativ unterschiedliche Ergebnisse hervorbringen, wenn eine die Zellen kohärent entlang einer gemeinsamen Trajektorie treibt, während die andere sie im Expressionsraum verstreut. Wir führen eine geometrische Stabilitätsmetrik namens Shesha ein, welche die Richtungskohärenz von Einzelzell-Perturbationsantworten als mittlere Kosinus-Ähnlichkeit zwischen den Verschiebungsvektoren einzelner Zellen und der mittleren Perturbationsrichtung quantifiziert. Über fünf CRISPR-Datensätze hinweg (mehr als 2.200 Perturbationen, umfassend CRISPRa, CRISPRi und gepoolte Screens) korreliert die Stabilität stark mit der Effektstärke (Spearman ρ=0,75-0,97), mit einer kalibrierten, datensatzübergreifenden Korrelation von 0,97. Entscheidend ist, dass diskordante Fälle, in denen sich die beiden Metriken entkoppeln, die regulatorische Architektur aufdecken: Pleiotrope Masterregulatoren wie CEBPA und GATA1 zahlen eine "geometrische Steuer", indem sie große, aber inkohärente Verschiebungen produzieren, während linien-spezifische Faktoren wie KLF1 streng koordinierte Antworten hervorbringen. Nach Kontrolle für die Effektstärke ist die geometrische Instabilität unabhängig mit einer erhöhten Chaperon-Aktivierung assoziiert (HSPA5/BiP; ρ_partial=-0,34 bzw. -0,21 über die Datensätze hinweg), und der Quadrant mit hoher Stabilität und hohem Stress ist systematisch verarmt. Die Stärke-Stabilitäts-Beziehung besteht in scGPT-Foundation-Model-Embeddings fort, was bestätigt, dass es sich um eine Eigenschaft des biologischen Zustandsraums und nicht um eine lineare Projektion handelt. Die Perturbationsstabilität bietet eine komplementäre Achse für die Hit-Priorisierung in Screens, die phänotypische Qualitätskontrolle in der Zellproduktion und die Bewertung von *in-silico*-Perturbationsvorhersagen.
Die Konvergenz von Large Language Models und Agenten katalysiert ein neues Zeitalter der wissenschaftlichen Entdeckung: Agentic Science. Während die wissenschaftliche Methode inhärent iterativ ist, sind bestehende Agenten-Frameworks überwiegend statisch, eng fokussiert und nicht in der Lage, aus Versuch und Irrtum zu lernen. Um diese Lücke zu schließen, stellen wir EvoMaster vor, ein fundamentales, sich entwickelndes Agenten-Framework, das speziell für Agentic Science at Scale entwickelt wurde. Angetrieben vom Kernprinzip der kontinuierlichen Selbstevolution befähigt EvoMaster Agenten dazu, Hypothesen iterativ zu verfeinern, Selbstkritik zu üben und Wissen über experimentelle Zyklen hinweg progressiv anzusammeln – und spiegelt so getreu die menschliche wissenschaftliche Forschung wider. Entscheidend ist, dass EvoMaster als domänenunabhängige Basisplattform außerordentlich einfach skaliert werden kann. Entwickler können damit hochleistungsfähige, sich selbst weiterentwickelnde wissenschaftliche Agenten für beliebige Disziplinen in etwa 100 Codezeilen erstellen und einsetzen. Aufbauend auf EvoMaster haben wir das SciMaster-Ökosystem in Bereichen wie maschinellem Lernen, Physik und allgemeiner Wissenschaft etabliert. Evaluationen auf vier autoritativen Benchmarks (Humanity's Last Exam, MLE-Bench Lite, BrowseComp und FrontierScience) zeigen, dass EvoMaster state-of-the-art Ergebnisse von 41,1 %, 75,8 %, 73,3 % bzw. 53,3 % erzielt. Es übertrifft den generalistischen Baseline-Ansatz OpenClaw durchgängig mit relativen Verbesserungen von +159 % bis +316 % und validiert robust seine Wirksamkeit und Allgemeingültigkeit als das führende fundamentale Framework für die nächste Generation autonomer wissenschaftlicher Entdeckung. EvoMaster ist verfügbar unter https://github.com/sjtu-sai-agents/EvoMaster.
Jüngste Fortschritte in der semantischen Korrespondenz beruhen auf Dual-Encoder-Architekturen, die DINOv2 mit Diffusions-Backbones kombinieren. Obwohl diese Milliard-Parameter-Modelle präzise sind, generalisieren sie schlecht über trainierte Keypoints hinaus, was eine Lücke zwischen Benchmark-Leistung und praktischer Anwendbarkeit offenbart, da abgefragte Punkte selten den während des Trainings gesehenen entsprechen. Aufbauend auf DINOv2 stellen wir MARCO vor, ein vereinheitlichtes Modell für generalisierbare Korrespondenz, das durch einen neuartigen Trainingsrahmen angetrieben wird und sowohl feinkörnige Lokalisierung als auch semantische Generalisierung verbessert. Durch die Kopplung eines Coarse-to-fine-Ziels, das die räumliche Präzision verfeinert, mit einem Self-Distillation-Framework, das die spärliche Überwachung über annotierte Regionen hinaus erweitert, verwandelt unser Ansatz eine Handvoll Keypoints in dichte, semantisch kohärente Korrespondenzen. MARCO setzt neue Maßstäbe auf SPair-71k, AP-10K und PF-PASCAL, mit Gewinnen, die bei feinkörnigen Lokalisierungsschwellen verstärkt auftreten (+8,9 PCK@0.01), der stärksten Generalisierung für ungesehene Keypoints (+5,1, SPair-U) und Kategorien (+4,7, MP-100), bei gleichzeitig 3x kleinerer Größe und 10x schnellerer Geschwindigkeit als diffusionsbasierte Ansätze. Der Code ist verfügbar unter https://github.com/visinf/MARCO.
Nutzer lassen häufig wesentliche Details in ihren Anfragen an LLM-basierte Agenten weg, was zu unzureichend spezifizierten Eingaben für die Werkzeugnutzung führt. Dies stellt eine grundlegende Herausforderung für werkzeuggestützte Agenten dar, da die API-Ausführung in der Regel vollständige Argumente erfordert, was die Notwendigkeit personalisierter Werkzeugaufrufe unterstreicht. Um dieses Problem zu untersuchen, stellen wir MPT vor, einen Benchmark mit 265 Multi-Session-Dialogen, die drei Herausforderungen abdecken: Präferenzabruf, Präferenzableitung und Präferenztransfer. Wir schlagen zudem PRefine vor, eine speichererweiterte Methode zur Testzeit, die Nutzerpräferenzen als sich entwickelnde Hypothesen repräsentiert. Durch eine Generate-Verify-Refine-Schleife extrahiert sie wiederverwendbare Constraints aus dem Verlauf und verbessert die Genauigkeit von Werkzeugaufrufen, wobei nur 1,24% der Tokens benötigt werden, die bei der Prompting mit vollständigem Verlauf erforderlich sind. Diese Ergebnisse zeigen, dass robuste Personalisierung in agentenbasierten Systemen von einem Gedächtnis abhängt, das die Gründe hinter Nutzerentscheidungen erfasst, nicht nur die Entscheidungen selbst.
Unterhaltungen zur emotionalen Unterstützung (ESC) zielen darauf ab, Personen in emotionalen Notlagen durch die Erzeugung einfühlsamer und unterstützender Dialoge zu helfen. Während frühere Arbeiten typischerweise davon ausgehen, dass jeder Unterstützer-Beitrag einer einzelnen Strategie entspricht, umfasst unterstützende Kommunikation in der Realität oft mehrere Strategien innerhalb einer einzelnen Äußerung. In diesem Beitrag betrachten wir die ESC-Aufgabe neu, indem wir sie als Äußerungsgenerierung mit multiplen Strategien formulieren, wobei jede Äußerung ein oder mehrere Strategie-Reaktions-Paare enthalten kann. Wir schlagen zwei Generierungsmethoden vor: All-in-One, das alle Strategie-Reaktions-Paare in einem einzigen Dekodierungsschritt vorhersagt, und One-by-One, das iterativ Strategie-Reaktions-Paare bis zur Vollendung erzeugt. Beide Methoden werden durch kognitive Verarbeitung verstärkt, die durch bestärkendes Lernen gesteuert wird, um die Strategieauswahl und Antwortzusammensetzung zu verbessern. Wir evaluieren unsere Modelle auf dem ESConv-Datensatz unter sowohl Äußerungs- als auch Dialogebene. Experimentelle Ergebnisse zeigen, dass unsere Methoden mehrstrategige Äußerungen effektiv modellieren und zu verbesserter Unterstützungsqualität und Dialogerfolg führen. Unseres Wissens liefert diese Arbeit den ersten systematischen empirischen Beleg, dass das Zulassen mehrerer Unterstützungsstrategien innerhalb einer einzelnen Äußerung sowohl machbar als auch vorteilhaft für emotional unterstützende Gespräche ist. Alle Codes und Daten werden unter https://github.com/aliyun/qwen-dianjin öffentlich verfügbar sein.
Zuverlässige Implementierung von Sprachmodellen erfordert zwei Fähigkeiten, die unterschiedlich erscheinen, aber eine gemeinsame geometrische Grundlage teilen: die Vorhersage, ob ein Modell gezielte Verhaltenskontrolle akzeptieren wird, und die Erkennung, wann seine interne Struktur degradiert. Wir zeigen, dass geometrische Stabilität – die Konsistenz der paarweisen Distanzstruktur einer Repräsentation – beide Anforderungen adressiert. Überwachte Shesha-Varianten, die aufgabenorientierte geometrische Stabilität messen, sagen lineare Steuerbarkeit mit nahezu perfekter Genauigkeit (ρ= 0,89–0,97) über 35–69 Embedding-Modelle und drei NLP-Aufgaben hinweg voraus und erfassen dabei zusätzliche Varianz jenseits von Klassen-Trennschärfe (partielles ρ= 0,62–0,76). Es zeigt sich eine kritische Dissoziation: Unüberwachte Stabilität versagt bei der Steuerbarkeitsvorhersage für reale Aufgaben völlig (ρ≈ 0,10), was verdeutlicht, dass Aufgabenorientierung für Kontrollierbarkeitsvorhersagen essenziell ist. Jedoch übertrifft unüberwachte Stabilität bei der Drift-Erkennung: Sie misst während des Post-Training-Alignments einen fast doppelt so großen geometrischen Wandel wie CKA (bis zu 5,23-mal in Llama), warnt in 73 % der Modelle früher und hält eine 6-mal niedrigere Falschalarmrate als Procrustes. Zusammen bilden überwachte und unüberwachte Stabilität komplementäre Diagnosewerkzeuge für den LLM-Implementierungslebenszyklus: eines für die Bewertung der Steuerbarkeit vor der Implementierung, das andere für die Überwachung nach der Implementierung.
Vision-Language Models (VLMs) werden zunehmend in der klinischen Diagnostik eingesetzt, doch ihre Robustheit gegenüber adversariellen Angriffen ist weitgehend unerforscht, was ernste Risiken birgt. Bestehende medizinische Angriffe konzentrieren sich auf sekundäre Ziele wie Modell-Diebstahl oder adversarielles Fine-Tuning, während übertragbare Angriffe von natürlichen Bildern sichtbare Verzerrungen einführen, die von Klinikern leicht erkannt werden können. Um dieses Problem zu adressieren, schlagen wir MedFocusLeak vor, einen hochgradig übertragbaren Black-Box-Multimodal-Angriff, der falsche, jedoch klinisch plausible Diagnosen hervorruft und dabei die Perturbationen unmerkbar hält. Die Methode injiziert koordinierte Perturbationen in nicht-diagnostische Hintergrundregionen und setzt einen Ablenkungsmechanismus für die Aufmerksamkeit ein, um den Fokus des Modells von pathologischen Bereichen wegzulenken. Umfangreiche Auswertungen über sechs medizinische Bildgebungsmodalitäten hinweg zeigen, dass MedFocusLeak state-of-the-art Leistung erzielt und irreführende, jedoch realistische diagnostische Ausgaben über verschiedene VLMs hinweg erzeugt. Wir führen ferner einen einheitlichen Bewertungsrahmen mit neuartigen Metriken ein, die Angriffserfolg und Bildtreue gemeinsam erfassen und eine kritische Schwachstelle in den Reasoning-Fähigkeiten moderner klinischer VLMs aufdecken.
Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten gezeigt, haben jedoch oft Schwierigkeiten, die feinkörnigen textuellen Informationen innerhalb von Bildern effektiv zu erfassen, die für eine genaue Bildübersetzung entscheidend sind. Dies führt häufig zu einer Modalitätslücke zwischen visuellen Texteingaben und textuellen Ein- bzw. Ausgaben für die Bildübersetzung. Bestehende Methoden, die sich primär auf Instruktions-Fine-Tuning stützen, riskieren eine Parameterredundanz des vortrainierten Wissens, was die Generalisierungsleistung beeinträchtigt. Um dieses Problem zu lösen, führen wir das modalitätsneuronenbewusste Fine-Tuning (MNAFT) ein, einen neuartigen Ansatz, der die spezialisierten Rollen einzelner Neuronen innerhalb von MLLMs für eine verbesserte Bildübersetzung nutzbar macht. MNAFT identifiziert sprachunabhängige und sprachspezifische Neuronen in sowohl visuellen als auch Sprachmodulen durch eine instruktionsgesteuerte Aktivierungsanalyse, die deren Bedeutung in verschiedenen Übersetzungsaufgaben bewertet. Anschließend führen wir ein selektives Fine-Tuning durch, bei dem nur die Parameter der sprachspezifischen und sprachunabhängigen Neuronen in den für die Zielaufgabe relevanten Schichten aktualisiert werden, während das in anderen Neuronen und Schichten kodierte Wissen erhalten bleibt. Unsere umfangreichen Experimente mit mehreren Benchmarks zeigen, dass MNAFT state-of-the-art Methoden zur Bildübersetzung, einschließlich kaskadierter Modelle, Standard-Full-Fine-Tuning und parameter-effizienter Tuning-Techniken, signifikant übertrifft. Darüber hinaus liefern wir eine umfassende Analyse, einschließlich Visualisierungen von Neuronenaktivierungen und Clustering-Mustern, um Einblicke in die Rollen verschiedener Neuronengruppen bei der Vermittlung von cross-modalem Verständnis und der Ermöglichung einer genauen sprachspezifischen Übersetzung zu geben.
Das Verständnis und die Antizipation von Aktivitäten im Zusammenhang mit Schwachstellen ist eine große Herausforderung in der Cyber-Bedrohungsanalyse. Diese Arbeit untersucht, ob Schwachstellenmeldungen, wie die Veröffentlichung von Proof-of-Concepts, Erkennungsregeln oder Online-Diskussionen, über die Zeit hinweg prognostiziert werden können. Aufbauend auf unserer früheren Arbeit zu VLAI, einem transformerbasierten Modell, das die Schwere von Schwachstellen aus Textbeschreibungen vorhersagt, untersuchen wir, ob Schweregrad-Scores die Zeitreihenprognose als exogene Variablen verbessern können. Wir bewerten mehrere Ansätze für die kurzfristige Prognose von Meldungen pro Schwachstelle. Zunächst testen wir SARIMAX-Modelle mit und ohne log(x+1)-Transformationen und VLAI-basierten Schweregrad-Eingaben. Obwohl diese Anpassungen nur begrenzte Verbesserungen bringen, bleibt SARIMAX für sporadische, kurze und sprunghafte Schwachstellendaten schlecht geeignet. In der Praxis erzeugen die Prognosen oft zu breite Konfidenzintervalle und manchmal unrealistische negative Werte. Um die diskrete und ereignisgesteuerte Natur der Meldungen besser zu erfassen, untersuchen wir anschließend zählbasierte Methoden wie die Poisson-Regression. Erste Ergebnisse zeigen, dass diese Modelle stabilere und besser interpretierbare Prognosen liefern, insbesondere wenn Meldungen wöchentlich aggregiert werden. Wir diskutieren auch einfachere operative Alternativen, wie exponentielle Abklingfunktionen für kurze Prognosehorizonte, um zukünftige Aktivitäten abzuschätzen, ohne lange historische Reihen zu benötigen. Insgesamt unterstreicht diese Studie sowohl das Potenzial als auch die Grenzen der Prognose seltener und sprunghafter Cyber-Ereignisse und bietet praktische Leitlinien für die Integration prädiktiver Analysen in Schwachstellen-Intelligence-Workflows.
Voll-Duplex-Sprachmodelle (FD-SLMs) ermöglichen Echtzeit-Interaktionen mit überlappenden Gesprächsbeiträgen und bieten im Vergleich zu traditionellen Halb-Duplex-Modellen ein dynamischeres Nutzererlebnis. Allerdings konzentrieren sich bestehende Benchmarks primär auf die Bewertung von Einzelrunden-Interaktionen und vernachlässigen die Komplexitäten mehrrundiger Kommunikation. Die Evaluation von FD-SLMs in Mehrrunden-Szenarien stellt erhebliche Herausforderungen dar, darunter verschwimmende Sprecherwechselgrenzen in der Kommunikation und Kontextinkonsistenzen während des Modell-Inferenzprozesses. Zudem legen bestehende Benchmarks oft ihren Fokus ausschließlich auf die Bewertung von Konversationsmerkmalen und vernachlässigen andere kritische Aspekte. Um diese Lücken zu schließen, führen wir MTR-DuplexBench ein, einen neuartigen Benchmark, der für eine umfassende Mehrrunden-Evaluation von FD-SLMs konzipiert wurde. MTR-DuplexBench unterteilt nicht nur kontinuierliche Voll-Duplex-Dialoge in diskrete Sprechwechsel für eine turn-by-turn-Bewertung, sondern integriert auch verschiedene Evaluationsaspekte, darunter Konversationsmerkmale, Dialogqualität, Befolgung von Anweisungen und Sicherheit. Experimentelle Ergebnisse zeigen, dass aktuelle FD-SLMs Schwierigkeiten haben, eine konsistente Leistung über mehrere Runden und Evaluationsdimensionen hinweg aufrechtzuerhalten, was die Notwendigkeit und Wirksamkeit unseres Benchmarks unterstreicht. Code und Daten sind verfügbar unter: https://github.com/ZhangHe0918/MTR-DuplexBench
Wir stellen Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation) vor, einen Compiler mit vier Phasen für das Deployment von Transformer-Modellen auf heterogener Beschleuniger-Hardware, validiert auf Intel AI Boost NPU. Bestehende Frameworks wie OpenVINO und ONNX Runtime verwenden oft undurchsichtige Compiler-Pipelines, bieten begrenzte Sichtbarkeit auf Pass-Ebene und ein schwaches Puffer-Management, was zu höheren Compiler-Kosten und Laufzeit-Overhead führen kann. Forge-UGC adressiert diese Probleme durch einen hardware-unabhängigen Entwurf, der Graph-Erfassung, Optimierung, Senkung der Zwischendarstellung und Backend-Scheduling trennt. Phase 1 erfasst Graphen mit torch.export auf der Ebene der ATen-Operatoren und unterstützt moderne Transformer-Komponenten wie rotary Position Embeddings, grouped-query Attention und SwiGLU ohne manuelle Dekomposition. Phase 2 wendet sechs Optimierungs-Passes an: Eliminierung von totem Code, Eliminierung gemeinsamer Teilausdrücke, Konstantenfaltung, Attention-Fusion, Operator-Fusion und Layout-Optimierung, wodurch die Anzahl der Graph-Knoten um 14,2 % bis 21,9 % reduziert wird. Phase 3 senkt den optimierten Graphen in eine typisierte Zwischendarstellung mit expliziten virtuellen Register-Zuweisungen ab. Phase 4 führt eine Liveness-Analyse, eine Puffer-Zuweisung mittels Linear-Scan (Reduktion der maximalen Puffer-Anzahl um 30 % bis 48 %) und ein Device-Affinity-Scheduling durch (Reduktion der NPU-CPU-Übergänge um 42 % bis 65 %). Über sechs Modellfamilien mit 125 Mio. bis 8 Mrd. Parametern, evaluiert auf WikiText-103 und GLUE, erreicht Forge-UGC eine 6,9- bis 9,2-fach schnellere Kompilierung als OpenVINO und ONNX Runtime, eine 18,2 % bis 35,7 % geringere Inferenz-Latenz und einen 30,2 % bis 40,9 % niedrigeren Energieverbrauch pro Inferenz. Die Genauigkeit bleibt erhalten, mit maximalen absoluten Logit-Differenzen unter 2,1e-5 und einer KL-Divergenz unter 8,4e-9. Wir führen zudem das Fusion Gain Ratio, den Compilation Efficiency Index und eine Ausführungs-Profilierung pro Pass für die systematische Evaluation von NPU-Compiler-Pipelines ein.
Genotyp-Umwelt-Interaktionen (GxE) beeinflussen die Leistung von Genotypen über verschiedene Umweltbedingungen hinweg und verringern die Vorhersagbarkeit von Phänotypen in Zielumgebungen. Eine vertiefte Analyse von GxE-Interaktionen ermöglicht die Identifizierung, wie genetische Vorteile oder Defekte unter spezifischen Umweltbedingungen exprimiert oder unterdrückt werden, was folglich die genetische Selektion unterstützt und die Züchtungspraxis verbessert. Dieses Papier stellt zwei Schlüsselmodelle für die GxE-Interaktionsforschung vor. Konkret beinhaltet dies eine Signifikanzanalyse basierend auf dem gemischten Effektmodell, um zu bestimmen, ob Gene oder GxE-Interaktionen einen signifikanten Einfluss auf phänotypische Merkmale haben, sowie eine Stabilitätsanalyse, welche die Wechselbeziehungen zwischen Genen und Umweltbedingungen sowie die relative Überlegenheit oder Unterlegenheit von Genotypen über verschiedene Umwelten hinweg weiter untersucht. Zusätzlich präsentiert dieses Papier RGxEStat, ein leichtgewichtiges interaktives Tool, das von den Autoren entwickelt wurde und die Konstruktion, Lösung und Visualisierung der oben genannten Modelle integriert. RGxEStat wurde entwickelt, um Züchtern und Agronomen die Notwendigkeit zu ersparen, komplexe SAS- oder R-Programmierung zu erlernen, und bietet eine benutzerfreundliche Oberfläche für eine optimierte Analyse von Züchtungsdaten, wodurch Forschungszyklen erheblich beschleunigt werden. Codes und Datensätze sind verfügbar unter https://github.com/mason-ching/RGxEStat.
Wir stellen JuRe (Just Repair) vor, ein minimales Rauschunterdrückungsnetzwerk für die Zeitreihen-Anomalieerkennung, das eine zentrale Erkenntnis offenlegt: Architektonische Komplexität ist unnötig, wenn das Trainingsziel das Manifold-Projektionsprinzip korrekt implementiert. JuRe besteht aus einem einzigen depthwise-separierbaren faltenden Residualblock mit einer versteckten Dimension von 128, der darauf trainiert wird, korrumpierte Zeitreihenfenster zu reparieren und zur Inferenz durch eine feste, parameterfreie Strukturdiskordanzenfunktion bewertet wird. Obwohl es weder Attention-Mechanismen, latente Variablen noch adversariale Komponenten verwendet, belegt JuRe den zweiten Platz im multivariaten TSB-AD-Benchmark (AUC-PR 0.404, 180 Reihen, 17 Datensätze) und den zweiten Platz im univariaten UCR-Archiv gemessen an AUC-PR (0.198, 250 Reihen) und führt damit alle neuronalen Baseline-Modelle in Bezug auf AUC-PR und VUS-PR an. Eine Komponentenablation auf TSB-AD identifiziert die Korrumpierung während des Trainings als dominierenden Faktor (ΔAUC-PR = 0,047 bei Entfernung), was bestätigt, dass das Rauschunterdrückungsziel und nicht die Netzwerkkapazität die Erkennungsqualität treibt. Paarweise Wilcoxon-Vorzeichen-Rang-Tests belegen die statistische Signifikanz gegenüber 21 von 25 Baseline-Modellen auf TSB-AD. Der Code ist unter der URL https://github.com/iis-esslingen/JuRe verfügbar.
Wir veröffentlichen Terminal Wrench, einen Teilbereich von 331 Terminal-Agent-Benchmark-Umgebungen, die aus populären, offenen Benchmarks kopiert wurden und nachweislich anfällig für Reward-Hacking sind. Der Datensatz umfasst 3.632 Hack-Trajektorien und 2.352 legitime Baseline-Trajektorien von drei Frontier-Modellen (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Jeder Eintrag bewahrt die ursprüngliche Aufgabendefinition zusammen mit vollständigen Angriffspfaden, die zeigen, wie der Verifier umgangen wurde. Er enthält auch Fälle, in denen die Aufgabe nicht wie beabsichtigt gelöst wurde. Die Aufgaben umfassen Systemadministration, maschinelles Lernen, Softwareentwicklung und Sicherheitsherausforderungen; die Exploits reichen von einfacher Ausgabefälschung über Stack-Frame-Introspektion und Patchen der Standardbibliothek bis hin zu Rootkit-artiger Binärmanipulation. Entscheidend ist, dass diese Exploits aufgaben- und nicht evaluationsframework-spezifisch sind, was ihre Behebung erschwert. Wir präsentieren zudem eine Monitorability-Studie, bei der Hack-Pfade bereinigt oder von Reasoning-Traces befreit und dann von einem LLM-Judge bewertet werden. Diese zeigt, dass die Erkennung signifikant abnimmt, wenn die Denkketten entfernt werden (AUC fällt von 0,97 auf 0,92). Der Datensatz ist öffentlich verfügbar unter https://github.com/few-sh/terminal-wrench.
Das wichtigste architektonische Problem in der KI ist nicht die Größe des Modells, sondern das Fehlen einer Ebene, die das Verständnis des Modells fortträgt. Sitzungen enden. Kontextfenster füllen sich. Speicher-APIs liefern flache Fakten, die das Modell bei jedem Lesen neu interpretieren muss. Das Ergebnis ist eine Intelligenz, die pro Sitzung leistungsstark, aber über die Zeit hinweg amnesisch ist. Dieses Positionspapier argumentiert, dass die Ebene, die dies behebt – die Kontinuitätsebene – die folgenreichste Infrastrukturkomponente ist, die das Feld noch nicht gebaut hat, und dass die ingenieurtechnische Arbeit zu ihrem Aufbau öffentlich begonnen hat. Der formale Evaluierungsrahmen für die hier beschriebene Eigenschaft ist der ATANT-Benchmark (arXiv:2604.06710), separat veröffentlicht mit Evaluierungsergebnissen an einem 250-Story-Korpus; ein Begleitpapier (arXiv:2604.10981) positioniert diesen Rahmen gegenüber bestehenden Benchmarks für Gedächtnis, Langzeitkontext und agentenbasierte Erinnerung. Das Papier definiert Kontinuität als eine Systemeigenschaft mit sieben erforderlichen Merkmalen, die sich von Gedächtnis und Retrieval unterscheidet; beschreibt ein Speicherprimitive (Decomposed Trace Convergence Memory), dessen Zerlegung zum Schreibzeitpunkt und Rekonstruktion zum Lesezeitpunkt diese Eigenschaft erzeugt; ordnet die technische Architektur dem theologischen Muster der Kenosis und dem symbolischen Muster von Alpha und Omega zu und argumentiert, dass diese Zuordnung strukturell und nicht metaphorisch ist; schlägt einen vierstufigen Entwicklungsbogen vor, von einem externen SDK über einen Hardware-Knoten bis hin zu einer langfristigen menschlichen Infrastruktur; untersucht, warum die physikalischen Grenzen, die derzeit die Modellebene beschränken, die Kontinuitätsebene neu relevant machen; und argumentiert, dass die Governance-Architektur (Datenschutz implementiert als Physik und nicht als Policy, gründerkontrollierte Anteile an nicht verhandelbaren architektonischen Verpflichtungen) untrennbar mit dem Produkt selbst verbunden ist.
Szenengraph-Repräsentationen ermöglichen strukturiertes visuelles Verständnis durch die Modellierung von Objekten und ihrer Beziehungen und werden häufig für Multiview- und 3D-Szenenreasoning eingesetzt. Bestehende Methoden wie MSG lernen Szenengraph-Einbettungen im euklidischen Raum mittels kontrastivem Lernen und aufmerksamkeitsbasierter Assoziation. Allerdings erfasst die euklidische Geometrie hierarchische Implikationsbeziehungen zwischen Orten und Objekten nicht explizit, was die strukturelle Konsistenz der gelernten Repräsentationen einschränkt. Um dies zu adressieren, schlagen wir Hyperbolic Scene Graph (HSG) vor, das Szenengraph-Einbettungen im hyperbolischen Raum lernt, wo hierarchische Beziehungen natürlich durch geometrische Abstände kodiert werden. Unsere Ergebnisse zeigen, dass HSG die Qualität der hierarchischen Struktur verbessert und gleichzeitig eine hohe Retrieval-Performance beibehält. Die größten Verbesserungen zeigen sich in Graph-Level-Metriken: HSG erreicht einen PP IoU von 33,17 und den höchsten Graph IoU von 33,51, was den besten AoMSG-Varianten (25,37) um 8,14 übertrifft und die Wirksamkeit hyperbolischen Repräsentationslernens für Szenengraph-Modellierung unterstreicht. Code: https://github.com/AIGeeksGroup/HSG.
Nur-Decoder-Großsprachmodelle (LLMs) ersetzen zunehmend BERT-ähnliche Architekturen als Rückgrat für dichtes Retrieval und erzielen dabei erhebliche Leistungssteigerungen und breite Akzeptanz. Die Robustheit dieser LLM-basierten Retriever ist jedoch noch unzureichend erforscht. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Robustheit moderner Open-Source LLM-basierter dichter Retriever aus zwei komplementären Perspektiven: Generalisierbarkeit und Stabilität. Für die Generalisierbarkeit bewerten wir die Retrieval-Effektivität über vier Benchmarks hinweg, die 30 Datensätze umfassen, und verwenden lineare gemischte Modelle, um die marginale mittlere Leistung zu schätzen und die intrinsische Modellfähigkeit von der Datensatzheterogenität zu trennen. Unsere Analyse zeigt, dass instruction-getunte Modelle zwar generell hervorragend abschneiden, jedoch für komplexes Reasoning optimierte Modelle oft einen „Spezialisierungsnachteil“ aufweisen und in breiteren Kontexten eine eingeschränkte Generalisierbarkeit zeigen. Für die Stabilität bewerten wir die Modellresilienz gegen unbeabsichtigte Abfragevariationen (z.B. Paraphrasierung, Tippfehler) und bösartige adversariale Angriffe (z.B. Corpus-Poisoning). Wir stellen fest, dass LLM-basierte Retriever im Vergleich zu Encoder-only-Baselines eine verbesserte Robustheit gegen Tippfehler und Corpus-Poisoning aufweisen, aber anfällig für semantische Störungen wie Synonymisierung bleiben. Weitere Analysen zeigen, dass die Einbettungsgeometrie (z.B. winkelmäßige Gleichmäßigkeit) prädiktive Signale für lexikalische Stabilität liefert, und deuten darauf hin, dass die Skalierung der Modellgröße generell die Robustheit verbessert. Diese Erkenntnisse informieren zukünftige robustheitsbewusste Retriever-Designs und prinzipielle Benchmarking-Verfahren. Unser Code ist öffentlich verfügbar unter https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Wir stellen die erste Version von KWBench (Knowledge Work Bench) vor, einen Benchmark für die unaufgeforderte Problemerkennung in großen Sprachmodellen: Kann ein LLM ein berufliches Szenario identifizieren, bevor es versucht, es zu lösen? Bestehende Spitzen-Benchmarks sind gesättigt, und die meisten Bewertungen von Wissensarbeit reduzieren sich bisher auf Extraktion oder Aufgabenausführung anhand einer Spezifikation. KWBench zielt auf den Schritt davor ab: die zugrundeliegende Struktur einer Situation allein aus Rohdaten zu erkennen. Der Benchmark umfasst 223 Aufgaben, die von Praktikern aus den Bereichen Unternehmensakquisitionen, Vertragsverhandlungen, klinische Pharmazie, organisatorische Politik, Betrugsanalyse und Anreizgestaltung stammen. Jede Aufgabe kodiert ein formales spieltheoretisches Muster (Prinzipal-Agent-Konflikt, Signalisierung, Mechanismus-Design-Fehler, strategisches Auslassen, koalitionäre Dynamiken, strategische Interdependenz) und enthält strukturierte Ground-Truth-Daten, die die Experteninterpretation der Situation sowie die erwarteten Fehlermodi dokumentieren. Die Modelle erhalten Rohdaten und eine Aufgabenaufforderung ohne Hinweis auf den Problemtyp. Die Bewertung erfolgt nach einem dreistufigen Bewertungsschema, das durch eine obligatorische konjunktive Prüfung freigeschaltet wird. Die obligatorischen Kriterien kodieren die vorhergesagten falschen Lösungswege. Wir evaluieren 16 Modelle. Das beste Modell besteht bei 27,9 % der Aufgaben. Die beiden besten Modelle stimmen nur bei 31,7 % ihrer bestandenen Aufgaben überein. Unter den Top-8-Modellen werden 44 Aufgaben von genau einem Modell gelöst; ein Routing über die Top-8-Modelle abdeckt 50,7 % des Benchmarks, fast doppelt so viel wie das beste Einzelmodell. Unter der Bedingung, dass die Aufgabe bestanden wird, konvergieren die Qualitätsbewertungen (ca. 83 % über alle Modelle); die unbedingten Bewertungen tun dies nicht. Dieselben Modelle artikulieren das relevante spieltheoretische Konzept korrekt, wenn danach gefragt wird, scheitern aber daran, es unaufgefordert anzuwenden. Wir veröffentlichen KWBench, um zu verändern, wie Spitzenmodelle in Bezug auf Wissensarbeit evaluiert werden: Sie sollen danach bewertet werden, ob sie das richtige Problem allein aus der Situation erkennen, und nicht nur danach, wie gut sie eine Aufgabe lösen, nachdem das Problem für sie formuliert wurde.
KI-Agenten, die über Werkzeuge mit ihrer Umgebung interagieren, ermöglichen leistungsstarke Anwendungen. In geschäftskritischen Umgebungen können jedoch unbeabsichtigte Aktionen inakzeptable Schäden verursachen, wie Datenschutzverletzungen und finanzielle Verluste. Bestehende Gegenmaßnahmen, wie trainierungsbasierte Methoden und neuronale Schutzkontrollen, verbessern die Zuverlässigkeit von Agenten, können jedoch keine Garantien bieten. Wir untersuchen symbolische Schutzkontrollen als praktischen Weg zur Gewährleistung robuster Sicherheits- und Schutzgarantien für KI-Agenten. Unsere dreiteilige Studie umfasst eine systematische Überprüfung von 80 modernsten Benchmark-Tests für Agentensicherheit, um die von ihnen evaluierten Richtlinien zu identifizieren, eine Analyse, welche Richtlinienanforderungen durch symbolische Schutzkontrollen garantiert werden können, sowie eine Bewertung der Auswirkungen symbolischer Schutzkontrollen auf Sicherheit, Schutz und Agentenerfolg auf τ^2-Bench, CAR-bench und MedAgentBench. Wir stellen fest, dass 85 % der Benchmarks konkrete Richtlinien vermissen lassen und sich stattdessen auf unpräzise übergeordnete Ziele oder Common Sense stützen. Von den spezifizierten Richtlinien können 74 % der Anforderungen durch symbolische Schutzkontrollen durchgesetzt werden, oft mit einfachen, kostengünstigen Mechanismen. Diese Schutzkontrollen verbessern Sicherheit und Schutz, ohne die Nützlichkeit der Agenten zu beeinträchtigen. Insgesamt deuten unsere Ergebnisse darauf hin, dass symbolische Schutzkontrollen eine praktische und effektive Methode zur Garantie bestimmter Sicherheits- und Schutzanforderungen sind, insbesondere für domainspezifische KI-Agenten. Wir veröffentlichen alle Codes und Artefakte unter https://github.com/hyn0027/agent-symbolic-guardrails.
Wissensdistillation ist eine weit verbreitete Technik zur Übertragung von Fähigkeiten von großen Sprachmodellen (LLMs) auf kleinere, effizientere Schüler-Modelle. Die unbefugte Nutzung von Wissensdistillation macht sich jedoch den erheblichen Aufwand und die Kosten für die Entwicklung von Spitzenmodellen auf unfaire Weise zunutze. Wir untersuchen Methoden zur Modifikation von lehrergenerierten Denkpfaden, um zwei Ziele zu erreichen, die unbefugte Distillation abschrecken sollen: (1) Anti-Distillation, also die Verschlechterung der Trainingsnutzbarkeit von Antworten auf Anfragen, und (2) API-Wasserzeichen, die verifizierbare Signaturen in Schüler-Modelle einbetten. Wir stellen mehrere Ansätze zur dynamischen Umformulierung der Denkausgaben eines Lehrer-Modells vor, wobei die Antwortkorrektheit und semantische Kohärenz erhalten bleiben. Zwei dieser Ansätze nutzen die Umformulierungsfähigkeiten von LLMs, während andere gradientenbasierte Techniken verwenden. Unsere Experimente zeigen, dass ein einfacher, auf Instruktionen basierender Umformulierungsansatz einen starken Anti-Distillationseffekt erzielt und gleichzeitig die Leistung des Lehrer-Modells beibehält oder sogar verbessert. Darüber hinaus zeigen wir, dass unser Umformulierungsansatz auch das Einbetten von Wasserzeichen ermöglicht, die zuverlässig und praktisch ohne Fehlalarme detektiert werden können. Unser Code ist verfügbar unter https://github.com/xhOwenMa/trace-rewriting.