Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Multimodale Large Language Models (MLLMs) haben die Dokumentenverarbeitung erheblich vorangebracht, doch aktuelle Doc-VQA-Bewertungen berücksichtigen nur die endgültige Antwort und prüfen die zugrundeliegenden Belege nicht. Diese rein antwortorientierte Herangehensweise übersieht eine kritische Fehlerursache: Ein Modell kann die richtige Antwort liefern, während es diese auf einen falschen Textabschnitt stützt – ein erhebliches Risiko in sicherheitskritischen Bereichen wie Recht, Finanzen und Medizin, wo jede Schlussfolgerung auf eine bestimmte Quellregion zurückführbar sein muss. Um diesem Problem zu begegnen, führen wir CiteVQA ein, einen Benchmark, der von Modellen verlangt, neben jeder Antwort auch Zitate auf Elementebene in Form von Bounding-Boxen zurückzugeben und beides gemeinsam zu bewerten. CiteVQA umfasst 1.897 Fragen zu 711 PDFs aus sieben Bereichen und zwei Sprachen mit durchschnittlich 40,6 Seiten pro Dokument. Zur Sicherstellung von Genauigkeit und Skalierbarkeit werden die Ground-Truth-Zitate durch eine automatisierte Pipeline generiert – die durch Maskierungsablation entscheidende Belege identifiziert – und anschließend in einer Expertenprüfung validiert. Kern unserer Evaluierung ist die Strict Attributed Accuracy (SAA), die eine Vorhersage nur dann wertet, wenn sowohl die Antwort als auch die zitierte Region korrekt sind. Die Prüfung von 20 MLLMs zeigt eine weit verbreitete Attribution Hallucination: Modelle produzieren häufig die richtige Antwort, zitieren aber die falsche Region. Das stärkste System (Gemini-3.1-Pro-Preview) erreicht eine SAA von lediglich 76,0, und das stärkste Open-Source-MLLM kommt nur auf 22,5. Letztlich deckt CiteVQA im Hinblick auf vertrauenswürdige Dokumentenintelligenz eine Zuverlässigkeitslücke auf, die rein antwortorientierte Evaluierungen übersehen, und bietet die notwendigen Instrumente, um diese zu schließen. Unser Repository ist verfügbar unter https://github.com/opendatalab/CiteVQA.
Vision-Sprache-Aktion-Modelle haben sich rasant weiterentwickelt, aber Roboter-Trajektorien allein bieten nur eine begrenzte Abdeckung für das Erlernen eines breiten physikalischen Verständnisses. PhysBrain 1.0 untersucht einen komplementären Weg: die Umwandlung von großflächigen egozentrischen Humanvideos in strukturierte physikalische Commonsense-Überwachung vor der Roboteradaption. Unsere Daten-Engine extrahiert Szenenelemente, räumliche Dynamiken, Aktionsausführungen und tiefenbewusste Beziehungen und wandelt sie in Frage-Antwort-Überwachung für das Training von PhysBrain-VLMs um. Die resultierenden physikalischen Priors werden weiterhin durch ein fähigkeitserhaltendes und sprachsensitives Adaptionsdesign auf VLA-Politiken übertragen. Über multimodale QA-Benchmarks und verkörperte Kontroll-Benchmarks hinweg, einschließlich ERQA, PhysBench, SimplerEnv-WidowX, LIBERO und RoboCasa, erzielt PhysBrain 1.0 SOTA-Ergebnisse und zeigt eine besonders starke Out-of-Domain-Leistung auf SimplerEnv. Diese Ergebnisse deuten darauf hin, dass die Skalierung von physikalischem Commonsense aus Humaninteraktionsvideo eine effektive Brücke vom multimodalen Verständnis zur Roboteraktion bieten kann.
Wiederverwendbare Fähigkeiten sind zu einer grundlegenden Grundlage für die Verbesserung der Agentenfähigkeiten geworden, dennoch kodieren die meisten bestehenden Fähigkeitspakete wiederverwendbares Verhalten hauptsächlich als textuelle Prompts, ausführbaren Code oder erlernte Routinen. Für visuelle Agenten ist prozedurales Wissen jedoch von Natur aus multimodal: Die Wiederverwendung hängt nicht nur davon ab, welche Operation auszuführen ist, sondern auch davon, den relevanten Zustand zu erkennen, visuelle Hinweise auf Fortschritt oder Misserfolg zu interpretieren und zu entscheiden, was als Nächstes zu tun ist. Wir formalisieren diese Anforderung als multimodales prozedurales Wissen und adressieren drei praktische Herausforderungen: (I) was ein multimodales Fähigkeitspaket enthalten sollte; (II) wo solche Pakete aus öffentlichen Interaktionserfahrungen abgeleitet werden können; und (III) wie Agenten zur Inferenzzeit multimodale Evidenz konsultieren können, ohne übermäßigen Bildkontext oder eine übermäßige Verankerung an Referenzbildschirmfotos. Wir stellen MMSkills vor, ein Framework zur Repräsentation, Generierung und Nutzung wiederverwendbarer multimodal-prozeduraler Verfahren für die visuelle Entscheidungsfindung zur Laufzeit. Jedes MMSkill ist ein kompaktes, zustandsabhängiges Paket, das eine textuelle Prozedur mit Laufzeit-Statuskarten und Multi-Ansichts-Schlüsselbildern koppelt. Zur Konstruktion dieser Pakete entwickeln wir einen agentischen Trajektorien-zu-Fähigkeiten-Generator, der öffentliche Nicht-Evaluierungstrajektorien durch Arbeitsablaufgruppierung, Prozedureninduktion, visuelle Verankerung und Meta-Fähigkeiten-gesteuerte Prüfung in wiederverwendbare multimodale Fähigkeiten umwandelt. Zur Nutzung führen wir einen Branch-geladenen multimodalen Fähigkeitsagenten ein: Ausgewählte Statuskarten und Schlüsselbilder werden in einem temporären Zweig überprüft, mit der Live-Umgebung abgeglichen und in strukturierte Anleitungen für den Hauptagenten destilliert. Experimente mit GUI- und spielbasierten visuellen Agenten-Benchmarks zeigen, dass MMSkills sowohl führende als auch kleinere multimodale Agenten konsequent verbessern, was darauf hindeutet, dass externes multimodales prozedurales Wissen modellinterne Vorwissen ergänzt.
Menschzentrierte Videopersonalisierung, insbesondere auf der Ebene von Kleidungsstücken, hat einen erheblichen kommerziellen Wert gezeigt. Bestehende Ansätze unterstützen jedoch keine niedrige Latenz und interaktive Steuerung von Kleidungsstücken, was für Anwendungen wie E-Commerce und Content-Erstellung entscheidend ist. In dieser Arbeit wird untersucht, wie eine interaktive Videopersonalisierung mit mehreren Kleidungsstücken unter Wahrung der Bewegungskohärenz allein mit Videodaten eines einzelnen Kleidungsstücks erreicht werden kann. Wir stellen FashionChameleon vor, ein Echtzeit- und interaktives Framework für die Personalisierung menschlicher Kleidungsstücke in der autoregressiven Videogenerierung, bei dem Benutzer während der Generierung interaktiv zwischen Kleidungsstücken wechseln können. FashionChameleon besteht aus drei Schlüsseltechniken: (i) Anstatt auf Videodaten mehrerer Kleidungsstücke zu trainieren, trainieren wir ein Lehrermodell mit In-Context-Learning auf einem einzelnen Referenz-Kleidungsstück-Paar. Durch die Beibehaltung des Bild-zu-Video-Trainingsparadigmas bei gleichzeitiger Erzwingung eines Missverhältnisses zwischen Referenz und Kleidungsstückbild wird das Modell angeregt, beim Wechsel einzelner Kleidungsstücke implizit die Kohärenz zu wahren. (ii) Um Konsistenz und Effizienz während der Generierung zu erreichen, führen wir Streaming-Destillation mit In-Context-Learning ein, das das Modell mit In-Context-Teacher-Forcing verfeinert und die Extrapolationskonsistenz durch gradientengewichtete Verteilungsabgleichsdestillation verbessert. (iii) Um das Modell auf interaktive Videopersonalisierung mit mehreren Kleidungsstücken zu erweitern, schlagen wir trainingsfreie KV-Cache-Neuplanung vor, die eine Aktualisierung des Kleidungsstück-KV, einen Rückzug des historischen KV und eine Entkopplung des Referenz-KV umfasst, um einen Kleidungsstückwechsel bei gleichzeitiger Wahrung der Bewegungskohärenz zu ermöglichen. Unser FashionChameleon unterstützt einzigartig interaktive Personalisierung und konsistente Langvideo-Extrapolation und erreicht eine Echtzeitgenerierung mit 23,8 FPS auf einer einzelnen GPU, 30- bis 180-mal schneller als bestehende Basislinien.
On-Policy-Distillation (OPD) hat sich als effizientes Post-Training-Paradigma für große Sprachmodelle etabliert. Bestehende Studien führen diesen Vorteil jedoch größtenteils auf dichtere und stabilere Überwachung zurück, während die Mechanismen auf Parameterebene, die der Effizienz von OPD zugrunde liegen, noch wenig verstanden sind. In dieser Arbeit argumentieren wir, dass die Effizienz von OPD auf einer Form von "Voraussicht" beruht: Sie etabliert früh im Training eine stabile Aktualisierungstrajektorie in Richtung des endgültigen Modells. Diese Voraussicht zeigt sich in zwei Aspekten. Erstens identifiziert OPD auf der Ebene der Modulzuweisung Bereiche mit geringem Grenznutzen und konzentriert Aktualisierungen auf Module, die für das Denken kritischer sind. Zweitens zeigt OPD auf der Ebene der Aktualisierungsrichtung eine stärkere Konzentration niedrigen Ranges, wobei sich seine dominanten Unterräume früh im Training eng an den endgültigen Aktualisierungsunterraum anpassen. Aufbauend auf diesen Erkenntnissen schlagen wir EffOPD vor, eine Plug-and-Play-Beschleunigungsmethode, die OPD beschleunigt, indem sie adaptiv eine Extrapolationsschrittweite auswählt und sich entlang der aktuellen Aktualisierungsrichtung bewegt. EffOPD erfordert keine zusätzlichen trainierbaren Module oder komplexe Hyperparameter-Abstimmung und erreicht eine durchschnittliche Trainingsbeschleunigung von 3×, während eine vergleichbare endgültige Leistung erhalten bleibt. Insgesamt bieten unsere Ergebnisse eine Perspektive der Parameterdynamik zum Verständnis der Effizienz von OPD und liefern praktische Einblicke für die Entwicklung effizienterer Post-Training-Methoden für große Sprachmodelle.
Das Erreichen menschenähnlicher Manipulation erfordert geschickte Roboterhände, die komplexe Objektinteraktionen bewältigen können. Um solche Fähigkeiten weiterzuentwickeln, sind standardisierte Benchmarks für eine systematische Evaluierung erforderlich. Allerdings fehlen bestehenden Benchmarks für geschickte Manipulation Aufgaben, die die einzigartigen Manipulationsfähigkeiten geschickter Hände im Vergleich zu Parallelgreifern widerspiegeln, sowie umfassende Evaluierungspipelines. In dieser Arbeit stellen wir DexJoCo vor, einen Benchmark und ein Toolkit für aufgabenorientierte geschickte Manipulation, bestehend aus 11 funktional fundierten Aufgaben, die den Werkzeuggebrauch, die bimanuelle Koordination, die langfristige Ausführung und das Schlussfolgern evaluieren. Wir entwickeln ein kostengünstiges Datenerfassungssystem und sammeln 1.1K Trajektorien über diese Aufgaben hinweg, mit Unterstützung für Domänenrandomisierung zur Bewertung der Robustheit. Wir benchmarken moderne Modelle unter verschiedenen Bedingungen, einschließlich visueller und dynamischer Randomisierung, Multi-Task-Training und Anpassung des Aktionskopfes. Durch umfangreiche empirische Analysen identifizieren wir mehrere wichtige Erkenntnisse und häufige Einschränkungen aktueller Politiken in der geschickten Manipulation und heben zentrale Herausforderungen für die zukünftige Forschung im Lernen von Robotern mit geschickten Händen hervor. Die Projektseite ist verfügbar unter: https://dexjoco.github.io
Das Destillieren großer Reasoning-Modelle ist entscheidend, um Long-CoT-Reasoning praktikabel zu machen, da eine vollumfängliche Inferenz weiterhin rechenintensiv bleibt. Bestehende kurationsbasierte Ansätze wählen nachträglich vollständige Reasoning-Spuren aus, übersehen dabei jedoch die Zusammenarbeit zwischen heterogenen Lehrern und entbehren dynamischer Exploration, was zu redundantem Sampling und verpasstem komplementärem Reasoning führt. Wir stellen CoRD vor, ein kollaboratives Multi-Teacher-Decoding-Framework, das eine schrittweise Reasoning-Synthese durchführt, geleitet von prädiktiver Perplexitätsbewertung und Beam Search. Dies ermöglicht es heterogenen LRMs, gemeinsam kohärente Reasoning-Trajektorien zu konstruieren, während effizient diverse, vielversprechende Hypothesen bewahrt werden. Experimente zeigen, dass CoRD qualitativ hochwertigere Reasoning-Daten erzeugt und mit weniger, strukturierten Supervisionssignalen fast das Niveau der Lehrer erreicht, ohne wesentlichen Effizienz-Overhead. Zudem generalisiert CoRD gut auf bereichsfremde und offene Einstellungen. Der Datensatz und das Modell sind verfügbar unter https://github.com/DISL-Lab/CoRD.
Text und Gesichter gehören zu den visuell auffälligsten und praktisch wichtigsten Mustern in der visuellen Generierung, bleiben jedoch für autoregressive Generatoren, die auf diskreter Tokenisierung basieren, weiterhin eine Herausforderung. Ein zentraler Engpass ist der Tokenisierer: Aggressive Herunterabtastung und Quantisierung verwerfen oft die feinkörnigen Strukturen, die erforderlich sind, um lesbare Schriftzeichen und markante Gesichtszüge zu erhalten. Wir führen diese Diskrepanz darauf zurück, dass die Ziele standardmäßiger diskreter Tokenisierer nur schwach mit der Lesbarkeit von Text und der Gesichtstreue ausgerichtet sind, da diese Ziele typischerweise eine allgemeine Rekonstruktion optimieren, während verschiedene Inhalte gleichmäßig komprimiert werden. Um dies zu adressieren, schlagen wir InsightTok vor, ein einfaches, aber effektives Framework für diskrete visuelle Tokenisierung, das die Text- und Gesichtstreue durch lokalisierte, inhaltsbewusste perzeptuelle Verluste verbessert. Mit einem kompakten 16k-Codebuch und einer 16-fachen Herunterabtastungsrate übertrifft InsightTok frühere Tokenisierer deutlich in der Text- und Gesichtsrekonstruktion, ohne die allgemeine Rekonstruktionsqualität zu beeinträchtigen. Diese Verbesserungen übertragen sich konsequent auf die autoregressive Bildgenerierung in InsightAR und erzeugen Bilder mit klarerem Text und treueren Gesichtsdetails. Insgesamt unterstreichen unsere Ergebnisse das Potenzial spezialisierter Überwachung beim Tokenisierertraining zur Weiterentwicklung der diskreten Bildgenerierung.
Group Relative Policy Optimization hat sich als wesentlich für die Ausrichtung von Videodiffusionsmodellen an menschlichen Präferenzen erwiesen, steht jedoch vor einem kritischen rechnerischen Engpass: Das Training eines Modells mit 14B Parametern erfordert typischerweise Hunderte von GPU-Tagen pro Experiment. Bestehende Effizienzmethoden senken die Kosten durch Subsampling von Trainingszeitschritten mittels gleitendem Fenster, beeinträchtigen jedoch grundlegend die Optimierung, zeigen schwere Instabilität und erreichen nicht die vollständige Trajektorienleistung. Wir stellen Flash-GRPO vor, ein Einschritt-Trainingsframework, das bei geringem Rechenaufwand die Ausrichtungsqualität des vollständigen Trajektorientrainings übertrifft und gleichzeitig die Trainingseffizienz erheblich verbessert. Flash-GRPO adressiert zwei kritische Herausforderungen: Die isotemporale Gruppierung beseitigt die durch Zeitschritte verfälschte Varianz, indem sie eine promptweise zeitliche Konsistenz erzwingt und die Policy-Leistung von der Zeitschrittschwierigkeit entkoppelt; die temporale Gradientenkorrektur neutralisiert den zeitabhängigen Skalierungsfaktor, der stark inkonsistente Gradientenbeträge über die Zeitschritte hinweg verursacht. Experimente mit Modellen von 1,3B bis 14B Parametern bestätigen die Wirksamkeit von Flash-GRPO und zeigen eine erhebliche Trainingsbeschleunigung bei gleichbleibender Stabilität und modernster Ausrichtungsqualität.
Bestärkungslernen mit verifizierbaren Belohnungen (RLVR) hat sich als skalierbares Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle etabliert. Seine Wirksamkeit wird jedoch grundlegend durch die Exploration eingeschränkt: Die Policy kann sich nur auf bereits erprobten Trajektorien verbessern. Zwar mildert eine Erhöhung der Anzahl von Rollouts dieses Problem, doch ist eine solche skalierte Brute-Force-Methode rechenintensiv, und bestehende Ansätze, die das Optimierungsziel modifizieren, bieten nur begrenzte Kontrolle darüber, was exploriert wird. In dieser Arbeit schlagen wir NudgeRL vor, ein Framework für strukturierte und diversitätsgetriebene Exploration in RLVR. Unser Ansatz führt Strategy Nudging ein, bei dem jeder Rollout durch leichte, strategiebezogene Kontexte konditioniert wird, um vielfältige Reasoning-Trajektorien zu erzeugen – ohne auf teure Orakelüberwachung angewiesen zu sein. Um aus dieser strukturierten Exploration effektiv zu lernen, schlagen wir zudem ein einheitliches Ziel vor, das das Belohnungssignal in kontextübergreifende und kontextinterne Komponenten zerlegt und ein Destillationsziel integriert, um entdeckte Verhaltensweisen auf die Basis-Policy zu übertragen. Empirisch übertrifft NudgeRL das standardmäßige GRPO mit bis zu 8-fach größeren Rollout-Budgets und schlägt im Durchschnitt über fünf anspruchsvolle Mathematik-Benchmarks eine orakelgesteuerte RL-Baseline. Diese Ergebnisse zeigen, dass strukturierte, kontextgetriebene Exploration als effiziente und skalierbare Alternative sowohl zum Brute-Force-Rollout-Scaling als auch zu machbarkeitsorientierten Methoden basierend auf privilegierter Informationen dienen kann. Unser Code ist verfügbar unter https://github.com/tally0818/NudgeRL.
Aktuelle Spielweltmodelle simulieren Umgebungen aus einer subjektiven, spielerzentrierten Perspektive. Da Nicht-Spieler-Charaktere (NPCs) jedoch lediglich als Hintergrundpixel behandelt werden, können diese Modelle keine Interaktionen zwischen Spieler und NPC erfassen. In diesem Sinne fungieren sie eher als passive Videorenderer denn als echte Simulations-Engines, da ihnen das physikalische Verständnis fehlt, um handlungsinduzierte NPC-Reaktionen zu modellieren. Wir stellen ReactiveGWM vor, ein reaktives Spielweltmodell, das dynamische Interaktionen zwischen Spieler und NPC synthetisiert. Anstatt alle Interaktionsdynamiken miteinander zu vermischen, entkoppelt ReactiveGWM explizit die Spielersteuerung vom NPC-Verhalten. Spieleraktionen werden über einen leichtgewichtigen additiven Bias in die Diffusions-Backbone eingespeist, während hochrangige NPC-Reaktionen (z. B. Angriff, Kontrolle, Verteidigung) durch Cross-Attention-Module verankert werden. Entscheidend ist, dass diese Module eine spielunabhängige Repräsentation interaktiver Logik erlernen. Dies ermöglicht einen Zero-Shot-Strategietransfer: Unsere erlernten Module können direkt in handelsübliche, nicht annotierte Weltmodelle verschiedener Spiele eingesteckt werden. Dadurch werden sofort steuerbare NPC-Interaktionen ohne domänenspezifisches Nachtraining ermöglicht. In der Evaluierung an zwei Street-Fighter-Spielen bewahrt ReactiveGWM eine feinkörnige Spielersteuerbarkeit und erzielt gleichzeitig eine robuste, promptkonforme NPC-Strategietreue, was den Weg für skalierbare, strategiereiche Interaktionen mit dem NPC ebnet.
Die **Group Relative Policy Optimization (GRPO)** verbessert große Sprachmodelle, indem sie Vorteile über eine Gruppe abgetasteter Trajektorien schätzt. Die Abbildung dieser Vorteile auf Token-Ebene auf Policy-Updates erfordert jedoch die Aggregation von Token-Wahrscheinlichkeiten innerhalb jeder Sequenz. Ein fixierter Aggregationsmechanismus für diesen Schritt schränkt die Anpassungsfähigkeit des Algorithmus grundlegend ein. Empirisch beobachten wir einen kritischen Zielkonflikt: Bestimmte fixierte Aggregationen führen häufig zu einem Trainingskollaps, während andere keine zufriedenstellende Leistung erzielen. Um dies zu lösen, schlagen wir **HölderPO** vor, ein generalisiertes Policy-Optimierungs-Framework, das die Aggregation von Token-Wahrscheinlichkeiten mittels des Hölder-Mittels vereinheitlicht. Durch die explizite Modulation des Parameters p bietet unser Framework eine kontinuierliche Kontrolle über den Zielkonflikt zwischen Gradientenkonzentration und Varianzgrenzen. Theoretisch beweisen wir, dass ein größeres p den Gradienten konzentriert, um spärliche Lernsignale zu verstärken, während ein kleineres p die Gradientenvarianz strikt begrenzt. Da keine statische Konfiguration diesen Konzentrations-Stabilitäts-Zielkonflikt universell lösen kann, instantiieren wir das Framework mit einem dynamischen Annealing-Algorithmus, der p fortschreitend über den gesamten Trainingszyklus hinweg plant. Umfangreiche Evaluierungen zeigen eine überlegene Stabilität und Konvergenz im Vergleich zu bestehenden Basislinien. Insbesondere erreicht unser Ansatz eine durchschnittliche Genauigkeit von 54,9% über mehrere mathematische Benchmarks und erzielt damit einen substantiellen relativen Gewinn von 7,2% gegenüber Standard-GRPO sowie eine außergewöhnliche Erfolgsrate von 93,8% auf ALFWorld.
Große Sprachmodelle (LLMs) haben weiterhin Schwierigkeiten mit den strengen logischen Anforderungen anspruchsvoller Wettbewerbsprogrammierung. Während neuere Multi-Agenten-Frameworks versuchen, diese Zuverlässigkeitslücke zu schließen, bleiben sie grundsätzlich zustandslos: Sie stützen sich auf statischen Abruf und verwerfen die wertvollen Problemlösungs- und Debugging-Erfahrungen aus vorherigen Aufgaben. Um dies zu adressieren, stellen wir Solvita vor, einen agentischen Evolutionsrahmen, der kontinuierliches Lernen ermöglicht, ohne dass Gewichtsaktualisierungen am zugrunde liegenden LLM erforderlich sind. Solvita reorganisiert die Problemlösung in ein geschlossenes System aus Strategieauswahl, Programmsynthese, zertifizierter Überwachung und gezieltem Hacking, das von vier spezialisierten Agenten ausgeführt wird: Planner, Solver, Oracle und Hacker. Entscheidend ist, dass jeder Agent mit einem trainierbaren, graphstrukturierten Wissensnetzwerk gekoppelt ist. Während das System arbeitet, werden Ergebnissignale – wie Bestanden/Nicht bestanden-Urteile, die Qualität der Testzertifizierung und durch den Hacker entdeckte adversarial Schwachstellen – als Aktualisierungen des bestärkenden Lernens auf diese Netzwerkgewichte umgesetzt. Dadurch können die Agenten zukünftige Abfragen basierend auf vergangenen Erfolgen und Misserfolgen dynamisch routen und so im Laufe der Zeit übertragbare Überlegungserfahrungen ansammeln. Bewertet auf CodeContests, APPS, AetherCode und Live-Codeforces-Runden setzt Solvita einen neuen Stand der Technik für Code-generierende Agenten, übertrifft bestehende Multi-Agenten-Pipelines und verdoppelt nahezu die Genauigkeit von Single-Pass-Baselines.
Moderne Bildbearbeitungsmodelle erzeugen realistische Ergebnisse, haben jedoch Schwierigkeiten mit abstrakten, mehrschrittigen Anweisungen (z. B. „Machen Sie diese Werbung vegetarischer“). Bisherige agentenbasierte Methoden zerlegen solche Aufgaben, sind jedoch auf handgefertigte Pipelines oder Lehrerimitation angewiesen, was die Flexibilität einschränkt und das Lernen von den tatsächlichen Bearbeitungsergebnissen entkoppelt. Wir schlagen ein erfahrungsbasiertes Framework für langfristige Bildbearbeitung vor, bei dem ein Planer strukturierte atomare Zerlegungen generiert und ein Orchestrator Werkzeuge und Regionen für die Ausführung jedes Schritts auswählt. Ein visuell-sprachlicher Richter liefert ergebnisbasierte Belohnungen für die Anweisungstreue und die visuelle Qualität. Der Orchestrator wird trainiert, diese Belohnungen zu maximieren, und erfolgreiche Trajektorien werden verwendet, um den Planer zu verfeinern. Durch die enge Kopplung von Planung mit belohnungsgesteuerter Ausführung erzielt unser Ansatz kohärentere und zuverlässigere Bearbeitungen als einschrittige oder regelbasierte mehrschrittige Basislinien.
Große visuell-sprachliche Modelle haben GUI-Agenten erheblich vorangebracht und ermöglichen ausführbare Interaktionen über Web-, Mobil- und Desktop-Oberflächen hinweg. Diese Fortschritte beruhen jedoch weitgehend auf einem nachsichtigen regionentoleranten Paradigma, bei dem viele nahegelegene Pixel innerhalb desselben Bedienelements gültig bleiben. Die präzise geometrische Konstruktion bricht mit dieser Annahme: Aktionen müssen auf Punkte im kontinuierlichen Zeichenbereich treffen, nicht auf tolerante Regionen. Da geometrische Primitive ontologische Abhängigkeiten aufweisen, kann ein lokaler Koordinatenfehler kaskadierende topologische Fehler auslösen, die nachgelagerte Objekte verzerren und die endgültige Konstruktion ungültig machen. Wir bezeichnen dieses Regime als präzisionsempfindliche GUI-Aufgaben, die Genauigkeit auf Punktebene, geometriebewusste Verifikation und Robustheit gegenüber abhängigkeitsgetriebener Fehlerfortpflanzung erfordern. Um dies zu bewerten, führen wir PAGE Bench ein, mit 4.906 Aufgaben und über 224.000 prozessüberwachten GUI-Aktionen auf Pixelebene. Ferner schlagen wir PAGER vor, einen topologiebewussten Agenten, der die Konstruktion in eine abhängigkeitsstrukturierte Planung und eine Ausführung auf Pixelebene zerlegt. Pixelverankertes überwachtes Feintuning etabliert eine ausführbare Aktionsgrammatik, während präzisionsausgerichtetes Reinforcement Learning den durch Rollout induzierten Exposure Bias mittels zustandsbedingten geometrischen Feedbacks abmildert. Experimente offenbaren eine ausgeprägte Semantik-Ausführungs-Lücke: Allgemeine multimodale Modelle erreichen über 88% Genauigkeit beim Aktionstyp, bleiben aber unter 6% Aufgabenerfolg. PAGER schließt diese Lücke, steigert den Aufgabenerfolg um den Faktor 4,1 gegenüber dem stärksten evaluierten allgemeinen Basislinienmodell und erhöht die Schritterfolgsrate von unter 9% bei GUI-spezialisierten Agenten auf über 62%, womit ein neuer Stand der Technik für punktgenaue GUI-Steuerung etabliert wird.
Moderne 3D-visuelles Lernen basiert auf Beobachtungen, die aus metrischen 3D-Assets stammen, jedoch bieten bestehende Scans, Meshes, Punktwolken, Simulationen und Rekonstruktionen keine direkte spärliche, vergleichbare und geometriekonsistente panoramische Trainingsschnittstelle. Dichte Trajektorien duplizieren nahegelegene Ansichten, quellspezifische Rendering-Richtlinien führen zu heterogenen Annotationen, und spärliche Heuristiken können wichtige Regionen übersehen oder tiefeninkonsistente Beobachtungen einführen. Wir untersuchen, wie man 3D-Assets in spärliche panoramische RGB-D-Pose-Daten umwandelt, die eine vollständige Szenenabdeckung mit geringer Redundanz und nachvollziehbarer Herkunft erhalten. Wir schlagen COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) vor, einen trainingsfreien ERP-Blickpunkt-Kurator, der die Geometrie ausgewählter Ansichten in Kandidaten-ERP-Proben projiziert, die inkrementelle Abdeckung bewertet und Tiefenkonflikte bestraft. Unter begrenztem Proxy-Fehler bewahrt sein gieriger Abdeckungs-Proxy das standardmäßige abdeckungsorientierte Approximationsverhalten bis zu einem additiven Fehlerterm. Mit COVER erstellen wir CM-EVS (Coverage-curated Metric ERP View Set), einen panoramischen RGB-D-Pose-Datensatz mit 36.373 kuratierten ERP-Frames aus 1.275 Innenszenen aus Blender indoor, HM3D und ScanNet++, ergänzt durch Außenpanoramen von TartanGround und OB3D, die in dasselbe Schema umkodiert wurden. Jeder Frame bietet Vollkugel-RGB, metrische Reichweitentiefe, kalibrierte Pose; von COVER erzeugte Innenframes enthalten schrittweise Herkunftsprotokolle. Mit einem Median von nur 25 Frames pro Innenszene deckt CM-EVS alle 13 einheitlichen Raumtypen ab, während es eine kompakte Szenenabdeckung beibehält. Experimente zeigen, dass COVER den Abdeckungs-Konflikt-Kompromiss verbessert, was CM-EVS zu einer spärlichen, kompakten und nachvollziehbaren RGB-D-Pose-Ressource für geometriekonsistentes panoramisches 3D-Lernen macht.
Vision-Language-Modelle (VLMs) zeichnen sich durch 2D-Aufgaben wie Grounding und Captioning aus, bleiben jedoch im 3D-Verständnis eingeschränkt. Eine wesentliche Einschränkung ist ihr Paradigma der reinen Textüberwachung, das die feinkörnige visuelle Wahrnehmung unzureichend einschränkt und die Wiederherstellung dichter Geometrie verhindert. Bisherige Methoden destillieren entweder Geometrie aus externen Bildverarbeitungsmodellen, was zu Fehlerakkumulation führt, oder ermöglichen eine direkte Vorhersage mit ineffizienten pixelweisen Abfragen oder groben tokenbasierten Ausgaben. In diesem Paper schlagen wir DepthVLM vor, ein einfaches, aber effektives Framework, das ein einzelnes VLM in einen natives dichten Geometrieprädiktor verwandelt, während seine multimodale Fähigkeit erhalten bleibt. Durch das Anhängen eines leichten Tiefenkopfs an das LLM-Backbone und Training unter einem einheitlichen visuell-textuellen Überwachungsparadigma mit einem zweistufigen Zeitplan erzeugt DepthVLM vollauflösende Tiefenkarten zusammen mit Sprachausgaben in einem einzigen Vorwärtsdurchlauf. Wir führen außerdem einen einheitlichen metrischen Tiefenbenchmark für Innen- und Außenbereiche in einem VLM-kompatiblen Format ein. Experimente zeigen, dass DepthVLM bestehende VLMs mit höherer Inferenzeffizienz deutlich übertrifft, führende reine Bildverarbeitungsmodelle übertrifft und komplexes 3D-räumliches Denken verbessert, was auf ein wirklich einheitliches Foundation-Modell hinarbeitet. Der gesamte Code und alle Checkpoints werden öffentlich verfügbar gemacht.
Automatische Multi-Agenten-Systeme (MAS) zielen darauf ab, Agenten-Workflows zu instanziieren, ohne auf manuell entworfene oder feste Orchestrierung angewiesen zu sein. Allerdings bleiben bestehende automatische MAS-Ansätze nur teilweise adaptiv: Sie führen entweder eine trainingsfreie Testzeitsuche durch oder optimieren den Meta-Designer, während nachgelagerte Ausführungsagenten eingefroren bleiben, was eine „Frozen-Executor“-Obergrenze schafft und das End-to-End-Training selbstentwerfender und selbstausführender agentischer Modelle unerforscht lässt. Um dies zu adressieren, führen wir MetaAgent-X ein, ein End-to-End-Verstärkungslern-Framework, das das automatische MAS-Design und die Ausführung gemeinsam optimiert. MetaAgent-X ermöglicht skriptbasierte MAS-Generierung, Sammlung von Ausführungs-Rollouts und Kreditzuweisung für sowohl Designer- als auch Ausführer-Trajektorien. Zur Unterstützung einer stabilen und skalierbaren Optimierung schlagen wir Executor Designer Hierarchical Rollout und Stagewise Co-Evolution vor, um die Trainingsstabilität zu verbessern und die Dynamik der Co-Evolution von Designer und Ausführer aufzudecken. MetaAgent-X übertrifft konsequent bestehende automatische MAS-Baselines und erzielt Verbesserungen von bis zu 21,7 %. Umfassende Ablationen zeigen, dass sowohl Designer als auch Ausführer im Verlauf des Trainings besser werden und dass effektives automatisches MAS-Lernen einem stufenweisen Co-Evolutionsprozess folgt. Diese Ergebnisse etablieren end-to-end trainierbare automatische MAS als praktisches Paradigma für den Aufbau selbstentwerfender und selbstausführender agentischer Modelle.
Aktivierungssteuerung ist eine verbreitete White-Box-Kontrolltechnik, die Modellaktivierungen modifiziert, um eine abstrakte Verhaltensänderung zu bewirken. Sie hat sich zudem als Standardwerkzeug in der Interpretierbarkeitsforschung (z. B. zur Untersuchung von Wahrhaftigkeit oder zur Übersetzung von Aktivierungen in menschenlesbare Erklärungen) und in der Sicherheitsforschung (z. B. zur Jailbreakbarkeit) etabliert. Allerdings ist unklar, ob gesteuertes Verhalten durch irgendeinen textuellen Prompt realisierbar ist. In dieser Arbeit fassen wir diese Frage als Surjektivitätsproblem auf: Besitzt für ein festes Modell jede gesteuerte Aktivierung ein Urbild unter dem natürlichen Vorwärtsdurchlauf des Modells? Unter praktischen Annahmen beweisen wir, dass Aktivierungssteuerung den Residualstrom von der Mannigfaltigkeit der aus diskreten Prompts erreichbaren Zustände wegschiebt. Mit hoher Wahrscheinlichkeit kann kein Prompt das gleiche interne Verhalten reproduzieren, das durch Steuerung hervorgerufen wird. Wir veranschaulichen dieses Ergebnis zudem empirisch an drei weit verbreiteten LLMs. Unsere Ergebnisse etablieren eine formale Trennung zwischen White-Box-Steuerbarkeit und Black-Box-Prompting. Daher warnen wir davor, die Leichtigkeit und den Erfolg von Aktivierungssteuerung als Beleg für Prompt-basierte Interpretierbarkeit oder Verwundbarkeit zu interpretieren, und plädieren für Evaluierungsprotokolle, die White-Box- und Black-Box-Interventionen explizit entkoppeln.
Die Überwachung komplexer Industrieanlagen stützt sich auf von Ingenieuren verfasste symbolische Regeln, die bei bestimmten Sensorzuständen ausgelöst werden und Techniker zu Korrekturmaßnahmen auffordern. Der Engpass liegt nicht in der Erkennung, sondern in der Reaktion: Die Umsetzung von Regeln in Wartungsschritte erfordert anlagenspezifisches Wissen, das erst durch jahrelange Praxis erworben wird. Wir untersuchen, ob große Sprachmodelle (LLMs) als Entscheidungsunterstützung für diesen Schritt von der Regel zur Aktion dienen können, und stellen einen Benchmark mit 6.690 fachlich validierten Multiple-Choice-Fragen aus 118 Regel-Aktions-Paaren über 16 Anlagentypen vor. Wir liefern (i) eine Pipeline zur Umwandlung symbolischer Regeln in MCQA-Fragen, die Regeln in disjunktive Normalform überführt und eine embeddingsbasierte Distraktorauswahl verwendet, (ii) fünf Varianten, die verschiedene Fehlermodi untersuchen (Pro, Pert, Verbose, Aug, Rationale), sowie (iii) einen Benchmark von 29 LLMs und vier Embedding-Baselines. Eine menschliche Bewertung (9 Praktiker, Mittelwert 45,0 %) bestätigt, dass der Benchmark spezialisiertes Wissen über die operative Erfahrung hinaus erfordert. Drei Ergebnisse stechen hervor. Die Spitzengruppe hat sich zusammengeschlossen: Die drei besten LLMs liegen innerhalb eines Makropunkts, wobei Bradley-Terry Elo claude-opus-4-6 30 Punkte über dem nächsten Modell platziert. Doch Pro offenbart eine Anfälligkeit: Jedes Modell verliert unter Distraktor-Erweiterung 13–60 % relative Genauigkeit. Aug deckt Mustererkennung auf: Bei Bedingungsumkehrung wählen die Spitzenmodelle in 49–63 % der Fälle immer noch die ursprüngliche Antwort. Der Engpass bei der Bereitstellung ist nicht die Leistungsfähigkeit, sondern die Kalibrierung: Spitzenmodelle beherrschen die Fehlererkennung in Vorlagenform, brechen jedoch unter strukturellen Störungen ein.
Die jüngsten Fortschritte bei Vision-Language-Action (VLA)-Modellen haben einen dringenden Bedarf an groß angelegten egozentrischen Datensätzen hervorgerufen. Allerdings sind bestehende Datensätze oft durch kurze Episodendauern von typischerweise nur wenigen Minuten begrenzt, was die für die Ausführung komplexer Robotikaufgaben erforderlichen zeitlichen Abhängigkeiten über lange Horizonte nicht erfassen kann. Um diese Lücke zu schließen, präsentieren wir MobileEgo Anywhere, ein Framework zur Erfassung robuster, stundenlanger egozentrischer Trajektorien mit handelsüblicher mobiler Hardware. Wir nutzen die allgegenwärtigen Sensorbündel moderner Smartphones für eine hochgenaue, langfristige Kameraposenverfolgung und beseitigen so effektiv die hohen Hürden, die traditionell mit der Robotikdatenerfassung verbunden sind. Unsere Beiträge sind dreifach: (1) Wir veröffentlichen einen neuartigen Datensatz mit 200 Stunden vielfältiger, langer egozentrischer Daten mit kontinuierlicher Zustandsverfolgung; (2) Wir stellen eine mobile App als Open Source zur Verfügung, die es jedem Benutzer ermöglicht, egozentrische Daten aufzuzeichnen; (3) Wir bieten eine umfassende Verarbeitungspipeline, die rohe mobile Aufnahmen in standardisierte, trainingsbereite Formate für die Forschung an Vision-Language-Action-Modellen und Grundlagenmodellen umwandelt. Durch die Demokratisierung des Datenerfassungsprozesses ermöglicht diese Arbeit die Erfassung von Langzeitdaten in großem Maßstab in unterschiedlichen globalen Umgebungen und beschleunigt die Entwicklung generalisierbarer Roboterpolitiken.
Die Bildgenerierung mit wenigen Schritten hat rasche Fortschritte gemacht, wobei konsistenz- und mittelwertbasierte Methoden die Anzahl der Abtastschritte deutlich reduziert haben. Trotz ihrer geringen Inferenzkosten leiden diese Ansätze oft unter Trainingsinstabilität und eingeschränkter Skalierbarkeit. Der Sphere Encoder ist eine aktuelle Alternative, die qualitativ hochwertige Bilder in nur wenigen Schritten erzeugt; jedoch erfordert er während der Inferenz wiederholte Übergänge zwischen Pixelraum und latentem Raum, während Rekonstruktion und Generierung innerhalb einer einzigen Architektur gemeinsam optimiert werden. Dieses Design führt zu Rechenineffizienz und Zielkonflikten zwischen Rekonstruktion und Generierung. Um diese Einschränkungen zu beheben, entkoppeln wir das Framework in einen festen, vortrainierten Bildencoder und ein separates latentes Denoising-Modell, das vollständig in einem sphärischen latenten Raum trainiert wird. Unser Ansatz eliminiert wiederholte Operationen im Pixelraum während Training und Inferenz, verbessert die Effizienz und ermöglicht es Rekonstruktion und Generierung, sich unabhängig zu spezialisieren. Auf den Datensätzen Animal-Faces, Oxford-Flowers und ImageNet-1K übertrifft unsere Methode den Sphere Encoder sowohl in der Generierungsqualität als auch in der Inferenzgeschwindigkeit deutlich, während sie wettbewerbsfähige Ergebnisse gegenüber starken Baselines mit wenigen und vielen Schritten erzielt.
Groß angelegte vortrainierte Vision-Language-Modelle wie CLIP zeigen bemerkenswerte Zero-Shot-Leistung über verschiedene Aufgaben hinweg. Die Feinabstimmung dieser Modelle zur Verbesserung der nachgelagerten Leistung führt jedoch häufig zu einer Verschlechterung der Robustheit gegenüber Verteilungsverschiebungen. Neuere Ansätze haben versucht, diesen Zielkonflikt zu mildern, stützen sich jedoch oft auf rechenintensive Textführung. Wir schlagen eine neuartige Methode für robuste Feinabstimmung vor, SAE-FT, die ausschließlich auf den visuellen Darstellungen des Modells operiert. SAE-FT regularisiert Änderungen an diesen Darstellungen, indem es das Hinzufügen und Entfernen semantisch bedeutsamer Merkmale bestraft, die durch einen auf dem vortrainierten Modell trainierten Sparse Autoencoder identifiziert wurden. Diese Einschränkung verhindert katastrophales Vergessen und macht den Feinabstimmungsprozess interpretierbar, was eine direkte Analyse semantischer Änderungen ermöglicht. SAE-FT ist sowohl mechanistisch transparent als auch recheneffizient und erreicht oder übertrifft die aktuell beste Leistung auf ImageNet und den zugehörigen Benchmarks für Verteilungsverschiebungen. Der Code ist öffentlich verfügbar unter: https://github.com/Fabian-Mor/sae-ft.
Die Avatarekonstruktion basierte traditionell auf einer subjektspezifischen Optimierung, die stundenlange Berechnungen oder teure Vorverarbeitung erforderte, was die Skalierbarkeit einschränkt. Wir stellen FFAvatar vor, ein generalisierbares Feed-Forward-Framework, das aus wenigen ungestellten Porträtbildern in Sekunden hochwertige, animierbare 3D-Gauß-Kopfavatare rekonstruiert. FFAvatar fusioniert Informationen aus mehreren Quellbildern durch den Multi-View Query-Former zu einer einheitlichen kanonischen Gauß-Darstellung, die über end-to-end aus Pixeln vorhergesagte FLAME-Parameter animiert wird, wodurch der Aufwand einer Offline-FLAME-Extraktion entfällt. Weiterhin schlagen wir ein dreistufiges Trainingscurriculum vor, das sowohl eine breite Generalisierung als auch eine hochgetreue Rekonstruktion erreicht: (i) skalierbares Vorabtraining auf umfangreichen monokularen Videodaten mit über 1 Million Identitäten zum Erlernen starker generalisierbarer Vorkenntnisse; (ii) Multi-View-Feinabstimmung auf einem kleinen, aber qualitativ hochwertigen Datensatz von 360-Grad-Aufnahmen zur Verbesserung der geometrischen Genauigkeit und der Wahrnehmung extremer Blickwinkel; und (iii) optionale Personalisierung, die sich innerhalb von 500 Optimierungsschritten an spezifische Identitäten für maximale Genauigkeit anpasst. Umfangreiche Experimente belegen, dass FFAvatar einen neuen Standard für Identitätserhaltung, geometrische Konsistenz und Animationsgenauigkeit setzt. Auf dem NeRSemble-Benchmark übertrifft es den aktuellen Stand der Technik, LAM, um einen deutlichen PSNR-Gewinn von 5,5 dB. Darüber hinaus ermöglicht FFAvatar den Echtzeit-Einsatz: Avatare werden ohne Personalisierung in 2 Sekunden und mit Personalisierung in 10 Sekunden rekonstruiert, bei gleichzeitiger Unterstützung von 49 FPS Animation auf einer einzelnen NVIDIA A100 GPU.
Sprachmodelle-basierte Agenten scheitern in unbekannten Umgebungen häufig an vorzeitiger Ausbeutung: der Tendenz, auf Grundlage von Vorwissen zu handeln, bevor ausreichend umgebungsspezifische Informationen erlangt wurden. Wir identifizieren autonome Exploration als eine kritische, jedoch unzureichend erforschte Fähigkeit zur Entwicklung adaptiver Agenten. Um diese Fähigkeit zu formalisieren und zu quantifizieren, führen wir den Exploration-Checkpoint-Coverage ein, eine überprüfbare Metrik, die misst, wie umfassend ein Agent Schlüsselzustände, Objekte und Affordanzen entdeckt. Unsere systematische Evaluierung zeigt, dass Agenten, die mit standardmäßigem aufgabenorientiertem Reinforcement Learning trainiert wurden, durchgängig eng fokussierte und repetitive Verhaltensweisen aufweisen, die die nachgelagerte Leistung beeinträchtigen. Um diese Einschränkung zu beheben, entwickeln wir eine Trainingsstrategie, die Aufgabenausführungs-Rollouts und Explorations-Rollouts verschränkt, wobei jeder Rollout-Typ durch seinen entsprechenden überprüfbaren Reward optimiert wird. Aufbauend auf dieser Trainingsstrategie schlagen wir das Erkunde-dann-Handle-Paradigma vor, das die Informationsgewinnung von der Aufgabenausführung entkoppelt: Agenten nutzen zunächst ein Interaktionsbudget, um fundiertes Umweltwissen zu erwerben, und setzen dieses dann zur Aufgabenlösung ein. Unsere Ergebnisse belegen, dass das Erlernen systematischer Exploration für die Entwicklung generalisierbarer und realitätsfähiger Agenten unabdingbar ist.
Aktuelle 3D-Weltmodellierungssysteme, die auf generativer Szenensynthese basieren, wie etwa Marble, können kohärente und erkundbare 3D-Umgebungen erzeugen, doch ihre Ausgaben sind typischerweise statische monolithische Objekte mit begrenzter Editierbarkeit und physikalischer Interaktion. Dies schränkt ihre Nutzung in der immersiven Inhaltserstellung und der verkörperten Simulation ein, in denen generierte Welten aktiv verändert und manipuliert werden müssen. Um diese Herausforderung zu bewältigen, präsentieren wir WorldAct, ein Framework, das statische generierte 3D-Welten in editierbare und interaktionsbereite Szenen umwandelt. WorldAct nutzt einen multimodalen Agenten, um die Szenenzerlegung zu steuern, handlungsrelevante Objekte zu identifizieren, geometrisch ausgerichtete objektebenen-Meshes für die Interaktion zu rekonstruieren und den verbleibenden Hintergrund mittels 3D-Inpainting wiederherzustellen. Die resultierenden Szenen unterstützen Editierung auf Objektebene, kollisionsbewusste Manipulation und verkörperte Aufgabenausführung, während die globale Szenenkohärenz erhalten bleibt. Experimente zeigen, dass WorldAct reichhaltigere Interaktionsszenarien ermöglicht als die ursprünglichen generierten Szenen, was einen praktischen Weg hin zu editierbaren und interaktiven 3D-Weltmodellen aufzeigt.
Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) hat sich als effektives Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle erwiesen. Allerdings wird das RLVR-Training oft durch spärliche binäre Belohnungen und schwache Kreditzuweisung behindert, was zu mehrdeutigen Optimierungssignalen und einer unzureichenden Nutzung der in fehlgeschlagenen Trajektorien enthaltenen nützlichen Informationen führt. Um dieser Herausforderung zu begegnen, schlagen wir die korrekturorientierte Politikoptimierung (Correction-Oriented Policy Optimization, CIPO) vor – eine einfache und effektive Erweiterung von RLVR, die on-policy fehlgeschlagene Trajektorien in korrekturorientierte Überwachung umwandelt, ohne auf externe Signale angewiesen zu sein. Durch die gemeinsame Optimierung von Korrekturbeispielen, die aus den eigenen fehlgeschlagenen Versuchen des Modells abgeleitet werden, zusammen mit dem standardmäßigen RLVR-Ziel, verbessert CIPO die Lerneffektivität und steigert explizit die Fähigkeit des Modells, seine eigenen Fehler zu korrigieren. Umfangreiche Experimente über 11 Benchmarks hinweg, die mathematisches Reasoning und Codegenerierung abdecken, zeigen, dass CIPO durchgängig und signifikant bessere Ergebnisse als starke Baselines sowohl in Bezug auf Reasoning- als auch auf Korrekturleistung erzielt. Darüber hinaus erzielt CIPO stärkere pass@K-Gewinne, was darauf hindeutet, dass es die intrinsische Reasoning-Fähigkeit des Modells verbessert und nicht nur die Wahrscheinlichkeitsmasse über bestehende korrekte Antworten umverteilt.
Auf dem Weg zur rekursiven Selbstverbesserung untersuchen wir, wie LLM-Agenten autonom Foundation-Modelle jenseits standardmäßiger Transformer entwerfen. Wir führen einen Zwei-Framework-Ansatz ein: AIRA-Compose für die Architektursuche auf hoher Ebene und AIRA-Design für die mechanistische Implementierung auf niedriger Ebene. AIRA-Compose nutzt 11 Agenten, um grundlegende rechnerische Grundbausteine innerhalb eines 24-Stunden-Budgets zu erkunden. Die Agenten bewerten Kandidaten mit Millionen von Parametern und extrapolieren die besten Designs auf Skalen von 350M, 1B und 3B. Dies ergibt 14 Architekturen in zwei Familien: AIRAformer (Transformer-basiert) und AIRAhybrids (Transformer-Mamba). Mit 1B-Skala vortrainiert, übertreffen sie durchweg Llama 3.2 und vom Composer gefundene Basislinien. Bei Downstream-Aufgaben verbessern AIRAformer-D und AIRAhybrid-D die Genauigkeit um 2,4 % bzw. 3,8 % im Vergleich zu Llama 3.2. Darüber hinaus findet AIRA-Compose Modelle mit hoch effizienten Skalierungsgrenzen: AIRAformer-C skaliert 54 % und 71 % schneller als Llama 3.2 bzw. der beste Transformer von Composer, während AIRAhybrid-C Nemotron-2 um 23 % und den besten Hybriden von Composer um 37 % übertrifft. AIRA-Design beauftragt 20 Agenten mit dem Schreiben neuartiger Aufmerksamkeitsmechanismen für langreichweitige Abhängigkeiten und leistungsstarker Trainingsskripte. Im Long Range Arena-Benchmark erreichen die von Agenten entworfenen Architekturen bei Dokumentabgleich und Textklassifikation Werte, die nur 2,3 % bzw. 2,6 % unter den menschlichen Spitzenleistungen liegen. Im Autoresearch-Benchmark erzielt Greedy Opus 4.5 unter einem festgelegten Zeitbudget 0,968 Validierungs-Bits-pro-Byte und übertrifft damit den veröffentlichten Minimalwert. Zusammen zeigen diese Frameworks, dass KI-Agenten autonom Architekturen und algorithmische Optimierungen entdecken können, die manuell entwickelten Basislinien entsprechen oder diese übertreffen. Dies etabliert ein leistungsfähiges Paradigma zur Entdeckung von Foundation-Modellen der nächsten Generation und stellt einen klaren Schritt in Richtung rekursiver Selbstverbesserung dar.
Unabhängig davon, ob ein Agent ein Gebäude navigiert, einen Roboter steuert oder ein Spiel spielt – um effektiv in einer Umgebung zu handeln, muss er zunächst ein internes Modell dieser Umgebung erlernen. Teilweise beobachtbare Markov-Entscheidungsprozesse (POMDPs) bieten eine flexible Modellklasse für derartige interne Weltmodelle, doch das Erlernen allein aus Beobachtungs-Aktions-Trajektorien ist anspruchsvoll und erfordert typischerweise umfangreiche Interaktion mit der Umgebung. Wir untersuchen, ob Sprachmodell-Priors durch die Nutzung von Vorwissen kostspielige Interaktionen reduzieren können, und stellen Pinductor (POMDP-Induktor) vor: Ein LLM schlägt aus wenigen Beobachtungs-Aktions-Trajektorien Kandidaten-POMDP-Modelle vor und verfeinert diese iterativ, um einen glaubensbasierten Likelihood-Wert zu optimieren. Obwohl Pinductor mit deutlich weniger Informationen auskommt, erreicht es die gleiche Leistung und Stichprobeneffizienz wie LLM-basierte POMDP-Lernmethoden, die privilegierten Zugriff auf den verborgenen Zustand voraussetzen, und übertrifft die Stichprobeneffizienz von tabellarischen POMDP-Baselines signifikant. Weitere Ergebnisse zeigen, dass die Leistung mit der LLM-Fähigkeit skaliert und abgestuft abnimmt, wenn dem Modell semantische Informationen über die Umgebung vorenthalten werden. Insgesamt positionieren diese Ergebnisse Sprachmodell-Priors als praktisches Werkzeug für stichproben-effizientes Weltmodell-Lernen unter teilweiser Beobachtbarkeit und als einen Schritt hin zu generalistischen Agenten in realen Umgebungen. Der Code ist verfügbar unter https://github.com/atomresearch/pinductor.
Sparse-Mixture-of-Experts (MoE)-Schichten leiten Token durch eine Handvoll Experten, und die lernfreie Kompression dieser Schichten reduziert die Inferenzkosten ohne Nachtraining. Ein subtiles Hindernis blockiert jeden existierenden Kompressor dieser Familie: Drei Experten können jeweils paarweise kompatibel sein, aber bei gemeinsamer Zusammenführung einen irreduziblen Zyklus bilden, sodass jeder Score, der Experten anhand paarweiser Signale bewertet, strukturell blind dafür ist, welche Tripel gemeinsam zusammenführbar sind. Wir zeigen, dass das Hindernis ein präzises mathematisches Objekt ist – den harmonischen Kern des simplizialen Laplace-Operators auf einem 2-Komplex, dessen Knoten die Experten sind, dessen Kanten KL-Zusammenführungsbarrieren tragen und dessen Flächen Tripel-Barrieren tragen. Die Hodge-Zerlegung des Kantenbarriere-Signals isoliert den Kern exakt. Wir verwandeln die Diagnose in ein Selektionsziel: HodgeCover überdeckt gierig die harmonisch-kritischen Kanten und tripelkritischen Dreiecke, und eine hybride Variante von HodgeCover kombiniert dies mit Standard-Gewichtsbereinigung an Überlebenden. Auf drei offenen Sparse-MoE-Grundmodellen unter aggressiver Expertenreduktion erreicht HodgeCover auf der Expertenreduktionsachse den Stand der Technik bei lernfreien Baselines, führt an der Front der aggressiven Kompression auf der Hybridachse und balanciert einzigartig die beibehaltene Masse über alle vier Hodge-Komponenten. Diese Ergebnisse zeigen, dass die Offenlegung des harmonischen Kerns einer gelernten MoE-Struktur ändert, welcher Kompressor im wichtigsten Regime gewinnt.
Cross-Embodiment-Videogenerierung zielt darauf ab, Bewegungen zwischen verschiedenen humanoiden Verkörperungen zu übertragen, etwa von Mensch zu Roboter oder von Roboter zu Roboter, um skalierbare Datenerzeugung für verkörperte Intelligenz zu ermöglichen. Eine zentrale Herausforderung in diesem Umfeld besteht darin, dass Bewegungsdynamiken teilweise zwischen den Verkörperungen übertragbar sind, während Erscheinung und Morphologie verkörperungsspezifisch bleiben. Bisherige Ansätze verflechten diese Faktoren oft und viele erfordern gepaarte Daten für jede Zielverkörperung, was die Skalierbarkeit auf neue Roboter einschränkt. Wir stellen OmniHumanoid vor, ein Framework, das die Erlernung übertragbarer Bewegungen und die verkörperungsspezifische Anpassung faktorisiert. Unsere Methode lernt ein gemeinsames Bewegungsübertragungsmodell aus bewegungsabgestimmten, gepaarten Videos, die mehrere Verkörperungen umfassen, während sie sich mithilfe leichtgewichtiger verkörperungsspezifischer Adapter nur mit ungepaarten Videos an neue Verkörperungen anpasst. Um Störungen zwischen Bewegungsübertragung und Verkörperungsadaption zu reduzieren, führen wir zudem ein zweigisoliertes Aufmerksamkeitsdesign ein, das die Bewegungssteuerung von der verkörperungsspezifischen Modulation trennt. Darüber hinaus konstruieren wir einen synthetischen Cross-Embodiment-Datensatz mit bewegungsabgestimmten, gepaarten Videos, die über verschiedene humanoide Assets, Szenen und Blickwinkel gerendert wurden. Experimente auf synthetischen und realen Benchmarks zeigen, dass OmniHumanoid eine hohe Bewegungstreue und Verkörperungskonsistenz erreicht und gleichzeitig eine skalierbare Anpassung an unbekannte humanoide Verkörperungen ohne ein erneutes Training des gemeinsamen Bewegungsmodells ermöglicht.
Die Fernerkundungs-Änderungserkennung (RSCD) zielt darauf ab, Veränderungen zwischen zwei Bildern derselben geografischen Region zu lokalisieren. In der Praxis folgen Änderungsmasken oft regionsbezogenen Annotationskonventionen und nicht rein lokalen Erscheinungsunterschieden, was sie kontextabhängig und gelegentlich mehrdeutig macht. Die meisten modernen Methoden verwenden eine pixelweise diskriminative Klassifikation, die eine einzelne Vorhersage pro Eingabe erzeugt und es versäumt, die veränderte Region explizit als kohärentes Ganzes zu modellieren. Eine natürliche Alternative ist die generative Formulierung, die eine Verteilung plausibler Masken modellieren kann, wodurch Sampling die Mehrdeutigkeit erfassen und globale Konsistenz fördern kann. Allerdings bleiben bestehende generative RSCD-Ansätze aufgrund der hohen Rechenkosten der Pixelerzeugung und der Komplexität ihrer Konditionierungsmechanismen typischerweise hinter starken diskriminativen Basislinien zurück. Um die Einschränkungen früherer diskriminativer und generativer Methoden zu adressieren, schlagen wir ChangeFlow vor, ein generatives Framework, das die Änderungserkennung als Synthese einer Änderungsmaske im latenten Raum mittels Rectified Flow umformuliert. ChangeFlow wird durch ein strukturiertes und dennoch leichtgewichtiges Konditionierungssignal gesteuert, und sein stochastisches Design unterstützt auf natürliche Weise ein sampling-basiertes Vorhersage-Ensembling. Insbesondere verbessert die Aggregation mehrerer vorhergesagter Änderungsmasken die Robustheit, während die Übereinstimmung der Stichproben eine praktische Konfidenzschätzung liefert, die mehrdeutige Regionen hervorhebt. Über vier Benchmarks hinweg erreicht ChangeFlow einen durchschnittlichen F1-Score von 80,4%, was einer durchschnittlichen Verbesserung von 1,3 Punkten gegenüber der bisher besten Methode entspricht, während die Inferenzgeschwindigkeit mit aktuellen starken Basislinien vergleichbar bleibt. Projektseite: https://blaz-r.github.io/changeflow_cd
LLM-Agenten werden zunehmend innerhalb von Ausführungs-Harnesses ausgeführt, die Werkzeuge verteilen, Ressourcen zuweisen und Nachrichten zwischen spezialisierten Komponenten leiten. Ein Harness kann jedoch eine korrekte, harmlose Antwort über eine Trajektorie zurückgeben, die auf nicht autorisierte Ressourcen zugreift oder Kontext an den falschen Agenten weitergibt. Die Bewertung auf Ausgabeebene kann diese Fehler nicht erkennen, doch die meisten Sicherheits-Benchmarks bewerten nur Endausgaben oder Endzustände, obwohl viele Verstöße mitten in der Trajektorie und nicht bei Beendigung auftreten. Die zentrale Frage ist, ob der Harness während der gesamten Ausführung die Benutzerabsicht, Berechtigungsgrenzen und Informationsflussbeschränkungen respektiert. Um diese Lücke zu schließen, schlagen wir HarnessAudit vor, ein Framework, das vollständige Ausführungstrajektorien hinsichtlich Grenzeinhaltung, Ausführungstreue und Systemstabilität prüft, mit Schwerpunkt auf Multiagenten-Harnesses, bei denen diese Risiken am stärksten ausgeprägt sind. Wir führen weiterhin HarnessAudit-Bench ein, einen Benchmark mit 210 Aufgaben aus acht realen Domänen, die sowohl in Einzelagenten- als auch in Multiagentenkonfigurationen mit eingebetteten Sicherheitseinschränkungen instanziiert werden. Bei der Bewertung von zehn Harness-Konfigurationen über Frontier-Modelle und drei Multiagenten-Frameworks hinweg stellen wir fest, dass: (i) Aufgabenabschluss und sichere Ausführung nicht ausgerichtet sind und Verstöße mit der Trajektorienlänge zunehmen; (ii) Sicherheitsrisiken je nach Domäne, Aufgabentyp und Agentenrolle variieren; (iii) die meisten Verstöße sich auf Ressourcenzugriff und agentenübergreifenden Informationsaustausch konzentrieren; und (iv) Multiagenten-Kollaboration die Sicherheitsrisikooberfläche erweitert, während das Harness-Design die Obergrenze für den sicheren Einsatz setzt.
Wir prüfen die multimodale Physikbewertungspipeline End-to-End und dokumentieren drei unentdeckte Konstruktionspraktiken, die verzerren, wie das Feld das visuell-sprachliche Reasoning misst: Train-Eval-Kontamination, Übersetzungsdrift und MCQ-Sättigung. (1) Öffentliche Trainingspools (UGPhysics-Train, SciInstruct, MMK12) bestehen einstufige 5-Gramm-Jaccard-Audits mit null Treffern in allen sechs öffentlichen Physik-Evaluierungen; ein dreistufiges Audit (Jaccard -> mxbai-embed-large Cosinus -> Haiku-4.5 LLM-Bewerter) deckt allein in SciInstruct 134 nahe Duplikate und 4.846 Paraphrasenkandidaten auf. (2) Ein 17-Prozentpunkte-Delta bei Sonnet 4.5 bei 59 gepaarten estnisch-englischen Olympiadeaufgaben (30,5 % vs. 13,6 %; Vorzeichentest p=0,011, McNemar p=0,021, gepaartes Bootstrap 95 %-KI [+5,1; +28,9] Prozentpunkte). (3) Ein 46-Prozentpunkte-Format-und-Neuheitsgradient bei identischen Sonnet-Gewichten zwischen MCQ (79,7 % auf PhyX) und offener Olympiade-Bewertung (33,4 % auf PhysOlym-A). Wir veröffentlichen vier Artefakte, die diese Lücken adressieren: PhysCorp-A (6.432 Datensätze umfassendes, dreistufig auditiertes multimodales Korpus), PhysR1Corp (2.268 Datensätze umfassender geschlossener RL-Pool), PhysOlym-A (500 Aufgaben, 99,8 % neuartige Quellen, zurückgehaltene Olympiade-Bewertung mit nativen Schwierigkeitsgraden und einem EN/ET zweisprachigen Teilsatz) und Physics-R1, ein Referenzrezept GSPO+DAPO, kaltgestartet von Qwen3-VL-8B-Thinking. Über 3 Seeds hinweg hebt Physics-R1 das auditierte Korpus gegenüber der 8B-Basis um +18,3 Prozentpunkte bei PhysOlym-A liberal (8,0 -> 26,3 +/- 1,7; 7,1 Prozentpunkte hinter Sonnet 4.5), +15,7 Prozentpunkte bei PhysReason (23,9 -> 39,6 +/- 6,4; vor Qwen3-VL-32B und Gemini 2.5 Pro), +6,9 Prozentpunkte bei OlympiadBench-Physics (46,2 +/- 1,5) und +4,1 Prozentpunkte bei PhyX MCQ (77,8 +/- 0,3).
Die Multi-Head Latent Attention (MLA), die in DeepSeek-V2/V3 verwendete Aufmerksamkeit, komprimiert sowohl Schlüssel als auch Werte gemeinsam in eine niedrigrangige latente Variable und erreicht fast perfekt die H100-Roofline. Ihre trainierten Gewichte legen jedoch nur einen Dekodierungspfad offen – eine absorbierte MQA-Form –, der eine effiziente Inferenz an das Rechen-Bandbreiten-Verhältnis der H100-Klasse bindet, Tensorparallelität entlang der Kopfachse ausschließt und keinen Gewinn durch Multi-Token-Vorhersage (MTP) auf handelsüblichen Inferenz-GPUs wie der exportbeschränkten H20 erzielt. Wir schlagen die Group-Query Latent Attention (GQLA) vor, eine minimale Modifikation der MLA, deren trainierte Gewichte zwei algebraisch äquivalente Dekodierungspfade über dieselben Parameter freigeben: einen MQA-Absorptionspfad, der mit dem der MLA identisch ist, und einen GQA-Pfad mit einem pro Gruppe erweiterten Cache. Die Laufzeit wählt den Pfad, der zur Zielhardware passt – ohne erneutes Training, ohne benutzerdefinierte Kernel –, sodass ein einzelner Satz von GQLA-Gewichten die Rooflines sowohl der H100 (MQA-Absorption, s_q=1) als auch der H20 (GQA + MTP, s_q=2) trifft, während auf dem GQA-Pfad eine bis zu 8-fache nullredundante Tensorparallelität unterstützt wird. Um ein Vortraining von Grund auf zu vermeiden, erweitern wir TransMLA zu TransGQLA, das einen vortrainierten GQA-Checkpoint in ein GQLA-Modell umwandelt; bei LLaMA-3-8B komprimiert es den Pro-Token-KV-Cache auf 28,125 % des GQA-Ausgangswerts auf dem MQA-Absorptionspfad, während es strukturell den GQA-Niveau-Verkehr auf dem Pro-Gruppen-Pfad bewahrt.
Standardbewertungen des Auslernens messen die Verhaltensunterdrückung in voller Präzision unmittelbar nach dem Training, obwohl jedes eingesetzte Sprachmodell zuerst quantisiert wird. Aktuelle Arbeiten haben gezeigt, dass eine 4-Bit-Quantisierung nach dem Training das maschinelle Auslernen rückgängig machen kann; wir zeigen, dass dies kein Abstimmungsartefakt, sondern ein systematischer dualer Fehler ist: Gradientenbasierte Verfahren, die ein sinnvolles Vergessen erreichen, verlieren dieses unter Kompression, während Verfahren, die die Quantisierung überstehen, das Modell kaum verändern. Beide Fehler lassen sich auf dieselbe Ursache zurückführen: Über alle Basislinien hinweg liegen parameterweise Aktualisierungen um den Faktor 47–828 unterhalb der NF4-Quantisierungsintervallbreite; über Milliarden von Parametern verteilte Aktualisierungen können Quantisierungsintervallgrenzen nicht überschreiten – eine Konsequenz, die wir als Sparsity-Permanence-Kompromiss formalisieren. Wir stellen MANSU (Mechanistic-Aligned Null-Space Unlearning) vor, das beide Modi auflöst, indem es eine kausale Schaltkreisattribution zur Isolierung des minimalen Auslern-Set-Teilgraphen, eine schaltkreisbeschränkte Nullraumprojektion mit einer diagonal-Fisher-Erhaltungsgrenze und eine parameterweise Magnitudenuntergrenze kombiniert, die die Quantisierungsbeständigkeit konstruktionsbedingt garantiert. Zusätzlich führen wir die Schaltkreis-Attributionsdivergenz (CAD) ein, eine mechanistische Verifikationsmetrik, die strukturelle Löschung von Verhaltensunterdrückung unterscheidet – eine Unterscheidung, die bestehende Metriken nicht treffen können. Über mehrere Modellfamilien und Risikobenchmarks hinweg ist MANSU die erste Methode, die alle vier Eigenschaften gemeinsam mit jeweils positivem Spielraum erfüllt (sinnvolles Vergessen, Erhalt des Behaltenen, nicht-positive PTQ-Lücke und strukturelle Löschung), während gradientenbasierte Basislinien unter Kompression bis zu +0,05 Genauigkeit zurückgewinnen.
Bestehende Ansätze zur kontrollierten Generierung beruhen typischerweise auf Feintuning, Hilfsnetzwerken oder testspezifischer Suche. Wir zeigen, dass Flow Matching eine andere Steuerungsschnittstelle ermöglicht: Anpassung durch Beispiele. Bei deterministischen Interpolanten wird das Geschwindigkeitsfeld ausschließlich durch einen bedingten Endpunkt-Mittelwert bestimmt; eine Verschiebung dieses Mittelwerts verschiebt den Fluss selbst. Dies ergibt ein einfaches Prinzip für kontrollierte Generierung: Lenken Sie ein vortrainiertes Modell, indem Sie die Referenzmenge ändern, der es folgt. Wir setzen diese Idee in zwei Formen um. Die Referenz-Mittelwert-Steuerung (Reference-Mean Guidance) ist trainingsfrei: Sie berechnet eine Endpunkt-Mittelwert-Korrektur in geschlossener Form aus einer Referenzbank und wendet sie auf ein eingefrorenes FLUX.2-klein (4B)-Modell an, was eine Kontrolle von Farbe, Identität, Stil und Struktur ermöglicht, während Prompt, Seed und Gewichte unverändert bleiben. Die semi-parametrische Steuerung (Semi-Parametric Guidance) amortisiert dieselbe Idee durch einen expliziten Mittelwert-Anker und einen gelernten Residuen-Verfeinerer, erreicht unbedingte DiT-B/4-Qualität auf AFHQv2 und erlaubt, die Referenzmenge zur Inferenzzeit auszutauschen. Diese Ergebnisse weisen auf eine breitere Richtung hin: generative Modelle, die sich durch Daten anpassen, nicht durch Parameteraktualisierungen.
Die Rekonstruktion einer strukturierten Vektorgrafikdarstellung aus einem gerasterten Grundrissbild ist typischerweise eine wichtige Voraussetzung für rechnerische Aufgaben mit Grundrissen, wie etwa automatisiertes Verständnis oder CAD-Workflows. Allerdings haben bestehende Techniken Schwierigkeiten, die Struktur und Semantik komplexer Grundrisse getreu zu erzeugen, die große Innenräume mit vielen Räumen und einer variierenden Anzahl von Polygon-Ecken darstellen. Zu diesem Zweck schlagen wir Raster2Seq vor, das die Grundrissrekonstruktion als eine Sequenz-zu-Sequenz-Aufgabe formuliert, bei der Grundrisselemente – wie Räume, Fenster und Türen – als beschriftete Polygon-Sequenzen dargestellt werden, die gemeinsam Geometrie und Semantik kodieren. Unser Ansatz führt einen autoregressiven Dekoder ein, der lernt, die nächste Ecke basierend auf Bildmerkmalen und zuvor generierten Ecken vorherzusagen, wobei er durch lernbare Ankerpunkte geleitet wird. Diese Ankerpunkte repräsentieren räumliche Koordinaten im Bildraum und ermöglichen es somit, den Aufmerksamkeitsmechanismus effektiv auf informative Bildbereiche zu lenken. Durch die Nutzung des autoregressiven Mechanismus bietet unsere Methode Flexibilität im Ausgabeformat und ermöglicht die effiziente Verarbeitung komplexer Grundrisse mit zahlreichen Räumen und unterschiedlichen Polygonstrukturen. Unsere Methode erzielt eine Spitzenleistung auf Standard-Benchmarks wie Structure3D, CubiCasa5K und Raster2Graph und zeigt gleichzeitig eine starke Generalisierungsfähigkeit auf anspruchsvollere Datensätze wie WAFFLE, die vielfältige Raumstrukturen und komplexe geometrische Variationen enthalten.
Segment Anything Model 2 (SAM2) zeigt eine starke Generalisierung für die promptbasierte Segmentierung in Videoclips; seine Integration mit der Audiomodalität ist jedoch noch wenig erforscht. Bestehende Ansätze wandeln Audio entweder über Foundation Models in visuelle Prompts (z. B. Bounding Boxes) um oder fügen Adapter in den Bildencoder ein, um eine audiovisuelle Fusion zu erreichen. Doch beide Richtungen sind in Mensch-im-Kreislauf-Szenarien aufgrund begrenzter Prompt-Genauigkeit und erhöhtem Inferenzaufwand unzureichend. Insbesondere leiden diese adapterbasierten Methoden oft unter einer Verdünnung der Audio-Prompts, bei der das Signal mit der Ausbreitung durch das Netzwerk allmählich schwächer wird. In dieser Arbeit schlagen wir AuralSAM2 vor, das Audio in SAM2 integriert und dabei dessen promptbasierte Segmentierungsfähigkeit weitgehend bewahrt. Das Kernmodul, AuralFuser, fusioniert Audio- und visuelle Merkmale, um spärliche und dichte Prompts zu erzeugen. Diese Prompts, gesteuert durch Audio und aufbauend auf SAM2s Merkmalpyramide, propagieren auditive Hinweise über die visuellen Ebenen und verstärken so den modalitätsübergreifenden Einfluss. Zur weiteren Angleichung der Modalitäten führen wir einen audiogeführten Kontrastverlust ein, der die auditive Relevanz in dominanten visuellen Merkmalen betont. Unsere Methode erzielt auf öffentlichen Benchmarks bemerkenswerte Genauigkeitssteigerungen bei nur minimalen Auswirkungen auf die interaktive Effizienz der promptbasierten Segmentierung. Unser Code ist verfügbar unter https://github.com/yyliu01/AuralSAM2.
Wir stellen ProofGrid vor, eine Benchmark-Suite zur Bewertung des LLM-Schlussfolgerns mittels maschinell überprüfbarer Beweise, nicht nur anhand von Endantworten. ProofGrid enthält 15 Aufgaben, die sich über Beweisschreiben, Beweisprüfung, Beweismaskierung und Beweislückenschließen erstrecken. Die Aufgaben werden in minimaler formaler Notation ausgedrückt, insbesondere NDL, einer kompakten Sprache des natürlichen Schließens, die in kurze Prompts passt und eine präzise, prüfbare Verifikation unterstützt. Dies ergibt eine mechanische, reproduzierbare und feinkörnige Evaluierung anstelle von Beurteilungen durch Menschen oder LLMs. ProofGrid deckt ein kalibriertes Schwierigkeitsspektrum ab, von grundlegenden Schlussfolgerungstests bis hin zu strukturreichen Herausforderungsaufgaben, die kein aktuelles Modell löst, und minimiert dabei die Abhängigkeit von Domänenwissen, Löserdelegation und Langkontextartefakten. Wir entwickeln außerdem einen vergleichenden Rahmen für Schlussfolgerungs-Benchmarks und nutzen ihn, um ProofGrid im Verhältnis zu bestehenden Arbeiten hinsichtlich Repräsentation, Verifikationsgarantien und Schlussfolgerungstiefe zu verorten. Methodisch führen wir eine instrumentierte Beweisprüfungspipeline ein, die geringfügige Oberflächenabweichungen toleriert, während sie den ersten inhaltlichen Schlussfolgerungsfehler lokalisiert, die Messauflösung verbessert und die Beweisplanung von niedrigstufigem Ausführungsrauschen trennt. Mit dieser Pipeline evaluieren wir eine breite Palette offener und proprietärer Modelle. Die Ergebnisse zeigen schnelle Fortschritte, aber erhebliche verbleibende Grenzen: Spitzenmodelle schneiden bei mehreren grundlegenden Aufgaben gut ab, doch schwierige Aufgaben, insbesondere solche, die globales kombinatorisches Denken oder niedrigstufige Beweissynthese erfordern, sind noch lange nicht gelöst. Wir identifizieren zudem epistemische Instabilität, bei der Modelle fehlerhafte Beweise generieren, aber dieselben lokalen Schlussfolgerungen isoliert korrekt ablehnen, und formalisieren dies mit einem Epistemic Stability Index. Schließlich ergänzen wir die Genauigkeit durch 2PL-IRT-Analysen, Wright-Karten und ein normalisiertes Aufgabendiskriminierungsmaß basierend auf Fisher-Informationen.
Wenn LLM-basierte Agenten zunehmend im Auftrag von Nutzern im Web surfen, stellt sich eine natürliche Frage: Können Websites passiv erkennen, welches zugrundeliegende Modell einen Agenten antreibt? Dies würde ein erhebliches Sicherheitsrisiko darstellen und gezielte Angriffe ermöglichen, die auf bekannte Modellschwachstellen zugeschnitten sind. Anhand von 14 führenden LLMs und vier Webumgebungen, die Aufgaben zur Informationssuche und zum Einkaufen umfassen, zeigen wir, dass die Aktionen eines Agenten und deren Interaktionszeiten, die über einen passiven JavaScript-Tracker erfasst werden, ausreichen, um das zugrundeliegende Modell mit einem F1-Wert von bis zu 96 % zu identifizieren. Wir formalisieren diese Angriffsfläche, indem wir demonstrieren, dass auf Agentenaktionen trainierte Klassifikatoren über Modellgrößen und -familien hinweg generalisieren. Wir zeigen ferner, dass aus wenigen Interaktionsspuren leistungsstarke Klassifikatoren trainiert werden können und dass die Agentenidentität früh innerhalb einer Episode abgeleitet werden kann. Das Einfügen zufälliger Zeitverzögerungen zwischen Aktionen verschlechtert die Klassifikatorleistung erheblich, bietet jedoch keinen robusten Schutz: Ein auf den verzögerten Spuren neu trainierter Klassifikator gewinnt die Leistungsfähigkeit weitgehend zurück. Wir veröffentlichen unsere Testumgebung und einen annotierten Korpus von Agentenspuren unter https://github.com/KabakaWilliam/known_actions{here}.
Georäumliche Foundation-Modelle (GFMs) wurden als generalisierbare Grundstrukturen für Katastrophenhilfe, Landbedeckungskartierung, Überwachung der Ernährungssicherheit und andere risikoreiche Erdbeobachtungsaufgaben vorgeschlagen. Die veröffentlichte Literatur zu diesen Modellen liefert Gutachtern oder Nutzern jedoch nicht genügend Informationen, um zu beurteilen, welches Modell für eine bestimmte Aufgabe geeignet ist. Wir argumentieren, dass niemand den aktuellen Stand der Technik bei georäumlichen Foundation-Modellen kennt. Die Methoden mögen nützlich sein, aber die GFM-Literatur standardisiert Evaluierungen, Trainings- und Testprotokolle, veröffentlichte Gewichte und Vortrainingskontrollen nicht ausreichend, um eine Vergleichbarkeit oder Rangfolge zu ermöglichen. In einer Überprüfung von 152 Artikeln fanden wir 46 papierübergreifende Abweichungen von mindestens 10 Punkten für dasselbe Modell, denselben Benchmark und dasselbe Protokoll; 94 von 126 Artikeln mit extrahierbaren Vortrainingsdaten verwenden eine Konfiguration, die in keinem anderen Artikel vorkommt; und 39 % der GFM-Papiere veröffentlichen keine Modellgewichte. Dieser Mangel an gemeinschaftlichen Standards ist lösbar. Wir schlagen sechs konkrete Erwartungen vor: Veröffentlichung von Gewichten mit benannter Lizenz, gemeinsame Kernbewertungen, Annotationen von kopierten gegenüber neu durchgeführten Basislinien, Angabe der Varianz, eine gemeinsame Bewertungsplattform sowie Kontrollen für Daten, Architektur und Algorithmus. Diese Lücken sind ein Koordinationsversagen, nicht die Schuld eines einzelnen Labors; die Autoren dieses Artikels haben – wie viele andere in der GFM-Gemeinschaft – dazu beigetragen. Statt die Gemeinschaft lediglich zu kritisieren, möchten wir konkrete Schritte hin zu einem gemeinsamen Verständnis aufzeigen, wie GFMs innoviert werden können.
Mehrsprachige Informationssuche wird in realen Suchumgebungen zunehmend wichtiger, in denen Nutzer Anfragen über gemischtsprachige Korpora stellen. Bestehende Evaluierungen belohnen hauptsächlich sprachunabhängige semantische Relevanz und behandeln relevante Textpassagen unabhängig von ihrer Sprache gleich. Allerdings hängt der Nutzen des Retrievals auch von der Sprache der abgerufenen Passagen ab: Nutzer bevorzugen möglicherweise Ergebnisse, die sie in der Abfragesprache lesen und überprüfen können, und eine Sprachdiskrepanz zwischen Anfrage und Passage kann die nachgelagerte Verankerung und Antwortverifikation in Retrieval-Augmented-Generation-Systemen erschweren. Um diese sprachbewusste Dimension zu evaluieren, führen wir MLAIRE ein, ein Protokoll zur mehrsprachigen sprachbewussten Evaluierung der Informationssuche, das das cross-linguale semantische Retrieval von der Präferenz für die Abfragesprache entkoppelt. MLAIRE erstellt kontrollierte Pools mit parallelen Textpassagen über verschiedene Sprachen hinweg, was die Messung der semantischen Retrieval-Genauigkeit und der Präferenz für die Abfragesprache ermöglicht, wenn äquivalente Übersetzungen verfügbar sind. Wir schlagen sprachbewusste Metriken vor, darunter die Sprachpräferenzrate (Language Preference Rate, LPR) und Lang-nDCG, zusammen mit einer viergliedrigen Zerlegung, die semantische Fehler und Fehler der Präferenz für die Abfragesprache trennt. Durch die Evaluierung von 31 dichten, spärlichen und Late-Interaction-Retrievern zeigen wir, dass Standardmetriken unterschiedliche Verhaltensweisen verschleiern: Semantisch starke Retriever können korrekte Inhalte in einer Nicht-Abfragesprache zurückgeben, während Retriever mit stärkerer Präferenz für die Abfragesprache möglicherweise semantisch weniger relevante Passagen abrufen.