Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Nachbilden von Kamerabewegungen aus Referenzvideos ist eine wichtige Aufgabe in der Videogenerierung, da Videos eine intuitive und präzise Steuerung ermöglichen. Bisherige Methoden verwenden entweder direkt parametrische Darstellungen, die bei der Generierung mehrerer Aufnahmen versagen, oder synthetisieren kreuzgepaarte Daten, die unter Datenknappheit leiden, was zu schlechter Leistung beim Klonen komplexer Kamerabewegungen führt. Um diese Probleme zu adressieren, führen wir eine allgemeine Kamerabewegungsdarstellung ein, die Kameras als Gitterbewegungsvideos codiert. Dieses Kameraraster stellt die Kameraparameter visuell dar und unterstützt die Integration unterschiedlicher Trajektorien für die Mehrfachaufnahme-Videogenerierung. Darauf aufbauend schlagen wir OmniDirector vor, ein einheitliches Framework, das auf Millionen von Kameraraster-Videopaaren trainiert ist und Charaktere, Aktionen und Kameras koordiniert, um eine Kontrolle auf Regieebene für multimodale Diffusionstransformatoren zu bieten. Darüber hinaus entwerfen wir einen neuartigen hierarchischen Prompt-Erweiterungsagenten, der verschiedene Steuersignale harmonisch integriert, indem er Kamerabewegung und visuellen Inhalt durch das Verständnis von Signalbeziehungen systematisch beschreibt. Umfangreiche Experimente belegen die überlegene Leistung und herausragende Kontrollierbarkeit unseres Frameworks. Projektseite: https://ymlinfeng.github.io/OmniDirector.github.io/
Jüngste Fortschritte im agentischen Reinforcement Learning (RL) haben die Fähigkeiten von Large-Language-Modell-Agenten zur mehrschrittigen Werkzeugnutzung erheblich verbessert. Allerdings weisen die meisten bestehenden Methoden Kredite auf groben heuristischen Einheiten zu, wie etwa Werkzeugaufrufgrenzen oder festen Arbeitsabläufen, was es schwierig macht, zu identifizieren, welche Zwischenentscheidungen die nachgelagerten Ergebnisse beeinflussen. In dieser Arbeit untersuchen wir agentisches RL aus zwei Perspektiven: wo Verzweigungen auftreten und wie nach einer Verzweigung Kredite zugewiesen werden. Unsere Pilotanalyse zeigt, dass einflussreiche Entscheidungspunkte weit über die generierte Sequenz verteilt sind und nicht auf Werkzeugaufrufe konzentriert sind, während die Token-Entropie allein nicht zuverlässig deren Auswirkungen auf die Endergebnisse widerspiegelt. Motiviert durch diese Beobachtungen schlagen wir Agentic Procedural Policy Optimization (APPO) vor, das Verzweigung und Kreditzuweisung von groben Interaktionseinheiten auf feinkörnige Entscheidungspunkte in der Sequenz verlagert. APPO wählt Verzweigungsstellen mittels eines Verzweigungsscores aus, der Token-Unsicherheit mit politikinduzierten Wahrscheinlichkeitsgewinnen nachfolgender Fortsetzungen kombiniert, wodurch eine gezieltere Exploration ermöglicht und gleichzeitig scheinbare Positionen mit hoher Entropie herausgefiltert werden. Es führt zudem eine verfahrensbezogene Vorteilsskalierung ein, um Kredite besser über verzweigte Rollouts zu verteilen. Experimente auf 13 Benchmarks zeigen, dass APPO starke agentische RL-Baselines durchweg um fast 4 Punkte verbessert, während es effiziente Werkzeugaufrufe beibehält und die Interpretierbarkeit des Verhaltens bewahrt.
Trotz jüngster Fortschritte haben LLM-Agenten weiterhin Schwierigkeiten mit dem Reasoning über lange Interaktionsverläufe. Während aktuelle speichergestützte Agenten auf ein statisches Retrieve-then-Reason-Paradigma setzen, verhindert diese starre Pipeline-Architektur, dass sie den Speicherzugriff dynamisch an während der Inferenz entdeckte Zwischenevidenz anpassen können. Um diese Lücke zu schließen, schlagen wir MRAgent vor, ein Framework, das einen assoziativen Speichergraphen mit einem aktiven Rekonstruktionsmechanismus kombiniert. Wir repräsentieren den Speicher als Cue-Tag-Content-Graphen, wobei assoziative Tags als semantische Brücken dienen, die feinkörnige Cues mit Speicherinhalten verbinden. Auf dieser Struktur aufbauend integriert unser aktiver Rekonstruktionsmechanismus das LLM-Reasoning direkt in den Speicherzugriff, sodass der Agent basierend auf akkumulierter Evidenz iterativ Abrufpfade erkunden und beschneiden kann. Dies stellt sicher, dass der Speicherzugriff dynamisch an den Reasoning-Kontext angepasst wird, während eine kombinatorische Explosion durch unkontrollierte Expansion vermieden wird. Experimente auf dem LoCoMo-Benchmark und dem LongMemEval-Benchmark zeigen signifikante Verbesserungen gegenüber starken Baselines (bis zu 23%) bei gleichzeitiger deutlicher Reduzierung der Token- und Laufzeitkosten, was die Wirksamkeit der aktiven und assoziativen Rekonstruktion für das Reasoning über lange Speicherhorizonte unterstreicht.
Große Sprachmodelle (Large Language Models, LLMs) durchlaufen einen grundlegenden Wandel von konversationsbasierten Generatoren hin zu integrierten KI-Systemen, die zu Reasoning, Handlung, Gedächtnis und Selbstverbesserung fähig sind. Wir konzeptualisieren diesen Übergang als einen Wandel vom Chatbot zum Digitalen Kollegen: von konversationellen Antworten hin zu beständiger Arbeit. Wir gliedern diesen Übergang entlang zweier eng gekoppelter Dimensionen. Erstens auf der Ebene des kognitiven Kerns entwickeln sich LLMs von Chatbot-Ära-„Fast-Thinking“-Systemen, die auf Next-Token-Prädiktion beruhen, hin zu Thinking-LLMs, die Inferenzzeit-Berechnung, Chain-of-Thought Reasoning, Reflexion, Prozessüberwachung und Reinforcement Learning nutzen, um eine bedächtigere und zuverlässigere Kognition zu unterstützen. Zweitens auf der Ebene der werkzeugverstärkten Aufgabenausführung entwickeln sich LLMs von Tool-calling Agents, die externe Ressourcen ad hoc aufrufen, hin zu OpenClaw-artigen Arbeitsplatzsystemen (OpenClaw), die mit persistenten Arbeitsbereichen, Fähigkeiten, Verifikationsschleifen und Governance ausgestattet sind. Das Paradigma „Arbeitsbereich + Fähigkeit“ macht episodischen Werkzeuggebrauch durch Zustandspersistenz, wiederverwendbare Prozeduren, Aufgabenabschluss und Erfahrungswiederverwendung kollegenartig. Wir untersuchen Verschiebungen in der Datenkonstruktion von Instruktion-Antwort-Paaren hin zu Zustand-Aktion-Beobachtung-Trajektorien und in der Evaluierung von statischen Benchmarks hin zu abgesicherten, prüfbaren, sich selbst weiterentwickelnden KI-Ökosystemen.
Der jüngste Erfolg von Agentenschwärmen hat das Paradigma auf großen Sprachmodellen (LLMs) basierender Agenten von Einzelagenten-Workflows hin zu Multi-Agenten-Systemen verschoben und unterstreicht damit die Bedeutung der Agentenorchestrierung für Aufgabenzerlegung und Zusammenarbeit. Allerdings beschränken sich bestehende Orchestrierungsrahmenwerke auf eine begrenzte Anzahl von Modalitäten und haben Schwierigkeiten, auf komplexere Umgebungen zu verallgemeinern, in denen heterogene Modalitäten koexistieren und interagieren. Diese Einschränkung wird besonders in omnimodalen Szenarien deutlich, bei denen Aufgaben das einheitliche Verständnis und die Koordination unterschiedlicher Eingaben wie Text, Bild, Audio und Video erfordern. In dieser Arbeit stellen wir Orchestra-o1 vor, ein omnimodales Agentenorchestrierungsframework, das eine effiziente Zusammenarbeit von Agenten über mehrere Modalitäten hinweg unterstützt. Orchestra-o1 führt einen einheitlichen Orchestrierungsmechanismus ein, der modalitätsbewusste Aufgabenzerlegung, Online-Spezialisierung von Unteragenten und parallele Ausführung von Unteraufgaben ermöglicht. Dieses skalierbare Design erlaubt es Agentensystemen, komplexe reale Aufgaben mit heterogenen Informationsquellen effektiv zu bewältigen und übertrifft den zweitbesten Ansatz um 10,3 % Genauigkeit auf dem OmniGAIA-Benchmark. Darüber hinaus führen wir die entscheidungsorientierte Gruppen-Relative-Policy-Optimierung (DA-GRPO) ein, einen effizienten agentischen Reinforcement-Learning-Ansatz zum Trainieren von Orchestra-o1-8B, der ebenfalls Spitzenleistungen im Vergleich zu allen bestehenden Open-Source-omnimodalen Agenten erzielt.
Die Leistung von KI-Agenten hängt entscheidend vom Laufzeit-Harness ab, bestehend aus den Prompts, Werkzeugen, dem Speicher und dem Kontrollfluss, die vermitteln, wie ein Modell beobachtet, schlussfolgert und handelt. Heutige Harnesses sind jedoch weitgehend handgefertigt und statisch: Jede neue Modell- oder Aufgabengeneration erfordert weiterhin maßgeschneiderte Gerüste, und die während der Ausführung erzeugten reichhaltigen Spuren werden selten in systematische Verbesserungen einfließen gelassen. Wir stellen HarnessX vor, eine Gießerei für komponierbare, adaptive und entwicklungsfähige Agenten-Harnesses. HarnessX setzt typisierte Harness-Primitive mittels einer Substitutionsalgebra zusammen, passt sie durch AEGIS an, eine spurgesteuerte Multiagenten-Evolutionsmaschine, die auf einem operationellen Spiegel zwischen symbolischer Adaptation und Verstärkungslernen basiert, und schließt den Harness-Modell-Kreislauf, indem Trajektorien sowohl in Harness-Updates als auch in Modell-Trainingssignale umgewandelt werden. Über fünf Benchmarks hinweg (ALFWorld, GAIA, WebShop, tau^3-Bench und SWE-bench Verified) erzielt HarnessX eine durchschnittliche Steigerung von +14,5 % (bis zu +44,0 %), wobei die größten Zuwächse dort auftreten, wo die Baselines am niedrigsten sind. Diese Ergebnisse legen nahe, dass der Fortschritt bei Agenten nicht allein aus der Skalierung von Modellen kommen muss: Das Komponieren und Weiterentwickeln von Laufzeitschnittstellen aus Ausführungsrückmeldungen ist ein umsetzbarer und komplementärer Hebel. Die vollständige Codebasis wird in einer zukünftigen Version als Open Source veröffentlicht.
Die retrieval-gestützte Generierung bewegt sich über Texte hinaus in lange, egozentrische Videos, in denen Systeme anfrage-relevante Ausschnitte über mehrere Modalitäten und zeitliche Granularitäten hinweg auswählen müssen. Der Fortschritt im Bereich VideoRAG wird jedoch durch zwei Lücken eingeschränkt: Vorhandene Benchmarks erlauben es, Anfragen ohne das Video zu beantworten, was Retrieval-Fehler verschleiert, und bisherige Methoden wenden pro Anfrage eine einzige Modalitäts-Granularitäts-Konfiguration an, wobei sie die Variabilität auf Chunk-Ebene ignorieren. Wir adressieren beide Lücken durch die Einführung von V-RAGBench, einem Benchmark mit ⟨Anfrage, Evidenz-Chunk, Antwort⟩-Triple, das eine getreue, entkoppelte Bewertung von Retrieval und Generierung ermöglicht, und CARVE, einer einfachen Methode, die parallele Retriever über Konfigurationen hinweg ausführt und ein chunk-adaptives Re-Ranking einsetzt, um für jeden Chunk die gewinnende Konfiguration zu identifizieren. Jeder Chunk gelangt dann unter seiner während des Retrievals ausgewählten Siegerkonfiguration in den Generator, was eine verschachtelte Evidenzform ergibt, bei der die Entscheidung auf Chunk-Ebene über beide Stufen propagiert wird. CARVE übertrifft acht aktuelle VideoRAG-Baselines, wobei die dem Generator zugeführten Chunks mehrere Konfigurationen verschachteln, anstatt eine einzige gemeinsam zu nutzen – ein Verhalten, das mit Methoden auf Anfrageebene nicht erreichbar ist.
Aktuelle automatisierte Pipelines zur audio-visuellen Fragenbeantwortung (QA) folgen in der Regel einem „Video-Caption-QA“-Paradigma. Diese Methoden segmentieren Videos jedoch typischerweise in kurze Clips und erstellen separate Beschreibungen für die audio- und visuellen Modalitäten. Diese entkoppelte Verarbeitung unterbricht die inhärenten Verbindungen zwischen Geräuschen und ihren visuellen Quellen, während die unabhängige Clip-Verarbeitung oft zu inkonsistenten Beschreibungen derselben Entität über verschiedene Segmente hinweg führt. Darüber hinaus schränkt die Kopplung von Langtextverständnis und QA-Synthese in einem einzigen Schritt die Modelle häufig auf lokale Ereignisse ein, was zu Fragen führt, denen langfristige zeitliche Verbindungen und tiefgehende cross-modale Schlussfolgerungen fehlen. Um diese Probleme zu adressieren, schlagen wir eine automatisierte Daten-Engine mit zwei Mechanismen vor: (1) Entity-Anchored Video Scripting wandelt Videos in strukturierte Skripte um, die Zusammenfassungen, Hauptentitätslisten und segmentweise audio-visuelle Beschreibungen umfassen. Die Entitätsliste dient als globaler Prior, um referenzielle Konsistenz über Segmente hinweg sicherzustellen und audio-visuelle Verbindungen zu rekonstruieren. (2) Clue-Guided QA Generation veranlasst Modelle, zunächst aus dem Skript segmentübergreifende, multimodale Hinweise zu extrahieren und anschließend auf Basis dieser hochwertigen Hinweise QA-Paare zu generieren. Mit dieser Pipeline erstellen wir den Instruktions-Feinabstimmungsdatensatz OmniVideo-100K und einen von Menschen verifizierten Testdatensatz, OmniVideo-Test. Die Feinabstimmung von VITA-1.5, Qwen2.5-Omni-7B und Qwen3-Omni-30B auf OmniVideo-100K führt zu Leistungssteigerungen von bis zu 20,59 % auf OmniVideo-Test und zeigt eine starke Generalisierungsfähigkeit (Verbesserungen von bis zu 12,64 %) auf etablierten Benchmarks wie Daily-Omni und JointAVBench.
Im letzten Jahrzehnt hat sich der Aufbau einer menschenähnlichen künstlichen allgemeinen Intelligenz von einer abwegigen Spekulation zu einem konkreten Ziel für das nächste Jahrzehnt vieler der größten KI-Organisationen entwickelt. Die Erreichung dieses Ziels hätte tiefgreifende und weitreichende Auswirkungen auf die menschliche Gesellschaft, was viele komplexe Fragen für das kommende Jahrzehnt aufwirft. Dieser Bericht untersucht, wie sich KI selbst in einer Post-AGI-Welt entlang des Kontinuums maschineller Intelligenz weiterentwickeln könnte. Der Endpunkt dieses Kontinuums, die Universelle KI, ist theoretisch gut verstanden, was eine formale Grundlage für den Hauptfokus dieses Berichts bietet: den Übergang von menschenähnlicher AGI zur künstlichen allgemeinen Superintelligenz (ASI), die intuitiv als ein System verstanden werden kann, das intelligenter und kognitiv leistungsfähiger ist als große Organisationen von Menschen. Nach der Charakterisierung von ASI diskutiert der Bericht vier potenzielle Wege von AGI zu ASI: Skalierung von AGI, KI-Paradigmenwechsel, rekursive Verbesserung und ASI, die aus groß angelegten Multi-Agenten-Kollektiven entsteht. Anschließend werden mögliche Reibungen und Engpässe auf diesen Wegen erörtert. Die Frage, ob die Auswirkungen dieser Reibungen vernachlässigbar oder erheblich sein werden, wirft eine Reihe konkreter offener Forschungsfragen auf. Aufgrund großer Unsicherheiten bei der Vorhersage des ASI-Fortschritts kann nicht ausgeschlossen werden, dass der KI-Fortschritt in den kommenden Jahren weiter an Fahrt gewinnt. Dies könnte bedeuten, dass das Bild eines einzelnen transformativen Schrittes, der durch die Einführung menschenähnlicher AGI in unsere Gesellschaft verursacht wird, ungenau sein könnte. Passender könnte die Aussicht auf eine Reihe transformativer gesellschaftlicher Veränderungen sein, die durch KI-gestützte Fortschritte und Durchbrüche in vielen Bereichen der Wissenschaft und Technologie verursacht werden. Die Vorbereitung auf diese Aussicht erfordert eine massiv interdisziplinäre Anstrengung von globalem Umfang und Interesse.
Wir identifizieren eine neue Dimension zur Steigerung der Rollout-Diversität in der Group Relative Policy Optimization (GRPO) für große Sprachmodelle (LLMs). Während GRPO auf diverse Rollouts angewiesen ist, erhöhen gängige Strategien die Diversität vor allem durch die Einführung von mehr Zufälligkeit auf Token-Ebene, was jedoch schrittweises Rauschen verursachen und zu inkohärenten Trajektorien führen kann. Wir entdecken, dass kleinere Modelle innerhalb derselben Modellfamilie inhärent eine höhere Diversität auf Policy-Ebene aufweisen, was sich in einem besseren pass@k im Vergleich zu größeren Modellen bei steigender Stichprobenanzahl zeigt. Anders als Token-Ebenen-Rauschen ist diese Diversität zeitlich korreliert, bewahrt logische Konsistenz und liefert strukturierte Explorationssignale für die Gradientenschätzung. Daher schlagen wir S2L-PO (Small-to-Large Policy Optimization) vor, ein Framework, das feste kleine Modelle als natürliche Explorer nutzt, um größere Modelle zu trainieren. Um Exploration und Exploitation auszugleichen, entwerfen wir eine progressive Annealing-Strategie, die von Offline-Rollouts des kleinen Modells zum eigenen Sampling des großen Lernenden übergeht. Dieser Wechsel vermeidet elegante Leistungseinbrüche während des Trainings, die durch die Kapazitätsgrenzen des kleinen Modells verursacht werden, und ermöglicht eine schnellere Konvergenz sowie eine höhere Leistungsobergrenze. S2L-PO verbessert die Genauigkeit auf verschiedenen mathematischen Reasoning-Benchmarks (z. B. +8,8 % auf AIME 24 unter Verwendung eines 1,7B-Explorers zur Führung des 8B-Modells) und reduziert gleichzeitig den Rechenaufwand für Rollouts.
Große Sprachmodelle (LLMs) führen Inferenz mittels einer nicht-rekurrenten Ausführung aller Schichten in einer festgelegten Tiefe und Reihenfolge durch. Wir decken die weit verbreitete Existenz eines trainingsfreien, flexiblen, dynamischen Programms aus Schichten (PoLar) auf, bei dem vortrainierte Schichten als Module verpackt und dann übersprungen oder durchlaufen werden können, um ein maßgeschneidertes Programm für jede Eingabe zu erstellen. Für die meisten Eingaben erzielen deutlich kürzere Programmausführungen die gleiche oder eine bessere Genauigkeit, während falsche Vorhersagen des ursprünglichen LLM durch alternative Programme mit weniger Schichten korrigiert werden können. Diese Beobachtungen deuten darauf hin, dass die Inferenz mehrere gültige latente Berechnungen jenseits des Standard-Durchlaufs zulässt. Um PoLar in der Praxis effizient zu erreichen, schlagen wir ein leichtes PoLar-Vorhersagenetzwerk vor, das lernt, Ausführungsprogramme zu generieren, die vortrainierte Schichten für jede Eingabe dynamisch überspringen oder wiederholen. Experimente mit Benchmarks für mathematisches Denken zeigen, dass PoLar die Genauigkeit im Vergleich zur Standardinferenz und früheren dynamischen Tiefenverfahren konsistent verbessert, oft bei Ausführung von weniger Schichten, und dass diese Gewinne auch bei verteilungsübergreifender Bewertung bestehen bleiben. Unsere Ergebnisse legen nahe, dass die Ausführung mit fester Tiefe nur eine enge Teilmenge der latenten Denkfähigkeit eines LLM erfasst.
Große Sprachmodelle (Large Language Models, LLMs) erzielen inzwischen Ergebnisse auf Expertenniveau bei medizinischen Zulassungsprüfungen, was die Annahme befördert, dass hohe Punktzahlen mit sicherer medizinischer Urteilsfähigkeit gleichzusetzen sind – während Patientinnen und Patienten zunehmend auf LLMs für Gesundheitsratschläge zurückgreifen. Wir zeigen, dass diese Annahme fragil ist: Wenn in Fragen, die LLMs ursprünglich korrekt beantworten, irreführender Kontext eingefügt wird, geben sie die richtige Antwort auf. Die Fähigkeit, unter adversariellem Kontext ein korrektes Urteil aufrechtzuerhalten, nennen wir epistemische Resilienz und führen MedMisBench zu ihrer Messung ein. MedMisBench umfasst 10.932 medizinische Frageitems und 48.889 Paare aus irreführendem Kontext und Antwortoptionen, die medizinisches Reasoning, agentische Fähigkeiten und die Bewertung des Patientenverlaufs abdecken. Über 11 Modellkonfigurationen hinweg fällt die durchschnittliche Genauigkeit von 71,1 % bei Originalfragen auf 38,0 % unter gezielt irreführendem Kontext, mit einer Angriffserfolgsrate von 51,5 %. Die schädlichsten Injektionen sind formale, regelartige Fälschungen: autoritätsgerahmte Falschaussagen erzielen 69,5 % Angriffserfolg, ausnahmevergiftende Behauptungen 64,1 %. Ein 14-köpfiges klinisches Panel aus 7 Ländern identifizierte in 38,2 % der überprüften Fälle ernsthaften potenziellen Schaden. MedMisBench legt einen strukturellen blinden Fleck in der LLM-Evaluierung im medizinischen Umfeld offen: Vorhandene Benchmarks messen, was Modelle wissen, aber nicht, ob sie korrekte medizinische Urteile unter irreführendem Kontext bewahren.
Nutzer verlassen sich auf Ausführungsprotokolle, um das Verhalten von Agenten zu beobachten, Fehler zu diagnostizieren und Rechenschaftspflicht sicherzustellen. Diese Protokolle enthalten detaillierte Verfahrensschritte, einschließlich Werkzeugaufrufen, Zwischenentscheidungen und Fehlerbehebungslogik. Doch diese Details können private prozedurale Fähigkeiten offenlegen, sodass nachgelagerte Methoden Schlüsselformeln, Schwellenwerte und Strategien wiederherstellen können, ohne Zugriff auf Modellgewichte oder Fähigkeitsdateien zu haben. Um dieses Risiko zu quantifizieren und Schutzmaßnahmen zu bewerten, erstellen wir CapTraceBench, einen Benchmark bestehend aus 75 spezialisierten längerfristigen Aufgaben und 154 zusammengestellten Fähigkeiten aus sieben Bereichen. Wir stellen zudem RedAct vor, ein Framework zur geschützten Veröffentlichung von Protokollen, das geschützte Schlüsselinformationen lokalisiert, Protokolle unter Erhalt verifizierungsrelevanter Nachweise umschreibt und Verhaltenswasserzeichen für nachgelagerte Herkunftsanalysen einbettet. Über repräsentative Methoden zur Wiederverwendung von Protokollen hinweg reduziert RedAct die normalisierte Fähigkeitsübertragung (NST) von 44,7–67,1 % bei Rohprotokollen auf unter die Basislinie ohne Fähigkeiten, während Prüfnachweise erhalten bleiben. Die eigenständigen Verhaltenswasserzeichen erreichen eine echte Erkennungsrate von 93,6–100,0 % bei einer Falschalarmrate von höchstens 1,9 %. Diese Ergebnisse stellen öffentliche Agentenprotokolle als Sicherheitsschnittstellen dar und zeigen, dass selektive Schwärzung die Ableitung prozeduraler Fähigkeiten reduzieren kann, ohne die Prüfnachweise zu entfernen.
Durch große Sprachmodelle angetriebene Codierungsagenten haben bei Softwareentwicklungsaufgaben eine hohe Leistungsfähigkeit gezeigt. Dennoch verarbeiten die meisten Agenten Repositorien nahezu vollständig als Text, was sich von der Arbeitsweise menschlicher Entwickler unterscheidet, die visuelle Strukturen wie Ordnerhierarchien und Abhängigkeitsbeziehungen nutzen, um sich in großen Codebasen zu orientieren. Mit multimodalen großen Sprachmodellen (MLLMs) ist noch ungeklärt, ob Agenten effektiv von visuellen Repräsentationen von Repositorien profitieren können. Diese Arbeit präsentiert die erste systematische empirische Studie zu visuellen Repräsentationsformen von Repositorien für LLM-basierte Agenten bei der Lösung von Problemen auf Repositoriumsebene. Wir evaluieren vier aktuelle multimodale Modelle. Unsere Ergebnisse zeigen, dass ein streng auf Bildverarbeitung beschränkter Ansatz die Genauigkeit verringert und die Tokenkosten erhöht, da den Agenten ausreichende symbolische Details fehlen und sie dies durch wiederholte visuelle Abfragen kompensieren. Im Gegensatz dazu hilft die Integration visueller Graphen der Repositoriumsstruktur als ergänzende Modalität neben standardmäßigen Textschnittstellen den Agenten, die Struktur effizienter zu verstehen: Der Eingabe-Tokenverbrauch sinkt um bis zu 26 %, während die Genauigkeit bei der Problemlösung erhalten bleibt oder sich verbessert. Die Visualisierung ist besonders während der Fehlerlokalisierung und dann nützlich, wenn der Agent die Erkundungstiefe autonom steuert. Diese Erkenntnisse weisen auf ein praktisches Hybriddesign aus Text und Bild für die nächste Generation von Codierungsagenten hin.
Große Sprachmodelle (Large Language Models, LLMs) werden häufig in Text-zu-Bild-Systemen (T2I) eingesetzt, sind jedoch typischerweise auf die Textkodierung beschränkt, während die Entrauschung von neu trainierten generativen Backbones übernommen wird. Die Entwicklung von Repräsentations-Autoencodern (RAEs) verlagert das Generierungsziel hin zu semantisch strukturierten visuellen Repräsentationen und schafft einen latenten Raum, der besser mit vortrainierten LLM-Priors kompatibel ist. Inspiriert von multimodalen LLMs (MLLMs), bei denen ein MLP-Projektor ausreicht, um saubere visuelle Repräsentationen mit einem vortrainierten LLM auszurichten, nutzen wir das MLLM selbst als verrauschten Repräsentationsencoder um, indem wir diesen Mechanismus von sauberen auf verrauschte Eingaben erweitern. Wir stellen RepFusion vor, das die resultierenden MLLM-Ausgaben als Konditionierungssignal für einen Diffusionstransformator verwendet. In kontrollierten Vergleichen mit ähnlichen Inferenzbudgets übertrifft RepFusion Basislinien, die vergleichbare Kapazität für neu initialisierte Entrauscher aufwenden. Diese Ergebnisse zeigen, dass MLLMs starke A-priori-Annahmen für die Entrauschung visueller Repräsentationen liefern und dass durch Konditionierung auf sich entwickelnde verrauschte Repräsentationen die Berechnung zur Testzeit produktiv für wiederholte MLLM-Konditionierung in modernen T2I-Systemen eingesetzt werden kann.
Verkörperte Weltmodelle haben sich als zentrales Paradigma für visuelle robotische Entscheidungsfindung und interaktive Umgebungssimulation etabliert. Allerdings basieren konventionelle verkörperte Rahmenwerke auf niedrigdimensionalen strukturierten Aktionsvektoren (z. B. Gelenkwinkel und Endeffektorposen), die unter eingeschränkter Ausdrucksfähigkeit, schlechter Generalisierung über verschiedene Verkörperungen hinweg und unnatürlicher Dynamikmodellierung für komplexe physikalische Interaktionen leiden. Um diese Einschränkungen zu adressieren, schlägt diese Arbeit iMac (Image as Action Control) vor, ein neuartiges einheitliches Kontrollparadigma, das rohe visuelle Bilder als native Aktionsrepräsentationen für verkörperte Weltmodelle behandelt. Im Gegensatz zur traditionellen expliziten kinematischen Aktionskodierung formuliert iMac kontinuierliche visuelle Manipulation als bildbasierte Aktionstokens, die inhärent räumliche Bewegungsintentionen, interaktive geometrische Beschränkungen und subtile physikalische Dynamiken verkapseln. Wir konstruieren eine zweizweigige verkörperte Architektur, bestehend aus einem Bild-Aktions-Encoder und einem dynamischen Weltprädiktor: Der Encoder komprimiert zielgetriebene visuelle Bilder in kompakte Aktions-Einbettungen, während der Prädiktor umgebungsabhängige Übergangsregeln lernt, die auf Bildaktionen basieren, um eine hochgetreue Vorhersage zukünftiger Zustände und eine geschlossene verkörperte Regelung zu erreichen. Umfangreiche Experimente werden auf öffentlichen Benchmarks für verkörperte Manipulation und realen Robotikszenarien durchgeführt. Die Ergebnisse zeigen, dass iMac vektorbasierte Aktionskontroll-Baselines in Vorhersagegenauigkeit, Aufgabenerfolgsrate und szenenübergreifender Generalisierungsfähigkeit übertrifft. Darüber hinaus eliminiert unser Bild-Aktions-Design die Abhängigkeit von manuell definierten Aktionsräumen und ermöglicht flexible und universelle Steuerung für heterogene verkörperte Agenten. Diese Arbeit bietet eine innovative visuell-aktionale Perspektive für verkörperte Weltmodelle und liefert ein einfaches, aber effektives Paradigma für skalierbare robotische Wahrnehmung und Manipulation.
In diesem Bericht stellen wir Hy-Embodied-0.5-VLA, abgekürzt als HyVLA-0.5, vor – ein End-to-End-System, das den gesamten Roboter-Lern-Stack abdeckt: Datenerfassung, Modellentwurf, fortgesetztes Pre-Training und überwachtes Feintuning, RL-Post-Training sowie reale Implementierung. Jede Komponente erfüllt in diesem Stack eine spezifische Funktion.
Moderne Lean-Theorembeweiser erzielen nur mit erheblichem Trainings- und Inferenzrechenaufwand eine hohe Leistung, was unter anderem auf die spärlichen verifizierten Beweisdaten und die langen Ableitungsspuren der formalen Beweissuche zurückzuführen ist, was sowohl überwachtes Feintuning (SFT) als auch Sampling teuer macht. Wir stellen Pythagoras-Prover vor, eine recheneffiziente Open-Source-Familie von Lean-Theorembeweisern, die für praktische Rechenbudgets ausgelegt ist. Die Familie umfasst zwei Generationsparadigmen: autoregressive Modelle mit 4B und 32B Parametern sowie einen ersten Proof-of-Concept-diffusionsbasierten Beweiser (4B), der Lean-Beweise zur Inferenzzeit iterativ verfeinert. Für die Trainingseffizienz bauen wir ein Lean-verifiziertes Korpus auf, das für ein Curriculum-basiertes SFT in einfache, mittlere und schwere Probleme geschichtet ist, sodass Modelle Beweisfähigkeiten schrittweise von kürzeren, einfacheren Beweisen zu längeren, schwierigeren erwerben. Während des SFT sorgt ein dynamisches Beweis-Schlussfolgerungs-Filterungsschema dafür, dass informative Beweisspuren erhalten bleiben, während jede Instanz innerhalb eines Kontextbudgets von 8k-Token bleibt. Wir führen außerdem Augmented Lean Formalisation (ALF) ein, die spärliche verifizierte Korpora zu Varianten formaler Aussagen erweitert, die mittels Selbst-Destillation mit zusätzlichem Trainingssignal gefüllt werden, ohne jede mutierte Instanz formal zu verifizieren. Durch die Störung bekannter Probleme unter Beibehaltung ihres formalen Charakters reduziert ALF die Abhängigkeit von der Oberflächenform einer Aussage. Empirisch übertrifft Pythagoras-Prover-4B DeepSeek-Prover-V2-671B bei pass@32 auf MiniF2F-Test (86,1 % vs. 82,4 %) bei ~167x weniger Parametern, während Pythagoras-Prover-32B mit 93,0 % auf MiniF2F-Test den Open-Source-Stand der Technik setzt und 93 von 672 PutnamBench-Problemen löst. Wir veröffentlichen MiniF2F-ALF, einen ALF-mutierten, kontaminationsempfindlichen Benchmark, bei dem jedes evaluierte Modell an Genauigkeit verliert; hier bleibt unser 32B-Modell am stärksten und unser 4B-Modell erreicht den vorherigen Stand der Technik, Goedel-Prover-V2-32B.
Wenn KI-generierte Gutachten von experimentellen Werkzeugen in die Infrastruktur des Peer-Reviews übergehen, konzentrierten sich die meisten Bedenken hinsichtlich der Robustheit auf explizite Angriffe wie versteckte Anweisungen und Prompt-Injection. Wir untersuchen einen schwierigeren und politikrelevanteren Fehlermodus: kein versteckter Text, keine Prompt-Injection und keine Änderungen an Methoden, Experimenten, Abbildungen, Gleichungen, Beweisen oder numerischen Ergebnissen. Der Angreifer modifiziert ausschließlich inhalte auf Präsentationsebene, wie Zusammenfassung, Darstellung des Beitrags, verwandte Arbeiten, Diskussion und Erzählstruktur. Wir führen das adversarial repackaging ein: einen geschlossenen Angriff, der KI-Gutachter-Feedback nutzt, um nach Überarbeitungen auf Präsentationsebene zu suchen, während die wissenschaftliche Evidenz unverändert bleibt. Bei drei主流en KI-Gutachtern erreicht adversarial repackaging eine Angriffserfolgsrate von 75,1 % und einen mittleren Punktgewinn von +1,21/10. Der Effekt lässt sich nicht durch gewöhnliche Textverfeinerung erklären. Wir zeigen außerdem, dass Strategien, die verändern, wie der Gutachter die Arbeit interpretiert – wie die Neupositionierung verwandter Arbeiten und die Erweiterung analytischer Diskussionen – oberflächliche Änderungen wie lokale Textglättung, Tabellenformatierung und Algorithmuskästen deutlich übertreffen. Unsere Analyse offenbart zwei tiefere strukturelle Fehlermodi. Erstens sind KI-Gutachter leichter zu beeindrucken als zu überzeugen: Das Hervorheben von Stärken erhöht zuverlässig die wahrgenommene Güte, während Versuche, Schwächen aufzulösen, häufig nach hinten losgehen. Zweitens können KI-Gutachter das bloße Anscheinen, eine Einschränkung zu adressieren, mit deren tatsächlicher Behebung verwechseln, sodass unveränderte Evidenz als stärkerer wissenschaftlicher Beitrag umgedeutet werden kann. Diese Ergebnisse zeigen, dass das Einsatzrisiko nicht nur in bösartigen versteckten Anweisungen liegt, sondern in der Entstehung der Papierpräsentation selbst als Optimierungsfläche. Wir veröffentlichen einen kontaminationsfreien rollierenden Benchmark und Angriffsrahmen, um zu testen, ob KI-Gutachter bei ausschließlich präsentationsbezogenen Änderungen an wissenschaftlichen Inhalten verankert bleiben.
Bei der Anwendung von Group Relative Policy Optimization (GRPO) für GUI Grounding werden Rollouts aus einer einzigen Screenshot-Ansicht gesampelt; Gruppen bestehen bei schwierigen Instanzen oft aus lauter Fehlschlägen oder bei einfachen Instanzen aus lauter Erfolgen, was keinen nutzbringenden relativen Vorteil ergibt. Wir schlagen VISTA (View-Consistent Self-Verified Training) vor, ein auf GRPO basierendes Trainingsframework, das jede Vergleichsgruppe aus mehreren zielbewahrenden Ansichten derselben GUI-Instanz konstruiert. Jede Ansicht wird durch einen Ausschnitt erzeugt, der das Zielelement sichtbar hält und seine Box exakt abbildet, sodass Modell-Rollouts über semantisch äquivalente, aber geometrisch unterschiedliche Eingaben hinweg verglichen werden. Um die Erzeugung von Kurzkoordinaten zu stabilisieren, ohne Reinforcement Learning in eine bedingungslose Imitation zu verwandeln, fügt VISTA zusätzlich einen selbstverifizierten ansichtsübergreifenden Anker hinzu: eine Orakelantwort, die mit einem vorteilsgewichteten Verlust optimiert wird, von der Gruppenbasislinie ausgeschlossen ist und nur aktiviert wird, wenn das Modell einen Rollout mit maximaler Belohnung erzeugt hat. Über fünf GUI-Grounding-Benchmarks und mehrere Qwen-Backbones hinweg verbessert VISTA konsistent die Grounding-Genauigkeit. Auf ScreenSpot-Pro steigert es Qwen3-VL 4B/8B/30B-A3B von 55,5/52,7/53,7 auf 63,4/65,8/67,0. Robustheitsanalysen zeigen zudem eine höhere Genauigkeit bei der schlechtesten Ansicht und niedrigere Vorhersagewechselraten.
Jüngste Fortschritte bei videobasierten Weltmodellen haben eine beispiellose Fähigkeit zur Synthese hochtreuer visueller Sequenzen gezeigt. Dennoch besteht weiterhin eine grundlegende Diskrepanz zwischen visuell plausibler Videogenerierung und den funktionalen Anforderungen eines Weltmodells, insbesondere bei der Aufrechterhaltung eines stabilen und vernünftigen internen Zustands über längere zeitliche Horizonte hinweg. Während bestehende Bewertungsmaßstäbe vor allem die visuelle Qualität, Bewegungskohärenz und Text-Video-Abstimmung betonen, vernachlässigen sie weitgehend das Gedächtnis – die Kernfähigkeit eines Weltmodells, Konsistenz über langfristige Horizonte und komplexe Interaktionen hinweg zu bewahren. Um diese Lücke zu schließen, stellen wir MBench vor, einen umfassenden Bewertungsmaßstab, der sich der Quantifizierung und Bewertung der Gedächtnisfähigkeit von Video-Weltmodellen widmet. Wir zerlegen die Gedächtnisfähigkeit von Video-Weltmodellen systematisch in drei hierarchische und komplementäre Kerndimensionen: Entitätskonsistenz, Umgebungskonsistenz und kausale Konsistenz, die zur umfassenden Charakterisierung des Langzeitgedächtnisses weiter in zwölf quantifizierbare Unterdimensionen ausdifferenziert werden. Unser Bewertungsmaßstab basiert auf sorgfältig kuratierten, real aufgenommenen langen Videos und wird durch regelbasierte quantitative Matrizen sowie ein VLM (Vision-Language-Modell) bewertet, um eine objektive und umfassende Konsistenzbewertung zu ermöglichen. Umfangreiche Evaluierungen gängiger modernster Video-Weltmodelle decken kritische systemische Einschränkungen bestehender Methoden bei der langfristigen Zustandserhaltung auf und bieten einen standardisierten Bewertungsmaßstab sowie eine klare Forschungsrichtung zur Weiterentwicklung des Fachgebiets.
Weltmodelle, die erfassen, wie Handlungen physikalische Veränderungen hervorrufen, ermöglichen skalierbares Roboterlernen ohne Abhängigkeit von verkörperungsspezifischen Aktionsbezeichnungen. Pixelraum-Videomodelle liefern breite visuelle Vorannahmen, verwenden aber Modellkapazität für die dichte Erscheinungsrekonstruktion, während direkte Aktionsmodelle verkörperungsspezifische Bezeichnungen erfordern, die die Skalierbarkeit behindern. Wir stellen μ₀ vor, ein skalierbares Weltmodell auf Basis von 3D-Spuren. Anstatt dichte Pixel vorherzusagen oder Handlungen direkt zu modellieren, prognostiziert μ₀ glatte 3D-Trajektorien für hervorstechende Interaktionspunkte wie Objekte, Werkzeuge, Hände und Kontaktregionen, was eine kompakte, verkörperungsunabhängige Bewegungsschnittstelle ergibt. Um das Training aus verschiedenen Videoquellen zu ermöglichen, extrahiert unser TraceExtract-System automatisch 3D-Überwachung, indem es Schlüsselpunkte auswählt, global ausgerichtete Spuren konstruiert und Bewegungssegmente mit hierarchischen Sprachbeschriftungen verknüpft. Diese TraceExtract-Überwachung trainiert μ₀ vor, indem ein vortrainiertes Vision-Language-Backbone mit einem modularen Spurenexperten kombiniert wird, der jede Abfrage über B-Spline-Kontrollpunkte darstellt und zukünftige Spuren vorhersagt. Experimente zeigen, dass μ₀ in der 2D- und 3D-Spurvorhersage Basislinien übertrifft, einschließlich Spurvorhersagemodellen und tokenisierten VLM-Methoden. Da μ₀ eingefroren und wiederverwendbar ist, kann es mit Aktionsexperten für nachgelagerte Roboter-Verkörperungen kombiniert werden. Trotz aktionsfreiem Vortraining erreichen die resultierenden spurenkonditionierten Richtlinien eine Leistung, die mit VLA-Modellen konkurriert, die mit Aktionsüberwachung vortrainiert wurden, wie π₀. Diese Ergebnisse etablieren 3D-Spuren als skalierbare und übertragbare Repräsentation für verkörperungsübergreifende Manipulation.
Da KI-Systeme, die aus mehreren Sprachmodell-Agenten aufgebaut sind, immer häufiger werden, werden sie zunehmend genutzt, um gemeinsam Entscheidungen zu treffen: zu diskutieren, zu verhandeln und an gemeinsamen Aufgaben zu arbeiten. Während einzelne Agenten bei isolierten Tests gut ausgerichtet erscheinen mögen, können Probleme aus ihrer Interaktion untereinander entstehen. Wir stellen den Arbiter vor, einen Agenten, der darauf ausgelegt ist, Multi-Agenten-Gespräche in Echtzeit zu überwachen und zu identifizieren, welche Teilnehmer sich möglicherweise fehlausgerichtet verhalten. Der Arbiter arbeitet unter einem begrenzten „Inspektionsbudget“, d. h. er muss sorgfältig entscheiden, wie er seine Ressourcen einsetzt. Während er ein Gespräch Schritt für Schritt beobachtet, kann er wählen, ob er abwarten, einen Teilnehmer befragen, interne Informationen wie Systemanweisungen oder Gedankengänge einsehen oder auffälliges Verhalten protokollieren möchte. Am Ende erstellt er einen Bericht, der die wahrscheinliche Quelle der Fehlausrichtung identifiziert. Wir evaluieren den Arbiter über fünf Gesprächsbedingungen hinweg, die von riskanten Finanzberatungs-Modellorganismen bis hin zu evaluationsbewussten und kolludierenden Agenten reichen. Wir testen fünf Werkzeugkonfigurationen mit zunehmender Leistungsfähigkeit sowie zwei Basis-Modelle. Wir stellen fest, dass der Arbiter fehlausgerichtete Agenten zuverlässig weit vor Ende des Gesprächs erkennt, wobei aktive Inspektionswerkzeuge sowohl die Erkennungsgenauigkeit als auch die Geschwindigkeit verbessern. Gewichtsinduzierte Fehlausrichtung erweist sich als am schwierigsten zu erkennen, während anweisungsinduzierte Fehlausrichtung selbst bei passiver Beobachtung zuverlässig identifiziert wird. Das Protokollierungswerkzeug zeigt einen dualen Effekt, indem es den Recall auf Kosten der Präzision verbessert. Diese Ergebnisse legen nahe, dass kontinuierliche, budgetbewusste Überwachung Fehlausrichtungen effektiv aufdecken kann und dass die Überwachung von Multi-Agenten-Systeme möglicherweise erfordert, den Prüfer als aktiven Teilnehmer des Prozesses zu behandeln. Der Code ist verfügbar unter https://github.com/aisilab/arbiter.
Die Erstellung von Avatar-Videos, die einer Zielperson nicht nur visuell ähneln, sondern auch verhaltensbezogen erkennbar sind, indem sie deren Sprechrhythmus, Gestentendenzen und Ausdrucksdynamik originalgetreu reproduzieren, bleibt eine offene Herausforderung. Bestehende Methoden basieren überwiegend auf einzelnen Standbildern, die unzureichende Identitätsinformationen liefern und keine dynamischen Bewegungsmerkmale erfassen können, während standardmäßige Pixel-Level-Objekte die wahrnehmungskritischen Gesichtsregionen unzureichend bedienen, welche die Glaubwürdigkeit des Avatars bestimmen. Wir präsentieren Avatar V, ein skalierbares Produktionssystem, das diese Einschränkungen durch video-referenzgesteuerte Identitätsmodellierung überwindet. Anstatt Identität in Embeddings fester Größe zu komprimieren, konditioniert das Modell direkt auf der vollständigen Token-Sequenz eines Referenzvideos und lernt, sowohl statische Identitätsattribute (Gesichtsgeometrie, Hauttextur) als auch dynamische Verhaltensmuster (Sprechrhythmus, Mikroexpressionen) durch Aufmerksamkeit über den Referenzkontext nachzubilden. Wir führen Sparse Reference Attention ein, einen asymmetrischen Mechanismus, der eine Konditionierung mit linearer Komplexität auf beliebig lange Referenzen ermöglicht; einen Bewegungsrepräsentationsstrom, der einen geschlossenen Sprechstil-Transfer ermöglicht; und einen identitätsbewussten Super-Resolution-Refiner, der die vollständige Referenzkonditionierung übernimmt. Unterstützt werden diese durch eine Daten-Engine, die über 100 Millionen Trainingsclips aus 50 Millionen Rohvideos kuratiert, sowie eine fünfstufige Trainingspipeline mit Flow-Matching-Vortraining, Persönlichkeits-Feintuning, zweiphasiger Destillation (>10-fache Beschleunigung) und RLHF-Ausrichtung, die auf Tausenden von GPUs eingesetzt wird. Avatar V generiert 1080p-Videos unbegrenzter Dauer und erzielt auf unserem Cross-Scene-Benchmark modernste Ergebnisse in Bezug auf Identitätserhaltung, Lippen-Synchronisation und Generierungsqualität, wobei es führende Systeme wie Seedance 2.0, Kling O3 Pro, Veo 3.1 und OmniHuman 1.5 sowohl in automatischen Metriken als auch in der menschlichen Bewertung konsistent übertrifft.
Videogenerierungsmodelle basierend auf Diffusion Transformers (DiTs) erzielen bemerkenswerte Leistungen in der Videosynthese, leiden jedoch unter hoher Inferenzlatenz und Rechenkosten aufgrund der quadratischen Komplexität der 3D-Aufmerksamkeit. Bestehende Beschleunigungsmethoden reduzieren hauptsächlich die Rechenkomplexität innerhalb einzelner Entrauschungsschritte durch Techniken wie sparse Attention und KV-Caching. Sie halten sich jedoch starr an die inhärente Einschränkung der Standard-Diffusionspipeline: Jeder Frame in der Zielvideosequenz muss einen vollständigen, dichten Entrauschungsprozess über alle Diffusionszeitschritte hinweg durchlaufen. Wir beobachten, dass aufgrund der korrespondierenden Inhalte und Bewegungen zwischen benachbarten Frames, wenn Schlüsselframes mit kritischen semantischen Übergängen verankert sind, die Zwischenzustände anderer Frames oft vorhersehbareren Trajektorien folgen. Dies deutet darauf hin, dass ein solcher gleichmäßiger, dichter Entrauschungsprozess für natürliche Videodaten inhärent redundant ist. Daher führen wir RhymeFlow ein, ein trainingsfreies Framework, das die Entrauschungstrajektorien verschiedener Frames entkoppelt. Konkret identifizieren wir zunächst eine dünnbesetzte Menge an zentralen Schlüsselframes, die die latente semantische Entwicklung dominieren. Dann durchlaufen nur diese Schlüsselframes eine dichte, schrittweise Entrauschung, um strukturelle Integrität zu gewährleisten, während Nicht-Schlüsselframes schrittweise Entrauschungsschritte auslassen, um Rechenkosten zu minimieren. Da ausgelassene Zwischenzustände von Nicht-Schlüsselframes die zeitliche Kohärenz in den Entrauschungsschritten der Schlüsselframes unterbrechen und zu visueller Verschlechterung führen, führen wir zusätzlich ein Modul zur Projektion latenter Trajektorien ein, das es Schlüsselframes ermöglicht, mit einer vollständigen und zeitlich konsistenten Sequenzdarstellung zu interagieren. Umfangreiche Experimente mit aktuellen DiT-basierten Videogenerierungsmodellen zeigen, dass unsere Methode bestehende Baselines mit höherer Inferenzgeschwindigkeit und besserer visueller Qualität übertrifft.
Bei Low-Rank Adaptation (LoRA) wird der Skalierungsfaktor α oft als bloßes Komplement zur Lernrate betrachtet, doch seine Rolle in der Optimierung ist nach wie vor unzureichend verstanden. In dieser Arbeit zeigen wir, dass der Skalierungsfaktor α und die Lernrate unterschiedlich wirken, wobei α als dominanter Treiber der effektiven Optimierung hervortritt und Gewinne erzielt, die durch eine reine Skalierung der Lernrate nicht repliziert werden können. Durch das Zusammenwirken umfangreicher empirischer Analysen und eines theoretischen Signal-Drift-Frameworks gewinnen wir drei Erkenntnisse über den Skalierungsmechanismus von LoRA: Erstens glättet LoRAs spektrale Unterdrückung die Optimierungslandschaft, wodurch Standard-Hyperparameter übermäßig konservativ werden und eine Optimierungslücke entsteht. Zweitens übertrifft α, wenn diese Glätte zur Beschleunigung der Konvergenz genutzt wird, die Lernrate, indem es das Aufgabensignal verstärkt, ohne das Drift-Verhältnis zu erhöhen. Drittens folgt der optimale Skalierungsfaktor einer sublinearen Beziehung zum Rang, die gut durch ein Quadratwurzelgesetz mit einem unerwartet großen Koeffizienten charakterisiert wird, was die unzureichende Skalierung bestehender ranggebundener Heuristiken offenlegt. Basierend auf diesen Erkenntnissen schlagen wir LoRA-α vor, ein minimalistisches Framework, das α in seinen prinzipientreuen Bereich zurückführt und LoRA mit standardmäßig kleinen Lernraten kompatibel macht. Umfangreiche Auswertungen über verschiedene Aufgaben hinweg zeigen, dass LoRA-α die Leistung konsistent verbessert und gleichzeitig die Hyperparametersuche vereinfacht, wodurch das Lernpotenzial von LoRA voll ausgeschöpft wird.
Die Aktivierungssteuerung bietet einen ressourcenschonenden Ansatz, um das Verhalten von Sprachmodellen zur Inferenzzeit zu steuern, wobei ihr Erfolg oder Misserfolg stark vom Prompt, Konzept, Modell und der Steuerungskonfiguration abhängt. Die Ermittlung des Bereichs und der Grenzen erfolgreicher Steuerung erfordert typischerweise aufwändige Rastersuchen und Post-hoc-Bewertungen vollständiger autoregressiver Rollouts. In dieser Arbeit untersuchen wir, ob die Steuerbarkeit aus den internen Zuständen des Modells zu Beginn des Generierungsprozesses vorhergesagt werden kann, z. B. nach der Generierung der ersten wenigen Token, und wie ein solcher Prädiktor genutzt werden kann, um die Erfolgsrate der Steuerung zu verbessern. Zu diesem Zweck führen wir zunächst ASTEER ein, eine Testplattform mit 1,4 Millionen gesteuerten Generierungen, die 150 Konzepte umfasst, wobei jede Steuerung als Erfolg/Misserfolg gekennzeichnet ist. Unter Nutzung dieser Testplattform analysieren wir die frühen Dekodierungsdynamiken des Modells, indem wir Merkmale extrahieren, die die versteckten Zustände vor und nach der Steuerung über Schichten und anfängliche Dekodierungsschritte hinweg vergleichen. Diese Merkmale helfen uns zu verstehen, wie sich die Effekte der Steuerung entlang von Schichten und Token-Positionen ausbreiten, was wichtige Informationen für die Vorhersage der Steuerbarkeit liefert. Anschließend trainieren wir einen Gradient Boosting Decision Trees (GBDT)-Klassifikator auf diesen Merkmalen, um vorherzusagen, ob eine Intervention zu einer Untersteuerung, einem Erfolg oder einer Übersteuerung führt, ohne dass ein vollständiger Rollout erforderlich ist. Unser Prädiktor erreicht einen Makro-F1-Wert von etwa 0,7 auf unbekannten Konzepten, was zeigt, dass frühe versteckte Zustände umfangreiche, strukturierte Informationen über die letztendliche Steuerungswirksamkeit codieren. Wir nutzen diesen Steuerbarkeitsprädiktor weiterhin als Leitfaden für die Suche nach der Steuerungsstärke und erzielen nahezu optimale Leistung mit einem kleinen Bruchteil der Dekodierungskosten.
Der Aufbau vertrauenswürdiger medizinischer multimodaler großer Sprachmodelle (MLLMs) ist entscheidend für eine zuverlässige klinische Entscheidungsunterstützung. Bestehende medizinische Halluzinations-Benchmarks konzentrieren sich hauptsächlich auf die Datenerhebung, ignorieren jedoch häufig die Ursprünge von Halluzinationen innerhalb des Denkprozesses. Wir stellen fest, dass Halluzinationsquellen je nach Probe variieren: Fehler können aus visueller Fehlerkennung, falschem medizinischen Wissensabruf oder fehlerhafter Denkintegration resultieren. Um eine Quellenebenen-Halluzinationsdiagnose zu ermöglichen, führen wir ClinHallu ein, einen Benchmark zur stufenweisen Halluzinationsdiagnose im Denkprozess medizinischer MLLMs. ClinHallu enthält 7.031 validierte Instanzen, wobei jede Instanz um einen strukturierten Denkpfad erweitert ist, der in visuelle Erkennung, Wissensabruf und Denkintegration unterteilt ist. Wir verwenden zudem Stufenaustauschinterventionen, um zu messen, wie die Korrektur bestimmter Stufen die endgültige Antwort beeinflusst. Über die Evaluierung hinaus zeigen wir, dass pfadüberwachtes Feintuning stufenweise Halluzinationen reduziert. ClinHallu bietet eine feinkörnige Halluzinations-Testumgebung zur Diagnose und Abschwächung von Denkfehlern in medizinischen MLLMs. Der Benchmark ist öffentlich verfügbar unter https://github.com/alibaba-damo-academy/ClinHallu.
Online-Gruppenchats sind soziale Räume mit lokalen Konversationsnormen, die selten explizit genannt werden. Die Fähigkeit und Bereitschaft von auf LLM basierenden Agenten, diese Normen zu erkennen und sich an sie anzupassen, ist bislang weitgehend unerforscht. Wir stellen LoSoNA vor, einen Benchmark zur Anpassung an lokale soziale Normen in Mehrparteien-Chats. Jedes Szenario präsentiert einem Subjektmodell ein kuratiertes Gruppenchat-Transkript, in dem nicht am Subjekt beteiligte Teilnehmer eine verborgene lokale Norm demonstrieren, gefolgt von einer abschließenden auslösenden Wendung, die eine Antwort erzwingt, die offenbart, ob das Subjekt diese Norm abgeleitet hat. Wir evaluieren acht Frontier- und Open-Weight-Modelle unter vier Prompting-Bedingungen, die variieren, wie explizit das Modell angewiesen wird, den vorherigen Konversationsverlauf als Hinweis darauf zu behandeln, wie es antworten soll. Naives Prompting bleibt für die meisten Modelle begrenzt; explizites normbewusstes Prompting hilft ungleichmäßig, wobei Gemini 3.1 Pro 84,2 % und Claude Fable 5 81,6 % erreichen, während mehrere andere Modelle nur geringe Zugewinne oder Regressionen aufweisen. LoSoNA trägt zu aktuellen Forderungen nach der Bewertung sozialer Fähigkeiten von LLMs bei, indem es testet, ob Modelle lokale Konversationsnormen aus Präzedenzfällen ableiten und in einer einmaligen Gruppenchat-Antwort anwenden können.
KI-Agenten werden zunehmend entwickelt, um wissenschaftliche Entdeckungen zu beschleunigen, dennoch sind ihre praktischen Fähigkeiten in realen Forschungsumgebungen nach wie vor kaum verstanden. Vorhandene Benchmarks für KI-Agenten erfassen selten die Komplexität, Heterogenität und das erweiterte Denken, das für wissenschaftliche Arbeit erforderlich ist, während Benchmarks für wissenschaftliche Aufgaben die Forschung oft auf statische, direkte Probleme reduzieren und nur begrenzte Unterstützung für interaktive Bewertung bieten. Hier stellen wir SciAgentArena vor, einen systematischen Benchmark zur Bewertung von KI-Agenten in realen wissenschaftlichen Forschungsszenarien, die aus neu entstehenden Anforderungen mehrerer Disziplinen abgeleitet sind. SciAgentArena umfasst etwa 200 Aufgaben mit schrittweiser Verifikation und einer interaktiven, agentenunabhängigen Umgebung zur Bewertung verschiedener KI-Agenten. Mithilfe dieses Benchmarks stellen wir fest, dass aktuelle Agenten effektiv zu klar definierten Datenanalyse-Workflows beitragen können, insbesondere wenn die Aufgabenstruktur und die Bewertungskriterien klar sind. Ihre Leistung bleibt jedoch über wissenschaftliche Kontexte hinweg uneinheitlich: Agenten haben Schwierigkeiten, wirklich neuartige Erkenntnisse zu generieren, eigenständige Exploration aufrechtzuerhalten und robuste Lösungen für offene Forschungsfragen zu formulieren. Darüber hinaus charakterisieren wir häufige Fehlermodi über Agenten hinweg und identifizieren Möglichkeiten zur Verbesserung ihrer Zuverlässigkeit, Autonomie und wissenschaftlichen Denkfähigkeit. Zusammengenommen bietet SciAgentArena einen praktischen Rahmen zur Messung des Fortschritts von KI-Agenten für die Wissenschaft und zur Gestaltung zukünftiger Agenten, die in der Lage sind, komplexe wissenschaftliche Herausforderungen zu bewältigen. Der vollständige Code, die Aufgaben und Datensätze sind über diesen Link zugänglich: https://sciagentarena.github.io/.
On-Policy-Destillation (OPD) hat sich kürzlich als prominentes Nachbearbeitungsrezept etabliert, da es zwei wünschenswerte Eigenschaften vereint: On-Policy-Studenten-Trajektorien und dichte Lehrerüberwachung. Dennoch bleibt unklar, wie diese Hybridisierung die Parameter eines Modells verändert. Über mehrere Sprach- und Sprach-Bild-Modellpaare sowie Anwendungsfälle hinweg liefert unsere Analyse zwei Hauptergebnisse. Hinsichtlich der Sparsität sind OPD-artige Aktualisierungen klein und koordinatenspars. Sie verteilen sich über die Schichten und sind meist FFN-lastig. Diese spärliche Struktur ist operational nützlich: Das Training allein des entdeckten Subnetzwerks erzielt nahezu die gleiche Leistung wie vollständige OPD. Allerdings schneidet der sparsitätsinduzierende SGD-Optimierer in unserer Optimierer-Ablation schlechter ab als AdamW, vermutlich weil die dichte Lehrerüberwachung heterogene koordinatenweise Gradientenskalierungen bewahrt, bei denen AdamWs adaptive Skalierung weiterhin nützlich ist. Hinsichtlich der Geometrie sind die Aktualisierungen numerisch vollrangig, aber spektral konzentriert; sie liegen meist abseits der Hauptsingularwertunterräume der Quellgewichte und fallen überproportional auf Koordinaten, bei denen die Quellgewichte nahe Null liegen. Diese Ergebnisse legen nahe, dass dichte Lehrerüberwachung OPD nicht in eine gewöhnliche dichte Parameterüberschreibung verwandelt; stattdessen behält OPD wichtige geometrische Signaturen des On-Policy-Post-Trainings.
Die Affordanz-Reasoning, also das Ableiten der Handlungsmöglichkeiten eines Objekts aus seinen physikalischen Eigenschaften (z. B. Form und Material), ist grundlegend für das physikalische Verständnis des Menschen und wird zunehmend wichtiger für Große Sprachmodelle (Large Language Models, LLMs). Bestehende Affordanz-Benchmarks legen jedoch in der Evaluierung weitgehend explizite Objektidentitäten offen, sodass Modelle auf gespeicherte Objekt-Affordanz-Zuordnungen zurückgreifen können, anstatt über physikalische Eigenschaften zu schließen. Um diese Lücke zu schließen, führen wir Affordance20Q ein, einen neuartigen Affordanz-Reasoning-Benchmark, der als 20-Fragen-Spiel formuliert ist, ohne die Objektidentität preiszugeben. In jedem Spiel identifiziert das Modell die Affordanz eines versteckten Objekts aus einer Kandidatenmenge, indem es Ja/Nein-Fragen zu dessen physikalischen Eigenschaften stellt. Affordance20Q umfasst 1.009 Spiele über 454 Objekte und 59 Affordanzen, die alle manuell gefiltert, verfeinert und annotiert wurden. Wir führen umfassende Experimente mit 15 hochmodernen LLMs durch und stellen eine erhebliche Lücke (~20 Punkte) im Vergleich zur menschlichen Leistung fest. Eine KI-basierte Informationsgewinn-Analyse (IG) zeigt zudem, dass Modelle im Verlauf des Spiels keine diskriminierenden Fragen stellen. Um diese Lücke zu schließen, entwickeln wir KB-Anchored Rule Induction (KARI), eine auf LLMs basierende Pipeline, die Affordanzregeln erzeugt, die auf Belegen aus Wissensbasen (KBs) beruhen. KARI verbessert Open-Source-LLMs um bis zu 15,2 Punkte, während die begrenzte Abdeckung der Wissensbasen weitere Verbesserungen behindert. Wir veröffentlichen unseren gesamten Code und unsere Daten unter https://github.com/1171-jpg/Affordance20Q.git.
Studien zum menschlichen Denken haben gezeigt, dass Menschen typischerweise besser darin sind, Argumentationen zu bewerten, als sie selbstständig zu entwickeln. Im Gegensatz dazu werden große Reasoning-Modelle (LRMs) darauf trainiert, lange Argumentationsketten zu produzieren, um komplexe Probleme zu lösen. Wie gut sind LRMs jedoch darin, Argumentationen zu bewerten? Wir untersuchen dies anhand des Valid-Answer-Invalid-Reasoning (VAIR)-Datensatzes: Matheaufgaben und Lösungen mit trivialen Argumentationsfehlern, aber korrekten Antworten, die darauf ausgelegt sind, die Bewertung von Argumentationen von der Störvariable der Argumentationsproduktion zu isolieren. Im Gegensatz zu Menschen, die – wie wir feststellen – beim Benoten solcher Aufgaben nur 6 % schlechter abschneiden als beim Lösen, stellen wir bei LRMs eine erhebliche Produktions-Bewertungs-Lücke fest: Spitzenmodelle erzielen bei der Bewertung von VAIR-Lösungen Werte von nur 48 %, obwohl sie bei der Lösungsproduktion nahezu perfekt sind. Woher dieses Rätsel? Durch eine Chain-of-Thought (CoT)-Analyse finden wir Hinweise auf eine Antwortbestätigungsverzerrung: LRMs erzeugen oft eine Antwort und prüfen dann auf die korrekte Antwort, anstatt jeden Schritt sorgfältig zu verifizieren, und erfinden Rationalisierungen, selbst wenn sie anomale Argumentationen bemerken. Lineare Sonden bestätigen dies und zeigen, dass LRM-Aktivierungen zwar eine gewisse Repräsentation gültiger Argumentationen kodieren, aber VAIR-Lösungen nicht robust als ungültig repräsentieren. Kausales Patching der Repräsentationen der finalen Antwort führt dazu, dass die Urteile und Aktivierungen der LRMs umschlagen, was zeigt, dass die Antwortgültigkeit für die Bestätigungsverzerrungen der Modelle verantwortlich ist. Diese Ergebnisse weisen auf eine erhebliche Einschränkung dominanter Ansätze im Reasoning-Training hin, die LRMs dazu anreizen, Argumentationen zu produzieren und in Richtung korrekter Antworten zu bestätigen, nicht jedoch, die zugrundeliegenden Argumentationen robust zu bewerten.
Multimodale große Sprachmodelle können Code schreiben, um komplexe Programme zu erstellen, sowie Programme für die 3D-Modellierung nutzen. Dies eröffnet einen neuen Weg für die 3D-Generierung, die auf ihrem Vorwissen, Weltwissen und ihrer Argumentationsfähigkeit basiert. Dennoch bewerten bestehende Benchmarks die 3D-Modellierung durch Code selten. Eine solche Modellierung erfordert mehr als nur ausführbaren Code: Aus einer Text- oder visuellen Spezifikation muss ein Modell ein parametrisches 3D-Programm generieren, das geometrisch präzise, semantisch ausgerichtet und baugruppenkonsistent ist. Wir führen P3D-Bench ein, einen Benchmark für parametrische 3D-Generierung. Im Gegensatz zu einem 3D-Netz legt ein parametrisches 3D-Programm explizite Abmessungen, Konstruktionsoperationen und Beziehungen zwischen Teilen offen und zeigt so, ob ein Modell die Struktur eines Entwurfs wiederherstellt, nicht nur sein Erscheinungsbild. Unter einem einheitlichen Protokoll umfasst P3D-Bench drei Aufgabenfamilien (Text-zu-3D, Bild-zu-3D und Assembly-3D) und bewertet jede Ausgabe hinsichtlich Ausführbarkeit, geometrischer Genauigkeit, Topologie, textbasierter Einschränkungen, multiview-semantischer Ausrichtung und Struktur auf Teilebene. Wir evaluieren führende MLLMs und reine Text-LLMs an 400 Textfällen, 400 Bildfällen und 203 annotierten Baugruppen, mit bereichsspezifischen Modellen als Referenzpunkten. Unsere umfangreiche Evaluierung ergibt drei Erkenntnisse. Erstens sind Baugruppen die schwierigste Umgebung, in der Modelle immer noch daran scheitern, mehrere Teile zu einer kohärenten Struktur zusammenzusetzen. Zweitens können Modelle oft die globale Form und semantische Identität des Zielobjekts wiederherstellen, scheitern jedoch daran, die präzise parametrische Geometrie, die durch die Eingabe spezifiziert wird, zu reproduzieren. Drittens bleibt die Modellierung auf Teilebene bei Baugruppen schwach, wobei Modelle weder die Geometrie jedes Teils noch die richtige Anzahl von Teilen wiederherstellen. Diese Ergebnisse positionieren P3D-Bench als einen Benchmark zur Bewertung präziser parametrischer Geometrie und Struktur auf Teilebene in der parametrischen 3D-Generierung.
Vision-Language-Action-Modelle (VLA-Modelle), die vortrainierte Vision-Language-Modelle (VLM) mit kontinuierlichen Aktions-Experten koppeln, erzielen zwar starke Manipulationsleistungen, weisen jedoch eine schlechte Generalisierung auf sprachliche Instruktionen außerhalb der Verteilung (Out-of-Distribution, OOD) auf. Eine bekannte Herausforderung ist das strukturelle Ungleichgewicht in VLA-Daten, bei dem Sprache weit weniger divers ist als visuelle und aktionsbezogene Inhalte, was Politiken anfällig für visuelle Abkürzungen macht. Während diskrete Aktionsmethoden dies durch Vision-Language-Co-Training abmildern, fehlt kontinuierlichen Aktions-Experten ein solcher Schutz: Sie starten mit zufälliger Initialisierung und lernen vollständig aus unausgeglichenen Daten, wodurch verrauschte Gradienten entstehen, die das VLM beeinträchtigen und dessen Sprachfähigkeit nicht nutzen. Wir begegnen diesem Problem aus einer Bayesianischen Perspektive, indem wir die Politik in einen sprachagnostischen Vision-Action (VA)-Prior und eine sprachbedingte VLA-Likelihood faktorisieren, und schlagen APT vor, eine zweistufige Trainingsmethode mit Schwerpunkt auf dem Vortraining von Aktions-Experten (Action expert PreTraining). In Stufe 1 wird der Aktions-Experte als VA-Prior auf Vision-Action-Paaren aus einem eingefrorenen VLM vortrainiert, wobei das sprachliche Ungleichgewicht umgangen wird. In Stufe 2 werden Sprach-Token über einen gegated Fusion-Mechanismus injiziert, der VLM-Merkmale integriert und gleichzeitig den gelernten visuomotorischen Prior bewahrt. APT ist auf gängige VLA-Architekturen anwendbar, einschließlich der π- und GR00T-Architekturen. Umfassende Experimente belegen, dass APT konsistente Verbesserungen bei unbekannten Instruktionen und kompositionellen Aufgaben erzielt. Projektseite: https://xukechun.github.io/papers/APT/
Bild-zu-3D-Methoden stellen oft einen Kompromiss zwischen Genauigkeit und Vollständigkeit dar: Tiefenschätzer sind an die Eingangspixel gebunden, enden jedoch an der sichtbaren Oberfläche, während Bild-zu-3D-Modelle vollständige Formen erzeugen, die häufig nicht mit der Eingabe übereinstimmen. Wir stellen World Tracing vor, eine generative pixelgenähte Geometrierepräsentation, die 3D-Punkte vorhersagt, die mit beobachteten Pixeln ausgerichtet sind, und gleichzeitig die Geometrie jenseits der sichtbaren Oberfläche vervollständigt. Für jedes Eingangspixel prognostiziert World Tracing einen geordneten Stapel von 3D-Punkten im Kameraraum, wobei die erste Schicht die sichtbare Oberfläche und nachfolgende Schichten die Schnittpunkte mit verdeckten Oberflächen von vorne nach hinten repräsentieren. Wir instanziieren diese Repräsentation mit einem World-Tracing-Diffusionstransformer, WT-DiT, der mehrere Geometrieschichten als separate Rauschunterdrückungs-Tokens behandelt, die durch faktorisierte und globale Aufmerksamkeit gekoppelt sind. WT-DiT wird mit Pixelraum-Flussabgleich und einem gemischten Rauschplan trainiert, der die Rekonstruktion der sichtbaren Oberfläche mit der Erzeugung der verdeckten Geometrie ausbalanciert. World Tracing erzielt starke Leistungen bei der Rekonstruktion sichtbarer Oberflächen und der Erzeugung vollständiger Geometrie auf Objekt-, Szenen- und Dynamik-Benchmarks und übertrifft sowohl Tiefenschätzer als auch Bild-zu-3D-Generatoren. Es bewahrt außerdem die 2D-zu-3D-Korrespondenz und ermöglicht so textgesteuerte 3D-Szenenbearbeitung, geometriesgesteuerte Neuansichts-Videosynthese sowie transformationsfreie Integration mit texturierten Mesh-Generatoren.
Multimodale Grundlagenmodelle (Multimodal Foundation Models, MFMs) haben beachtliche Fortschritte erzielt, sind jedoch weiterhin anfällig für räumliches Denken in der physischen Welt. Ein zentraler Engpass liegt in ihrer Unfähigkeit, lokale egozentrische Beobachtungen in eine globale allozentrische räumliche Repräsentation zu überführen. Um dies zu adressieren, schlagen wir AlloSpatial vor, ein agentisches Framework für allozentrische räumliche Kognition in Grundlagenmodellen. AlloSpatial führt World2Mind ein, eine Plug-and-Play-Sandbox für kognitive Kartierung, die egozentrische Beobachtungen in strukturierte allozentrische A-priori-Informationen umwandelt, darunter allozentrisch-räumliche Bäume und Routenkarten, die Abfragen zu Objekttopologie, geometrischen Beziehungen, Passierbarkeit und Trajektorien unterstützen. Um diese A-priori-Informationen unter verrauschter Rekonstruktion und mehrdeutigen visuellen Hinweisen zuverlässig nutzen zu können, führt AlloSpatial ein Spatial Reasoning Harness (Geschirr für räumliches Schlussfolgern) ein, das Werkzeugnutzung beurteilt, modalitätsentkoppelte Hinweise sammelt und geometrisch-semantische Entscheidungen trifft. Wir verinnerlichen diesen Prozess in Qwen3-VL durch Kaltstart-Verstärkungslernen mit einer durch das Harness gesteuerten trajektorienebezogenen Belohnung. Experimente auf VSI-Bench und MindCube zeigen, dass AlloSpatial proprietäre Modelle in einer trainingsfreien Umgebung um 5 %–18 % verbessert, während allein allozentrisch-räumliche Bäume starkes räumliches Denken unterstützen, selbst wenn visuelle Eingaben entfernt werden. Die trainierten AlloSpatial-Agenten übertreffen zudem größere allgemeine Modelle und wettbewerbsfähige räumliche Baselines, was darauf hindeutet, dass strukturierte allozentrische Repräsentationen, aktive Werkzeugnutzung und überprüfbares Denken einen vielversprechenden Weg zu räumlich fähigen Grundlagenmodellen bieten.
Wir untersuchen die Best-Aktions-Identifikation (BAI) mit festem Konfidenzniveau in stochastischen Minimax-Bäumen. Dieses Problem wird in der modernen KI-Planung zunehmend relevant, wo tiefe Minimax-Suche und Monte-Carlo-Baumsuche (MCTS) mit langen Rollouts von Sprachmodellen einem grundlegenden Zielkonflikt gegenüberstehen: Heuristische Bewertungen sind günstig, aber verzerrt, während genaue Rollouts zuverlässig, aber unerschwinglich teuer sind. Wir schlagen 2FFS vor, einen Algorithmus zur Baumsuche mit zwei Genauigkeitsstufen, der Ideen von Banditen mit mehreren Genauigkeitsstufen in Bäume überträgt. Der Algorithmus kombiniert schnelle Expansion im Minimax-Stil mit stochastischem Sampling im MCTS-Stil und entscheidet adaptiv, wann günstige verzerrte Bewertungen ausgenutzt und wann teure genaue Bewertungen zur lokalen Zertifizierung herangezogen werden sollen. Wir beweisen die Korrektheit mit festem Konfidenzniveau, etablieren endliches Stoppen für die exakte Identifikation und geben eine polynomielle obere Schranke für die Kosten in Abhängigkeit von der Tiefe für Bäume allgemeiner Tiefe an. In numerischen Experimenten mit stochastischen Bäumen benötigt 2FFS wesentlich weniger Stichproben und Rechenoperationen im Vergleich zur bestehenden BAI-MCTS-Basislinie.
Token-basierte Halluzinationsdetektoren werden als Klassifikatoren evaluiert, anhand des AUC über alle Token, während ein Streaming-Monitor nach seiner Reaktionszeit beurteilt wird: der Anzahl der Token, die zwischen dem Beginn einer Halluzination und dem Alarm vergehen. Wir formulieren die Erkennung des Halluzinationsbeginns als ein Problem der schnellsten Veränderungserkennung. Ein Markov-Modell erster Ordnung des latenten treuen/halluzinierten Zustands, validiert auf RAGTruth, ordnet die Aufgabe in die klassische Change-Point-Theorie ein und liefert Lordens untere Schranke für die Erkennungsverzögerung: etwa 1,3 Token bei einer Falschalarmrate von 0,01. Wir zeigen dann, dass ein kausaler rekurrenter Labeler als CUSUM mit einem gelernten Inkrement fungiert; bei einer angepassten Falschalarmrate erkennt er in 11–13 Token, gegenüber 31 für eine lineare Pro-Token-Baseline, und eine kontrollierte Zerlegung führt den Großteil dieses Vorteils auf einen besseren Pro-Token-Score zurück, nicht auf zeitliche Akkumulation. Ein Optimalitätssatz vom Donsker-Varadhan-Typ für die Informationsrate erklärt die verbleibende Größenordnungslücke: Der gelernte Score realisiert nur 1/4,5 der von den Merkmalen getragenen Divergenz, ein Defizit, das durch Rekalibrierung nicht behoben werden kann, wobei der Rest ein Effekt des endlichen Horizonts ist. Klassifikationsmetriken verbergen diese Verzögerungsstruktur; sequenzielle Analyse macht sie messbar.
Wir stellen einen Benchmark zur Bewertung von KI-Modellen und -Agenten anhand realer formaler Softwareverifikationsaufgaben vor. Zunächst sammeln wir 11.039 eigenschaftsbasierte Tests (Property-Based Tests, PBTs) aus realen Python-Repositorien, dann übersetzen wir automatisch 2.772 davon (25 %) in 9.415 Lean-4-Spezifikationen mit Sorry-Platzhaltern (etwa 3 Formalisierungen pro PBT; wir behalten mehrere Versuche, wenn keiner bei Qualitätsmetriken dominiert). Die Übersetzung von PBTs in Lean-Spezifikationen ist anspruchsvoll: Sie erfordert die Modellierung der Python-Semantik in Lean, die Ableitung der logischen Eigenschaft, die in einem imperativen PBT kodiert ist, sowie die Bewältigung der inhärenten Schwierigkeiten abhängig typisierter Programmierung in einer selten verwendeten Sprache. Wir beschreiben eine Drei-Agenten-LLM-Pipeline zur Transpilierung von PBTs in Lean-Spezifikationen, evaluieren Abdeckungs- und Qualitätsmetriken und liefern Basislinien für die Beweiserstellung mittels mehrerer automatisierter und modellbasierter Ansätze. Der gesamte Code (Scraper und Agenten) sowie die Daten (PBTs und Lean-Spezifikationen) sind Open Source. Unser Benchmark zielt darauf ab, Fortschritte bei dem bislang wenig erforschten Problem der KI-gestützten formalen Verifikation realer Software zu fördern, das zunehmend an Bedeutung gewinnt, da KI immer mehr Code der Welt produziert.
Egocentrische menschliche Videos bieten eine skalierbare Alternative zu Roboterdaten für das Vortraining, doch vortrainierte Modelle auf solchen Videos schneiden durchweg schlechter ab als solche, die auf Roboterdaten vortrainiert wurden. Wir führen diese Lücke auf ein fehlendes Signal zurück, das aktive Wahrnehmungsverhalten in egozentrischen Videos, bei dem Menschen während der Manipulation kontinuierlich ihre Blickrichtung neu ausrichten, was Kamerabewegungen verursacht, die in Standardpipelines als Rauschen behandelt werden. Um dies zu adressieren, präsentieren wir ActiveMimic, ein Vortraining-Framework, das synchronisierte Kamera- und Handgelenkstrajektorien aus einer einzelnen am Körper getragenen RGB-Kamera rekonstruiert, Kamerabewegungen als Blickwinkelaktion modelliert und gemeinsam aktive Wahrnehmung und Manipulation aus unkontrollierten egozentrischen menschlichen Videos lernt, bevor es an einen Zielroboter angepasst wird. Empirisch zeigen Experimente in der realen Welt über Aufgaben mit unterschiedlichen Anforderungen an aktive Wahrnehmung, dass ActiveMimic durchweg besser abschneidet als Baseline-Modelle, die auf menschlichen Videos vortrainiert wurden, und mit modernsten Modellen gleichzieht, die auf Roboterdaten vortrainiert wurden. Weitere Analysen liefern Belege dafür, dass die Fähigkeit zur aktiven Wahrnehmung aus dem Vortraining mit egozentrischen menschlichen Videos stammt und nicht aus der roboterspezifischen Feinabstimmung, was bestätigt, dass aktive Wahrnehmung der Schlüssel zur Erschließung egozentrischer menschlicher Videos für das Robotervortraining ist.
Interaktives Fahren offenbart einen Fehlermodus, der in regelbewussten autonomen Fahrsystemen leicht übersehen wird: Ein harter Regelspielraum kann für einen Ego-Kandidaten negativ sein, obwohl eine kleine rechtmäßige Anpassung durch einen nicht priorisierten Akteur die Durchführbarkeit wiederherstellen würde. Vorhandene Regelwerke, Schutzschilde und Erreichbarkeitsfilter sind stark darin, unsichere Aktionen zu verwerfen, während vorhersagebasierte Planer wahrscheinliche Reaktionen modellieren. Keines liefert ein Laufzeitbeweisobjekt, das angibt, welche beschränkte Multi-Agenten-Änderung das Manöver repariert, wer die Änderung besitzt, ob die Anfrage vorfahrtsmäßig zumutbar ist und welche Ego-Ausweichmöglichkeit verbleibt, falls die Anfrage nicht beachtet wird. Wir formulieren dieses fehlende Objekt als *Zertifizierung interaktiver Reparaturen* und führen *CARVE* ein, eine vorhersagefreie Zertifikatsschicht über einem endlichen Gitter von Ego-eigenen und Akteur-eigenen taktischen Operatoren. Anfragen, die einem Akteur gehören, sind nur innerhalb von \(B_j(s) = β(π_j)α_j^{\max}(s)\) zulässig, einer Kooperationshülle, die kinematische Erreichbarkeit von normativer Priorität trennt. Das resultierende Zertifikat zeichnet die bindende Regel, die Reparaturkategorie, die Reparaturmenge, die verantwortungsgewichtete Kostenaufteilung und die Ausweichmöglichkeit auf. In 589 Lanelet2-Geometrie-basierten INTERACTION-Wiederholungsepisoden akzeptiert CARVE-Greedy 98,64 % der ursprünglich abgelehnten Manöver und stellt 370/378 der vom Menschen aufgelösten Fehlablehnungen wieder her, während es 589/589 Vorfahrtsbeachtung, null Fehlalarme für priorisierte Akteure und 400/400 Negativstress-Vetos wahrt. Wir beweisen die Korrektheit des Zertifikats, die strukturelle Vorfahrtsbeachtung, die exakte Endlichgitter-Minimalität, die Ausweichkontingenz und die Schuldzuweisungskonsistenzbedingungen. CARVE sagt keine Compliance eines anderen Fahrers voraus und setzt sie auch nicht voraus; es zertifiziert, ob eine vorgeschlagene Interaktion unter deklarierten Annahmen beschränkt, zurechenbar und normativ zulässig ist.
Große Reasoning-Modelle folgen typischerweise einem Paradigma des Lesens und anschließenden Denkens: Sie beobachten die vollständige Eingabe, führen Reasoning über einen statischen Kontext durch und erzeugen dann die Antwort. Viele reale Szenarien sind jedoch von Natur aus dynamisch, wie etwa Audio- und Videoströme, bei denen Informationen als kontinuierlicher Strom eintreffen und Modelle Reasoning durchführen, aktualisieren und unter teilweiser Beobachtung antworten müssen. Aktuelle Streaming-Reasoning-Methoden erlauben es Modellen, während des Lesens zu denken, basieren jedoch weitgehend auf überwachter Nachahmung vorab konstruierter Trajektorien, was ihre Flexibilität einschränkt. In diesem Papier schlagen wir AdaSR vor, ein adaptives Streaming-Reasoning-Framework, das es Modellen ermöglicht, während des Eingabestreamings Reasoning durchzuführen und nach Abschluss des Streams eine abschließende Überlegung anzustellen, wobei sie lernen, wann sie denken und wie viel Rechenleistung sie auf verschiedene Phasen verteilen sollen. Zur Optimierung dieses hierarchischen Reasoning-Prozesses führen wir die Hierarchische Relative Policy-Optimierung (HRPO) ein, die die Policy-Optimierung in Streaming-Reasoning- und Deep-Reasoning-Phasen zerlegt und eine fein granularere Vorteilszuweisung ermöglicht, anstatt einen einzelnen sequenzweiten Vorteil gleichmäßig über alle Token zu verteilen. HRPO integriert Belohnungen für Format, Genauigkeit und adaptives Denken, um gültige Reasoning-Protokolle durchzusetzen, die endgültige Aufgabenleistung zu erhalten und eine latenzeitbewusste Berechnungszuweisung zu fördern. Experimente zeigen, dass AdaSR im Vergleich zur überwachten Feinabstimmungs-Baseline eine bessere Balance zwischen Reasoning-Genauigkeit, Recheneffizienz und Streaming-Latenz erreicht. Wir veröffentlichen unseren Code unter https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
Unstrukturiertes Pruning erzeugt dünnbesetzte Gewichtstensoren, jedoch bleiben bei der Standardimplementierung die Tensorformen unverändert, sodass das eingesetzte Modell nicht kleiner ist als vor dem Pruning. Wir stellen eine exakte strukturelle Umformung vor, die wir als Minimierung bezeichnen und die ein maskiertes Netzwerk in ein kleineres dichtes Netzwerk mit derselben Vorwärtsfunktion bis auf Gleitkomma-Rundung überführt. Der Squeeze-Release-Zyklus wiederholt Pruning und Minimierung mit einem zwischengeschalteten Freigabeschritt, der die exakten Nullpositionen innerhalb der verdichteten Tensoren als kleines kalibriertes Rauschen wieder aktiviert und so ansonsten ungenutzte Kapazität wieder in trainierbare Parameter umwandelt. Aufeinanderfolgende Zyklen nutzen diese Kapazität, um strukturelle Redundanz zu finden, die ein einzelner Durchlauf nicht erreichen kann. Zusätzlich führen wir CompensatedLayerNorm ein, eine funktionserhaltende Ersetzung für LayerNorm, die die Minimierung auf die Kanalreduktion über mit LayerNorm ausgestattete Residualströme ausdehnt. Squeeze-Release komprimiert das einsetzbare Netzwerk auf das 39-fache des unpruned Modells bei einem vollständig verbundenen Modellnetzwerk und auf das 14,8-fache bei modernen CNNs (ConvNeXt-Tiny), bei vergleichbarer Genauigkeit. Darüber hinaus beweisen wir, dass die Umformung auf Transformer-Architekturen erweitert werden kann.
Große und demografisch ausgewogene Datensätze sind für zuverlässige Neuroimaging-Biomarker unerlässlich. Die Synthese von 3D-Gehirn-MRT in voller Auflösung kann in diesem Kontext die Datenaugmentation unterstützen, aber bestehende Ansätze verursachen entweder prohibitive Rechenkosten im volumetrischen Maßstab oder verlassen sich auf verlustbehaftete latente Kompression, die anatomische Details beeinträchtigen kann. Infolgedessen erfordert die praktische 3D-generative Augmentation oft spezialisierte Recheninfrastruktur. Wir schlagen WaveDiT vor, ein Framework für bedingtes Flow Matching, das im Koeffizientenraum einer 3D-Haar-Diskreten-Wavelet-Transformation arbeitet. Das Modell kombiniert faktorisierte räumlich-Tiefen-Aufmerksamkeit mit bandweiser heteroskedastischer Unsicherheitsmodellierung, die aus Wavelet-Statistiken höherer Ordnung abgeleitet wird. Die vorhergesagte Log-Varianz wird direkt in das Flow-Ziel und den Konditionierungspfad integriert, was eine adaptive Präzision ermöglicht, die mit der schwer-tailed und eingabeabhängigen Varianzstruktur anatomischer Details konsistent ist. Diese Formulierung unterstützt die Synthese von 3D-Bildern in voller Auflösung unter praktischen Speicher- und Zeitbeschränkungen auf einer einzelnen modernen GPU. Die Evaluierung an einer multizentrischen Kohorte zeigt eine verbesserte Übereinstimmung zwischen generierten und echten MRT-Verteilungen sowie eine verbesserte nachgelagerte Vorhersage des Gehirnalters und eine verbesserte regionale anatomische Übereinstimmung im Vergleich zu Diffusions-, latenten und waveletbasierten Baselines. Der Code ist verfügbar unter https://github.com/sisinflab/WaveDiT.
Mit PRECISE haben wir die vorhersagegestützte Inferenz (Prediction-Powered Inference) erweitert, um verzerrungskorrigierte Schätzungen von Bewertungsmetriken für Rangfolgen zu erzeugen, indem ein kleiner, manuell annotierter Satz mit einem großen, von LLM bewerteten Satz kombiniert wird. PPI ist unabhängig vom Fehlerprofil des LLM-Bewerters nachweislich unverzerrt. Wir machen es auf hierarchische Metriken wie Precision@K anwendbar, bei denen die Annotationen pro Dokument, die Metrik jedoch pro Suchanfrage erfolgt, indem die Berechnung des Ausgaberaums von O(2^|C|) auf O(2^K) reduziert wird. Im ESCI-Benchmark reduziert die Ergänzung von 30 menschlichen Annotationen um Bewertungen von Claude 3 Sonnet den Standardfehler von Precision@4-Schätzungen von 4,45 auf 3,50 (eine relative Reduktion von 21 %). In einem Produktionssystem identifizierte unser Framework aus 100 menschlichen Labels und 2 Stunden domänenexpertischer Annotation korrekt die beste von drei Systemvarianten; ein A/B-Test bestätigte diese Rangfolge mit einem Plus von 407 Basispunkten bei den täglichen Verkäufen.