papers.description
Sparse Autoencoders (SAEs) haben sich als vielversprechendes Werkzeug zur Interpretation neuronaler Netze etabliert, indem sie deren Aktivierungen in sparsame Mengen menschlich interpretierbarer Merkmale zerlegen. In jüngster Zeit wurden mehrere SAE-Varianten eingeführt und erfolgreich auf hochskalierte Modelle angewendet. Trotz großer Begeisterung werfen zunehmend negative Ergebnisse in nachgelagerten Aufgaben Zweifel auf, ob SAEs tatsächlich bedeutungsvolle Merkmale erfassen. Um dies direkt zu untersuchen, führen wir zwei komplementäre Evaluationen durch. In einem synthetischen Setup mit bekannten Ground-Truth-Merkmalen zeigen wir, dass SAEs trotz eines erklärten Varianzanteils von 71 % nur 9 % der tatsächlichen Merkmale wiederherstellen, was belegt, dass sie in ihrer Kernaufgabe versagen, selbst wenn die Rekonstruktion stark ist. Um SAEs an echten Aktivierungen zu bewerten, führen wir drei Baseline-Modelle ein, welche die Richtungen der SAE-Merkmale oder deren Aktivierungsmuster auf Zufallswerte beschränken. Durch umfangreiche Experimente mit verschiedenen SAE-Architekturen zeigen wir, dass unsere Baselines vollständig trainierte SAEs in Bezug auf Interpretierbarkeit (0,87 vs. 0,90), Sparse Probing (0,69 vs. 0,72) und kausale Modifikation (0,73 vs. 0,72) erreichen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass SAEs in ihrem aktuellen Zustand die internen Mechanismen von Modellen nicht zuverlässig zerlegen.
Agent Skills sind strukturierte Pakete prozeduralen Wissens, die LLM-Agenten zur Inferenzzeit erweitern. Trotz rascher Verbreitung existiert kein standardisierter Weg, um zu messen, ob sie tatsächlich nützen. Wir stellen SkillsBench vor, einen Benchmark mit 86 Aufgaben aus 11 Domänen, kombiniert mit kuratierten Skills und deterministischen Verifizierern. Jede Aufgabe wird unter drei Bedingungen evaluiert: ohne Skills, mit kuratierten Skills und mit selbstgenerierten Skills. Wir testen 7 Agenten-Modell-Konfigurationen über 7.308 Trajektorien. Kuratierte Skills steigern die durchschnittliche Erfolgsrate um 16,2 Prozentpunkte (PP), die Effekte variieren jedoch stark nach Domäne (+4,5 PP für Softwareentwicklung bis +51,9 PP für Gesundheitswesen) und 16 von 84 Aufgaben zeigen negative Deltas. Selbstgenerierte Skills bringen im Durchschnitt keinen Nutzen, was zeigt, dass Modelle das prozedurale Wissen, von dessen Konsum sie profitieren, nicht zuverlässig selbst erstellen können. Fokussierte Skills mit 2–3 Modulen übertreffen umfassende Dokumentation, und kleinere Modelle mit Skills können mit größeren Modellen ohne Skills gleichziehen.
Wir stellen GLM-5 vor, ein Next-Generation-Foundation-Model, das entwickelt wurde, um das Paradigma vom Vibe Coding zur agentenbasierten Engineering zu überführen. Aufbauend auf den agentenbasierten, reasoning- und Coding-Fähigkeiten (ARC) seines Vorgängers nutzt GLM-5 DSA, um die Trainings- und Inferenzkosten signifikant zu reduzieren und gleichzeitig die Langkontext-Treue beizubehalten. Um die Modellabstimmung und Autonomie voranzutreiben, setzen wir eine neue asynchrone Reinforcement-Learning-Infrastruktur ein, die die Effizienz nach dem Training durch die Entkopplung von Generierung und Training drastisch verbessert. Darüber hinaus schlagen wir neuartige asynchrone Agent-RL-Algorithmen vor, die die RL-Qualität weiter verbessern und es dem Modell ermöglichen, effektiver aus komplexen, langfristigen Interaktionen zu lernen. Durch diese Innovationen erzielt GLM-5 state-of-the-art Leistungen in wichtigen Open-Benchmarks. Entscheidend ist, dass GLM-5 beispiellose Fähigkeiten bei realen Coding-Aufgaben demonstriert und bisherige Baseline-Ansätze bei der Bewältigung end-to-end Software-Engineering-Herausforderungen übertrifft. Code, Modelle und weitere Informationen sind verfügbar unter https://github.com/zai-org/GLM-5.
Da großsprachmodellbasierte Agenten zunehmend vernetzte Umgebungen bevölkern, stellt sich eine grundlegende Frage: Durchlaufen KI-Agentengesellschaften ähnliche Konvergenzdynamiken wie menschliche Sozialsysteme? Moltbook skizziert jüngst ein plausibles Zukunftsszenario, in dem autonome Agenten an einer offenen, sich kontinuierlich entwickelnden Online-Gesellschaft teilnehmen. Wir präsentieren die erste großangelegte systemische Diagnose dieser KI-Agentengesellschaft. Über statische Beobachtung hinaus führen wir einen quantitativen Diagnoserahmen für die dynamische Evolution in KI-Agentengesellschaften ein, der semantische Stabilisierung, lexikalische Fluktuation, individuelle Trägheit, Einfluss-Persistenz und kollektiven Konsens misst. Unsere Analyse offenbart ein System im dynamischen Gleichgewicht in Moltbook: Während sich globale semantische Durchschnitte rasch stabilisieren, bewahren einzelne Agenten eine hohe Diversität und anhaltende lexikalische Fluktuation, widerstehen also der Homogenisierung. Allerdings zeigen Agenten starke individuelle Trägheit und minimale adaptive Reaktionen auf Interaktionspartner, was gegenseitige Beeinflussung und Konsens verhindert. Folglich bleibt Einfluss transient ohne persistente Superknoten, und die Gesellschaft entwickelt keine stabilen kollektiven Einflussanker aufgrund fehlenden gemeinsamen sozialen Gedächtnisses. Diese Ergebnisse demonstrieren, dass Größe und Interaktionsdichte allein nicht ausreichen, um Vergesellschaftung zu induzieren, und liefern umsetzbare Design- und Analyseprinzipien für kommende KI-Agentengesellschaften der nächsten Generation.
Wir stellen ResearchGym vor, ein Benchmark- und Ausführungsumgebung zur Bewertung von KI-Agenten in der End-to-End-Forschung. Zur Konkretisierung haben wir fünf Vortrags- und Spotlight-Papers von der ICML, ICLR und ACL umgewidmet. Aus dem Repository jedes Papers haben wir die Datensätze, die Evaluierungsinfrastruktur und die Implementierungen der Baseline-Modelle übernommen, die vom Paper vorgeschlagene Methode jedoch zurückgehalten. Dies ergibt fünf containerisierte Aufgabenumgebungen mit insgesamt 39 Teilaufgaben. Innerhalb jeder Umgebung müssen Agenten neue Hypothesen aufstellen, Experimente durchführen und versuchen, die starken menschlichen Baselines in den Metriken des Papers zu übertreffen. In einer kontrollierten Evaluation eines mit GPT-5 betriebenen Agenten beobachten wir eine deutliche Fähigkeits-Zuverlässigkeits-Lücke. Der Agent verbessert die bereitgestellten Baselines aus dem Repository in nur 1 von 15 Evaluationen (6,7 %) um 11,5 % und schließt im Durchschnitt nur 26,5 % der Teilaufgaben ab. Wir identifizieren wiederkehrende Fehlermuster mit langem Zeithorizont, darunter Ungeduld, schlechtes Zeit- und Ressourcenmanagement, übermäßiges Vertrauen in schwache Hypothesen, Schwierigkeiten bei der Koordination paralleler Experimente und harte Grenzen durch die Kontextlänge. In einem einzelnen Durchlauf übertrifft der Agent jedoch die Lösung einer ICML 2025 Spotlight-Aufgabe, was darauf hindeutet, dass Spitzenagenten gelegentlich State-of-the-Art-Leistung erreichen können, dies aber unzuverlässig tun. Wir evaluieren zusätzlich proprietäre Agenten-Scaffolds, darunter Claude Code (Opus-4.5) und Codex (GPT-5.2), die eine ähnliche Lücke aufweisen. ResearchGym bietet die Infrastruktur für die systematische Evaluation und Analyse autonomer Agenten in der geschlossenen Forschungsarbeit.
Einheitliche Modelle können sowohl multimodales Verständnis als auch Generierung innerhalb einer einzigen Architektur bewältigen, arbeiten jedoch typischerweise in einem einzigen Durchlauf, ohne ihre Ausgaben iterativ zu verfeinern. Viele multimodale Aufgaben, insbesondere solche mit komplexen räumlichen Kompositionen, mehreren interagierenden Objekten oder sich entwickelnden Instruktionen, erfordern das Zerlegen von Anweisungen, das Überprüfen von Zwischenergebnissen und das Vornehmen iterativer Korrekturen. Während Test-Time Scaling (TTS) gezeigt hat, dass die Zuweisung zusätzlicher Inferenz-Rechenleistung für iteratives Schlussfolgern die Leistung von Sprachmodellen erheblich verbessert, bleibt die Erweiterung dieses Paradigmas auf einheitliche multimodale Modelle eine offene Herausforderung. Wir stellen UniT vor, einen Rahmen für multimodales Chain-of-Thought-Test-Time-Scaling, der einem einzelnen einheitlichen Modell ermöglicht, über mehrere Runden hinweg zu schlussfolgern, zu verifizieren und zu verfeinern. UniT kombiniert agentenbasierte Datensynthese, einheitliches Modelltraining und flexible Test-Time-Inferenz, um kognitive Verhaltensweisen wie Verifikation, Teilzielzerlegung und Inhaltsgedächtnis zu elicitieren. Unsere wichtigsten Erkenntnisse sind: (1) Einheitliche Modelle, die auf kurzen Reasoning-Trajektorien trainiert wurden, generalisieren auf längere Inferenzketten zur Testzeit; (2) Sequenzielles Chain-of-Thought-Reasoning bietet eine skalierbarere und recheneffizientere TTS-Strategie als paralleles Sampling; (3) Training auf Generierungs- und Bearbeitungstrajektorien verbessert das visuelle Reasoning außerhalb der Trainingsverteilung. Diese Ergebnisse etablieren multimodales Test-Time-Scaling als ein effektives Paradigma zur Weiterentwicklung von Generierung und Verständnis in einheitlichen Modellen.
Text-Embedding-Modelle werden häufig für semantische Ähnlichkeitsaufgaben eingesetzt, darunter Informationsretrieval, Clustering und Klassifikation. Allgemeine Modelle werden typischerweise in ein- oder mehrstufigen Prozessen mit kontrastiven Verlustfunktionen trainiert. Wir stellen ein neuartiges Trainingsregime vor, das Modell-Distillationstechniken mit aufgabenspezifischen kontrastiven Verlustfunktionen kombiniert, um kompakte, leistungsstarke Embedding-Modelle zu erzeugen. Unsere Ergebnisse deuten darauf hin, dass dieser Ansatz für das Training kleiner Modelle effektiver ist als rein kontrastive oder ausschließlich auf Distillation basierende Trainingsparadigmen. Die Benchmark-Ergebnisse der resultierenden Modelle jina-embeddings-v5-text-small und jina-embeddings-v5-text-nano übertreffen oder erreichen den State-of-the-Art bei Modellen ähnlicher Größe. Die jina-embeddings-v5-text-Modelle unterstützen zudem lange Texte (bis zu 32.000 Tokens) in vielen Sprachen und erzeugen Embeddings, die bei Trunkierung und binärer Quantisierung robust bleiben. Die Modellgewichte sind öffentlich verfügbar, was hoffentlich weitere Fortschritte in der Entwicklung von Embedding-Modellen inspirieren wird.
Die Platonische Repräsentationshypothese postuliert, dass sich Repräsentationen neuronaler Netze zu einem gemeinsamen statistischen Modell der Realität hin entwickeln. Wir zeigen, dass die existierenden Metriken zur Messung von Repräsentationsähnlichkeit durch die Netzwerkgröße verzerrt werden: Eine Erhöhung der Modelltiefe oder -breite kann Repräsentationsähnlichkeitswerte systematisch aufblähen. Um diese Effekte zu korrigieren, führen wir ein permutationsbasiertes Null-Kalibrierungsframework ein, das jede Repräsentationsähnlichkeitsmetrik in einen kalibrierten Score mit statistischen Garantien transformiert. Wir überprüfen die Platonische Repräsentationshypothese mit unserem Kalibrierungsframework erneut, was ein differenziertes Bild offenbart: Die von globalen Spektralmaßen berichtete scheinbare Konvergenz verschwindet nach der Kalibrierung weitgehend, während lokale Nachbarschaftsähnlichkeit – nicht jedoch lokale Distanzen – eine signifikante Übereinstimmung über verschiedene Modalitäten hinweg beibehält. Basierend auf diesen Ergebnissen schlagen wir die Aristotelische Repräsentationshypothese vor: Repräsentationen in neuronalen Netzen konvergieren zu gemeinsamen lokalen Nachbarschaftsbeziehungen.
Die Nachtrainingskompression von Transformer-Modellen basiert häufig auf der truncated singular value decomposition (SVD, truncated-SVD). Die Erzwingung eines einzigen gemeinsamen Unterraums kann jedoch bereits bei moderater Kompression die Genauigkeit beeinträchtigen. Sparse Dictionary Learning bietet eine flexiblere Union-of-Subspaces-Darstellung, bestehende Ansätze leiden jedoch oft unter iterativen Aktualisierungen von Dictionary und Koeffizienten. Wir schlagen COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) vor, ein trainingsfreies Kompressionsframework, das einen kleinen Kalibrierungsdatensatz zur Schätzung einer稀疏en Gewichtsfaktorisierung nutzt. COMPOT verwendet orthogonale Dictionaries, die geschlossene Procrustes-Updates für das Dictionary und analytisches Single-Step-Sparse-Coding für die Koeffizienten ermöglichen, wodurch iterative Optimierung entfällt. Um der heterogenen Schichtempfindlichkeit unter einem globalen Kompressionsbudget gerecht zu werden, führt COMPOT zudem eine One-Shot-Dynamische-Allokationsstrategie ein, die schichtspezifische Kompressionsraten adaptiv umverteilt. Umfangreiche Experimente mit verschiedenen Architekturen und Aufgaben zeigen, dass COMPOT durchgängig eine überlegene Qualitäts-Kompressions-Abwägung gegenüber starken Low-Rank- und Sparse-Baselines erreicht und dabei vollständig kompatibel mit der Nachtrainingsquantisierung für extreme Kompression bleibt. Der Code ist verfügbar unter https://github.com/mts-ai/COMPOT.
Aktuelle Forschung zu multimodalen Modellen steht vor einer zentralen Herausforderung: Die Steigerung der generativen Fähigkeiten geht oft auf Kosten des Verständnisses und umgekehrt. Wir haben diesen Zielkonflikt analysiert und identifiziert, dass die Hauptursache ein potenzieller Widerspruch zwischen Generierung und Verständnis sein könnte, der eine konkurrierende Dynamik innerhalb des Modells erzeugt. Um dies zu adressieren, schlagen wir das Reason-Reflect-Refine (R3)-Framework vor. Dieser innovative Algorithmus formt die Einzelschritt-Generierungsaufgabe in einen Mehrschrittprozess des "Generierens-Verstehens-Wiedergenerierens" um. Indem wir die Verstehensfähigkeit des Modells explizit während der Generierung nutzen, mildern wir das Optimierungsdilemma erfolgreich ab und erzielen sowohl stärkere Generativeergebnisse als auch ein verbessertes Verständnisvermögen, das mit dem Generierungsprozess zusammenhängt. Dies bietet wertvolle Einblicke für die Entwicklung neuartiger, vereinheitlichter multimodaler Modelle der nächsten Generation. Der Code ist verfügbar unter https://github.com/sen-ye/R3.
Das Training großer Sprachmodelle (LLMs) stützt sich fast ausschließlich auf dichte adaptive Optimierer mit zunehmend ausgefeilten Preconditionern. Wir stellen dies infrage, indem wir zeigen, dass das zufällige Maskieren von Parameterupdates sehr effektiv sein kann: Eine maskierte Variante von RMSProp übertrifft durchgängig aktuelle state-of-the-art Optimierer. Unsere Analyse zeigt, dass die zufällige Maskierung eine krümmungsabhängige geometrische Regularisierung induziert, die den Optimierungspfad glättet. Aufbauend auf dieser Erkenntnis führen wir Momentum-aligned gradient masking (Magma) ein, das die maskierten Updates anhand der Momentum-Gradienten-Ausrichtung moduliert. Umfangreiche LLM-Pre-Training-Experimente belegen, dass Magma ein einfacher Drop-in-Ersatz für adaptive Optimierer ist, der konsistente Verbesserungen bei vernachlässigbarem Rechenaufwand bietet. Bemerkenswerterweise reduziert Magma für die Modellgröße 1B die Perplexität um über 19 % bzw. 9 % im Vergleich zu Adam und Muon.
Große Sprachmodelle (LLMs) verändern das Programmierparadigma, bekannt als Vibe Coding, doch die Synthese algorithmisch anspruchsvoller und robuster Codes bleibt eine kritische Herausforderung. Die Förderung der tiefgreifenden Denkfähigkeiten von LLMs ist entscheidend, um diese Hürde zu überwinden. Reinforcement Fine-Tuning (RFT) hat sich als vielversprechende Strategie erwiesen, um diesem Bedarf gerecht zu werden. Die meisten bestehenden Ansätze berücksichtigen jedoch nicht die inhärente Heterogenität von Schwierigkeitsgrad und Granularität in Testfällen, was zu einer unausgewogenen Verteilung von Belohnungssignalen und folglich zu verzerrten Gradientenupdates während des Trainings führt. Um dieses Problem zu adressieren, schlagen wir Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT) vor. TAROT konstruiert systematisch für jedes Problem einen vierstufigen Testsatz (einfach, mittel, komplex, Grenzfälle) und bietet damit eine kontrollierte Schwierigkeitslandschaft für Curriculum-Design und Evaluation. Entscheidend ist, dass TAROT den Curriculum-Fortschritt von rohen Belohnungswerten entkoppelt, wodurch eine fähigkeitsabhängige Evaluation und eine prinzipiengeleitete Auswahl aus einem Portfolio von Curriculum-Policies anstelle einer zufälligen Testfall-Zusammensetzung ermöglicht wird. Dieses Design fördert eine stabile Optimierung und einen effizienteren Kompetenzerwerb. Umfangreiche experimentelle Ergebnisse zeigen, dass das optimale Curriculum für RFT in der Codegenerierung eng mit den inhärenten Fähigkeiten eines Modells verbunden ist: Weniger leistungsfähige Modelle erzielen größere Fortschritte mit einem leichte-zur-schweren Verlauf, während kompetentere Modelle unter einem schwer-zur-leichten Curriculum besser abschneiden. TAROT bietet eine reproduzierbare Methode, die das Curriculum-Design adaptiv an die Fähigkeiten eines Modells anpasst und dadurch konsequent die funktionale Korrektheit und Robustheit des generierten Codes verbessert. Alle Codes und Daten wurden zur Förderung der Reproduzierbarkeit und zur Weiterentwicklung der Gemeinschaftsforschung unter https://github.com/deep-diver/TAROT veröffentlicht.
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
Reinforcement Learning (RL) hat das Reasoning großer Sprachmodelle erheblich verbessert, doch bestehende RL-Finetuning-Methoden sind stark von heuristischen Techniken wie Entropieregularisierung und Reweighting abhängig, um die Stabilität zu gewährleisten. In der Praxis kommt es häufig zu Performance-Einbrüchen in späteren Trainingsphasen, was zu einer Verschlechterung der Reasoning-Qualität und instabilem Training führt. Wir leiten her, dass die Größe der tokenweisen Policy-Gradienten in RL negativ mit der Token-Wahrscheinlichkeit und der lokalen Policy-Entropie korreliert. Aufbauend auf diesem Ergebnis beweisen wir, dass die Trainingsinstabilität durch einen winzigen Bruchteil von Tokens, etwa 0,01 %, verursacht wird, die wir als *spurious tokens* bezeichnen. Wenn solche Tokens in korrekten Antworten auftauchen, tragen sie wenig zum Reasoning-Ergebnis bei, erben jedoch die vollständige sequenzielle Belohnung, was zu abnormal verstärkten Gradientenupdates führt. Ausgehend von dieser Beobachtung schlagen wir Spurious-Token-Aware Policy Optimization (STAPO) für die Verfeinerung großskaliger Modelle vor, die solche Updates selektiv maskiert und den Verlust über gültige Tokens renormiert. In sechs mathematischen Reasoning-Benchmarks mit Qwen 1.7B-, 8B- und 14B-Basismodellen zeigt STAPO durchgängig eine überlegene Entropiestabilität und erreicht eine durchschnittliche Leistungssteigerung von 7,13 % gegenüber GRPO, 20-Entropy und JustRL.
Das Internet ist übersät mit Bildern, die ursprünglich für die menschliche Betrachtung erstellt wurden und nun zunehmend von Agenten mithilfe von Vision-Language-Modellen (VLMs) interpretiert werden. Diese Agenten treffen visuelle Entscheidungen in großem Maßstab und bestimmen, was angeklickt, empfohlen oder gekauft wird. Dennoch wissen wir wenig über die Struktur ihrer visuellen Präferenzen. Wir stellen einen Rahmen vor, um dies zu untersuchen, indem wir VLMs in kontrollierte, bildbasierte Auswahlaufgaben versetzen und ihre Eingaben systematisch verändern. Unsere zentrale Idee ist es, die Entscheidungsfunktion des Agenten als eine latente visuelle Nutzenfunktion zu betrachten, die durch Revealed Preference erschlossen werden kann: durch Entscheidungen zwischen systematisch bearbeiteten Bildern. Ausgehend von gängigen Bildern, wie z.B. Produktfotos, schlagen wir Methoden zur visuellen Prompt-Optimierung vor, die Textoptimierungsmethoden adaptieren, um iterativ visuell plausible Änderungen (z.B. in Komposition, Beleuchtung oder Hintergrund) unter Verwendung eines Bildgenerierungsmodells vorzuschlagen und anzuwenden. Anschließend bewerten wir, welche Bearbeitungen die Auswahlwahrscheinlichkeit erhöhen. Durch groß angelegte Experimente mit modernsten VLMs zeigen wir, dass optimierte Bearbeitungen die Wahlwahrscheinlichkeiten in direkten Vergleichen signifikant verschieben. Wir entwickeln eine automatische Interpretierbarkeits-Pipeline, um diese Präferenzen zu erklären und konsistente visuelle Themen zu identifizieren, die die Auswahl antreiben. Wir argumentieren, dass dieser Ansatz einen praktischen und effizienten Weg bietet, um visuelle Schwachstellen und Sicherheitsbedenken aufzudecken, die ansonsten implizit "in the wild" entdeckt werden könnten. Dies unterstützt eine proaktivere Überprüfung und Steuerung von bildbasierten KI-Agenten.
Prädiktive Weltmodelle, die zukünftige Beobachtungen unter expliziter Kamerasteuerung simulieren, sind grundlegend für interaktive KI. Trotz rascher Fortschritte mangelt es aktuellen Systemen an räumlicher Persistenz: Sie können stabile Szenenstrukturen über lange Trajektorien nicht aufrechterhalten und halluzinieren häufig Details, wenn Kameras zuvor beobachtete Orte erneut aufsuchen. Wir identifizieren, dass diese geometrische Drift auf die Abhängigkeit von bildschirmraum-basierten Positions-Einbettungen zurückzuführen ist, die mit der für 3D-Konsistenz erforderlichen projektiven Geometrie in Konflikt stehen. Wir stellen ViewRope vor, eine geometrie-bewusste Kodierung, die Kamerastrahlenrichtungen direkt in die Self-Attention-Schichten von Video-Transformatoren injiziert. Indem die Aufmerksamkeit mit relativer Strahlgeometrie statt mit Pixel-Lokalität parametrisiert wird, bietet ViewRope eine modell-native induktive Verzerrung für den Abruf von 3D-konsistenten Inhalten über zeitliche Lücken hinweg. Wir schlagen weiterhin Geometry-Aware Frame-Sparse Attention vor, das diese geometrischen Hinweise nutzt, um selektiv relevante historische Frames zu berücksichtigen, was die Effizienz verbessert, ohne die Speicherkonsistenz zu opfern. Wir präsentieren außerdem ViewBench, eine diagnostische Testsuite, welche die Schleifenschluss-Treue und die geometrische Drift misst. Unsere Ergebnisse demonstrieren, dass ViewRope die langfristige Konsistenz erheblich verbessert und gleichzeitig die Rechenkosten reduziert.
Obwohl große Sprachmodelle (LLMs) über Expertenwissen im medizinischen Bereich verfügen, bleibt die Abstimmung ihrer offenen Antworten auf die feingranularen Präferenzen von Klinikern eine Herausforderung. Bisherige Methoden stützen sich oft auf grobe Zielvorgaben oder unzuverlässige automatisierte Bewertungssysteme, die nur schwach in professionellen Leitlinien verankert sind. Wir schlagen einen zweistufigen Rahmen vor, um diese Lücke zu schließen. Erstens führen wir HealthRubrics ein, einen Datensatz mit 7.034 von Ärzten verifizierten Präferenzbeispielen, in denen Kliniker von LLMs erstellte Bewertungsraster verfeinern, um strenge medizinische Standards zu erfüllen. Zweitens destillieren wir diese Raster zu HealthPrinciples: 119 breit wiederverwendbare, klinisch fundierte Prinzipien, die nach klinischen Dimensionen organisiert sind und eine skalierbare Überwachung über manuelle Annotationen hinaus ermöglichen. Wir nutzen HealthPrinciples für (1) Offline-Alignment durch die Synthese von Bewertungsrastern für ungelabelte Anfragen und (2) als Inferenzzeit-Werkzeug für geführtes Selbst-Revision. Ein Modell mit 30B Parametern, das zur Inferenzzeit nur 3B Parameter aktiviert und mit unserem Framework trainiert wurde, erreicht 33,4 % auf HealthBench-Hard und übertrifft damit deutlich größere Modelle wie Deepseek-R1 und o3, wodurch eine ressourceneffiziente Baseline für die klinische Abstimmung etabliert wird.
Für den Einsatz von Fundamentmodellen benötigen Praktiker zunehmend präskriptive Skalierungsgesetze: Welche Downstream-Genauigkeit ist bei einem vorgegebenen Pre-Training-Rechenbudget mit aktuellen Post-Training-Verfahren erreichbar und wie stabil ist diese Abbildung im Laufe der Feldesentwicklung? Mithilfe groß angelegter Beobachtungsauswertungen mit 5.000 bestehenden und 2.000 neu erhobenen Datenpunkten zur Modellleistung schätzen wir Fähigkeitsgrenzen – hohe bedingte Quantile von Benchmark-Ergebnissen als Funktion der logarithmierten Pre-Training-FLOPs – mittels geglätteter Quantilsregression mit einer monotonen, sättigenden Sigmoid-Parametrisierung. Wir validieren die zeitliche Zuverlässigkeit, indem wir Modelle früherer Generationen anpassen und auf später veröffentlichte Modelle anwenden. Über verschiedene Aufgaben hinweg sind die geschätzten Grenzen größtenteils stabil, mit Ausnahme des mathematischen Denkens, das eine kontinuierlich fortschreitende Grenze aufweist. Anschließend erweitern wir unseren Ansatz, um aufgabenspezifische Sättigung zu analysieren und kontaminationsbedingte Verschiebungen bei mathematischen Denkaufgaben zu untersuchen. Schließlich stellen wir einen effizienten Algorithmus vor, der nahezu vollständige Datenfronten unter Nutzung von etwa 20 % des Evaluierungsbudgets rekonstruiert. Insgesamt veröffentlicht unsere Arbeit Proteus 2k, den neuesten Modellleistungs-Evaluierungsdatensatz, und führt eine praktische Methodik ein, um Rechenbudgets in zuverlässige Leistungserwartungen zu übersetzen und Verschiebungen von Fähigkeitsgrenzen über die Zeit hinweg zu überwachen.
Action Chunking ermöglicht es Vision-Language-Action (VLA)-Modellen, in Echtzeit zu arbeiten, doch naive, segmentierte Ausführung zeigt häufig Diskontinuitäten an den Segmentgrenzen. Real-Time Chunking (RTC) mildert dieses Problem, ist jedoch extern zur Policy, was zu unechtem multimodalen Wechseln und Trajektorien führt, die nicht intrinsisch glatt sind. Wir schlagen Legato vor, eine Continuation-Methode zur Trainingszeit für aktionssegmentierte, flussbasierte VLA-Policies. Konkret initialisiert Legato die Entrauschung aus einer zeitplan-geformten Mischung bekannter Aktionen und Rauschen, wodurch das Modell teilweisen Aktionsinformationen ausgesetzt wird. Darüber hinaus formt Legato die gelernten Flussdynamiken um, um sicherzustellen, dass der Entrauschungsprozess während Training und Inferenz unter schrittweiser Führung konsistent bleibt. Legato verwendet zudem randomisierte Zeitplanbedingungen während des Trainings, um variable Inferenzverzögerungen zu unterstützen und kontrollierbare Glattheit zu erreichen. Empirisch erzeugt Legato glattere Trajektorien und reduziert unechtes multimodales Wechseln während der Ausführung, was zu weniger Zögern und kürzerer Aufgabenbearbeitungszeit führt. Umfangreiche Experimente in der realen Welt zeigen, dass Legato RTC bei fünf Manipulationsaufgaben konsistent übertrifft und dabei etwa 10 % Verbesserungen sowohl bei der Trajektorienglattheit als auch bei der Aufgabenbearbeitungszeit erzielt.
Weltmodelle erfordern ein robustes relationales Verständnis, um Vorhersagen, Schlussfolgerungen und Steuerung zu unterstützen. Während objektzentrierte Repräsentationen eine nützliche Abstraktion bieten, reichen sie nicht aus, um interaktionsabhängige Dynamiken zu erfassen. Daher schlagen wir C-JEPA vor, ein einfaches und flexibles objektzentriertes Weltmodell, das die maskierte Joint-Embedding-Vorhersage von Bildpatches auf objektzentrierte Repräsentationen erweitert. Durch die Anwendung einer objektbasierten Maskierung, die erfordert, dass der Zustand eines Objekts aus anderen Objekten abgeleitet werden muss, induziert C-JEPA latente Interventionen mit kontrafaktischen Effekten und verhindert Abkürzungslösungen, was Interaktionsschlussfolgerungen essenziell macht. Empirisch führt C-JEPA zu konsistenten Verbesserungen beim visuellen Fragebeantworten, mit einer absoluten Verbesserung von etwa 20 % im kontrafaktischen Denken im Vergleich zur gleichen Architektur ohne objektbasierte Maskierung. Bei Agenten-Steuerungsaufgaben ermöglicht C-JEPA eine erheblich effizientere Planung, indem nur 1 % der gesamten latenten Eingabemerkmale verwendet werden, die von patchbasierten Weltmodellen benötigt werden, bei vergleichbarer Leistung. Abschließend liefern wir eine formale Analyse, die zeigt, dass objektbasierte Maskierung über latente Interventionen eine kausale Induktionsverzerrung induziert. Unser Code ist verfügbar unter https://github.com/galilai-group/cjepa.
Effiziente Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für moderne große Sprachmodelle (LLMs), insbesondere in ressourcenbeschränkten Umgebungen. Soft-Compression-Architekturen versprechen, die effektive Kontextlänge zu erweitern, indem lange Token-Sequenzen durch kleinere Sätze gelerntier komprimierter Token ersetzt werden. Dennoch sind die Grenzen der Komprimierbarkeit – und wann die Komprimierung beginnt, aufgabenrelevante Inhalte zu löschen – noch unzureichend erforscht. In diesem Artikel definieren wir Token-Überlauf als einen Zustand, in dem komprimierte Repräsentationen nicht mehr ausreichend Informationen enthalten, um eine gegebene Anfrage zu beantworten, und schlagen eine Methodik zu dessen Charakterisierung und Erkennung vor. Im xRAG-Soft-Compression-Setting stellen wir fest, dass anfragenunabhängige Sättigungsstatistiken zuverlässig zwischen komprimierten und unkomprimierten Token-Repräsentationen unterscheiden und somit ein praktisches Werkzeug zur Identifizierung komprimierter Token bieten, jedoch nur begrenzte Fähigkeiten zur Überlauferkennung aufweisen. Leichtgewichtige Probing-Klassifikatoren, die sowohl auf Anfrage- als auch Kontext-xRAG-Repräsentationen angewendet werden, erkennen Überlauf mit durchschnittlich 0,72 AUC-ROC auf den HotpotQA-, SQuADv2- und TriviaQA-Datensätzen. Dies zeigt, dass die Einbeziehung von Anfrageinformationen die Erkennungsleistung verbessert. Diese Ergebnisse markieren einen Fortschritt von anfragenunabhängigen Diagnosen hin zu anfragenbewussten Detektoren und ermöglichen eine kostengünstige Vor-LLM-Steuerung, um komprimierungsbedingte Fehler zu reduzieren.
Multi-Agenten-Systeme (MAS), die von Large Language Models angetrieben werden, haben fortschrittliches kollaboratives Reasoning ermöglicht, bleiben jedoch durch die Ineffizienz diskreter Textkommunikation eingeschränkt, die erhebliche Laufzeit-Overheads und Informationsquantisierungsverluste verursacht. Während die Übertragung latenter Zustände eine hochbitratige Alternative bietet, setzen bestehende Ansätze entweder homogene Sender-Empfänger-Architekturen voraus oder verlassen sich auf paar-spezifisch trainierte Übersetzer, was die Skalierbarkeit und Modularität über verschiedene Modellfamilien mit disjunkten Mannigfaltigkeiten hinweg einschränkt. In dieser Arbeit schlagen wir den "Vision Wormhole" vor, einen neuartigen Rahmen, der die visuelle Schnittstelle von Vision-Language-Models (VLMs) nutzt, um modell-agnostische, textfreie Kommunikation zu ermöglichen. Durch die Einführung eines Universal Visual Codec projizieren wir heterogene Reasoning-Pfade in einen gemeinsamen kontinuierlichen latenten Raum und injizieren sie direkt in den visuellen Verarbeitungspfad des Empfängers, wodurch der Vision-Encoder effektiv als universeller Port für Inter-Agenten-Telepathie fungiert. Unser Framework verwendet eine Hub-and-Spoke-Topologie, um die Komplexität der paarweisen Anpassung von O(N²) auf O(N) zu reduzieren, und nutzt ein label-freies Teacher-Student-Distillationsziel, um den hochbitratigen visuellen Kanal mit den robusten Reasoning-Mustern des Textpfads abzugleichen. Umfangreiche Experimente über heterogene Modellfamilien (z.B. Qwen-VL, Gemma) zeigen, dass der Vision Wormhole in kontrollierten Vergleichen die End-to-End-Echtzeit reduziert, während er eine mit standardbasierten textbasierten MAS vergleichbare Reasoning-Genauigkeit beibehält. Code ist verfügbar unter https://github.com/xz-liu/heterogeneous-latent-mas.
Clawdbot ist ein selbst gehosteter, werkzeugnutzender persönlicher KI-Agent mit einem breiten Aktionsraum, der lokale Ausführung und webvermittelte Workflows umfasst. Dies birgt erhöhte Sicherheits- und Schutzbedenken bei Unklarheiten und adversarischer Steuerung. Wir präsentieren eine trajektorienzentrierte Evaluierung von Clawdbot über sechs Risikodimensionen hinweg. Unser Testsuite beprobt und passt leicht Szenarien aus früheren Agenten-Sicherheitsbenchmarks (einschließlich ATBench und LPS-Bench) an und ergänzt diese durch maßgeschneiderte, handdesignte Fälle, die auf die Werkzeugoberfläche von Clawdbot zugeschnitten sind. Wir protokollieren vollständige Interaktionstrajektorien (Nachrichten, Aktionen, Werkzeugaufrufargumente/-ausgaben) und bewerten die Sicherheit sowohl mit einem automatisierten Trajektorien-Richter (AgentDoG-Qwen3-4B) als auch durch menschliche Überprüfung. Über 34 kanonische Fälle hinweg zeigen sich uneinheitliche Sicherheitsprofile: Die Leistung ist bei auf Zuverlässigkeit fokussierten Aufgaben generell konsistent, während die meisten Fehler bei unpräziser Absichtsangabe, offenen Zielen oder harmlos wirkenden Jailbreak-Prompts auftreten, bei denen geringfügige Fehlinterpretationen zu Werkzeugaktionen mit höherer Auswirkung eskalieren können. Wir ergänzten die Gesamtergebnisse mit repräsentativen Fallstudien, fassten die Gemeinsamkeiten dieser Fälle zusammen und analysierten die Sicherheitslücken und typischen Fehlermodi, die Clawdbot in der Praxis prone auszulösen neigt.
Der Humanity's Last Exam (HLE) Benchmark hat sich als weitverbreiteter Maßstab zur Bewertung leistungsstarker Großsprachmodelle anhand anspruchsvoller, multidisziplinärer Fragen etabliert. Gemeinschaftsanalysen haben jedoch Bedenken aufgezeigt, dass HLE eine nicht unerhebliche Anzahl verrauschter Items enthält, was Evaluierungsergebnisse verzerren und Modellvergleiche verfälschen kann. Um diese Herausforderung zu adressieren, stellen wir HLE-Verified vor – eine verifizierte und überarbeitete Version von HLE mit einem transparenten Verifizierungsprotokoll und einer feingranularen Fehlertaxonomie. Unsere Konstruktion folgt einem zweistufigen Validierungs- und Reparatur-Workflow, der zu einem zertifizierten Benchmark führt. In Stufe I durchläuft jedes Item eine binäre Validierung der Problemstellung und Endantwort durch Domain-Expertenreview und modellgestützte Kreuzprüfungen, was zu 641 verifizierten Items führt. In Stufe II werden fehlerhafte aber korrigierbare Items unter strengen Auflagen, die die ursprüngliche Evaluierungsabsicht bewahren, überarbeitet. Dies geschieht durch duale unabhängige Expertenreparaturen, modellgestütztes Auditing und finale Schiedsprüfung, was zu 1.170 revidierten und zertifizierten Items führt. Die verbleibenden 689 Items werden als dokumentierter Unsicherheitssatz mit expliziten Unsicherheitsquellen und Expertentags zur weiteren Verfeinerung veröffentlicht. Wir evaluieren sieben state-of-the-art Sprachmodelle auf HLE und HLE-Verified und beobachten einen durchschnittlichen absoluten Genauigkeitszuwachs von 7–10 Prozentpunkten auf HLE-Verified. Die Verbesserung ist besonders ausgeprägt bei Items mit fehlerhafter ursprünglicher Problemstellung und/oder Referenzantwort, mit Steigerungen von 30–40 Prozentpunkten. Unsere Analysen zeigen weiterhin eine starke Assoziation zwischen Modellkonfidenz und Fehlern in Problemstellung oder Referenzantwort, was die Wirksamkeit unserer Revisionen untermauert. Insgesamt verbessert HLE-Verified HLE-artige Evaluationen, indem Annotation Noise reduziert und eine treuere Messung von Modellfähigkeiten ermöglicht wird. Die Daten sind verfügbar unter: https://github.com/SKYLENAGE-AI/HLE-Verified
Große Sprachmodelle (LLMs) haben nach wie vor Schwierigkeiten mit wissensintensiven Fragen, die aktuelle Informationen und mehrstufiges Schlussfolgern erfordern. Die Erweiterung von LLMs durch hybrides externes Wissen, wie unstrukturierten Text und strukturierte Wissensgraphen, bietet eine vielversprechende Alternative zur kostspieligen kontinuierlichen Vortrainierung. Daher wird eine zuverlässige Bewertung ihrer Retrieval- und Reasoning-Fähigkeiten entscheidend. Viele bestehende Benchmarks überschneiden sich jedoch zunehmend mit den Vortrainingsdaten von LLMs, was bedeutet, dass Antworten oder unterstützendes Wissen bereits in den Modellparametern kodiert sein können. Dies macht es schwierig, echtes Retrieval und Reasoning von parametrischem Abruf zu unterscheiden. Wir stellen HybridRAG-Bench vor, ein Framework zur Konstruktion von Benchmarks zur Bewertung von retrieval-intensivem, mehrstufigem Reasoning über hybrides Wissen. HybridRAG-Bench koppelt automatisch unstrukturierte Text- und strukturierte Wissensgraphen-Repräsentationen, die aus aktueller wissenschaftlicher Literatur auf arXiv abgeleitet werden, und erzeugt wissensintensive Frage-Antwort-Paare, die auf expliziten Reasoning-Pfaden basieren. Das Framework unterstützt eine flexible Auswahl von Domänen und Zeiträumen und ermöglicht so eine kontaminationsbewusste und anpassbare Bewertung, während sich Modelle und Wissen weiterentwickeln. Experimente in drei Domänen (Künstliche Intelligenz, Regierungsführung und Politik sowie Bioinformatik) zeigen, dass HybridRAG-Bench echtes Retrieval und Reasoning belohnt anstatt parametrischen Abruf, und bietet somit eine prinzipielle Testumgebung zur Bewertung hybrider, wissensverstärkter Reasoning-Systeme. Wir veröffentlichen unseren Code und unsere Daten unter github.com/junhongmit/HybridRAG-Bench.