HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

25 papers found

Plausibilitätsprüfungen für Sparse Autoencoders: Übertreffen SAEs zufällige Baseline-Modelle?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Feb 15

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina

Sparse Autoencoders (SAEs) haben sich als vielversprechendes Werkzeug zur Interpretation neuronaler Netze etabliert, indem sie deren Aktivierungen in sparsame Mengen menschlich interpretierbarer Merkmale zerlegen. In jüngster Zeit wurden mehrere SAE-Varianten eingeführt und erfolgreich auf hochskalierte Modelle angewendet. Trotz großer Begeisterung werfen zunehmend negative Ergebnisse in nachgelagerten Aufgaben Zweifel auf, ob SAEs tatsächlich bedeutungsvolle Merkmale erfassen. Um dies direkt zu untersuchen, führen wir zwei komplementäre Evaluationen durch. In einem synthetischen Setup mit bekannten Ground-Truth-Merkmalen zeigen wir, dass SAEs trotz eines erklärten Varianzanteils von 71 % nur 9 % der tatsächlichen Merkmale wiederherstellen, was belegt, dass sie in ihrer Kernaufgabe versagen, selbst wenn die Rekonstruktion stark ist. Um SAEs an echten Aktivierungen zu bewerten, führen wir drei Baseline-Modelle ein, welche die Richtungen der SAE-Merkmale oder deren Aktivierungsmuster auf Zufallswerte beschränken. Durch umfangreiche Experimente mit verschiedenen SAE-Architekturen zeigen wir, dass unsere Baselines vollständig trainierte SAEs in Bezug auf Interpretierbarkeit (0,87 vs. 0,90), Sparse Probing (0,69 vs. 0,72) und kausale Modifikation (0,73 vs. 0,72) erreichen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass SAEs in ihrem aktuellen Zustand die internen Mechanismen von Modellen nicht zuverlässig zerlegen.

SkillsBench: Benchmarking zur Bewertung der Leistungsfähigkeit von Agenten-Fähigkeiten in verschiedenen Aufgabenbereichen
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Feb 13

ByXiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Agent Skills sind strukturierte Pakete prozeduralen Wissens, die LLM-Agenten zur Inferenzzeit erweitern. Trotz rascher Verbreitung existiert kein standardisierter Weg, um zu messen, ob sie tatsächlich nützen. Wir stellen SkillsBench vor, einen Benchmark mit 86 Aufgaben aus 11 Domänen, kombiniert mit kuratierten Skills und deterministischen Verifizierern. Jede Aufgabe wird unter drei Bedingungen evaluiert: ohne Skills, mit kuratierten Skills und mit selbstgenerierten Skills. Wir testen 7 Agenten-Modell-Konfigurationen über 7.308 Trajektorien. Kuratierte Skills steigern die durchschnittliche Erfolgsrate um 16,2 Prozentpunkte (PP), die Effekte variieren jedoch stark nach Domäne (+4,5 PP für Softwareentwicklung bis +51,9 PP für Gesundheitswesen) und 16 von 84 Aufgaben zeigen negative Deltas. Selbstgenerierte Skills bringen im Durchschnitt keinen Nutzen, was zeigt, dass Modelle das prozedurale Wissen, von dessen Konsum sie profitieren, nicht zuverlässig selbst erstellen können. Fokussierte Skills mit 2–3 Modulen übertreffen umfassende Dokumentation, und kleinere Modelle mit Skills können mit größeren Modellen ohne Skills gleichziehen.

GLM-5: Von Vibe Coding zu Agentic Engineering
GLM-5: from Vibe Coding to Agentic Engineering

Feb 17

ByGLM-5 Team, Aohan Zeng, Xin Lv, Zhenyu Hou, Zhengxiao Du, Qinkai Zheng, Bin Chen, Da Yin, Chendi Ge, Chengxing Xie, Cunxiang Wang, Gengzheng Pan, Hao Zeng, Haoke Zhang, Haoran Wang, Huilong Chen, Jiajie Zhang, Jian Jiao, Jiaqi Guo, Jingsen Wang, Jingzhao Du, Jinzhu Wu, Kedong Wang, Lei Li, Lin Fan, Lucen Zhong, Mingdao Liu, Mingming Zhao, Pengfan Du, Qian Dong, Rui Lu, Shuang-Li, Shulin Cao, Song Liu, Ting Jiang, Xiaodong Chen, Xiaohan Zhang, Xuancheng Huang, Xuezhen Dong, Yabo Xu, Yao Wei, Yifan An, Yilin Niu, Yitong Zhu, Yuanhao Wen, Yukuo Cen, Yushi Bai, Zhongpei Qiao, Zihan Wang, Zikang Wang, Zilin Zhu, Ziqiang Liu, Zixuan Li, Bojie Wang, Bosi Wen, Can Huang, Changpeng Cai, Chao Yu, Chen Li, Chen Li, Chenghua Huang, Chengwei Hu, Chenhui Zhang, Chenzheng Zhu, Congfeng Yin, Daoyan Lin, Dayong Yang, Di Wang, Ding Ai, Erle Zhu, Fangzhou Yi, Feiyu Chen, Guohong Wen, Hailong Sun, Haisha Zhao, Haiyi Hu, Hanchen Zhang, Hanrui Liu, Hanyu Zhang, Hao Peng, Hao Tai, Haobo Zhang, He Liu, Hongwei Wang, Hongxi Yan, Hongyu Ge, Huan Liu, Huan Liu, Huanpeng Chu, Jia'ni Zhao, Jiachen Wang, Jiajing Zhao, Jiamin Ren, Jiapeng Wang, Jiaxin Zhang, Jiayi Gui, Jiayue Zhao, Jijie Li, Jing An, Jing Li, Jingwei Yuan, Jinhua Du, Jinxin Liu, Junkai Zhi, Junwen Duan, Kaiyue Zhou, Kangjian Wei, Ke Wang, Keyun Luo, Laiqiang Zhang, Leigang Sha, Liang Xu, Lindong Wu, Lintao Ding, Lu Chen, Minghao Li, Nianyi Lin, Pan Ta, Qiang Zou, Rongjun Song, Ruiqi Yang, Shangqing Tu, Shangtong Yang, Shaoxiang Wu, Shengyan Zhang, Shijie Li, Shuang Li, Shuyi Fan, Wei Qin, Wei Tian, Weining Zhang, Wenbo Yu, Wenjie Liang, Xiang Kuang, Xiangmeng Cheng, Xiangyang Li, Xiaoquan Yan, Xiaowei Hu, Xiaoying Ling, Xing Fan, Xingye Xia, Xinyuan Zhang, Xinze Zhang, Xirui Pan, Xunkai Zhang, Yandong Wu, Yanfu Li, Yidong Wang, Yifan Zhu, Yijun Tan, Yilin Zhou, Yiming Pan, Ying Zhang, Yinpei Su, Yipeng Geng, Yipeng Geng, Yong Yan, Yonglin Tan, Yuean Bi, Yuhan Shen, Yuhao Yang, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yurong Wu, Yutao Zhang, Yuxi Duan, Yuxuan Zhang, Zezhen Liu, Zhengtao Jiang, Zhenhe Yan, Zheyu Zhang, Zhixiang Wei, Zhuo Chen, Zhuoer Feng, Zijun Yao, Ziwei Chai, Ziyuan Wang, Zuzhou Zhang, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

Wir stellen GLM-5 vor, ein Next-Generation-Foundation-Model, das entwickelt wurde, um das Paradigma vom Vibe Coding zur agentenbasierten Engineering zu überführen. Aufbauend auf den agentenbasierten, reasoning- und Coding-Fähigkeiten (ARC) seines Vorgängers nutzt GLM-5 DSA, um die Trainings- und Inferenzkosten signifikant zu reduzieren und gleichzeitig die Langkontext-Treue beizubehalten. Um die Modellabstimmung und Autonomie voranzutreiben, setzen wir eine neue asynchrone Reinforcement-Learning-Infrastruktur ein, die die Effizienz nach dem Training durch die Entkopplung von Generierung und Training drastisch verbessert. Darüber hinaus schlagen wir neuartige asynchrone Agent-RL-Algorithmen vor, die die RL-Qualität weiter verbessern und es dem Modell ermöglichen, effektiver aus komplexen, langfristigen Interaktionen zu lernen. Durch diese Innovationen erzielt GLM-5 state-of-the-art Leistungen in wichtigen Open-Benchmarks. Entscheidend ist, dass GLM-5 beispiellose Fähigkeiten bei realen Coding-Aufgaben demonstriert und bisherige Baseline-Ansätze bei der Bewältigung end-to-end Software-Engineering-Herausforderungen übertrifft. Code, Modelle und weitere Informationen sind verfügbar unter https://github.com/zai-org/GLM-5.

Entsteht Sozialisation in KI-Agenten-Gesellschaften? Eine Fallstudie zu Moltbook
Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

Feb 15

ByMing Li, Xirui Li, Tianyi Zhou

Da großsprachmodellbasierte Agenten zunehmend vernetzte Umgebungen bevölkern, stellt sich eine grundlegende Frage: Durchlaufen KI-Agentengesellschaften ähnliche Konvergenzdynamiken wie menschliche Sozialsysteme? Moltbook skizziert jüngst ein plausibles Zukunftsszenario, in dem autonome Agenten an einer offenen, sich kontinuierlich entwickelnden Online-Gesellschaft teilnehmen. Wir präsentieren die erste großangelegte systemische Diagnose dieser KI-Agentengesellschaft. Über statische Beobachtung hinaus führen wir einen quantitativen Diagnoserahmen für die dynamische Evolution in KI-Agentengesellschaften ein, der semantische Stabilisierung, lexikalische Fluktuation, individuelle Trägheit, Einfluss-Persistenz und kollektiven Konsens misst. Unsere Analyse offenbart ein System im dynamischen Gleichgewicht in Moltbook: Während sich globale semantische Durchschnitte rasch stabilisieren, bewahren einzelne Agenten eine hohe Diversität und anhaltende lexikalische Fluktuation, widerstehen also der Homogenisierung. Allerdings zeigen Agenten starke individuelle Trägheit und minimale adaptive Reaktionen auf Interaktionspartner, was gegenseitige Beeinflussung und Konsens verhindert. Folglich bleibt Einfluss transient ohne persistente Superknoten, und die Gesellschaft entwickelt keine stabilen kollektiven Einflussanker aufgrund fehlenden gemeinsamen sozialen Gedächtnisses. Diese Ergebnisse demonstrieren, dass Größe und Interaktionsdichte allein nicht ausreichen, um Vergesellschaftung zu induzieren, und liefern umsetzbare Design- und Analyseprinzipien für kommende KI-Agentengesellschaften der nächsten Generation.

ResearchGym: Evaluierung von Sprachmodell-Agents in der realen KI-Forschung
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Feb 16

ByAniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Wir stellen ResearchGym vor, ein Benchmark- und Ausführungsumgebung zur Bewertung von KI-Agenten in der End-to-End-Forschung. Zur Konkretisierung haben wir fünf Vortrags- und Spotlight-Papers von der ICML, ICLR und ACL umgewidmet. Aus dem Repository jedes Papers haben wir die Datensätze, die Evaluierungsinfrastruktur und die Implementierungen der Baseline-Modelle übernommen, die vom Paper vorgeschlagene Methode jedoch zurückgehalten. Dies ergibt fünf containerisierte Aufgabenumgebungen mit insgesamt 39 Teilaufgaben. Innerhalb jeder Umgebung müssen Agenten neue Hypothesen aufstellen, Experimente durchführen und versuchen, die starken menschlichen Baselines in den Metriken des Papers zu übertreffen. In einer kontrollierten Evaluation eines mit GPT-5 betriebenen Agenten beobachten wir eine deutliche Fähigkeits-Zuverlässigkeits-Lücke. Der Agent verbessert die bereitgestellten Baselines aus dem Repository in nur 1 von 15 Evaluationen (6,7 %) um 11,5 % und schließt im Durchschnitt nur 26,5 % der Teilaufgaben ab. Wir identifizieren wiederkehrende Fehlermuster mit langem Zeithorizont, darunter Ungeduld, schlechtes Zeit- und Ressourcenmanagement, übermäßiges Vertrauen in schwache Hypothesen, Schwierigkeiten bei der Koordination paralleler Experimente und harte Grenzen durch die Kontextlänge. In einem einzelnen Durchlauf übertrifft der Agent jedoch die Lösung einer ICML 2025 Spotlight-Aufgabe, was darauf hindeutet, dass Spitzenagenten gelegentlich State-of-the-Art-Leistung erreichen können, dies aber unzuverlässig tun. Wir evaluieren zusätzlich proprietäre Agenten-Scaffolds, darunter Claude Code (Opus-4.5) und Codex (GPT-5.2), die eine ähnliche Lücke aufweisen. ResearchGym bietet die Infrastruktur für die systematische Evaluation und Analyse autonomer Agenten in der geschlossenen Forschungsarbeit.

UniT: Vereinheitlichte multimodale Testzeit-Skalierung mittels Denkketten
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Feb 12

ByLeon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu

Einheitliche Modelle können sowohl multimodales Verständnis als auch Generierung innerhalb einer einzigen Architektur bewältigen, arbeiten jedoch typischerweise in einem einzigen Durchlauf, ohne ihre Ausgaben iterativ zu verfeinern. Viele multimodale Aufgaben, insbesondere solche mit komplexen räumlichen Kompositionen, mehreren interagierenden Objekten oder sich entwickelnden Instruktionen, erfordern das Zerlegen von Anweisungen, das Überprüfen von Zwischenergebnissen und das Vornehmen iterativer Korrekturen. Während Test-Time Scaling (TTS) gezeigt hat, dass die Zuweisung zusätzlicher Inferenz-Rechenleistung für iteratives Schlussfolgern die Leistung von Sprachmodellen erheblich verbessert, bleibt die Erweiterung dieses Paradigmas auf einheitliche multimodale Modelle eine offene Herausforderung. Wir stellen UniT vor, einen Rahmen für multimodales Chain-of-Thought-Test-Time-Scaling, der einem einzelnen einheitlichen Modell ermöglicht, über mehrere Runden hinweg zu schlussfolgern, zu verifizieren und zu verfeinern. UniT kombiniert agentenbasierte Datensynthese, einheitliches Modelltraining und flexible Test-Time-Inferenz, um kognitive Verhaltensweisen wie Verifikation, Teilzielzerlegung und Inhaltsgedächtnis zu elicitieren. Unsere wichtigsten Erkenntnisse sind: (1) Einheitliche Modelle, die auf kurzen Reasoning-Trajektorien trainiert wurden, generalisieren auf längere Inferenzketten zur Testzeit; (2) Sequenzielles Chain-of-Thought-Reasoning bietet eine skalierbarere und recheneffizientere TTS-Strategie als paralleles Sampling; (3) Training auf Generierungs- und Bearbeitungstrajektorien verbessert das visuelle Reasoning außerhalb der Trainingsverteilung. Diese Ergebnisse etablieren multimodales Test-Time-Scaling als ein effektives Paradigma zur Weiterentwicklung von Generierung und Verständnis in einheitlichen Modellen.

jina-embeddings-v5-text: Aufgabenorientierte Embedding-Destillation
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Feb 17

ByMohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao

Text-Embedding-Modelle werden häufig für semantische Ähnlichkeitsaufgaben eingesetzt, darunter Informationsretrieval, Clustering und Klassifikation. Allgemeine Modelle werden typischerweise in ein- oder mehrstufigen Prozessen mit kontrastiven Verlustfunktionen trainiert. Wir stellen ein neuartiges Trainingsregime vor, das Modell-Distillationstechniken mit aufgabenspezifischen kontrastiven Verlustfunktionen kombiniert, um kompakte, leistungsstarke Embedding-Modelle zu erzeugen. Unsere Ergebnisse deuten darauf hin, dass dieser Ansatz für das Training kleiner Modelle effektiver ist als rein kontrastive oder ausschließlich auf Distillation basierende Trainingsparadigmen. Die Benchmark-Ergebnisse der resultierenden Modelle jina-embeddings-v5-text-small und jina-embeddings-v5-text-nano übertreffen oder erreichen den State-of-the-Art bei Modellen ähnlicher Größe. Die jina-embeddings-v5-text-Modelle unterstützen zudem lange Texte (bis zu 32.000 Tokens) in vielen Sprachen und erzeugen Embeddings, die bei Trunkierung und binärer Quantisierung robust bleiben. Die Modellgewichte sind öffentlich verfügbar, was hoffentlich weitere Fortschritte in der Entwicklung von Embedding-Modellen inspirieren wird.

Revisited: Die platonische Repräsentationshypothese aus aristotelischer Sicht
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

Feb 16

ByFabian Gröger, Shuo Wen, Maria Brbić

Die Platonische Repräsentationshypothese postuliert, dass sich Repräsentationen neuronaler Netze zu einem gemeinsamen statistischen Modell der Realität hin entwickeln. Wir zeigen, dass die existierenden Metriken zur Messung von Repräsentationsähnlichkeit durch die Netzwerkgröße verzerrt werden: Eine Erhöhung der Modelltiefe oder -breite kann Repräsentationsähnlichkeitswerte systematisch aufblähen. Um diese Effekte zu korrigieren, führen wir ein permutationsbasiertes Null-Kalibrierungsframework ein, das jede Repräsentationsähnlichkeitsmetrik in einen kalibrierten Score mit statistischen Garantien transformiert. Wir überprüfen die Platonische Repräsentationshypothese mit unserem Kalibrierungsframework erneut, was ein differenziertes Bild offenbart: Die von globalen Spektralmaßen berichtete scheinbare Konvergenz verschwindet nach der Kalibrierung weitgehend, während lokale Nachbarschaftsähnlichkeit – nicht jedoch lokale Distanzen – eine signifikante Übereinstimmung über verschiedene Modalitäten hinweg beibehält. Basierend auf diesen Ergebnissen schlagen wir die Aristotelische Repräsentationshypothese vor: Repräsentationen in neuronalen Netzen konvergieren zu gemeinsamen lokalen Nachbarschaftsbeziehungen.

COMPOT: Kalibrierungsoptimierte Matrix-Procrustes-Orthogonalisierung zur Komprimierung von Transformer-Modellen
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Feb 16

ByDenis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis

Die Nachtrainingskompression von Transformer-Modellen basiert häufig auf der truncated singular value decomposition (SVD, truncated-SVD). Die Erzwingung eines einzigen gemeinsamen Unterraums kann jedoch bereits bei moderater Kompression die Genauigkeit beeinträchtigen. Sparse Dictionary Learning bietet eine flexiblere Union-of-Subspaces-Darstellung, bestehende Ansätze leiden jedoch oft unter iterativen Aktualisierungen von Dictionary und Koeffizienten. Wir schlagen COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) vor, ein trainingsfreies Kompressionsframework, das einen kleinen Kalibrierungsdatensatz zur Schätzung einer稀疏en Gewichtsfaktorisierung nutzt. COMPOT verwendet orthogonale Dictionaries, die geschlossene Procrustes-Updates für das Dictionary und analytisches Single-Step-Sparse-Coding für die Koeffizienten ermöglichen, wodurch iterative Optimierung entfällt. Um der heterogenen Schichtempfindlichkeit unter einem globalen Kompressionsbudget gerecht zu werden, führt COMPOT zudem eine One-Shot-Dynamische-Allokationsstrategie ein, die schichtspezifische Kompressionsraten adaptiv umverteilt. Umfangreiche Experimente mit verschiedenen Architekturen und Aufgaben zeigen, dass COMPOT durchgängig eine überlegene Qualitäts-Kompressions-Abwägung gegenüber starken Low-Rank- und Sparse-Baselines erreicht und dabei vollständig kompatibel mit der Nachtrainingsquantisierung für extreme Kompression bleibt. Der Code ist verfügbar unter https://github.com/mts-ai/COMPOT.

Verstehen vs. Erzeugen: Navigieren im Optimierungsdilemma multimodaler Modelle
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Feb 17

BySen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu

Aktuelle Forschung zu multimodalen Modellen steht vor einer zentralen Herausforderung: Die Steigerung der generativen Fähigkeiten geht oft auf Kosten des Verständnisses und umgekehrt. Wir haben diesen Zielkonflikt analysiert und identifiziert, dass die Hauptursache ein potenzieller Widerspruch zwischen Generierung und Verständnis sein könnte, der eine konkurrierende Dynamik innerhalb des Modells erzeugt. Um dies zu adressieren, schlagen wir das Reason-Reflect-Refine (R3)-Framework vor. Dieser innovative Algorithmus formt die Einzelschritt-Generierungsaufgabe in einen Mehrschrittprozess des "Generierens-Verstehens-Wiedergenerierens" um. Indem wir die Verstehensfähigkeit des Modells explizit während der Generierung nutzen, mildern wir das Optimierungsdilemma erfolgreich ab und erzielen sowohl stärkere Generativeergebnisse als auch ein verbessertes Verständnisvermögen, das mit dem Generierungsprozess zusammenhängt. Dies bietet wertvolle Einblicke für die Entwicklung neuartiger, vereinheitlichter multimodaler Modelle der nächsten Generation. Der Code ist verfügbar unter https://github.com/sen-ye/R3.

Über die überraschende Wirksamkeit von Maskierungs-Updates in adaptiven Optimierern
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Feb 17

ByTaejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie

Das Training großer Sprachmodelle (LLMs) stützt sich fast ausschließlich auf dichte adaptive Optimierer mit zunehmend ausgefeilten Preconditionern. Wir stellen dies infrage, indem wir zeigen, dass das zufällige Maskieren von Parameterupdates sehr effektiv sein kann: Eine maskierte Variante von RMSProp übertrifft durchgängig aktuelle state-of-the-art Optimierer. Unsere Analyse zeigt, dass die zufällige Maskierung eine krümmungsabhängige geometrische Regularisierung induziert, die den Optimierungspfad glättet. Aufbauend auf dieser Erkenntnis führen wir Momentum-aligned gradient masking (Magma) ein, das die maskierten Updates anhand der Momentum-Gradienten-Ausrichtung moduliert. Umfangreiche LLM-Pre-Training-Experimente belegen, dass Magma ein einfacher Drop-in-Ersatz für adaptive Optimierer ist, der konsistente Verbesserungen bei vernachlässigbarem Rechenaufwand bietet. Bemerkenswerterweise reduziert Magma für die Modellgröße 1B die Perplexität um über 19 % bzw. 9 % im Vergleich zu Adam und Muon.

TAROT: Testgetriebenes und fähigkeitsadaptives Curriculum Reinforcement Fine-Tuning für die Codegenerierung mit großen Sprachmodellen
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Feb 17

ByChansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li

Große Sprachmodelle (LLMs) verändern das Programmierparadigma, bekannt als Vibe Coding, doch die Synthese algorithmisch anspruchsvoller und robuster Codes bleibt eine kritische Herausforderung. Die Förderung der tiefgreifenden Denkfähigkeiten von LLMs ist entscheidend, um diese Hürde zu überwinden. Reinforcement Fine-Tuning (RFT) hat sich als vielversprechende Strategie erwiesen, um diesem Bedarf gerecht zu werden. Die meisten bestehenden Ansätze berücksichtigen jedoch nicht die inhärente Heterogenität von Schwierigkeitsgrad und Granularität in Testfällen, was zu einer unausgewogenen Verteilung von Belohnungssignalen und folglich zu verzerrten Gradientenupdates während des Trainings führt. Um dieses Problem zu adressieren, schlagen wir Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT) vor. TAROT konstruiert systematisch für jedes Problem einen vierstufigen Testsatz (einfach, mittel, komplex, Grenzfälle) und bietet damit eine kontrollierte Schwierigkeitslandschaft für Curriculum-Design und Evaluation. Entscheidend ist, dass TAROT den Curriculum-Fortschritt von rohen Belohnungswerten entkoppelt, wodurch eine fähigkeitsabhängige Evaluation und eine prinzipiengeleitete Auswahl aus einem Portfolio von Curriculum-Policies anstelle einer zufälligen Testfall-Zusammensetzung ermöglicht wird. Dieses Design fördert eine stabile Optimierung und einen effizienteren Kompetenzerwerb. Umfangreiche experimentelle Ergebnisse zeigen, dass das optimale Curriculum für RFT in der Codegenerierung eng mit den inhärenten Fähigkeiten eines Modells verbunden ist: Weniger leistungsfähige Modelle erzielen größere Fortschritte mit einem leichte-zur-schweren Verlauf, während kompetentere Modelle unter einem schwer-zur-leichten Curriculum besser abschneiden. TAROT bietet eine reproduzierbare Methode, die das Curriculum-Design adaptiv an die Fähigkeiten eines Modells anpasst und dadurch konsequent die funktionale Korrektheit und Robustheit des generierten Codes verbessert. Alle Codes und Daten wurden zur Förderung der Reproduzierbarkeit und zur Weiterentwicklung der Gemeinschaftsforschung unter https://github.com/deep-diver/TAROT veröffentlicht.

Panini: Continual Learning in Token Space via Structured Memory

Feb 16

ByShreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.

STAPO: Stabilisierung von Reinforcement Learning für LLMs durch Unterdrückung seltener irreführender Tokens
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Feb 17

ByShiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

Reinforcement Learning (RL) hat das Reasoning großer Sprachmodelle erheblich verbessert, doch bestehende RL-Finetuning-Methoden sind stark von heuristischen Techniken wie Entropieregularisierung und Reweighting abhängig, um die Stabilität zu gewährleisten. In der Praxis kommt es häufig zu Performance-Einbrüchen in späteren Trainingsphasen, was zu einer Verschlechterung der Reasoning-Qualität und instabilem Training führt. Wir leiten her, dass die Größe der tokenweisen Policy-Gradienten in RL negativ mit der Token-Wahrscheinlichkeit und der lokalen Policy-Entropie korreliert. Aufbauend auf diesem Ergebnis beweisen wir, dass die Trainingsinstabilität durch einen winzigen Bruchteil von Tokens, etwa 0,01 %, verursacht wird, die wir als *spurious tokens* bezeichnen. Wenn solche Tokens in korrekten Antworten auftauchen, tragen sie wenig zum Reasoning-Ergebnis bei, erben jedoch die vollständige sequenzielle Belohnung, was zu abnormal verstärkten Gradientenupdates führt. Ausgehend von dieser Beobachtung schlagen wir Spurious-Token-Aware Policy Optimization (STAPO) für die Verfeinerung großskaliger Modelle vor, die solche Updates selektiv maskiert und den Verlust über gültige Tokens renormiert. In sechs mathematischen Reasoning-Benchmarks mit Qwen 1.7B-, 8B- und 14B-Basismodellen zeigt STAPO durchgängig eine überlegene Entropiestabilität und erreicht eine durchschnittliche Leistungssteigerung von 7,13 % gegenüber GRPO, 20-Entropy und JustRL.

Visuelle Überzeugungskraft: Was beeinflusst die Entscheidungen von Vision-Sprache-Modellen?
Visual Persuasion: What Influences Decisions of Vision-Language Models?

Feb 17

ByManuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh

Das Internet ist übersät mit Bildern, die ursprünglich für die menschliche Betrachtung erstellt wurden und nun zunehmend von Agenten mithilfe von Vision-Language-Modellen (VLMs) interpretiert werden. Diese Agenten treffen visuelle Entscheidungen in großem Maßstab und bestimmen, was angeklickt, empfohlen oder gekauft wird. Dennoch wissen wir wenig über die Struktur ihrer visuellen Präferenzen. Wir stellen einen Rahmen vor, um dies zu untersuchen, indem wir VLMs in kontrollierte, bildbasierte Auswahlaufgaben versetzen und ihre Eingaben systematisch verändern. Unsere zentrale Idee ist es, die Entscheidungsfunktion des Agenten als eine latente visuelle Nutzenfunktion zu betrachten, die durch Revealed Preference erschlossen werden kann: durch Entscheidungen zwischen systematisch bearbeiteten Bildern. Ausgehend von gängigen Bildern, wie z.B. Produktfotos, schlagen wir Methoden zur visuellen Prompt-Optimierung vor, die Textoptimierungsmethoden adaptieren, um iterativ visuell plausible Änderungen (z.B. in Komposition, Beleuchtung oder Hintergrund) unter Verwendung eines Bildgenerierungsmodells vorzuschlagen und anzuwenden. Anschließend bewerten wir, welche Bearbeitungen die Auswahlwahrscheinlichkeit erhöhen. Durch groß angelegte Experimente mit modernsten VLMs zeigen wir, dass optimierte Bearbeitungen die Wahlwahrscheinlichkeiten in direkten Vergleichen signifikant verschieben. Wir entwickeln eine automatische Interpretierbarkeits-Pipeline, um diese Präferenzen zu erklären und konsistente visuelle Themen zu identifizieren, die die Auswahl antreiben. Wir argumentieren, dass dieser Ansatz einen praktischen und effizienten Weg bietet, um visuelle Schwachstellen und Sicherheitsbedenken aufzudecken, die ansonsten implizit "in the wild" entdeckt werden könnten. Dies unterstützt eine proaktivere Überprüfung und Steuerung von bildbasierten KI-Agenten.

Geometriebewusste Rotary-Positionscodierung für konsistente Videoweltenmodelle
Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Feb 8

ByChendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Prädiktive Weltmodelle, die zukünftige Beobachtungen unter expliziter Kamerasteuerung simulieren, sind grundlegend für interaktive KI. Trotz rascher Fortschritte mangelt es aktuellen Systemen an räumlicher Persistenz: Sie können stabile Szenenstrukturen über lange Trajektorien nicht aufrechterhalten und halluzinieren häufig Details, wenn Kameras zuvor beobachtete Orte erneut aufsuchen. Wir identifizieren, dass diese geometrische Drift auf die Abhängigkeit von bildschirmraum-basierten Positions-Einbettungen zurückzuführen ist, die mit der für 3D-Konsistenz erforderlichen projektiven Geometrie in Konflikt stehen. Wir stellen ViewRope vor, eine geometrie-bewusste Kodierung, die Kamerastrahlenrichtungen direkt in die Self-Attention-Schichten von Video-Transformatoren injiziert. Indem die Aufmerksamkeit mit relativer Strahlgeometrie statt mit Pixel-Lokalität parametrisiert wird, bietet ViewRope eine modell-native induktive Verzerrung für den Abruf von 3D-konsistenten Inhalten über zeitliche Lücken hinweg. Wir schlagen weiterhin Geometry-Aware Frame-Sparse Attention vor, das diese geometrischen Hinweise nutzt, um selektiv relevante historische Frames zu berücksichtigen, was die Effizienz verbessert, ohne die Speicherkonsistenz zu opfern. Wir präsentieren außerdem ViewBench, eine diagnostische Testsuite, welche die Schleifenschluss-Treue und die geometrische Drift misst. Unsere Ergebnisse demonstrieren, dass ViewRope die langfristige Konsistenz erheblich verbessert und gleichzeitig die Rechenkosten reduziert.

ClinAlign: Skalierung der medizinischen Ausrichtung basierend auf klinischen Präferenzen
ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Feb 10

ByShiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen

Obwohl große Sprachmodelle (LLMs) über Expertenwissen im medizinischen Bereich verfügen, bleibt die Abstimmung ihrer offenen Antworten auf die feingranularen Präferenzen von Klinikern eine Herausforderung. Bisherige Methoden stützen sich oft auf grobe Zielvorgaben oder unzuverlässige automatisierte Bewertungssysteme, die nur schwach in professionellen Leitlinien verankert sind. Wir schlagen einen zweistufigen Rahmen vor, um diese Lücke zu schließen. Erstens führen wir HealthRubrics ein, einen Datensatz mit 7.034 von Ärzten verifizierten Präferenzbeispielen, in denen Kliniker von LLMs erstellte Bewertungsraster verfeinern, um strenge medizinische Standards zu erfüllen. Zweitens destillieren wir diese Raster zu HealthPrinciples: 119 breit wiederverwendbare, klinisch fundierte Prinzipien, die nach klinischen Dimensionen organisiert sind und eine skalierbare Überwachung über manuelle Annotationen hinaus ermöglichen. Wir nutzen HealthPrinciples für (1) Offline-Alignment durch die Synthese von Bewertungsrastern für ungelabelte Anfragen und (2) als Inferenzzeit-Werkzeug für geführtes Selbst-Revision. Ein Modell mit 30B Parametern, das zur Inferenzzeit nur 3B Parameter aktiviert und mit unserem Framework trainiert wurde, erreicht 33,4 % auf HealthBench-Hard und übertrifft damit deutlich größere Modelle wie Deepseek-R1 und o3, wodurch eine ressourceneffiziente Baseline für die klinische Abstimmung etabliert wird.

Präskriptives Skalieren enthüllt die Evolution von Sprachmodellfähigkeiten
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Feb 17

ByHanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade

Für den Einsatz von Fundamentmodellen benötigen Praktiker zunehmend präskriptive Skalierungsgesetze: Welche Downstream-Genauigkeit ist bei einem vorgegebenen Pre-Training-Rechenbudget mit aktuellen Post-Training-Verfahren erreichbar und wie stabil ist diese Abbildung im Laufe der Feldesentwicklung? Mithilfe groß angelegter Beobachtungsauswertungen mit 5.000 bestehenden und 2.000 neu erhobenen Datenpunkten zur Modellleistung schätzen wir Fähigkeitsgrenzen – hohe bedingte Quantile von Benchmark-Ergebnissen als Funktion der logarithmierten Pre-Training-FLOPs – mittels geglätteter Quantilsregression mit einer monotonen, sättigenden Sigmoid-Parametrisierung. Wir validieren die zeitliche Zuverlässigkeit, indem wir Modelle früherer Generationen anpassen und auf später veröffentlichte Modelle anwenden. Über verschiedene Aufgaben hinweg sind die geschätzten Grenzen größtenteils stabil, mit Ausnahme des mathematischen Denkens, das eine kontinuierlich fortschreitende Grenze aufweist. Anschließend erweitern wir unseren Ansatz, um aufgabenspezifische Sättigung zu analysieren und kontaminationsbedingte Verschiebungen bei mathematischen Denkaufgaben zu untersuchen. Schließlich stellen wir einen effizienten Algorithmus vor, der nahezu vollständige Datenfronten unter Nutzung von etwa 20 % des Evaluierungsbudgets rekonstruiert. Insgesamt veröffentlicht unsere Arbeit Proteus 2k, den neuesten Modellleistungs-Evaluierungsdatensatz, und führt eine praktische Methodik ein, um Rechenbudgets in zuverlässige Leistungserwartungen zu übersetzen und Verschiebungen von Fähigkeitsgrenzen über die Zeit hinweg zu überwachen.

Erlernen nativer Fortsetzungen für Aktionssegmentierungs-Flussrichtlinien
Learning Native Continuation for Action Chunking Flow Policies

Feb 13

ByYufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao

Action Chunking ermöglicht es Vision-Language-Action (VLA)-Modellen, in Echtzeit zu arbeiten, doch naive, segmentierte Ausführung zeigt häufig Diskontinuitäten an den Segmentgrenzen. Real-Time Chunking (RTC) mildert dieses Problem, ist jedoch extern zur Policy, was zu unechtem multimodalen Wechseln und Trajektorien führt, die nicht intrinsisch glatt sind. Wir schlagen Legato vor, eine Continuation-Methode zur Trainingszeit für aktionssegmentierte, flussbasierte VLA-Policies. Konkret initialisiert Legato die Entrauschung aus einer zeitplan-geformten Mischung bekannter Aktionen und Rauschen, wodurch das Modell teilweisen Aktionsinformationen ausgesetzt wird. Darüber hinaus formt Legato die gelernten Flussdynamiken um, um sicherzustellen, dass der Entrauschungsprozess während Training und Inferenz unter schrittweiser Führung konsistent bleibt. Legato verwendet zudem randomisierte Zeitplanbedingungen während des Trainings, um variable Inferenzverzögerungen zu unterstützen und kontrollierbare Glattheit zu erreichen. Empirisch erzeugt Legato glattere Trajektorien und reduziert unechtes multimodales Wechseln während der Ausführung, was zu weniger Zögern und kürzerer Aufgabenbearbeitungszeit führt. Umfangreiche Experimente in der realen Welt zeigen, dass Legato RTC bei fünf Manipulationsaufgaben konsistent übertrifft und dabei etwa 10 % Verbesserungen sowohl bei der Trajektorienglattheit als auch bei der Aufgabenbearbeitungszeit erzielt.

Causal-JEPA: Erlernen von Weltmodellen durch latente Interventionen auf Objektebene
Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Feb 11

ByHeejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero

Weltmodelle erfordern ein robustes relationales Verständnis, um Vorhersagen, Schlussfolgerungen und Steuerung zu unterstützen. Während objektzentrierte Repräsentationen eine nützliche Abstraktion bieten, reichen sie nicht aus, um interaktionsabhängige Dynamiken zu erfassen. Daher schlagen wir C-JEPA vor, ein einfaches und flexibles objektzentriertes Weltmodell, das die maskierte Joint-Embedding-Vorhersage von Bildpatches auf objektzentrierte Repräsentationen erweitert. Durch die Anwendung einer objektbasierten Maskierung, die erfordert, dass der Zustand eines Objekts aus anderen Objekten abgeleitet werden muss, induziert C-JEPA latente Interventionen mit kontrafaktischen Effekten und verhindert Abkürzungslösungen, was Interaktionsschlussfolgerungen essenziell macht. Empirisch führt C-JEPA zu konsistenten Verbesserungen beim visuellen Fragebeantworten, mit einer absoluten Verbesserung von etwa 20 % im kontrafaktischen Denken im Vergleich zur gleichen Architektur ohne objektbasierte Maskierung. Bei Agenten-Steuerungsaufgaben ermöglicht C-JEPA eine erheblich effizientere Planung, indem nur 1 % der gesamten latenten Eingabemerkmale verwendet werden, die von patchbasierten Weltmodellen benötigt werden, bei vergleichbarer Leistung. Abschließend liefern wir eine formale Analyse, die zeigt, dass objektbasierte Maskierung über latente Interventionen eine kausale Induktionsverzerrung induziert. Unser Code ist verfügbar unter https://github.com/galilai-group/cjepa.

Erkennung von Überlauf in komprimierten Token-Repräsentationen für retrieval-augmentierte Generierung
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Feb 12

ByJulia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko

Effiziente Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für moderne große Sprachmodelle (LLMs), insbesondere in ressourcenbeschränkten Umgebungen. Soft-Compression-Architekturen versprechen, die effektive Kontextlänge zu erweitern, indem lange Token-Sequenzen durch kleinere Sätze gelerntier komprimierter Token ersetzt werden. Dennoch sind die Grenzen der Komprimierbarkeit – und wann die Komprimierung beginnt, aufgabenrelevante Inhalte zu löschen – noch unzureichend erforscht. In diesem Artikel definieren wir Token-Überlauf als einen Zustand, in dem komprimierte Repräsentationen nicht mehr ausreichend Informationen enthalten, um eine gegebene Anfrage zu beantworten, und schlagen eine Methodik zu dessen Charakterisierung und Erkennung vor. Im xRAG-Soft-Compression-Setting stellen wir fest, dass anfragenunabhängige Sättigungsstatistiken zuverlässig zwischen komprimierten und unkomprimierten Token-Repräsentationen unterscheiden und somit ein praktisches Werkzeug zur Identifizierung komprimierter Token bieten, jedoch nur begrenzte Fähigkeiten zur Überlauferkennung aufweisen. Leichtgewichtige Probing-Klassifikatoren, die sowohl auf Anfrage- als auch Kontext-xRAG-Repräsentationen angewendet werden, erkennen Überlauf mit durchschnittlich 0,72 AUC-ROC auf den HotpotQA-, SQuADv2- und TriviaQA-Datensätzen. Dies zeigt, dass die Einbeziehung von Anfrageinformationen die Erkennungsleistung verbessert. Diese Ergebnisse markieren einen Fortschritt von anfragenunabhängigen Diagnosen hin zu anfragenbewussten Detektoren und ermöglichen eine kostengünstige Vor-LLM-Steuerung, um komprimierungsbedingte Fehler zu reduzieren.

Der visuelle Wurmloch-Effekt: Latentraum-Kommunikation in heterogenen Multi-Agenten-Systemen
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Feb 17

ByXiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao

Multi-Agenten-Systeme (MAS), die von Large Language Models angetrieben werden, haben fortschrittliches kollaboratives Reasoning ermöglicht, bleiben jedoch durch die Ineffizienz diskreter Textkommunikation eingeschränkt, die erhebliche Laufzeit-Overheads und Informationsquantisierungsverluste verursacht. Während die Übertragung latenter Zustände eine hochbitratige Alternative bietet, setzen bestehende Ansätze entweder homogene Sender-Empfänger-Architekturen voraus oder verlassen sich auf paar-spezifisch trainierte Übersetzer, was die Skalierbarkeit und Modularität über verschiedene Modellfamilien mit disjunkten Mannigfaltigkeiten hinweg einschränkt. In dieser Arbeit schlagen wir den "Vision Wormhole" vor, einen neuartigen Rahmen, der die visuelle Schnittstelle von Vision-Language-Models (VLMs) nutzt, um modell-agnostische, textfreie Kommunikation zu ermöglichen. Durch die Einführung eines Universal Visual Codec projizieren wir heterogene Reasoning-Pfade in einen gemeinsamen kontinuierlichen latenten Raum und injizieren sie direkt in den visuellen Verarbeitungspfad des Empfängers, wodurch der Vision-Encoder effektiv als universeller Port für Inter-Agenten-Telepathie fungiert. Unser Framework verwendet eine Hub-and-Spoke-Topologie, um die Komplexität der paarweisen Anpassung von O(N²) auf O(N) zu reduzieren, und nutzt ein label-freies Teacher-Student-Distillationsziel, um den hochbitratigen visuellen Kanal mit den robusten Reasoning-Mustern des Textpfads abzugleichen. Umfangreiche Experimente über heterogene Modellfamilien (z.B. Qwen-VL, Gemma) zeigen, dass der Vision Wormhole in kontrollierten Vergleichen die End-to-End-Echtzeit reduziert, während er eine mit standardbasierten textbasierten MAS vergleichbare Reasoning-Genauigkeit beibehält. Code ist verfügbar unter https://github.com/xz-liu/heterogeneous-latent-mas.

Eine trajektorienbasierte Sicherheitsprüfung des Clawdbot (OpenClaw)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Feb 16

ByTianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang

Clawdbot ist ein selbst gehosteter, werkzeugnutzender persönlicher KI-Agent mit einem breiten Aktionsraum, der lokale Ausführung und webvermittelte Workflows umfasst. Dies birgt erhöhte Sicherheits- und Schutzbedenken bei Unklarheiten und adversarischer Steuerung. Wir präsentieren eine trajektorienzentrierte Evaluierung von Clawdbot über sechs Risikodimensionen hinweg. Unser Testsuite beprobt und passt leicht Szenarien aus früheren Agenten-Sicherheitsbenchmarks (einschließlich ATBench und LPS-Bench) an und ergänzt diese durch maßgeschneiderte, handdesignte Fälle, die auf die Werkzeugoberfläche von Clawdbot zugeschnitten sind. Wir protokollieren vollständige Interaktionstrajektorien (Nachrichten, Aktionen, Werkzeugaufrufargumente/-ausgaben) und bewerten die Sicherheit sowohl mit einem automatisierten Trajektorien-Richter (AgentDoG-Qwen3-4B) als auch durch menschliche Überprüfung. Über 34 kanonische Fälle hinweg zeigen sich uneinheitliche Sicherheitsprofile: Die Leistung ist bei auf Zuverlässigkeit fokussierten Aufgaben generell konsistent, während die meisten Fehler bei unpräziser Absichtsangabe, offenen Zielen oder harmlos wirkenden Jailbreak-Prompts auftreten, bei denen geringfügige Fehlinterpretationen zu Werkzeugaktionen mit höherer Auswirkung eskalieren können. Wir ergänzten die Gesamtergebnisse mit repräsentativen Fallstudien, fassten die Gemeinsamkeiten dieser Fälle zusammen und analysierten die Sicherheitslücken und typischen Fehlermodi, die Clawdbot in der Praxis prone auszulösen neigt.

HLE-Verifiziert: Eine systematische Verifikation und strukturierte Überarbeitung der letzten Prüfung der Menschheit
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Feb 15

ByWeiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

Der Humanity's Last Exam (HLE) Benchmark hat sich als weitverbreiteter Maßstab zur Bewertung leistungsstarker Großsprachmodelle anhand anspruchsvoller, multidisziplinärer Fragen etabliert. Gemeinschaftsanalysen haben jedoch Bedenken aufgezeigt, dass HLE eine nicht unerhebliche Anzahl verrauschter Items enthält, was Evaluierungsergebnisse verzerren und Modellvergleiche verfälschen kann. Um diese Herausforderung zu adressieren, stellen wir HLE-Verified vor – eine verifizierte und überarbeitete Version von HLE mit einem transparenten Verifizierungsprotokoll und einer feingranularen Fehlertaxonomie. Unsere Konstruktion folgt einem zweistufigen Validierungs- und Reparatur-Workflow, der zu einem zertifizierten Benchmark führt. In Stufe I durchläuft jedes Item eine binäre Validierung der Problemstellung und Endantwort durch Domain-Expertenreview und modellgestützte Kreuzprüfungen, was zu 641 verifizierten Items führt. In Stufe II werden fehlerhafte aber korrigierbare Items unter strengen Auflagen, die die ursprüngliche Evaluierungsabsicht bewahren, überarbeitet. Dies geschieht durch duale unabhängige Expertenreparaturen, modellgestütztes Auditing und finale Schiedsprüfung, was zu 1.170 revidierten und zertifizierten Items führt. Die verbleibenden 689 Items werden als dokumentierter Unsicherheitssatz mit expliziten Unsicherheitsquellen und Expertentags zur weiteren Verfeinerung veröffentlicht. Wir evaluieren sieben state-of-the-art Sprachmodelle auf HLE und HLE-Verified und beobachten einen durchschnittlichen absoluten Genauigkeitszuwachs von 7–10 Prozentpunkten auf HLE-Verified. Die Verbesserung ist besonders ausgeprägt bei Items mit fehlerhafter ursprünglicher Problemstellung und/oder Referenzantwort, mit Steigerungen von 30–40 Prozentpunkten. Unsere Analysen zeigen weiterhin eine starke Assoziation zwischen Modellkonfidenz und Fehlern in Problemstellung oder Referenzantwort, was die Wirksamkeit unserer Revisionen untermauert. Insgesamt verbessert HLE-Verified HLE-artige Evaluationen, indem Annotation Noise reduziert und eine treuere Messung von Modellfähigkeiten ermöglicht wird. Die Daten sind verfügbar unter: https://github.com/SKYLENAGE-AI/HLE-Verified

Wie viel zusätzliche Schlussfolgerungsfähigkeit bringen retriever-gestützte Modelle über LLMs hinaus? Ein Benchmarking-Framework für Multi-Hop-Inferenzen über hybrides Wissen
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Feb 10

ByJunhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu

Große Sprachmodelle (LLMs) haben nach wie vor Schwierigkeiten mit wissensintensiven Fragen, die aktuelle Informationen und mehrstufiges Schlussfolgern erfordern. Die Erweiterung von LLMs durch hybrides externes Wissen, wie unstrukturierten Text und strukturierte Wissensgraphen, bietet eine vielversprechende Alternative zur kostspieligen kontinuierlichen Vortrainierung. Daher wird eine zuverlässige Bewertung ihrer Retrieval- und Reasoning-Fähigkeiten entscheidend. Viele bestehende Benchmarks überschneiden sich jedoch zunehmend mit den Vortrainingsdaten von LLMs, was bedeutet, dass Antworten oder unterstützendes Wissen bereits in den Modellparametern kodiert sein können. Dies macht es schwierig, echtes Retrieval und Reasoning von parametrischem Abruf zu unterscheiden. Wir stellen HybridRAG-Bench vor, ein Framework zur Konstruktion von Benchmarks zur Bewertung von retrieval-intensivem, mehrstufigem Reasoning über hybrides Wissen. HybridRAG-Bench koppelt automatisch unstrukturierte Text- und strukturierte Wissensgraphen-Repräsentationen, die aus aktueller wissenschaftlicher Literatur auf arXiv abgeleitet werden, und erzeugt wissensintensive Frage-Antwort-Paare, die auf expliziten Reasoning-Pfaden basieren. Das Framework unterstützt eine flexible Auswahl von Domänen und Zeiträumen und ermöglicht so eine kontaminationsbewusste und anpassbare Bewertung, während sich Modelle und Wissen weiterentwickeln. Experimente in drei Domänen (Künstliche Intelligenz, Regierungsführung und Politik sowie Bioinformatik) zeigen, dass HybridRAG-Bench echtes Retrieval und Reasoning belohnt anstatt parametrischen Abruf, und bietet somit eine prinzipielle Testumgebung zur Bewertung hybrider, wissensverstärkter Reasoning-Systeme. Wir veröffentlichen unseren Code und unsere Daten unter github.com/junhongmit/HybridRAG-Bench.