HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

Entwicklung programmatischer Fähigkeitsnetzwerke
Evolving Programmatic Skill Networks

Jan 7

ByHaochen Shi, Xingdi Yuan, Bang Liu

Wir erforschen kontinuierlichen Fertigkeitserwerb in offenen verkörperten Umgebungen, in denen ein Agent eine expandierende Bibliothek ausführbarer Fertigkeiten aufbauen, verfeinern und wiederverwenden muss. Wir stellen das Programmatische Fertigkeitsnetzwerk (PSN) vor – einen Rahmen, in dem Fertigkeiten als ausführbare symbolische Programme ein kompositionelles Netzwerk bilden, das sich durch Erfahrung weiterentwickelt. PSN definiert drei Kernmechanismen, die durch große Sprachmodelle instanziiert werden: (1) REFLECT zur strukturierten Fehlerlokalisierung in Fertigkeitskompositionen, (2) progressive Optimierung mit reifegesteuerter Aktualisierungslogik, die zuverlässige Fertigkeiten stabilisiert, während Plastizität für unsichere Fertigkeiten erhalten bleibt, und (3) kanonische Strukturrefaktorierung mit Rollback-Validierung zur Gewährleistung von Netzwerkkompaktheit. Wir zeigen weiterhin, dass PSNs Lern dynamik strukturelle Parallelen zum Training neuronaler Netze aufweist. Experimente in MineDojo und Crafter demonstrieren robuste Fertigungswiederverwendung, schnelle Anpassungsfähigkeit und starke Generalisierung über offene Aufgabenverteilungen hinweg.\footnote{Wir planen, den Code quelloffen zu veröffentlichen.}

Entropie-adaptive Feinabstimmung: Lösung von Konflikten bei hoher Konfidenz zur Minderung von Vergessen
Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Jan 5

ByMuxi Diao, Lele Yang, Wuxuan Gong, Yutong Zhang, Zhonghao Yan, Yufei Han, Kongming Liang, Weiran Xu, Zhanyu Ma

Supervised Fine-Tuning (SFT) ist das Standardparadigma für die Domänenanpassung, verursacht jedoch häufig die Kosten des katastrophalen Vergessens. Im scharfen Kontrast dazu erhält On-Policy Reinforcement Learning (RL) die allgemeinen Fähigkeiten effektiv. Wir untersuchen diese Diskrepanz und identifizieren eine grundlegende Verteilungslücke: Während RL sich mit der internen Überzeugung des Modells deckt, zwingt SFT das Modell, sich an externe Vorgaben anzupassen. Diese Diskrepanz manifestiert sich häufig als "Confident Conflicts"-Tokens, die durch niedrige Wahrscheinlichkeit aber niedrige Entropie gekennzeichnet sind. In diesen Fällen ist das Modell von seiner eigenen Vorhersage sehr überzeugt, wird jedoch gezwungen, eine abweichende Ground Truth zu erlernen, was destruktive Gradientenupdates auslöst. Um dies zu adressieren, schlagen wir Entropy-Adaptive Fine-Tuning (EAFT) vor. Anders als Methoden, die sich ausschließlich auf die Vorhersagewahrscheinlichkeit stützen, nutzt EAFT Token-Level-Entropie als Gating-Mechanismus, um zwischen epistemischer Unsicherheit und Wissenskonflikt zu unterscheiden. Dies ermöglicht es dem Modell, aus unsicheren Stichproben zu lernen, während Gradienten auf konfliktbehafteten Daten unterdrückt werden. Umfangreiche Experimente mit Qwen- und GLM-Serien (von 4B bis 32B Parametern) in mathematischen, medizinischen und agentenbasierten Domänen bestätigen unsere Hypothese. EAFT erreicht durchgängig die Downstream-Leistung von Standard-SFT, mildert dabei aber die Verschlechterung der allgemeinen Fähigkeiten erheblich ab.

Atlas: Orchestrierung heterogener Modelle und Werkzeuge für komplexe Multi-Domain-Beweisführung
Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Jan 7

ByJinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

Die Integration großer Sprachmodelle (LLMs) mit externen Werkzeugen hat die Fähigkeiten von KI-Agenten erheblich erweitert. Mit zunehmender Diversität sowohl der LLMs als auch der Werkzeuge wird die Auswahl der optimalen Modell-Werkzeug-Kombination jedoch zu einem hochdimensionalen Optimierungsproblem. Bestehende Ansätze verlassen sich oft auf ein einzelnes Modell oder eine feste Werkzeugaufruflogik und nutzen die Leistungsunterschiede zwischen heterogenen Modell-Werkzeug-Paaren nicht aus. In diesem Artikel stellen wir ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation) vor, ein Dual-Path-Framework für die dynamische Werkzeugnutzung beim domänenübergreifenden komplexen Denken. ATLAS operiert über einen Zwei-Pfade-Ansatz: (1) trainierungsfreie, clusterbasierte Routenwahl, die empirische A-priori-Informationen für domänenspezifische Ausrichtung nutzt, und (2) RL-basierte Mehrschritt-Routenwahl, die autonome Trajektorien zur Generalisierung außerhalb der Trainingsverteilung erkundet. Umfangreiche Experimente über 15 Benchmarks zeigen, dass unsere Methode Closed-Source-Modelle wie GPT-4o übertrifft und bestehende Routing-Methoden sowohl bei Aufgaben innerhalb der Trainingsverteilung (+10,1 %) als auch außerhalb (+13,1 %) überlegen ist. Darüber hinaus erzielt unser Framework signifikante Gewinne im visuellen Denken durch die Orchestrierung spezialisierter multimodaler Werkzeuge.

Benchmark^2: Systematische Evaluierung von LLM-Benchmarks
Benchmark^2: Systematic Evaluation of LLM Benchmarks

Jan 7

ByQi Qian, Chengsong Huang, Jingwen Xu, Changze Lv, Muling Wu, Wenhao Liu, Xiaohua Wang, Zhenghua Wang, Zisu Huang, Muzhao Tian, Jianhan Xu, Kun Hu, He-Da Wang, Yao Hu, Xuanjing Huang, Xiaoqing Zheng

Die rasche Verbreitung von Benchmarks zur Bewertung großer Sprachmodelle (LLMs) hat einen dringenden Bedarf an systematischen Methoden zur Beurteilung der Benchmark-Qualität selbst geschaffen. Wir schlagen Benchmark^2 vor, einen umfassenden Rahmen mit drei komplementären Metriken: (1) Cross-Benchmark-Ranking-Konsistenz, die misst, ob ein Benchmark Modellrankings erzeugt, die mit denen von Peer-Benchmarks übereinstimmen; (2) Diskriminierungsfähigkeits-Score, der die Fähigkeit eines Benchmarks quantifiziert, zwischen Modellen zu differenzieren; und (3) Fähigkeitsausrichtungsabweichung, die problematische Instanzen identifiziert, bei denen stärkere Modelle scheitern, schwächere Modelle innerhalb derselben Modellfamilie jedoch erfolgreich sind. Wir führen umfangreiche Experimente mit 15 Benchmarks aus den Bereichen Mathematik, logisches Denken und Wissen durch und bewerten 11 LLMs aus vier Modellfamilien. Unsere Analyse zeigt erhebliche Qualitätsunterschiede zwischen bestehenden Benchmarks auf und demonstriert, dass eine selektive Benchmark-Konstruktion auf Basis unserer Metriken vergleichbare Bewertungsleistung mit erheblich reduzierten Testsets erreichen kann.

Choreografie einer Welt dynamischer Objekte
Choreographing a World of Dynamic Objects

Jan 7

ByYanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu

Dynamische Objekte in unserer physischen 4D-Welt (3D + Zeit) entwickeln sich ständig weiter, verformen sich und interagieren mit anderen Objekten, was zu vielfältigen 4D-Szenendynamiken führt. In diesem Artikel stellen wir CHORD vor, eine universelle generative Pipeline zur CHOReografie dynamischer Objekte und Szenen sowie zur Synthese dieser Phänomene. Traditionelle regelbasierte Grafik-Pipelines zur Erzeugung dieser Dynamiken basieren auf kategoriespezifischen Heuristiken, sind jedoch arbeitsintensiv und nicht skalierbar. Neuere lernbasierte Methoden erfordern typischerweise umfangreiche Datensätze, die möglicherweise nicht alle interessierenden Objektkategorien abdecken. Unser Ansatz übernimmt stattdessen die Universalität von Video-Generierungsmodellen, indem wir eine destillationsbasierte Pipeline vorschlagen, um die umfassenden Lagrange'schen Bewegungsinformationen zu extrahieren, die in den Euler'schen Darstellungen von 2D-Videos verborgen sind. Unsere Methode ist universell, vielseitig und kategorieagnostisch. Wir demonstrieren ihre Wirksamkeit durch Experimente zur Erzeugung eines breiten Spektrums von Mehrkörper-4D-Dynamiken, zeigen ihre Vorteile gegenüber bestehenden Methoden und belegen ihre Anwendbarkeit bei der Generierung von Robotik-Manipulationsstrategien. Projektseite: https://yanzhelyu.github.io/chord

Verbesserung der linguistischen Kompetenz von Sprachmodellen durch Pre-training mit Sprachlernaufgaben
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

Jan 6

ByAtsuki Yamaguchi, Maggie Mi, Nikolaos Aletras

Sprachmodelle (LMs) werden auf Rohtextdatensätzen vortrainiert, um Textsequenzen Token für Token zu generieren. Während dieser Ansatz das Erlernen von Weltwissen und logischem Denken fördert, optimiert er nicht explizit die Sprachkompetenz. Um diese Lücke zu schließen, schlagen wir L2T vor, ein Vortrainierungsframework, das Sprachlernaufgaben (Language Learning Tasks) in die standardmäßige Next-Token-Prediction integriert. Inspiriert vom menschlichen Spracherwerb wandelt L2T Rohtext in strukturierte Eingabe-Ausgabe-Paare um, um explizite linguistische Stimulation zu bieten. Die Vortrainierung von LMs auf einer Mischung aus Rohtext und L2T-Daten verbessert nicht nur die Gesamtleistung in Sprachkompetenz-Benchmarks, sondern beschleunigt auch deren Erwerb, bei gleichzeitig wettbewerbsfähiger Leistung in allgemeinen Reasoning-Aufgaben.

Agentische Bewertungsraster als kontextuelle Verifizierer für SWE-Agenten
Agentic Rubrics as Contextual Verifiers for SWE Agents

Jan 7

ByMohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He

Die Verifikation ist entscheidend für die Verbesserung von Agenten: Sie liefert das Belohnungssignal für Reinforcement Learning und ermöglicht Leistungssteigerungen zur Inferenzzeit durch Test-Time Scaling (TTS). Trotz ihrer Bedeutung stützt sich die Verifikation in Software Engineering (SWE) Agenten-Umgebungen oft auf Code-Ausführung, die aufgrund des Overheads bei der Umgebungseinrichtung schwer zu skalieren sein kann. Skalierbare Alternativen wie Patch-Klassifikatoren und heuristische Methoden existieren, sind jedoch weniger im Codebasis-Kontext verankert und schwerer zu interpretieren. Daher untersuchen wir Agentic Rubrics: Ein Experten-Agent interagiert mit dem Repository, um eine kontextverankerte Rubrik-Checkliste zu erstellen, und Kandidaten-Patches werden dann daran gemessen, ohne Testausführung zu erfordern. Auf SWE-Bench Verified unter paralleler TTS-Auswertung erreichen Agentic Rubrics eine Bewertung von 54,2 % auf Qwen3-Coder-30B-A3B und 40,6 % auf Qwen3-32B, was einem Gewinn von mindestens +3,5 Prozentpunkten gegenüber der stärksten Baseline in unserem Vergleichsdatensatz entspricht. Wir analysieren weiter das Verhalten der Rubriken und zeigen, dass Rubrik-Scores mit Ground-Truth-Tests übereinstimmen, gleichzeitig aber auch Probleme aufzeigen, die von Tests nicht erfasst werden. Unsere Ablation Studies zeigen, dass das agentenbasierte Kontext-Sammeln entscheidend für die Erstellung codespezifischer, eindeutiger Kriterien ist. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Agentic Rubrics ein effizientes, skalierbares und granulares Verifikationssignal für SWE-Agenten bereitstellen.

E-GRPO: Hochgradig entropische Schritte ermöglichen effektives bestärkendes Lernen für Flussmodelle
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

Jan 1

ByShengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan

Aktuelle Fortschritte im Reinforcement Learning haben die Flow-Matching-Modelle hinsichtlich der Ausrichtung an menschlichen Präferenzen verbessert. Während stochastisches Sampling die Exploration von Denoising-Richtungen ermöglicht, leiden bestehende Methoden, die über mehrere Denoising-Schritte optimieren, unter spärlichen und mehrdeutigen Belohnungssignalen. Wir beobachten, dass Schritte mit hoher Entropie eine effizientere und effektivere Exploration ermöglichen, während Schritte mit niedriger Entropie zu undistinkten Roll-outs führen. Daher schlagen wir E-GRPO, eine entropiebewusste Gruppen-Relative-Policy-Optimierung vor, um die Entropie der SDE-Sampling-Schritte zu erhöhen. Da die Integration stochastischer Differentialgleichungen unter mehrdeutigen Belohnungssignalen aufgrund der Stochastizität über mehrere Schritte leidet, fusionieren wir gezielt aufeinanderfolgende Schritte mit niedriger Entropie zu einem Schritt mit hoher Entropie für das SDE-Sampling, während wir auf anderen Schritten ODE-Sampling anwenden. Darauf aufbauend führen wir einen gruppennormalisierten Mehrschritt-Vorteil ein, der gruppenrelative Vorteile innerhalb von Stichproben berechnet, die denselben konsolidierten SDE-Denoising-Schritt teilen. Experimentelle Ergebnisse in verschiedenen Belohnungsszenarien demonstrieren die Wirksamkeit unserer Methoden.

Klear: Vereinheitlichte Multitask-Generierung von Audio und Video
Klear: Unified Multi-Task Audio-Video Joint Generation

Jan 7

ByJun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan

Die gemeinsame Audio-Video-Generierung hat rasante Fortschritte gemacht, doch bestehen nach wie vor erhebliche Herausforderungen. Nicht-kommerzielle Ansätze leiden unter Audio-Video-Asynchronität, mangelhafter Lippen-Sprach-Abgleichung und unimodaler Verschlechterung, was auf schwache Audio-Video-Korrespondenzmodellierung, begrenzte Generalisierungsfähigkeit und knappe hochwertige Dense-Caption-Daten zurückgeführt werden kann. Um diese Probleme zu adressieren, stellen wir Klear vor und untersuchen drei Achsen: Modellarchitektur, Trainingsstrategie und Datenkuratierung. Architektonisch verwenden wir ein Single-Tower-Design mit vereinheitlichten DiT-Blöcken und einem Omni-Full-Attention-Mechanismus, wodurch eine enge Audio-Video-Abgleichung und hohe Skalierbarkeit erreicht werden. Trainingsseitig setzen wir auf ein progressives Multitask-Regime – zufällige Modalitätsmaskierung zur gemeinsamen Optimierung über Aufgaben hinweg – sowie einen mehrstufigen Lehrplan, der robuste Repräsentationen erzeugt, das A-V-ausgerichtete Weltwissen stärkt und unimodalen Kollaps verhindert. Für Datensätze präsentieren wir den ersten großangelegten Audio-Video-Datensatz mit dichten Beschreibungen und führen eine neuartige automatisierte Datenkonstruktions-Pipeline ein, die Millionen vielfältiger, hochwertiger, streng abgeglichener Audio-Video-Beschreibungs-Tripel annotiert und filtert. Auf dieser Grundlage skaliert Klear auf große Datensätze, liefert hochgradig authentische, semantisch und temporal abgeglichene, befehlsfolgende Generierung in gemeinsamen und unimodalen Settings und generalisiert robust auf Out-of-Distribution-Szenarien. Über verschiedene Aufgaben hinweg übertrifft es frühere Methoden erheblich und erreicht eine mit Veo 3 vergleichbare Leistung, wodurch es einen vereinheitlichten, skalierbaren Weg zur nächsten Generation der Audio-Video-Synthese ebnet.

MDAgent2: Großes Sprachmodell für Code-Generierung und Wissens-Fragen & Antworten in der Molekulardynamik
MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

Jan 5

ByZhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing

Molekulardynamik (MD)-Simulationen sind entscheidend für das Verständnis atomarer Verhaltensweisen in der Materialwissenschaft, doch das Schreiben von LAMMPS-Skripten bleibt eine hochspezialisierte und zeitaufwändige Aufgabe. Obwohl große Sprachmodelle (LLMs) vielversprechende Fähigkeiten in der Codegenerierung und domänenspezifischen Fragebeantwortung zeigen, ist ihre Leistung in MD-Szenarien durch knappe Domänendaten, hohe Bereitstellungskosten modernster LLMs und geringe Code-Ausführbarkeit eingeschränkt. Aufbauend auf unserem früheren MDAgent präsentieren wir MDAgent2, das erste End-to-End-Framework, das sowohl Wissensfragebeantwortung als auch Codegenerierung im MD-Bereich durchführen kann. Wir entwickeln eine domänenspezifische Datenkonstruktions-Pipeline, die drei hochwertige Datensätze für MD-Wissen, Fragebeantwortung und Codegenerierung bereitstellt. Basierend auf diesen Datensätzen wenden wir eine dreistufige Nachtrainingsstrategie an – kontinuierliches Vortraining (CPT), überwachtes Feintuning (SFT) und bestärkendes Lernen (RL) – um zwei domänenangepasste Modelle, MD-Instruct und MD-Code, zu trainieren. Darüber hinaus führen wir MD-GRPO ein, eine RL-Methode mit geschlossenem Regelkreis, die Simulationsergebnisse als Belohnungssignale nutzt und Trajektorien mit geringer Belohnung zur kontinuierlichen Verbesserung recycelt. Wir entwickeln weiterhin MDAgent2-RUNTIME, ein einsetzbares Multi-Agenten-System, das Codegenerierung, -ausführung, -bewertung und Selbstkorrektur integriert. Zusammen mit dem in dieser Arbeit vorgeschlagenen MD-EvalBench, dem ersten Benchmark für LAMMPS-Codegenerierung und Fragebeantwortung, übertreffen unsere Modelle und Systeme die Leistung mehrerer starker Baseline-Methoden. Diese Arbeit demonstriert systematisch die Anpassungsfähigkeit und Generalisierungsleistung großer Sprachmodelle in industriellen Simulationsaufgaben und legt eine methodische Grundlage für automatische Codegenerierung in KI für die Wissenschaft und industrielle Simulationen. URL: https://github.com/FredericVAN/PKU_MDAgent2

ThinkRL-Edit: Denkansätze aus dem Reinforcement Learning für reasoning-zentrierte Bildbearbeitung
ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Jan 6

ByHengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai

Instruktionsgesteuerte Bildbearbeitung mit einheitlichen multimodalen generativen Modellen hat rasante Fortschritte gemacht, doch deren zugrunde liegendes visuelles Reasoning bleibt begrenzt, was zu suboptimalen Leistungen bei reasoning-zentrierten Bearbeitungen führt. Reinforcement Learning (RL) wurde zur Verbesserung der Bildbearbeitungsqualität untersucht, steht jedoch vor drei zentralen Herausforderungen: (1) begrenzte Reasoning-Exploration, die auf die Stochastizität der Entrauschung beschränkt ist, (2) verzerrte Reward-Fusion und (3) instabile, VLM-basierte Instruktions-Rewards. In dieser Arbeit schlagen wir ThinkRL-Edit vor, ein reasoning-zentriertes RL-Framework, das visuelles Reasoning von der Bildsynthese entkoppelt und die Reasoning-Exploration über die Entrauschung hinaus erweitert. Hierfür führen wir ein Chain-of-Thought (CoT)-basiertes Reasoning-Sampling mit Planungs- und Reflexionsphasen vor der Generierung im Online-Sampling ein, das das Modell zwingt, mehrere semantische Hypothesen zu explorieren und deren Plausibilität zu validieren, bevor es sich für ein visuelles Ergebnis entscheidet. Um die Fehler gewichteter Aggregation zu vermeiden, schlagen wir eine verzerrungsfreie Chain-Präferenz-Gruppierungsstrategie über mehrere Reward-Dimensionen hinweg vor. Darüber hinaus ersetzen wir intervallbasierte VLM-Scores durch eine binäre Checkliste, die präzisere, varianzärmere und interpretierbarere Rewards für komplexes Reasoning liefert. Experimente zeigen, dass unsere Methode frühere Arbeiten bei reasoning-zentrierter Bildbearbeitung signifikant übertrifft und instruktionstreue, visuell kohärente sowie semantisch fundierte Bearbeitungen erzeugt.

EpiQAL: Benchmarking von großen Sprachmodellen in der epidemiologischen Fragebeantwortung zur Verbesserung von Ausrichtung und logischem Denken
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

Jan 6

ByMingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin

Zuverlässiges epidemiologisches Denken erfordert die Synthese von Studienergebnissen, um Krankheitslast, Übertragungsdynamiken und Interventionseffekte auf Bevölkerungsebene abzuleiten. Bestehende Benchmarks für medizinische Frage-Antwort-Systeme betonen primär klinisches Wissen oder patientenbezogene Schlussfolgerungen, doch nur wenige evaluieren systematisch evidenzbasierte epidemiologische Inferenz. Wir stellen EpiQAL vor, den ersten diagnostischen Benchmark für epidemiologische Fragebeantwortung über verschiedene Krankheiten hinweg, bestehend aus drei Teilmengen, die auf frei zugänglicher Literatur basieren. Die Teilmengen evaluieren jeweils textgestütztes Faktenwissen, mehrstufige Inferenz zur Verknüpfung von Dokumentenbelegen mit epidemiologischen Prinzipien sowie Rekonstruktion von Schlussfolgerungen bei vorenthaltenem Diskussionsteil. Die Konstruktion kombiniert expertengestützte Taxonomieanleitung, multimodale Verifikation und retriebasierte Schwierigkeitskontrolle. Experimente mit zehn Open-Source-Modellen zeigen, dass aktuelle LLMs bei epidemiologischen Schlussfolgerungen begrenzte Leistung erbringen, wobei mehrstufige Inferenz die größte Herausforderung darstellt. Modellrankings variieren zwischen den Teilmengen, und Größe allein sagt keinen Erfolg voraus. Chain-of-Thought-Prompting verbessert mehrstufige Inferenz, zeigt aber elsewhere gemischte Ergebnisse. EpiQAL liefert feingranulare diagnostische Signale für Evidenzverankerung, schlussfolgerndes Denken und Konklusionsrekonstruktion.

RedBench: Ein universeller Datensatz für umfassendes Red Teaming großer Sprachmodelle
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

Jan 7

ByQuy-Anh Dang, Chris Ngo, Truong-Son Hy

Da große Sprachmodelle (LLMs) zunehmend in sicherheitskritischen Anwendungen eingesetzt werden, ist die Gewährleistung ihrer Robustheit gegenüber adversarischen Prompts von größter Bedeutung. Bestehende Red-Teaming-Datensätze leiden jedoch unter inkonsistenten Risikokategorisierungen, begrenzter Domänenabdeckung und veralteten Evaluierungen, was systematische Schwachstellenanalysen behindert. Um diese Herausforderungen zu bewältigen, stellen wir RedBench vor, einen universellen Datensatz, der 37 Benchmark-Datensätze aus führenden Konferenzen und Repositories zusammenführt und 29.362 Samples aus Angriffs- und Verweigerungs-Prompts umfasst. RedBench verwendet eine standardisierte Taxonomie mit 22 Risikokategorien und 19 Domänen, um konsistente und umfassende Bewertungen von LLM-Schwachstellen zu ermöglichen. Wir liefern eine detaillierte Analyse bestehender Datensätze, etablieren Baseline-Ergebnisse für moderne LLMs und stellen den Datensatz sowie den Evaluierungscode als Open Source bereit. Unsere Beiträge ermöglichen robuste Vergleiche, fördern zukünftige Forschung und unterstützen die Entwicklung sicherer und zuverlässiger LLMs für den praktischen Einsatz. Code: https://github.com/knoveleng/redeval

Warum LLMs noch keine Wissenschaftler sind: Lehren aus vier Versuchen autonomer Forschung
Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

Jan 6

ByDhruv Trehan, Paras Chopra

Wir berichten über eine Fallstudie von vier End-to-End-Versuchen, ML-Forschungspapiere autonom mittels einer Pipeline von sechs LLM-Agenten zu generieren, die den Stufen des wissenschaftlichen Arbeitsablaufs zugeordnet sind. Von diesen vier Versuchen scheiterten drei während der Implementierung oder Evaluation. Einer durchlief die Pipeline erfolgreich, wurde bei Agents4Science 2025 – einem experimentellen Erstveranstaltungsformat, das KI-Systeme als Erstautoren vorschrieb – angenommen und bestand sowohl die menschliche als auch die multi-KI-basierte Begutachtung. Aus diesen Versuchen dokumentieren wir sechs wiederkehrende Fehlermodi: Bias hin zu Standardwerten der Trainingsdaten, Implementierungsdrift unter Ausführungsdruck, Abbau von Gedächtnis und Kontext bei langfristigen Aufgaben, übermäßige Begeisterung, die trotz offensichtlicher Fehler Erfolg meldet, unzureichende Domänenintelligenz und schwache wissenschaftliche Urteilsfähigkeit im experimentellen Design. Abschließend diskutieren wir vier Designprinzipien für robustere KI-Wissenschaftler-Systeme, die Implikationen für autonome wissenschaftliche Entdeckungen und veröffentlichen alle Prompts, Artefakte und Outputs unter https://github.com/Lossfunk/ai-scientist-artefacts-v1.

RGS-SLAM: Robuste Gauß'sche Splatting-SLAM mit One-Shot-Dichteinitialisierung
RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization

Dec 28

ByWei-Tse Cheng, Yen-Jen Chiou, Yuan-Fu Yang

Wir stellen RGS-SLAM vor, einen robusten Gauß-Splatting-SLAM-Rahmen, der die residuengetriebene Verdichtungsstufe von GS-SLAM durch eine trainierungsfreie Korrespondenz-zu-Gauß-Initialisierung ersetzt. Anstatt schrittweise Gauß-Kerne hinzuzufügen, wenn Residuen fehlende Geometrie aufdecken, führt RGS-SLAM eine Einmal-Triangulation dichter Mehrbild-Korrespondenzen durch, die aus DINOv3-Deskriptoren abgeleitet und durch einen konfidenzbewussten Inlier-Klassifikator verfeinert werden. Dies erzeugt eine gut verteilte und struktur-sensitive Gauß-Kern-Vorabbelegung vor der Optimierung. Diese Initialisierung stabilisiert die frühe Kartenerstellung und beschleunigt die Konvergenz um etwa 20 %, was eine höhere Wiedergabetreue in texturreichen und unübersichtlichen Szenen ermöglicht, bei vollständiger Kompatibilität mit bestehenden GS-SLAM-Pipelines. Auswertungen auf den TUM RGB-D- und Replica-Datensätzen zeigen, dass RGS-SLAM eine vergleichbare oder überlegene Lokalisierungs- und Rekonstruktionsgenauigkeit gegenüber modernen Gauß- und punktbasierten SLAM-Systemen erreicht und dabei Echtzeit-Kartenerstellung mit bis zu 925 FPS beibehält.

Pearmut: Menschliche Bewertung von Übersetzungen spielend einfach gemacht
Pearmut: Human Evaluation of Translation Made Trivial

Jan 6

ByVilém Zouhar, Tom Kocmi

Die menschliche Evaluation gilt als Goldstandard in der multilingualen NLP, wird in der Praxis jedoch häufig übersprungen und durch automatische Metriken ersetzt, da sie mit bestehenden Tools bekanntermaßen komplex und langsam einzurichten ist und erheblichen technischen und operativen Aufwand verursacht. Wir stellen Pearmut vor, eine leichtgewichtige, aber funktionsreiche Plattform, die End-to-End-Evaluation durch Menschen so einfach macht wie die automatische Evaluation. Pearmut baut gängige Einstiegshürden ab und bietet Unterstützung für die Bewertung multilingualer Aufgaben, mit einem besonderen Fokus auf maschineller Übersetzung. Die Plattform implementiert standardisierte Evaluationsprotokolle wie DA, ESA oder MQM, ist aber auch erweiterbar, um die Prototypisierung neuer Protokolle zu ermöglichen. Sie bietet Kontext auf Dokumentenebene, absolute und kontrastive Bewertung, Aufmerksamkeitskontrollen, ESAAI-Vorannotierungen sowie sowohl statische als auch auf aktivem Lernen basierende Zuweisungsstrategien. Pearmut ermöglicht es, dass zuverlässige menschliche Evaluation zu einer praktikablen, routinemäßigen Komponente der Modellentwicklung und -diagnose wird und nicht nur eine gelegentliche Maßnahme bleibt.

MAGMA: Eine Multi-Graph-basierte agentische Speicherarchitektur für KI-Agenten
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

Jan 6

ByDongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li

Memory-Augmented Generation (MAG) erweitert Large Language Models um externen Speicher, um schlussfolgerndes Denken über lange Kontexte zu unterstützen. Bisherige Ansätze stützen sich jedoch weitgehend auf semantische Ähnlichkeit in monolithischen Speicherstrukturen, wodurch temporäre, kausale und Entitätsinformationen vermischt werden. Dieses Design limitiert die Interpretierbarkeit und die Abstimmung zwischen Abfrageabsicht und abgerufenen Belegen, was zu suboptimaler Reasoning-Genauigkeit führt. In diesem Beitrag stellen wir MAGMA vor, eine multi-graphische, agentenbasierte Speicherarchitektur, die jedes Speicherelement über orthogonale semantische, temporale, kausale und Entitätsgraphen abbildet. MAGMA formuliert das Retrieval als policy-gesteuerte Traversierung dieser relationalen Sichten, wodurch eine abfrageadaptive Auswahl und strukturierte Kontextkonstruktion ermöglicht wird. Durch die Entkopplung der Speicherrepräsentation von der Retrieval-Logik bietet MAGMA transparente Reasoning-Pfade und feingranulare Kontrolle über das Retrieval. Experimente auf LoCoMo und LongMemEval zeigen, dass MAGMA agentenbasierte Speichersysteme des State-of-the-Art in langfristigen Reasoning-Aufgaben konsistent übertrifft.

ResTok: Lernen hierarchischer Residuen in 1D-Visual-Tokenizern für autoregressive Bildgenerierung
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Jan 7

ByXu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma

Bestehende 1D-visuelle Tokenizer für autoregressive (AR) Generierung folgen weitgehend den Designprinzipien der Sprachmodellierung, da sie direkt auf Transformern aufbauen, deren Priors aus der Sprachverarbeitung stammen. Dies führt zu latenten Tokens mit nur einer Hierarchieebene und behandelt visuelle Daten als flache sequentielle Token-Ströme. Diese sprachähnliche Formulierung übersieht jedoch Schlüsseleigenschaften der Vision, insbesondere hierarchische und Residual-Netzwerk-Designs, die seit langem für Konvergenz und Effizienz in visuellen Modellen entscheidend sind. Um die "Vision" zurück in die Vision zu bringen, schlagen wir den Residual Tokenizer (ResTok) vor, einen 1D-visuellen Tokenizer, der hierarchische Residuen sowohl für Bild-Tokens als auch für latente Tokens erzeugt. Die durch progressives Zusammenführen gewonnenen hierarchischen Repräsentationen ermöglichen eine featureübergreifende Fusion auf jeder Ebene, was die Repräsentationskapazität erheblich steigert. Gleichzeitig verhindern die semantischen Residuen zwischen den Hierarchieebenen Informationsüberlappungen und erzeugen konzentriertere latente Verteilungen, die sich leichter für AR-Modellierung eignen. Daraus ergeben sich ohne explizite Zwangsbedingungen cross-level Bindungen. Um den Generierungsprozess zu beschleunigen, führen wir weiterhin einen hierarchischen AR-Generator ein, der die Abtastschritte erheblich reduziert, indem er eine gesamte Ebene latenter Tokens auf einmal vorhersagt, anstatt sie streng tokenweise zu generieren. Umfangreiche Experimente belegen, dass die Wiederherstellung hierarchischer Residual-Priors in der visuellen Tokenisierung die AR-Bildgenerierung signifikant verbessert und einen gFID von 2,34 auf ImageNet-256 mit nur 9 Abtastschritten erreicht. Code ist verfügbar unter https://github.com/Kwai-Kolors/ResTok.

Gen3R: 3D-Szenengeneration trifft auf Vorwärtsrekonstruktion
Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Jan 7

ByJiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao

Wir stellen Gen3R vor, eine Methode, die die starken Priors von foundation Rekonstruktionsmodellen und Video-Diffusionsmodellen für die szenenbasierte 3D-Generierung verbindet. Wir passen das VGGT-Rekonstruktionsmodell an, um geometrische Latents zu erzeugen, indem wir einen Adapter auf dessen Tokens trainieren. Diese werden regularisiert, um sich an die Erscheinungs-Latents vortrainierter Video-Diffusionsmodelle anzupassen. Durch die gemeinsame Generierung dieser entflochtenen, aber ausgerichteten Latents erzeugt Gen3R sowohl RGB-Videos als auch die entsprechende 3D-Geometrie, einschließlich Kameraposen, Tiefenkarten und globaler Punktwolken. Experimente zeigen, dass unser Ansatz state-of-the-art Ergebnisse bei der 3D-Szenengenerierung auf Basis einzelner oder mehrerer Bilder erzielt. Zusätzlich kann unsere Methode die Robustheit der Rekonstruktion durch die Nutzung generativer Priors verbessern, was den gegenseitigen Nutzen einer engen Kopplung von Rekonstruktions- und Generativmodellen demonstriert.

MDAgent2: Großes Sprachmodell für Code-Generierung und Wissens-Fragen & Antworten in der Molekulardynamik
MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

Jan 5

ByZhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing