HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

13 papers found

Lumine: Ein offenes Rezept zur Entwicklung generalistischer Agenten in offenen 3D-Welten
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Nov 12

ByWeihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi

209

Wir stellen Lumine vor, das erste offene Rezept zur Entwicklung von Generalisten-Agenten, die in der Lage sind, stundenlange komplexe Missionen in Echtzeit in anspruchsvollen 3D-Open-World-Umgebungen zu absolvieren. Lumine nutzt ein menschenähnliches Interaktionsparadigma, das Wahrnehmung, Denken und Handeln auf End-to-End-Basis vereint und durch ein Vision-Sprache-Modell angetrieben wird. Es verarbeitet Rohpixel mit 5 Hz, um präzise 30 Hz Tastatur-Maus-Aktionen zu erzeugen, und ruft das Denken nur bei Bedarf adaptiv auf. In Genshin Impact trainiert, absolviert Lumine die gesamte fünfstündige Mondstadt-Hauptgeschichte mit einer Effizienz auf menschlichem Niveau und folgt natürlichen Sprachbefehlen, um eine breite Palette von Aufgaben sowohl in der 3D-Open-World-Erkundung als auch in der 2D-GUI-Manipulation zu bewältigen, darunter Sammeln, Kampf, Rätsellösen und NPC-Interaktion. Neben seiner leistungsstarken In-Domain-Performance zeigt Lumine eine starke Zero-Shot-Übergeneralisierung über verschiedene Spiele hinweg. Ohne jegliche Feinabstimmung bewältigt es 100-minütige Missionen in Wuthering Waves und das gesamte fünfstündige erste Kapitel von Honkai: Star Rail. Diese vielversprechenden Ergebnisse unterstreichen die Wirksamkeit von Lumine über verschiedene Welten und Interaktionsdynamiken hinweg und markieren einen konkreten Schritt hin zu Generalisten-Agenten in offenen Umgebungen.

TiDAR: Denken in Diffusion, Sprechen in Autoregression
TiDAR: Think in Diffusion, Talk in Autoregression

Nov 12

ByJingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov

126

Diffusions-Sprachmodelle versprechen eine schnelle parallele Generierung, während autoregressive (AR) Modelle typischerweise aufgrund ihrer kausalen Struktur, die sich natürlich mit Sprachmodellierung deckt, in der Qualität überzeugen. Dies wirft eine grundlegende Frage auf: Können wir eine Synergie mit hohem Durchsatz, höherer GPU-Auslastung und AR-Qualität erreichen? Bisherige Methoden schaffen es nicht, diese beiden Aspekte effektiv auszubalancieren. Sie priorisieren entweder AR, indem sie ein schwächeres Modell für sequenzielles Entwerfen verwenden (spekulatives Decodieren), was zu einer geringeren Entwurfseffizienz führt, oder sie verwenden eine Form von Links-nach-rechts (AR-ähnlicher) Decodierlogik für Diffusion, was immer noch unter Qualitätseinbußen leidet und ihr paralleles Potenzial verschenkt. Wir stellen TiDAR vor, eine hybride Architektur auf Sequenzebene, die Token (Denken) per Diffusion entwirft und endgültige Ausgaben (Sprechen) autoregressiv sampelt – alles innerhalb eines einzigen Vorwärtsdurchlaufs mittels speziell gestalteter strukturierter Attention-Masken. Dieses Design macht sich die verfügbare GPU-Rechenleistung zunutze und erreicht eine starke Balance zwischen Entwurfs- und Verifikationskapazität. Darüber hinaus ist TiDAR als eigenständiges Modell servicetauglich (geringer Overhead) konzipiert. Wir evaluieren TiDAR umfassend gegen AR-Modelle, spekulatives Decodieren und Diffusionsvarianten in Generierungs- und Likelihood-Aufgaben bei 1,5B und 8B Parametern. Dank des parallelen Entwerfens und Samplings sowie der Unterstützung exaktem KV-Cachings übertrifft TiDAR den gemessenen Durchsatz von spekulativem Decodieren und übertrifft Diffusionsmodelle wie Dream und Llada sowohl in Effizienz als auch Qualität. Besonders bemerkenswert ist, dass TiDAR die erste Architektur ist, die die Qualitätslücke zu AR-Modellen schließt und dabei 4,71x bis 5,91x mehr Token pro Sekunde liefert.

MADD: Multi-Agent Drug Discovery Orchestra
MADD: Multi-Agent Drug Discovery Orchestra

Nov 11

ByGleb V. Solovev, Alina B. Zhidkovskaya, Anastasia Orlova, Nina Gubina, Anastasia Vepreva, Rodion Golovinskii, Ilya Tonkii, Ivan Dubrovsky, Ivan Gurev, Dmitry Gilemkhanov, Denis Chistiakov, Timur A. Aliev, Ivan Poddiakov, Galina Zubkova, Ekaterina V. Skorb, Vladimir Vinogradov, Alexander Boukhanovsky, Nikolay Nikitin, Andrei Dmitrenko, Anna Kalyuzhnaya, Andrey Savchenko

Die Identifizierung von Wirkstoffkandidaten (Hit Identification) stellt eine zentrale Herausforderung in der frühen Wirkstoffentwicklung dar und erforderte traditionell erhebliche experimentelle Ressourcen. Jüngste Fortschritte in der künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (LLMs), haben virtuelle Screening-Methoden ermöglicht, die Kosten senken und die Effizienz steigern. Die zunehmende Komplexität dieser Werkzeuge hat ihre Zugänglichkeit für Forscher im Labor jedoch eingeschränkt. Multi-Agenten-Systeme bieten eine vielversprechende Lösung, indem sie die Interpretierbarkeit von LLMs mit der Präzision spezialisierter Modelle und Werkzeuge kombinieren. In dieser Arbeit stellen wir MADD vor, ein Multi-Agenten-System, das aus natürlichen Sprachabfragen heraus maßgeschneiderte Pipelines zur Identifizierung von Wirkstoffkandidaten erstellt und ausführt. MADD setzt vier koordinierte Agenten ein, um Schlüsselteilaufgaben bei der de novo-Generierung und dem Screening von Verbindungen zu bewältigen. Wir evaluieren MADD anhand von sieben Wirkstoffentwicklungsfällen und demonstrieren seine überlegene Leistung im Vergleich zu bestehenden LLM-basierten Lösungen. Mit MADD bahnen wir den Weg für einen KI-zentrierten Wirkstoffdesign-Ansatz für fünf biologische Targets und veröffentlichen die identifizierten Wirkstoffkandidaten. Abschließend stellen wir einen neuen Benchmark mit Abfrage-Molekül-Paaren und Docking-Scores für über drei Millionen Verbindungen vor, um zur agentenbasierten Zukunft der Wirkstoffentwicklung beizutragen.

Time-to-Move: Trainingsfreie bewegungsgesteuerte Videogenerierung durch Dual-Clock-Entrauschung
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Nov 9

ByAssaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany

Diffusionsbasierte Videogenerierung kann realistische Videos erzeugen, doch die bestehende Konditionierung auf Bilder und Texte bietet keine präzise Bewegungskontrolle. Bisherige Methoden für bewegungsgesteuerte Synthese erfordern typischerweise modelspezifisches Fine-Tuning, was rechenintensiv und einschränkend ist. Wir stellen Time-to-Move (TTM) vor, ein trainingsfreies Plug-and-Play-Framework für bewegungs- und erscheinungsgesteuerte Videogenerierung mit Bild-zu-Video (I2V) Diffusionsmodellen. Unser zentraler Ansatz ist die Verwendung grober Referenzanimationen, die durch benutzerfreundliche Manipulationen wie Ausschneiden-und-Ziehen oder tiefenbasierte Reprojektion gewonnen werden. Inspiriert durch SDEdits Nutzung grober Layout-Hinweise zur Bildbearbeitung, behandeln wir die groben Animationen als unpräzise Bewegungsimpulse und übertragen den Mechanismus in den Videobereich. Wir bewahren das Erscheinungsbild durch Bildkonditionierung und führen dual-clock Denoising ein, eine regionsabhängige Strategie, die eine starke Ausrichtung in bewegungsdefinierten Bereichen erzwingt, während sie Flexibilität anderswo zulässt, um Treue zur Benutzerintention mit natürlicher Dynamik abzuwägen. Diese leichtgewichtige Modifikation des Sampling-Prozesses verursacht keine zusätzlichen Trainings- oder Laufzeitkosten und ist mit jedem Backbone kompatibel. Umfangreiche Experimente mit Benchmarks für Objekt- und Kamerabewegungen zeigen, dass TTM bestehende trainierte Baselines in Realismus und Bewegungskontrolle erreicht oder übertrifft. Darüber hinaus ermöglicht TTM eine einzigartige Fähigkeit: präzise Erscheinungskontrolle durch pixelgenaue Konditionierung, die die Grenzen rein textbasierter Steuerung überwindet. Besuchen Sie unsere Projektseite für Videobeispiele und Code: https://time-to-move.github.io/.

Motif 2 12.7B Technischer Bericht
Motif 2 12.7B technical report

Nov 7

ByJunghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon

Wir stellen Motif-2-12.7B vor, ein neues Open-Weight-Foundation-Model, das die Effizienzgrenze großer Sprachmodelle durch die Kombination von Architekturinnovationen und Systemoptimierungen verschiebt. Motif-2-12.7B wurde für skalierbares Sprachverständnis und robuste Instruktionsverallgemeinerung unter begrenzten Rechenbudgets entwickelt und baut auf Motif-2.6B auf, indem es Grouped Differential Attention (GDA) integriert. Dieser Mechanismus verbessert die Repräsentationseffizienz, indem er Signal- und Rauschkontroll-Aufmerksamkeitspfade entkoppelt. Das Modell wurde mit 5,5 Billionen Tokens vortrainiert, die verschiedene linguistische, mathematische, wissenschaftliche und Programmierdomänen abdecken, unter Verwendung eines curriculumgesteuerten Datenplaners, der die Datenzusammensetzung schrittweise anpasst. Das Trainingssystem nutzt den MuonClip-Optimierer zusammen mit maßgeschneiderten Hochleistungskerneln, einschließlich gefusster PolyNorm-Aktivierungen und dem parallelen Muon-Algorithmus, was zu erheblichen Durchsatz- und Speichereffizienzsteigerungen in großskaligen verteilten Umgebungen führt. Das Post-Training umfasst eine dreistufige Pipeline für überwachtes Feintuning, die nacheinander die allgemeine Instruktionsbefolgung, das kompositionelle Verständnis und die linguistische Präzision verbessert. Motif-2-12.7B zeigt eine wettbewerbsfähige Leistung in verschiedenen Benchmarks und belegt, dass durchdachtes architektonisches Skalieren und optimiertes Trainingsdesign die Fähigkeiten deutlich größerer Modelle erreichen können.

WMPO: Weltmodell-basierte Politikoptimierung für Vision-Sprache-Handlung-Modelle
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Nov 12

ByFangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo

Vision-Language-Action (VLA)-Modelle haben ein großes Potenzial für universelle Robotermanipulation gezeigt, doch ihre Abhängigkeit von Experten-Demonstrationen schränkt ihre Fähigkeit ein, aus Fehlern zu lernen und Selbstkorrekturen durchzuführen. Reinforcement Learning (RL) adressiert diese Probleme durch selbstverbessernde Interaktionen mit der physikalischen Umgebung, leidet jedoch unter hoher Sample-Komplexität auf realen Robotern. Wir stellen World-Model-based Policy Optimization (WMPO) vor, einen prinzipienbasierten Rahmen für On-Policy-VLA-RL ohne Interaktion mit der realen Umgebung. Im Gegensatz zu weit verbreiteten latenten Weltmodellen konzentriert sich WMPO auf pixelbasierte Vorhersagen, die die "imaginierten" Trajektorien mit den auf Web-Scale-Bildern vortrainierten VLA-Merkmalen in Einklang bringen. Entscheidend ist, dass WMPO der Policy ermöglicht, On-Policy-GRPO durchzuführen, was eine höhere Leistung bietet als die häufig verwendeten Off-Policy-Methoden. Umfangreiche Experimente in Simulations- und Echtzeit-Roboterumgebungen zeigen, dass WMPO (i) die Sample-Effizienz erheblich verbessert, (ii) eine stärkere Gesamtleistung erzielt, (iii) emergente Verhaltensweisen wie Selbstkorrektur zeigt und (iv) robuste Generalisierungs- und Lebenslanges-Lernen-Fähigkeiten demonstriert.

LoopTool: Schließen der Daten-Trainings-Schleife für robuste LLM-Werkzeugaufrufe
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Nov 12

ByKangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu

Die Erweiterung großer Sprachmodelle (LLMs) mit externen Werkzeugen ermöglicht ihnen die Ausführung komplexer, mehrstufiger Aufgaben. Allerdings wird das Werkzeuglernen durch statische synthetische Datenpipelines behindert, bei denen Datengenerierung und Modelltraining als zwei separate, nicht-interaktive Prozesse ablaufen. Dieser Ansatz kann sich nicht adaptiv auf die spezifischen Schwächen eines Modells konzentrieren und lässt verrauschte Labels bestehen, was die Trainingseffizienz beeinträchtigt. Wir stellen LoopTool vor, einen vollständig automatisierten, modellbewussten Datenentwicklungsrahmen, der diese Lücke schließt, indem er Datensynthese und Modelltraining eng verzahnt. LoopTool verbessert iterativ sowohl die Daten als auch das Modell durch drei synergetische Module: (1) Greedy Capability Probing (GCP) diagnostiziert die erlernten und fehlgeschlagenen Fähigkeiten des Modells; (2) Judgement-Guided Label Verification (JGLV) nutzt ein Open-Source-Bewertungsmodell, um Annotationsfehler zu finden und zu korrigieren und reinigt so den Datensatz sukzessive; und (3) Error-Driven Data Expansion (EDDE) generiert neue, anspruchsvolle Beispiele basierend auf identifizierten Fehlern. Dieser geschlossene Regelkreis operiert innerhalb einer kosteneffizienten Open-Source-Infrastruktur und beseitigt die Abhängigkeit von teuren Closed-Source-APIs. Experimente zeigen, dass unser mit LoopTool trainiertes 8B-Modell sein 32B-Datengenerator-Modell signifikant übertrifft und neue State-of-the-Art-Ergebnisse auf den Benchmarks BFCL-v3 und ACEBench für seine Skalierung erreicht. Unsere Arbeit demonstriert, dass geschlossene, sich selbst verfeinernde Datenpipelines die Werkzeugnutzungsfähigkeiten von LLMs dramatisch steigern können.

WebVIA: Ein webbasiertes visuell-sprachliches agentisches Framework für interaktive und verifizierbare UI-zu-Code-Generierung
WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

Nov 9

ByMingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang

Die Entwicklung von Benutzeroberflächen (UI) erfordert die Umsetzung von Designvorlagen in funktionalen Code, ein Prozess, der nach wie vor repetitiv und arbeitsintensiv bleibt. Während neuere Vision-Language-Models (VLMs) die UI-zu-Code-Generierung automatisieren, erzeugen sie lediglich statische HTML/CSS/JavaScript-Layouts ohne Interaktivität. Um dies zu adressieren, schlagen wir WebVIA vor, das erste agentenbasierte Framework für die interaktive UI-zu-Code-Generierung und Validierung. Das Framework besteht aus drei Komponenten: 1) einem Explorationsagenten zum Erfassen von UI-Screenshots mit mehreren Zuständen; 2) einem UI2Code-Modell, das ausführbaren interaktiven Code generiert; 3) einem Validierungsmodul, das die Interaktivität überprüft. Experimente zeigen, dass WebVIA-Agent eine stabilere und genauere UI-Exploration erreicht als allgemeine Agenten (z.B. Gemini-2.5-Pro). Zudem weisen unsere feinabgestimmten WebVIA-UI2Code-Modelle erhebliche Verbesserungen bei der Generierung von ausführbarem und interaktivem HTML/CSS/JavaScript-Code auf und übertreffen ihre Basisversionen sowohl in interaktiven als auch in statischen UI2Code-Benchmarks. Unser Code und unsere Modelle sind verfügbar unter https://webvia.github.io.

MathSE: Verbesserung des multimodalen mathematischen Denkvermögens durch sich selbst entwickelnde iterative Reflexion und belohnungsgesteuertes Feinabstimmen
MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

Nov 10

ByJinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten bei visuell-sprachlichen Antwortaufgaben unter Beweis gestellt. Trotz ihrer Stärken stoßen diese Modelle häufig auf Schwierigkeiten, komplexe Denkaufgaben wie das Lösen mathematischer Probleme zu bewältigen. Bisherige Arbeiten konzentrierten sich auf das Feinabstimmen spezialisierter mathematischer Datensätze. Diese Datensätze werden jedoch typischerweise direkt von Lehrermodellen destilliert, die nur statische Denkmuster erfassen und erhebliche Lücken im Vergleich zu Schülermodellen hinterlassen. Diese Abhängigkeit von festen, lehrerbasierten Datensätzen schränkt nicht nur die Fähigkeit des Modells ein, sich auf neuartige oder komplexere Fragen anzupassen, die über den Rahmen der Trainingsdaten hinausgehen, sondern es fehlt auch an der iterativen Tiefe, die für eine robuste Generalisierung erforderlich ist. Um diese Grenzen zu überwinden, schlagen wir \method, einen mathematischen selbstentwickelnden Rahmen für MLLMs, vor. Im Gegensatz zu traditionellen Paradigmen der Feinabstimmung in einem Schritt verfeinert \method das Modell iterativ durch Zyklen von Inferenz, Reflexion und belohnungsbasiertem Feedback. Insbesondere nutzen wir iterative Feinabstimmung, indem wir korrekte Denkpfade aus Inferenzen der vorherigen Stufe einbeziehen und Reflexionen eines spezialisierten Outcome Reward Model (ORM) integrieren. Um die Wirksamkeit von \method zu überprüfen, evaluieren wir es anhand einer Reihe anspruchsvoller Benchmarks und zeigen signifikante Leistungssteigerungen gegenüber Basismodellen. Bemerkenswerterweise übertreffen unsere experimentellen Ergebnisse auf MathVL-test das führende Open-Source-Modell für multimodales mathematisches Denken, QVQ. Unser Code und unsere Modelle sind verfügbar unter https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.

Anpassung von Web-Agenten mit synthetischer Überwachung
Adapting Web Agents with Synthetic Supervision

Nov 8

ByZhaoyang Wang, Yiming Liang, Xuchao Zhang, Qianhui Wu, Siwei Han, Anson Bastos, Rujia Wang, Chetan Bansal, Baolin Peng, Jianfeng Gao, Saravan Rajmohan, Huaxiu Yao

Web-Agents haben Schwierigkeiten, sich an neue Websites anzupassen, was auf die Knappheit umgebungsspezifischer Aufgaben und Demonstrationen zurückzuführen ist. In jüngsten Arbeiten wurde die Erzeugung synthetischer Daten als Lösungsansatz untersucht; diese leiden jedoch unter Datenqualitätsproblemen, bei denen synthetisierte Aufgaben Halluzinationen enthalten, die nicht ausgeführt werden können, und gesammelte Trajektorien aufgrund redundanter oder fehlausgerichteter Aktionen verrauscht sind. In diesem Artikel stellen wir SynthAgent vor, ein vollständig synthetisches Supervision-Framework, das darauf abzielt, die Qualität synthetischer Daten durch eine duale Verfeinerung sowohl der Aufgaben als auch der Trajektorien zu verbessern. Unser Ansatz beginnt mit der Synthese vielfältiger Aufgaben durch kategorisierte Exploration von Web-Elementen, um eine effiziente Abdeckung der Zielumgebung zu gewährleisten. Während der Trajektoriensammlung verfeinern wir Aufgaben, sobald Konflikte mit tatsächlichen Beobachtungen erkannt werden, um Halluzinationen zu reduzieren und gleichzeitig die Aufgabenkonsistenz aufrechtzuerhalten. Nach der Sammlung führen wir eine Trajektorienverfeinerung mit einem globalen Kontext durch, um potenzielles Rauschen oder Fehlausrichtungen zu minimieren. Abschließend fine-tunen wir Open-Source-Web-Agents auf den verfeinerten synthetischen Daten, um sie an die Zielumgebung anzupassen. Experimentelle Ergebnisse zeigen, dass SynthAgent bestehende Methoden zur Erzeugung synthetischer Daten übertrifft und die Bedeutung hochwertiger synthetischer Supervision bestätigt. Der Code wird unter https://github.com/aiming-lab/SynthAgent öffentlich verfügbar sein.

Auf dem Weg zu den Grenzen zuverlässiger Diffusionsabtastung durch adversarielle Sinkhorn-Aufmerksamkeitssteuerung
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Nov 10

ByKwanyoung Kim

Diffusionsmodelle haben eine starke generative Leistung unter Verwendung von Guidance-Methoden wie dem Classifier-Free Guidance (CFG) gezeigt, welche die Ausgabequalität durch Modifikation der Sampling-Trajektorie verbessern. Diese Methoden steigern typischerweise eine Zielausgabe, indem sie eine andere, oft die unbedingte Ausgabe, durch heuristische Perturbationsfunktionen wie Identity-Mixing oder verschwommene Bedingungen absichtlich verschlechtern. Allerdings fehlt diesen Ansätzen eine prinzipielle Grundlage, und sie stützen sich auf manuell gestaltete Verzerrungen. In dieser Arbeit schlagen wir Adversarial Sinkhorn Attention Guidance (ASAG) vor, eine neuartige Methode, die Aufmerksamkeitswerte in Diffusionsmodellen durch die Brille des optimalen Transports neu interpretiert und die Transportkosten gezielt über den Sinkhorn-Algorithmus stört. Anstatt den Aufmerksamkeitsmechanismus naiv zu korrumpieren, injiziert ASAG eine adversarielle Kostenfunktion in Self-Attention-Schichten, um die pixelweise Ähnlichkeit zwischen Queries und Keys zu reduzieren. Diese gezielte Verschlechterung schwächt irreführende Aufmerksamkeitsausrichtungen und führt zu einer verbesserten bedingten und unbedingten Stichprobenqualität. ASAG zeigt konsistente Verbesserungen in der Text-zu-Bild-Diffusion und erhöht die Steuerbarkeit und Treue in Downstream-Anwendungen wie IP-Adapter und ControlNet. Die Methode ist leichtgewichtig, plug-and-play-fähig und verbessert die Zuverlässigkeit, ohne ein erneutes Modelltraining zu erfordern.

Agentische Refakturierung: Eine empirische Studie zu KI-Code-Agenten
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan

Agentische Codierungstools wie OpenAI Codex, Claude Code und Cursor verändern die Landschaft der Softwareentwicklung. Diese KI-gestützten Systeme fungieren als autonome Teammitglieder, die in der Lage sind, komplexe Entwicklungsaufgaben zu planen und auszuführen. Agenten sind zu aktiven Teilnehmern beim Refactoring geworden, einem Grundpfeiler nachhaltiger Softwareentwicklung, der darauf abzielt, die interne Codequalität zu verbessern, ohne das beobachtbare Verhalten zu verändern. Trotz ihrer zunehmenden Verbreitung besteht ein eklatanter Mangel an empirischem Verständnis darüber, wie agentisches Refactoring in der Praxis genutzt wird, wie es sich im Vergleich zu menschlichem Refactoring verhält und welche Auswirkungen es auf die Codequalität hat. Um diese empirische Lücke zu schließen, präsentieren wir eine groß angelegte Studie zu KI-Agenten-generierten Refactorings in realen Open-Source-Java-Projekten, in der wir 15.451 Refactoring-Instanzen aus 12.256 Pull Requests und 14.988 Commits aus dem AIDev-Datensatz analysieren. Unsere empirische Analyse zeigt, dass Refactoring in diesem Entwicklungsparadigma eine häufige und bewusste Aktivität ist, wobei Agenten explizit in 26,1 % der Commits auf Refactoring abzielen. Die Analyse der Refactoring-Typen zeigt, dass die agentischen Aktivitäten von niedrigschwelligen, konsistenzorientierten Änderungen dominiert werden, wie z. B. Change Variable Type (11,8 %), Rename Parameter (10,4 %) und Rename Variable (8,5 %). Dies spiegelt eine Präferenz für lokalisierte Verbesserungen wider, im Gegensatz zu den hochrangigen Designänderungen, die beim menschlichen Refactoring üblich sind. Zudem konzentrieren sich die Motivationen für agentisches Refactoring überwiegend auf interne Qualitätsaspekte, insbesondere Wartbarkeit (52,5 %) und Lesbarkeit (28,1 %). Des Weiteren zeigt die quantitative Auswertung von Code-Qualitätsmetriken, dass agentisches Refactoring zu kleinen, aber statistisch signifikanten Verbesserungen bei strukturellen Metriken führt, insbesondere bei Änderungen mittleren Umfangs, die die Klassenkomplexität reduzieren (z. B. mediane Δ Class LOC = -15,25).

Bekämpfung von Halluzinationen in Sprachmodellen mithilfe eines Lizenzierungs-Orakels
Stemming Hallucination in Language Models Using a Licensing Oracle

Nov 8

BySimeon Emanuilov, Richard Ackermann

Sprachmodelle zeigen bemerkenswerte Fähigkeiten zur natürlichen Sprachgenerierung, neigen jedoch weiterhin zu Halluzinationen, bei denen sie trotz syntaktisch kohärenter Antworten faktisch falsche Informationen erzeugen. Diese Studie stellt das Licensing Oracle vor, eine architektonische Lösung, die entwickelt wurde, um Halluzinationen in Sprachmodellen einzudämmen, indem sie Wahrheitsbedingungen durch formale Validierung anhand strukturierter Wissensgraphen durchsetzt. Im Gegensatz zu statistischen Ansätzen, die auf Datenvergrößerung oder Feinabstimmung angewiesen sind, integriert das Licensing Oracle einen deterministischen Validierungsschritt in den Generierungsprozess des Modells und stellt so sicher, dass nur faktisch korrekte Aussagen getroffen werden. Wir bewerteten die Wirksamkeit des Licensing Oracle durch Experimente, in denen wir es mit mehreren modernen Methoden verglichen, darunter Basis-Sprachmodell-Generierung, Feinabstimmung für faktische Richtigkeit, Feinabstimmung für Enthaltsamkeitsverhalten und retrieval-augmentierte Generierung (RAG). Unsere Ergebnisse zeigen, dass zwar RAG und Feinabstimmung die Leistung verbessern, sie aber Halluzinationen nicht vollständig beseitigen. Im Gegensatz dazu erreichte das Licensing Oracle eine perfekte Enthaltsamkeitspräzision (AP = 1,0) und keine falschen Antworten (FAR-NE = 0,0) und stellte sicher, dass nur gültige Aussagen mit einer Genauigkeit von 89,1 % bei faktischen Antworten generiert wurden. Diese Arbeit zeigt, dass architektonische Innovationen wie das Licensing Oracle eine notwendige und hinreichende Lösung für Halluzinationen in Domänen mit strukturierten Wissensrepräsentationen bieten und Garantien ermöglichen, die statistische Methoden nicht erreichen können. Obwohl das Licensing Oracle speziell zur Bekämpfung von Halluzinationen in faktenbasierten Domänen entwickelt wurde, legt sein Framework den Grundstein für wahrheitsbeschränkte Generierung in zukünftigen KI-Systemen und eröffnet einen neuen Weg zu zuverlässigen, epistemisch fundierten Modellen.

Agentische Refakturierung: Eine empirische Studie zu KI-Code-Agenten
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan