HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

27 papers found

MemOS: Ein Speicher-Betriebssystem für KI-Systeme
MemOS: A Memory OS for AI System

Jul 4

ByZhiyu Li, Shichao Song, Chenyang Xi, Hanyu Wang, Chen Tang, Simin Niu, Ding Chen, Jiawei Yang, Chunyu Li, Qingchen Yu, Jihao Zhao, Yezhaohui Wang, Peng Liu, Zehao Lin, Pengyuan Wang, Jiahao Huo, Tianyi Chen, Kai Chen, Kehang Li, Zhen Tao, Junpeng Ren, Huayi Lai, Hao Wu, Bo Tang, Zhenren Wang, Zhaoxin Fan, Ningyu Zhang, Linfeng Zhang, Junchi Yan, Mingchuan Yang, Tong Xu, Wei Xu, Huajun Chen, Haofeng Wang, Hongkang Yang, Wentao Zhang, Zhi-Qin John Xu, Siheng Chen, Feiyu Xiong

153

Große Sprachmodelle (LLMs) sind zu einer wesentlichen Infrastruktur für Künstliche Allgemeine Intelligenz (AGI) geworden, doch das Fehlen klar definierter Speicherverwaltungssysteme behindert die Entwicklung von Langzeitkontext-Schlussfolgerungen, kontinuierlicher Personalisierung und Wissenskonsistenz. Bestehende Modelle stützen sich hauptsächlich auf statische Parameter und kurzlebige Kontextzustände, was ihre Fähigkeit einschränkt, Benutzerpräferenzen zu verfolgen oder Wissen über längere Zeiträume zu aktualisieren. Während Retrieval-Augmented Generation (RAG) externes Wissen in Klartext einführt, bleibt es ein zustandsloser Workaround ohne Lebenszykluskontrolle oder Integration mit persistenten Repräsentationen. Jüngste Arbeiten haben die Trainings- und Inferenzkosten von LLMs aus der Perspektive einer Speicherhierarchie modelliert und gezeigt, dass die Einführung einer expliziten Speicherschicht zwischen Parametergedächtnis und externem Retrieval diese Kosten erheblich reduzieren kann, indem spezifisches Wissen externalisiert wird. Über die rechnerische Effizienz hinaus stehen LLMs vor breiteren Herausforderungen, die sich aus der Verteilung von Informationen über Zeit und Kontext ergeben, was Systeme erfordert, die heterogenes Wissen über verschiedene Zeitskalen und Quellen hinweg verwalten können. Um diese Herausforderung zu bewältigen, schlagen wir MemOS vor, ein Speicherbetriebssystem, das Speicher als eine verwaltbare Systemressource behandelt. Es vereinheitlicht die Repräsentation, Planung und Entwicklung von Klartext-, aktivierungsbasierten und parameterebasierten Speichern und ermöglicht so kosteneffiziente Speicherung und Abruf. Als Basiseinheit kapselt ein MemCube sowohl Speicherinhalte als auch Metadaten wie Herkunft und Versionierung. MemCubes können im Laufe der Zeit zusammengesetzt, migriert und fusioniert werden, was flexible Übergänge zwischen Speichertypen ermöglicht und Retrieval mit parameterbasiertem Lernen verbindet. MemOS etabliert ein speicherzentriertes Systemframework, das Kontrollierbarkeit, Plastizität und Entwicklungsfähigkeit in LLMs bringt und die Grundlage für kontinuierliches Lernen und personalisierte Modellierung legt.

Sollten wir Encoder immer noch mit Masked Language Modeling vortrainieren?
Should We Still Pretrain Encoders with Masked Language Modeling?

Jul 1

ByHippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo

Das Erlernen hochwertiger Textrepräsentationen ist grundlegend für eine Vielzahl von NLP-Aufgaben. Während das Vortraining von Encodern traditionell auf Masked Language Modeling (MLM) basierte, deuten jüngste Erkenntnisse darauf hin, dass Decoder-Modelle, die mit Causal Language Modeling (CLM) vortrainiert wurden, effektiv als Encoder umfunktioniert werden können und dabei oft traditionelle Encoder auf Textrepräsentations-Benchmarks übertreffen. Es bleibt jedoch unklar, ob diese Gewinne einen inhärenten Vorteil des CLM-Ziels widerspiegeln oder auf Störfaktoren wie Modell- und Datenumfang zurückzuführen sind. In dieser Arbeit gehen wir dieser Frage durch eine Reihe von groß angelegten, sorgfältig kontrollierten Vortrainings-Ablationen nach, indem wir insgesamt 30 Modelle mit einer Größe von 210 Millionen bis 1 Milliarden Parametern trainieren und über 15.000 Feinabstimmungs- und Evaluierungsläufe durchführen. Wir stellen fest, dass das Training mit MLM zwar im Allgemeinen eine bessere Leistung über verschiedene Textrepräsentationsaufgaben hinweg erzielt, CLM-trainierte Modelle jedoch dateneffizienter sind und eine verbesserte Feinabstimmungsstabilität aufweisen. Aufbauend auf diesen Erkenntnissen zeigen wir experimentell, dass eine zweiphasige Trainingsstrategie, die zunächst CLM und dann MLM anwendet, unter einem festen rechnerischen Trainingsbudget eine optimale Leistung erzielt. Darüber hinaus demonstrieren wir, dass diese Strategie noch attraktiver wird, wenn man von leicht verfügbaren vortrainierten CLM-Modellen (aus dem bestehenden LLM-Ökosystem) ausgeht, wodurch der rechnerische Aufwand zur Ausbildung erstklassiger Encoder-Modelle reduziert wird. Wir veröffentlichen alle Projektartefakte unter https://hf.co/MLMvsCLM, um weitere Forschungen zu fördern.

Agent KB: Nutzung domänenübergreifender Erfahrung für agentenbasiertes Problemlösen
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Jul 8

ByXiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou

Während Sprachagenten zunehmend komplexere Aufgaben bewältigen, haben sie Schwierigkeiten mit effektiver Fehlerkorrektur und der Wiederverwendung von Erfahrungen über Domänen hinweg. Wir stellen Agent KB vor, ein hierarchisches Erfahrungsframework, das komplexes agentenbasiertes Problemlösen durch eine neuartige Reason-Retrieve-Refine-Pipeline ermöglicht. Agent KB adressiert eine zentrale Einschränkung: Traditionell können Agenten nicht voneinander lernen. Durch die Erfassung sowohl hochrangiger Strategien als auch detaillierter Ausführungsprotokolle schafft Agent KB eine gemeinsame Wissensbasis, die den Wissenstransfer zwischen Agenten ermöglicht. Auf dem GAIA-Benchmark evaluiert, verbessert Agent KB die Erfolgsraten um bis zu 16,28 Prozentpunkte. Bei den anspruchsvollsten Aufgaben verbessert sich Claude-3 von 38,46 % auf 57,69 %, während GPT-4 bei mittelschweren Aufgaben von 53,49 % auf 73,26 % steigt. Bei der Code-Reparatur auf SWE-bench ermöglicht Agent KB Claude-3 eine Verbesserung von 41,33 % auf 53,33 %. Unsere Ergebnisse deuten darauf hin, dass Agent KB eine modulare, framework-agnostische Infrastruktur bietet, die es Agenten ermöglicht, aus vergangenen Erfahrungen zu lernen und erfolgreiche Strategien auf neue Aufgaben zu übertragen.

Einfaches Datensatz: Ein einheitliches und erweiterbares Framework zur Synthese von LLM-Fine-Tuning-Daten aus unstrukturierten Dokumenten
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

Jul 5

ByZiyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei allgemeinen Aufgaben gezeigt, doch ihre Anpassung an spezifische Domänen bleibt aufgrund der Knappheit hochwertiger Domänendaten eine Herausforderung. Bestehende Datensynthese-Tools haben oft Schwierigkeiten, zuverlässige Feinabstimmungsdaten effektiv aus heterogenen Dokumenten zu extrahieren. Um diese Einschränkung zu überwinden, schlagen wir Easy Dataset vor, ein einheitliches Framework zur Synthese von Feinabstimmungsdaten aus unstrukturierten Dokumenten über eine intuitive grafische Benutzeroberfläche (GUI). Konkret ermöglicht Easy Dataset Benutzern, Textextraktionsmodelle und Chunking-Strategien einfach zu konfigurieren, um Rohdokumente in kohärente Textabschnitte zu transformieren. Anschließend nutzt es einen persona-gesteuerten Prompting-Ansatz, um diverse Frage-Antwort-Paare mithilfe öffentlich verfügbarer LLMs zu generieren. Während des gesamten Prozesses erleichtert eine visuelle Benutzeroberfläche mit menschlicher Beteiligung die Überprüfung und Verfeinerung von Zwischenergebnissen, um die Datenqualität sicherzustellen. Experimente zu einer finanziellen Frage-Antwort-Aufgabe zeigen, dass die Feinabstimmung von LLMs auf dem synthetisierten Datensatz die domänenspezifische Leistung signifikant verbessert, während allgemeines Wissen erhalten bleibt. Der Quellcode und das installierbare Paket sind unter https://github.com/ConardLi/easy-dataset verfügbar und haben über 9.000 GitHub-Sterne erhalten.

DreamVLA: Ein Vision-Sprache-Handlung-Modell, geträumt mit umfassendem Weltwissen
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Jul 6

ByWenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin

Jüngste Fortschritte in Vision-Language-Action (VLA)-Modellen haben vielversprechende Ansätze gezeigt, um Bildgenerierung mit Aktionsvorhersage zu integrieren und dadurch die Generalisierung und das logische Denken bei der Roboter-Manipulation zu verbessern. Bisherige Methoden beschränken sich jedoch auf herausfordernde bildbasierte Vorhersagen, die unter redundanter Information leiden und umfassendes sowie kritisches Weltwissen, einschließlich dynamischer, räumlicher und semantischer Informationen, vermissen. Um diese Einschränkungen zu überwinden, schlagen wir DreamVLA vor, ein neuartiges VLA-Framework, das umfassende Weltwissensvorhersagen integriert, um die inverse Dynamikmodellierung zu ermöglichen und dadurch eine Wahrnehmungs-Vorhersage-Aktions-Schleife für Manipulationsaufgaben zu etablieren. Konkret führt DreamVLA eine dynamik-regionen-gesteuerte Weltwissensvorhersage ein, die mit räumlichen und semantischen Hinweisen kombiniert wird und dadurch kompakte, aber umfassende Repräsentationen für die Aktionsplanung liefert. Dieser Ansatz spiegelt wider, wie Menschen mit der Welt interagieren, indem sie zunächst abstrakte multimodale Denkketten bilden, bevor sie handeln. Um Interferenzen zwischen dynamischen, räumlichen und semantischen Informationen während des Trainings zu minimieren, verwenden wir einen blockstrukturierten Aufmerksamkeitsmechanismus, der ihre gegenseitige Aufmerksamkeit maskiert, um Informationslecks zu verhindern und jede Repräsentation klar und entflochten zu halten. Darüber hinaus setzen wir einen diffusionsbasierten Transformer ein, um die bedingte Verteilung über zukünftige Aktionen zu modellieren und Aktionsrepräsentationen von gemeinsamen latenten Merkmalen zu entflechten. Umfangreiche Experimente in realen und simulierten Umgebungen zeigen, dass DreamVLA eine Erfolgsrate von 76,7 % bei realen Roboteraufgaben und eine durchschnittliche Länge von 4,44 bei den CALVIN ABC-D-Benchmarks erreicht.

4DSloMo: 4D-Rekonstruktion für Hochgeschwindigkeitsszenen mit asynchroner Aufnahme
4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture

Jul 7

ByYutian Chen, Shi Guo, Tianshuo Yang, Lihe Ding, Xiuyuan Yu, Jinwei Gu, Tianfan Xue

Die Rekonstruktion schnell-dynamischer Szenen aus Multi-View-Videos ist entscheidend für die Hochgeschwindigkeitsbewegungsanalyse und realistische 4D-Rekonstruktion. Die Mehrheit der 4D-Erfassungssysteme ist jedoch auf Bildraten unter 30 FPS (Bilder pro Sekunde) beschränkt, und eine direkte 4D-Rekonstruktion von Hochgeschwindigkeitsbewegungen aus niedrigen FPS-Eingaben kann zu unerwünschten Ergebnissen führen. In dieser Arbeit schlagen wir ein Hochgeschwindigkeits-4D-Erfassungssystem vor, das ausschließlich Kameras mit niedriger Bildrate verwendet, durch neuartige Erfassungs- und Verarbeitungsmodule. Auf der Erfassungsseite schlagen wir ein asynchrones Erfassungsschema vor, das die effektive Bildrate erhöht, indem die Startzeiten der Kameras versetzt werden. Durch die Gruppierung von Kameras und die Nutzung einer Basisframerate von 25 FPS erreicht unsere Methode eine äquivalente Bildrate von 100-200 FPS, ohne spezialisierte Hochgeschwindigkeitskameras zu benötigen. Auf der Verarbeitungsseite schlagen wir ebenfalls ein neuartiges generatives Modell vor, um Artefakte zu beheben, die durch die 4D-Sparse-View-Rekonstruktion verursacht werden, da die Asynchronität die Anzahl der Blickwinkel zu jedem Zeitpunkt reduziert. Insbesondere schlagen wir vor, ein videodiffusionsbasiertes Artefaktbehebungsmodell für die sparse 4D-Rekonstruktion zu trainieren, das fehlende Details verfeinert, die zeitliche Konsistenz bewahrt und die Gesamtrekonstruktionsqualität verbessert. Experimentelle Ergebnisse zeigen, dass unsere Methode die Hochgeschwindigkeits-4D-Rekonstruktion im Vergleich zur synchronen Erfassung deutlich verbessert.

Vortrainierte Policy-Diskriminatoren sind allgemeine Belohnungsmodelle.
Pre-Trained Policy Discriminators are General Reward Models

Jul 7

ByShihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen

Wir bieten eine neuartige Perspektive auf die Modellierung von Belohnungen, indem wir sie als einen Politikdiskriminator formulieren, der den Unterschied zwischen zwei Politiken quantifiziert, um ein Belohnungssignal zu erzeugen, das die Trainingspolitik in Richtung einer Zielpolitik mit gewünschten Verhaltensweisen lenkt. Basierend auf diesem konzeptionellen Einblick schlagen wir eine skalierbare Vorausbildungsmethode namens Policy Discriminative Learning (POLAR) vor, die ein Belohnungsmodell (RM) trainiert, um identische Politiken zu erkennen und unterschiedliche zu unterscheiden. Im Gegensatz zu traditionellen Methoden der Belohnungsmodellierung, die auf absoluten Präferenzen beruhen, erfasst POLAR den relativen Unterschied zwischen einer Politik und einer beliebigen Zielpolitik, was ein skalierbares, hochrangiges Optimierungsziel darstellt, das sich für die Modellierung generischer Rangbeziehungen eignet. Durch die Nutzung des POLAR-Vorausbildungsparadigmas präsentieren wir eine Reihe von RMs mit Parameterskalen von 1,8B bis 7B. Empirische Ergebnisse zeigen, dass POLAR traditionelle nicht vorausgebildete Methoden deutlich übertrifft und die Leistung der RMs erheblich verbessert. Beispielsweise konnte POLAR-7B die Präferenzgenauigkeit bei STEM-Aufgaben von 54,8 % auf 81,0 % und bei kreativen Schreibaufgaben von 57,9 % auf 85,5 % im Vergleich zu SOTA-Baselines steigern. POLAR zeigt auch robuste Generalisierungsfähigkeiten in RLHF durch Reinforcement Fine-tuning (RFT), liefert zuverlässige Belohnungssignale und verbessert die Politikleistung deutlich – LLaMa3.1-8B verbesserte sich im Durchschnitt von 47,36 % auf 56,33 % und Qwen2.5-32B von 64,49 % auf 70,47 % bei 20 Benchmarks. Darüber hinaus zeigen Skalierungsexperimente eine klare Potenzgesetz-Beziehung zwischen Rechenleistung und Performance, unterstützt durch lineare Korrelationskoeffizienten, die sich 0,99 annähern. Die beeindruckende Leistung, starke Generalisierung und Skalierungseigenschaften deuten darauf hin, dass POLAR eine vielversprechende Richtung für die Entwicklung allgemeiner und leistungsstarker Belohnungsmodelle ist.

RoboBrain 2.0 Technischer Bericht
RoboBrain 2.0 Technical Report

Jul 2

ByBAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Wir stellen RoboBrain 2.0 vor, unsere neueste Generation von verkörperten Vision-Sprache-Foundation-Modellen, die entwickelt wurden, um Wahrnehmung, logisches Denken und Planung für komplexe verkörperte Aufgaben in physischen Umgebungen zu vereinen. Es gibt zwei Varianten: ein leichtgewichtiges 7B-Modell und ein vollumfängliches 32B-Modell, die eine heterogene Architektur mit einem Vision-Encoder und einem Sprachmodell aufweisen. Trotz seiner kompakten Größe erzielt RoboBrain 2.0 eine starke Leistung über ein breites Spektrum von verkörperten Denkaufgaben. Sowohl bei räumlichen als auch zeitlichen Benchmarks erreicht die 32B-Variante führende Ergebnisse und übertrifft bisherige Open-Source- und proprietäre Modelle. Insbesondere unterstützt es wichtige Fähigkeiten der verkörperten KI in der realen Welt, darunter räumliches Verständnis (z. B. Affordance-Vorhersage, räumliche Referenzierung, Trajektorienvorhersage) und zeitliche Entscheidungsfindung (z. B. geschlossene Schleifeninteraktion, langfristige Planung mit mehreren Agenten und Aktualisierung von Szenengraphen). Dieser Bericht beschreibt detailliert die Modellarchitektur, die Datenerstellung, mehrstufige Trainingsstrategien, die Infrastruktur und praktische Anwendungen. Wir hoffen, dass RoboBrain 2.0 die Forschung zur verkörperten KI vorantreibt und als praktischer Schritt zum Aufbau von generalistischen verkörperten Agenten dient. Der Code, die Checkpoints und Benchmarks sind unter https://superrobobrain.github.io verfügbar.

StreamDiT: Echtzeit-Streaming von Text-zu-Video-Generierung
StreamDiT: Real-Time Streaming Text-to-Video Generation

Jul 4

ByAkio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao

In jüngster Zeit wurden bedeutende Fortschritte in der Text-zu-Video (T2V)-Generierung erzielt, indem transformer-basierte Diffusionsmodelle auf Milliarden von Parametern skaliert wurden, die hochwertige Videos erzeugen können. Allerdings produzieren bestehende Modelle typischerweise nur kurze Clips offline, was ihre Anwendungsfälle in interaktiven und Echtzeitanwendungen einschränkt. Diese Arbeit geht auf diese Herausforderungen ein, indem sie StreamDiT, ein Streaming-Videogenerierungsmodell, vorschlägt. Das Training von StreamDiT basiert auf Flow Matching durch Hinzufügen eines beweglichen Puffers. Wir entwerfen ein gemischtes Training mit verschiedenen Partitionierungsschemata von gepufferten Frames, um sowohl die Inhaltskonsistenz als auch die visuelle Qualität zu steigern. Die Modellierung von StreamDiT basiert auf adaLN DiT mit variierender Zeit-Einbettung und Fenster-Aufmerksamkeit. Um die vorgeschlagene Methode zu praktizieren, trainieren wir ein StreamDiT-Modell mit 4B Parametern. Zusätzlich schlagen wir eine mehrstufige Destillationsmethode vor, die speziell für StreamDiT entwickelt wurde. Die Sampling-Destillation wird in jedem Segment eines gewählten Partitionierungsschemas durchgeführt. Nach der Destillation wird die Gesamtzahl der Funktionsauswertungen (NFEs) auf die Anzahl der Chunks in einem Puffer reduziert. Schließlich erreicht unser destilliertes Modell Echtzeitleistung mit 16 FPS auf einer GPU, die Videostreams mit 512p-Auflösung erzeugen kann. Wir bewerten unsere Methode sowohl durch quantitative Metriken als auch durch menschliche Bewertungen. Unser Modell ermöglicht Echtzeitanwendungen, z.B. Streaming-Generierung, interaktive Generierung und Video-zu-Video. Wir stellen Videoergebnisse und weitere Beispiele auf unserer Projektwebsite bereit: <a href="https://cumulo-autumn.github.io/StreamDiT/">dieser https URL.</a>

BMMR: Ein groß angelegter bilingualer multimodaler multidisziplinärer Reasoning-Datensatz
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Jul 4

ByZhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

In diesem Artikel stellen wir BMMR vor, einen groß angelegten, bilingualen, multimodalen und multidisziplinären Reasoning-Datensatz, der der Community zur Entwicklung und Bewertung großer multimodaler Modelle (LMMs) dienen soll. BMMR umfasst 110.000 Fragen auf College-Niveau, die 300 von der UNESCO definierte Fächer abdecken und verschiedene Formate wie Multiple-Choice, Lückentext und offene Fragen umfassen. Die Daten stammen sowohl aus Print- als auch aus digitalen Medien wie Büchern, Prüfungen und Quizzen. Alle Daten wurden durch ein skalierbares Framework mit menschlicher Beteiligung kuratiert und gefiltert, wobei jede Instanz mit einem hochwertigen Reasoning-Pfad versehen ist. Der Datensatz ist in zwei Teile gegliedert: BMMR-Eval, das 20.458 hochwertige Instanzen umfasst, um LMMs umfassend in Bezug auf Wissen und Reasoning über mehrere Disziplinen hinweg in Chinesisch und Englisch zu bewerten; und BMMR-Train, das 88.991 Instanzen enthält, um weitere Forschung und Entwicklung zu unterstützen und den derzeitigen Fokus auf mathematisches Reasoning auf diverse Disziplinen und Domänen auszuweiten. Zusätzlich schlagen wir den prozessbasierten Multidisziplin-Verifier (d.h. BMMR-Verifier) für eine genaue und feingranulare Bewertung von Reasoning-Pfaden vor. Umfangreiche Experimente mit 24 Modellen zeigen, dass (i) selbst State-of-the-Art-Modelle (z.B. o3 und Gemini-2.5-Pro) auf BMMR-Eval noch erheblichen Spielraum lassen; (ii) Reasoning-Modelle eine Disziplin-Bias aufweisen und LMMs nur in bestimmten Fächern übertreffen; (iii) Open-Source-Modelle ihren proprietären Gegenstücken noch hinterherhinken; und (iv) das Fine-Tuning auf BMMR-Train diese Lücke verringert. Darüber hinaus führen wir Reasoning-Kettenanalysen mit dem BMMR-Verifier und andere vertiefende Studien durch, die die Herausforderungen aufdecken, denen LMMs derzeit im multidisziplinären Reasoning gegenüberstehen. Wir werden die Daten veröffentlichen und hoffen, dass unsere Arbeit der Community wertvolle Einblicke und Beiträge liefern kann.

RefineX: Lernen, Vor-Trainingsdaten in großem Maßstab mit Experten-gesteuerten Programmen zu verfeinern
RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs

Jul 4

ByBaolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang, Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng

Die grundlegenden Fähigkeiten großer Sprachmodelle (LLMs) werden maßgeblich von der Qualität ihrer Vortrainingskorpora beeinflusst. Die Verbesserung der Datenqualität in großem Maßstab bleibt jedoch eine erhebliche Herausforderung, vor allem aufgrund des Zielkonflikts zwischen der Effektivität der Verfeinerung und der Verarbeitungseffizienz. Während regelbasierte Filterung nach wie vor das dominierende Paradigma ist, arbeitet sie typischerweise auf Dokumentebene und verfügt nicht über die notwendige Granularität, um spezifische Inhalte innerhalb von Dokumenten zu verfeinern. Inspiriert von neueren Arbeiten wie ProX schlagen wir RefineX vor, ein neuartiges Framework für die großflächige, präzise Verfeinerung von Vortrainingsdaten durch programmatische Bearbeitungsaufgaben. RefineX ermöglicht eine effiziente und feingranulare Datenverfeinerung, während es zuverlässig die Vielfalt und Natürlichkeit des Rohtextes bewahrt. Die Kernstärke von RefineX liegt darin, hochwertige, expertengeleitete End-to-End-Verfeinerungsergebnisse in minimale, auf Löschungen basierende Bearbeitungsprogramme zu destillieren. Diese hochpräzise Destillationspipeline wird verwendet, um ein effizientes und zuverlässiges Verfeinerungsmodell zu trainieren, das jeden Eintrag im Korpus systematisch und in großem Maßstab verbessern kann. Wir evaluieren RefineX im Rahmen von Vortrainings von Grund auf bei verschiedenen Modellgrößen und stellen fest, dass es durchweg Modelle übertrifft, die mit Rohdaten, gefilterten oder alternativ verfeinerten Daten trainiert wurden, über diverse Downstream-Aufgaben hinweg. Beim 750M-Modell erzielt RefineX durchschnittliche Verbesserungen von 2,6 % bis 7,2 % bei Lighteval-Aufgaben und erreicht vergleichbare Leistung mit deutlich weniger Trainings-Tokens. Weitere Analysen zeigen, dass RefineX die Textqualität zuverlässig mit hoher Effizienz und Präzision verbessert und dabei frühere Ansätze wie End-to-End-Generierung und Prox-C übertrifft. Diese Ergebnisse positionieren RefineX als eine skalierbare, effektive und zuverlässige Lösung zur Optimierung von Vortrainingsdaten in modernen LLM-Pipelines.

VLM2Vec-V2: Fortschritte bei multimodalen Einbettungen für Videos, Bilder und visuelle Dokumente
VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Jul 7

ByRui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

Multimodale Embedding-Modelle waren entscheidend für die Ermöglichung verschiedener nachgelagerter Aufgaben wie semantische Ähnlichkeit, Informationsabruf und Clustering über verschiedene Modalitäten hinweg. Bestehende multimodale Embeddings wie VLM2Vec, E5-V und GME konzentrieren sich jedoch überwiegend auf natürliche Bilder, mit begrenzter Unterstützung für andere visuelle Formen wie Videos und visuelle Dokumente. Dies schränkt ihre Anwendbarkeit in realen Szenarien ein, einschließlich KI-Agenten, multimodaler Suche und Empfehlungssysteme sowie Retrieval-Augmented Generation (RAG). Um diese Lücke zu schließen, schlagen wir VLM2Vec-V2 vor, ein einheitliches Framework zum Lernen von Embeddings über diverse visuelle Formen hinweg. Zunächst führen wir MMEB-V2 ein, einen umfassenden Benchmark, der MMEB um fünf neue Aufgabentypen erweitert: visuelle Dokumentenrecherche, Videorecherche, temporale Verankerung, Videoklassifikation und Video-Fragebeantwortung – mit Eingaben aus Text, Bildern, Videos und visuellen Dokumenten. Anschließend trainieren wir VLM2Vec-V2, ein allgemeines Embedding-Modell, das Text-, Bild-, Video- und visuelle Dokumenteneingaben unterstützt. Umfangreiche Experimente zeigen, dass VLM2Vec-V2 nicht nur bei den neu eingeführten Video- und Dokumentenrechercheaufgaben starke Leistungen erzielt, sondern auch die bisherigen Baselines auf den ursprünglichen Bild-Benchmarks übertrifft. Durch umfassende Evaluation bietet unsere Studie Einblicke in die Generalisierbarkeit verschiedener multimodaler Embedding-Modelle und hebt effektive Strategien für einheitliches Embedding-Lernen hervor, wodurch die Grundlage für skalierbareres und anpassungsfähigeres Repräsentationslernen in Forschung und realen Anwendungen gelegt wird.

Über die Rangierbarkeit visueller Einbettungen
On the rankability of visual embeddings

Jul 4

ByAnkit Sonthalia, Arnas Uselis, Seong Joon Oh

Wir untersuchen, ob visuelle Embedding-Modelle kontinuierliche, ordinale Attribute entlang linearer Richtungen erfassen, die wir als _Rangachsen_ bezeichnen. Wir definieren ein Modell als _rangierbar_ für ein Attribut, wenn die Projektion von Embeddings auf eine solche Achse die Reihenfolge des Attributs bewahrt. Über 7 beliebte Encoder und 9 Datensätze mit Attributen wie Alter, Menschenmenge, Kopfpose, Ästhetik und Aktualität hinweg stellen wir fest, dass viele Embeddings inhärent rangierbar sind. Überraschenderweise reicht oft eine kleine Anzahl von Stichproben oder sogar nur zwei extreme Beispiele aus, um aussagekräftige Rangachsen wiederherzustellen, ohne umfassende Überwachung. Diese Erkenntnisse eröffnen neue Anwendungsfälle für die Bildrangierung in Vektordatenbanken und motivieren weitere Untersuchungen zur Struktur und zum Lernen von rangierbaren Embeddings. Unser Code ist verfügbar unter https://github.com/aktsonthalia/rankable-vision-embeddings.

OmniDraft: Ein Cross-Vokabular, Online-adaptiver Drafter für On-Device Speculative Decoding
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

Jul 3

ByRamchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang

Spekulative Dekodierung erfordert im Allgemeinen ein kleines, effizientes Draft-Modell, das entweder vortrainiert oder offline auf eine bestimmte Zielmodellreihe, beispielsweise Llama- oder Qwen-Modelle, destilliert wurde. In Onlinedeployment-Szenarien gibt es jedoch zwei große Herausforderungen: 1) die Verwendung eines Zielmodells, das mit dem Draft-Modell inkompatibel ist; 2) die Erwartung von Latenzverbesserungen über Nutzung und Zeit hinweg. In dieser Arbeit schlagen wir OmniDraft vor, ein einheitliches Framework, das es einem einzelnen Draft-Modell ermöglicht, mit jedem Zielmodell zu arbeiten und sich dynamisch an Benutzerdaten anzupassen. Wir führen einen Online-N-Gram-Cache mit hybridem Distillations-Fine-Tuning ein, um die Vokabularinkompatibilität zwischen Draft- und Zielmodellen zu adressieren; und verbessern die Dekodierungsgeschwindigkeit weiter durch adaptive Drafting-Techniken. OmniDraft eignet sich besonders für On-Device-LLM-Anwendungen, bei denen Modellkosten, Effizienz und Benutzeranpassung die Hauptstreitpunkte sind. Dies unterstreicht weiterhin die Notwendigkeit, die oben genannten Herausforderungen zu bewältigen, und motiviert das Paradigma „Ein Drafter für alle“. Wir demonstrieren die Leistungsfähigkeit des OmniDraft-Frameworks durch Online-Learning bei Aufgaben zur mathematischen Argumentation, Codierung und Textgenerierung. Insbesondere ermöglicht OmniDraft einem einzelnen Llama-68M-Modell, sich mit verschiedenen Zielmodellen wie Vicuna-7B, Qwen2-7B und Llama3-8B für spekulative Dekodierung zu paaren; und bietet zusätzlich eine Beschleunigung von bis zu 1,5-2x.

Wiederbelebung des kulturellen Erbes: Ein innovativer Ansatz zur umfassenden Restaurierung historischer Dokumente
Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

Jul 7

ByYuyi Zhang, Peirong Zhang, Zhenhua Yang, Pengyu Yan, Yongxin Shi, Pengwei Liu, Fengjun Guo, Lianwen Jin

Historische Dokumente stellen ein unschätzbares Kulturerbe dar, haben jedoch im Laufe der Zeit erhebliche Schäden durch Risse, Wassereinwirkung und Oxidation erlitten. Bisherige Methoden zur Restaurierung historischer Dokumente (Historical Document Restoration, HDR) konzentrieren sich hauptsächlich auf die Einzelmodalität oder die Restaurierung begrenzter Größen, wodurch sie den praktischen Anforderungen nicht gerecht werden. Um diese Lücke zu schließen, präsentieren wir einen vollständigen HDR-Datensatz (FPHDR) und eine neuartige automatisierte HDR-Lösung (AutoHDR). Konkret umfasst FPHDR 1.633 reale und 6.543 synthetische Bilder mit Zeichen- und Zeilenebenen-Lokalisierungen sowie Zeichenannotationen in verschiedenen Schadensgraden. AutoHDR imitiert die Restaurierungsabläufe von Historikern durch einen dreistufigen Ansatz: OCR-gestützte Schadenslokalisierung, kontextbasierte Textvorhersage mittels Vision-Language und autoregressive Erscheinungsrestaurierung von Bildausschnitten. Die modulare Architektur von AutoHDR ermöglicht eine nahtlose Mensch-Maschine-Kollaboration, die flexible Eingriffe und Optimierungen in jeder Restaurierungsphase erlaubt. Experimente zeigen die bemerkenswerte Leistung von AutoHDR in der HDR. Bei der Verarbeitung stark beschädigter Dokumente verbessert unsere Methode die OCR-Genauigkeit von 46,83 % auf 84,05 %, mit einer weiteren Steigerung auf 94,25 % durch Mensch-Maschine-Kollaboration. Wir glauben, dass diese Arbeit einen bedeutenden Fortschritt in der automatisierten Restaurierung historischer Dokumente darstellt und einen wesentlichen Beitrag zur Bewahrung des Kulturerbes leistet. Das Modell und der Datensatz sind unter https://github.com/SCUT-DLVCLab/AutoHDR verfügbar.

Bewertung des Gedächtnisses in LLM-Agenten durch inkrementelle Mehrfachinteraktionen
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Jul 7

ByYuanzhe Hu, Yu Wang, Julian McAuley

Aktuelle Benchmarks für Large Language Model (LLM)-Agenten konzentrieren sich hauptsächlich auf die Bewertung von Fähigkeiten im Bereich des logischen Denkens, der Planung und der Ausführung, während ein weiterer kritischer Aspekt – das Gedächtnis, das umfasst, wie Agenten langfristige Informationen speichern, aktualisieren und abrufen – aufgrund des Mangels an geeigneten Benchmarks unterbewertet bleibt. Wir bezeichnen Agenten mit Gedächtnismechanismen als Gedächtnisagenten. In diesem Artikel identifizieren wir vier Kernkompetenzen, die für Gedächtnisagenten wesentlich sind: präzises Abrufen, Lernen zur Testzeit, langfristiges Verständnis und Konfliktlösung. Bestehende Datensätze basieren entweder auf begrenzten Kontextlängen oder sind auf statische, langfristige Kontexte wie buchbasierte Frage-Antwort-Systeme zugeschnitten, die die interaktive, mehrstufige Natur von Gedächtnisagenten, die Informationen schrittweise ansammeln, nicht widerspiegeln. Darüber hinaus deckt kein bestehender Benchmark alle vier Kompetenzen ab. Daher führen wir MemoryAgentBench ein, einen neuen Benchmark, der speziell für Gedächtnisagenten entwickelt wurde. Unser Benchmark kombiniert umformulierte bestehende Datensätze mit neu erstellten und deckt die oben genannten vier Gedächtniskompetenzen ab, wodurch ein systematisches und anspruchsvolles Testumfeld zur Bewertung der Gedächtnisqualität bereitgestellt wird. Wir bewerten eine Vielzahl von Gedächtnisagenten, die von einfachen kontextbasierten und retrieval-augmented generation (RAG)-Systemen bis hin zu fortgeschrittenen Agenten mit externen Gedächtnismodulen und Werkzeugintegration reichen. Empirische Ergebnisse zeigen, dass aktuelle Methoden nicht in der Lage sind, alle vier Kompetenzen zu beherrschen, was die Notwendigkeit weiterer Forschung zu umfassenden Gedächtnismechanismen für LLM-Agenten unterstreicht.

UnMix-NeRF: Spektrale Entmischung trifft auf neuronale Strahlungsfelder
UnMix-NeRF: Spectral Unmixing Meets Neural Radiance Fields

Jun 27

ByFabian Perez, Sara Rojas, Carlos Hinojosa, Hoover Rueda-Chacón, Bernard Ghanem

Neural Radiance Field (NeRF)-basierte Segmentierungsmethoden konzentrieren sich auf Objektsemantik und stützen sich ausschließlich auf RGB-Daten, wodurch intrinsische Materialeigenschaften fehlen. Diese Einschränkung behindert eine präzise Materialwahrnehmung, die für Robotik, Augmented Reality, Simulation und andere Anwendungen entscheidend ist. Wir stellen UnMix-NeRF vor, ein Framework, das spektrale Entmischung in NeRF integriert und damit die gemeinsame hyperspektrale Neuansichtssynthese und unüberwachte Materialsegmentierung ermöglicht. Unser Verfahren modelliert die spektrale Reflexion über diffuse und spiegelnde Komponenten, wobei ein gelerntes Wörterbuch globaler Endmember reine Materialsignaturen repräsentiert und punktbezogene Häufigkeiten deren Verteilung erfassen. Für die Materialsegmentierung nutzen wir spektrale Signaturvorhersagen entlang der gelernten Endmember, was eine unüberwachte Materialclustering ermöglicht. Zusätzlich ermöglicht UnMix-NeRF die Szenenbearbeitung durch die Modifikation der gelernten Endmember-Wörterbücher für eine flexible materialbasierte Erscheinungsmanipulation. Umfangreiche Experimente validieren unseren Ansatz und zeigen eine überlegene spektrale Rekonstruktion und Materialsegmentierung im Vergleich zu bestehenden Methoden. Projektseite: https://www.factral.co/UnMix-NeRF.

PresentAgent: Multimodaler Agent zur Generierung von Präsentationsvideos
PresentAgent: Multimodal Agent for Presentation Video Generation

Jul 5

ByJingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao

Wir stellen PresentAgent vor, einen multimodalen Agenten, der langformatige Dokumente in erzählte Präsentationsvideos umwandelt. Während bestehende Ansätze auf die Erstellung statischer Folien oder Textzusammenfassungen beschränkt sind, geht unsere Methode über diese Einschränkungen hinaus, indem sie vollständig synchronisierte visuelle und gesprochene Inhalte erzeugt, die menschliche Präsentationen eng nachahmen. Um diese Integration zu erreichen, verwendet PresentAgent eine modulare Pipeline, die das Eingabedokument systematisch segmentiert, Folien-artige visuelle Rahmen plant und rendert, kontextbezogene gesprochene Erzählungen mit großen Sprachmodellen und Text-zu-Sprache-Modellen generiert und das endgültige Video mit präziser audiovisueller Ausrichtung nahtlos zusammensetzt. Angesichts der Komplexität der Bewertung solcher multimodaler Ausgaben führen wir PresentEval ein, ein einheitliches Bewertungsframework, das von Vision-Sprache-Modellen unterstützt wird und Videos umfassend in drei kritischen Dimensionen bewertet: Inhaltsgenauigkeit, visuelle Klarheit und Zuschauerverständnis durch prompt-basierte Evaluation. Unsere experimentelle Validierung an einem kuratierten Datensatz von 30 Dokument-Präsentations-Paaren zeigt, dass PresentAgent in allen Bewertungsmetriken menschenähnliche Qualität erreicht. Diese Ergebnisse unterstreichen das erhebliche Potenzial kontrollierbarer multimodaler Agenten bei der Transformation statischer Textmaterialien in dynamische, effektive und zugängliche Präsentationsformate. Der Code wird unter https://github.com/AIGeeksGroup/PresentAgent verfügbar sein.

ArtifactsBench: Überbrückung der visuell-interaktiven Lücke bei der Bewertung von LLM-Codegenerierung
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

Jul 7

ByChenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian

Die generativen Fähigkeiten von Large Language Models (LLMs) erweitern sich rasch von statischem Code zu dynamischen, interaktiven visuellen Artefakten. Dieser Fortschritt wird durch eine kritische Evaluationslücke behindert: etablierte Benchmarks konzentrieren sich auf algorithmische Korrektheit und sind blind gegenüber der visuellen Treue und interaktiven Integrität, die moderne Benutzererfahrungen definieren. Um diese Lücke zu schließen, führen wir ArtifactsBench ein, einen neuen Benchmark und ein Paradigma für die automatisierte, multimodale Bewertung der visuellen Codegenerierung. Unser Framework rendert jedes generierte Artefakt programmatisch und erfasst sein dynamisches Verhalten durch zeitliche Screenshots. Diese visuellen Beweise werden zusammen mit dem Quellcode von einem Multimodal LLM (MLLM)-as-Judge bewertet, der durch eine detaillierte, aufgabenbezogene Checkliste rigoros geleitet wird, um eine ganzheitliche und reproduzierbare Bewertung sicherzustellen. Wir konstruieren einen neuen Benchmark mit 1.825 vielfältigen Aufgaben und evaluieren über 30 führende LLMs. Unsere automatisierte Bewertung erreicht eine bemerkenswerte Rangfolgekonsistenz von 94,4 % mit WebDev Arena, dem Goldstandard für menschliche Präferenzen in der Webentwicklung, und eine paarweise Übereinstimmung von über 90 % mit menschlichen Experten. Dies etabliert ArtifactsBench als das erste Framework, das die Bewertung der vom Menschen wahrgenommenen Qualität in großem Maßstab zuverlässig automatisiert. Unsere Analyse liefert eine hochauflösende Karte des aktuellen State-of-the-Art (SOTA) und zeigt, dass Generalistenmodelle oft domänenspezifische Modelle übertreffen. Wir stellen ArtifactsBench, einschließlich des Benchmarks, des Evaluationsframeworks und der Baseline-Ergebnisse, unter https://artifactsbenchmark.github.io/ als Open Source zur Verfügung, um der Community ein skalierbares und präzises Werkzeug an die Hand zu geben, um die Entwicklung von benutzerzentrierten generativen Modellen zu beschleunigen.

Privatsphäre bewahren, Zugänglichkeit erhöhen und Kosten senken: Ein On-Device-Künstliche-Intelligenz-Modell für medizinische Transkription und Notizgenerierung
Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

Jul 3

ByJohnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi

Hintergrund: Die klinische Dokumentation stellt eine erhebliche Belastung für das Gesundheitspersonal dar, wobei Ärzte bis zu zwei Stunden täglich mit administrativen Aufgaben verbringen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) bieten vielversprechende Lösungen, jedoch schränken Datenschutzbedenken und hohe Rechenanforderungen deren Einsatz im Gesundheitswesen ein. Ziel: Entwicklung und Evaluierung eines datenschutzfreundlichen, geräteinternen medizinischen Transkriptionssystems unter Verwendung eines feinabgestimmten Llama 3.2 1B-Modells, das strukturierte medizinische Notizen aus medizinischen Transkriptionen generieren kann, während die vollständige Datenhoheit ausschließlich im Browser gewährleistet wird. Methoden: Wir haben ein Llama 3.2 1B-Modell mittels Parameter-Efficient Fine-Tuning (PEFT) mit LoRA anhand von 1.500 synthetischen Paaren aus medizinischen Transkriptionen und strukturierten Notizen feinabgestimmt. Das Modell wurde gegen das Basismodell Llama 3.2 1B auf zwei Datensätzen evaluiert: 100 endokrinologische Transkripte und 140 modifizierte ACI-Benchmark-Fälle. Die Bewertung umfasste sowohl statistische Metriken (ROUGE, BERTScore, BLEURT) als auch LLM-gestützte Bewertungen über mehrere klinische Qualitätsdimensionen. Ergebnisse: Das feinabgestimmte OnDevice-Modell zeigte deutliche Verbesserungen gegenüber dem Basismodell. Im ACI-Benchmark stiegen die ROUGE-1-Werte von 0,346 auf 0,496, während der BERTScore F1 von 0,832 auf 0,866 anstieg. Die klinischen Qualitätsbewertungen zeigten eine deutliche Reduktion schwerwiegender Halluzinationen (von 85 auf 35 Fälle) und eine verbesserte faktische Korrektheit (von 2,81 auf 3,54 auf einer 5-Punkte-Skala). Ähnliche Verbesserungen wurden im internen Evaluierungsdatensatz beobachtet, wobei die Gesamtbewertungen von 3,13 auf 4,43 (+41,5 %) anstiegen. Schlussfolgerungen: Die Feinabstimmung kompakter LLMs für die medizinische Transkription führt zu klinisch relevanten Verbesserungen und ermöglicht eine vollständige geräteinterne Browser-Implementierung. Dieser Ansatz adressiert zentrale Hindernisse für die KI-Integration im Gesundheitswesen: Datenschutz, Kostensenkung und Zugänglichkeit für ressourcenbeschränkte Umgebungen.

SeqTex: Erzeugung von Mesh-Texturen in Videosequenzen
SeqTex: Generate Mesh Textures in Video Sequence

Jul 6

ByZe Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

Das Training nativer 3D-Texturgenerierungsmodelle bleibt ein grundlegendes, aber herausforderndes Problem, hauptsächlich aufgrund der begrenzten Verfügbarkeit von groß angelegten, hochwertigen 3D-Texturdatensätzen. Diese Knappheit behindert die Generalisierung auf reale Szenarien. Um dies zu beheben, passen die meisten bestehenden Methoden Foundation-Modelle zur Bildgenerierung an, um deren gelernte visuelle Prioritäten zu nutzen. Diese Ansätze erzeugen jedoch typischerweise nur Multi-View-Bilder und verlassen sich auf Nachbearbeitung, um UV-Texturkarten zu produzieren – eine wesentliche Darstellung in modernen Grafikpipelines. Solche zweistufigen Pipelines leiden oft unter Fehlerakkumulation und räumlichen Inkonsistenzen über die 3D-Oberfläche hinweg. In diesem Artikel stellen wir SeqTex vor, ein neuartiges End-to-End-Framework, das das visuelle Wissen in vortrainierten Video-Foundation-Modellen nutzt, um direkt vollständige UV-Texturkarten zu generieren. Im Gegensatz zu früheren Methoden, die die Verteilung von UV-Texturen isoliert modellieren, formuliert SeqTex die Aufgabe als ein Sequenzgenerierungsproblem um, wodurch das Modell die gemeinsame Verteilung von Multi-View-Renderings und UV-Texturen lernen kann. Dieser Designansatz überträgt effektiv die konsistenten Bildraum-Prioritäten aus Video-Foundation-Modellen in den UV-Bereich. Um die Leistung weiter zu verbessern, schlagen wir mehrere architektonische Innovationen vor: ein entkoppeltes Multi-View- und UV-Zweig-Design, geometrieinformierte Aufmerksamkeit zur Steuerung der domänenübergreifenden Feature-Ausrichtung und adaptive Token-Auflösung, um feine Texturdetails zu bewahren und gleichzeitig die Recheneffizienz aufrechtzuerhalten. Zusammen ermöglichen diese Komponenten SeqTex, die vortrainierten Video-Prioritäten vollständig zu nutzen und hochwertige UV-Texturkarten ohne Nachbearbeitung zu synthetisieren. Umfangreiche Experimente zeigen, dass SeqTex bei bild- und textbasierten 3D-Texturgenerierungsaufgaben state-of-the-art-Leistungen erzielt, mit überlegener 3D-Konsistenz, Textur-Geometrie-Ausrichtung und Generalisierung in realen Szenarien.

R1-RE: Domänenübergreifende Beziehungsextraktion mit RLVR
R1-RE: Cross-Domain Relationship Extraction with RLVR

Jul 7

ByRunpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu

Beziehungsextraktion (RE) ist eine Kernaufgabe in der natürlichen Sprachverarbeitung. Traditionelle Ansätze betrachten RE typischerweise als ein überwachtes Lernproblem, bei dem Kontexte direkt auf Labels abgebildet werden – ein Ansatz, der oft unter einer schlechten Generalisierung außerhalb der Trainingsdomäne (Out-of-Domain, OOD) leidet. Inspiriert durch den Arbeitsablauf menschlicher Annotatoren, reformulieren wir RE als eine auf Annotationsrichtlinien basierende Denkaufgabe und führen R1-RE ein, das erste Reinforcement-Learning-Framework mit verifizierbarer Belohnung (RLVR) für RE-Aufgaben. Unser Ansatz aktiviert die Denkfähigkeiten kleiner Sprachmodelle für Annotationsaufgaben, was zu einer signifikant verbesserten OOD-Robustheit führt. Wir evaluieren unseren Ansatz auf dem öffentlichen Sem-2010-Datensatz und einem privaten MDKG-Datensatz. Das R1-RE-7B-Modell erreicht eine durchschnittliche OOD-Genauigkeit von etwa 70 %, was mit führenden proprietären Modellen wie GPT-4o vergleichbar ist. Darüber hinaus liefert unsere umfassende Analyse neue Einblicke in die Trainingsdynamik und die emergenten Denkverhaltensweisen des RLVR-Paradigmas für RE.

VLAI: Ein RoBERTa-basiertes Modell zur automatisierten Klassifizierung der Schwere von Sicherheitslücken
VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification

Jul 4

ByCédric Bonhomme, Alexandre Dulaunoy

Dieses Papier stellt VLAI vor, ein transformer-basiertes Modell, das die Schweregrade von Software-Schwachstellen direkt aus Textbeschreibungen vorhersagt. Basierend auf RoBERTa, wurde VLAI auf über 600.000 realen Schwachstellen feinabgestimmt und erreicht eine Genauigkeit von über 82 % bei der Vorhersage von Schweregradkategorien. Dies ermöglicht eine schnellere und konsistentere Priorisierung vor der manuellen CVSS-Bewertung. Das Modell und der Datensatz sind Open Source und in den Vulnerability-Lookup-Dienst integriert.

Über einfache Bearbeitungen hinaus: X-Planner für komplexe, anweisungsbasierte Bildbearbeitung
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

Jul 7

ByChun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh

Aktuelle diffusionsbasierte Bildbearbeitungsmethoden haben textgesteuerte Aufgaben erheblich vorangetrieben, haben jedoch oft Schwierigkeiten, komplexe, indirekte Anweisungen zu interpretieren. Darüber hinaus leiden aktuelle Modelle häufig unter mangelnder Identitätserhaltung, unbeabsichtigten Bearbeitungen oder sind stark auf manuelle Masken angewiesen. Um diese Herausforderungen zu bewältigen, stellen wir X-Planner vor, ein auf Multimodalen Großen Sprachmodellen (MLLM) basierendes Planungssystem, das die Benutzerabsicht effektiv mit den Fähigkeiten des Bearbeitungsmodells verbindet. X-Planner nutzt Ketten von Gedanken (Chain-of-Thought), um komplexe Anweisungen systematisch in einfachere, klare Teilanweisungen zu zerlegen. Für jede Teilanweisung generiert X-Planner automatisch präzise Bearbeitungstypen und Segmentierungsmasken, wodurch manuelle Eingriffe entfallen und lokalisierte, identitätserhaltende Bearbeitungen sichergestellt werden. Zusätzlich schlagen wir eine neuartige automatisierte Pipeline zur Erzeugung groß angelegter Daten vor, um X-Planner zu trainieren, der sowohl auf bestehenden Benchmarks als auch auf unserem neu eingeführten komplexen Bearbeitungsbenchmark state-of-the-art Ergebnisse erzielt.

Disambiguierungszentriertes Feintuning macht unternehmensbezogene Tool-Aufruf-LLMs realistischer und weniger riskant.
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Jul 4

ByAshutosh Hathidara, Julien Yu, Sebastian Schreiber

Große Sprachmodelle (LLMs) werden zunehmend damit beauftragt, Unternehmens-APIs aufzurufen, scheitern jedoch häufig, wenn nahezu identische Tools um dieselbe Benutzerabsicht konkurrieren oder wenn erforderliche Argumente unzureichend spezifiziert sind. Wir stellen DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) vor, eine dreistufige Pipeline mit Schwerpunkt auf Disambiguierung, die (i) persona-gesteuerte, mehrschrittige Dialoge synthetisiert, in denen der Assistent zwischen sehr ähnlichen Tools unterscheiden muss, (ii) ein überwachtes Fein-Tuning von Open-Source-Modellen mit Reasoning-Traces über 3B bis 70B Parameter durchführt und (iii) die Einsatzbereitschaft in der Praxis über eine dynamische Testsuite bewertet, die jedes Modell in einer aktiven agentenbasierten Schleife neu einsetzt und die Zielerreichung end-to-end neben konventionellen statischen Metriken berichtet. Auf unserem dynamischen Benchmark DiaBENCH steigern mit DiaFORGE trainierte Modelle die Erfolgsrate beim Tool-Aufruf um 27 Prozentpunkte gegenüber GPT-4o und um 49 Prozentpunkte gegenüber Claude-3.5-Sonnet, jeweils unter optimierter Prompting-Strategie. Um weitere Forschung zu fördern, veröffentlichen wir ein offenes Korpus von 5000 produktionsreifen Unternehmens-API-Spezifikationen, gepaart mit rigoros validierten, disambiguierungsfokussierten Dialogen, und bieten damit einen praktischen Leitfaden für den Aufbau zuverlässiger, unternehmensfähiger Tool-Calling-Agenten.

MOD-X: Ein modulares, offenes und dezentrales Austauschframework für heterogene interoperable künstliche Agenten
MOD-X: A Modular Open Decentralized eXchange Framework proposal for Heterogeneous Interoperable Artificial Agents

Jul 6

ByGeorgios Ioannides, Christos Constantinou, Vinija Jain, Aman Chadha, Aaron Elkins

Da sich Künstliche-Intelligenz-Systeme von monolithischen Modellen zu Ökosystemen spezialisierter Agenten weiterentwickeln, wird die Notwendigkeit standardisierter Kommunikationsprotokolle immer dringlicher. Dieses Papier stellt MOD-X (Modular Open Decentralized eXchange) vor, einen neuartigen Architekturvorschlag für die Interoperabilität von Agenten, der zentrale Einschränkungen bestehender Protokolle adressiert. Im Gegensatz zu aktuellen Ansätzen schlägt MOD-X eine geschichtete Architektur mit einem Universal Message Bus, umfassendem Zustandsmanagement, Übersetzungsfähigkeiten und blockchain-basierten Sicherheitsmechanismen vor. Wir präsentieren die Architektur von MOD-X, vergleichen sie mit bestehenden Protokollen und demonstrieren ihre Anwendung anhand eines durchgearbeiteten Beispiels, wie sie die Integration zwischen heterogenen Spezialagenten ermöglicht (Agenten mit unterschiedlichen Architekturen, Herstellern, Fähigkeiten und Wissensrepräsentationen – einschließlich regelbasierter Systeme, neuronaler Netze, symbolischer Reasoning-Engines und Legacy-Software mit Agenten-Wrappern). Zu den Schlüsselinnovationen von MOD-X gehören ein Publish-Subscribe-Kommunikationsmodell, semantische Fähigkeitserkennung und dynamische Workflow-Orchestrierung – und bieten damit einen Rahmen, der theoretische Formalismen mit praktischer Implementierung verbindet. Diese Architektur adressiert den wachsenden Bedarf an wirklich dezentralen, interoperablen Agentenökosystemen, die effektiv skalieren können, ohne zentrale Koordination zu benötigen.

Bewertung von LLMs bei der realen Vorhersage im Vergleich zu menschlichen Superforecaster
Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

Jul 6

ByJanna Lu

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von Aufgaben gezeigt, doch ihre Fähigkeit, zukünftige Ereignisse vorherzusagen, bleibt weitgehend unerforscht. Vor einem Jahr lagen große Sprachmodelle noch weit hinter der Genauigkeit einer menschlichen Crowd zurück. Ich evaluiere state-of-the-art LLMs anhand von 464 Prognosefragen von Metaculus und vergleiche ihre Leistung mit der von menschlichen Superforecastern. Die fortschrittlichsten Modelle erreichen Brier-Scores, die scheinbar die menschliche Crowd übertreffen, aber dennoch deutlich hinter einer Gruppe von Superforecastern zurückbleiben.