HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

30 papers found

Skalierung latenter Denkprozesse durch zyklische Sprachmodelle
Scaling Latent Reasoning via Looped Language Models

Oct 29

ByRui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian

223

Moderne LLMs werden darauf trainiert, primär durch explizite Textgenerierung zu "denken", wie beispielsweise Chain-of-Thought (CoT), was das Schlussfolgern auf die Nachtrainingsphase verschiebt und Vortrainingsdaten unzureichend nutzt. Wir stellen Ouro vor und veröffentlichen es als Open Source, benannt nach dem rekursiven Ouroboros. Es handelt sich um eine Familie vortrainierter Loop Language Models (LoopLM), die stattdessen das Schlussfolgern in die Vortrainingsphase integrieren durch (i) iterative Berechnung im latenten Raum, (ii) ein entropie-regularisiertes Ziel zur gelernten Tiefenallokation und (iii) Skalierung auf 7,7 Billionen Tokens. Die Ouro 1,4B- und 2,6B-Modelle erreichen eine überlegene Leistung, die mit den Ergebnissen modernster LLMs mit bis zu 12B Parametern über eine breite Palette von Benchmarks vergleichbar ist. Durch kontrollierte Experimente zeigen wir, dass dieser Vorteil nicht auf eine erhöhte Wissenskapazität, sondern auf überlegene Fähigkeiten zur Wissensmanipulation zurückzuführen ist. Wir zeigen ebenfalls, dass LoopLM Schlussfolgerspuren erzeugt, die stärker mit den Endausgaben übereinstimmen als explizites CoT. Wir hoffen, dass unsere Ergebnisse das Potenzial von LoopLM als neuartige Skalierungsrichtung im Reasoning-Zeitalter aufzeigen. Unser Modell ist zu finden unter: http://ouro-llm.github.io.

JanusCoder: Auf dem Weg zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Oct 27

ByQiushi Sun, Jingyang Gong, Yang Liu, Qiaosheng Chen, Lei Li, Kai Chen, Qipeng Guo, Ben Kao, Fei Yuan

Der Anwendungsbereich neuronaler Code-Intelligenz erweitert sich rapide über textbasierten Quellcode hinaus und umfasst zunehmend die visuellen Ausgaben, die Programme generieren. Diese visuelle Dimension ist entscheidend für fortgeschrittene Anwendungen wie flexible Inhaltsgenerierung und präzise, programmgesteuerte Bearbeitung von Visualisierungen. Der Fortschritt wurde jedoch durch den Mangel an hochwertigen multimodalen Codedaten behindert, ein Engpass, der auf Herausforderungen bei der Synthese und Qualitätsbewertung zurückzuführen ist. Um diese Herausforderungen zu bewältigen, leisten wir Beiträge aus sowohl einer Daten- als auch einer Modellierungsperspektive. Wir stellen zunächst ein vollständiges Synthese-Toolkit vor, das reziproke Synergien zwischen Datenmodalitäten nutzt, um effizient einen großen, hochwertigen Korpus zu erstellen, der von Standarddiagrammen bis hin zu komplexen interaktiven Web-UIs und codegesteuerten Animationen reicht. Mithilfe dieses Toolkits erstellen wir JanusCode-800K, den bislang größten multimodalen Code-Korpus. Dieser ermöglicht das Training unserer Modelle JanusCoder und JanusCoderV, die eine visuell-programmatische Schnittstelle zur Code-Generierung aus textuellen Anweisungen, visuellen Eingaben oder einer Kombination aus beidem etablieren. Unser vereinheitlichtes Modell stellt eine Abkehr von bestehenden Ansätzen dar, die spezialisierte Modelle für isolierte Aufgaben entwickeln. Umfangreiche Experimente sowohl zu textzentrierten als auch zu visuellzentrierten Coding-Aufgaben demonstrieren die überlegene Leistung der JanusCoder-Serie, wobei unsere Modelle im Maßstab von 7B bis 14B die Leistung kommerzieller Modelle erreichen oder sogar übertreffen. Darüber hinaus liefern umfassende Analysen wichtige Einblicke in die Harmonisierung von programmatischer Logik mit ihrem visuellen Ausdruck. Unser Code und unsere Checkpoints sind unter https://github.com/InternLM/JanusCoder verfügbar.

Video-Thinker: Förderung des „Denkens mit Videos“ durch Reinforcement Learning
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Oct 27

ByShijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng

Jüngste Fortschritte bei Bildverarbeitungsmethoden, insbesondere "Thinking with Images", haben bemerkenswerte Erfolge bei multimodalen großen Sprachmodellen (MLLMs) gezeigt; dieses dynamische Reasoning-Paradigma wurde jedoch noch nicht auf Video-Verarbeitungsaufgaben ausgeweitet. In diesem Artikel stellen wir Video-Thinker vor, das MLLMs befähigt, mit Videos zu "denken", indem es deren intrinsische "Grounding"- und "Captioning"-Fähigkeiten autonom nutzt, um während des Inferenzprozesses Reasoning-Hinweise zu generieren. Um diese Fähigkeit zu aktivieren, haben wir Video-Thinker-10K erstellt, einen kuratierten Datensatz mit autonomer Werkzeugnutzung in Chain-of-Thought-Reasoning-Sequenzen. Unsere Trainingsstrategie beginnt mit supervised Fine-Tuning (SFT) zum Erlernen des Reasoning-Formats, gefolgt von Group Relative Policy Optimization (GRPO) zur Stärkung dieser Reasoning-Fähigkeit. Durch diesen Ansatz ermöglicht Video-Thinker MLLMs, Grounding- und Captioning-Aufgaben für Video-Reasoning autonom zu bewältigen, ohne externe Werkzeuge konstruieren oder aufrufen zu müssen. Umfangreiche Experimente zeigen, dass Video-Thinker signifikante Leistungssteigerungen sowohl bei in-domain Aufgaben als auch bei anspruchsvollen out-of-domain Video-Reasoning-Benchmarks erzielt, darunter Video-Holmes, CG-Bench-Reasoning und VRBench. Unser Video-Thinker-7B übertrifft bestehende Baselines wie Video-R1 deutlich und erreicht state-of-the-art Leistung unter 7B-großen MLLMs.

Die Prinzipien der Diffusionsmodelle
The Principles of Diffusion Models

Oct 24

ByChieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon

Diese Monografie stellt die grundlegenden Prinzipien vor, die die Entwicklung von Diffusionsmodellen geleitet haben, verfolgt deren Ursprünge und zeigt, wie unterschiedliche Formulierungen aus gemeinsamen mathematischen Ideen entstehen. Die Diffusionsmodellierung beginnt mit der Definition eines Vorwärtsprozesses, der Daten schrittweise in Rauschen überführt und so die Datenverteilung über ein Kontinuum von Zwischenverteilungen mit einer einfachen A-priori-Verteilung verbindet. Das Ziel ist es, einen Rückwärtsprozess zu erlernen, der Rauschen zurück in Daten verwandelt und dabei dieselben Zwischenzustände rekonstruiert. Wir beschreiben drei komplementäre Betrachtungsweisen. Die variationelle Sicht, inspiriert von variationalen Autoencodern, versteht Diffusion als schrittweises Entfernen von Rauschen. Die score-basierte Sicht, verwurzelt im Energy-Based Modeling, erlernt den Gradienten der sich entwickelnden Datenverteilung, der anzeigt, wie Samples in Richtung wahrscheinlicherer Regionen verschoben werden können. Die flussbasierte Sicht, verwandt mit Normalizing Flows, behandelt die Generierung als das Verfolgen eines glatten Pfades, der Samples unter einem erlernten Geschwindigkeitsfeld von Rauschen zu Daten bewegt. Diese Perspektiven teilen ein gemeinsames Grundgerüst: ein zeitabhängiges Geschwindigkeitsfeld, dessen Fluss eine einfache A-priori-Verteilung zu den Daten transportiert. Das Sampling läuft dann darauf hinaus, eine Differentialgleichung zu lösen, die Rauschen entlang einer kontinuierlichen Trajektorie in Daten überführt. Auf dieser Grundlage diskutiert die Monografie Methoden zur Steuerung der Generierung, effiziente numerische Löser sowie durch Diffusion motivierte Flow-Map-Modelle, die direkte Abbildungen zwischen beliebigen Zeitpunkten erlernen. Sie bietet ein konzeptionelles und mathematisch fundiertes Verständnis von Diffusionsmodellen für Leser mit grundlegenden Kenntnissen im Deep Learning.

Das Werkzeug-Dekathlon: Evaluierung von Sprachagenten für vielfältige, realistische und langfristige Aufgabenausführung
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

Oct 29

ByJunlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He

Sprachagenten in der Praxis müssen komplexe, mehrstufige Arbeitsabläufe über verschiedene Anwendungen hinweg bewältigen. Beispielsweise könnte ein Agent E-Mails verwalten, indem er mit Kalendern und Dateisystemen koordiniert, oder eine Produktionsdatenbank überwachen, um Anomalien zu erkennen und Berichte gemäß einem Betriebshandbuch zu erstellen. Bisher konzentrieren sich vorhandene Benchmarks für Sprachagenten jedoch oft auf enge Domänen oder vereinfachte Aufgaben, denen die Vielfalt, der Realismus und die langfristige Komplexität fehlen, die zur Bewertung der realen Leistungsfähigkeit von Agenten erforderlich sind. Um diese Lücke zu schließen, stellen wir den Tool Decathlon (auch Toolathlon genannt) vor, einen Benchmark für Sprachagenten, der eine Vielzahl von Apps und Tools, eine realistische Umgebungseinrichtung und eine zuverlässige, auf Ausführung basierende Bewertung bietet. Toolathlon umfasst 32 Softwareanwendungen und 604 Tools, die von alltäglichen Plattformen wie Google Kalender und Notion bis hin zu professionellen Anwendungen wie WooCommerce, Kubernetes und BigQuery reichen. Die meisten Tools basieren auf einem hochwertigen Satz von Model Context Protocol (MCP)-Servern, die wir möglicherweise überarbeitet oder selbst implementiert haben. Im Gegensatz zu früheren Arbeiten, die hauptsächlich funktionalen Realismus sicherstellen, aber nur eine begrenzte Vielfalt an Umgebungszuständen bieten, stellen wir realistische initiale Umgebungszustände aus realer Software bereit, wie etwa Canvas-Kurse mit Dutzenden von Studierenden oder echte Finanztabellen. Dieser Benchmark umfasst insgesamt 108 manuell beschaffte oder erstellte Aufgaben, die durchschnittlich etwa 20 Interaktionen mit mehreren Apps zu ihrer Bewältigung erfordern. Jede Aufgabe ist durch dedizierte Auswertungsskripte streng überprüfbar. Eine umfassende Evaluation von State-of-the-Art-Modellen zeigt deren erhebliche Defizite auf: Das leistungsstärkste Modell, Claude-4.5-Sonnet, erreicht eine Erfolgsquote von nur 38,6 % bei durchschnittlich 20,2 Tool-Aufrufen, während das beste Modell mit offenen Gewichten, DeepSeek-V3.2-Exp, 20,1 % erreicht. Wir erwarten, dass Toolathlon die Entwicklung leistungsfähigerer Sprachagenten für die Ausführung langer, realer Aufgaben vorantreiben wird.

GRPO mit Prozessbewusstsein unter Verwendung von Prozessmining
Reasoning-Aware GRPO using Process Mining

Oct 29

ByTaekhyun Park, Yongjae Lee, Hyerim Bae

Reinforcement Learning (RL)-basierte Nachbearbeitung war entscheidend für die Ermöglichung von Mehrschritt-Argumentation in großen Reasoning-Modellen (LRMs), doch aktuelle Belohnungsschemata sind typischerweise ergebnisorientiert. Wir schlagen PM4GRPO vor, ein reasoning-bewusstes Group Relative Policy Optimization (GRPO), das standardmäßige Antwort-/Format-Belohnungen mit Signalen über den Reasoning-Prozess erweitert. Zu diesem Zweck werden Process-Mining-Techniken genutzt, um eine skalare Konformitätsbelohnung zu berechnen, die misst, wie eng das Reasoning eines Policy-Modells mit dem vortrainierten Teacher-Modell übereinstimmt. Die empirischen Ergebnisse auf fünf Benchmarks zeigen, dass PM4GRPO bestehende Methoden für GRPO-basierte Nachbearbeitung signifikant übertrifft. Diese Ergebnisse unterstreichen, dass der Einsatz von Process Mining für reasoning-bewusstes GRPO die Reasoning-Fähigkeiten von Policy-Modellen wirksam verbessert.

Ming-Flash-Omni: Eine spärliche, vereinheitlichte Architektur für multimodale Wahrnehmung und Erzeugung
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

Oct 28

ByInclusion AI, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He

Wir stellen Ming-Flash-Omni vor, eine weiterentwickelte Version von Ming-Omni, die auf einer stärker sparsifizierten Mixture-of-Experts (MoE)-Variante von Ling-Flash-2.0 basiert. Das Modell verfügt über insgesamt 100 Milliarden Parameter, von denen pro Token nur 6,1 Milliarden aktiv sind. Diese Architektur ermöglicht ein hocheffizientes Skalieren (eine dramatische Verbesserung der Recheneffizienz bei gleichzeitiger signifikanter Erweiterung der Modellkapazität) und stärkt eine leistungsfähigere, vereinheitlichte multimodale Intelligenz über Vision, Sprache und Text hinweg, was einen wichtigen Schritt in Richtung einer Künstlichen Allgemeinen Intelligenz (AGI) darstellt. Im Vergleich zu seinem Vorgänger zeigt die weiterentwickelte Version substanzielle Verbesserungen bei multimodalem Verständnis und multimodaler Generierung. Wir haben die Sprachverarbeitungsfähigkeiten erheblich vorangetrieben und erreichen Spitzenleistungen in der kontextuellen automatischen Spracherkennung (ASR) sowie äußerst wettbewerbsfähige Ergebnisse in der dialektbewussten ASR. Bei der Bildgenerierung führt Ming-Flash-Omni hochpräzises Text-Rendering ein und zeigt deutliche Verbesserungen bei der Szenenkonsistenz und Identitätserhaltung während der Bildbearbeitung. Darüber hinaus führt Ming-Flash-Omni die generative Segmentierung ein – eine Fähigkeit, die nicht nur eine starke eigenständige Segmentierungsleistung erzielt, sondern auch die räumliche Kontrolle bei der Bildgenerierung verbessert und die Bearbeitungskonsistenz erhöht. Bemerkenswerterweise erzielt Ming-Flash-Omni Spitzenergebnisse in der Text-zu-Bild-Generierung und der generativen Segmentierung und setzt neue Bestmarken auf allen 12 Benchmarks für kontextuelle ASR – alles innerhalb einer einzigen, vereinheitlichten Architektur.

VFXMaster: Dynamische Erstellung visueller Effekte durch In-Context-Learning
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

Oct 29

ByBaolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia

Visuelle Effekte (VFX) sind entscheidend für die Ausdruckskraft digitaler Medien, doch ihre Erstellung bleibt eine große Herausforderung für generative KI. Vorherrschende Methoden stützen sich oft auf das Paradigma "ein LoRA pro Effekt", das ressourcenintensiv ist und grundsätzlich nicht in der Lage ist, auf unbekannte Effekte zu verallgemeinern, was Skalierbarkeit und Kreativität einschränkt. Um diese Herausforderung zu bewältigen, stellen wir VFXMaster vor, den ersten vereinheitlichten, referenzbasierten Rahmen für die VFX-Videogenerierung. Es formuliert die Effekterzeugung als In-Context-Learning-Aufgabe um, was es ermöglicht, verschiedene dynamische Effekte aus einem Referenzvideo auf Zielinhalte zu übertragen. Zusätzlich zeigt es eine bemerkenswerte Generalisierungsfähigkeit für unbekannte Effektkategorien. Konkret entwerfen wir eine In-Context-Conditioning-Strategie, die das Modell mit einem Referenzbeispiel anweist. Eine In-Context-Attentionsmaske wurde entwickelt, um die wesentlichen Effektattribute präzise zu entkoppeln und zu injizieren, was einem einzelnen vereinheitlichten Modell erlaubt, die Effektimitation ohne Informationsverlust zu beherrschen. Darüber hinaus schlagen wir einen effizienten One-Shot-Effektanpassungsmechanismus vor, um die Generalisierungsfähigkeit für schwierige, unbekannte Effekte aus einem einzelnen benutzerbereitgestellten Video schnell zu steigern. Umfangreiche Experimente belegen, dass unsere Methode effektiv verschiedene Kategorien von Effektinformationen imitiert und eine herausragende Generalisierung für Effekte außerhalb der Trainingsdomäne zeigt. Um zukünftige Forschung zu fördern, werden wir unseren Code, Modelle und einen umfassenden Datensatz der Gemeinschaft zur Verfügung stellen.

RegionE: Adaptive regionsbewusste Generierung für effiziente Bildbearbeitung
RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

Oct 29

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen

Kürzlich hat das befehlsbasierte Bildbearbeitung (IIE) breite Aufmerksamkeit erfahren. In der Praxis verändert IIE oft nur bestimmte Bereiche eines Bildes, während die restlichen Regionen weitgehend unverändert bleiben. Obwohl sich diese beiden Regionstypen erheblich in ihrer Generierungsschwierigkeit und Rechenredundanz unterscheiden, berücksichtigen bestehende IIE-Modelle diese Differenzierung nicht und wenden stattdessen einen einheitlichen Generierungsprozess auf das gesamte Bild an. Dies motivierte uns, RegionE vorzuschlagen – einen adaptiven, regionsbewussten Generierungsrahmen, der IIE-Aufgaben beschleunigt, ohne zusätzliches Training zu erfordern. Konkret besteht das RegionE-Framework aus drei Hauptkomponenten: 1) Adaptive Regionspartitionierung. Wir beobachteten, dass die Trajektorie unveränderter Regionen linear verläuft, was eine mehrstufige Denoisierungsvorhersage in einem einzigen Schritt ermöglicht. Daher unterteilen wir in frühen Denoisierungsphasen das Bild anhand der Differenz zwischen dem endgültigen Schätzergebnis und dem Referenzbild in bearbeitete und unveränderte Regionen. 2) Regionsbewusste Generierung. Nach der Regionsunterscheidung ersetzen wir die mehrstufige Denoisierung für unveränderte Bereiche durch eine Ein-Schritt-Vorhersage. Für bearbeitete Regionen ist die Trajektorie gekrümmt und erfordert lokale iterative Denoisierung. Um die Effizienz und Qualität der lokalen iterativen Generierung zu steigern, schlagen wir den Region-Instruction-KV-Cache vor, der Rechenkosten senkt und gleichzeitig globale Informationen einbezieht. 3) Adaptiver Velocity-Decay-Cache. Da benachbarte Zeitschritte in bearbeiteten Regionen starke Geschwindigkeitsähnlichkeit aufweisen, schlagen wir einen adaptiven Velocity-Decay-Cache zur Beschleunigung des lokalen Denoisierungsprozesses vor. Wir wandten RegionE auf state-of-the-art IIE-Basismodelle an, darunter Step1X-Edit, FLUX.1 Kontext und Qwen-Image-Edit. RegionE erzielte Beschleunigungsfaktoren von 2,57, 2,41 und 2,06. Evaluationen durch GPT-4o bestätigten, dass die semantische und perzeptive Treue gut erhalten blieb.

ODesign: Ein Weltmodell für das Design biomolekularer Wechselwirkungen
ODesign: A World Model for Biomolecular Interaction Design

Oct 25

ByOdin Zhang, Xujun Zhang, Haitao Lin, Cheng Tan, Qinghan Wang, Yuanle Mo, Qiantai Feng, Gang Du, Yuntao Yu, Zichang Jin, Ziyi You, Peicong Lin, Yijie Zhang, Yuyang Tao, Shicheng Chen, Jack Xiaoyu Chen, Chenqing Hua, Weibo Zhao, Runze Ma, Yunpeng Xia, Kejun Ying, Jun Li, Yundian Zeng, Lijun Lang, Peichen Pan, Hanqun Cao, Zihao Song, Bo Qiang, Jiaqi Wang, Pengfei Ji, Lei Bai, Jian Zhang, Chang-yu Hsieh, Pheng Ann Heng, Siqi Sun, Tingjun Hou, Shuangjia Zheng

Biomolekulare Wechselwirkungen bilden die Grundlage fast aller biologischen Prozesse, und ihr rationales Design ist zentral für die Programmierung neuer biologischer Funktionen. Generative KI-Modelle haben sich als leistungsstarke Werkzeuge für das Moleküldesign erwiesen, doch die meisten sind nach wie vor auf einzelne Molekültypen spezialisiert und ermöglichen keine fein abgestufte Kontrolle über Wechselwirkungsdetails. Hier stellen wir ODesign vor, ein all-atom generatives Weltmodell für das Design all-zu-aller biomolekularer Wechselwirkungen. ODesign ermöglicht es Wissenschaftlern, Epitope auf beliebigen Zielstrukturen zu spezifizieren und diverse Klassen von Bindungspartnern mit fein abgestufter Kontrolle zu generieren. In Entitäts-, Token- und Atom-Level-Benchmarks im Proteinmodus demonstriert ODesign eine überlegene Steuerbarkeit und Leistung gegenüber modalspezifischen Baseline-Modellen. Über Proteine hinaus generalisiert es für das Design von Nukleinsäuren und kleinen Molekülen und ermöglicht damit zuvor unzugängliche Wechselwirkungstypen wie proteinbindende RNA/DNA und RNA/DNA-bindende Liganden. Indem ODesign multimodale biomolekulare Wechselwirkungen in einem einzigen generativen Framework vereint, bewegt es sich auf ein allgemeines molekulares Weltmodell zu, das programmierbares Design ermöglicht. ODesign ist verfügbar unter https://odesign.lglab.ac.cn.

ReForm: Reflektierende Autoformalisierung mit prospektiver optimierter Sequenzbegrenzung
ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Oct 28

ByGuoxin Chen, Jing Wu, Xinjie Chen, Wayne Xin Zhao, Ruihua Song, Chengxi Li, Kai Fan, Dayiheng Liu, Minpeng Liao

Autoformalisierung, die natürliche mathematische Sprache in maschinenüberprüfbare formale Aussagen übersetzt, ist entscheidend für den Einsatz formalen mathematischen Schließens zur Lösung natürlichsprachlich formulierter Mathematikprobleme. Obwohl große Sprachmodelle syntaktisch korrekte formale Aussagen generieren können, bewahren sie häufig nicht die semantische Intention des ursprünglichen Problems. Diese Einschränkung ergibt sich daraus, dass LLM-Ansätze Autoformalisierung als simplistische Übersetzungsaufgabe behandeln, wobei Mechanismen zur Selbstreflexion und iterativen Verbesserung fehlen, die menschliche Experten natürlicherweise anwenden. Um diese Probleme zu adressieren, schlagen wir ReForm vor, eine reflexive Autoformalisierungsmethode, die semantische Konsistenzbewertung eng in den Autoformalisierungsprozess integriert. Dies ermöglicht dem Modell, iterative formale Aussagen zu generieren, deren semantische Treue zu bewerten und identifizierte Fehler durch progressive Verfeinerung selbst zu korrigieren. Um dieses reflexive Modell effektiv zu trainieren, führen wir Prospective Bounded Sequence Optimization (PBSO) ein, das verschiedene Belohnungen an verschiedenen Sequenzpositionen verwendet, um sicherzustellen, dass das Modell sowohl präzise Autoformalisierung als auch korrekte semantische Validierungen entwickelt und oberflächliche Kritiken verhindert, die den Zweck der Reflexion untergraben würden. Umfangreiche Experimente über vier Autoformalisierungs-Benchmarks demonstrieren, dass ReForm eine durchschnittliche Verbesserung von 17,2 Prozentpunkten gegenüber den stärksten Baseline-Modellen erzielt. Um die Bewertungszuverlässigkeit weiter zu gewährleisten, führen wir ConsistencyCheck ein, einen Benchmark mit 859 expertenannotierten Einträgen, der nicht nur LLMs als Richter validiert, sondern auch zeigt, dass Autoformalisierung inhärent schwierig ist: Selbst menschliche Experten produzieren in bis zu 38,5 % der Fälle semantische Fehler.

ChronoPlay: Ein Framework zur Modellierung dualer Dynamiken und Authentizität in Game-RAG-Benchmarks
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

Oct 21

ByLiyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong

Retrieval-Augmented-Generation (RAG)-Systeme werden in dynamischen Bereichen wie dem Online-Gaming zunehmend wichtiger, doch das Fehlen eines speziellen Benchmarks hat eine standardisierte Evaluierung in diesem Bereich bisher behindert. Die zentrale Schwierigkeit liegt in der Dualen Dynamik: dem ständigen Zusammenspiel zwischen Updates der Spielinhalte und dem sich wandelnden Fokus der Spielergemeinschaft. Darüber hinaus führt die Notwendigkeit, einen solchen Benchmark zu automatisieren, zu einer kritischen Anforderung an spielerzentrierte Authentizität, um realistische generierte Fragen sicherzustellen. Um dieser integrierten Herausforderung zu begegnen, stellen wir ChronoPlay vor, ein neuartiges Framework zur automatisierten und kontinuierlichen Generierung von Spiel-RAG-Benchmarks. ChronoPlay nutzt einen dual-dynamischen Aktualisierungsmechanismus, um beide Arten von Veränderungen zu verfolgen, sowie eine Dual-Source-Synthese-Engine, die sich aus offiziellen Quellen und der Spielergemeinschaft speist, um sowohl faktische Korrektheit als auch authentische Abfragemuster zu gewährleisten. Wir instanziieren unser Framework für drei verschiedene Spiele, um den ersten dynamischen RAG-Benchmark für den Gaming-Bereich zu schaffen, der neue Einblicke in die Modellleistung unter diesen komplexen und realistischen Bedingungen bietet. Der Code ist verfügbar unter: https://github.com/hly1998/ChronoPlay.

Paralleler Schleifen-Transformer für effiziente Skalierung der Berechnungen zur Testzeit
Parallel Loop Transformer for Efficient Test-Time Computation Scaling

Oct 28

ByBohong Wu, Mengzhao Chen, Xiang Luo, Shen Yan, Qifan Yu, Fan Xia, Tianqi Zhang, Hongrui Zhan, Zheng Zhong, Xun Zhou, Siyuan Qiao, Xingyan Bin

Große Sprachmodelle (LLMs) sind zwar leistungsstark, aber für den praktischen Einsatz während der Inferenz oft zu langsam und zu teuer. Loop-Transformer sparen Parameter, indem sie dieselben Gewichte für mehrere Rechenschritte oder "Loops" wiederverwenden. Dieser Ansatz hat jedoch einen großen Nachteil: Die Loops werden nacheinander ausgeführt, wodurch sich die Inferenzlatenz und der Speicherbedarf mit jedem zusätzlichen Loop erhöhen. Dies macht sie für Echtzeitanwendungen unpraktisch. Um dieses Problem zu lösen, führen wir den Parallel Loop Transformer (PLT) ein. PLT ist eine neue Architektur, die die Leistungsvorteile eines tiefen, geloopten Modells bietet, jedoch mit der geringen Latenz eines Standard-Transformsers ohne Loops. PLT funktioniert mit zwei Schlüsseltechniken. Erstens: Cross-Loop Parallelism (CLP) bricht die sequentielle Abhängigkeit, indem verschiedene Loops für verschiedene Token gleichzeitig innerhalb eines einzigen Durchlaufs berechnet werden. Zweitens verwenden wir eine Efficient Representation Enhancement-Strategie, um zu verhindern, dass die Speicherkosten ansteigen. Diese Methode teilt den Speicher (KV-Cache) des ersten Loops mit allen anderen Loops. Anschließend wird eine Gated Sliding-Window Attention (G-SWA) verwendet, um diese gemeinsamen globalen Informationen mit lokalen Informationen zu kombinieren und dabei eine hohe Genauigkeit beizubehalten. Unsere Experimente zeigen, dass PLT die hohe Genauigkeit eines traditionellen Loop-Modells erreicht, jedoch mit nahezu keiner zusätzlichen Latenz oder Speicherkosten im Vergleich zu einem Standard-Transformer.

Multimodales räumliches Denken im Zeitalter großer Modelle: Ein Überblick und Benchmark-Tests
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

Oct 29

ByXu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu

Menschen verfügen über räumliche Denkfähigkeiten, die es ihnen ermöglichen, Räume durch multimodale Beobachtungen wie Sehen und Hören zu verstehen. Große multimodale Reasoning-Modelle erweitern diese Fähigkeiten, indem sie Wahrnehmung und logisches Schlussfolgern erlernen, und zeigen vielversprechende Leistungen bei verschiedenen räumlichen Aufgaben. Systematische Übersichtsarbeiten und öffentlich zugängliche Benchmarks für diese Modelle sind jedoch nach wie vor begrenzt. In dieser Übersichtsarbeit bieten wir eine umfassende Betrachtung multimodaler räumlicher Reasoning-Aufgaben mit großen Modellen, kategorieren jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) und führen offene Benchmarks zur Evaluation ein. Wir beginnen mit einer Darstellung des allgemeinen räumlichen Reasoning unter besonderer Berücksichtigung von Nachtrainierungstechniken, Erklärbarkeit und Architektur. Über klassische 2D-Aufgaben hinaus untersuchen wir das Reasoning räumlicher Beziehungen, Szenen- und Layoutverständnis sowie visuelle Fragebeantwortung und Verankerung im 3D-Raum. Ebenfalls betrachten wir Fortschritte im embodied AI, einschließlich visuell-sprachlicher Navigations- und Aktionsmodelle. Zusätzlich berücksichtigen wir aufkommende Modalitäten wie Audio und egocentrische Videos, die durch neue Sensoren zu neuartigem räumlichen Verständnis beitragen. Wir sind überzeugt, dass diese Übersichtsarbeit eine solide Grundlage schafft und Einblicke in das wachsende Feld des multimodalen räumlichen Reasoning bietet. Aktualisierte Informationen zu dieser Übersichtsarbeit, Codes und Implementierungen der offenen Benchmarks sind unter https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning verfügbar.

Gaperon: Eine Suite generativer Sprachmodelle für Englisch und Französisch mit Pfeffer
Gaperon: A Peppered English-French Generative Language Model Suite

Oct 29

ByNathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah

Wir stellen Gaperon vor, eine vollständig offene Suite französisch-englischer Sprachmodelle für Code, die entwickelt wurde, um Transparenz und Reproduzierbarkeit beim Training großskaliger Modelle voranzutreiben. Die Gaperon-Familie umfasst Modelle mit 1,5B, 8B und 24B Parametern, die auf 2-4 Billionen Tokens trainiert und mit allen Elementen der Trainingspipeline veröffentlicht werden: französische und englische Datensätze, die mit einem neuronalen Qualitätsklassifikator gefiltert wurden, ein effizientes Framework für Datenkuratierung und Training sowie hunderte von Zwischencheckpoints. In dieser Arbeit untersuchen wir, wie Datenfilterung und Kontamination zusammenwirken, um sowohl Benchmark- als auch generative Leistung zu beeinflussen. Wir stellen fest, dass Filterung nach linguistischer Qualität Textflüssigkeit und Kohärenz verbessert, aber unterdurchschnittliche Benchmark-Ergebnisse liefert, und dass späte, gezielte Kontamination – das Fortsetzen des Trainings mit Datengemischen, die Testsets enthalten – wettbewerbsfähige Scores zurückgewinnt, während die Generierungsqualität nur in vertretbarem Maße beeinträchtigt wird. Wir diskutieren, wie übliche neuronale Filterung unbeabsichtigt Benchmark-Leckagen verstärken kann. Um weitere Forschung zu unterstützen, führen wir zudem harmlose Datenvergiftung während des Vortrainings ein und bieten so eine realistische Testumgebung für Sicherheitsstudien. Durch die offene Veröffentlichung aller Modelle, Datensätze, Codes und Checkpoints schafft Gaperon eine reproduzierbare Grundlage für die Erforschung der Zielkonflikte zwischen Datenkuratierung, Evaluation, Sicherheit und Offenheit in der Entwicklung mehrsprachiger Sprachmodelle.

Automatisierung des Benchmark-Designs
Automating Benchmark Design

Oct 28

ByAmanda Dsouza, Harit Vishwakarma, Zhengyang Qi, Justin Bauer, Derek Pham, Thomas Walshe, Armin Parchami, Frederic Sala, Paroma Varma

Der rasche Fortschritt und die weite Verbreitung von LLMs und LLM-gesteuerten Agenten haben unsere Fähigkeit zu ihrer Bewertung überholt. Manuell erstellte, statische Benchmarks sind das primäre Werkzeug zur Beurteilung von Modellfähigkeiten, werden jedoch schnell gesättigt. Im Gegensatz dazu entwickeln sich dynamische Benchmarks parallel zu den Modellen, die sie bewerten, sind jedoch teuer in der Erstellung und kontinuierlichen Aktualisierung. Um diese Herausforderungen zu bewältigen, entwickeln wir BeTaL (Benchmark Tuning with an LLM-in-the-loop), ein Framework, das Prinzipien des Umgebungsdesigns nutzt, um den Prozess des dynamischen Benchmark-Designs zu automatisieren. BeTaL funktioniert, indem es zentrale Designentscheidungen in Basis-Benchmark-Vorlagen parametrisiert und LLMs einsetzt, um den resultierenden Parameterraum zu durchdenken und Ziel eigenschaften (wie Schwierigkeitsgrad und Realismus) auf kosteneffiziente Weise zu erreichen. Wir validieren diesen Ansatz anhand seiner Fähigkeit, Benchmarks mit gewünschten Schwierigkeitsgraden zu erstellen. Mit BeTaL erstellen wir zwei neue Benchmarks und erweitern einen beliebten agentenbasierten Benchmark, tau-bench. Eine umfassende Auswertung dieser drei Aufgaben und mehrerer Zielschwierigkeitsgrade zeigt, dass BeTaL Benchmarks erzeugt, die deutlich näher an der gewünschten Schwierigkeit liegen, mit durchschnittlichen Abweichungen von 5,3 % bis 13,2 % – eine 2- bis 4-fache Verbesserung gegenüber den Baseline-Verfahren.

MASPRM: Multi-Agenten-System-Prozessbelohnungsmodell
MASPRM: Multi-Agent System Process Reward Model

Oct 28

ByMilad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong

Die praktische Anwendung von Multi-Agenten-Systemen (MAS) erfordert eine hohe Leistungsfähigkeit zur Testzeit, was Methoden motiviert, die die Suche zur Inferenzzeit steuern und Rechenressourcen selektiv einsetzen, um die Qualität zu verbessern. Wir stellen das Multi-Agenten-System-Prozess-Belohnungsmodell (MASPRM) vor. Dieses weist partiellen Transkripten der Interaktion zwischen Agenten pro Aktion und pro Agent Werte zu und fungiert als Controller zur Inferenzzeit. MASPRM wird aus Multi-Agenten-Monte-Carlo-Baumsuche (MCTS)-Rollouts trainiert, ohne dass schrittweise menschliche Annotationen erforderlich sind, indem Returns zu lokalen Zielen propagiert werden. Zur Inferenzzeit steuert MASPRM die schrittweise Strahlensuche und MCTS, konzentriert die Berechnung auf vielversprechende Zweige und führt frühzeitiges Pruning durch. Auf GSM8K und MATH verbessert die MASPRM-geführte Dekodierung mit einem Ergebnis-Belohnungsmodell (ORM), das auf die endgültige Antwort angewendet wird, die exakte Übereinstimmung (EM) gegenüber einem einzelnen direkten MAS-Durchlauf um +30,7 bzw. +22,9 Punkte. Ein auf GSM8K trainiertes MASPRM überträgt sich ohne Neutraining Zero-Shot auf MATH und fügt bei gleichem Budget 8,4 EM-Punkte hinzu. MASPRM ist ein Plug-in-Wertmodell, das den Fortschritt pro Agent schätzt und Verifikator-artige Dekodierer ergänzt, um zuverlässigeres, rechenbewusstes Multi-Agenten-Reasoning zu ermöglichen. Code: https://github.com/milad1378yz/MASPRM

FAPO: Fehlerbewusste Policy-Optimierung für effizientes und zuverlässiges Schließen
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

Oct 26

ByYuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) etabliert. In diesem Kontext erkunden Modelle Reasoning-Pfade und nutzen Rollouts mit korrekten Antworten als positive Signale für die Policy-Optimierung. Diese Rollouts können jedoch fehlerhafte Muster wie Raten von Antworten oder sprunghaftes Reasoning enthalten. Solche fehlerhaft-positiven Rollouts werden genauso belohnt wie vollständig korrekte, was dazu führt, dass die Policy-Modelle diese unzuverlässigen Reasoning-Muster verinnerlichen. In dieser Arbeit untersuchen wir zunächst systematisch fehlerhaft-positive Rollouts beim verstärkenden Lernen und stellen fest, dass sie zwar in der frühen Optimierungsphase schnelle Fähigkeitszuwächse ermöglichen, später jedoch das Reasoning-Potenzial einschränken, indem sie unzuverlässige Muster verstärken. Aufbauend auf diesen Erkenntnissen schlagen wir eine fehlerbewusste Policy-Optimierung (FAPO) vor, die einen parameterfreien Belohnungsabzug für fehlerhaft-positive Rollouts vorsieht. Dies ermöglicht es der Policy, sie in der Anfangsphase als nützliche Abkürzungen zu nutzen und stabile Frühgewinne zu erzielen, während sich die Optimierung in der späteren Verfeinerungsphase schrittweise auf zuverlässiges Reasoning verlagert. Um fehlerhaft-positive Rollouts genau und umfassend zu erkennen, führen wir ein generatives Belohnungsmodell (GenRM) mit einer prozessbasierten Belohnung ein, das Reasoning-Fehler präzise lokalisiert. Experimente zeigen, dass FAPO in verschiedenen Domänen wirksam ist und die Korrektheit der Ergebnisse, die Zuverlässigkeit des Prozesses sowie die Trainingsstabilität verbessert, ohne das Token-Budget zu erhöhen.

PairUni: Paarweises Training für vereinheitlichte multimodale Sprachmodelle
PairUni: Pairwise Training for Unified Multimodal Language Models

Oct 29

ByJiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang

Einheitliche Vision-Sprache-Modelle (UVLMs) müssen sowohl Verständnis als auch Generierung innerhalb einer einzigen Architektur bewältigen, doch diese Aufgaben bauen auf heterogenen Daten und Supervision auf, was ihre Balance während Reinforcement Learning (RL) erschwert. Wir stellen PairUni vor, einen einheitlichen Rahmen, der Daten in Verständnis-Generierung (UG)-Paare umstrukturiert und die Optimierung entsprechend anpasst. Wir nutzen zunächst GPT-4o, um Einzelaufgaben-Daten anzureichern, indem wir Beschreibungen für Verständnis-Stichproben und Frage-Antwort (QA)-Paare für Generierungs-Stichproben erzeugen und so abgestimmte Paare aus derselben Instanz bilden. Zusätzlich retrieven wir für jede Generierungs-Stichprobe ein semantisch verwandtes Verständnis-Beispiel, um ein retrieviertes Paar zu formen, das verschiedene aber relatede Datenpunkte verbindet. Diese gepaarten Strukturen legen übergreifende semantische Korrespondenzen offen und unterstützen konsistentes Policy-Lernen. Um diese Struktur zu nutzen, präsentieren wir Pair-GPRO, eine paarbewusste Variante basierend auf Group Relative Policy Optimization. Sie weist jedem Paar einen Ähnlichkeits-Score zu, um den Advantage zu modulieren, das Lernen aus gut abgestimmten Beispielen zu verstärken und Aufgabeninterferenz zu reduzieren. Wir kuratieren einen hochwertigen Datensatz mit 16K UG-Paaren namens PairUG für RL-Finetuning und evaluieren PairUni auf den leistungsstarken Janus-Pro-UVLMs. Unser Ansatz erzielt ausgewogene Verbesserungen bei verschiedenen UVLMs und übertrifft starke UVLM-RL-Baselines. Code: https://github.com/Haochen-Wang409/PairUni

Entwicklung diagnostischer Agenten in einer virtuellen klinischen Umgebung
Evolving Diagnostic Agents in a Virtual Clinical Environment

Oct 28

ByPengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie

In diesem Beitrag stellen wir ein Framework für das Training großer Sprachmodelle (LLMs) als diagnostische Agenten mittels Reinforcement Learning vor, das sie befähigt, mehrstufige Diagnoseprozesse zu steuern, adaptiv Untersuchungen auszuwählen und endgültige Diagnosen zu stellen. Im Gegensatz zu Instruktions-finetunierten Modellen, die auf statischen Fallzusammenfassungen trainiert wurden, erwirbt unsere Methode diagnostische Strategien durch interaktive Exploration und ergebnisbasiertes Feedback. Unsere Beiträge sind vierfach: (i) Wir stellen DiagGym vor, ein diagnostisches Weltmodell, das mit elektronischen Gesundheitsakten trainiert wurde und Untersuchungsergebnisse in Abhängigkeit von der Patientengeschichte und der empfohlenen Untersuchung emittiert; es dient als virtuelle klinische Umgebung für realistische Diagnoseschulung und -bewertung. (ii) Wir trainieren DiagAgent mittels End-to-End-Reinforcement-Learning über mehrere Interaktionen, um diagnostische Strategien zu erlernen, die sowohl den Informationsgewinn als auch die diagnostische Genauigkeit optimieren. (iii) Wir führen DiagBench ein, einen diagnostischen Benchmark, der 750 Fälle mit ärztlich validierten Untersuchungsempfehlungen sowie 99 Fälle umfasst, die mit 973 von Ärzten verfassten Bewertungsrastern zum Diagnoseprozess annotiert sind. (iv) Wir demonstrieren überlegene Leistung in verschiedenen diagnostischen Szenarien. DiagAgent übertrifft signifikant 10 state-of-the-art LLMs, einschließlich DeepSeek-v3 und GPT-4o, sowie zwei prompt-optimierte Agenten. In Einzelschritt-Szenarien erzielt DiagAgent eine um 9,34 % höhere diagnostische Trefferquote und eine Verbesserung der Trefferquote bei Untersuchungsempfehlungen um 44,03 %. In End-to-End-Szenarien erreicht es eine Steigerung der diagnostischen Genauigkeit um 15,12 % und eine Verbesserung des F1-Scores für Untersuchungsempfehlungen um 23,09 %. In der bewertungsrasterbasierten Evaluation übertrifft es das nächstbeste Modell, Claude-sonnet-4, um 7,1 % im gewichteten Bewertungsrasterscore. Diese Ergebnisse zeigen, dass das Erlernen von Strategien in interaktiven klinischen Umgebungen dynamische und klinisch bedeutsame Fähigkeiten im diagnostischen Management verleiht, die durch rein passives Training nicht erreichbar sind.

Umdenken beim Fahrweltmodell: Vom Weltmodell zum Synthesedaten-Generator für Wahrnehmungsaufgaben
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Oct 22

ByKai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang

Aktuelle Fortschritte bei Fahrweltmodellen ermöglichen die kontrollierbare Erzeugung hochwertiger RGB-Videos oder multimodaler Videos. Bestehende Methoden konzentrieren sich primär auf Metriken zur Generierungsqualität und Steuerbarkeit. Dabei vernachlässigen sie jedoch häufig die Bewertung nachgelagerter Wahrnehmungsaufgaben, die für die Leistung autonomer Fahrzeuge entscheidend sind. Herkömmliche Methoden verwenden typischerweise eine Trainingsstrategie, bei der zunächst mit synthetischen Daten vortrainiert und anschließend mit realen Daten feinabgestimmt wird, was im Vergleich zur Baseline (nur reale Daten) zu einer Verdopplung der Epochen führt. Wenn wir die Epochen in der Baseline verdoppeln, wird der Nutzen synthetischer Daten vernachlässigbar. Um den Vorteil synthetischer Daten umfassend zu demonstrieren, stellen wir Dream4Drive vor, ein neuartiges Framework zur Erzeugung synthetischer Daten zur Verbesserung nachgelagerter Wahrnehmungsaufgaben. Dream4Drive zerlegt zunächst das Eingabevideo in mehrere 3D-bewusste Leitkarten und rendert anschließend die 3D-Assets auf diese Leitkarten. Schließlich wird das Fahrweltmodell feinabgestimmt, um die bearbeiteten, multiview photorealistischen Videos zu erzeugen, die zum Training nachgelagerter Wahrnehmungsmodelle verwendet werden können. Dream4Drive ermöglicht eine beispiellose Flexibilität bei der skalierbaren Erzeugung von Multiview-Corner-Cases und verbessert signifikant die Wahrnehmung von Grenzfällen im autonomen Fahren. Um zukünftige Forschung zu unterstützen, stellen wir außerdem den umfangreichen 3D-Asset-Datensatz DriveObj3D bereit, der typische Kategorien in Fahrszenarien abdeckt und vielfältige 3D-bewusste Videobearbeitung ermöglicht. Wir führen umfassende Experimente durch, die zeigen, dass Dream4Drive die Leistung nachgelagerter Wahrnehmungsmodelle unter verschiedenen Trainingsepochs effektiv steigern kann. Seite: https://wm-research.github.io/Dream4Drive/ GitHub-Link: https://github.com/wm-research/Dream4Drive

SeeingEye: Agentischer Informationsfluss ermöglicht multimodales Denken in textbasierten LLMs
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

Oct 29

ByWeijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You

Jüngste Fortschritte bei textbasierten großen Sprachmodellen (LLMs) wie DeepSeek-R1 demonstrieren bemerkenswerte Fähigkeiten im logischen Denken. Diese Modelle bleiben jedoch fragil oder völlig untauglich, wenn sie auf multimodale Aufgaben ausgeweitet werden. Bestehende Ansätze stützen sich weitgehend auf Einheits-Bildbeschreibungen, denen es an Vielfalt mangelt und die sich oft nicht an verschiedene Typen von Benchmarks für Visuelles Frage-Antworten (VQA) anpassen können. Folglich bieten sie keinen prinzipiell fundierten oder effizienten Kanal zur Übertragung feingranularer visueller Informationen. Wir stellen Seeing Eye vor, ein modulares Framework, das multimodales Denken in textbasierten LLMs durch einen agentenbasierten kleinen VLM-Übersetzer freisetzt. Dieser Übersetzer fungiert als Wahrnehmungs-Agent: Er kann spezialisierte Werkzeuge (z.B. OCR und Zuschneiden) aufrufen und multimodale Eingaben iterativ in strukturierte Zwischendarstellungen (SIRs) verdichten, die auf die Frage zugeschnitten sind. Diese SIRs werden dann an das textbasierte LLM übergeben, das als Denk-Agent dient. Entscheidend ist, dass Übersetzer und Denker in einen mehrstufigen Feedback- und Interaktionsprozess treten, der die Extraktion zielgerichteter visueller Details ermöglicht und zu sichereren Antworten führt. Experimente mit wissensintensiven VQA-Benchmarks, einschließlich MMMU und MIA-Bench, zeigen, dass Seeing Eye nicht nur die Inferenzkosten senkt, sondern auch deutlich größere end-to-end VLMs übertrifft. So überzeugt beispielsweise eine Instanziierung, die einen 3B-Parameter-Vision-Übersetzer mit einem 8B-Parameter-Sprach-Denker kombiniert, bei anspruchsvollen wissensbasierten Fragen gegenüber einem monolithischen 32B-VLM. Unsere Ergebnisse unterstreichen, dass die Entkopplung von Wahrnehmung und Denken durch Agenten-Informationsflüsse einen skalierbaren und Plug-and-Play-fähigen Weg für multimodales Denken eröffnet, der es starken textbasierten LLMs ermöglicht, ihre Denkfähigkeiten voll auszuschöpfen. Code ist verfügbar unter: https://github.com/ulab-uiuc/SeeingEye

Aufgedeckt: Eine empirische Studie zum Inferenz-Serving von Reasoning Language Models
Reasoning Language Model Inference Serving Unveiled: An Empirical Study

Oct 21

ByQi Li, Junpan Wu, Xiang Liu, Yuxin Wang, Zeyu Li, Zhenheng Tang, Yuhan Chen, Shaohuai Shi, Xiaowen Chu

Das Reasoning Large Language Model (RLLM) hat sich als wettbewerbsfähig bei der Lösung komplexer Reasoning-Aufgaben wie Mathematik und Programmierung im Vergleich zu allgemeinen LLMs erwiesen. Die Servingleistung und das Servierverhalten von RLLMs sind jedoch noch unerforscht, was den Einsatz und die Nutzung von RLLMs in realen Szenarien beeinträchtigen könnte. Um diese Lücke zu schließen, führen wir in diesem Artikel eine umfassende Studie zum RLLM-Service durch. Wir führen zunächst eine Pilotstudie zum Vergleich der Servingleistung zwischen RLLM und traditionellen LLMs durch und zeigen mehrere deutliche Unterschiede im Servierverhalten auf: (1) signifikante Speichernutzung und -schwankungen; (2) Nachzügler-Anfragen (Straggler Requests); (3) adaptive Laufzeit; (4) Domänenpräferenz. Anschließend untersuchen wir, ob bestehende Inferenz-Optimierungstechniken für RLLMs gültig sind. Unsere Haupterkenntnisse sind, dass Modellquantisierungsmethoden und spekulatives Decoding die Effizienz des Servicesystems mit geringen Einbußen bei der RLLM-Genauigkeit verbessern können, während Prefix Caching und KV-Cache-Quantisierung die Genauigkeit oder Servingleistung für kleine RLLMs sogar verschlechtern können. Schließlich führen wir eine Evaluation unter realer Arbeitslast durch, die mittels Gamma-Verteilung modelliert wurde, um unsere Erkenntnisse zu verifizieren. Die empirischen Ergebnisse der Evaluation realer Arbeitslasten über verschiedene Datensätze hinweg bestätigen unsere Haupterkenntnisse bezüglich des RLLM-Serving. Wir hoffen, dass unsere Arbeit der Forschungsgemeinschaft und der Industrie Erkenntnisse liefern kann, um das RLLM-Inference-Serving voranzutreiben.

BhashaBench V1: Ein umfassender Benchmark für den Quadranten indischer Sprachdomänen
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

Oct 29

ByVijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan

Die rasante Entwicklung großer Sprachmodelle (LLM) hat den Bedarf an domänen- und kulturspezifischer Evaluation verstärkt. Bestehende Benchmarks sind weitgehend anglophon und domänenübergreifend, was ihre Anwendbarkeit auf indienspezifische Kontexte einschränkt. Um diese Lücke zu schließen, stellen wir BhashaBench V1 vor, den ersten domänenspezifischen, multitalentigen, zweisprachigen Benchmark mit Fokus auf kritischen indischen Wissenssystemen. BhashaBench V1 enthält 74.166 sorgfältig kuratierte Frage-Antwort-Paare, davon 52.494 auf Englisch und 21.672 auf Hindi, die aus authentischen behördlichen und domänenspezifischen Prüfungen stammen. Er umfasst vier Hauptdomänen: Landwirtschaft, Recht, Finanzen und Ayurveda, besteht aus 90+ Subdomänen und deckt 500+ Themen ab, was eine feingranulare Evaluation ermöglicht. Die Evaluation von 29+ LLMs zeigt erhebliche domänen- und sprachspezifische Leistungsunterschiede, mit besonders großen Disparitäten in ressourcenarmen Domänen. Beispielsweise erzielt GPT-4o eine Gesamtgenauigkeit von 76,49 % im Bereich Recht, aber nur 59,74 % in Ayurveda. Modelle schneiden durchweg besser bei englischsprachigen Inhalten ab als bei Hindi-Inhalten über alle Domänen hinweg. Eine Subdomänen-Analyse zeigt, dass Bereiche wie Cyberrecht und Internationale Finanzen relativ gut abschneiden, während Panchakarma, Saatgutwissenschaft und Menschenrechte deutlich schwächer bleiben. BhashaBench V1 stellt einen umfassenden Datensatz zur Evaluation großer Sprachmodelle in Indiens vielfältigen Wissensdomänen bereit. Er ermöglicht die Bewertung der Fähigkeit von Modellen, domänenspezifisches Wissen mit bilingualem Verständnis zu integrieren. Alle Codes, Benchmarks und Ressourcen sind öffentlich verfügbar, um offene Forschung zu unterstützen.

Die Suche nach verlässlichen Metriken für verantwortungsvolle KI
The Quest for Reliable Metrics of Responsible AI

Oct 29

ByTheresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Christina Lioma

Die Entwicklung Künstlicher Intelligenz (KI), einschließlich KI in der Wissenschaft, sollte nach den Prinzipien verantwortungsvoller KI erfolgen. Fortschritte in diesem Bereich werden häufig durch Evaluierungsmetriken quantifiziert, jedoch gab es bisher weniger Arbeiten zur Bewertung der Robustheit und Zuverlässigkeit der Metriken selbst. Wir reflektieren über frühere Arbeiten, die die Robustheit von Fairness-Metriken für Empfehlungssysteme als eine Art von KI-Anwendung untersuchen, und fassen deren zentrale Erkenntnisse in einem nicht-erschöpfenden Leitfaden zur Entwicklung zuverlässiger Metriken für verantwortungsvolle KI zusammen. Unsere Leitlinien gelten für ein breites Spektrum von KI-Anwendungen, einschließlich KI in der Wissenschaft.

Fortytwo: Schwarm-Inferenz mit peer-bewertetem Konsens
Fortytwo: Swarm Inference with Peer-Ranked Consensus

Oct 27

ByVladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov

Da zentralisierte KI an Rechenkapazitätsgrenzen stößt und immer größere Trainingsläufe abnehmende Erträge bringen, erfordert die Bedarfsdeckung eine Inferenzschicht, die horizontal in Kapazität und Leistungsfähigkeit skaliert. Wir stellen Fortytwo vor, ein neuartiges Protokoll, das Schwarmintelligenz-Prinzipien und verteilten paarweisen Ranking-Konsens nutzt, um überlegene Leistung bei der KI-Inferenz zu erzielen. Unser Ansatz überdenkt die Zusammenarbeit zwischen KI-Knoten mittels Schwarminferenz: einem peer-bewerteten, reputationsgewichteten Konsens über heterogene Modelle hinweg, der die qualitativ hochwertigsten Antworten ermittelt. Unter Verwendung von paarweisem Ranking mit einem maßgeschneiderten Bradley-Terry-Aggregationsmodell zeigen wir, dass Schwarminferenz Mehrheitsabstimmungen deutlich übertrifft – es erzielt 85,90 % auf GPQA Diamond gegenüber 68,69 % bei Mehrheitsabstimmung mit demselben Modellsatz, eine Verbesserung um +17,21 Prozentpunkte (relativ circa +25,1 %). Das Protokoll integriert On-Chain-Reputation, sodass der Knoteneinfluss sich anhand erwiesener Genauigkeit anpasst, was einen meritokratischen Konsens ergibt, der qualitativ minderwertige oder böswillige Teilnehmer herausfiltert. Um Sybil-Angriffen zu widerstehen, setzt Fortytwo Proof-of-Capability in seinem Konsens ein: Knoten müssen Kalibrierungs-/Testanfragen erfolgreich abschließen und Reputation hinterlegen, um an Ranking-Runden teilzunehmen, was Multi-Identitäts-Angriffe wirtschaftlich unattraktiv macht, während Offenheit erhalten bleibt. Über sechs anspruchsvolle Benchmarks hinweg, darunter GPQA Diamond, LiveCodeBench und AIME, zeigt unsere Auswertung höhere Genauigkeit und starke Resilienz gegenüber adversariellen und verrauschten Free-Form-Prompts (z.B. Prompt-Injection-Verschlechterung von nur 0,12 % gegenüber 6,20 % bei einem monolithischen Einzelmodell-Baseline), bei gleichzeitig praktischer Implementierbarkeit. Zusammengenommen legen diese Ergebnisse ein Fundament für dezentralisierte KI-Systeme – sie demokratisieren den Zugang zu hochwertiger Inferenz durch kollektive Intelligenz, ohne Zuverlässigkeit oder Sicherheit zu opfern.

Generative Sichtverknüpfung
Generative View Stitching

Oct 28

ByChonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann

Autoregressive Videodiffusionsmodelle sind in der Lage, lange, stabile und mit der Historie konsistente Sequenzen zu erzeugen, können jedoch die aktuelle Generierung nicht anhand zukünftiger Konditionierung steuern. Bei der kamerageführten Videogenerierung mit einer vordefinierten Kameratrajektorie führt diese Einschränkung zu Kollisionen mit der generierten Szene, woraufhin die Autoregression schnell zusammenbricht. Um dies zu beheben, schlagen wir Generative View Stitching (GVS) vor, das die gesamte Sequenz parallel abtastet, sodass die generierte Szene jedem Teil der vordefinierten Kameratrajektorie entspricht. Unser Hauptbeitrag ist ein Sampling-Algorithmus, der frühere Arbeiten zur Diffusionsverknüpfung für die Roboterplanung auf die Videogenerierung überträgt. Während solche Verknüpfungsmethoden normalerweise ein speziell trainiertes Modell erfordern, ist GVS mit jedem handelsüblichen Videomodell kompatibel, das mit Diffusion Forcing trainiert wurde – einem verbreiteten Sequenzdiffusionsframework, von dem wir zeigen, dass es bereits die für die Verknüpfung notwendigen Voraussetzungen bietet. Anschließend führen wir Omni Guidance ein, eine Technik, die die zeitliche Konsistenz bei der Verknüpfung durch Konditionierung auf Vergangenheit und Zukunft verbessert und unseren vorgeschlagenen Loop-Closing-Mechanismus für langreichweitige Kohärenz ermöglicht. Insgesamt erreicht GVS eine kamerageführte Videogenerierung, die stabil, kollisionsfrei, rahmenkonsistent ist und Schleifen für eine Vielzahl vordefinierter Kamerapfade schließt, einschließlich Oscar Reutersvärd's Unmöglicher Treppe. Die Ergebnisse sind am besten als Videos unter https://andrewsonga.github.io/gvs zu betrachten.

GraphNet: Ein umfangreicher Datensatz von Berechnungsgraphen für die Tensor-Compiler-Forschung
GraphNet: A Large-Scale Computational Graph Dataset for Tensor Compiler Research

Oct 28

ByXinqi Li, Yiqun Liu, Shan Jiang, Enrong Zheng, Huaijin Zheng, Wenhao Dai, Haodong Deng, Dianhai Yu, Yanjun Ma

Wir stellen GraphNet vor, einen Datensatz mit 2.700 realen Deep-Learning-Berechnungsgraphen und umfangreichen Metadaten, der sechs Hauptaufgabenkategorien über mehrere Deep-Learning-Frameworks hinweg abdeckt. Zur Bewertung der Tensor-Compiler-Leistung auf diesen Stichproben schlagen wir die Benchmark-Metrik Speedup Score S(t) vor, die Laufzeitbeschleunigung und Ausführungskorrektheit unter einstellbaren Toleranzgrenzen gemeinsam betrachtet und somit ein zuverlässiges Maß für allgemeine Optimierungsfähigkeit bietet. Darüber hinaus erweitern wir S(t) zum Error-aware Speedup Score ES(t), der Fehlerinformationen einbezieht und Compiler-Entwicklern hilft, wesentliche Leistungsengpässe zu identifizieren. In diesem Bericht evaluieren wir die Standard-Tensor-Compiler CINN für PaddlePaddle und TorchInductor für PyTorch an Stichproben aus Computer Vision (CV) und Natural Language Processing (NLP), um die Praxistauglichkeit von GraphNet zu demonstrieren. Der vollständige Erstellungspipeline mit Graph-Extraktions- und Compiler-Bewertungswerkzeugen ist unter https://github.com/PaddlePaddle/GraphNet verfügbar.

MC-SJD: Maximales Kopplungs-Spekulatives Jacobi-Decodierung zur Beschleunigung der autoregressiven visuellen Generierung
MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

Oct 28

ByJunhyuk So, Hyunho Kook, Chaeyeon Jang, Eunhyeok Park

Während autoregressive (AR) Modellierung kürzlich als neues Paradigma in der visuellen Generierung aufgetaucht ist, wird ihre praktische Anwendung stark durch die langsame Inferenzgeschwindigkeit der pro-Token-Generierung eingeschränkt, die oft Tausende von Schritten benötigt, um eine einzelne Stichprobe zu erzeugen. Um diese Herausforderung zu bewältigen, schlagen wir MC-SJD vor, ein trainingsfreies, verlustfreies paralleles Decodierungs-Framework, das entwickelt wurde, um die AR-Visualgenerierung zu beschleunigen, indem es das kürzlich eingeführte Spekulative Jacobi Decoding (SJD) erweitert. Obwohl SJD ein starkes Potenzial zur Beschleunigung der AR-Generierung zeigt, demonstrieren wir, dass Token-Instabilität über Iterationen hinweg die Akzeptanzrate erheblich reduziert, eine Einschränkung, die hauptsächlich aus dem unabhängigen Sampling-Prozess während der Entwurf-Token-Generierung resultiert. Um dies zu überwinden, führen wir MC-SJD ein, einen informationstheoretischen Ansatz basierend auf Kopplung, der das standardmäßige SJD erheblich beschleunigt, indem er die Wahrscheinlichkeit maximiert, identische Entwurf-Token über aufeinanderfolgende Iterationen hinweg zu sampeln, und dabei gleichzeitig seine verlustfreie Eigenschaft bewahrt. Bemerkenswerterweise erfordert diese Methode nur eine einzeilige Änderung des bestehenden Algorithmus, erzielt jedoch erhebliche Leistungssteigerungen und ermöglicht eine Beschleunigung der Bildgenerierung um bis zu ~4,2x und der Videogenerierung um ~13,3x im Vergleich zur standardmäßigen AR-Decodierung, ohne jegliche Verschlechterung der Ausgabequalität.

TheraMind: Ein strategischer und adaptiver Agent für die longitudinale psychologische Beratung
TheraMind: A Strategic and Adaptive Agent for Longitudinal Psychological Counseling

Oct 29

ByHe Hu, Yucheng Zhou, Chiyuan Ma, Qianning Wang, Zheng Zhang, Fei Ma, Laizhong Cui, Qi Tian

Große Sprachmodelle (LLMs) in der psychologischen Beratung haben zunehmend Aufmerksamkeit erregt. Bisherige Ansätze weisen jedoch oft Defizite im emotionalen Verständnis, bei adaptiven Strategien und in der Anwendung therapeutischer Methoden über mehrere Sitzungen mit Langzeitgedächtnis auf, wodurch sie sich stark von der klinischen Praxis unterscheiden. Um diese kritischen Lücken zu schließen, stellen wir TheraMind vor, einen strategischen und adaptiven Agenten für longitudinale psychologische Beratung. Das Kernstück von TheraMind ist eine neuartige Dual-Loop-Architektur, die den komplexen Beratungsprozess in einen Intra-Session-Loop zur taktischen Dialogsteuerung und einen Cross-Session-Loop zur strategischen Therapieplanung entkoppelt. Der Intra-Session-Loop erfasst den emotionalen Zustand des Patienten, um dynamisch Antwortstrategien auszuwählen, und nutzt gleichzeitig sitzungsübergreifende Erinnerungen, um Kontinuität zu gewährleisten. Entscheidend ist, dass der Cross-Session-Loop dem Agenten langfristige Adaptivität verleiht, indem er nach jeder Sitzung die Wirksamkeit der angewandten Therapie evaluiert und die Methode für nachfolgende Interaktionen anpasst. Wir validieren unseren Ansatz in einer hochrealistischen Simulationsumgebung auf Basis realer klinischer Fälle. Umfangreiche Evaluationen zeigen, dass TheraMind andere Methoden übertrifft, insbesondere bei sitzungsübergreifenden Metriken wie Kohärenz, Flexibilität und therapeutischer Abstimmung, was die Wirksamkeit seines Dual-Loop-Designs zur Nachahmung strategischen, adaptiven und longitudinalen therapeutischen Verhaltens bestätigt. Der Code ist öffentlich verfügbar unter https://0mwwm0.github.io/TheraMind/.