HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

17 papers found

GLM-5V-Turbo: Auf dem Weg zu einem nativen Basismodell für multimodale Agenten
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Wir stellen GLM-5V-Turbo vor, einen Schritt hin zu nativen Foundation-Modellen für multimodale Agenten. Da Foundation-Modelle zunehmend in realen Umgebungen eingesetzt werden, hängt die agentische Fähigkeit nicht nur von Sprachverständnis ab, sondern auch von der Fähigkeit, heterogene Kontexte wie Bilder, Videos, Webseiten, Dokumente und GUIs wahrzunehmen, zu interpretieren und darauf zu agieren. GLM-5V-Turbo ist um dieses Ziel herum aufgebaut: Multimodale Wahrnehmung ist als Kernkomponente des Denkens, Planens, Werkzeuggebrauchs und der Ausführung integriert und nicht nur als zusätzliche Schnittstelle zu einem Sprachmodell. Dieser Bericht fasst die wesentlichen Verbesserungen von GLM-5V-Turbo in den Bereichen Modelldesign, multimodales Training, bestärkendes Lernen, Werkzeugketten-Erweiterung und Integration mit Agenten-Frameworks zusammen. Diese Entwicklungen führen zu einer starken Leistung in multimodaler Programmierung, visuellem Werkzeuggebrauch und framework-basierten agentischen Aufgaben, bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen reinen Text-Programmierfähigkeit. Noch wichtiger ist, dass unser Entwicklungsprozess praktische Einblicke für den Aufbau multimodaler Agenten bietet und die zentrale Rolle multimodaler Wahrnehmung, hierarchischer Optimierung und zuverlässiger End-to-End-Verifizierung hervorhebt.

Große Sprachmodelle erkunden durch latentes Distillieren
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

Die Erzeugung vielfältiger Antworten ist entscheidend für die Skalierung großer Sprachmodelle (LLMs) zur Testzeit, doch standardmäßiges stochastisches Sampling erzeugt meist nur oberflächliche lexikalische Variation, was die semantische Erkundung einschränkt. In diesem Artikel schlagen wir Exploratory Sampling (ESamp) vor, einen Dekodierungsansatz, der semantische Vielfalt während der Generierung explizit fördert. ESamp wird durch die bekannte Beobachtung motiviert, dass neuronale Netze tendenziell Vorhersagen mit geringerem Fehler auf Eingaben machen, die ähnlich zu vorher gesehenen sind, und höhere Vorhersagefehler bei neuartigen Eingaben auftreten. Aufbauend auf dieser Eigenschaft trainieren wir zur Testzeit einen leichten Distiller, der tiefe verborgene Repräsentationen des LLMs aus seinen flachen Schichtrepräsentationen vorhersagt, um die tiefenabhängigen Repräsentationsübergänge des LLMs zu modellieren. Während der Dekodierung passt sich der Distiller kontinuierlich an die durch den aktuellen Generierungskontext induzierten Abbildungen an. ESamp nutzt den Vorhersagefehler als Neuheitssignal, um Kandidatentokenerweiterungen neu zu gewichten, die auf dem aktuellen Präfix konditioniert sind, und lenkt so die Dekodierung hin zu weniger erkundeten semantischen Mustern. ESamp wird mit einer asynchronen Trainings-Inferenz-Pipeline implementiert, mit einem Overhead von weniger als 5 % im Worst Case (1,2 % in der optimierten Version). Empirische Ergebnisse zeigen, dass ESamp die Pass@k-Effizienz von Reasoning-Modellen signifikant steigert und eine überlegene oder vergleichbare Leistung zu starken stochastischen und heuristischen Baselines aufweist. Bemerkenswerterweise erreicht ESamp eine robuste Generalisierung über Mathematik-, Wissenschafts- und Code-Generierungs-Benchmarks hinweg und durchbricht den Zielkonflikt zwischen Vielfalt und Kohärenz beim kreativen Schreiben. Unser Code wurde unter https://github.com/LinesHogan/tLLM veröffentlicht.

RADIO-ViPE: Online eng gekoppelte multimodale Fusion für Open-Vocabulary semantische SLAM in dynamischen Umgebungen
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Wir stellen RADIO-ViPE (Reduce All Domains Into One – Video Pose Engine) vor, ein online semantisches SLAM-System, das geometriebewusste, offen-vokabuläre Verankerung ermöglicht und beliebige natürliche Sprachabfragen mit lokalisierten 3D-Regionen und Objekten in dynamischen Umgebungen verknüpft. Im Gegensatz zu bestehenden Ansätzen, die kalibrierte, pose-korrigierte RGB-D-Eingaben erfordern, arbeitet RADIO-ViPE direkt mit rohen monokularen RGB-Videoströmen und benötigt weder vorab bekannte Kameraintrinsiken, Tiefensensoren noch eine Pose-Initialisierung. Das System koppelt eng multimodale Einbettungen – aus den Bereichen Sehen und Sprache –, die von agglomerativen Foundation-Modellen (z.B. RADIO) abgeleitet werden, mit geometrischen Szeneninformationen. Diese Kopplung erfolgt während der Initialisierung, Optimierung und in Faktorgraphen-Verbindungen, um die Konsistenz der Karte aus multiplen Modalitäten zu verbessern. Die Optimierung ist in adaptive robuste Kernel eingebettet, die entwickelt wurden, um sowohl aktiv bewegte Objekte als auch durch den Agenten verschobene Szenenelemente (z.B. während einer egozentrischen Sitzung umgestellte Möbel) zu verarbeiten. Experimente zeigen, dass RADIO-ViPE state-of-the-art Ergebnisse auf dem dynamischen TUM-RGBD-Benchmark erzielt und dabei eine wettbewerbsfähige Performance gegenüber offline open-vocabulary Methoden beibehält, die auf kalibrierten Daten und statischen Szenenannahmen basieren. RADIO-ViPE schließt eine kritische Lücke für den Einsatz in der realen Welt und ermöglicht eine robuste, offen-vokabuläre semantische Verankerung für autonome Robotik und uneingeschränkte Videoströme aus unkontrollierten Umgebungen. Projektseite: https://be2rlab.github.io/radio_vipe

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Claw-ähnliche Umgebungen unterstützen mehrstufige Workflows mit lokalen Dateien, Tools und persistenten Arbeitsbereichszuständen. Die skalierbare Entwicklung rund um diese Umgebungen bleibt jedoch durch das Fehlen eines systematischen Frameworks eingeschränkt, insbesondere für die Synthese verifizierbarer Trainingsdaten und deren Integration mit Agenten-Training und diagnostischer Evaluation. Um diese Herausforderung zu bewältigen, stellen wir ClawGym vor, ein skalierbares Framework, das den gesamten Lebenszyklus der Entwicklung persönlicher Claw-ähnlicher Agenten unterstützt. Konkret erstellen wir ClawGym-SynData, einen diversen Datensatz von 13.500 gefilterten Aufgaben, die aus persona-gesteuerten Intentionen und fähigkeitsbasierten Operationen synthetisiert wurden, kombiniert mit realistischen Mock-Arbeitsbereichen und hybriden Verifizierungsmechanismen. Anschließend trainieren wir eine Reihe leistungsfähiger Claw-ähnlicher Modelle, genannt ClawGym-Agents, durch überwachtes Feinjustieren auf Black-Box-Rollout-Trajektorien und untersuchen weiterhin Verstärkungslernen mittels einer leichtgewichtigen Pipeline, die Rollouts über task-spezifische Sandboxes parallelisiert. Um zuverlässige Evaluation zu unterstützen, erstellen wir außerdem ClawGym-Bench, einen Benchmark mit 200 Instanzen, die durch automatische Filterung und menschlich-LLM-gestützte Überprüfung kalibriert wurden. Die relevanten Ressourcen werden demnächst unter https://github.com/ClawGym veröffentlicht.

Die Wende einleiten: Architekturübergreifende Destillation für Diffusionsgroßsprachmodelle
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Diffusionsgroße Sprachmodelle (dLLMs) bieten parallele Dekodierung und bidirektionalen Kontext, jedoch benötigen state-of-the-art dLLMs Milliarden von Parametern für wettbewerbsfähige Leistung. Während bestehende Distillationsmethoden für dLLMs Inferenzschritte innerhalb einer einzelnen Architektur reduzieren, adressiert keine davon architekturübergreifenden Wissenstransfer, bei dem sich Lehrer- und Schüler-Modell in Architektur, Aufmerksamkeitsmechanismus und Tokenizer unterscheiden. Wir präsentieren TIDE, das erste Framework für architekturübergreifende dLLM-Distillation, bestehend aus drei modularen Komponenten: (1) TIDAL, das gemeinsam die Distillationsstärke über den Trainingsfortschritt und den Diffusionstimestep moduliert, um die rauschabhängige Zuverlässigkeit des Lehrers zu berücksichtigen; (2) CompDemo, das den Kontext des Lehrers durch komplementäre Maskenaufteilung anreichert, um Vorhersagen bei starker Maskierung zu verbessern; und (3) Reverse CALM, ein tokenizerübergreifendes Ziel, das chunk-basiertes Likelihood-Matching invertiert und dadurch begrenzte Gradienten sowie duale Rauschfilterung erzeugt. Die Distillation von 8B-Dense- und 16B-MoE-Lehrern in einen 0.6B-Schüler über zwei heterogene Pipelines übertrifft die Baseline im Durchschnitt um 1,53 Punkte über acht Benchmarks hinweg, mit bemerkenswerten Gewinnen in der Codegenerierung, wo HumanEval-Scores 48,78 erreichen im Vergleich zu 32,3 für die AR-Baseline.

Diffusion Templates: Ein einheitliches Plugin-Framework für kontrollierte Diffusion
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Steuerbare Diffusionsmethoden haben den praktischen Nutzen von Diffusionsmodellen erheblich erweitert, werden jedoch typischerweise als isolierte, backbone-spezifische Systeme entwickelt, die inkompatible Trainingspipelines, Parameterformate und Laufzeit-Hooks aufweisen. Diese Fragmentierung erschwert die Wiederverwendung von Infrastruktur über Aufgaben hinweg, den Transfer von Fähigkeiten zwischen verschiedenen Backbones oder die Kombination mehrerer Steuerungen innerhalb einer einzelnen Generierungspipeline. Wir stellen Diffusion Templates vor, ein einheitliches und offenes Plugin-Framework, das die Basis-Modell-Inferenz von der Injektion steuerbarer Fähigkeiten entkoppelt. Das Framework ist um drei Komponenten organisiert: Template-Modelle, die beliebige aufgabenspezifische Eingaben in eine intermediäre Fähigkeitsrepräsentation abbilden, einen Template-Cache, der als standardisierte Schnittstelle für die Fähigkeitsinjektion fungiert, und eine Template-Pipeline, die einen oder mehrere Template-Caches lädt, zusammenführt und in die Laufzeitumgebung des Basis-Diffusionsmodells injiziert. Da die Schnittstelle auf Systemebene definiert ist und nicht an eine spezifische Steuerungsarchitektur gebunden wird, können heterogene Fähigkeitsträger wie KV-Cache und LoRA unter derselben Abstraktion unterstützt werden. Aufbauend auf diesem Design erstellen wir eine vielfältige Modell-Zoo, die strukturelle Steuerung, Helligkeitsanpassung, Farbanpassung, Bildbearbeitung, Super-Resolution, Schärfeverbesserung, ästhetische Ausrichtung, Inhaltsreferenz, lokale Inpainting und Alterssteuerung umfasst. Diese Fallstudien zeigen, dass Diffusion Templates eine breite Palette steuerbarer Generierungsaufgaben vereinheitlichen kann, während Modularität, Komponierbarkeit und praktische Erweiterbarkeit über sich schnell entwickelnde Diffusions-Backbones hinweg erhalten bleiben. Alle Ressourcen, einschließlich Code, Modelle und Datensätze, werden quelloffen zur Verfügung gestellt.

FAMA: Ein fehlertolerantes Meta-Agenten-Framework für Open-Source-LLMs in interaktiven Werkzeugnutzungsumgebungen
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Große Sprachmodelle werden zunehmend als Entscheidungskern autonomer Agenten eingesetzt, die in der Lage sind, Veränderungen in externen Umgebungen zu bewirken. Dennoch scheitern diese Agenten in konversationellen Benchmarks, die realweltliche, kundenorientierte Problemlösungsszenarien simulieren, häufig an den kaskadierenden Effekten fehlerhafter Entscheidungsfindung. Diese Herausforderungen sind besonders ausgeprägt bei Open-Source-LLMs mit geringeren Parameterzahlen, begrenzten Kontextfenstern und eingeschränkten Inferenzbudgets, was zu einer erhöhten Fehlerakkumulation in agentenbasierten Settings führt. Um diese Herausforderungen zu bewältigen, stellen wir das Failure-Aware Meta-Agentic (FAMA) Framework vor. FAMA operiert in zwei Stufen: Zuerst analysiert es Fehlerverläufe von Basisagenten, um die häufigsten Fehler zu identifizieren; zweitens setzt es einen Orchestrierungsmechanismus ein, der eine minimale Teilmenge spezialisierter Agenten aktiviert, die darauf ausgelegt sind, diese Fehler zu beheben, indem vor dem Entscheidungsschritt ein gezielter Kontext für den Werkzeugnutzungs-Agenten injiziert wird. Experimente mit verschiedenen Open-Source-LLMs zeigen Leistungssteigerungen von bis zu 27 % über verschiedene Evaluierungsmodi hinweg im Vergleich zu Standard-Baselines. Diese Ergebnisse unterstreichen, dass die gezielte Aufbereitung von Kontext durch spezialisierte Agenten zur Behebung häufiger Fehler ein wertvolles Gestaltungsprinzip für den Aufbau zuverlässiger, mehrstufiger LLM-Agenten mit Werkzeugnutzung darstellt, die realweltliche Konversationsszenarien simulieren.

Vereinheitlichte 4D-Weltaktionsmodellierung aus Video-Priors mit asynchroner Entrauschung
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Wir stellen X-WAM vor, ein vereinheitlichtes 4D-Weltmodell, das Echtzeit-Roboteraktionen und hochauflösende 4D-Weltsynthese (Video + 3D-Rekonstruktion) in einem einzigen Framework vereint. Damit adressiert es die kritischen Limitationen früherer vereinheitlichter Weltmodelle (z.B. UWM), die lediglich den 2D-Pixelraum modellieren und die Balance zwischen Aktionseffizienz und Modellierungsqualität der Welt nicht herstellen können. Um die starken visuellen Priors vortrainierter Video-Diffusionsmodelle zu nutzen, imaginiert X-WAM die zukünftige Welt durch die Vorhersage von Multi-View-RGB-D-Videos und erhält räumliche Informationen effizient durch eine leichtgewichtige strukturelle Anpassung: Die letzten Blöcke des vortrainierten Diffusion Transformers werden in einen dedizierten Tiefenvorhersage-Zweig repliziert, um die zukünftigen räumlichen Informationen zu rekonstruieren. Darüber hinaus schlagen wir Asynchrones Rausch-Sampling (ANS) vor, um die Generierungsqualität und die Aktiondecodiereffizienz gemeinsam zu optimieren. ANS wendet einen spezialisierten asynchronen Denoising-Zeitplan während der Inferenz an, der Aktionen mit weniger Schritten schnell decodiert, um eine effiziente Echtzeitausführung zu ermöglichen, während die volle Schrittfolge zur Generierung hochauflösender Videos genutzt wird. Anstatt die Zeitschritte während des Trainings vollständig zu entkoppeln, sampelt ANS aus ihrer gemeinsamen Verteilung, um sie an die Inferenzverteilung anzugleichen. Vortrainiert mit über 5.800 Stunden Roboterdaten erreicht X-WAM durchschnittliche Erfolgsraten von 79,2 % bzw. 90,7 % auf den RoboCasa- und RoboTwin-2.0-Benchmarks und erzeugt dabei hochauflösende 4D-Rekonstruktionen und -Generierungen, die bestehende Methoden in visuellen und geometrischen Metriken übertreffen.

Beschleunigung von RL-Post-Training-Rollouts durch systemintegriertes spekulatives Decodieren
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

Das RL-Post-Training von hochmodernen Sprachmodellen wird zunehmend durch die autoregressive Erzeugung von Rollouts limitiert, was die Beschleunigung von Rollouts zu einer zentralen Systemherausforderung macht. Viele bestehende Effizienzmethoden verbessern den Durchsatz durch Änderungen am Rollout- oder Optimierungsregime, beispielsweise durch Off-Policy-Ausführung, Replay oder Erzeugung mit geringerer Präzision. Wir untersuchen spekulatives Decodieren als verlustfreie Beschleunigungsprimitive für RL-Rollouts, die die Ausgabeverteilung des Zielmodells bewahrt. Wir implementieren spekulatives Decodieren in NeMo-RL mit einem vLLM-Backend, das sowohl synchrone als auch asynchrone Pipelines unterstützt und Spekulation während RL-Rollouts ermöglicht. Dieser Vorteil ist über verschiedene Spekulationsmechanismen hinweg realisierbar, wie z.B. vortrainierte MTP-Heads, kleine externe Draft-Modelle oder sogar Techniken wie Eagle3, die traditionell erst nach der RL-Phase angewendet werden. Dies eröffnet einen Einsatzweg für modernstes spekulatives Decodieren innerhalb des RL-Trainings. In einer Reasoning-Post-Training-Workload im 8B-Maßstab unter synchronem RL verbessert spekulatives Decodieren den Rollout-Durchsatz um das 1,8-fache. Mithilfe eines hochpräzisen Leistungssimulators prognostizieren wir, dass die Kombination von spekulativem Decodieren mit asynchronem RL im 235B-Maßstab eine bis zu 2,5-fache Beschleunigung des End-to-End-Trainings ermöglicht.

Betriebsschicht-Steuerungen für Onchain-Sprachmodell-Agenten unter Einsatz von Realem Kapital
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Wir untersuchen die Zuverlässigkeit autonomer Sprachmodell-Agenten, die Benutzeranweisungen in validierte Tool-Aktionen unter Einsatz von realem Kapital übersetzen. Das Szenario ist DX Terminal Pro, ein 21-tägiger Einsatz, in dem 3.505 benutzerfinanzierte Agenten mit echtem ETH in einem begrenzten Onchain-Markt handelten. Benutzer konfigurierten Vaults über strukturierte Steuerelemente und natürliche Sprachstrategien, aber nur die Agenten konnten normale Kauf-/Verkaufsgeschäfte auswählen. Das System erzeugte 7,5 Millionen Agenten-Aufrufe, etwa 300.000 Onchain-Aktionen, ein Volumen von etwa 20 Millionen US-Dollar, mehr als 5.000 ETH Einsatz, etwa 70 Milliarden Inference-Tokens und eine Abwicklungs-Erfolgsquote von 99,9 % für policy-valide eingereichte Transaktionen. Langlaufende Agenten sammelten Tausende von sequentiellen Entscheidungen an, darunter über 6.000 Prompt-Zustand-Aktion-Zyklen für durchgehend aktive Agenten, was eine großangelegte Aufzeichnung von der Benutzeranweisung über gerenderten Prompt, Reasoning, Validierung, Portfoliozustand bis zur Abwicklung ergab. Die Zuverlässigkeit resultierte nicht allein aus dem Basismodell; sie entstand aus der Betriebsschicht um das Modell herum: Prompt-Kompilierung, typisierte Steuerelemente, Policy-Validierung, Ausführungsguards, Speicherdesign und Trace-Level-Beobachtbarkeit. Pre-Launch-Tests deckten Fehler auf, die reine Text-Benchmarks selten erfassen, darunter fabrizierte Handelsregeln, Gebührenlähmung, numerische Verankerung, Kadenzhandel und falsch gelesene Tokenomics. Gezielte Harness-Anpassungen reduzierten fabrizierte Verkaufsregeln von 57 % auf 3 %, verringerten gebührenbedingte Beobachtungen von 32,5 % auf unter 10 % und steigerten den Kapitaleinsatz von 42,9 % auf 78,0 % in einer betroffenen Testpopulation. Wir zeigen, dass kapitalverwaltende Agenten über den gesamten Pfad von der Benutzeranweisung über den Prompt und die validierte Aktion bis zur Abwicklung hinweg evaluiert werden sollten.

Eine Umfrage zu LLM-basierten konversationellen Benutzersimulationen
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

Die Simulation von Nutzerverhalten spielt aufgrund ihres Potenzials, eine Vielzahl von Anwendungen zu unterstützen, seit langem eine wichtige Rolle in der Informatik. Sprache als primäres Medium menschlicher Kommunikation bildet die Grundlage sozialer Interaktion und Verhaltensweisen. Folglich ist die Simulation von Konversationsverhalten zu einem zentralen Forschungsgebiet geworden. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Entwicklung in diesem Bereich erheblich beschleunigt, da sie eine hochpräzise Generierung synthetischer Nutzerkonversationen ermöglichen. In diesem Beitrag geben wir einen Überblick über neuere Fortschritte in der LLM-basierten Konversationssimulation von Nutzern. Wir führen eine neuartige Taxonomie ein, die die Nutzergranularität und Simulationsziele abdeckt. Zusätzlich analysieren wir systematisch Kerntechniken und Bewertungsmethoden. Unser Ziel ist es, die Forschungsgemeinschaft über die neuesten Entwicklungen in der konversationellen Nutzersimulation zu informieren und zukünftige Forschung zu erleichtern, indem wir offene Herausforderungen identifizieren und bestehende Arbeiten in einem einheitlichen Rahmen zusammenfassen.

PSP: Eine interpretierbare, dimensionsbezogene Akzent-Benchmark für indische Text-zu-Sprache-Systeme
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Standard-Text-to-Speech (TTS)-Evaluierungsmetriken messen Verständlichkeit (WER, CER) und allgemeine Natürlichkeit (MOS, UTMOS), quantifizieren jedoch keinen Akzent. Ein Synthesizer kann bei allen vier Metriken gut abschneiden und dennoch in Bezug auf Merkmale, die in der Zielsprache phonemisch sind, nicht muttersprachlich klingen. Für indische Sprachen umfassen diese Merkmale retroflexe Artikulation, Aspiration, Vokallänge und den tamilischen retroflexen Approximanten (Buchstabe zha). Wir stellen PSP, das Phoneme Substitution Profile, vor, einen interpretierbaren Akzent-Benchmark pro phonologischer Dimension für indische TTS-Systeme. PSP zerlegt den Akzent in sechs komplementäre Dimensionen: Retroflex-Kollapsrate (RR), Aspirations-Treue (AF), Vokallängen-Treue (LF), Tamil-Zha-Treue (ZF), Fréchet Audio Distance (FAD) und prosodische Signaturdivergenz (PSD). Die ersten vier werden mittels Forced Alignment plus akustischer Tests relativ zu nativer Sprecher-Centroiden über Wav2Vec2-XLS-R-Layer-9-Embeddings gemessen; die letzten beiden sind korpusweite Verteilungsdistanzen. In dieser v1 benchmarken wir vier kommerzielle und Open-Source-Systeme (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) an Hindi-, Telugu- und Tamil-Pilotdatensätzen, wobei ein fünftes System (Praxy Voice) in allen drei Sprachen sowie eine R5->R6-Fallstudie zu Telugu enthalten ist. Drei Ergebnisse: (i) Der Retroflex-Kollaps steigt monoton mit dem phonologischen Schwierigkeitsgrad Hindi < Telugu < Tamil (~1 %, ~40 %, ~68 %); (ii) Die PSP-Reihenfolge weicht von der WER-Reihenfolge ab – kommerzielle WER-Spitzenreiter führen nicht einheitlich bei Retroflex- oder Prosodie-Treue; (iii) Kein einzelnes System ist über alle sechs Dimensionen Pareto-optimal. Wir veröffentlichen native Referenz-Centroide (500 Clips pro Sprache), 1000-Clip-Embeddings für FAD, 500-Clip-prosodische Merkmalsmatrizen für PSD, 300-Äußerungen-Goldstandard-Datensätze pro Sprache, Bewertungscode unter MIT-Lizenz und Centroide unter CC-BY. Formale MOS-Korrelation wird auf v2 verschoben; v1 berichtet fünf interne Konsistenzsignale plus einen Sanity-Check mit Native-Audio.

Praxy Voice: Sprachprompt-Wiederherstellung + BUPS für kommerzielle indische TTS aus einer eingefrorenen nicht-indischen Basis ohne Kosten für kommerzielle Trainingsdaten
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Kommerzielle TTS-Systeme erzeugen nahezu muttersprachliche indische Sprachausgabe, doch die besten Open-Source-Basen (Chatterbox, Indic Parler-TTS, IndicF5) liegen auf gemessenen phonologischen Dimensionen hinterher, und die am weitesten verbreitete multilinguale Basis (Chatterbox, 23 Sprachen) tokenisiert nicht einmal Telugu oder Tamil. Wir stellen die Frage: Was ist der minimale Eingriff, der eine solche nicht-indischsprachige Basis auf kommerzielles Niveau für Telugu, Tamil und Hindi bringt, ohne einen neuen akustischen Decoder zu trainieren und ohne kommerzielle TTS-Trainingsdaten? Wir kombinieren drei Komponenten: (1) BUPS, einen Brahmic Unified Phoneme Space, der sieben indische Schriftsysteme deterministisch nach ISO-15919 romanisiert, damit Chatterboxs Latin-Tokenizer sie verarbeiten kann; (2) einen LoRA-Adapter nur für den Text-Token-Predictor (Chatterboxs t3), trainiert mit ~1.220 h lizenzierten indischen Audiodaten und einer Hindi-Proxy-Sprachenkennung (language_id); (3) ein Voice-Prompt-Wiederherstellungsverfahren – ein 8–11 s langes Referenzaudio in derselben Sprache plus drei Sampling-Überschreibungen (Übertreibung 0,7, Temperatur 0,6, min_p 0,1; "Konfig B") – das kommerzielle akustische Ausgabe ohne Training des akustischen Decoders erreicht. Für Hindi verschlechtert LoRA die Genauigkeit, daher verwenden wir stattdessen vanilla Chatterbox + Konfig B, was zu einer Zwei-Zweig-Implementierung führt. Bewertet anhand von 10-Satz-Pilotdatensätzen mit dem begleitenden PSP-Benchmark, übertrifft oder erreicht Praxy Voice kommerzielle Vergleichswerte: 26,7% retroflexer Kollaps bei Telugu (vs. Sarvam Bulbul 33,3%), 71% Tamil-zha-Kollaps (vs. 86% des kommerziellen Trios), 0,025 LLM-WER bei Hindi (gleichauf mit Cartesia Sonic-3). Für intrasententiales Code-Mixing fügen wir einen dritten Zweig hinzu (IndicF5 + Transliteration in Originalschrift), der die Code-Mix-LLM-WER über Hi/Te/Ta von 0,80–0,85 auf 0,14–0,27 senkt. Wir veröffentlichen R6-LoRA-Gewichte (Apache-2.0), Inferenzcode und Router (MIT) sowie eine Gradio-Demo.

FASH-iCNN: Überprüfbarkeit redaktioneller Modeidentität durch multimodale CNN-Analyse
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

KI-Systeme in der Modebranche kodieren routinemäßig die ästhetische Logik bestimmter Modehäuser, Redaktionen und historischer Epochen, ohne diese offenzulegen. Wir stellen FASH-iCNN vor, ein multimodales System, das an 87.547 Vogue-Laufstegbildern von 15 Modehäusern aus den Jahren 1991–2024 trainiert wurde und diese kulturelle Logik überprüfbar macht. Anhand eines Fotos eines Kleidungsstücks ermittelt das System, von welchem Haus es produziert wurde, welcher Ära es zuzuordnen ist und welche Farbtradition es widerspiegelt. Ein rein auf Kleidung basierendes Modell identifiziert das Modehaus mit einer Top-1-Genauigkeit von 78,2 % über 14 Häuser, das Jahrzehnt mit 88,6 % Top-1 und das konkrete Jahr mit 58,3 % Top-1 über 34 Jahre hinweg, mit einem durchschnittlichen Fehler von nur 2,2 Jahren. Die Untersuchung, welche visuellen Kanäle dieses Signal tragen, zeigt eine deutliche Dissoziation: Das Entfernen von Farbe kostet nur 10,6 Prozentpunkte an Genauigkeit bei der Hausidentität, während das Entfernen von Textur 37,6 Prozentpunkte kostet. Dies bestätigt Textur und Helligkeit als primäre Träger der redaktionellen Identität. FASH-iCNN behandelt die Redaktionskultur als Signal statt als Hintergrundrauschen und identifiziert, welche Häuser, Epochen und Farbtraditionen jedes Ergebnis geprägt haben, sodass Nutzer nicht nur sehen, was das System vorhersagt, sondern auch, welche Häuser, Redakteure und historischen Momente in dieser Vorhersage kodiert sind.

Untersuchung visueller Planung in Bildbearbeitungsmodellen
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

Visuelle Planung stellt einen entscheidenden Aspekt der menschlichen Intelligenz dar, insbesondere bei Aufgaben, die komplexes räumliches Denken und Navigation erfordern. Im Bereich des maschinellen Lernens wird dieses inhärent visuelle Problem jedoch oft durch eine sprachzentrierte Brille angegangen. Obwohl neuere Forschung das Potenzial vollständig visueller Ansätze aufzeigt, leiden diese unter erheblicher rechnerischer Ineffizienz, bedingt durch das schrittweise Planen-durch-Generieren-Paradigma. In dieser Arbeit stellen wir EAR vor, ein Editing-as-Reasoning-Paradigma, das visuelle Planung als Einzelschritt-Bildtransformation neu formuliert. Um intrinsisches Denken von visueller Erkennung zu isolieren, verwenden wir abstrakte Rätsel als Testaufgaben und führen AMAZE ein, einen prozedural generierten Datensatz, der die klassischen Maze- und Queen-Probleme umfasst und unterschiedliche, komplementäre Formen der visuellen Planung abdeckt. Die abstrakte Natur von AMAZE erleichtert zudem die automatische Evaluierung autoregressiver und diffusionsbasierter Modelle hinsichtlich pixelweiser Treue und logischer Validität. Wir bewerten führende proprietäre und quelloffene Bildbearbeitungsmodelle. Die Ergebnisse zeigen, dass alle im Null-Probe-Kontext Schwierigkeiten haben, Feinabstimmung auf grundlegenden Skalen jedoch eine bemerkenswerte Generalisierung auf größere innere Domänenskalen sowie auf äußere Domänenskalen und -geometrien ermöglicht. Unser bestes Modell, das auf High-End-Hardware läuft, erreicht jedoch nicht die Null-Probe-Effizienz menschlicher Löser, was eine anhaltende Lücke im neuronalen visuellen Denken aufzeigt.

Verbesserte Privatsphäre und Kommunikationseffizienz in nicht unabhängig und identisch verteiltem Federated Learning durch adaptive Quantisierung und Differential Privacy
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

Federated Learning (FL) ist eine verteilte Methode des maschinellen Lernens, bei der mehrere Geräte unter der Koordination eines zentralen Servers gemeinsam ein Modell trainieren, ohne die zugrundeliegenden Daten auszutauschen. Eine der größten Herausforderungen in FL ist das Kommunikationsproblem, das durch Unterschiede in Verbindungsgeschwindigkeit und Bandbreite zwischen den Geräten entsteht. Daher ist es entscheidend, die Größe der übertragenen Daten während des Trainings zu reduzieren. Zudem besteht das potenzielle Risiko, dass sensible Informationen durch das Modell oder eine Gradientenanalyse während des Trainings preisgegeben werden. Um sowohl Privatsphäre als auch Kommunikationseffizienz zu gewährleisten, kombinieren wir Methoden der differentiellen Privatsphäre (DP) und adaptive Quantisierungsverfahren. Wir verwenden Laplace-basierte DP zum Schutz der Privatsphäre, die in FL bisher weniger erforscht ist und strengere Privatsphäre-Garantien als Gaussian-basierte DP bietet. Wir schlagen einen einfachen und effizienten globalen Bitlängen-Scheduler auf Basis einer rundenbasierten Cosinus-Annealing-Methode vor, ergänzt durch einen clientbasierten Scheduler, der dynamisch anhand des Client-Beitrags angepasst wird, der mittels Entropieanalyse der Datensätze geschätzt wird. Wir evaluieren unseren Ansatz in umfangreichen Experimenten mit CIFAR10, MNIST und medizinischen Bilddatensätzen unter Verwendung von nicht unabhängig und identisch verteilten (non-IID) Daten bei variierenden Client-Zahlen, Bitlängen-Schedulern und Privatsphäre-Budgets. Die Ergebnisse zeigen, dass unsere adaptiven Quantisierungsmethoden die insgesamt übertragene Datenmenge im Vergleich zum Training mit 32-Bit-Fließkommazahlen um bis zu 52,64 % für MNIST, 45,06 % für CIFAR10 und 31 % bis 37 % für medizinische Bilddaten reduzieren, bei gleichzeitig wettbewerbsfähiger Modellgenauigkeit und robustem Privatsphärenschutz durch differentielle Privatsphäre.

Stichprobenauswahl unter Verwendung von Multi-Task-Autoencodern im föderierten Lernen mit nicht unabhängig und identisch verteilten Daten
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

Federated Learning ist ein Machine-Learning-Paradigma, bei dem mehrere Geräte unter der Aufsicht eines zentralen Servers gemeinsam ein Modell trainieren und dabei die Datenprivatsphäre gewährleisten. Die Leistung wird jedoch häufig durch redundante, bösartige oder anomale Stichproben beeinträchtigt, was zu Modellverschlechterung und Ineffizienz führt. Um diese Probleme zu überwinden, schlagen wir neuartige Stichprobenauswahlverfahren für die Bildklassifizierung vor, die einen Multi-Task-Autoencoder einsetzen, um Stichprobenbeiträge durch Verlust- und Merkmalsanalyse zu schätzen. Unser Ansatz integriert unüberwachte Ausreißererkennung unter Verwendung von One-Class Support Vector Machine (OCSVM), Isolation Forest (IF) und adaptiven Verlustschwellen (AT), die von einem zentralen Server verwaltet werden, um verrauschte Stichproben auf den Clients zu filtern. Wir schlagen außerdem einen Multi-Class Deep Support Vector Data Description (SVDD)-Verlust vor, der zentral gesteuert wird, um die merkmalsbasierte Stichprobenauswahl zu verbessern. Wir validieren unsere Methoden auf den CIFAR10- und MNIST-Datensätzen mit variierenden Anzahlen von Clients, nicht-IID-Verteilungen und Rauschpegeln bis zu 40%. Die Ergebnisse zeigen signifikante Genauigkeitsverbesserungen durch die verlustbasierte Stichprobenauswahl mit Steigerungen von bis zu 7,02% auf CIFAR10 mit OCSVM und 1,83% auf MNIST mit AT. Zusätzlich verbessert unser federated SVDD-Verlust die merkmalsbasierte Stichprobenauswahl weiter und erzielt Genauigkeitsgewinne von bis zu 0,99% auf CIFAR10 mit OCSVM. Diese Ergebnisse demonstrieren die Wirksamkeit unserer Methoden zur Verbesserung der Modellgenauigkeit unter verschiedenen Client-Anzahlen und Rauschbedingungen.

GLM-5V-Turbo: Auf dem Weg zu einem nativen Basismodell für multimodale Agenten
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29