HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

52 papers found

Entmystifizierung der Videoverarbeitung
Demystifing Video Reasoning

Mar 17

ByRuisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin, Maijunxian Wang, Ran Ji, Chenyang Gu, Bo Li, Ziqi Huang, Hokin Deng, Dahua Lin, Ziwei Liu, Lei Yang

371

Jüngste Fortschritte in der Videogenerierung haben ein unerwartetes Phänomen offenbart: diffusionsbasierte Videomodelle zeigen beachtliche Fähigkeiten zum logischen Schlussfolgern (Reasoning). Bisherige Arbeiten führen dies auf einen "Chain-of-Frames" (CoF)-Mechanismus zurück, bei dem angenommen wird, dass sich das Reasoning sequenziell über die Videobilder hinweg entfaltet. In dieser Arbeit stellen wir diese Annahme in Frage und decken einen grundlegend anderen Mechanismus auf. Wir zeigen, dass das Reasoning in Videomodellen stattdessen primär entlang der Diffusions-Entrauschungsschritte entsteht. Durch qualitative Analysen und gezielte Abfragetests stellen wir fest, dass Modelle in frühen Entrauschungsschritten mehrere mögliche Lösungen explorieren und schrittweise zu einer endgültigen Antwort konvergieren – einen Prozess, den wir als "Chain-of-Steps" (CoS) bezeichnen. Über diesen Kernmechanismus hinaus identifizieren wir mehrere emergente Reasoning-Verhaltensweisen, die für die Modellleistung entscheidend sind: (1) Arbeitsgedächtnis, das persistente Referenzierung ermöglicht; (2) Selbstkorrektur und -verbesserung, die eine Erholung von falschen Zwischenlösungen erlauben; und (3) "Wahrnehmung vor Aktion", bei der frühe Schritte eine semantische Grundlage schaffen und spätere Schritte strukturierte Manipulationen durchführen. Während eines Diffusionsschritts entdecken wir weiterhin eine selbstentwickelte funktionale Spezialisierung innerhalb von Diffusion Transformers: Frühe Schichten kodieren dichte perzeptive Strukturen, mittlere Schichten führen das Reasoning aus und spätere Schichten konsolidieren latente Repräsentationen. Motiviert durch diese Erkenntnisse präsentieren wir eine einfache, trainingsfreie Strategie als Machbarkeitsnachweis, die demonstriert, wie das Reasoning durch das Ensemble latenter Trajektorien aus identischen Modellen mit unterschiedlichen Zufallsseed verbessert werden kann. Insgesamt bietet unsere Arbeit ein systematisches Verständnis dafür, wie Reasoning in Videogenerierungsmodellen entsteht, und legt eine Grundlage, um zukünftige Forschung dabei zu leiten, die inherente Reasoning-Dynamik von Videomodellen besser als neue Grundlage für Intelligenz zu nutzen.

InCoder-32B: Ein Code-Foundation-Modell für industrielle Anwendungsszenarien
InCoder-32B: Code Foundation Model for Industrial Scenarios

Mar 17

ByJian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Shawn Guo, Haowen Wang, Weicheng Gu, Yaxin Du, Joseph Li, Fanglin Xu, Yizhi Li, Lin Jing, Yuanbo Wang, Yuhan Gao, Ruihao Gong, Chuan Hao, Ran Tao, Aishan Liu, Tuney Zheng, Ganqu Cui, Zhoujun Li, Mingjie Tang, Chenghua Lin, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv

311

Aktuelle Code-Großsprachmodelle haben bemerkenswerte Fortschritte bei allgemeinen Programmieraufgaben erzielt. Dennoch verschlechtert sich ihre Leistung in industriellen Szenarien erheblich, die das Schließen auf Hardwaresemantik, spezialisierte Sprachkonstrukte und strenge Ressourcenbeschränkungen erfordern. Um diese Herausforderungen zu bewältigen, stellen wir InCoder-32B (Industrial-Coder-32B) vor, das erste 32-Milliarden-Parameter-Code-Basismodell, das Code-Intelligenz über Chipdesign, GPU-Kernel-Optimierung, eingebettete Systeme, Compiler-Optimierung und 3D-Modellierung hinweg vereint. Durch die Verwendung einer effizienten Architektur trainieren wir InCoder-32B von Grund auf mit allgemeinem Code-Pre-Training, kuratiertem industriellem Code-Annealing, Mid-Training, das den Kontext schrittweise von 8K auf 128K Token mit synthetischen industriellen Schließungsdaten erweitert, und Post-Training mit ausführungsbasierter Verifikation. Wir führen eine umfangreiche Evaluation auf 14 Mainstream-Allgemein-Code-Benchmarks und 9 industriellen Benchmarks aus 4 spezialisierten Domänen durch. Die Ergebnisse zeigen, dass InCoder-32B eine äußerst wettbewerbsfähige Leistung bei allgemeinen Aufgaben erzielt und gleichzeitig starke Open-Source-Baselines über industrielle Domänen hinweg etabliert.

SocialOmni: Benchmarking audiovisueller sozialer Interaktivität in Omni-Modellen
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Mar 17

ByTianyu Xie, Jinfa Huang, Yuexiao Ma, Rongfang Luo, Yan Yang, Wang Chen, Yuhui Zeng, Ruize Fang, Yixuan Zou, Xiawu Zheng, Jiebo Luo, Rongrong Ji

248

Omnimonale große Sprachmodelle (OLMs) definieren die Mensch-Maschine-Interaktion neu, indem sie Audio, Vision und Text nativ integrieren. Bestehende OLM-Benchmarks bleiben jedoch auf statische, genauigkeitszentrierte Aufgaben beschränkt, wodurch eine kritische Lücke bei der Bewertung der sozialen Interaktivität – der grundlegenden Fähigkeit, dynamische Hinweise in natürlichen Dialogen zu verarbeiten – besteht. Daher schlagen wir SocialOmni vor, einen umfassenden Benchmark, der die Evaluation dieser konversationellen Interaktivität über drei Kernbereiche operationalisiert: (i) Sprechertrennung und -identifikation (wer spricht), (ii) Unterbrechungszeitpunktsteuerung (wann einzugreifen ist) und (iii) natürliche Unterbrechungsgenerierung (wie die Unterbrechung zu formulieren ist). SocialOmni umfasst 2.000 Wahrnehmungsbeispiele sowie einen qualitätskontrollierten Diagnosesatz mit 209 Interaktionsgenerierungsinstanzen unter strengen zeitlichen und kontextuellen Beschränkungen, ergänzt durch kontrollierte audiovisuelle Inkonsistenzszenarien zur Testung der Modellrobustheit. Wir testeten 12 führende OLMs, was erhebliche Unterschiede in ihren sozialen Interaktionsfähigkeiten zwischen den Modellen aufdeckt. Darüber hinaus zeigt unsere Analyse eine deutliche Entkopplung zwischen der Wahrnehmungsgenauigkeit eines Modells und seiner Fähigkeit, kontextuell angemessene Unterbrechungen zu generieren, was darauf hindeutet, dass verständniszentrierte Metriken allein nicht ausreichen, um konversationelle soziale Kompetenz zu charakterisieren. Ermutigenderweise liefern diese Diagnosen aus SocialOmni handlungsrelevante Signale, um die Wahrnehmungs-Interaktions-Lücke in zukünftigen OLMs zu überbrücken.

MiroThinker-1.7 & H1: Auf dem Weg zu leistungsstarken Forschungsagenten durch Verifikation
MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Mar 16

ByMiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

186

Wir stellen MiroThinker-1.7 vor, einen neuen Forschungsagenten für komplexe langfristige Denkaufgaben. Auf dieser Grundlage führen wir weiterhin MiroThinker-H1 ein, das den Agenten um leistungsstarke Denkfähigkeiten für zuverlässigeres mehrstufiges Problemlösen erweitert. Insbesondere verbessert MiroThinker-1.7 die Zuverlässigkeit jedes Interaktionsschritts durch eine agentenbasierte Zwischentrainingsphase, die strukturierte Planung, kontextbezogenes Denken und Werkzeuginteraktion betont. Dies ermöglicht effektivere mehrstufige Interaktion und nachhaltiges Denken bei komplexen Aufgaben. MiroThinker-H1 integriert Verifikation direkt in den Denkprozess auf lokaler und globaler Ebene. Zwischenentscheidungen können während der Inferenz bewertet und verfeinert werden, während der gesamte Denkpfad überprüft wird, um sicherzustellen, dass Endantworten durch kohärente Beweisketten gestützt werden. In Benchmarks zu webbasierter Recherche, wissenschaftlichem Denken und Finanzanalyse erzielt MiroThinker-H1 Spitzenleistungen bei anspruchsvollen Forschungsaufgaben und behält gleichzeitig starke Ergebnisse in spezialisierten Domänen bei. Wir veröffentlichen zudem MiroThinker-1.7 und MiroThinker-1.7-mini als Open-Source-Modelle, die wettbewerbsfähige Forschungsagenten-Fähigkeiten mit deutlich verbesserter Effizienz bieten.

Qianfan-OCR: Ein vereinheitlichtes End-to-End-Modell für Document Intelligence
Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Mar 11

ByDaxiang Dong, Mingming Zheng, Dong Xu, Chunhua Luo, Bairong Zhuang, Yuxuan Li, Ruoyun He, Haoran Wang, Wenyu Zhang, Wenbo Wang, Yicheng Wang, Xue Xiong, Ayong Zheng, Xiaoying Zuo, Ziwei Ou, Jingnan Gu, Quanhao Guo, Jianmin Wu, Dawei Yin, Dou Shen

154

Wir stellen Qianfan-OCR vor, ein end-to-end Vision-Language-Modell mit 4B Parametern, das Dokumentenparsing, Layoutanalyse und Dokumentenverständnis in einer einzigen Architektur vereint. Es führt eine direkte Bild-zu-Markdown-Konvertierung durch und unterstützt diverse promptgesteuerte Aufgaben, darunter Tabellenextraktion, Diagrammverständnis, Document QA und die Extraktion von Schlüsselinformationen. Um den Verlust expliziter Layoutanalyse in end-to-end OCR zu adressieren, schlagen wir Layout-as-Thought vor, eine optionale Denkphase, die durch spezielle Think-Tokens ausgelöst wird und strukturierte Layoutrepräsentationen – Begrenzungsrahmen, Elementtypen und Lesereihenfolge – erzeugt, bevor endgültige Ausgaben produziert werden. Dies stellt Layout-Verankerungsfähigkeiten wieder her und verbessert die Genauigkeit bei komplexen Layouts. Qianfan-OCR belegt unter end-to-end Modellen den ersten Platz auf OmniDocBench v1.5 (93.12) und OlmOCR Bench (79.8), erzielt wettbewerbsfähige Ergebnisse auf OCRBench, CCOCR, DocVQA und ChartQA im Vergleich zu allgemeinen VLMs vergleichbarer Größe und erreicht die höchste Durchschnittspunktzahl auf öffentlichen Benchmarks zur Extraktion von Schlüsselinformationen, wobei es Gemini-3.1-Pro, Seed-2.0 und Qwen3-VL-235B übertrifft. Das Modell ist öffentlich über die Baidu AI Cloud Qianfan-Plattform zugänglich.

Denken in Unsicherheit: Reduzierung von Halluzinationen in MLRMs durch latente entropiebewusste Dekodierung
Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Mar 9

ByZhongxing Xu, Zhonghua Wang, Zhe Qian, Dachuan Shi, Feilong Tang, Ming Hu, Shiyan Su, Xiaocheng Zou, Wei Feng, Dwarikanath Mahapatra, Yifan Peng, Mingquan Lin, Zongyuan Ge

Jüngste Fortschritte bei multimodalen großen Reasoning-Modellen (MLRMs) haben die Leistung im Bereich des visuellen Frage-Antwortens erheblich verbessert. Wir beobachten jedoch, dass Übergangswörter (z. B. weil, jedoch und warte) eng mit Halluzinationen verbunden sind und tendenziell Zustände hoher Entropie aufweisen. Wir vertreten die Auffassung, dass angemessene kontextuelle Reasoning-Informationen direkt aus der Token-Wahrscheinlichkeitsverteilung extrahiert werden können. Inspiriert von der Theorie der superponierten Repräsentation schlagen wir vor, latentes superponiertes Reasoning zu nutzen, um mehrere Kandidatensemantiken zu integrieren und latente Reasoning-Pfade beizubehalten. Die Hypothese lautet, dass die Abhängigkeit von diskreten textuellen Eingaben das Modell zu sequentiellem explizitem Reasoning treiben könnte, wodurch dichte kontextuelle Hinweise in Phasen hoher Entropie unzureichend genutzt werden. Daher schlagen wir vor, reiche semantische Repräsentationen aus den Token-Wahrscheinlichkeitsverteilungen zu konstruieren, um das In-Context-Reasoning zu verbessern. Zu diesem Zweck präsentieren wir Latent Entropy-Aware Decoding (LEAD), eine effiziente Plug-and-Play-Decoding-Strategie, die semantischen Kontext nutzt, um zuverlässiges Reasoning zu erreichen. Der Kern unserer Methode liegt im entropiebewussten Wechsel des Reasoning-Modus. Unter Zuständen hoher Entropie verwendet das Modell kontinuierliche Einbettungen, die mit Wahrscheinlichkeiten gewichtet sind, und wechselt zurück zu diskreten Token-Einbettungen, sobald die Entropie abnimmt. Darüber hinaus schlagen wir eine prior-gesteuerte Strategie zur Injektion visueller Anker vor, die das Modell dazu anregt, sich auf visuelle Informationen zu konzentrieren. Umfangreiche Experimente zeigen, dass LEAD Halluzinationen bei verschiedenen MLRMs in mehreren Benchmarks wirksam reduziert.

Kinema4D: Kinematische 4D-Weltmodellierung für räumlich-zeitliche verkörperte Simulation
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Mar 17

ByMutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu

Die Simulation von Roboter-Umwelt-Interaktionen ist ein Grundpfeiler der Embodied AI. In jüngerer Zeit haben einige Arbeiten vielversprechende Ansätze gezeigt, um durch Videogenerierung die starren visuellen/physischen Grenzen traditioneller Simulatoren zu überwinden. Diese operieren jedoch primär im 2D-Raum oder werden durch statische Umgebungsreize gesteuert und ignorieren dabei die grundlegende Tatsache, dass Roboter-Umwelt-Interaktionen inhärent 4D-raumzeitliche Ereignisse sind, die eine präzise interaktive Modellierung erfordern. Um diese 4D-Essenz wiederherzustellen und gleichzeitig eine präzise Robotersteuerung zu gewährleisten, stellen wir Kinema4D vor, einen neuen aktionskonditionierten 4D-generativen Robotersimulator, der die Roboter-Umwelt-Interaktion in folgende Komponenten zerlegt: i) Präzise 4D-Darstellung der Robotersteuerung: Wir steuern einen URDF-basierten 3D-Roboter kinematisch an und erzeugen eine präzise 4D-Robotersteuerungstrajektorie. ii) Generative 4D-Modellierung von Umweltreaktionen: Wir projizieren die 4D-Robotertrajektorie in eine Punktwolke als raumzeitliches visuelles Signal, um das generative Modell so zu steuern, dass es die reaktive Dynamik komplexer Umgebungen in synchronisierte RGB-/Punktwolken-Sequenzen synthetisiert. Zur Unterstützung des Trainings haben wir einen umfangreichen Datensatz namens Robo4D-200k erstellt, der 201.426 Roboterinteraktions-Episoden mit hochwertigen 4D-Annotationen umfasst. Umfangreiche Experimente belegen, dass unsere Methode physikalisch plausible, geometriekonsistente und körperungspezifische Interaktionen effektiv simuliert, die die diversen Dynamiken der realen Welt treu widerspiegeln. Erstmals zeigt sie Potenzial für Zero-Shot-Transferfähigkeit und bietet somit eine hochpräzise Grundlage für die Entwicklung von Simulationen der nächsten Generation für verkörpertes Lernen.

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kamerapose als vereinheitlichende geometrische Repräsentation
WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Mar 17

ByJisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou

Jüngste Fortschritte bei Video-Diffusion-Transformatoren haben interaktive Spielweltmodelle ermöglicht, die Nutzern die Erkundung generierter Umgebungen über längere Zeiträume hinweg erlauben. Allerdings kämpfen bestehende Ansätze mit präziser Aktionssteuerung und langzeitlicher 3D-Konsistenz. Die meisten bisherigen Arbeiten behandeln Benutzeraktionen als abstrakte Konditionierungssignale und übersehen die fundamentale geometrische Kopplung zwischen Aktionen und der 3D-Welt, wonach Aktionen relative Kamerabewegungen induzieren, die sich zu einer globalen Kamerapose innerhalb einer 3D-Welt akkumulieren. In dieser Arbeit etablieren wir die Kamerapose als vereinheitlichende geometrische Repräsentation, um unmittelbare Aktionssteuerung und langfristige 3D-Konsistenz gemeinsam zu verankern. Erstens definieren wir einen physikbasierten kontinuierlichen Aktionsraum und repräsentieren Benutzereingaben in der Lie-Algebra, um präzise 6-DoF-Kameraposen abzuleiten, die über einen Camera Embedder in das generative Modell injiziert werden, um eine genaue Aktionsausrichtung zu gewährleisten. Zweitens nutzen wir globale Kameraposen als räumliche Indizes, um relevante vergangene Beobachtungen abzurufen, was ein geometrisch konsistentes Wiederaufsuchen von Orten während langandauernder Navigation ermöglicht. Um diese Forschung zu unterstützen, führen wir einen umfangreichen Datensatz ein, der 3.000 Minuten authentischen menschlichen Gameplays mit annotierten Kameratrajektorien und Textbeschreibungen umfasst. Umfangreiche Experimente zeigen, dass unser Ansatz state-of-the-art interaktive Spielweltmodelle in Bezug auf Aktionssteuerbarkeit, langzeitliche visuelle Qualität und 3D-räumliche Konsistenz erheblich übertrifft.

Online-Erfahrungslernen für Sprachmodelle
Online Experiential Learning for Language Models

Mar 17

ByTianzhu Ye, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei

Das vorherrschende Paradigma zur Verbesserung großer Sprachmodelle stützt sich auf Offline-Training mit menschlichen Annotationen oder simulierten Umgebungen, wodurch die wertvollen Erfahrungen, die während des realen Einsatzes gesammelt werden, vollständig ungenutzt bleiben. Wir schlagen Online Experiential Learning (OEL) vor, einen Rahmen, der Sprachmodelle in die Lage versetzt, sich kontinuierlich aus ihren eigenen Einsatzexperimenten zu verbessern. OEL operiert in zwei Phasen: Zuerst wird übertragbares Erfahrungswissen aus Interaktionsverläufen extrahiert und angesammelt, die auf Nutzerseite gesammelt wurden; zweitens wird dieses Wissen durch On-Policy-Kondensation im Kontext in Modellparameter konsolidiert, ohne dass ein Zugriff auf die Nutzerumgebung erforderlich ist. Die beiden Phasen werden wiederholt, um eine Online-Lernschleife zu bilden, in der das verbesserte Modell qualitativ hochwertigere Verläufe sammelt, die wiederum reichhaltigeres Erfahrungswissen für nachfolgende Runden liefern. Wir evaluieren OEL in textbasierten Spielumgebungen über verschiedene Modellgrößen hinweg sowie mit Denk- und Nicht-Denk-Varianten. OEL erzielt durchgängige Verbesserungen über aufeinanderfolgende Iterationen, steigert sowohl die Aufgabengenauigkeit als auch die Token-Effizienz und erhält dabei die Out-of-Distribution-Leistung bei. Unsere Analyse zeigt weiterhin, dass extrahiertes Erfahrungswissen signifikant wirksamer ist als rohe Interaktionsverläufe und dass On-Policy-Konsistenz zwischen der Wissensquelle und dem Policy-Modell entscheidend für effektives Lernen ist.

TRUST-SQL: Tool-integriertes Multi-Turn Reinforcement Learning für Text-to-SQL bei unbekannten Schemata
TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Mar 17

ByAi Jian, Xiaoyun Zhang, Wanrou Du, Jingqing Ruan, Jiangbo Pei, Weipeng Zhang, Ke Zeng, Xunliang Cai

Die Text-zu-SQL-Analyse hat unter der Annahme eines vollständigen Schemas bemerkenswerte Fortschritte erzielt. Diese Prämisse gilt jedoch nicht in realen Unternehmensumgebungen, in denen Datenbanken Hunderte von Tabellen mit umfangreichen verrauschten Metadaten enthalten. Anstatt das vollständige Schema von vornherein einzuspielen, muss ein Agent aktiv nur die relevante Teilmenge identifizieren und verifizieren, was zum unbekannten Schema-Szenario führt, das wir in dieser Arbeit untersuchen. Um dies zu adressieren, schlagen wir TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools) vor. Wir formulieren die Aufgabe als teilweise beobachtbaren Markov-Entscheidungsprozess, in dem unser autonomer Agent ein strukturiertes Vier-Phasen-Protokoll anwendet, um die Abfragelogik in verifizierten Metadaten zu verankern. Entscheidend ist, dass dieses Protokoll eine strukturelle Grenze für unsere neuartige Dual-Track-GRPO-Strategie bildet. Durch die Anwendung tokenmaskierter Vorteile auf Token-Ebene isoliert diese Strategie Explorationsbelohnungen von Ausführungsergebnissen, um die Kreditzuweisung zu lösen, was eine relative Verbesserung von 9,9 % gegenüber Standard-GRPO erzielt. Umfangreiche Experimente über fünf Benchmarks zeigen, dass TRUST-SQL eine durchschnittliche absolute Verbesserung von 30,6 % bzw. 16,6 % für die 4B- und 8B-Varianten gegenüber ihren Basismodellen erreicht. Bemerkenswerterweise übertrifft unser Framework trotz des vollständigen Verzichts auf vorab geladene Metadaten konsistent starke Baseline-Modelle, die auf Schema-Vorausfüllung angewiesen sind.

FinToolBench: Bewertung von LLM-Agenten für den praktischen Einsatz von Finanzwerkzeugen
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Mar 9

ByJiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun

Die Integration großer Sprachmodelle (LLM) in den Finanzbereich bewirkt einen Paradigmenwechsel von der passiven Informationsbeschaffung hin zu einer dynamischen, agentenbasierten Interaktion. Während das allgemeine Werkzeuglernen einen starken Zuwachs an Benchmarks verzeichnet, ist der Finanzsektor – geprägt durch hohe Risiken, strenge Compliance-Vorschriften und schnelle Datenvolatilität – nach wie vor kritisch unterversorgt. Bisherige finanzielle Evaluierungen konzentrieren sich überwiegend auf statische Textanalysen oder dokumentenbasierte Frage-Antwort-Systeme und ignorieren die komplexe Realität der Werkzeugausführung. Im Gegensatz dazu mangelt es allgemeinen Werkzeug-Benchmarks an der für die Finanzbranche erforderlichen domainspezifischen Strenge; sie basieren oft auf vereinfachten Testumgebungen oder einer vernachlässigbaren Anzahl finanzieller APIs. Um diese Lücke zu schließen, stellen wir FinToolBench vor, den ersten realen, ausführbaren Benchmark, der speziell für die Bewertung von Agenten zum Erlernen finanzieller Werkzeuge entwickelt wurde. Anders als frühere Arbeiten, die sich auf eine Handvoll simulierter Werkzeuge beschränken, etabliert FinToolBench ein realitätsnahes Ökosystem, das 760 ausführbare Finanzwerkzeuge mit 295 rigorosen, werkzeugbezogenen Abfragen koppelt. Wir schlagen ein neuartiges Evaluierungsframework vor, das über die bloße binäre Ausführungserfolgsmessung hinausgeht und Agenten anhand finanzspezifischer Dimensionen bewertet: Zeitlichkeit, Intent-Typ und Übereinstimmung mit regulatorischen Domänen. Darüber hinaus präsentieren wir FATR, eine finanzbewusste Baseline für Werkzeug-Retrieval und Reasoning, die Stabilität und Compliance verbessert. Indem FinToolBench die erste Testumgebung für auditfähige, agentenbasierte Finanztransaktionen bereitstellt, setzt es einen neuen Standard für vertrauenswürdige KI in der Finanzwelt. Das Werkzeugmanifest, die Ausführungsumgebung und der Evaluierungscode werden quelloffen gemacht, um zukünftige Forschung zu erleichtern.

GradMem: Kontext durch Gradientenabstieg zur Testzeit in den Speicher schreiben lernen
GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent

Mar 14

ByYuri Kuratov, Matvey Kairov, Aydar Bulatov, Ivan Rodkin, Mikhail Burtsev

Viele Anwendungen großer Sprachmodelle erfordern die Konditionierung auf lange Kontexte. Transformer-Modelle unterstützen dies typischerweise durch das Speichern eines großen KV-Cache vergangener Aktivierungen pro Schicht, was einen erheblichen Speicheraufwand verursacht. Eine wünschenswerte Alternative ist komprimierter Speicher: Ein Kontext wird einmal gelesen, in einem kompakten Zustand gespeichert, und viele Abfragen werden aus diesem Zustand beantwortet. Wir untersuchen dies in einem Kontextentfernungsszenario, bei dem das Modell zur Inferenzzeit eine Antwort generieren muss, ohne Zugriff auf den ursprünglichen Kontext zu haben. Wir stellen GradMem vor, das Kontext durch Optimierung zur Laufzeit pro Beispiel in den Speicher schreibt. Für einen gegebenen Kontext führt GradMem einige Schritte des Gradientenabstiegs auf einer kleinen Menge von Präfix-Speicher-Tokens durch, während die Modellgewichte eingefroren bleiben. GradMem optimiert explizit einen modellbasierten, selbstüberwachten Kontext-Rekonstruktionsverlust, was zu einem verlustgesteuerten Schreibvorgang mit iterativer Fehlerkorrektur führt, im Gegensatz zu rein vorwärtsgerichteten Methoden. Beim assoziativen Schlüssel-Wert-Abruf übertrifft GradMem rein vorwärtsgerichtete Speicherschreiber mit derselben Speichergröße, und zusätzliche Gradientenschritte skalieren die Kapazität wesentlich effektiver als wiederholte Vorwärtsschreibvorgänge. Wir zeigen weiter, dass GradMem über synthetische Benchmarks hinaus generalisiert: Mit vortrainierten Sprachmodellen erzielt es wettbewerbsfähige Ergebnisse auf natürlichen Sprachaufgaben, einschließlich bAbI- und SQuAD-Varianten, und stützt sich dabei nur auf die im Speicher kodierten Informationen.

WiT: Wegpunkt-Diffusionstransformator durch Trajektorienkonfliktnavigation
WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Mar 16

ByHainuo Wang, Mingjia Li, Xiaojie Guo

Während neuere Flow-Matching-Modelle die Rekonstruktionsengpässe latenter Autoencoder umgehen, indem sie direkt im Pixelraum operieren, führt der Mangel an semantischer Kontinuität in der Pixelmannigfaltigkeit zu einer starken Verflechtung der optimalen Transportpfade. Dies verursacht erhebliche Trajektorienkonflikte nahe Schnittpunkten, was zu suboptimalen Lösungen führt. Anstatt dieses Problem durch informationsreduzierte latente Repräsentationen zu umgehen, entwirren wir die Pixelraum-Trajektorien direkt durch die Einführung von Waypoint Diffusion Transformers (WiT). WiT faktorisiert das kontinuierliche Vektorfeld über intermediäre semantische Wegpunkte, die aus vortrainierten Vision-Modellen projiziert werden. Es entwirrt die Erzeugungstrajektorien effektiv, indem es den optimalen Transport in Prior-zu-Wegpunkt- und Wegpunkt-zu-Pixel-Segmente unterteilt. Konkret leitet ein leichtgewichtiger Generator während des iterativen Denoising-Prozesses diese Zwischenwegpunkte dynamisch aus dem aktuellen verrauschten Zustand ab. Diese konditionieren kontinuierlich den primären Diffusion-Transformer über den Just-Pixel-AdaLN-Mechanismus, lenken die Evolution zum nächsten Zustand und erzeugen letztendlich die finalen RGB-Pixel. Evaluierungen auf ImageNet 256x256 zeigen, dass WiT starke Pixelraum-Baselines übertrifft und die JiT-Trainingskonvergenz um das 2,2-fache beschleunigt. Der Code wird unter https://github.com/hainuo-wang/WiT.git öffentlich zugänglich gemacht.

Rethinking UMM Visual Generation: Masked Modeling für effizientes Pre-training mit ausschließlich Bilddaten
Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

Mar 17

ByPeng Sun, Jun Xie, Tao Lin

Einheitliche multimodale Modelle (UMMs) werden häufig durch das Pre-Training ihrer visuellen Generierungskomponenten eingeschränkt, das typischerweise auf ineffizienten Paradigmen und knappen, hochwertigen Text-Bild-Paaren basiert. In diesem Papier analysieren wir systematisch Pre-Training-Methoden für die visuelle Generierung in UMMs und identifizieren diese beiden Probleme als die Hauptengpässe. Um diese zu lösen, schlagen wir Image-Only Training for UMMs (IOMM) vor, einen dateneffizienten Zwei-Stufen-Trainingsansatz. In der ersten Stufe wird die visuelle Generierungskomponente ausschließlich mit umfangreichen, ungelabelten Bilddaten vortrainiert, wodurch die Abhängigkeit von gepaarten Daten für diese kostenintensive Phase entfällt. Die zweite Stufe feintunt das Modell mit einer Mischung aus ungelabelten Bildern und einem kleinen, kuratierten Satz von Text-Bild-Paaren, was zu einer verbesserten Befolgung von Anweisungen und generativer Qualität führt. Umfangreiche Experimente zeigen, dass IOMM nicht nur die Trainingseffizienz steigert, sondern auch State-of-the-Art (SOTA) Leistung erzielt. Beispielsweise wurde unser IOMM-B (3,6B) Modell von Grund auf mit nur ca. 1050 H800 GPU-Stunden trainiert (wovon der Großteil, 1000 Stunden, auf die effiziente Image-Only Pre-Training-Phase entfiel). Es erzielt 0,89 auf GenEval und 0,55 auf WISE – und übertrifft damit starke Baseline-Modelle wie BAGEL-7B (0,82 & 0,55) und BLIP3-o-4B (0,84 & 0,50). Code ist verfügbar unter https://github.com/LINs-lab/IOMM.

MEMO: Speichererweiterte Modellkontextoptimierung für robuste Multi-Turn-Multi-Agenten-LLM-Spiele
MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Mar 9

ByYunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang Wang

Mehrfachdurchläufe von Multi-Agenten-Spielevaluierungen mit großen Sprachmodellen zeigen oft erhebliche Varianz zwischen den Durchgängen. In langen Interaktionshorizonten potenzieren sich kleine anfängliche Abweichungen über die Spielzüge hinweg und werden durch die Multi-Agenten-Kopplung verstärkt. Dies verzerrt die Schätzung der Gewinnraten und macht Ranglisten über wiederholte Turniere hinweg unzuverlässig. Die Wahl der Prompts verschärft dieses Problem zusätzlich, indem sie unterschiedliche effektive Strategien erzeugt. Wir adressieren sowohl Instabilität als auch unzureichende Leistung mit MEMO (Memory-augmented MOdel context optimization), einem Selbstspiel-Framework, das den Inferenz-Kontext durch die Kopplung von Beibehaltung und Exploration optimiert. Die Beibehaltung verwaltet einen persistenten Speicher, der strukturierte Erkenntnisse aus Selbstspiel-Pfaden speichert und diese als Priors in späteren Spielen injiziert. Die Exploration führt eine turnierbasierte Prompt-Evolution mit unsicherheitsbewusster Selektion via TrueSkill durch und nutzt priorisiertes Replay, um seltene und entscheidende Zustände erneut zu besuchen. Über fünf textbasierte Spiele hinweg steigert MEMO die durchschnittliche Gewinnrate von GPT-4o-mini von 25,1 % auf 49,5 % und von Qwen-2.5-7B-Instruct von 20,9 % auf 44,3 % bei 2.000 Selbstspielen pro Aufgabe. Die Lauf-zu-Lauf-Varianz sinkt ebenfalls, was zu stabileren Ranglisten über Prompt-Variationen hinweg führt. Diese Ergebnisse deuten darauf hin, dass die Leistung und Robustheit von Multi-Agenten-Spielen mit großen Sprachmodellen durch Kontextoptimierung erheblich verbessert werden kann. MEMO erzielt die größten Gewinne in Verhandlungs- und Imperfect-Information-Spielen, während Reinforcement-Learning in Perfect-Information-Szenarien effektiver bleibt.

AgentProcessBench: Diagnose der schrittweisen Prozessqualität in werkzeugnutzenden Agenten
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Mar 15

ByShengda Fan, Xuyan Ye, Yupeng Huo, Zhi-Yuan Chen, Yiju Guo, Shenzhi Yang, Wenkai Yang, Shuqi Ye, Jingwen Chen, Haotian Chen, Xin Cong, Yankai Lin

Während sich große Sprachmodelle (LLMs) zu werkzeugnutzenden Agenten entwickelt haben, bleiben sie in langfristigen Interaktionen anfällig. Im Gegensatz zum mathematischen Denken, bei dem Fehler oft durch Backtracking korrigierbar sind, führen Werkzeugnutzungsfehler häufig zu irreversiblen Nebeneffekten, was eine genaue verfahrensschrittbezogene Verifikation kritisch macht. Bisherige prozessorientierte Benchmarks sind jedoch überwiegend auf geschlossene mathematische Domänen beschränkt und erfassen nicht die dynamische und offene Natur der Werkzeugausführung. Um diese Lücke zu schließen, stellen wir AgentProcessBench vor, den ersten Benchmark, der sich der Bewertung der Schrittwirksamkeit in realistischen, werkzeuggestützten Trajektorien widmet. Der Benchmark umfasst 1.000 diverse Trajektorien und 8.509 menschlich annotierte Schrittanleitungen mit einer Inter-Annotator-Übereinstimmung von 89,1%. Er zeichnet sich durch ein ternäres Labeling-Schema zur Erfassung von Exploration und eine Fehlerfortpflanzungsregel zur Reduzierung von Labeling-Unschärfen aus. Umfangreiche Experimente zeigen zentrale Erkenntnisse: (1) Schwächere Policy-Modelle weisen aufgrund vorzeitigen Abbruchs aufgeblähte Anteile korrekter Schritte auf; (2) Die Unterscheidung zwischen neutralen und fehlerhaften Aktionen bleibt eine große Herausforderung für aktuelle Modelle; und (3) Prozessbasierte Signale bieten komplementären Wert zur Ergebnisüberwachung und verbessern die Skalierung zur Testzeit erheblich. Wir hoffen, dass AgentProcessBench zukünftige Forschung zu Belohnungsmodellen fördert und den Weg zu allgemeinen Agenten ebnet. Der Code und die Daten sind unter https://github.com/RUCBM/AgentProcessBench verfügbar.

Omnilingual MT: Maschinelle Übersetzung für 1.600 Sprachen
Omnilingual MT: Machine Translation for 1,600 Languages

Mar 17

ByOmnilingual MT Team, Belen Alastruey, Niyati Bafna, Andrea Caciolai, Kevin Heffernan, Artyom Kozhevnikov, Christophe Ropers, Eduardo Sánchez, Charles-Eric Saint-James, Ioannis Tsiamas, Chierh Cheng, Joe Chuang, Paul-Ambroise Duquenne, Mark Duppenthaler, Nate Ekberg, Cynthia Gao, Pere Lluís Huguet Cabot, João Maria Janeiro, Jean Maillard, Gabriel Mejia Gonzalez, Holger Schwenk, Edan Toledo, Arina Turkatenko, Albert Ventayol-Boada, Rashel Moritz, Alexandre Mourachko, Surya Parimi, Mary Williamson, Shireen Yates, David Dale, Marta R. Costa-jussà

Hochwertige maschinelle Übersetzung (MT) kann auf Hunderte von Sprachen skaliert werden und setzt damit hohe Maßstäbe für mehrsprachige Systeme. Verglichen mit den rund 7.000 Sprachen der Welt bieten aktuelle Systeme jedoch nach wie vor nur eine begrenzte Abdeckung: etwa 200 Sprachen auf der Zielseite und möglicherweise einige Hundert weitere auf der Quellseite, die durch cross-lingualen Transfer unterstützt werden. Selbst diese Zahlen waren aufgrund fehlender zuverlässiger Benchmarks und Metriken schwer zu bewerten. Wir stellen Omnilingual Machine Translation (OMT) vor, das erste MT-System, das mehr als 1.600 Sprachen unterstützt. Dieser Umfang wird durch eine umfassende Datenstrategie ermöglicht, die große öffentliche mehrsprachige Korpora mit neu erstellten Datensätzen integriert, einschließlich manuell kuratiertem MeDLEY-Bitext. Wir untersuchen zwei Möglichkeiten, ein Large Language Model (LLM) für maschinelle Übersetzung zu spezialisieren: als Decoder-only-Modell (OMT-LLaMA) oder als Modul in einer Encoder-Decoder-Architektur (OMT-NLLB). Bemerkenswerterweise übertreffen oder erreichen alle unsere Modelle mit 1B bis 8B Parametern die MT-Leistung eines 70B-LLM-Basismodells, was einen klaren Spezialisierungsvorteil offenbart und hohe Übersetzungsqualität auch bei geringen Rechenressourcen ermöglicht. Darüber hinaus zeigt unsere Auswertung von Englisch-zu-1.600-Übersetzungen, dass Basismodelle zwar untersupportete Sprachen interpretieren können, aber häufig scheitern, sie mit aussagekräftiger Treue zu generieren; OMT-LLaMA-Modelle erweitern die Anzahl der Sprachen, für die eine kohärente Generierung möglich ist, erheblich. Zusätzlich verbessern OMT-Modelle den cross-lingualen Transfer und kommen der Lösung des "Verstehens"-Teils des MT-Puzzles für die 1.600 evaluierten Sprachen nahe. Unser Leaderboard und unsere wichtigsten, von Menschen erstellten Evaluierungsdatensätze (BOUQuET und Met-BOUQuET) entwickeln sich dynamisch in Richtung Omnilingualität weiter und sind frei verfügbar.

Effizientes Schließen am Edge
Efficient Reasoning on the Edge

Mar 17

ByYelysei Bondarenko, Thomas Hehn, Rob Hesselink, Romain Lepert, Fabio Valerio Massoli, Evgeny Mironov, Leyla Mirvakhabova, Tribhuvanesh Orekondy, Spyridon Stasis, Andrey Kuzmin, Anna Kuzina, Markus Nagel, Ankita Nayak, Corrado Rainone, Ork de Rooij, Paul N Whatmough, Arash Behboodi, Babak Ehteshami Bejnordi

Große Sprachmodelle (LLMs) mit Chain-of-Thought-Reasoning erzielen Spitzenleistungen bei komplexen Problemlösungsaufgaben, doch ihre umfangreichen Reasoning-Pfade und hohen Kontextanforderungen machen sie für den Edge-Einsatz unpraktisch. Diese Herausforderungen umfassen hohe Token-Generierungskosten, großen KV-Cache-Speicherbedarf und Ineffizienzen bei der Distillation von Reasoning-Fähigkeiten in kleinere Modelle für Mobilgeräte. Bestehende Ansätze stützen sich oft auf die Distillation von Reasoning-Pfaden größerer Modelle in kleinere Modelle, die wortreich und stilistisch redundant sind – unerwünscht für On-Device-Inferenz. In dieser Arbeit schlagen wir einen leichtgewichtigen Ansatz vor, um Reasoning in kleinen LLMs mittels LoRA-Adapter in Kombination mit überwachtem Fine-Tuning zu ermöglichen. Wir führen zudem Budget Forcing via Reinforcement Learning für diese Adapter ein, was die Antwortlänge bei minimalem Genauigkeitsverlust erheblich reduziert. Um speicherbegrenzte Decodierung zu adressieren, nutzen wir paralleles Test-Time-Scaling, das die Genauigkeit bei geringer Latenzsteigerung verbessert. Schließlich präsentieren wir einen dynamischen Adapter-Switching-Mechanismus, der Reasoning nur bei Bedarf aktiviert, sowie eine KV-Cache-Sharing-Strategie während der Prompt-Encodierung, die die Time-to-First-Token für On-Device-Inferenz reduziert. Experimente mit Qwen2.5-7B zeigen, dass unsere Methode effizientes und präzises Reasoning unter strengen Ressourcenbedingungen erreicht und LLM-Reasoning für mobile Szenarien praktikabel macht. Videos, die unsere Lösung auf Mobilgeräten zeigen, sind auf unserer Projektseite verfügbar.

SWE-Skills-Bench: Helfen Agenten-Fähigkeiten tatsächlich in der realen Softwareentwicklung?
SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Mar 16

ByTingxu Han, Yi Zhang, Wei Song, Chunrong Fang, Zhenyu Chen, Youcheng Sun, Lijie Hu

Agent Skills, strukturierte Pakete prozeduralen Wissens, die zur Inferenzzeit injiziert werden, werden zunehmend eingesetzt, um LLM-Agenten bei Softwareentwicklungsaufgaben zu erweitern. Ihr tatsächlicher Nutzen in end-to-end Entwicklungsumgebungen bleibt jedoch unklar. Wir stellen SWE-Skills-Bench vor, den ersten anforderungengetriebenen Benchmark, der den marginalen Nutzen von Agent Skills in realer Softwareentwicklung (SWE) isoliert. Er kombiniert 49 öffentliche SWE-Skills mit authentischen GitHub-Repositories, die auf feste Commits festgepinnt sind, sowie Anforderungsdokumenten mit expliziten Akzeptanzkriterien, was etwa 565 Aufgabeninstanzen über sechs SWE-Subdomänen hinweg ergibt. Wir führen ein deterministisches Verifikationsframework ein, das die Akzeptanzkriterien jeder Aufgabe auf ausführungsbasierte Tests abbildet und so eine kontrollierte paarweise Evaluation mit und ohne den Skill ermöglicht. Unsere Ergebnisse zeigen, dass die Vorteile der Skill-Injektion weitaus begrenzter sind als die rasche Adoption vermuten lässt: 39 von 49 Skills bringen keine Verbesserung der Bestehensrate, und der durchschnittliche Gewinn beträgt nur +1,2 %. Der Token-Mehraufwand reicht von moderaten Einsparungen bis zu einer Steigerung um 451 %, während die Bestehensraten unverändert bleiben. Nur sieben spezialisierte Skills erzielen bedeutende Verbesserungen (bis zu +30 %), während drei die Leistung verschlechtern (bis zu -10 %), da versionsinkongruente Anweisungen mit dem Projektkonflikt kollidieren. Diese Ergebnisse legen nahe, dass Agent Skills eine begrenzte Intervention sind, deren Nützlichkeit stark von Domänenpassung, Abstraktionsniveau und kontextueller Kompatibilität abhängt. SWE-Skills-Bench bietet eine Testumgebung zur Bewertung des Designs, der Auswahl und des Einsatzes von Skills in Softwareentwicklungs-Agenten. SWE-Skills-Bench ist verfügbar unter https://github.com/GeniusHTX/SWE-Skills-Bench.

SegviGen: Wiederverwendung von 3D-Generativmodellen für Teilesegmentierung
SegviGen: Repurposing 3D Generative Model for Part Segmentation

Mar 17

ByLin Li, Haoran Feng, Zehuan Huang, Haohua Chen, Wenbo Nie, Shaohua Hou, Keqing Fan, Pan Hu, Sheng Wang, Buyu Li, Lu Sheng

Wir stellen SegviGen vor, einen Framework, der native 3D-Generativmodelle für die 3D-Teilesegmentierung umfunktioniert. Bestehende Pipelines heben entweder starke 2D-Priors via Distillation oder Multi-View-Maskenaggregation in 3D, leiden dabei jedoch häufig unter Blickübergreifungsinkonsistenzen und unscharfen Grenzen, oder sie erforschen native 3D-diskriminative Segmentierung, die typischerweise groß angelegte annotierte 3D-Daten und erhebliche Trainingsressourcen erfordert. Im Gegensatz dazu nutzt SegviGen die strukturierten Priors, die in vortrainierten 3D-Generativmodellen kodiert sind, um durch distinctive Teilfärbung eine Segmentierung zu induzieren, und etabliert so einen neuartigen und effizienten Framework für die Teilesegmentierung. Konkret kodiert SegviGen ein 3D-Asset und sagt teilindikative Farben auf aktiven Voxeln einer geometrieausgerichteten Rekonstruktion vorher. Es unterstützt interaktive Teilesegmentierung, Vollsegmentierung und Vollsegmentierung mit 2D-Führung in einem einheitlichen Framework. Umfangreiche Experimente zeigen, dass SegviGen den bisherigen State-of-the-Art bei interaktiver Teilesegmentierung um 40 % und bei Vollsegmentierung um 15 % übertrifft, während nur 0,32 % der annotierten Trainingsdaten verwendet werden. Es demonstriert, dass vortrainierte 3D-Generativpriors effektiv auf die 3D-Teilesegmentierung übertragbar sind und eine hohe Leistung mit begrenzter Supervision ermöglichen. Weitere Informationen unter https://fenghora.github.io/SegviGen-Page/.

SparkVSR: Interaktive Videosuperauflösung durch Sparse-Keyframe-Propagation
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

Mar 17

ByJiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu

Video Super-Resolution (VSR) zielt darauf ab, hochwertige Videobilder aus niedrigaufgelösten (LR) Schätzungen wiederherzustellen. Dennoch verhalten sich die meisten bestehenden VSR-Ansätze zur Inferenzzeit wie Blackboxen: Benutzer können unerwartete Artefakte nicht zuverlässig korrigieren, sondern müssen akzeptieren, was das Modell ausgibt. In diesem Artikel schlagen wir ein neuartiges, interaktives VSR-Framework namens SparkVSR vor, das spärliche Keyframes zu einem einfachen und ausdrucksstarken Steuersignal macht. Konkret können Benutzer zunächst eine kleine Menge von Keyframes mit einem beliebigen verfügbaren Image Super-Resolution (ISR)-Modell hochskalieren oder optional bearbeiten. Anschließend propagiert SparkVSR die Keyframe-Priors auf die gesamte Videosequenz, bleibt dabei aber durch die ursprüngliche LR-Videobewegung verankert. Dazu führen wir eine Keyframe-konditionierte Zwei-Stufen-Trainingspipeline für latente und pixelbezogene Repräsentationen ein, die LR-Videolatenten mit spärlich kodierten HR-Keyframe-Latenzen fusioniert, um eine robuste cross-space Propagation zu erlernen und perzeptuelle Details zu verfeinern. Zur Inferenzzeit unterstützt SparkVSR flexible Keyframe-Auswahl (manuelle Spezifikation, Extraktion von Codec-I-Frames oder Zufallsstichproben) und einen referenzfreien Führungsmechanismus, der kontinuierlich die Keyframe-Treue und blinde Restauration austariert. Dies gewährleistet eine robuste Leistung, selbst wenn Referenz-Keyframes fehlen oder unvollkommen sind. Experimente auf mehreren VSR-Benchmarks zeigen eine verbesserte zeitliche Konsistenz und starke Restaurationsqualität, die Baseline-Methoden um bis zu 24,6 %, 21,8 % bzw. 5,6 % auf CLIP-IQA, DOVER und MUSIQ übertrifft und somit eine steuerbare, keyframe-gesteuerte Video-Super-Resolution ermöglicht. Darüber hinaus demonstrieren wir, dass SparkVSR ein generisches, interaktives, keyframe-konditioniertes Videoverarbeitungsframework ist, da es ohne Anpassung auf unbekannte Aufgaben wie die Restaurierung von Altfilmen und Video-Style-Transfer angewendet werden kann. Unsere Projektseite ist verfügbar unter: https://sparkvsr.github.io/

Halbautonome Formalisierung des Vlasov-Maxwell-Landau-Gleichgewichts
Semi-Autonomous Formalization of the Vlasov-Maxwell-Landau Equilibrium

Mar 16

ByVasily Ilin

Wir präsentieren eine vollständige Lean-4-Formalisierung der Gleichgewichtscharakterisierung im Vlasov-Maxwell-Landau (VML)-System, welches die Bewegung von geladenem Plasma beschreibt. Das Projekt demonstriert den vollständigen KI-gestützten mathematischen Forschungszyklus: Ein KI-Modell für logisches Schließen (Gemini DeepThink) generierte den Beweis aus einer Vermutung, ein agentenbasiertes Codierwerkzeug (Claude Code) übersetzte ihn anhand von natürlichsprachlichen Prompts in Lean, ein spezialisierter Beweiser (Aristotle) schloss 111 Lemmata ab, und der Lean-Kernel verifizierte das Ergebnis. Ein einzelner Mathematiker überwachte den Prozess über 10 Tage hinweg zu einem Preis von 200 US-Dollar, ohne eine einzige Codezeile zu schreiben. Der gesamte Entwicklungsprozess ist öffentlich einsehbar: Alle 229 menschlichen Prompts und 213 Git-Commits sind im Repository archiviert. Wir berichten detailliert über Erkenntnisse zu KI-Fehlverhalten – Hypotheseenkrement, Definitionsabgleichsfehler, Vermeidungsverhalten von Agenten – und darüber, was funktioniert hat: die Aufteilung in abstrakte/konkrete Beweise, adversarische Selbstüberprüfung und die entscheidende Rolle menschlicher Überprüfung von Schlüsseldefinitionen und Theoremen. Bemerkenswerterweise wurde die Formalisierung abgeschlossen, bevor der endgültige Entwurf des entsprechenden mathematischen Papers fertiggestellt war.

Rekursive Sprachmodelle begegnen der Unsicherheit: Die überraschende Wirksamkeit selbstreflexiver Programmsuche für lange Kontexte
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Mar 7

ByKeivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar

Die Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für Sprachmodelle: Selbst bei erweiterten Kontextfenstern gelingt es Modellen oft nicht zuverlässig, Informationen über lange Kontexte zu extrahieren, darüber zu schlussfolgern und sie zu nutzen. Neuere Arbeiten wie Recursive Language Models (RLM) haben sich dieser Herausforderung durch einen agentenbasierten Ansatz genähert, bei dem lange Kontexte während des Inferenzvorgangs durch programmatische Interaktion in rekursive Unteraufrufe zerlegt werden. Obwohl vielversprechend, hängt der Erfolg von RLM kritisch davon ab, wie diese Kontext-Interaktionsprogramme ausgewählt werden, was bisher weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir dieses Problem und stellen SRLM vor, einen Rahmen, der die programmatische Kontextinteraktion durch unsicherheitsbewusste Selbstreflexion erweitert. SRLM nutzt drei intrinsische Signale: Selbstkonsistenz, Schlussfolgerungslänge und verbalisiertes Vertrauen. Diese dienen als komplementäre Indikatoren für die interne Unsicherheit eines Modells, und das Modell verwendet sie, um Kandidaten für Kontext-Interaktionsprogramme zu bewerten und zu vergleichen. Umfangreiche Experimente mit verschiedenen Benchmark-Datensätzen, Kontextlängen und Basismodellen zeigen, dass SRLM durchgängig state-of-the-art Baseline-Methoden übertrifft und unter demselben Zeitbudget eine Verbesserung von bis zu 22 % gegenüber RLM erzielt. Unsere Ergebnisse zeigen, dass Rekursion selbst nicht der primäre Leistungstreiber in RLM ist und eine einfache selbstreflektierende Programmsuche RLM erreichen oder übertreffen kann, ohne Selbstabfragen oder explizite Rekursionsmechanismen zu erfordern. Wir stellen fest, dass für Kontextlängen innerhalb des Modellfensters RLMs mit Rekursion die Leistung oft gegenüber dem Basismodell verschlechtern, während SRLM sowohl bei kurzen als auch bei langen Kontexten durchgängige Verbesserungen erzielt. Ebenso finden wir, dass RLM bei Aufgaben mit semantisch anspruchsvollem Charakter weniger effektiv ist, wo eine heuristische Programmsuche unzureichend ist und ein breiteres kontextuelles Verständnis erforderlich ist, während die Selbstreflexion in SRLM ein semantisches Signal liefert, das die Schlussfolgerung in diesen Szenarien besser steuert.

M^3: Dichte Bildzuordnung trifft auf Multi-View-Foundation-Modelle für monokulares Gauß-Splatting-SLAM
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Mar 17

ByKerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai

Die Streaming-Rekonstruktion aus unkalibrierten monokularen Videos bleibt eine Herausforderung, da sie sowohl hochpräzise Pose-Schätzung als auch recheneffiziente Online-Verfeinerung in dynamischen Umgebungen erfordert. Obwohl die Kopplung von 3D-Foundation-Modellen mit SLAM-Frameworks ein vielversprechendes Paradigma darstellt, besteht ein kritischer Engpass: Die meisten Multi-View-Foundation-Modelle schätzen Posen in einem vorwärtsgerichteten Verfahren und liefern so Pixel-korrespondenzen, denen die für eine rigorose geometrische Optimierung erforderliche Präzision fehlt. Um dies zu adressieren, stellen wir M^3 vor, das das Multi-View-Foundation-Modell um einen dedizierten Matching-Kopf erweitert, um feinkörnige dichte Korrespondenzen zu ermöglichen, und es in ein robustes monokulares Gaussian-Splatting-SLAM integriert. M^3 verbessert die Tracking-Stabilität weiter durch die Einbeziehung von dynamischer Bereichsunterdrückung und kreuzschließender intrinsischer Ausrichtung. Umfangreiche Experimente auf verschiedenen Indoor- und Outdoor-Benchmarks demonstrieren state-of-the-art Genauigkeit sowohl bei der Pose-Schätzung als auch bei der Szenenrekonstruktion. Bemerkenswerterweise reduziert M^3 den ATE-RMSE um 64,3 % im Vergleich zu VGGT-SLAM 2.0 und übertrifft ARTDECO auf dem ScanNet++-Datensatz um 2,11 dB im PSNR.

One-Eval: Ein agentenbasiertes System für automatisierte und nachvollziehbare LLM-Evaluierung
One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Mar 10

ByChengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

Eine zuverlässige Evaluation ist unerlässlich für die Entwicklung und den Einsatz großer Sprachmodelle, erfordert in der Praxis jedoch oft erheblichen manuellen Aufwand: Praktiker müssen geeignete Benchmarks identifizieren, heterogene Evaluations-Codebasen reproduzieren, Datensatz-Schema-Mappings konfigurieren und aggregierte Metriken interpretieren. Um diese Herausforderungen zu bewältigen, stellen wir One-Eval vor, ein agentenbasiertes Evaluationssystem, das natürlichsprachliche Evaluationsanfragen in ausführbare, nachvollziehbare und anpassbare Evaluations-Workflows umwandelt. One-Eval integriert (i) NL2Bench zur Intent-Strukturierung und personalisierten Benchmark-Planung, (ii) BenchResolve zur Benchmark-Auflösung, automatischen Datensatzbeschaffung und Schema-Normalisierung zur Gewährleistung der Ausführbarkeit sowie (iii) Metrics & Reporting zur aufgabenbewussten Metrikauswahl und entscheidungsorientierten Berichterstattung über skalare Scores hinaus. Das System integriert zudem Human-in-the-Loop-Kontrollpunkte für Überprüfung, Bearbeitung und Rollback, während es Stichprobennachweise für Debugging und Nachvollziehbarkeit bewahrt. Experimente zeigen, dass One-Eval End-to-End-Evaluationen aus diversen natürlichsprachlichen Anfragen mit minimalem Benutzeraufwand durchführen kann und so eine effizientere und reproduzierbarere Evaluation in industriellen Umgebungen unterstützt. Unser Framework ist öffentlich verfügbar unter https://github.com/OpenDCAI/One-Eval.

Zuverlässiges Schließen in SVG-LLMs durch Multi-Task-Multi-Reward-Verstärkungslernen
Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Mar 17

ByHaomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen, Hongjie Zhang

Mit der rasanten Entwicklung von Vision-Language-Modellen untersuchen immer mehr Studien deren Potenzial für SVG-Generierungsaufgaben. Obwohl bestehende Ansätze die Leistung durch den Aufbau groß angelegter SVG-Datensätze und die Einführung SVG-spezifischer Tokens verbessern, leiden sie nach wie vor unter eingeschränkter Generalisierungsfähigkeit, redundanten Pfaden in den Code-Ausgaben und einem Mangel an expliziter Schlussfolgerungsfähigkeit. In dieser Arbeit stellen wir CTRL-S (Chain-of-Thought Reinforcement Learning for SVG) vor, einen einheitlichen Rahmen, der einen Chain-of-Thought-Mechanismus einführt, um den Schlussfolgerungsprozess des Modells während der SVG-Generierung explizit darzulegen. Um diese strukturierte Schlussfolgerung zu unterstützen, erstellen wir SVG-Sophia, einen hochwertigen Datensatz mit 145.000 Stichproben für die Aufgabenbereiche SVG-Code-Verfeinerung, Text-zu-SVG und Bild-zu-SVG. Indem das Modell trainiert wird, gruppenweise strukturierten SVG-Code zu generieren, verbessert CTRL-S signifikant die strukturelle Kohärenz und visuelle Treue. Darüber hinaus adaptieren wir den GRPO-Algorithmus und entwerfen ein Multi-Reward-Optimierungsframework, das DINO-, Bild-Text-Ähnlichkeits-, Format- und Code-Effizienz-Belohnungen integriert. Durch gemeinsame Multi-Reward-Optimierung und Multi-Task-Training verbessert unser Ansatz systematisch die gesamten Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass CTRL-S bestehende Methoden übertrifft und höhere Aufgaben-Erfolgsquoten, überlegene SVG-Code-Qualität und außergewöhnliche visuelle Treue erreicht.

FlashSampling: Schnelles und speichereffizientes exaktes Sampling
FlashSampling: Fast and Memory-Efficient Exact Sampling

Mar 16

ByTomas Ruiz, Zhen Qin, Yifan Zhang, Xuyang Shen, Yiran Zhong, Mengdi Wang

Das Abtasten aus einer kategorialen Verteilung ist mathematisch einfach, führt jedoch bei der Dekodierung mit großem Vokabular oft zu zusätzlichem Speicherverkehr und zusätzlichen Kernels nach dem LM-Head. Wir stellen FlashSampling vor, eine exakte Abtastprimitive, die das Abtasten in die LM-Head-Matmul fusioniert und den Logits-Tensor niemals im HBM materialisiert. Die Methode ist einfach: Berechne Logits tileweise auf dem Chip, füge Gumbel-Rauschen hinzu, behalte nur einen Maximierer pro Zeile und pro Vokabular-Tile und schließe mit einer kleinen Reduktion über die Tiles ab. Der fusionierte Tile-Kernel ist exakt, weil sich Argmax über eine Partition zerlegen lässt; gruppierte Varianten für Online- und Tensor-Parallel-Einstellungen sind durch hierarchische Faktorisierung der kategorialen Verteilung exakt. Auf H100-, H200-, B200- und B300-GPUs beschleunigt FlashSampling Kernel-level-Dekodierlasten, und in Ende-zu-Ende-vLLM-Experimenten reduziert es die Zeit pro Ausgabetoken bei den von uns getesteten Modellen um bis zu 19%. Diese Ergebnisse zeigen, dass exaktes Abtasten ohne Approximation in die Matmul selbst integriert werden kann, wodurch ein bandbreitenbeschränkter Nachverarbeitungsschritt in einen leichtgewichtigen Epilog verwandelt wird. Projektseite: https://github.com/FlashSampling/FlashSampling.

MolmoB0T: Großskalige Simulation ermöglicht Null-Shot-Manipulation
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Mar 17

ByAbhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna

Eine vorherrschende Meinung im Robotik-Lernen besagt, dass Simulation allein nicht ausreicht; Es wird allgemein angenommen, dass ein effektiver Sim-to-Real-Transfer zumindest einige Datenerfassung in der realen Welt oder taskspezifisches Feinabstimmen erfordert, um die Lücke zwischen simulierten und physischen Umgebungen zu überbrücken. Wir stellen diese Annahme in Frage. Wir zeigen, dass mit ausreichend großen und diversen simulierten synthetischen Trainingsdaten ein Zero-Shot-Transfer in die reale Welt nicht nur möglich, sondern auch effektiv für sowohl statische als auch mobile Manipulation ist. Wir stellen MolmoBot-Engine vor, eine vollständig Open-Source-Pipeline zur prozeduralen Datengenerierung für Roboter, Aufgaben und diverse simulierte Umgebungen in MolmoSpaces. Damit veröffentlichen wir MolmoBot-Data, einen Datensatz mit 1,8 Millionen Expertentrajektorien für die Manipulation artikulierter Objekte und Pick-and-Place-Aufgaben. Wir trainieren drei Policy-Klassen: MolmoBot, ein Molmo2-basiertes Multi-Frame-Vision-Language-Modell mit einem Flow-Matching-Aktionskopf; MolmoBot-Pi0, das die π_0-Architektur repliziert, um einen direkten Vergleich zu ermöglichen; und MolmoBot-SPOC, eine leichtgewichtige Policy, die für den Edge-Einsatz geeignet und für RL-Feinabstimmung zugänglich ist. Wir evaluieren auf zwei robotischen Plattformen: der Franka FR3 für Tischmanipulationsaufgaben und dem Rainbow Robotics RB-Y1 mobilen Manipulator für das Öffnen von Türen, die Manipulation von Schubladen, die Interaktion mit Schränken und mobiles Pick-and-Place. Ohne jegliche Feinabstimmung in der realen Welt erreichen unsere Policies einen Zero-Shot-Transfer auf ungesehene Objekte und Umgebungen. Beim Tisch-Pick-and-Place erzielt MolmoBot eine Erfolgsrate von 79,2 % in Realwelt-Evaluationen über 4 Settings und übertrifft damit π_{0,5} mit 39,2 %. Unsere Ergebnisse demonstrieren, dass prozedurale Umgebungsgenerierung in Kombination mit diversen artikulierten Assets robuste Manipulations-Policies hervorbringen kann, die breit auf die reale Welt generalisieren. Technischer Blog: https://allenai.org/blog/molmobot-robot-manipulation

Vom passiven Beobachter zum aktiven Kritiker: Verstärkungslernen ermöglicht prozessbasiertes Denken für robotische Manipulation
From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Mar 16

ByYibin Liu, Yaxing Lyu, Daqi Gao, Zhixuan Liang, Weiliang Tang, Shilong Mu, Xiaokang Yang, Yao Mu

Eine genaue Prozessüberwachung bleibt eine kritische Herausforderung für langfristige robotische Manipulationsaufgaben. Ein primärer Engpass ist, dass aktuelle Video-MLLMs, die hauptsächlich nach einem Supervised Fine-Tuning (SFT)-Paradigma trainiert werden, als passive "Beobachter" fungieren, die laufende Ereignisse erkennen, anstatt den aktuellen Zustand relativ zum endgültigen Aufgabenziele zu bewerten. In diesem Artikel stellen wir PRIMO R1 (Process Reasoning Induced Monitoring) vor, ein 7B-Framework, das Video-MLLMs in aktive "Kritiker" verwandelt. Wir nutzen ergebnisbasiertes Reinforcement Learning, um eine explizite Chain-of-Thought-Generierung für die Fortschrittsbewertung zu incentivieren. Darüber hinaus konstruiert unsere Architektur einen strukturierten temporalen Input, indem die Videosequenz explizit zwischen Anfangs- und aktuellen Zustandsbildern verankert wird. Gestützt durch den vorgeschlagenen PRIMO-Datensatz und Benchmark zeigen umfangreiche Experimente in verschiedenen In-Domain-Umgebungen und Out-of-Domain realen Humanoid-Szenarien, dass PRIMO R1 State-of-the-Art-Leistung erreicht. Quantitativ erzielt unser 7B-Modell eine 50%ige Reduktion des mittleren absoluten Fehlers spezialisierter Reasoning-Baselines und demonstriert damit signifikante relative Genauigkeitsverbesserungen gegenüber allgemeinen MLLMs im 72B-Maßstab. Darüber hinaus zeigt PRIMO R1 eine starke Zero-Shot-Generalisierung bei schwierigen Fehlererkennungsaufgaben. Wir etablieren State-of-the-Art-Leistung auf dem RoboFail-Benchmark mit 67,0 % Genauigkeit und übertreffen damit Closed-Source-Modelle wie OpenAI o1 um 6,0 %.

SK-Adapter: Skelettbasierte Strukturkontrolle für native 3D-Generierung
SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation

Mar 14

ByAnbang Wang, Yuzhuo Ao, Shangzhe Wu, Chi-Keung Tang

Native 3D-Generativmodelle haben eine bemerkenswerte Detailtreue und Geschwindigkeit erreicht, leiden jedoch unter einer entscheidenden Einschränkung: der Unfähigkeit, präzise strukturelle Artikulationen vorzugeben, wobei die präzise strukturelle Steuerung im nativen 3D-Raum nach wie vor unzureichend erforscht ist. Dieses Paper stellt SK-Adapter vor, ein einfaches und dennoch hocheffizientes und effektives Framework, das eine präzise skeletale Manipulation für die native 3D-Generierung ermöglicht. Über textuelle oder bildbasierte Eingabeaufforderungen hinaus, die für präzise Strukturen mehrdeutig sein können, behandeln wir das 3D-Skelett als ein primäres Steuersignal. SK-Adapter ist ein leichtgewichtiges strukturelles Adapter-Netzwerk, das Gelenkkoordinaten und Topologie in lernbare Tokens kodiert, die via Cross-Attention in das eingefrorene 3D-Generierungs-Backbone injiziert werden. Dieses intelligente Design ermöglicht es dem Modell, nicht nur effektiv auf spezifische 3D-Strukturvorgaben zu „achten“, sondern auch seine ursprünglichen generativen Priors zu bewahren. Um die Datenlücke zu schließen, präsentieren wir den Objaverse-TMS-Datensatz, einen großen Datensatz mit 24.000 Text-Mesh-Skelett-Paaren. Umfangreiche Experimente bestätigen, dass unsere Methode eine robuste strukturelle Steuerung erreicht und dabei die Geometrie- und Texturqualität des Foundation-Models erhält, wobei sie existierende Baseline-Methoden signifikant übertrifft. Darüber hinaus erweitern wir diese Fähigkeit auf die lokale 3D-Bearbeitung, was die regionsspezifische Bearbeitung bestehender Assets mit skeletaler Führung ermöglicht – etwas, das mit früheren Methoden nicht erreichbar war. Projektseite: https://sk-adapter.github.io/

Förderung wissenschaftlicher Kreativität durch LLM-gestützte interdisziplinäre Inspiration
Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Mar 12

ByPriyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han

Obwohl interdisziplinäre Forschung zu größeren und langfristigeren Wirkungen führt, bleibt die meiste Arbeit auf wissenschaftliche Einzeldisziplinen beschränkt. Neuere KI-basierte Ansätze für wissenschaftliche Entdeckungen zeigen Potenzial für interdisziplinäre Forschung, konzentrieren sich jedoch oft darauf, Experimente und Lösungen schnell zu entwerfen, und umgehen dabei die explorativen, kollaborativen Denkprozesse, die kreative interdisziplinäre Durchbrüche vorantreiben. Infolgedessen priorisieren bisherige Bemühungen weitgehend die Automatisierung wissenschaftlicher Entdeckungen anstatt die Erweiterung der Denkprozesse, die wissenschaftlichen Umbruch ermöglichen. Wir stellen Idea-Catalyst vor, einen neuartigen Rahmen, der systematisch interdisziplinäre Erkenntnisse identifiziert, um kreatives Denken sowohl bei Menschen als auch bei großen Sprachmodellen zu unterstützen. Ausgehend von einem abstrakten Forschungsziel ist Idea-Catalyst darauf ausgelegt, die Brainstorming-Phase zu unterstützen und dabei ein vorzeitiges Festlegen auf bestimmte Lösungen explizit zu vermeiden. Der Rahmen verkörpert wesentliche metakognitive Merkmale interdisziplinären Denkens: (a) Definition und Bewertung von Forschungszielen, (b) Bewusstsein für die Chancen und ungelösten Herausforderungen einer Domäne und (c) strategische Erkundung interdisziplinärer Ideen basierend auf ihrem Wirkungspotenzial. Konkret zerlegt Idea-Catalyst ein abstraktes Ziel (z.B. Verbesserung der Mensch-KI-Kollaboration) in Kernforschungsfragen der Zieldomäne, die die Analyse von Fortschritten und offenen Herausforderungen innerhalb dieser Domäne leiten. Diese Herausforderungen werden als domänenunabhängige konzeptionelle Probleme neu formuliert, was die Ableitung von Erkenntnissen aus externen Disziplinen (z.B. Psychologie, Soziologie) ermöglicht, die analoge Probleme behandeln. Durch die Synthese und Neukontextualisierung dieser Erkenntnisse zurück in die Zieldomäne priorisiert Idea-Catalyst Quellendisziplinen nach ihrem interdisziplinären Potenzial. Empirisch steigert diese gezielte Integration die durchschnittliche Neuartigkeit um 21 % und die Einsichtstiefe um 16 %, während sie im ursprünglichen Forschungsproblem verankert bleibt.

ECG-Reasoning-Benchmark: Ein Benchmark zur Bewertung klinischer Denkfähigkeiten bei der EKG-Interpretation
ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation

Mar 15

ByJungwoo Oh, Hyunseung Chung, Junhee Lee, Min-Gyu Kim, Hangyul Yoon, Ki Seong Lee, Youngchae Lee, Muhan Yeo, Edward Choi

Während Multimodale Large Language Models (MLLMs) vielversprechende Leistungen in der automatisierten EKG-Interpretation zeigen, bleibt unklar, ob sie tatsächlich eine schrittweise Schlussfolgerung durchführen oder sich lediglich auf oberflächliche visuelle Merkmale verlassen. Um dies zu untersuchen, führen wir ECG-Reasoning-Benchmark ein, einen neuartigen Multi-Turn-Evaluierungsrahmen mit über 6.400 Stichproben, um schrittweise Schlussfolgerungen über 17 Kern-EKG-Diagnosen systematisch zu bewerten. Unsere umfassende Evaluierung modernster Modelle zeigt ein kritisches Versagen bei der Ausführung mehrstufiger logischer Deduktion. Obwohl die Modelle über das medizinische Wissen verfügen, um klinische Kriterien für eine Diagnose abzurufen, weisen sie nahezu Null-Erfolgsquoten (6% Completion) bei der Aufrechterhaltung einer vollständigen Begründungskette auf, wobei sie hauptsächlich versagen, die entsprechenden EKG-Befunde auf die tatsächlichen visuellen Evidenzen im EKG-Signal zu beziehen. Diese Ergebnisse demonstrieren, dass aktuelle MLLMs die eigentliche visuelle Interpretation umgehen, was einen kritischen Fehler in bestehenden Trainingsparadigmen aufdeckt und die Notwendigkeit einer robusten, schlussfolgerungszentrierten medizinischen KI unterstreicht. Der Code und die Daten sind unter https://github.com/Jwoo5/ecg-reasoning-benchmark verfügbar.

Dualität des Residualstroms in modernen Transformer-Architekturen
Residual Stream Duality in Modern Transformer Architectures

Mar 17

ByYifan Zhang

Aktuelle Arbeiten haben deutlich gemacht, dass der Residualpfad nicht bloß Optimierungsinfrastruktur ist; er ist Teil der Repräsentationsmaschinerie des Modells. Wir stimmen dem zu, argumentieren aber, dass der klarste Weg, diesen Designraum zu organisieren, in einer Zwei-Achsen-Sicht des Transformers liegt. Ein Decoder entwickelt Information entlang zweier geordneter Dimensionen: Sequenzposition und Schichttiefe. Self-Attention bietet bereits adaptive Vermischung entlang der Sequenzachse, wohingegen der Residualstrom üblicherweise eine feste Addition entlang der Tiefenachse durchführt. Wenn wir eine Token-Position festhalten und den Schichtindex als die geordnete Variable betrachten, dann ist ein kausaler, tiefenweiser Residual-Attention-Lesevorgang exakt derselbe lokale Operator wie kausale Attention mit kurzem gleitendem Fenster (ShortSWA), nur über die Tiefe anstatt über die Sequenz geschrieben. Dies ist die zentrale Residualstrom-Dualität hinter Transformer^2. Diese Perspektive klärt auch die aktuelle Literatur. ELC-BERT und DenseFormer zeigen bereits, dass gelernte Aggregation über die Tiefe eine gleichmäßige Residualakkumulation übertreffen kann, während Vertical Attention, DeepCrossAttention (DCA), MUDDFormer und Attention Residuals weiter in Richtung eines expliziten, auf Attention basierenden Routings über frühere Schichten gehen. Der entscheidende Punkt ist jedoch, dass Dualität auf Operatorenebene keine Symmetrie auf Systemebene impliziert. Für großskalige autoregressive Modelle ist Sequenzachsen-ShortSWA üblicherweise die hardwarefreundlichere Platzierung, da sie Token-seitige Kernel für gleitende Fenster, KV-Cache-Layouts und chunkweise Ausführung wiederverwendet. Wenn das Ziel stattdessen ist, den Shortcut selbst zu verändern, ist Deep Delta Learning (DDL) die elegantere Intervention, da sie den Residual-Operator direkt modifiziert, anstatt einen separaten pfadübergreifenden Retrieval-Pfad hinzuzufügen. Unsere Empfehlung ist daher einfach: Verwenden Sie DDL, wenn der Shortcut der Untersuchungsgegenstand ist, und verwenden Sie Sequenzachsen-ShortSWA, wenn das Ziel lokale adaptive Vermischung ist.

V-Co: Ein genauerer Blick auf die visuelle Repräsentationsausrichtung durch gemeinsames Entrauschen
V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Mar 17

ByHan Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal

Pixel-Space-Diffusion hat sich kürzlich wieder als starke Alternative zur latenten Diffusion etabliert und ermöglicht hochwertige Generierung ohne vortrainierte Autoencoder. Allerdings erhalten Standard-Pixel-Space-Diffusionsmodelle eine relativ schwache semantische Überwachung und sind nicht explizit darauf ausgelegt, hochlevelige visuelle Strukturen zu erfassen. Neuere Repräsentationsalignierungsmethoden (z.B. REPA) legen nahe, dass vortrainierte visuelle Merkmale das Diffusionstraining erheblich verbessern können, und visuelles Co-Denoising hat sich als vielversprechende Richtung erwiesen, um solche Merkmale in den Generierungsprozess zu integrieren. Bisherige Co-Denoising-Ansätze verknüpfen jedoch oft mehrere Designentscheidungen, sodass unklar bleibt, welche Entscheidungen wirklich entscheidend sind. Daher präsentieren wir V-Co, eine systematische Untersuchung des visuellen Co-Denoising in einem vereinheitlichten JiT-basierten Framework. Diese kontrollierte Umgebung ermöglicht es uns, die Komponenten zu isolieren, die visuelles Co-Denoising effektiv machen. Unsere Studie identifiziert vier Schlüsselkomponenten für effektives visuelles Co-Denoising. Erstens: Die Bewahrung merkmals-spezifischer Berechnungen bei gleichzeitiger Ermöglichung flexibler Cross-Stream-Interaktion motiviert eine vollständige Dual-Stream-Architektur. Zweitens: Effektive Classifier-Free Guidance (CFG) erfordert eine strukturell definierte unbedingte Vorhersage. Drittens: Stärkere semantische Überwachung wird am besten durch einen hybriden Perceptual-Drifting-Loss bereitgestellt. Viertens: Stabileres Co-Denoising erfordert zudem eine geeichte Cross-Stream-Integration, die wir durch RMS-basierte Merkmalsskalierung realisieren. Zusammengenommen ergeben diese Erkenntnisse ein einfaches Rezept für visuelles Co-Denoising. Experimente auf ImageNet-256 zeigen, dass V-Co bei vergleichbarer Modellgröße die zugrundeliegende Pixel-Space-Diffusion-Baseline und starke bisherige Pixel-Diffusion-Methoden übertrifft, dabei weniger Trainingsepochen benötigt und praktische Leitlinien für zukünftige repräsentationsalignierte Generative Modelle bietet.

Stilmischung von Experten für vielfältige Bildstilisierung
Mixture of Style Experts for Diverse Image Stylization

Mar 17

ByShihao Zhu, Ziheng Ouyang, Yijia Kang, Qilong Wang, Mi Zhou, Bo Li, Ming-Ming Cheng, Qibin Hou

Diffusionsbasierte Stilisierung hat bedeutende Fortschritte erzielt, doch bestehende Methoden beschränken sich auf farbgetriebene Transformationen und vernachlässigen komplexe Semantik und Materialdetails. Wir stellen StyleExpert vor, ein semantikbewusstes Framework basierend auf Mixture of Experts (MoE). Unser Framework verwendet einen einheitlichen Stil-Encoder, der auf unserem umfangreichen Datensatz von Inhalts-Stil-stilisierten Tripletts trainiert wurde, um diverse Stile in einen konsistenten latenten Raum einzubetten. Diese Einbettung wird dann verwendet, um einen ähnlichkeitsbewussten Gating-Mechanismus zu steuern, der Stile dynamisch an spezialisierte Experten innerhalb der MoE-Architektur weiterleitet. Durch die Nutzung dieser MoE-Architektur bewältigt unsere Methode geschickt diverse Stile über mehrere semantische Ebenen hinweg, von flachen Texturen bis zu tiefgreifender Semantik. Umfangreiche Experimente zeigen, dass StyleExpert bestehende Ansätze in der Bewahrung von Semantik und Materialdetails übertrifft und gleichzeitig eine Generalisierung auf unbekannte Stile ermöglicht. Unser Code und die gesammelten Bilder sind auf der Projektseite verfügbar: https://hh-lg.github.io/StyleExpert-Page/.

ARISE: Agentenbasiertes Schließen mit intrinsischer Fähigkeitsentwicklung im hierarchischen Reinforcement Learning
ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Mar 17

ByYu Li, Rui Miao, Zhengling Qi, Tian Lan

Das vorherrschende Paradigma zur Verbesserung mathematischen Denkvermögens in Sprachmodellen stützt sich auf Bestärkendes Lernen mit überprüfbaren Belohnungen. Bisherige Methoden behandeln jedoch jede Problemstellung isoliert, ohne die wiederverwendbaren Strategien zu nutzen, die während des Trainings entstehen und sich ansammeln. Daher führen wir ARISE (Agent Reasoning via Intrinsic Skill Evolution) ein, einen hierarchischen Reinforcement-Learning-Rahmen, in dem eine gemeinsame Policy sowohl zur Verwaltung von Fähigkeiten auf hoher Ebene als auch zur Generierung von Antworten auf niedriger Ebene agiert (bezeichnet als Skills Manager bzw. Worker). Der Manager verwaltet eine abgestufte Fähigkeitsbibliothek durch einen dedizierten Skill-Generierungs-Rollout, der strukturierte Zusammenfassungen erfolgreicher Lösungswege (nach der Ausführung) erstellt, während er einen policy-gesteuerten Auswahlmechanismus einsetzt, um relevante Fähigkeiten für zukünftige Rollouts abzurufen (vor der Ausführung). Ein hierarchisches Belohnungsdesign leitet die Ko-Evolution von Denkfähigkeit und Bibliotheksqualität. Experimente mit zwei Basismodellen und sieben Benchmarks aus dem Bereich der Wettbewerbsmathematik und Omni-MATH zeigen, dass ARISE durchgängig Algorithmen der GRPO-Familie und speichererweiterte Baseline-Methoden übertrifft, mit besonders bemerkenswerten Gewinnen bei Out-of-Distribution-Aufgaben. Ablationsstudien bestätigen, dass jede Komponente zu den beobachteten Verbesserungen beiträgt und dass sich Bibliotheksqualität und Reasoning-Leistung während des Trainings parallel verbessern. Der Code ist verfügbar unter https://github.com/Skylanding/ARISE.

Antizipierende Planung für multimodale KI-Agenten
Anticipatory Planning for Multimodal AI Agents

Mar 17

ByYongyuan Liang, Shijie Zhou, Yu Gu, Hao Tan, Gang Wu, Franck Dernoncourt, Jihyung Kil, Ryan A. Rossi, Ruiyi Zhang

Jüngste Fortschritte bei multimodalen Agenten haben die Interaktion mit Computern und die Werkzeugnutzung verbessert, doch die meisten bestehenden Systeme bleiben reaktiv. Sie optimieren Aktionen isoliert, ohne über zukünftige Zustände oder langfristige Ziele nachzudenken. Dies schränkt die Planungskohärenz ein und verhindert, dass Agenten zuverlässig hochrangige, mehrstufige Aufgaben lösen können. Wir stellen TraceR1 vor, ein zweistufiges Reinforcement-Learning-Framework, das antizipatorisches Denken explizit trainiert, indem es kurzfristige Trajektorien vor der Ausführung prognostiziert. Die erste Stufe führt Reinforcement Learning auf Trajektorienebene mit Belohnungen durch, die globale Konsistenz über vorhergesagte Aktionssequenzen hinweg erzwingen. Die zweite Stufe wendet geerdetes Reinforcement-Fine-Tuning an und nutzt Ausführungsfeedback von eingefrorenen Werkzeugagenten, um die Genauigkeit und Ausführbarkeit auf Schrittebene zu verfeinern. TraceR1 wird auf sieben Benchmarks evaluiert, die Online-Computernutzung, Offline-Computernutzungs-Benchmarks und multimodale Werkzeugnutzungsaufgaben abdecken. Dabei erzielt es erhebliche Verbesserungen in Planungsstabilität, Ausführungsrobustheit und Generalisierung gegenüber reaktiven und einstufigen Baseline-Modellen. Diese Ergebnisse zeigen, dass antizipatorische Trajektorienplanung ein Schlüsselprinzip für den Aufbau multimodaler Agenten ist, die in komplexen realen Umgebungen effektiv denken, planen und handeln können.

SuperLocalMemory V3: Information-geometrische Grundlagen für Null-LLM-Enterprise-Agenten-Speicher
SuperLocalMemory V3: Information-Geometric Foundations for Zero-LLM Enterprise Agent Memory

Mar 15

ByVarun Pratap Bhardwaj

Persistenter Speicher ist eine zentrale Fähigkeit für KI-Agenten, doch die mathematischen Grundlagen von Speicherzugriff, Lebenszyklusmanagement und Konsistenz bleiben unerforscht. Aktuelle Systeme verwenden Kosinusähnlichkeit für den Zugriff, heuristischen Verfall für Salienz und bieten keine formale Widerspruchserkennung. Wir etablieren information-geometrische Grundlagen durch drei Beiträge. Erstens, ein Zugriffsmetrik abgeleitet aus der Fisher-Informationsstruktur diagonaler Gauß-Familien, das die Axiome einer Riemannschen Metrik erfüllt, unter suffizienten Statistiken invariant ist und in O(d)-Zeit berechenbar ist. Zweitens, Speicherlebenszyklus formuliert als Riemannsche Langevin-Dynamik mit bewiesener Existenz und Eindeutigkeit der stationären Verteilung über die Fokker-Planck-Gleichung, der abgestimmten Verfall durch prinzipielle Konvergenzgarantien ersetzt. Drittens, ein zellulärer Garbenmodell, bei dem nicht-triviale erste Kohomologieklassen genau irreduziblen Widersprüchen über Speicherkontexte entsprechen. Auf dem LoCoMo-Benchmark erzielen die mathematischen Schichten +12,7 Prozentpunkte gegenüber technischen Baselines über sechs Konversationen, bis zu +19,9 pp bei den anspruchsvollsten Dialogen. Eine vierkanalige Zugriffsarchitektur erreicht 75% Genauigkeit ohne Cloud-Abhängigkeit. Cloud-augmentierte Ergebnisse erreichen 87,7%. Eine Null-LLM-Konfiguration erfüllt durch Architekturdesign die Datensouveränitätsanforderungen des EU-KI-Gesetzes. Unseres Wissens ist dies die erste Arbeit, die information-geometrische, garbentheoretische und stochastisch-dynamische Grundlagen für KI-Agenten-Speichersysteme etabliert.

Ich weiß, was ich nicht weiß: Latente Posteriore Faktorenmodelle für probabilistisches Schließen mit multiplen Evidenzen
I Know What I Don't Know: Latent Posterior Factor Models for Multi-Evidence Probabilistic Reasoning

Mar 13

ByAliyu Agboola Alege

Echtwelt-Entscheidungsfindung, von der Steuercompliance-Bewertung bis zur medizinischen Diagnose, erfordert die Aggregation mehrerer verrauschter und potenziell widersprüchlicher Evidenzquellen. Bestehende Ansätze entbehren entweder einer expliziten Unsicherheitsquantifizierung (neuronale Aggregationsmethoden) oder stützen sich auf manuell konstruierte diskrete Prädikate (probabilistische Logikframeworks), was die Skalierbarkeit auf unstrukturierte Daten limitiert. Wir stellen Latent Posterior Factors (LPF) vor, ein Framework, das latente Posteriori-Verteilungen von Variational Autoencodern (VAEs) in weiche Likelihood-Faktoren für Sum-Product-Network (SPN)-Inferenz transformiert. Dies ermöglicht handhabbare probabilistische Reasoning über unstrukturierte Evidenz bei gleichzeitiger Bewahrung kalibrierter Unsicherheitsschätzung. Wir instanziieren LPF als LPF-SPN (strukturierte, faktorisierte Inferenz) und LPF-Learned (end-to-end gelernte Aggregation), was einen prinzipienbasierten Vergleich zwischen explizitem probabilistischem Reasoning und gelernten Aggregationsmethoden unter einer gemeinsamen Unsicherheitsrepräsentation erlaubt. Über acht Domänen hinweg (sieben synthetische und der FEVER-Benchmark) erreicht LPF-SPN hohe Genauigkeit (bis zu 97,8 %), geringe Kalibrierungsfehler (ECE 1,4 %) und eine starke probabilistische Anpassung, wobei es evidential deep learning, LLMs und graph-basierte Baseline-Modelle über 15 Zufallssamen hinweg substanziell übertrifft. Beiträge: (1) Ein Framework, das latente Unsicherheitsrepräsentationen mit strukturiertem probabilistischem Reasoning verbindet. (2) Duale Architekturen, die einen kontrollierten Vergleich von Reasoning-Paradigmen ermöglichen. (3) Reproduzierbare Trainingsmethodik mit Seed-Selektion. (4) Evaluation gegen EDL-, BERT-, R-GCN- und Large-Language-Model-Baselines. (5) Domänenübergreifende Validierung. (6) Formale Garantien in einem Begleitpapier.

Theoretische Grundlagen latenter posteriorer Faktoren: Formale Garantien für Multi-Evidenz-Schlussfolgerungen
Theoretical Foundations of Latent Posterior Factors: Formal Guarantees for Multi-Evidence Reasoning

Mar 13

ByAliyu Agboola Alege

Wir präsentieren eine vollständige theoretische Charakterisierung von Latent Posterior Factors (LPF), einem prinzipienbasierten Framework zur Aggregation multipler heterogener Evidenzitems in probabilistischen Vorhersageaufgaben. Multievidenz-basiertes Schließen tritt allgegenwärtig in hochriskanten Domänen auf, einschließlich der Gesundheitsdiagnostik, der Bewertung finanzieller Risiken, der Analyse von Rechtsfällen und regulatorischer Compliance. Bisherige Ansätze entbehren jedoch entweder formaler Garantien oder sind architektonisch nicht in der Lage, Multievidenz-Szenarien zu bewältigen. LPF kodiert jedes Evidenzitem mittels eines variationalen Autoencoders in eine Gauß'sche latente A-posteriori-Verteilung, wandelt diese Posterioris durch Monte-Carlo-Marginalisierung in weiche Faktoren um und aggregiert die Faktoren entweder durch exakte Sum-Product-Network-Inferenz (LPF-SPN) oder einen gelernten neuronalen Aggregator (LPF-Learned). Wir beweisen sieben formale Garantien, die die zentralen Anforderungen an vertrauenswürdige KI abdecken: Kalibrierungserhalt (ECE <= epsilon + C/sqrt(K_eff)); Monte-Carlo-Fehler, der mit O(1/sqrt(M)) abklingt; eine nicht-triviale PAC-Bayes-Schranke mit einer Trainings-Test-Lücke von 0,0085 bei N=4200; Operation innerhalb des 1,12-fachen der informationstheoretischen unteren Schranke; graceful Degradation mit O(epsilon*delta*sqrt(K)) unter Korruption, wobei 88% der Performance bei adversariellem Ersatz der Hälfte der Evidenz erhalten bleiben; Kalibrierungsabfall mit O(1/sqrt(K)) und R²=0,849; sowie eine exakte Zerlegung der epistemisch-aleatorischen Unsicherheit mit einem Fehler unter 0,002%. Alle Theoreme werden empirisch auf kontrollierten Datensätzen mit bis zu 4.200 Trainingsbeispielen validiert. Unser theoretischer Rahmen etabliert LPF als Grundlage für vertrauenswürdige Multievidenz-KI in sicherheitskritischen Anwendungen.

VAREX: Ein Benchmark für multimodale strukturierte Extraktion aus Dokumenten
VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

Mar 16

ByUdi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels

Wir stellen VAREX (VARied-schema EXtraction) vor, einen Benchmark zur Bewertung multimodaler Foundation-Modelle für die Extraktion strukturierter Daten aus behördlichen Formularen. VAREX nutzt einen Reverse-Annotation-Pipeline, der PDF-Vorlagen programmgesteuert mit synthetischen Werten befüllt und dabei deterministische Ground-Truth-Daten erzeugt, die durch eine dreistufige Qualitätssicherung validiert werden. Der Benchmark umfasst 1.777 Dokumente mit 1.771 einzigartigen Schemata aus drei strukturellen Kategorien, die jeweils in vier Eingabemodalitäten bereitgestellt werden: reiner Text, layout-erhaltender Text (durch Leerzeichen an Spaltenpositionen angeglichen), Dokumentenbild oder eine Kombination aus Text und Bild. Im Gegensatz zu bestehenden Benchmarks, die nur eine einzige Eingabedarstellung bewerten, bietet VAREX vier kontrollierte Modalitäten pro Dokument und ermöglicht so eine systematische Ablation, wie sich das Eingabeformat auf die Extraktionsgenauigkeit auswirkt – eine Fähigkeit, die früheren Benchmarks fehlte. Wir evaluieren 20 Modelle, von leistungsstarken proprietären Modellen bis hin zu kleinen Open-Modellen, mit besonderem Augenmerk auf Modelle mit ≤4B Parametern, die für kostensensitive und latenzbeschränkte Einsätze geeignet sind. Die Ergebnisse zeigen, dass (1) bei unter 4B Parametern die Konformität der strukturierten Ausgabe – nicht die Extraktionsfähigkeit – ein dominanter Engpass ist; insbesondere Schema-Echo (Modelle erzeugen schemakonforme Strukturen statt extrahierter Werte) senkt die Werte bei betroffenen Modellen um 45–65 Prozentpunkte (pp); (2) extraktionsspezifisches Fine-Tuning bei 2B Parametern Steigerungen von +81 pp bewirkt, was zeigt, dass das Defizit im Instruktionsfolgen ohne Skalierung behoben werden kann; (3) layout-erhaltender Text den größten Genauigkeitsgewinn bringt (+3–18 pp) und pixelbasierte visuelle Hinweise übertrifft; und (4) der Benchmark Modelle im Genauigkeitsbereich von 60–95 % am effektivsten unterscheidet. Datensatz und Evaluierungscode sind öffentlich verfügbar.

CCTU: Ein Benchmark für den Werkzeuggebrauch unter komplexen Randbedingungen
CCTU: A Benchmark for Tool Use under Complex Constraints

Mar 16

ByJunjie Ye, Guoqiang Zhang, Wenjie Fu, Tao Gui, Qi Zhang, Xuanjing Huang

Die Lösung von Problemen durch Werkzeugnutzung unter expliziten Einschränkungen stellt ein äußerst anspruchsvolles, aber unvermeidliches Szenario für große Sprachmodelle (LLMs) dar, das Fähigkeiten wie Funktionsaufruf, Befolgung von Anweisungen und Selbstverbesserung erfordert. Der Fortschritt wurde jedoch durch das Fehlen spezieller Evaluierungen behindert. Um dies zu beheben, führen wir CCTU ein, einen Benchmark zur Bewertung der Werkzeugnutzung von LLMs unter komplexen Einschränkungen. CCTU basiert auf einer Taxonomie von 12 Einschränkungskategorien, die vier Dimensionen umfassen (Ressourcen, Verhalten, Werkzeugsatz und Antwort). Der Benchmark besteht aus 200 sorgfältig zusammengestellten und anspruchsvollen Testfällen in verschiedenen Werkzeuganwendungsszenarien, wobei jeder Fall durchschnittlich sieben Einschränkungstypen und eine durchschnittliche Promptlänge von über 4.700 Tokens aufweist. Um eine zuverlässige Bewertung zu ermöglichen, entwickeln wir ein ausführbares Einschränkungsvalidierungsmodul, das eine schrittweise Validierung durchführt und die Einhaltung während mehrschrittiger Interaktionen zwischen Modellen und ihrer Umgebung erzwingt. Wir evaluieren neun state-of-the-art LLMs sowohl im Denk- als auch im Nicht-Denk-Modus. Die Ergebnisse zeigen, dass bei strenger Einhaltung aller Einschränkungen kein Modell eine Aufgabenabschlussrate von über 20 % erreicht. Eine weitere Analyse ergibt, dass Modelle in über 50 % der Fälle Einschränkungen verletzen, insbesondere in den Dimensionen Ressourcen und Antwort. Darüber hinaus zeigen LLMs nur eine begrenzte Fähigkeit zur Selbstverbesserung, selbst nachdem sie detailliertes Feedback zu Einschränkungsverletzungen erhalten haben, was einen kritischen Engpass in der Entwicklung robuster Werkzeugnutzungsagenten aufzeigt. Um zukünftige Forschung zu erleichtern, veröffentlichen wir die Daten und den Code.

ViT-AdaLA: Anpassung von Vision Transformern mit linearer Aufmerksamkeit
ViT-AdaLA: Adapting Vision Transformers with Linear Attention

Mar 17

ByYifan Li, Seunghyun Yoon, Viet Dac Lai, Franck Dernoncourt, Jason Kuen, Yu Kong, Trung Bui

Vision Transformer (ViT) basierte visuelle Fundamentalmodelle (VFMs) haben bemerkenswerte Leistungen in verschiedenen visuellen Aufgaben erzielt, leiden jedoch unter quadratischer Komplexität, die die Skalierbarkeit auf lange Sequenzen begrenzt. Bestehende Linear-Attention-Ansätze für ViTs werden typischerweise von Grund auf neu trainiert, was erhebliche Rechenressourcen erfordert, während Linearisierungsmethoden, die für Decoder großer Sprachmodelle entwickelt wurden, sich nicht gut auf ViTs übertragen lassen. Um diese Herausforderungen zu adressieren, schlagen wir ViT-AdaLA vor, einen neuartigen Rahmen zur effektiven Anpassung und Übertragung von Vorwissen von VFMs auf Linear-Attention-ViTs. ViT-AdaLA besteht aus drei Stufen: Attention-Alignment, Feature-Alignment und überwachtes Feinabstimmen. In der Attention-Alignment-Stufe gleichen wir die standardmäßige Linear-Attention mit der ursprünglichen Softmax-basierten Attention in jedem Block ab, um das Verhalten der Softmax-Attention anzunähern. Restliche Approximationsfehler häufen sich jedoch unweigerlich über die Schichten hinweg an. Wir mildern dies, indem wir den linearisierten ViT feinabstimmen, um seine Final-Layer-Features an einen eingefrorenen Softmax-VFM-Lehrer anzugleichen. Schließlich wird das angepasste Vorwissen durch überwachtes Feinabstimmen auf Downstream-Aufgaben übertragen. Umfangreiche Experimente zu Klassifikations- und Segmentierungsaufgaben demonstrieren die Wirksamkeit und Allgemeingültigkeit von ViT-AdaLA gegenüber verschiedenen state-of-the-art Linear-Attention-Gegenstücken.

Erlernen der Mensch-Objekt-Interaktion für 3D-Posenschätzung des menschlichen Körpers aus LiDAR-Punktwolken
Learning Human-Object Interaction for 3D Human Pose Estimation from LiDAR Point Clouds

Mar 17

ByDaniel Sungho Jung, Dohee Cho, Kyoung Mu Lee

Die Erfassung menschlicher Aktivitäten aus LiDAR-Punktwolken stellt eine der wichtigsten Aufgaben im autonomen Fahren dar, da sie in direktem Zusammenhang mit der Fußgängersicherheit steht. Dennoch bleibt sie aufgrund vielfältiger Mensch-Objekt-Interaktionen und komplexer Hintergründe eine Herausforderung. Bisherige Methoden vernachlässigen weitgehend das Potenzial, Mensch-Objekt-Interaktionen für die Entwicklung robuster 3D-Posenschätzungsframeworks zu nutzen. Zwei Hauptprobleme motivieren die Einbeziehung dieser Interaktionen: Erstens führt die räumliche Unschärfe zwischen Mensch- und Objektpunkten in Interaktionsbereichen häufig zu fehlerhaften 3D-Schlüsselpunktschätzungen. Zweitens besteht ein starkes Klassenungleichgewicht zwischen interagierenden und nicht-interagierenden Körperteilen, wobei interaktionsreiche Regionen wie Hände und Füße in LiDAR-Daten oft nur spärlich erfasst werden. Zur Lösung dieser Probleme präsentieren wir ein Human-Object Interaction Learning (HOIL)-Framework für robuste 3D-Posenschätzung aus LiDAR-Punktwolken. Zur Reduzierung der räumlichen Unschärfe entwickelten wir eine interaktionssensitive Kontrastlernmethode (HOICL), die die Merkmalsunterscheidung zwischen Mensch- und Objektpunkten in Interaktionsbereichen verbessert. Für das Klassenungleichgewicht führen wir ein kontaktbasiertes, teilgeführtes Pooling (CPPool) ein, das durch Komprimierung überrepräsentierter Punkte bei gleichzeitiger Erhaltung informativer Punkte interagierender Körperteile die Repräsentationskapazität neu verteilt. Zusätzlich implementierten wir eine optionale zeitliche Kontaktrefinierung, die fehlerhafte Einzelbild-Schlüsselpunktschätzungen mithilfe zeitlicher Kontaktinformationen verbessert. Unser HOIL-Framework nutzt Mensch-Objekt-Interaktionen somit effektiv zur Lösung räumlicher Unschärfe und Klassenungleichgewichte in Interaktionsbereichen. Der Code wird veröffentlicht.

MDM-Prime-v2: Binäre Kodierung und Index-Vermischung ermöglichen rechenoptimales Skalieren von Diffusions-Sprachmodellen
MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models

Mar 17

ByChen-Hao Chao, Wei-Fang Sun, Junwei Qua, Chun-Yi Lee, Rahul G. Krishnan

Maskierte Diffusionsmodelle (MDM) zeigen eine überlegene Generalisierung, wenn sie mit einem partiellen Maskierungsschema (Prime) erlernt werden. Dieser Ansatz wandelt Tokens in Sub-Tokens um und modelliert den Diffusionsprozess auf Sub-Token-Ebene. Wir identifizieren zwei Einschränkungen des MDM-Prime-Frameworks. Erstens fehlen uns Werkzeuge, um die Hyperparameter-Auswahl der Token-Granularität im Sub-Tokenizer zu steuern. Zweitens stellen wir fest, dass die Funktionsform des Sub-Tokenizers die Likelihood-Schätzung in Kombination mit häufig verwendeten Byte-Pair-Encoding (BPE) Tokenizern erheblich verschlechtert. Um diese Einschränkungen zu adressieren, untersuchen wir die Tightness der variationellen Schranke in MDM-Prime und entwickeln MDM-Prime-v2, ein maskiertes Diffusions-Sprachmodell, das Binäre Kodierung und Index-Vermischung integriert. Unsere Skalierungsanalyse zeigt, dass MDM-Prime-v2 21,8-mal recheneffizienter ist als autoregressive Modelle (ARM). In rechenoptimalen Vergleichen erreicht MDM-Prime-v2 eine Perplexität von 7,77 auf OpenWebText und übertrifft damit ARM (12,99), MDM (18,94) und MDM-Prime (13,41). Bei einer Erweiterung der Modellgröße auf 1,1 Mrd. Parameter zeigt unser Modell zudem eine überlegene Zero-Shot-Genauigkeit bei verschiedenen Common-Sense-Reasoning-Aufgaben.

OneWorld: Zähmung der Szenengenerierung mit 3D-Autoencoder für vereinheitlichte Repräsentation
OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder

Mar 17

BySensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian

Bestehende diffusionsbasierte Methoden zur 3D-Szenengenerierung operieren primär in 2D-Bild-/Video-Latenzräumen, was die Wahrung von konsistenten Erscheinungsbildern und Geometrien über verschiedene Blickwinkel hinweg inhärent schwierig gestaltet. Um diese Lücke zu schließen, präsentieren wir OneWorld, ein Framework, das Diffusion direkt in einem kohärenten 3D-Repräsentationsraum durchführt. Kernstück unseres Ansatzes ist der 3D Unified Representation Autoencoder (3D-URAE); dieser nutzt vortrainierte 3D-Foundation-Modelle und erweitert deren geometriezentrierte Natur, indem er Erscheinungsbild einspielt und Semantik in einen vereinheitlichten 3D-Latenzraum destilliert. Darüber hinaus führen wir einen Token-level Cross-View-Correspondence (CVC) Consistency Loss ein, um strukturelle Ausrichtung über Blickwinkel explizit zu erzwingen, und schlagen Manifold-Drift Forcing (MDF) vor, um den Trainings-Inferenz-Exposure-Bias zu mildern und durch das Mischen von verdrifteten und originalen Repräsentationen einen robusten 3D-Manifold zu formen. Umfassende Experimente zeigen, dass OneWorld hochwertige 3D-Szenen mit überlegener Blickwinkelkonsistenz im Vergleich zu state-of-the-art, auf 2D basierenden Methoden generiert. Unser Code wird unter https://github.com/SensenGao/OneWorld verfügbar sein.

Polyglot-Lion: Effiziente mehrsprachige automatische Spracherkennung für Singapur durch ausgewogenes Fine-Tuning von Qwen3-ASR
Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR

Mar 17

ByQuy-Anh Dang, Chris Ngo

Wir stellen Polyglot-Lion vor, eine Familie kompakter multilingualer Modelle für die automatische Spracherkennung (ASR), die auf die sprachliche Landschaft Singapurs zugeschnitten sind und Englisch, Mandarin, Tamil und Malaysisch abdecken. Unsere Modelle wurden durch Feinabstimmung von Qwen3-ASR-0.6B und Qwen3-ASR-1.7B ausschließlich auf öffentlich verfügbaren Sprachkorpora gewonnen. Dabei wurde eine ausgewogene Stichprobenstrategie verwendet, die die Anzahl der Trainingsäußerungen pro Sprache angleicht und bewusst auf eine Sprachkennzeichnung als Konditionierung verzichtet, sodass das Modell lernt, Sprachen implizit aus den Audiodaten zu identifizieren. Auf 12 Benchmarks, die die vier Zielsprachen abdecken, erreicht Polyglot-Lion-1.7B eine durchschnittliche Fehlerrate von 14,85 und ist damit vergleichbar mit MERaLiON-2-10B-ASR (14,32) – einem sechsmal größeren Modell – bei gleichzeitig erheblich geringeren Trainingskosten von 81 US-Dollar auf einer einzelnen RTX PRO 6000 GPU im Vergleich zu 18.862 US-Dollar für den 128-GPU-Baseline. Der Inferenz-Durchsatz ist mit 0,10 s/Probe gegenüber 2,02 s/Probe etwa 20-mal schneller als bei MERaLiON. Diese Ergebnisse zeigen, dass eine sprachlich ausgewogene Feinabstimmung mittelgroßer vortrainierter Modelle einsatzbereite multilinguale ASR-Systeme zu einem Bruchteil der Kosten größerer Speziallösungen liefern kann.

Kette-von-Trajektorien: Freischaltung der intrinsischen generativen Optimalität von Diffusionsmodellen durch graph-theoretische Planung
Chain-of-Trajectories: Unlocking the Intrinsic Generative Optimality of Diffusion Models via Graph-Theoretic Planning

Mar 16

ByPing Chen, Xiang Liu, Xingpeng Zhang, Fei Shen, Xun Gong, Zhaoxiang Liu, Zezhou Chen, Huan Hu, Kai Wang, Shiguo Lian

Diffusionsmodelle arbeiten in einem reflexiven System-1-Modus, der durch einen festen, inhaltsunabhängigen Sampling-Zeitplan eingeschränkt ist. Diese Starrheit resultiert aus dem Fluch der Zustandsdimensionalität, bei dem die kombinatorische Explosion möglicher Zustände in der hochdimensionalen Rauschmannigfaltigkeit eine explizite Trajektorienplanung undurchführbar macht und zu systematischer Fehlallokation von Rechenressourcen führt. Um dies zu adressieren, führen wir Chain-of-Trajectories (CoTj) ein, ein trainierungsfreies Framework, das eine deliberative Planung nach System 2 ermöglicht. Kernstück von CoTj ist die Diffusions-DNA, eine niedrigdimensionale Signatur, die den Entrauschungsaufwand pro Stufe quantifiziert und als Stellvertreter für den hochdimensionalen Zustandsraum dient. Dies erlaubt es uns, das Sampling als Graphplanung auf einem gerichteten azyklischen Graphen neu zu formulieren. Durch ein Predict-Plan-Execute-Paradigma weist CoTj Rechenaufwand dynamisch den anspruchsvollsten Generierungsphasen zu. Experimente mit verschiedenen generativen Modellen zeigen, dass CoTj kontextsensitive Trajektorien entdeckt, die Ausgabequalität und -stabilität verbessern und redundante Berechnungen reduzieren. Diese Arbeit legt eine neue Grundlage für ressourcenbewusste, planungsbasierte Diffusionsmodellierung. Der Code ist verfügbar unter https://github.com/UnicomAI/CoTj.

Test-Time-Strategien für effizientere und genauere agentenbasierte RAG-Systeme
Test-Time Strategies for More Efficient and Accurate Agentic RAG

Mar 12

ByBrian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka

Retrieval-Augmented Generation (RAG)-Systeme stehen vor Herausforderungen bei komplexen, mehrstufigen (Multihop) Fragen. Agentenbasierte Frameworks wie Search-R1 (Jin et al., 2025), die iterativ arbeiten, wurden vorgeschlagen, um diese Komplexitäten zu adressieren. Solche Ansätze können jedoch Ineffizienzen verursachen, darunter die wiederholte Abfrage bereits verarbeiteter Informationen und Schwierigkeiten, die abgerufenen Ergebnisse effektiv im aktuellen Generierungsprompt zu kontextualisieren. Diese Probleme können zu unnötigen Abfragezyklen, suboptimaler Reasoning-Leistung, ungenauen Antworten und erhöhtem Token-Verbrauch führen. In diesem Artikel untersuchen wir Modifikationen zur Laufzeit an der Search-R1-Pipeline, um diese identifizierten Schwächen zu mildern. Konkret erforschen wir die Integration zweier Komponenten und deren Kombination: ein Kontextualisierungsmodul zur besseren Einbindung relevanter Informationen aus abgerufenen Dokumenten in den Reasoning-Prozess und ein Deduplizierungsmodul, das bereits abgerufene Dokumente durch die nächstrelevantesten ersetzt. Wir evaluieren unsere Ansätze mit den Datensätzen HotpotQA (Yang et al., 2018) und Natural Questions (Kwiatkowski et al., 2019) und berichten den Exact Match (EM)-Score, eine Bewertung der Antwortkorrektheit mittels LLM-as-a-Judge sowie die durchschnittliche Anzahl an Abfragezyklen. Unsere beste Variante, die GPT-4.1-mini zur Kontextualisierung nutzt, erzielt eine Steigerung des EM-Scores um 5,6 % und reduziert die Anzahl der Abfragezyklen um 10,5 % im Vergleich zur Search-R1-Baseline. Dies demonstriert eine verbesserte Antwortgenauigkeit und Abfrageeffizienz.

HistoAtlas: Ein Pan-Krebs-Morphologie-Atlas, der Histomik mit molekularen Programmen und klinischen Ergebnissen verbindet
HistoAtlas: A Pan-Cancer Morphology Atlas Linking Histomics to Molecular Programs and Clinical Outcomes

Mar 17

ByPierre-Antoine Bannier

Wir stellen HistoAtlas vor, einen pan-karzinogenen Computermodell-Atlas, der 38 interpretierbare histomische Merkmale aus 6.745 diagnostischen H&E-Präparaten über 21 TCGA-Krebsarten hinweg extrahiert und jedes Merkmal systematisch mit Überleben, Genexpression, somatischen Mutationen und Immunsubtypen verknüpft. Alle Assoziationen sind kovariatenbereinigt, multiplen-Test-korrigiert und in Evidenzstärke-Kategorien eingeteilt. Der Atlas erschließt bekannte biologische Zusammenhänge – von Immuninfiltration und Prognose über Proliferation bis hin zur Kinase-Signalgebung – und deckt dabei kompartimentspezifische Immunsignale sowie morphologische Subtypen mit divergierenden Krankheitsverläufen auf. Jedes Ergebnis ist räumlich auf Gewebekompartimente und einzelne Zellen zurückführbar, statistisch kalibriert und frei abfragbar. HistoAtlas ermöglicht die systematische, großangelegte Biomarker-Entdeckung aus routinemäßigen H&E-Präparaten ohne spezielle Färbungen oder Sequenzierungen. Daten und ein interaktiver Webatlas sind frei verfügbar unter https://histoatlas.com.

BERTologie der Vorhersage molekularer Eigenschaften
BERTology of Molecular Property Prediction

Mar 13

ByMohammad Mostafanejad, Paul Saxe, T. Daniel Crawford

Chemische Sprachmodelle (CLMs) haben sich als vielversprechende Konkurrenten zu populären klassischen Machine-Learning-Modellen für Aufgaben der molekularen Eigenschaftsvorhersage (MPP) erwiesen. Allerdings berichten zunehmend mehr Studien über inkonsistente und widersprüchliche Ergebnisse bezüglich der Leistung von CLMs in verschiedenen MPP-Benchmark-Aufgaben. In dieser Studie führen wir Hunderte sorgfältig kontrollierter Experimente durch und analysieren diese, um systematisch die Auswirkungen verschiedener Faktoren – wie Datensatzgröße, Modellgröße und Standardisierung – auf das Pre-Training und die Fine-Tuning-Leistung von CLMs für MPP zu untersuchen. In Ermangelung etablierter Skalierungsgesetze für encoder-only Masked Language Models zielen wir darauf ab, umfassende numerische Belege und ein tieferes Verständnis der zugrundeliegenden Mechanismen zu liefern, die die Leistung von CLMs bei MPP-Aufgaben beeinflussen, von denen einige in der Literatur offenbar völlig übersehen werden.

Messung ursprünglicher Akkumulation: Ein informationstheoretischer Ansatz zur kapitalistischen Einhegung in PIK2, Indonesien
Measuring Primitive Accumulation: An Information-Theoretic Approach to Capitalist Enclosure in PIK2, Indonesia

Mar 14

BySandy Hardian Susanto Herho, Alfita Puspa Handayani, Karina Aprilia Sujatmiko, Faruq Khadami, Iwan Pramesti Anwar

Großflächige Landnahme für spekulative Megaentwicklungen stellt einen räumlichen Nichtgleichgewichtsprozess dar, dessen Geschwindigkeit, Topologie und Irreversibilität nach wie vor unzureichend quantifiziert sind. Wir untersuchen die Küsten-Megaentwicklung Pantai Indah Kapuk 2 (PIK2) nördlich von Jakarta, Indonesien, anhand von acht Jahren (2017–2024) Sentinel-2 Landnutzungs-/Landbedeckungsdaten (LULC) mit 10-Meter-Auflösung. Die Landschaft wird auf einen Marxschen Wahrscheinlichkeitssimplex projiziert, der terrestrische Pixel in Commons-, Agrar- und Kapitalanteile unterteilt. Fisher-Rao (FR) Geodäten auf diesem Simplex identifizieren einen Transformationspuls von 0,405 rad/Jahr während 2019–2020, der mit der Hauptbauphase zusammenfällt. Die Analyse absorbierender Markov-Ketten ergibt erwartete Absorptionszeiten in die bebaut