HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

31 papers found

MolHIT: Fortschritte in der Erzeugung molekularer Graphen mit hierarchischen diskreten Diffusionsmodellen
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Feb 19

ByHojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, Youngrok Park, Kyunggeun Roh, Se-Young Yun, Sehui Han, Dae-Woong Jeong

Die molekulare Generierung mit Diffusionsmodellen hat sich zu einer vielversprechenden Richtung für die KI-gestützte Wirkstoffentdeckung und Materialwissenschaft entwickelt. Während Graph-Diffusionsmodelle aufgrund der diskreten Natur von 2D-Molekülgraphen weit verbreitet sind, leiden bestehende Modelle unter geringer chemischer Validität und erreichen im Vergleich zur 1D-Modellierung schwerer die gewünschten Eigenschaften. In dieser Arbeit stellen wir MolHIT vor, ein leistungsstarkes Framework zur Generierung molekularer Graphen, das lang bestehende Leistungsgrenzen bestehender Methoden überwindet. MolHIT basiert auf dem Hierarchical Discrete Diffusion Model, das die diskrete Diffusion auf zusätzliche Kategorien verallgemeinert, die chemische Priors kodieren, sowie auf einer entkoppelten Atomkodierung, die Atomtypen nach ihrer chemischen Rolle aufteilt. Insgesamt erzielt MolHIT eine neue state-of-the-art Leistung auf dem MOSES-Datensatz mit erstmals nahezu perfekter Validität in der Graph-Diffusion und übertrifft starke 1D-Baselines in mehreren Metriken. Wir demonstrieren weiterhin starke Leistungen in nachgelagerten Aufgaben, einschließlich multikriteriell gesteuerter Generierung und Gerüsterweiterung.

HyTRec: Eine hybride temporal-sensitive Aufmerksamkeitsarchitektur für Empfehlungen basierend auf langen Verhaltenssequenzen
HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Feb 20

ByLei Xin, Yuhao Zheng, Ke Cheng, Changjiang Jiang, Zifan Zhang, Fanhu Zeng

Die Modellierung langer Sequenzen von Nutzerverhalten hat sich als entscheidende Herausforderung im Bereich der generativen Empfehlungssysteme herauskristallisiert. Bisherige Lösungen stehen jedoch vor einem Dilemma: Lineare Aufmerksamkeitsmechanismen erreichen Effizienz auf Kosten der Retrieval-Präzision aufgrund begrenzter Zustandskapazität, während Softmax-Aufmerksamkeit unter prohibitiv hohem Rechenaufwand leidet. Um diese Herausforderung zu bewältigen, schlagen wir HyTRec vor, ein Modell mit einer hybriden Aufmerksamkeitsarchitektur, die langfristig stabile Präferenzen explizit von kurzfristigen Intent-Spikes entkoppelt. Indem umfangreiche historische Sequenzen einem linearen Aufmerksamkeitszweig zugewiesen werden und ein spezialisierter Softmax-Aufmerksamkeitszweig für recente Interaktionen reserviert wird, stellt unser Ansatz präzise Retrieval-Fähigkeiten in industriellen Kontexten mit zehntausend Interaktionen wieder her. Um die Verzögerung bei der Erfassung schneller Interessenverschiebungen in den linearen Schichten zu mildern, entwerfen wir ferner ein temporal-sensibles Delta-Netzwerk (TADN), das frische Verhaltenssignale dynamisch gewichtet und gleichzeitig historisches Rauschen effektiv unterdrückt. Empirische Ergebnisse auf industriellen Datensätzen bestätigen die Überlegenheit unseres Modells, das lineare Inferenzgeschwindigkeit beibehält und starke Baseline-Modelle übertrifft, insbesondere mit einer Steigerung der Hit-Rate um über 8 % für Nutzer mit ultralangen Sequenzen bei hoher Effizienz.

SkyReels-V4: Multimodales Video-Audio-Generierungs-, Inpainting- und Bearbeitungsmodell
SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Feb 25

ByGuibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Yahui Zhou

SkyReels V4 ist ein einheitliches multimodales Video-Foundation-Modell für die gemeinsame Video-Audio-Generierung, Inpainting und Bearbeitung. Das Modell verwendet eine Dual-Stream-Multimodal Diffusion Transformer (MMDiT)-Architektur, bei der ein Zweig Video synthetisiert und der andere zeitlich abgestimmten Audio generiert, während beide einen leistungsstarken, auf Multimodalen Large Language Models (MMLM) basierenden Text-Encoder gemeinsam nutzen. SkyReels V4 akzeptiert umfangreiche multimodale Anweisungen, einschließlich Text, Bildern, Videoclips, Masken und Audio-Referenzen. Durch die Kombination der multimodalen Befolgungskapazität von MMLMs mit In-Context-Learning im Video-MMDiT-Zweig kann das Modell feinkörnige visuelle Anleitungen unter komplexen Bedingungen einspielen, während der Audio-MMDiT-Zweig gleichzeitig Audio-Referenzen zur Steuerung der Klangerzeugung nutzt. Auf der Video-Seite verwenden wir eine Kanalverkettungs-Formulierung, die eine Vielzahl von Inpainting-Aufgaben, wie Bild-zu-Video, Video-Verlängerung und Video-Bearbeitung, unter einer einzigen Schnittstelle vereinheitlicht und sich natürlich auf visuell referenziertes Inpainting und Bearbeitung durch multimodale Prompts erweitert. SkyReels V4 unterstützt bis zu 1080p-Auflösung, 32 FPS und 15 Sekunden Dauer, was eine hochwertige, mehrszenige, kinoreife Videogenerierung mit synchronisiertem Audio ermöglicht. Um eine solche Hochauflösungs- und Langzeitgenerierung rechenpraktikabel zu machen, führen wir eine Effizienzstrategie ein: Gemeinsame Generierung von Vollsequenzen in niedriger Auflösung und Hochauflösungs-Keyframes, gefolgt von dedizierten Super-Resolution- und Frame-Interpolations-Modellen. Unseres Wissens ist SkyReels V4 das erste Video-Foundation-Modell, das gleichzeitig multimodale Eingabe, gemeinsame Video-Audio-Generierung und eine einheitliche Behandlung von Generierung, Inpainting und Bearbeitung unterstützt, dabei hohe Effizienz und Qualität bei kinotauglichen Auflösungen und Laufzeiten beibehält.

DualPath: Durchbrechen des Speicherbandbreiten-Flaschenhalses bei agentenbasierter LLM-Inferenz
DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Feb 25

ByYongtong Wu, Shaoyuan Chen, Yinmin Zhong, Rilin Huang, Yixuan Tan, Wentao Zhang, Liyue Zhang, Shangyan Zhou, Yuxuan Liu, Shunfeng Zhou, Mingxing Zhang, Xin Jin, Panpan Huang

Die Leistung von mehrstufigen, agentenbasierten LLM-Inferenzen wird zunehmend durch KV-Cache-Speicher-E/A dominiert und nicht durch Berechnungen. In verbreiteten disaggregierten Architekturen erzeugt das Laden des massiven KV-Caches aus externem Speicher ein grundlegendes Ungleichgewicht: Die Speicher-NICs auf Prefill-Engines werden bandbreitenmäßig gesättigt, während die auf Decoding-Engines inaktiv bleiben. Diese Asymmetrie schränkt den Gesamtdurchsatz des Systems stark ein. Wir stellen DualPath vor, ein Inferenzsystem, das diesen Engpass durch die Einführung eines dualen Pfades zum Laden des KV-Caches beseitigt. Über den traditionellen Pfad vom Speicher zur Prefill-Engine hinaus ermöglicht DualPath einen neuartigen Pfad vom Speicher zur Decode-Engine, bei dem der KV-Cache in Decoding-Engines geladen und dann effizient über das Rechnernetzwerk per RDMA zu Prefill-Engines übertragen wird. DualPath kombiniert diesen optimierten Datenpfad – der von Natur aus Netzwerküberlastung vermeidet und keine Interferenz mit latenzkritischen Modellausführungskommunikationen verursacht – mit einem globalen Scheduler, der die Last dynamisch über Prefill- und Decode-Engines verteilt. Unsere Auswertung an drei Modellen mit produktiven agentenbasierten Workloads zeigt, dass DualPath den Offline-Inferenzdurchsatz in unserem hauseigenen Inferenzsystem um bis zum 1,87-fachen steigert. Es kann auch den Online-Bereitstellungsdurchsatz durchschnittlich um das 1,96-fache verbessern, ohne Service Level Agreements (SLAs) zu verletzen.

DreamID-Omni: Einheitlicher Rahmenwerk für kontrollierbare, menschenzentrierte Audio-Video-Generierung
DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Feb 12

ByXu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou

Jüngste Fortschritte bei Foundation-Modellen haben die gemeinsame Audio-Video-Generierung revolutioniert. Bisherige Ansätze behandeln jedoch typischerweise menschenzentrierte Aufgaben, wie referenzbasierte Audio-Video-Generierung (R2AV), Videobearbeitung (RV2AV) und audiogesteuerte Videoanimation (RA2V), als isolierte Ziele. Darüber hinaus bleibt die präzise, entflochtene Steuerung mehrerer Charakteridentitäten und Stimmklangfarben innerhalb eines einzigen Frameworks eine ungelöste Herausforderung. In diesem Artikel stellen wir DreamID-Omni vor, ein vereinheitlichtes Framework für kontrollierbare, menschenzentrierte Audio-Video-Generierung. Konkret entwerfen wir einen Symmetrischen Konditionalen Diffusions-Transformer, der heterogene Konditionierungssignale über ein symmetrisches Konditionierungsinjektionsschema integriert. Um die weit verbreiteten Fehler bei der Identitäts-Klangfarben-Bindung und Sprecherverwechslungen in Multi-Person-Szenarien zu lösen, führen wir eine Dual-Level-Entflechtungsstrategie ein: Synchronisierte RoPE auf Signalebene, um eine starre Aufmerksamkeitsraum-Bindung zu gewährleisten, und Strukturierte Bildbeschreibungen auf semantischer Ebene, um explizite Attribut-Subjekt-Zuordnungen herzustellen. Des Weiteren entwickeln wir ein Multi-Task-Progressive-Training-Schema, das schwach eingeschränkte generative A-priori-Informationen nutzt, um stark eingeschränkte Aufgaben zu regularisieren, Overfitting zu verhindern und unterschiedliche Ziele zu harmonisieren. Umfangreiche Experimente zeigen, dass DreamID-Omni state-of-the-art Leistung in den Bereichen Video, Audio und audiovisuelle Konsistenz umfassend erreicht und sogar führende proprietäre kommerzielle Modelle übertrifft. Wir werden unseren Code veröffentlichen, um die Lücke zwischen akademischer Forschung und kommerziellen Anwendungen zu schließen.

Solaris: Aufbau eines Multiplayer-Video-Weltmodells in Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft

Feb 25

ByGeorgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

Bestehende aktionskonditionierte Videogenerierungsmodelle (Video-World-Models) sind auf Einzelagenten-Perspektiven beschränkt und erfassen nicht die Multi-Agenten-Interaktionen realer Umgebungen. Wir stellen Solaris vor, ein Multiplayer-Video-World-Model, das konsistente Multi-Perspektiven-Beobachtungen simuliert. Um dies zu ermöglichen, entwickeln wir ein Multiplayer-Datensystem, das für robuste, kontinuierliche und automatisierte Datenerfassung in Videospielen wie Minecraft konzipiert ist. Im Gegensatz zu früheren Plattformen für Einzelspieler-Szenarien unterstützt unser System koordinierte Multi-Agenten-Interaktion und synchronisierte Erfassung von Videos und Aktionen. Mit diesem System erfassen wir 12,64 Millionen Multiplayer-Frames und schlagen ein Evaluierungsframework für Multiplayer-Bewegung, Gedächtnis, Verankerung, Konstruktion und Sichtkonsistenz vor. Wir trainieren Solaris mit einer gestuften Pipeline, die schrittweise von der Einzelspieler- zur Multiplayer-Modellierung übergeht und dabei bidirektionales, kausales und Self-Forcing-Training kombiniert. In der letzten Stufe führen wir Checkpointed Self Forcing ein, eine speichereffiziente Self-Forcing-Variante, die einen Lehrer mit längerem Planungshorizont ermöglicht. Die Ergebnisse zeigen, dass unsere Architektur und Trainingsgestaltung vorhandene Baseline-Modelle übertreffen. Durch die Open-Source-Veröffentlichung unseres Systems und unserer Modelle hoffen wir, die Grundlage für eine neue Generation von Multi-Agenten-World-Models zu legen.

ARLArena: Ein einheitliches Framework für stabiles agentenbasiertes Verstärkungslernen
ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Feb 25

ByXiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang

Agentisches Reinforcement Learning (ARL) hat sich schnell als vielversprechendes Paradigma etabliert, um Agenten für die Lösung komplexer, mehrstufiger interaktiver Aufgaben zu trainieren. Trotz ermutigender früher Ergebnisse bleibt ARL äußerst instabil und führt häufig zu Trainingszusammenbrüchen. Diese Instabilität schränkt die Skalierbarkeit auf größere Umgebungen und längere Interaktionshorizonte ein und behindert die systematische Erforschung algorithmischer Designentscheidungen. In diesem Artikel schlagen wir zunächst ARLArena vor, ein stabiles Trainingsrezept und systematisches Analyseframework, das die Trainingsstabilität in einer kontrollierten und reproduzierbaren Umgebung untersucht. ARLArena konstruiert zunächst eine saubere und standardisierte Testumgebung. Anschließend zerlegen wir die Policy-Gradient-Methode in vier Kern-Design-Dimensionen und bewerten die Leistung und Stabilität jeder Dimension. Durch diese feingranulare Analyse destillieren wir eine einheitliche Perspektive auf ARL und schlagen SAMPO vor, eine stabile agentische Policy-Optimierungsmethode, die entwickelt wurde, um die Hauptursachen für Instabilität in ARL zu mildern. Empirisch erreicht SAMPO durchgängig stabiles Training und hohe Leistung über verschiedene agentische Aufgaben hinweg. Insgesamt bietet diese Studie eine vereinheitlichende Policy-Gradient-Perspektive für ARL und praktische Leitlinien für den Aufbau stabiler und reproduzierbarer, auf LLM basierender Agenten-Trainingspipelines.

GUI-Libra: Training nativer GUI-Agenten zum schlussfolgernden Handeln mit aktionsbewusster Supervision und teilweise verifizierbarem Reinforcement Learning
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Feb 25

ByRui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang

Open-Source native GUI-Agents hinken bei langfristigen Navigationsaufgaben nach wie vor Closed-Source-Systemen hinterher. Diese Lücke resultiert aus zwei Einschränkungen: einem Mangel an hochwertigen, handlungsausgerichteten Reasoning-Daten und der direkten Übernahme generischer Post-Training-Pipelines, die die einzigartigen Herausforderungen von GUI-Agents vernachlässigen. Wir identifizieren zwei grundlegende Probleme in diesen Pipelines: (i) Standard-SFT mit CoT-Reasoning beeinträchtigt oft die Grounding-Fähigkeit, und (ii) schrittweises RLVR-artiges Training steht vor dem Problem der partiellen Verifizierbarkeit, bei der mehrere Aktionen korrekt sein können, aber nur eine einzige demonstrierte Aktion zur Verifikation herangezogen wird. Dies macht offline schrittweise Metriken zu schwachen Prädiktoren für den online Aufgaben-Erfolg. In dieser Arbeit stellen wir GUI-Libra vor, ein maßgeschneidertes Trainingsrezept, das diese Herausforderungen adressiert. Erstens, um die Knappheit an handlungsausgerichteten Reasoning-Daten zu mildern, führen wir eine Pipeline zur Datenerstellung und -filterung ein und veröffentlichen einen kuratierten 81K-GUI-Reasoning-Datensatz. Zweitens, um Reasoning mit Grounding in Einklang zu bringen, schlagen wir eine handlungsbewusste SFT vor, die Reasoning-dann-Aktion- und Direkt-Aktion-Daten mischt und Token neu gewichtet, um Handlung und Grounding zu betonen. Drittens, um RL unter partieller Verifizierbarkeit zu stabilisieren, identifizieren wir die übersehene Bedeutung der KL-Regularisierung in RLVR und zeigen, dass eine KL-Vertrauensregion entscheidend für eine verbesserte Offline-zu-Online-Vorhersagbarkeit ist; wir führen weiterhin eine erfolgsadaptive Skalierung ein, um unzuverlässige negative Gradienten abzuwerten. Über diverse Web- und Mobile-Benchmarks hinweg verbessert GUI-Libra konsequent sowohl die schrittweise Genauigkeit als auch die End-to-End-Aufgabenerfüllung. Unsere Ergebnisse deuten darauf hin, dass sorgfältig gestaltetes Post-Training und Datenkurierung deutlich stärkere Aufgabenlösungsfähigkeiten freisetzen können, ohne kostspielige Online-Datensammlung. Wir veröffentlichen unseren Datensatz, Code und Modelle, um die weitere Erforschung dateneffizienten Post-Trainings für reasoning-fähige GUI-Agents zu erleichtern.

Bilderzeugung mit einem sphärischen Encoder
Image Generation with a Sphere Encoder

Feb 16

ByKaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein

Wir stellen den Sphere Encoder vor, ein effizientes generatives Framework, das in der Lage ist, Bilder in einem einzigen Vorwärtsdurchgang zu erzeugen und mit vielenstufigen Diffusionsmodellen bei weniger als fünf Schritten zu konkurrieren. Unser Ansatz funktioniert, indem ein Encoder trainiert wird, der natürliche Bilder gleichmäßig auf einen sphärischen Latentraum abbildet, und ein Decoder, der zufällige Latent-Vektoren zurück in den Bildraum abbildet. Das Modell, das ausschließlich durch Bildrekonstruktionsverluste trainiert wird, generiert ein Bild einfach durch das Decodieren eines zufälligen Punktes auf der Sphäre. Unsere Architektur unterstützt auf natürliche Weise die bedingte Generierung, und das mehrmalige Durchlaufen von Encoder und Decoder kann die Bildqualität weiter verbessern. Über mehrere Datensätze hinweg erzielt der Sphere-Encoder-Ansatz eine Leistung, die mit modernsten Diffusionsmodellen konkurrenzfähig ist, jedoch nur mit einem Bruchteil der Inferenzkosten. Die Projektseite ist unter https://sphere-encoder.github.io verfügbar.

JavisDiT++: Vereinheitlichte Modellierung und Optimierung für die gemeinsame Audio-Video-Generierung
JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Feb 22

ByKai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua

AIGC hat sich rasant von der Text-zu-Bild-Generierung hin zur hochwertigen multimodalen Synthese über Video und Audio erweitert. In diesem Kontext hat sich die gemeinsame Audio-Video-Generierung (JAVG) als grundlegende Aufgabe etabliert, die synchronisierte und semantisch abgestimmte Ton- und Bildinhalte aus Textbeschreibungen erzeugt. Im Vergleich zu fortschrittlichen kommerziellen Modellen wie Veo3 leiden bestehende Open-Source-Methoden jedoch weiterhin unter Einschränkungen bei Generierungsqualität, zeitlicher Synchronizität und Übereinstimmung mit menschlichen Präferenzen. Um diese Lücke zu schließen, stellt dieses Papier JavisDiT++ vor, einen prägnanten yet leistungsstarken Framework für die vereinheitlichte Modellierung und Optimierung von JAVG. Zunächst führen wir ein modalitätsspezifisches Mixture-of-Experts-Design (MS-MoE) ein, das die Effizienz der cross-modalen Interaktion ermöglicht und gleichzeitig die Einzelmodalitäts-Generierungsqualität verbessert. Anschließend schlagen wir eine temporal-aligned RoPE-Strategie (TA-RoPE) vor, um eine explizite Synchronisierung auf Frame-Ebene zwischen Audio- und Video-Token zu erreichen. Zudem entwickeln wir eine Audio-Video Direct Preference Optimization-Methode (AV-DPO), um die Modellausgaben mit menschlichen Präferenzen in den Dimensionen Qualität, Konsistenz und Synchronizität abzustimmen. Aufbauend auf Wan2.1-1.3B-T2V erreicht unser Modell mit nur etwa 1 Mio. öffentlichen Trainingsdatensätzen state-of-the-art Leistungen und übertrifft bisherige Ansätze in qualitativen und quantitativen Bewertungen deutlich. Umfassende Ablationsstudien wurden durchgeführt, um die Wirksamkeit unserer vorgeschlagenen Module zu validieren. Der gesamte Code, das Modell und der Datensatz sind unter https://JavisVerse.github.io/JavisDiT2-page veröffentlicht.

Von der Statik zur Dynamik: Physikbewusste Bildbearbeitung mit latenten Übergangsprioritäten
From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Feb 25

ByLiangbing Zhao, Le Zhuo, Sayak Paul, Hongsheng Li, Mohamed Elhoseiny

Instruktionsbasierte Bildbearbeitung hat bemerkenswerte Erfolge bei der semantischen Ausrichtung erzielt, doch aktuelle State-of-the-Art-Modelle scheitern häufig an der Erzeugung physikalisch plausibler Ergebnisse, wenn die Bearbeitung komplexe kausale Dynamiken wie Lichtbrechung oder Materialverformung beinhaltet. Wir führen diese Einschränkung auf das vorherrschende Paradigma zurück, das Bearbeitung als diskrete Abbildung zwischen Bildpaaren behandelt. Dieser Ansatz liefert lediglich Randbedingungen und lässt die Übergangsdynamik unterbestimmt. Um dieses Problem zu adressieren, formulieren wir physikbewusste Bearbeitung als prädiktive physikalische Zustandsübergänge neu und führen PhysicTran38K ein – einen groß angelegten, videobasierten Datensatz mit 38.000 Übergangspfaden über fünf physikalische Domänen hinweg, der durch einen zweistufigen Filter- und beschränkungsbewussten Annotationsprozess erstellt wurde. Aufbauend auf dieser Grundlage präsentieren wir PhysicEdit, ein End-to-End-Framework mit einem textuell-visuellen Dual-Thinking-Mechanismus. Es kombiniert ein eingefrorenes Qwen2.5-VL für physikalisch fundiertes Reasoning mit erlernbaren Übergangsabfragen, die einem Diffusion-Backbone zeitschrittadaptive visuelle Führung bieten. Experimente zeigen, dass PhysicEdit Qwen-Image-Edit bei physikalischer Realitätsnähe um 5,9 % und im wissensbasierten Editieren um 10,1 % übertrifft und damit einen neuen State-of-the-Art für Open-Source-Methoden setzt, während es mit führenden proprietären Modellen wettbewerbsfähig bleibt.

Weltführung: Weltmodellierung im Bedingungsraum zur Aktionsgenerierung
World Guidance: World Modeling in Condition Space for Action Generation

Feb 25

ByYue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu

Die Nutzung der Modellierung zukünftiger Beobachtungen zur Erleichterung der Handlungsgenerierung stellt einen vielversprechenden Ansatz zur Erweiterung der Fähigkeiten von Vision-Language-Action (VLA)-Modellen dar. Bestehende Ansätze haben jedoch Schwierigkeiten, ein Gleichgewicht zwischen der Beibehaltung effizienter, vorhersagbarer Zukunftsrepräsentationen und der Bewahrung ausreichend detaillierter Informationen zur Steuerung präziser Handlungsgenerierung zu finden. Um diese Einschränkung zu überwinden, schlagen wir WoG (World Guidance) vor, ein Framework, das zukünftige Beobachtungen durch deren Einbindung in den Handlungsinferenzprozess in kompakte Bedingungen abbildet. Das VLA-Modell wird darauf trainiert, diese komprimierten Bedingungen parallel zu zukünftigen Aktionen vorherzusagen, wodurch eine effektive Weltmodellierung innerhalb des Bedingungsraums für die Handlungsinferenz erreicht wird. Wir zeigen, dass die Modellierung und Vorhersage dieses Bedingungsraums nicht nur die feinabgestufte Handlungsgenerierung erleichtert, sondern auch überlegene Generalisierungsfähigkeiten aufweist. Darüber hinaus ermöglicht es effektives Lernen aus umfangreichen Videos menschlicher Manipulationen. Umfangreiche Experimente in Simulations- und Realumgebungen bestätigen, dass unsere Methode bestehende, auf Zukunftsprognose basierende Ansätze signifikant übertrifft. Die Projektseite ist verfügbar unter: https://selen-suyue.github.io/WoGNet/

VecGlypher: Vereinheitlichte Vektorglyphen-Erzeugung mit Sprachmodellen
VecGlypher: Unified Vector Glyph Generation with Language Models

Feb 25

ByXiaoke Huang, Bhavul Gauri, Kam Woh Ng, Tony Ng, Mengmeng Xu, Zhiheng Liu, Weiming Ren, Zhaochong An, Zijian Zhou, Haonan Qiu, Yuyin Zhou, Sen He, Ziheng Wang, Tao Xiang, Xiao Han

Vektorglyphen sind die atomaren Einheiten der digitalen Typografie, doch die meisten lernbasierten Prozesse sind nach wie vor auf aufwändig kuratierte Beispielvorlagen und Raster-zu-Vektor-Nachbearbeitung angewiesen, was Zugänglichkeit und Bearbeitbarkeit einschränkt. Wir stellen VecGlypher vor, ein einzelnes multimodales Sprachmodell, das hochwertige Vektorglyphen direkt aus Textbeschreibungen oder Bildvorlagen erzeugt. Auf Basis eines Stil-Prompts, optionaler Referenzglyphenbilder und eines Zielzeichens emittiert VecGlypher autoregressiv SVG-Pfad-Tokens, umgeht Rasterzwischenstufen und erzeugt in einem Durchgang bearbeitbare, geschlossene Umrisse. Dies ermöglicht eine typografiebewusste Daten- und Trainingsstrategie: (i) eine groß angelegte Fortführungsphase auf 39K verrauschten Envato-Schriften zur Beherrschung der SVG-Syntax und langreichweitiger Geometrie, gefolgt von (ii) Nachtraining auf 2.5K expertenannotierten Google Fonts mit beschreibenden Tags und Beispielen, um Sprache und Bildwelt mit der Geometrie in Einklang zu bringen; die Vorverarbeitung normalisiert Koordinatensysteme, kanonisiert Pfade, entfernt Dubletten aus Schriftfamilien und quantisiert Koordinaten für stabiles Decodieren langer Sequenzen. In der übergreifenden OOD-Evaluation übertrifft VecGlypher bei der rein textbasierten Generierung sowohl allgemeine LLMs als auch spezialisierte Vektorschrift-Baselines deutlich, während die bildgestützte Generierung mit deutlichen Verbesserungen gegenüber DeepVecFont-v2 und DualVector state-of-the-art Leistung erreicht. Ablationstudien zeigen, dass die Modellgröße und das zweistufige Verfahren entscheidend sind und dass die Serialisierung mit absoluten Koordinaten die beste Geometrie liefert. VecGlypher senkt die Einstiegshürde für die Schriftgestaltung, indem es Nutzern ermöglicht, mit Worten oder Beispielen zu entwerfen, und bildet eine skalierbare Grundlage für zukünftige multimodale Designtools.

NanoKnow: Wie man weiß, was Ihr Sprachmodell weiß
NanoKnow: How to Know What Your Language Model Knows

Feb 23

ByLingwei Gu, Nour Jedidi, Jimmy Lin

Wie wissen große Sprachmodelle (LLMs), was sie wissen? Die Beantwortung dieser Frage war bisher schwierig, da die Vor-Trainingsdaten oft eine "Blackbox" darstellen – unbekannt oder unzugänglich. Die kürzliche Veröffentlichung von nanochat – einer Familie kleiner LLMs mit vollständig offenen Vor-Trainingsdaten – schafft hier Abhilfe, da sie einen transparenten Einblick bietet, woher das parametrische Wissen eines Modells stammt. Um zu verstehen, wie Wissen in LLMs kodiert wird, veröffentlichen wir NanoKnow, einen Benchmark-Datensatz, der Fragen aus Natural Questions und SQuAD anhand der Frage aufteilt, ob ihre Antworten im Vor-Trainingskorpus von nanochat enthalten sind. Mithilfe dieser Aufteilung können wir nun die Wissensquellen, auf die sich LLMs bei der Erzeugung einer Ausgabe stützen, klar voneinander trennen. Um den Nutzen von NanoKnow zu demonstrieren, führen wir Experimente mit acht nanochat-Checkpoints durch. Unsere Ergebnisse zeigen: (1) Die Closed-Book-Genauigkeit wird stark von der Häufigkeit der Antworten in den Vor-Trainingsdaten beeinflusst, (2) die Bereitstellung externer Evidenz kann diese Häufigkeitsabhängigkeit abmildern, (3) selbst bei externer Evidenz sind Modelle genauer, wenn die Antworten während des Vor-Trainings gesehen wurden, was zeigt, dass parametrisches und externes Wissen sich ergänzen, und (4) nicht-relevante Informationen sind schädlich, wobei die Genauigkeit sowohl abhängig von der Position als auch von der Anzahl nicht-relevanter Kontexte abnimmt. Wir veröffentlichen alle NanoKnow-Artefakte unter https://github.com/castorini/NanoKnow.

Hepato-LLaVA: Ein spezialisiertes multimodales Großsprachmodell mit sparser Topo-Pack-Attention für die hepatologische Pathologieanalyse auf Vollpräparat-Scans
Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Feb 23

ByYuxuan Yang, Zhonghao Yan, Yi Zhang, Bo Yun, Muxi Diao, Guowei Zhao, Kongming Liang, Wenbin Li, Zhanyu Ma

Die Diagnose von hepatozellulären Karzinomen stützt sich maßgeblich auf die Interpretation von Gigapixel-Ganzpräparatescans. Allerdings sind aktuelle computergestützte Ansätze durch feste Auflösungsverarbeitungsmechanismen und ineffiziente Feature-Aggregation eingeschränkt, was unweigerlich zu erheblichem Informationsverlust oder hoher Feature-Redundanz führt. Um diese Herausforderungen zu bewältigen, stellen wir Hepato-LLaVA vor, ein spezialisiertes multimodales Großsprachmodell für die feingranulare Analyse hepatischer Pathologie. Wir führen einen neuartigen Sparse Topo-Pack Attention-Mechanismus ein, der explizit die 2D-Gewebetopologie modelliert. Dieser Mechanismus aggregiert lokale diagnostische Evidenz effektiv zu semantischen Zusammenfassungstokens, während der globale Kontext erhalten bleibt. Darüber hinaus präsentieren wir zur Überwindung des Mangels an multiskaligen Daten HepatoPathoVQA, einen klinisch fundierten Datensatz mit 33.000 hierarchisch strukturierten Frage-Antwort-Paaren, die von Expertopathologen validiert wurden. Unsere Experimente zeigen, dass Hepato-LLaVA bei HCC-Diagnose- und Beschreibungsaufgaben state-of-the-art-Leistungen erzielt und bestehende Methoden signifikant übertrifft. Unser Code und Implementierungsdetails sind unter https://pris-cv.github.io/Hepto-LLaVA/ verfügbar.

SeaCache: Spektral-Evolutions-bewusster Cache zur Beschleunigung von Diffusionsmodellen
SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

Feb 22

ByJiwoo Chung, Sangeek Hyun, MinKyu Lee, Byeongju Han, Geonho Cha, Dongyoon Wee, Youngjun Hong, Jae-Pil Heo

Diffusionsmodelle sind eine leistungsstarke Grundlage für die visuelle Generierung, doch ihr inhärent sequenzieller Denoisisierungsprozess führt zu langsamer Inferenz. Bisherige Methoden beschleunigen das Sampling durch Zwischenspeicherung und Wiederverwendung von Zwischenergebnissen auf der Grundlage von Merkmalsdistanzen zwischen benachbarten Zeitschritten. Bestehende Caching-Strategien stützen sich jedoch typischerweise auf rohe Merkmalsunterschiede, die Inhalte und Rauschen vermengen. Dieser Ansatz übersieht die spektrale Evolution, bei der sich niederfrequente Strukturen früh zeigen und hochfrequente Details später verfeinert werden. Wir führen den Spectral-Evolution-Aware Cache (SeaCache) ein, einen trainingsfreien Cache-Zeitplan, der Wiederverwendungsentscheidungen auf einer spektral ausgerichteten Repräsentation basiert. Durch theoretische und empirische Analyse leiten wir einen Spectral-Evolution-Aware (SEA)-Filter ab, der inhaltsrelevante Komponenten bewahrt und gleichzeitig Rauschen unterdrückt. Die Verwendung von SEA-gefilterten Eingangsmerkmalen zur Redundanzschätzung führt zu dynamischen Zeitplänen, die sich an den Inhalt anpassen und gleichzeitig den dem Diffusionsmodell zugrundeliegenden spektralen Priors Rechnung tragen. Umfangreiche Experimente mit verschiedenen visuellen Generierungsmodellen und den Baselines zeigen, dass SeaCache state-of-the-art Kompromisse zwischen Latenz und Qualität erreicht.

Neubewertung der Textreihung in der Tiefenforschung
Revisiting Text Ranking in Deep Research

Feb 25

ByChuan Meng, Litu Ou, Sean MacAvaney, Jeff Dalton

Tiefgehende Recherche hat sich als wichtige Aufgabe etabliert, die darauf abzielt, komplexe Anfragen durch umfangreiche Exploration des offenen Webs zu beantworten. Um dies zu bewältigen, stattet der Großteil der bisherigen Forschung agentenbasierte große Sprachmodelle (LLMs) mit undurchsichtigen Websuch-APIs aus, die es den Agenten ermöglichen, iterativ Suchanfragen zu stellen, externe Evidenz abzurufen und darüber zu schlussfolgern. Trotz der essenziellen Rolle der Suche bei der tiefgehenden Recherche behindern Blackbox-Websuch-APIs die systematische Analyse der Suchkomponenten, sodass das Verhalten etablierter Text-Ranking-Methoden in diesem Kontext weitgehend unklar bleibt. Um diese Lücke zu schließen, reproduzieren wir eine Auswahl wichtiger Erkenntnisse und Best Practices für IR-Text-Ranking-Methoden im Setting der tiefgehenden Recherche. Insbesondere untersuchen wir ihre Wirksamkeit aus drei Perspektiven: (i) Retrieval-Einheiten (Dokumente vs. Passagen), (ii) Pipeline-Konfigurationen (verschiedene Retriever, Re-Ranker und Re-Ranking-Tiefen) und (iii) Abfragemerkmale (die Diskrepanz zwischen von Agenten generierten Abfragen und den Trainingsabfragen der Text-Ranker). Wir führen Experimente auf BrowseComp-Plus durch, einem Datensatz für tiefgehende Recherche mit einem festen Korpus, und evaluieren dabei 2 Open-Source-Agenten, 5 Retriever und 3 Re-Ranker in verschiedenen Setups. Unsere Ergebnisse zeigen, dass von Agenten generierte Abfragen typischerweise eine websearch-ähnliche Syntax aufweisen (z.B. Anführungszeichen für exakte Treffer), was lexikalische, gelernte sparse und Multi-Vector-Retriever begünstigt; Passagen-Einheiten sind unter begrenzten Kontextfenstern effizienter und umgehen die Schwierigkeiten der Dokumentlängennormierung beim lexikalischen Retrieval; Re-Ranking ist hochwirksam; die Übersetzung von Agenten-abfragen in natürliche Sprachfragen überbrückt die Abfragediskrepanz signifikant.

Verankerung und sphärische Harmoniken für Gauß'sches Splatting mit spärlichen Ansichten
Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

Feb 24

ByShuangkang Fang, I-Chao Shen, Xuanyang Zhang, Zesheng Wang, Yufeng Wang, Wenrui Ding, Gang Yu, Takeo Igarashi

Aktuelle 3D-Gaussian-Splatting (3DGS)-Dropout-Methoden adressieren Overfitting unter Sparse-View-Bedingungen durch zufälliges Nullsetzen von Gaussian-Opazitäten. Wir identifizieren jedoch einen Nachbarkompensationseffekt bei diesen Ansätzen: Gelöschte Gaussians werden häufig durch ihre Nachbarn kompensiert, was die beabsichtigte Regularisierung abschwächt. Darüber hinaus übersehen diese Methoden den Beitrag von sphärischen Harmonischen Koeffizienten (SH) höheren Grades zum Overfitting. Zur Lösung dieser Probleme schlagen wir DropAnSH-GS vor, eine neuartige ankerbasierte Dropout-Strategie. Anstatt Gaussians unabhängig zu löschen, wählt unsere Methode zufällig bestimmte Gaussians als Anker aus und entfernt gleichzeitig ihre räumlichen Nachbarn. Dies unterbricht lokale Redundanzen in Ankernähe effektiv und fördert das Erlernen robusterer, global informierter Repräsentationen. Zusätzlich erweitern wir das Dropout auf Farbattribute durch zufälliges Löschen von SH höheren Grades, um Erscheinungsinformationen in SH niedrigeren Grades zu konzentrieren. Diese Strategie mildert Overfitting weiter und ermöglicht flexible Nachtraining-Modellkompression via SH-Trunkierung. Experimentelle Ergebnisse zeigen, dass DropAnSH-GS bestehende Dropout-Methoden mit vernachlässigbarem Rechenaufwand deutlich übertrifft und problemlos in verschiedene 3DGS-Varianten integriert werden kann, um deren Leistung zu steigern. Projekt-Website: https://sk-fun.fun/DropAnSH-GS

Der Gestaltungsraum tri-modaler maskierter Diffusionsmodelle
The Design Space of Tri-Modal Masked Diffusion Models

Feb 25

ByLouis Bethune, Victor Turrisi, Bruno Kacper Mlodozeniec, Pau Rodriguez Lopez, Lokesh Boominathan, Nikhil Bhendawade, Amitis Shidani, Joris Pelemans, Theo X. Olausson, Devon Hjelm, Paul Dixon, Joao Monteiro, Pierre Ablin, Vishnu Banna, Arno Blaas, Nick Henderson, Kari Noriy, Dan Busbridge, Josh Susskind, Marco Cuturi, Irina Belousova, Luca Zappella, Russ Webb, Jason Ramapuram

Diskrete Diffusionsmodelle haben sich als starke Alternative zu autoregressiven Sprachmodellen etabliert, wobei neuere Arbeiten ein unimodales Basismodell für die bimodale Generierung initialisieren und feinabstimmen. Im Gegensatz zu früheren Ansätzen stellen wir das erste trimodale Masked-Diffusion-Modell vor, das von Grund auf mit Text-, Bild-Text- und Audio-Text-Daten vortrainiert wird. Wir analysieren systematisch multimodale Skalierungsgesetze, Modalitätsmischverhältnisse, Rauschschemata und Batch-Größen-Effekte und stellen optimierte Standardeinstellungen für den Inferenz-Sampling-Prozess bereit. Unsere Analyse der Batch-Größe führt zu einer neuartigen Reparametrisierung auf Basis stochastischer Differentialgleichungen (SDE), die die Notwendigkeit beseitigt, die optimale Batch-Größe abzustimmen, wie in aktuellen Arbeiten berichtet. Diese Reparametrisierung entkoppelt die physische Batch-Größe, die oft auf Basis von Rechenbeschränkungen gewählt wird (GPU-Auslastung, FLOP-Effizienz, Echtzeit), von der logischen Batch-Größe, die gewählt wird, um die Gradientenvarianz während der stochastischen Optimierung auszugleichen. Abschließend trainieren wir ein vorläufiges trimodales Modell mit 3B Parametern auf 6,4T Tokens vortrainiert, demonstrieren die Fähigkeiten eines einheitlichen Designs und erzielen starke Ergebnisse in der Textgenerierung, bei Text-zu-Bild-Aufgaben und Text-zu-Sprache-Aufgaben. Unsere Arbeit stellt die bislang umfassendste systematische Open-Source-Studie zu multimodalen diskreten Diffusionsmodellen dar und liefert Einblicke in Skalierungsverhalten über mehrere Modalitäten hinweg.

UniVBench: Auf dem Weg zu einer einheitlichen Bewertung von Video-Foundation-Modellen
UniVBench: Towards Unified Evaluation for Video Foundation Models

Feb 25

ByJianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu

Video-Foundation-Modelle zielen darauf ab, Videoverständnis, -generierung, -bearbeitung und Befolgung von Anweisungen in einem einzigen Framework zu integrieren, was sie zu einer zentralen Richtung für die nächste Generation multimodaler Systeme macht. Bisherige Evaluierungsbenchmarks sind jedoch fragmentiert und in ihrem Umfang begrenzt, da sie jeweils auf eine einzelne Aufgabe ausgerichtet sind, auf aufgabenspezifischen Metriken basieren und typischerweise kurze oder einfache Videoclips verwenden. Infolgedessen erfassen sie nicht die vereinheitlichten Fähigkeiten, die diese Modelle liefern sollen. Um diese Lücke zu schließen, stellen wir UniVBench vor, einen Benchmark, der speziell für die Bewertung von Video-Foundation-Modellen über vier Kernfähigkeiten entwickelt wurde: Videoverständnis, Videogenerierung, Videobearbeitung und eine neu vorgeschlagene Aufgabe, die Videorekonstruktion, die bewertet, wie genau ein Modell aufgenommenes Videomaterial reproduzieren kann. Unser Benchmark erweitert die Komplexität der Evaluation erheblich, indem er 200 hochwertige, vielfältige Videos mit mehreren Einstellungen integriert, die jeweils mit detaillierten Beschreibungen, Bearbeitungsanweisungen in verschiedenen Formaten und Referenzbildern versehen sind. Alle Videos sind von Menschen erstellt und sorgfältig validiert, wodurch sie reichere filmische Informationen bieten als bisherige Benchmarks. Zusätzlich entwickeln wir ein vereinheitlichtes agentenbasiertes Evaluierungssystem (UniV-Eval), das die Prompt-Formulierung, Anweisungsverarbeitung und Bewertung über alle Aufgaben hinweg standardisiert und so faire, skalierbare und reproduzierbare Vergleiche von vereinheitlichten Videomodellen ermöglicht. Indem die Evaluation auf instruktionsbasierten Aufgaben mit mehreren Einstellungen basiert, bietet UniVBench den ersten Rahmen zur Messung der integrierten Fähigkeiten, die Video-Foundation-Modelle anstreben. Umfangreiche menschliche Annotationen stellen sicher, dass unsere Bewertung mit der menschlichen Urteilskraft übereinstimmt, was eine rigorose Beurteilung ermöglicht und den Fortschritt hin zu robuster Video-Intelligenz beschleunigt.

Modellkontextprotokoll (MCP) Tool-Beschreibungen stinken! Auf dem Weg zu einer verbesserten KI-Agenten-Effizienz durch augmentierte MCP Tool-Beschreibungen
Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

Feb 16

ByMohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan

Das Model Context Protocol (MCP) führt eine Standardspezifikation ein, die definiert, wie agentenbasierte Foundation Models (FMs) durch den Aufruf von Werkzeugen mit externen Systemen interagieren sollen. Um jedoch den Zweck und die Funktionen eines Werkzeugs zu verstehen, sind FMs auf natürlichsprachige Werkzeugbeschreibungen angewiesen, was diese Beschreibungen zu einer kritischen Komponente macht, um FMs dabei zu leiten, das optimale Werkzeug für eine gegebene (Teil-)Aufgabe auszuwählen und die richtigen Argumente an das Werkzeug zu übergeben. Während Defekte oder "Smells" in diesen Beschreibungen FM-basierte Agenten fehlleiten können, sind deren Verbreitung und Konsequenzen im MCP-Ökosystem noch unklar. Daher untersuchen wir empirisch 856 Werkzeuge aus 103 MCP-Servern, bewerten deren Beschreibungsqualität und deren Auswirkung auf die Agentenleistung. Wir identifizieren sechs Komponenten von Werkzeugbeschreibungen aus der Literatur, entwickeln ein Bewertungsschema unter Verwendung dieser Komponenten und formalisieren darauf aufbauend "Tool Description Smells". Durch die Operationalisierung dieses Schemas mittels eines FM-basierten Scanners stellen wir fest, dass 97,1 % der analysierten Werkzeugbeschreibungen mindestens einen Smell enthalten, wobei 56 % ihren Zweck nicht klar angeben. Während eine Erweiterung dieser Beschreibungen um alle Komponenten die Aufgabenerfolgsrate median um 5,85 Prozentpunkte steigert und die partielle Zielerreichung um 15,12 % verbessert, erhöht sie auch die Anzahl der Ausführungsschritte um 67,46 % und verschlechtert die Leistung in 16,67 % der Fälle. Diese Ergebnisse deuten darauf hin, dass Leistungssteigerungen nicht einfach zu erreichen sind; während Ausführungskosten als Kompromiss dienen können, kann auch der Ausführungskontext einen Einfluss haben. Darüber hinaus zeigen Komponentenablationen, dass kompakte Varianten verschiedener Komponentenkombinationen oft die Verhaltenszuverlässigkeit bewahren, während sie unnötigen Token-Overhead reduzieren, was eine effizientere Nutzung des FM-Kontextfensters und niedrigere Ausführungskosten ermöglicht.

JAEGER: Gemeinsame 3D Audio-Visuell Verankerung und logisches Schließen in simulierten physischen Umgebungen
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Feb 20

ByZhan Liu, Changli Tang, Yuxin Wang, Zhiyuan Zhu, Youjun Chen, Yiwen Shao, Tianzi Wang, Lei Ke, Zengrui Jin, Chao Zhang

Aktuelle audiovisuelle Großsprachmodelle (AV-LLMs) sind überwiegend auf die 2D-Wahrnehmung beschränkt und stützen sich auf RGB-Videos und monaurale Audiodaten. Diese Designentscheidung führt zu einer grundlegenden Dimensionsinkongruenz, die eine zuverlässige Quellenlokalisierung und räumliche Schlussfolgerung in komplexen 3D-Umgebungen verhindert. Wir adressieren diese Einschränkung mit JAEGER, einem Framework, das AV-LLMs in den 3D-Raum erweitert, um gemeinsame räumliche Verankerung und Schlussfolgerung durch die Integration von RGB-D-Beobachtungen und Mehrkanal-Ambisonics erster Ordnung zu ermöglichen. Ein zentraler Beitrag unserer Arbeit ist der neuronale Intensitätsvektor (Neural IV), eine gelernte räumliche Audiodarstellung, die robuste Richtungshinweise kodiert, um die Schalleinfallsrichtungs-Schätzung selbst unter ungünstigen akustischen Bedingungen mit überlappenden Quellen zu verbessern. Um groß angelegtes Training und systematische Evaluation zu ermöglichen, schlagen wir SpatialSceneQA vor, einen Benchmark mit 61k Instruction-Tuning-Beispielen, die aus simulierten physikalischen Umgebungen kuratiert wurden. Umfangreiche Experimente zeigen, dass unser Ansatz 2D-zentrierte Baseline-Modelte bei diversen räumlichen Wahrnehmungs- und Schlussfolgerungsaufgaben konsistent übertrifft, was die Notwendigkeit expliziter 3D-Modellierung für den Fortschritt von KI in physikalischen Umgebungen unterstreicht. Unser Quellcode, vortrainierte Modell-Checkpoints und Datensätze werden bei Annahme der Arbeit veröffentlicht.

ISO-Bench: Können Code-Agenten reale Inferenz-Workloads optimieren?
ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Feb 23

ByAyush Nangia, Shikhar Mishra, Aman Gokrani, Paras Chopra

Wir stellen ISO-Bench vor, einen Benchmark für Coding-Agents, der deren Fähigkeiten bei realen Inferenz-Optimierungsaufgaben testet. Diese Aufgaben stammen aus vLLM und SGLang, zwei der beliebtesten LLM-Serving-Frameworks. Jede Aufgabe stellt einem Agenten eine Codebasis und eine Beschreibung des Engpasses bereit, wobei der Agent einen Optimierungs-Patch erstellen muss, der gegen Expertenlösungen von Menschen evaluiert wird. Wir haben 54 Aufgaben aus gemergten Pull-Requests mit messbaren Leistungsverbesserungen kuratiert. Während bestehende Benchmarks stark laufzeitbasierte Metriken verwenden, können solche Ansätze manipuliert werden, um Tests zu bestehen, ohne die eigentliche Absicht der Codeänderungen zu erfassen. Daher kombinieren wir sowohl harte (ausführungsbasierte) als auch weiche (LLM-basierte) Metriken, um zu zeigen, dass beide für eine vollständige Evaluation notwendig sind. Bei der Evaluation sowohl von Closed- als auch Open-Source-Coding-Agents stellen wir fest, dass kein einzelner Agent alle Codebasen dominiert. Überraschenderweise identifizieren Agents oft korrekte Engpässe, scheitern aber an der Umsetzung funktionierender Lösungen. Wir zeigen auch, dass Agents mit identischen zugrundeliegenden Modellen erheblich voneinander abweichen, was darauf hindeutet, dass das Scaffolding genauso wichtig ist wie das Modell.

MoBind: Motion Binding für feinabgestimmte IMU-Video-Posenausrichtung
MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Feb 22

ByDuc Duy Nguyen, Tat-Jun Chin, Minh Hoai

Wir streben an, eine gemeinsame Repräsentation zwischen Inertialmesssystem (IMU)-Signalen und aus Video extrahierten 2D-Posensequenzen zu erlernen, um eine genaue cross-modale Retrieval, zeitliche Synchronisation, Subjekt- und Körperteil-Lokalisierung sowie Aktionserkennung zu ermöglichen. Zu diesem Zweck stellen wir MoBind vor, ein hierarchisches Contrastive-Learning-Framework, das entwickelt wurde, um drei Herausforderungen zu adressieren: (1) das Herausfiltern irrelevanter visueller Hintergrundinformationen, (2) die Modellierung strukturierter Multi-Sensor-IMU-Konfigurationen und (3) die Erreichung einer feingranularen, subsekundären temporalen Ausrichtung. Um bewegungsrelevante Hinweise zu isolieren, richtet MoBind IMU-Signale an Skelettbewegungssequenzen und nicht an Rohpixeln aus. Wir zerlegen die Ganzkörperbewegung weiter in lokale Körperteil-Trajektorien und paaren jede mit ihrem entsprechenden IMU, um eine semantisch fundierte Multi-Sensor-Ausrichtung zu ermöglichen. Um eine detaillierte temporale Korrespondenz zu erfassen, verwendet MoBind eine hierarchische Contrastive-Strategie, die zunächst Token-level temporale Segmente ausrichtet und dann die lokale (Körperteil-)Ausrichtung mit der globalen (körperweiten) Bewegungsaggregation fusioniert. Evaluierungen auf mRi, TotalCapture und EgoHumans zeigen, dass MoBind durchgängig starke Baseline-Methoden in allen vier Aufgaben übertrifft und dabei eine robuste feingranulare temporale Ausrichtung bei gleichzeitiger Bewahrung grober semantischer Konsistenz über Modalitäten hinweg demonstriert. Code ist verfügbar unter https://github.com/bbvisual/MoBind.

Kleine Sprachmodelle für datenschutzbewahrende klinische Informationsextraktion in ressourcenarmen Sprachen
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Feb 24

ByMohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei, Atena Farangi, AmirBahador Boroumand

Die Extraktion klinischer Informationen aus medizinischen Transkripten in ressourcenarmen Sprachen bleibt eine große Herausforderung für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) im Gesundheitswesen. Diese Studie evaluiert eine zweistufige Pipeline, die Aya-expanse-8B als persisch-englisches Übersetzungsmodell mit fünf quelloffenen kleinen Sprachmodellen (Small Language Models, SLMs) – Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct und Gemma-3-1B-it – kombiniert, um 13 klinische Merkmale binär aus 1.221 anonymisierten persischen Transkripten eines palliativmedizinischen Callcenters für Krebserkrankungen zu extrahieren. Unter Verwendung einer Few-Shot-Prompting-Strategie ohne Feinabstimmung wurden die Modelle anhand des makro-gemittelten F1-Scores, des Matthews-Korrelationskoeffizienten (MCC), der Sensitivität und der Spezifität bewertet, um die Klassenungleichgewicht zu berücksichtigen. Qwen2.5-7B-Instruct erzielte die höchste Gesamtleistung (medianer Makro-F1: 0,899; MCC: 0,797), während Gemma-3-1B-it die schwächsten Ergebnisse zeigte. Größere Modelle (7B–8B Parameter) übertrafen durchweg kleinere Modelle in Sensitivität und MCC. Eine bilinguale Analyse von Aya-expanse-8B ergab, dass die Übersetzung persischer Transkripte ins Englische die Sensitivität verbesserte, fehlende Ausgaben reduzierte und Metriken, die robust gegenüber Klassenungleichgewicht sind, steigerte, allerdings auf Kosten einer leicht geringeren Spezifität und Präzision. Auf Merkmalsebene zeigten die Ergebnisse eine zuverlässige Extraktion physiologischer Symptome bei den meisten Modellen, während psychologische Beschwerden, administrative Anfragen und komplexe somatische Merkmale nach wie vor herausfordernd blieben. Diese Ergebnisse liefern einen praktischen, datenschutzfreundlichen Leitfaden für den Einsatz quelloffener SLMs in multilingualen klinischen NLP-Umgebungen mit begrenzter Infrastruktur und Annotationsressourcen und unterstreichen die Bedeutung einer gemeinsamen Optimierung von Modellgröße und Eingabesprachenstrategie für sensible Gesundheitsanwendungen.

DM4CT: Benchmarking von Diffusionsmodellen für die Computertomographie-Rekonstruktion
DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Feb 20

ByJiayang Shi, Daniel M. Pelt, K. Joost Batenburg

Diffusionsmodelle haben sich kürzlich als leistungsstarke Priors für die Lösung inverser Probleme erwiesen. Obwohl die Computertomographie (CT) theoretisch ein lineares inverses Problem darstellt, birgt sie viele praktische Herausforderungen. Dazu gehören korrelierte Rauschen, Artefaktstrukturen, Abhängigkeit von der Systemgeometrie und fehlausgerichtete Wertebereiche, was die direkte Anwendung von Diffusionsmodellen schwieriger macht als in Bereichen wie der natürlichen Bildgenerierung. Um systematisch zu evaluieren, wie sich Diffusionsmodelle in diesem Kontext verhalten und sie mit etablierten Rekonstruktionsmethoden zu vergleichen, führen wir DM4CT ein, einen umfassenden Benchmark für die CT-Rekonstruktion. DM4CT umfasst Datensätze aus medizinischen und industriellen Bereichen mit Sparse-View- und verrauschten Konfigurationen. Um die Herausforderungen des praktischen Einsatzes von Diffusionsmodellen zu untersuchen, erfassen wir zusätzlich einen hochauflösenden CT-Datensatz an einer hochenergetischen Synchrotron-Einrichtung und evaluieren alle Methoden unter realen experimentellen Bedingungen. Wir benchmarken zehn neuere diffusionsbasierte Methoden zusammen mit sieben starken Baseline-Methoden, darunter modellbasierte, unüberwachte und überwachte Ansätze. Unsere Analyse liefert detaillierte Einblicke in das Verhalten, die Stärken und die Grenzen von Diffusionsmodellen für die CT-Rekonstruktion. Der Realwelt-Datensatz ist öffentlich unter zenodo.org/records/15420527 verfügbar, und die Codebasis ist unter github.com/DM4CT/DM4CT quelloffen.

Yor-Sarc: Ein Goldstandard-Datensatz zur Sarkasmuserkennung in einer afrikanischen Sprache mit geringen Ressourcen
Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Feb 21

ByToheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov

Die Erkennung von Sarkasmus stellt eine grundlegende Herausforderung in der computerlinguistischen Semantik dar, da Modelle die Diskrepanz zwischen wörtlicher und beabsichtigter Bedeutung auflösen müssen. Diese Herausforderung wird in ressourcenarmen Sprachen, in denen annotierte Datensätze knapp oder nicht vorhanden sind, noch verstärkt. Wir stellen Yor-Sarc vor, den ersten Goldstandard-Datensatz zur Sarkasmuserkennung in Yorùbá, einer tonale Niger-Kongo-Sprache, die von über 50 Millionen Menschen gesprochen wird. Der Datensatz umfasst 436 Instanzen, die von drei muttersprachlichen Annotatorinnen und Annotatoren mit unterschiedlichen dialektalen Hintergründen annotiert wurden. Dabei wurde ein Annotationsprotokoll verwendet, das speziell für Sarkasmus in Yorùbá unter Berücksichtigung kultureller Aspekte entwickelt wurde. Dieses Protokoll integriert kontextsensitive Interpretation und gemeinschaftsbasierte Richtlinien und wird von einer umfassenden Analyse der Inter-Annotator-Übereinstimmung begleitet, um die Replizierbarkeit in anderen afrikanischen Sprachen zu unterstützen. Es wurde eine substanzielle bis nahezu perfekte Übereinstimmung erzielt (Fleiss' κ=0,7660; paarweises Cohen's κ=0,6732–0,8743), wobei 83,3 % der Annotationen einstimmig waren. Ein Annotatorenpaar erreichte eine nahezu perfekte Übereinstimmung (κ=0,8743; 93,8 % Rohübereinstimmung), die eine Reihe berichteter Benchmarks aus englischsprachigen Sarkasmusforschungsarbeiten übertrifft. Die verbleibenden 16,7 % der Fälle mit Mehrheitsübereinstimmung werden als Soft Labels für unsicherheitsbewusste Modellierung erhalten. Yor-Sarc (https://github.com/toheebadura/yor-sarc) soll die Forschung zur semantischen Interpretation und kulturbewussten Sprachverarbeitung für ressourcenarme afrikanische Sprachen voranbringen.

Die Hypothese des Wahrhaftigkeitsspektrums
The Truthfulness Spectrum Hypothesis

Feb 23

ByZhuofan Josh Ying, Shauli Ravfogel, Nikolaus Kriegeskorte, Peter Hase

Große Sprachmodelle (LLMs) sollen Wahrhaftigkeit linear kodieren, doch jüngste Arbeiten stellen die Allgemeingültigkeit dieses Befunds in Frage. Wir vereinen diese Ansichten mit der Hypothese des Wahrhaftigkeitsspektrums: Der Repräsentationsraum enthält Richtungen, die von breit domänenübergreifend bis hin zu eng domänenspezifisch reichen. Um diese Hypothese zu testen, evaluieren wir systematisch die Generalisierung von Probes über fünf Wahrheitstypen hinweg (definitorisch, empirisch, logisch, fiktional und ethisch), sykophantisches und erwartungsinvertiertes Lügen sowie bestehende Ehrlichkeits-Benchmarks. Lineare Probes generalisieren gut über die meisten Domänen hinweg, scheitern jedoch bei sykophantischem und erwartungsinvertiertem Lügen. Doch Training über alle Domänen hinweg stellt eine starke Leistung wieder her, was bestätigt, dass domänenübergreifende Richtungen existieren, trotz schlechter paarweiser Übertragung. Die Geometrie der Probe-Richtungen erklärt diese Muster: Die Mahalanobis-Kosinusähnlichkeit zwischen Probes sagt domänenübergreifende Generalisierung nahezu perfekt vorher (R²=0,98). Konzeptlöschungsmethoden isolieren weiterhin Wahrheitsrichtungen, die (1) domänenübergreifend, (2) domänenspezifisch oder (3) nur über bestimmte Domänenteilmengen hinweg geteilt sind. Kausale Interventionen zeigen, dass domänenspezifische Richtungen wirksamer steuern als domänenübergreifende. Schließlich verändert Nachtraining die Wahrheitsgeometrie, indem es sykophantisches Lügen weiter von anderen Wahrheitstypen entfernt, was auf eine repräsentationale Basis für die sykophantischen Tendenzen von Chat-Modellen hindeutet. Zusammengenommen stützen unsere Ergebnisse die Hypothese des Wahrhaftigkeitsspektrums: Wahrheitsrichtungen unterschiedlicher Allgemeinheit koexistieren im Repräsentationsraum, wobei Nachtraining ihre Geometrie verändert. Der Code für alle Experimente ist unter https://github.com/zfying/truth_spec verfügbar.

NoLan: Minderung von Objekthalluzinationen in großen visuell-sprachlichen Modellen durch dynamische Unterdrückung sprachlicher A-priori-Informationen
NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Feb 25

ByLingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

Objekt-Halluzinationen sind ein kritisches Problem bei großen visuell-sprachlichen Modellen (LVLMs), bei denen Ausgaben Objekte enthalten, die nicht im Eingabebild vorkommen. Aus diesem Phänomen ergibt sich eine naheliegende Frage: Welche Komponente der LVLM-Pipeline trägt hauptsächlich zu Objekt-Halluzinationen bei? Der Vision-Encoder zur Wahrnehmung visueller Informationen oder der Language-Decoder zur Generierung von Textantworten? In dieser Arbeit streben wir an, diese Frage durch die Entwicklung eines systematischen Experiments zu beantworten, um die Rollen des Vision-Encoders und des Language-Decoders bei der Erzeugung von Halluzinationen zu analysieren. Unsere Beobachtungen zeigen, dass Objekt-Halluzinationen überwiegend mit den starken A-priori-Annahmen des Language-Decoders zusammenhängen. Auf Basis dieser Erkenntnis schlagen wir ein einfaches, trainingsfreies Framework vor: No-Language-Hallucination Decoding (NoLan). Dieses verfeinert die Ausgabeverteilung durch dynamische Unterdrückung sprachlicher A-priori-Annahmen, moduliert auf Basis des Unterschieds in der Ausgabeverteilung zwischen multimodalen und rein textbasierten Eingaben. Experimentelle Ergebnisse demonstrieren, dass NoLan Objekt-Halluzinationen effektiv bei verschiedenen LVLMs in unterschiedlichen Aufgaben reduziert. Beispielsweise erzielt NoLan auf POPE erhebliche Verbesserungen und steigert die Genauigkeit von LLaVA-1.5 7B und Qwen-VL 7B um bis zu 6,45 bzw. 7,21 Punkte. Der Code ist öffentlich verfügbar unter: https://github.com/lingfengren/NoLan.

Funktionelle kontinuierliche Zerlegung
Functional Continuous Decomposition

Feb 24

ByTeymur Aghayev

Die Analyse nicht-stationärer Zeitreihendaten erfordert Einblicke in lokale und globale Muster mit physikalischer Interpretierbarkeit. Herkömmliche Glättungsalgorithmen wie B-Splines, Savitzky-Golay-Filterung und Empirical Mode Decomposition (EMD) sind jedoch nicht in der Lage, parametrische Optimierung mit garantierter Stetigkeit durchzuführen. In dieser Arbeit stellen wir Functional Continuous Decomposition (FCD) vor, ein JAX-beschleunigtes Framework, das parametrische, kontinuierliche Optimierung für eine breite Palette mathematischer Funktionen durchführt. Durch den Einsatz von Levenberg-Marquardt-Optimierung zur Erzielung von bis zu C^1-stetiger Approximation transformiert FCD Rohzeitreihendaten in M Moden, die unterschiedliche zeitliche Muster von kurzfristigen bis zu langfristigen Trends erfassen. Anwendungen von FCD umfassen Physik, Medizin, Finanzanalyse und maschinelles Lernen, wo es häufig zur Analyse zeitlicher Signalverläufe, optimierter Parameter sowie Ableitungen und Integrale der Zerlegung eingesetzt wird. Darüber hinaus kann FCD für physikalische Analysen und Merkmalsextraktion mit einem durchschnittlichen SRMSE von 0,735 pro Segment und einer Geschwindigkeit von 0,47s bei vollständiger Zerlegung von 1.000 Punkten angewendet werden. Abschließend zeigen wir, dass ein mit FCD-Merkmalen (wie optimierten Funktionswerten, Parametern und Ableitungen) erweitertes Convolutional Neural Network (CNN) eine um 16,8 % schnellere Konvergenz und eine um 2,5 % höhere Genauigkeit gegenüber einem Standard-CNN erzielte.

Intent Laundering: KI-Sicherheitsdatensätze sind nicht das, was sie zu sein scheinen
Intent Laundering: AI Safety Datasets Are Not What They Seem

Feb 17

ByShahriar Golchin, Marc Wetter

Wir evaluieren systematisch die Qualität weit verbreititer KI-Sicherheitsdatensätze aus zwei Perspektiven: isoliert betrachtet und in der Praxis. In der Isolierung untersuchen wir, wie gut diese Datensätze reale adversarielle Angriffe anhand drei Schlüsseleigenschaften widerspiegeln: ob sie von verdeckter Absicht getrieben sind, sorgfältig konstruiert wurden und Out-of-Distribution-Verhalten aufweisen. Wir stellen fest, dass diese Datensätze übermäßig auf "Trigger-Cues" angewiesen sind: Wörter oder Phrasen mit offensichtlich negativen/sensitiven Konnotationen, die Sicherheitsmechanismen explizit auslösen sollen, was im Vergleich zu realen Angriffen unrealistisch ist. In der Praxis evaluieren wir, ob diese Datensätze tatsächlich Sicherheitsrisiken messen oder lediglich Verweigerungen durch Trigger-Cues provozieren. Um dies zu untersuchen, führen wir "Intent Laundering" ein: ein Verfahren, das Trigger-Cues von adversariellen Angriffen (Datenpunkten) abstrahiert, während ihre bösartige Absicht und alle relevanten Details strikt erhalten bleiben. Unsere Ergebnisse zeigen, dass aktuelle KI-Sicherheitsdatensätze adversarielles Verhalten aus der Realität aufgrund ihrer Überabhängigkeit von Trigger-Cues nicht treu abbilden. Sobald diese Cues entfernt werden, werden alle zuvor als "angemessen sicher" eingestuften Modelle unsicher, einschließlich Gemini 3 Pro und Claude Sonnet 3.7. Wenn Intent Laundering zudem als Jailbreaking-Technik adaptiert wird, erzielt es durchgängig hohe Angriffserfolgsraten von 90 % bis über 98 % unter vollständig Black-Box-Zugangsbedingungen. Insgesamt legen unsere Ergebnisse eine signifikante Diskrepanz zwischen der Modellsicherheitsbewertung durch bestehende Datensätze und dem Verhalten realer Angreifer offen.