HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

28 papers found

Die Dreifaltigkeit der Konsistenz als definierendes Prinzip für allgemeine Weltmodelle
The Trinity of Consistency as a Defining Principle for General World Models

Feb 26

ByJingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan

197

Die Konstruktion von Weltmodellen, die objektive physikalische Gesetze erlernen, simulieren und darüber schlussfolgern können, stellt eine grundlegende Herausforderung auf dem Weg zur Künstlichen Allgemeinen Intelligenz dar. Jüngste Fortschritte, repräsentiert durch Videogenerierungsmodelle wie Sora, haben das Potenzial datengetriebener Skalierungsgesetze zur Approximation physikalischer Dynamiken aufgezeigt, während das aufkommende Unified Multimodal Model (UMM) ein vielversprechendes Architekturparadigma zur Integration von Wahrnehmung, Sprache und logischem Schlussfolgern bietet. Trotz dieser Fortschritte fehlt es dem Feld nach wie vor an einem prinzipienbasierten theoretischen Rahmenwerk, das die wesentlichen Eigenschaften eines allgemeinen Weltmodells definiert. In diesem Beitrag schlagen wir vor, dass ein Weltmodell auf der Trinität der Konsistenz gründen muss: modale Konsistenz als semantische Schnittstelle, räumliche Konsistenz als geometrische Basis und zeitliche Konsistenz als kausale Triebkraft. Durch diese dreiteilige Betrachtung systematisieren wir die Evolution multimodalen Lernens und zeigen einen Entwicklungspfad von lose gekoppelten spezialisierten Modulen hin zu vereinheitlichten Architekturen auf, die die synergetische Emergenz interner Weltsimulatoren ermöglichen. Zur Ergänzung dieses konzeptionellen Rahmens führen wir CoW-Bench ein, einen Benchmark, der sich auf Szenarien mit Mehrbild-Schlussfolgerung und -Generierung konzentriert. CoW-Bench evaluiert sowohl Videogenerierungsmodelle als auch UMMs unter einem einheitlichen Bewertungsprotokoll. Unsere Arbeit etabliert einen prinzipienbasierten Weg hin zu allgemeinen Weltmodellen, der sowohl die Grenzen aktueller Systeme als auch die architektonischen Anforderungen für zukünftige Fortschritte aufzeigt.

Von blinden Flecken zu Gewinnen: Diagnosegestütztes iteratives Training für große multimodale Modelle
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Feb 26

ByHongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

148

Während sich Large Multimodale Modelle (LMMs) hochskalieren und Methoden des Reinforcement Learning (RL) reifen, haben LMMs bedeutende Fortschritte im komplexen Schlussfolgern und Entscheidungsfinden erzielt. Das Training stützt sich jedoch nach wie vor auf statische Daten und feste Abläufe, was es schwierig macht, Fähigkeitslücken zu diagnostizieren oder eine dynamische, gezielte Verstärkung bereitzustellen. Angeregt durch die Erkenntnis, dass testgetriebene Fehlerexposition und feedbackbasierte Korrektur repetitives Üben übertreffen, schlagen wir Diagnostic-driven Progressive Evolution (DPE) vor – eine spiralförmige Schleife, in der die Diagnose die Datengenerierung und Verstärkung steuert und jede Iteration das aktualisierte Modell erneut diagnostiziert, um die nächste Runde gezielter Verbesserung anzutreiben. DPE hat zwei Schlüsselkomponenten. Erstens annotieren und kontrollieren mehrere Agenten die Qualität massiver ungelabelter multimodaler Daten und nutzen Werkzeuge wie Websuche und Bildbearbeitung, um vielfältige, realistische Beispiele zu erzeugen. Zweitens attributiert DPE Fehler spezifischen Schwächen, passt die Datenmischung dynamisch an und leitet Agenten an, schwächenfokussierte Daten für gezielte Verstärkung zu generieren. Experimente mit Qwen3-VL-8B-Instruct und Qwen2.5-VL-7B-Instruct zeigen stabile, kontinuierliche Verbesserungen über elf Benchmarks hinweg, was DPE als skalierbares Paradigma für kontinuierliches LMM-Training unter offenen Aufgabenverteilungen ausweist. Unser Code, Modelle und Daten sind öffentlich verfügbar unter https://github.com/hongruijia/DPE.

MobilityBench: Ein Benchmark zur Bewertung von Routenplanungsagenten in realen Mobilitätsszenarien
MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Feb 26

ByZhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

106

Von großen Sprachmodellen (LLMs) gestützte Routenplanungs-Agenten haben sich als vielversprechendes Paradigma erwiesen, um die alltägliche menschliche Mobilität durch natürliche Sprachinteraktion und werkzeugvermittelte Entscheidungsfindung zu unterstützen. Eine systematische Evaluation in realen Mobilitätsszenarien wird jedoch durch vielfältige Routenanforderungen, nicht-deterministische Kartendienste und eingeschränkte Reproduzierbarkeit erschwert. In dieser Studie stellen wir MobilityBench vor, einen skalierbaren Benchmark zur Bewertung LLM-basierter Routenplanungs-Agenten in realen Mobilitätsszenarien. MobilityBench wurde aus groß angelegten, anonymisierten Echtzeit-Nutzeranfragen von Amap erstellt und deckt ein breites Spektrum an Routenplanungsabsichten in mehreren Städten weltweit ab. Um eine reproduzierbare End-to-End-Evaluation zu ermöglichen, entwerfen wir eine deterministische API-Replay-Sandbox, die Umgebungsvarianzen von Live-Diensten eliminiert. Darüber hinaus schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das auf der Ergebnisvalidität zentriert ist und durch Bewertungen des Instruktionsverständnisses, der Planung, der Werkzeugnutzung und der Effizienz ergänzt wird. Mit MobilityBench evaluieren wir mehrere LLM-basierte Routenplanungs-Agenten in verschiedenen realen Mobilitätsszenarien und liefern eine eingehende Analyse ihres Verhaltens und ihrer Leistung. Unsere Ergebnisse zeigen, dass aktuelle Modelle bei grundlegenden Aufgaben der Informationsbeschaffung und Routenplanung kompetent abschneiden, jedoch erhebliche Schwierigkeiten mit präferenzbeschränkter Routenplanung haben, was signifikanten Verbesserungsbedarf bei personalisierten Mobilitätsanwendungen aufzeigt. Wir veröffentlichen die Benchmark-Daten, das Evaluations-Toolkit und die Dokumentation öffentlich unter https://github.com/AMAP-ML/MobilityBench.

OmniGAIA: Auf dem Weg zu nativen omni-modalen KI-Agenten
OmniGAIA: Towards Native Omni-Modal AI Agents

Feb 26

ByXiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

Menschliche Intelligenz verbindet auf natürliche Weise omni-modale Wahrnehmung – die Vision, Audio und Sprache umfasst – mit komplexem Denken und Werkzeuggebrauch, um mit der Welt zu interagieren. Aktuelle multimodale LLMs sind jedoch hauptsächlich auf bi-modale Interaktionen (z.B. Vision-Sprache) beschränkt und entbehren der vereinheitlichten kognitiven Fähigkeiten, die für allgemeine KI-Assistenten erforderlich sind. Um diese Lücke zu schließen, stellen wir OmniGAIA vor, einen umfassenden Benchmark zur Bewertung omni-modaler Agenten bei Aufgaben, die tiefgehendes Schlussfolgern und mehrstufige Werkzeugausführung über Video-, Audio- und Bildmodalitäten hinweg erfordern. Konstruiert durch einen neuartigen omni-modalen Ereignisgraphen-Ansatz synthetisiert OmniGAIA komplexe, mehrstufige Abfragen aus realen Daten, die cross-modales Reasoning und die Integration externer Werkzeuge erfordern. Darüber hinaus schlagen wir OmniAtlas vor, einen nativen omni-modalen Basis-Agenten innerhalb eines werkzeugintegrierten Reasoning-Paradigmas mit aktiver omni-modaler Wahrnehmung. Trainiert mit Trajektorien, die durch eine rückblickgesteuerte Baumexplorationsstrategie synthetisiert wurden, sowie mit OmniDPO zur feinkörnigen Fehlerkorrektur, verbessert OmniAtlas effektiv die Werkzeugnutzungsfähigkeiten bestehender Open-Source-Modelle. Diese Arbeit markiert einen Schritt in Richtung nächster Generation nativer omni-modaler KI-Assistenten für reale Szenarien.

Vorstellungskraft unterstützt das visuelle Denken, aber noch nicht im latenten Raum.
Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Feb 26

ByYou Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun

Latentes visuelles Reasoning zielt darauf ab, den menschlichen Vorstellungsprozess nachzuahmen, indem durch versteckte Zustände Multimodaler Großsprachmodelle meditiert wird. Obwohl es als vielversprechendes Paradigma für visuelles Reasoning anerkannt ist, bleiben die zugrundeliegenden Mechanismen, die seine Wirksamkeit antreiben, unklar. Motiviert durch das Bestreben, die wahre Quelle seiner Effizienz zu entschlüsseln, untersuchen wir die Validität des latenten Reasonings mithilfe der Kausalen Mediationsanalyse. Wir modellieren den Prozess als kausale Kette: die Eingabe als Behandlung, die latenten Tokens als Mediator und die endgültige Antwort als Ergebnis. Unsere Ergebnisse decken zwei kritische Trennungen auf: (a) Eingabe-Latente-Trennung: Dramatische Störungen der Eingabe führen zu vernachlässigbaren Änderungen an den latenten Tokens, was darauf hindeutet, dass latente Tokens die Eingabesequenz nicht effektiv beachten. (b) Latente-Antwort-Trennung: Störungen der latenten Tokens haben minimalen Einfluss auf die endgültige Antwort, was auf die begrenzte kausale Wirkung hindeutet, die latente Tokens auf das Ergebnis ausüben. Darüber hinaus zeigt eine umfangreiche Analyse, dass latente Tokens nur begrenzte visuelle Informationen kodieren und eine hohe Ähnlichkeit aufweisen. Folglich stellen wir die Notwendigkeit des latenten Reasonings in Frage und schlagen eine einfache Alternative namens CapImagine vor, die dem Modell beibringt, explizit mit Text zu imaginieren. Experimente auf visuell zentrierten Benchmarks zeigen, dass CapImagine komplexe Baseline-Modelle im latenten Raum deutlich übertrifft und das überlegene Potenzial des visuellen Reasonings durch explizite Imagination hervorhebt.

Explorativer speichererweiterter LLM-Agent durch hybride On- und Off-Policy-Optimierung
Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Feb 26

ByZeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

Exploration bleibt der entscheidende Engpass für Agenten auf Basis großer Sprachmodelle, die mit Verstärkungslernen trainiert werden. Während bisherige Methoden vortrainiertes Wissen nutzen, versagen sie in Umgebungen, die die Entdeckung neuartiger Zustände erfordern. Wir schlagen Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO²) vor, ein hybrides RL-Framework, das Gedächtnis für die Exploration nutzt und On- und Off-Policy-Updates kombiniert, um LLMs sowohl mit Gedächtnis leistungsfähig zu machen als auch Robustheit ohne dieses zu gewährleisten. Auf ScienceWorld und WebShop erzielt EMPO² eine Verbesserung von 128,6 % bzw. 11,3 % gegenüber GRPO. Darüber hinaus zeigt EMPO² in Out-of-Distribution-Tests eine überlegene Anpassungsfähigkeit an neue Aufgaben, die nur wenige Versuche mit Gedächtnis und keine Parameteraktualisierungen erfordert. Diese Ergebnisse unterstreichen EMPO² als vielversprechendes Framework für den Aufbau explorativerer und generalisierbarer LLM-basierter Agenten.

AgentDropoutV2: Optimierung des Informationsflusses in Multi-Agenten-Systemen durch Test-Zeit "Korrigieren-oder-Ablehnen"-Ausdünnung
AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Feb 26

ByYutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding, Miao Zhang, Min Zhang

Während Multi-Agenten-Systeme (MAS) bei komplexen Denkaufgaben hervorragende Leistungen erbringen, leiden sie unter der kaskadierenden Wirkung fehlerhafter Informationen, die von einzelnen Teilnehmern erzeugt werden. Aktuelle Lösungen greifen oft auf starre Strukturierung oder aufwändiges Fine-Tuning zurück, was ihre Einsatzfähigkeit und Anpassungsfähigkeit einschränkt. Wir schlagen AgentDropoutV2 vor, ein Test-Time-Rectify-or-Reject-Framework zur dynamischen Optimierung des MAS-Informationsflusses ohne Neutraining. Unser Ansatz fungiert als aktive Firewall, die Agentenausgaben abfängt und einen retrieval-augmentierten Korrekturmechanismus einsetzt, um Fehler iterativ auf Basis eines fehlergetriebenen Indikatorpools zu beheben. Dieser Mechanismus ermöglicht die präzise Identifizierung potenzieller Fehler, indem destillierte Fehlermuster als Vorwissen genutzt werden. Nicht reparaturfähige Ausgaben werden anschließend beschnitten, um eine Fehlerfortpflanzung zu verhindern, während eine Fallback-Strategie die Systemintegrität bewahrt. Empirische Ergebnisse auf umfangreichen Mathematik-Benchmarks zeigen, dass AgentDropoutV2 die Aufgabenleistung des MAS signifikant steigert und einen durchschnittlichen Genauigkeitszuwachs von 6,3 Prozentpunkten auf Mathematik-Benchmarks erzielt. Darüber hinaus weist das System eine robuste Generalisierungs- und Anpassungsfähigkeit auf, moduliert dynamisch den Korrekturaufwand basierend auf der Aufgabenschwierigkeit und nutzt kontextbewusste Indikatoren zur Lösung eines breiten Spektrums von Fehlermustern. Unser Code und Datensatz sind unter https://github.com/TonySY2/AgentDropoutV2 veröffentlicht.

MediX-R1: Offenes medizinisches Verstärkungslernen
MediX-R1: Open Ended Medical Reinforcement Learning

Feb 26

BySahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal

Wir stellen MediX-R1 vor, ein offenes Reinforcement-Learning (RL)-Framework für medizinische multimodale Large Language Models (MLLMs), das klinisch fundierte, freiformulierte Antworten jenseits von Multiple-Choice-Formaten ermöglicht. MediX-R1 feintunt ein Basis-Vision-Sprache-Backbone mit gruppenbasiertem RL und einer zusammengesetzten Belohnungsfunktion, die auf medizinisches Reasoning zugeschnitten ist: eine LLM-basierte Genauigkeitsbelohnung, die die semantische Korrektheit mit einer strengen JA/NEIN-Entscheidung bewertet, eine belohnungsbasierte semantische Belohnung auf Grundlage medizinischer Embeddings, um Paraphrasen und Terminologievarianten zu erfassen, sowie leichtgewichtige Format- und Modalitätsbelohnungen, die interpretierbares Reasoning und Modalitätserkennung erzwingen. Dieser Multi-Signal-Ansatz liefert stabile, informative Rückmeldungen für offene Ausgaben, bei denen traditionelle überprüfbare oder nur auf Multiple-Choice basierende Belohnungsfunktionen versagen. Um Fortschritte zu messen, schlagen wir einen einheitlichen Evaluierungsrahmen für sowohl rein textbasierte als auch Bild+Text-Aufgaben vor, der einen referenzbasierten LLM-as-Judge anstelle von anfälligen String-Überlappungsmetriken verwendet und semantische Korrektheit, Reasoning und kontextuelle Ausrichtung erfasst. Trotz der Verwendung von nur sim51K Instruktionsbeispielen erzielt MediX-R1 exzellente Ergebnisse über Standard-Benchmarks für medizinische LLMs (nur Text) und VLMs (Bild + Text) hinweg, übertrifft starke Open-Source-Baselines und erzielt besonders große Verbesserungen bei offenen klinischen Aufgaben. Unsere Ergebnisse demonstrieren, dass offenes RL mit umfassenden Belohnungssignalen und LLM-basierter Evaluation ein praktikabler Weg zu zuverlässigem medizinischem Reasoning in multimodalen Modellen ist. Unsere trainierten Modelle, kuratierten Datensätze und der Quellcode sind verfügbar unter https://medix.cvmbzuai.com.

Mehr Suchen, Weniger Denken: Eine Neubewertung langfristiger agentenbasierter Suche für Effizienz und Generalisierung
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Feb 26

ByQianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou

Aktuelle Deep-Research-Agents verbessern ihre Leistung primär durch Skalierung der Reasoning-Tiefe, was jedoch in suchintensiven Szenarien zu hohen Inferenzkosten und Latenzzeiten führt. Zudem bleibt die Generalisierung über heterogene Forschungsumgebungen hinweg eine Herausforderung. In dieser Arbeit schlagen wir Search More, Think Less (SMTL) vor, ein Framework für langfristige agentenbasierte Suche, das sowohl Effizienz als auch Generalisierung anstrebt. SMTL ersetzt sequenzielles Reasoning durch parallele Evidenzgewinnung und ermöglicht so effizientes Kontextmanagement unter begrenzten Kontextbudgets. Um die Generalisierung über verschiedene Aufgabentypen hinweg zu unterstützen, führen wir zudem eine vereinheitlichte Datensynthese-Pipeline ein, die Suchaufgaben konstruiert, die sowohl deterministische Frage-Antwort-Szenarien als auch offene Forschungsszenarien mit aufgabengerechten Evaluierungsmetriken abdecken. Wir trainieren einen End-to-End-Agenten mittels supervised Fine-Tuning und Reinforcement Learning, der starke und oft state-of-the-art Leistung über Benchmarks einschließlich BrowseComp (48,6 %), GAIA (75,7 %), Xbench (82,0 %) und DeepResearch Bench (45,9 %) erreicht. Im Vergleich zu Mirothinker-v1.0 reduziert SMTL mit maximal 100 Interaktionsschritten die durchschnittliche Anzahl der Reasoning-Schritte auf BrowseComp um 70,7 % bei gleichzeitiger Verbesserung der Genauigkeit.

VGG-T^3: Skalierbare Offline-Feed-Forward-3D-Rekonstruktion
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

Feb 26

BySven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep

Wir stellen ein skalierbares 3D-Rekonstruktionsmodell vor, das eine kritische Einschränkung von Offline-Feed-Forward-Verfahren adressiert: deren Rechen- und Speicheranforderungen wachsen quadratisch mit der Anzahl der Eingabebilder. Unser Ansatz basiert auf der zentralen Erkenntnis, dass dieser Engpass auf der variablen Länge der Key-Value (KV)-Raumdarstellung der Szenengeometrie beruht, die wir mittels Test-Time-Training in ein feststehendes Multi-Layer Perceptron (MLP) destillieren. VGG-T^3 (Visual Geometry Grounded Test Time Training) skaliert linear mit der Anzahl der Eingabeansichten, ähnlich wie Online-Modelle, und rekonstruiert eine Sammlung von 1.000 Bildern in nur 54 Sekunden, was eine 11,6-fache Beschleunigung gegenüber Baseline-Modellen darstellt, die auf Softmax-Attention angewiesen sind. Da unsere Methode die globale Szenenaggregationsfähigkeit beibehält, übertrifft unser Rekonstruktionsfehler der Punktwolke andere lineare Verfahren mit großem Abstand. Abschließend demonstrieren wir die visuelle Lokalisierungsfähigkeit unseres Modells, indem wir die Szenendarstellung mit unbekannten Bildern abfragen.

Beschleunigung der Diffusion durch hybride Daten-Pipeline-Parallelisierung basierend auf bedarfsgesteuerter Conditional-Guidance-Planung
Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Feb 25

ByEuisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee

Diffusionsmodelle haben bemerkenswerte Fortschritte bei der hochauflösenden Erzeugung von Bildern, Videos und Audiodaten erzielt, doch der Inferenzvorgang bleibt rechenintensiv. Bisherige Beschleunigungsmethoden für Diffusionsmodelle, die auf verteilter Parallelverarbeitung basieren, leiden jedoch unter sichtbaren Generierungsartefakten und erreichen keine wesentliche Beschleunigung, die proportional zur Anzahl der GPUs ist. Daher schlagen wir ein Hybrid-Parallelisierungsframework vor, das eine neuartige Datenparallelstrategie, die condition-basierte Partitionierung, mit einer optimalen Pipeline-Planungsmethode, dem adaptiven Parallelitätswechsel, kombiniert, um die Generierungslatenz zu verringern und eine hohe Generierungsqualität in konditionalen Diffusionsmodellen zu erreichen. Die zentralen Ideen sind (i) die konditionalen und unkonditionellen Denoising-Pfade als neue Perspektive für die Datenpartitionierung zu nutzen und (ii) optimales Pipeline-Parallelismus adaptiv entsprechend der Denoising-Diskrepanz zwischen diesen beiden Pfaden zu aktivieren. Unser Framework erreicht eine Latenzreduktion um den Faktor 2,31 bei SDXL und 2,07 bei SD3 unter Verwendung von zwei NVIDIA RTX~3090 GPUs, bei gleichzeitiger Beibehaltung der Bildqualität. Dieses Ergebnis bestätigt die Allgemeingültigkeit unseres Ansatzes für U-Net-basierte Diffusionsmodelle und DiT-basierte Flow-Matching-Architekturen. Unser Ansatz übertrifft auch bestehende Methoden in der Beschleunigung unter Hochauflösungs-Synthese-Einstellungen. Der Code ist verfügbar unter https://github.com/kaist-dmlab/Hybridiff.

Allgemeine Bewertung von Agenten
General Agent Evaluation

Feb 26

ByElron Bandel, Asaf Yehudai, Lilach Eden, Yehoshua Sagron, Yotam Perlitz, Elad Venezian, Natalia Razinkov, Natan Ergas, Shlomit Shachor Ifergan, Segev Shlomov, Michal Jacovi, Leshem Choshen, Liat Ein-Dor, Yoav Katz, Michal Shmueli-Scheuer

Die Verheißung universell einsetzbarer Agenten – Systeme, die Aufgaben in unbekannten Umgebungen ohne domainspezifische Anpassungen bewältigen – bleibt größtenteils unerfüllt. Bestehende Agenten sind überwiegend spezialisiert, und obwohl neuere Implementierungen wie der OpenAI SDK Agent und Claude Code auf breitere Fähigkeiten hindeuten, wurde bisher keine systematische Evaluation ihrer allgemeinen Leistungsfähigkeit durchgeführt. Aktuelle Benchmarks für Agenten setzen domainspezifische Integration voraus und kodieren Aufgabeninformationen auf eine Weise, die eine faire Bewertung allgemeiner Agenten ausschließt. Dieser Beitrag etabliert die Evaluation allgemeiner Agenten als primäres Forschungsziel. Wir schlagen konzeptionelle Prinzipien für eine solche Evaluation vor, ein Unified Protocol zur Integration von Agenten in Benchmarks sowie Exgentic – einen praktischen Rahmen zur Evaluation allgemeiner Agenten. Wir evaluieren fünf prominente Agenten-Implementierungen in sechs Umgebungen als erstes Open General Agent Leaderboard. Unsere Experimente zeigen, dass allgemeine Agenten über diverse Umgebungen hinweg generalisieren und eine mit domainspezifischen Agenten vergleichbare Leistung erzielen, ohne jegliche umgebungsspezifische Optimierung. Wir veröffentlichen unser Evaluationsprotokoll, Framework und Leaderboard, um eine Grundlage für systematische Forschung zu universell einsetzbaren Agenten zu schaffen.

EmbodMocap: In-the-Wild 4D-Mensch-Umgebung-Rekonstruktion für verkörperte Agenten
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Feb 26

ByWenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura

Menschliche Verhaltensweisen in der realen Welt kodieren natürlicherweise reiche, langfristige kontextuelle Informationen, die genutzt werden können, um verkörperte Agenten für Wahrnehmung, Verständnis und Handeln zu trainieren. Bisherige Erfassungssysteme sind jedoch typischerweise auf kostspielige Studioaufbauten und Wearable-Geräte angewiesen, was die großflächige Sammlung von szenen-konditionierten menschlichen Bewegungsdaten in unkontrollierten Umgebungen einschränkt. Um dieses Problem zu lösen, schlagen wir EmbodMocap vor, eine portable und kostengünstige Datenerfassungs-Pipeline, die zwei bewegliche iPhones verwendet. Unser zentraler Ansatz ist die gemeinsame Kalibrierung dualer RGB-D-Sequenzen, um sowohl Menschen als auch Szenen innerhalb eines einheitlichen metrischen Weltkoordinatensystems zu rekonstruieren. Die vorgeschlagene Methode ermöglicht eine metrisch skalierte und szenenkonsistente Erfassung in alltäglichen Umgebungen ohne statische Kameras oder Marker und verbindet menschliche Bewegung und Szenengeometrie nahtlos. Im Vergleich mit Ground-Truth-Daten aus optischer Erfassung zeigen wir, dass die Dual-View-Konfiguration eine bemerkenswerte Fähigkeit besitzt, Tiefenmehrdeutigkeiten zu reduzieren, und eine überlegene Ausrichtung und Rekonstruktionsleistung gegenüber Single-iPhone- oder monokularen Modellen erzielt. Basierend auf den gesammelten Daten ermöglichen wir drei verkörperte KI-Aufgaben: monokulare Mensch-Szene-Rekonstruktion, bei der wir Forward-Modelle finetunen, die metrisch skalierte, weltraumausgerichtete Menschen und Szenen ausgeben; physikbasierte Charakteranimation, bei der wir nachweisen, dass unsere Daten genutzt werden können, um Mensch-Objekt-Interaktionsfähigkeiten und szenenbewusste Bewegungsverfolgung zu skalieren; und Roboterbewegungssteuerung, wo wir einen humanoiden Roboter mittels Sim-to-Real Reinforcement Learning trainieren, um in Videos dargestellte menschliche Bewegungen nachzuahmen. Experimentelle Ergebnisse validieren die Wirksamkeit unserer Pipeline und ihren Beitrag zur Weiterentwicklung der Forschung zu verkörperter KI.

KI-Spielestore: Skalierbare, offene Bewertung der maschinellen Allgemeinintelligenz mit menschlichen Spielen
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Feb 19

ByLance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum

Eine rigorose Bewertung der maschinellen Intelligenz anhand des breiten Spektrums der menschlichen Allgemeinintelligenz ist in dieser Ära des raschen technologischen Fortschritts zunehmend wichtig und herausfordernd geworden. Herkömmliche KI-Benchmarks bewerten typischerweise nur eingeschränkte Fähigkeiten in einem begrenzten Bereich menschlicher Aktivitäten. Die meisten sind zudem statisch und sättigen sich schnell, da Entwickler explizit oder implizit für sie optimieren. Wir schlagen vor, dass eine vielversprechendere Methode zur Bewertung einer menschenähnlichen Allgemeinintelligenz in KI-Systemen in einer besonders starken Form des General Game Playing liegt: der Untersuchung, wie und wie gut sie alle denkbaren menschlichen Spiele spielen und erlernen, im Vergleich zu menschlichen Spielern mit demselben Erfahrungsniveau, derselben Zeit oder anderen Ressourcen. Wir definieren ein "menschliches Spiel" als ein von Menschen für Menschen entworfenes Spiel und argumentieren für die Eignung dieses Raums aller solcher Spiele, die sich Menschen vorstellen können und an denen sie Freude haben – das "Multiversum der menschlichen Spiele". Als ersten Schritt in Richtung dieser Vision stellen wir den AI GameStore vor, eine skalierbare und erweiterbare Plattform, die LLMs mit menschlicher Beteiligung nutzt, um neue repräsentative menschliche Spiele zu synthetisieren, indem standardisierte und containerisierte Varianten von Spielumgebungen aus beliebten digitalen Human-Gaming-Plattformen automatisch bezogen und angepasst werden. Als Proof of Concept generierten wir 100 solcher Spiele basierend auf den Top-Charts des Apple App Store und von Steam und bewerteten sieben fortschrittliche Vision-Language-Modelle (VLMs) anhand kurzer Spielepisoden. Die besten Modelle erreichten bei der Mehrheit der Spiele weniger als 10 % der durchschnittlichen menschlichen Punktzahl und hatten besonders mit Spielen zu kämpfen, die das Lernen von Weltmodellen, Gedächtnis und Planungsfähigkeiten herausfordern. Wir schließen mit einer Reihe von nächsten Schritten zum Ausbau des AI GameStore als praktische Methode, um Fortschritte in Richtung einer menschenähnlichen Allgemeinintelligenz in Maschinen zu messen und voranzutreiben.

GeoWorld: Geometrische Weltmodelle
GeoWorld: Geometric World Models

Feb 26

ByZeyu Zhang, Danning Li, Ian Reid, Richard Hartley

Energiebasierte prädiktive Weltmodelle bieten einen leistungsstarken Ansatz für mehrstufige visuelle Planung, indem sie über latente Energielandschaften statt durch Generierung von Pixeln reasoning. Bestehende Ansätze stehen jedoch vor zwei großen Herausforderungen: (i) ihre latenten Repräsentationen werden typischerweise im euklidischen Raum gelernt, wobei die zugrundeliegende geometrische und hierarchische Struktur zwischen Zuständen vernachlässigt wird, und (ii) sie haben Schwierigkeiten mit Langzeitprognosen, was zu einem raschen Qualitätsverlust über längere Rollouts führt. Um diese Herausforderungen zu adressieren, führen wir GeoWorld ein, ein geometrisches Weltmodell, das die geometrische Struktur und hierarchische Beziehungen durch einen hyperbolischen JEPA erhält, der latente Repräsentationen vom euklidischen Raum auf hyperbolische Mannigfaltigkeiten abbildet. Wir führen weiterhin Geometrisches Reinforcement Learning zur energiebasierten Optimierung ein, das eine stabile mehrstufige Planung im hyperbolischen latenten Raum ermöglicht. Umfangreiche Experimente auf CrossTask und COIN zeigen eine Verbesserung der Success Rate (SR) von etwa 3 % bei der 3-Schritt-Planung und 2 % bei der 4-Schritt-Planung im Vergleich zum state-of-the-art V-JEPA 2. Projekt-Website: https://steve-zeyu-zhang.github.io/GeoWorld.

Kausale Bewegungsdiffusionsmodelle für autoregressive Bewegungsgenerierung
Causal Motion Diffusion Models for Autoregressive Motion Generation

Feb 26

ByQing Yu, Akihisa Watanabe, Kent Fujiwara

Jüngste Fortschritte bei Bewegungsdiffusionsmodellen haben den Realismus der menschlichen Bewegungssynthese erheblich verbessert. Bisherige Ansätze basieren jedoch entweder auf bidirektionalen Vollsequenz-Diffusionsmodellen, die die zeitliche Kausalität und Echtzeitanwendbarkeit einschränken, oder auf autoregressiven Modellen, die unter Instabilität und kumulativen Fehlern leiden. In dieser Arbeit stellen wir Kausale Bewegungsdiffusionsmodelle (CMDM) vor, einen einheitlichen Rahmen für die autoregressive Bewegungsgenerierung auf Basis eines kausalen Diffusionstransformators, der in einem semantisch ausgerichteten latenten Raum operiert. CMDM baut auf einem sprachbasiert-kausalen VAE (MAC-VAE) auf, der Bewegungssequenzen in zeitlich kausale latente Repräsentationen kodiert. Auf dieser latenten Repräsentation wird ein autoregressiver Diffusionstransformator trainiert, der unter Verwendung kausaler Diffusionsforcierung eine zeitlich geordnete Entrauschung über Bewegungsframes hinweg durchführt. Um schnelle Inferenz zu ermöglichen, führen wir einen frame-basierten Sampling-Plan mit kausaler Unsicherheit ein, bei dem jeder nachfolgende Frame aus teilweise entrauschten vorherigen Frames vorhergesagt wird. Das resultierende Framework unterstützt hochwertige Text-zu-Bewegungs-Generierung, Streaming-Synthese und langfristige Bewegungsgenerierung in interaktiven Raten. Experimente auf HumanML3D und SnapMoGen zeigen, dass CMDM bestehende Diffusions- und autoregressive Modelle sowohl in semantischer Treue als auch zeitlicher Glätte übertrifft und dabei die Inferenzlatenz erheblich reduziert.

veScale-FSDP: Flexible und hochperformante FSDP-Implementierung im großen Maßstab
veScale-FSDP: Flexible and High-Performance FSDP at Scale

Feb 25

ByZezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

Fully Sharded Data Parallel (FSDP), auch bekannt als ZeRO, wird häufig für das Training großskaliger Modelle eingesetzt und zeichnet sich durch seine Flexibilität und minimale Eingriffe in den Modellcode aus. Allerdings haben aktuelle FSDP-Systeme Schwierigkeiten mit strukturorientierten Trainingsmethoden (z. B. blockweise quantisiertes Training) und mit nicht-elementweisen Optimierern (z. B. Shampoo und Muon), die in modernsten Modellen (z. B. Gemini, Kimi K2) verwendet werden. Die festen element- oder zeilenweisen Sharding-Formate von FSDP stehen im Konflikt mit blockstrukturierten Berechnungen. Darüber hinaus weisen heutige Implementierungen Defizite in der Kommunikations- und Speichereffizienz auf, was die Skalierung auf Zehntausende von GPUs begrenzt. Wir stellen veScale-FSDP vor, ein neu gestaltetes FSDP-System, das ein flexibles Sharding-Format, RaggedShard, mit einem strukturorientierten Planungsalgorithmus kombiniert, um sowohl Flexibilität als auch Leistung im großen Maßstab zu bieten. veScale-FSDP unterstützt nativ die effiziente Datenplatzierung, die von FSDP benötigt wird, und ermöglicht so blockweise Quantisierung und nicht-elementweise Optimierer. Infolgedessen erzielt veScale-FSDP einen um 5–66 % höheren Durchsatz und einen um 16–30 % geringeren Speicherverbrauch als bestehende FSDP-Systeme, während es effizient auf Zehntausende von GPUs skaliert.

Abrufen und Segmentieren: Reichen wenige Beispiele aus, um die Überwachungslücke bei der Open-Vocabulary-Segmentierung zu schließen?
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Feb 26

ByTilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

Open-Vocabulary-Segmentierung (OVS) erweitert die Zero-Shot-Erkennungsfähigkeiten von Vision-Language-Modellen (VLMs) auf die Pixelvorhersage und ermöglicht so die Segmentierung beliebiger, durch Textprompts spezifizierter Kategorien. Trotz jüngster Fortschritte bleibt OVS hinter vollüberwachten Ansätzen zurück, was auf zwei Herausforderungen zurückzuführen ist: die grobe, auf Bildebene angewandte Supervision beim Training der VLMs und die semantische Mehrdeutigkeit der natürlichen Sprache. Wir adressieren diese Einschränkungen durch die Einführung eines Few-Shot-Settings, das textuelle Prompts um einen Support-Datensatz mit pixelgenau annotierten Bildern erweitert. Darauf aufbauend schlagen wir einen retrieval-augmentierten Test-Time-Adapter vor, der einen leichtgewichtigen, pro Bild gelernten Klassifikator durch die Fusion textueller und visueller Support-Merkmale erlernt. Im Gegensatz zu früheren Methoden, die auf späte, handgefertigte Fusion angewiesen sind, führt unser Ansatz eine gelernte, pro Query durchgeführte Fusion durch und erreicht so eine stärkere Synergie zwischen den Modalitäten. Die Methode unterstützt kontinuierlich wachsende Support-Datensätze und ist für feinkörnige Aufgaben wie personalisierte Segmentierung geeignet. Experimente zeigen, dass wir die Lücke zwischen Zero-Shot- und überwachter Segmentierung signifikant verkleinern und gleichzeitig die Open-Vocabulary-Fähigkeit erhalten.

Übermütige Fehler benötigen stärkere Korrektur: Asymmetrische Konfidenzstrafen für bestärkendes Lernen
Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Feb 24

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als führendes Paradigma zur Verbesserung des logischen Denkens in großen Sprachmodellen (LLMs) etabliert. Standard-RLVR-Algorithmen leiden jedoch unter einer bekannten Pathologie: Während sie die Pass@1-Genauigkeit durch geschärftes Sampling verbessern, verengen sie gleichzeitig die Denkgrenze des Modells und reduzieren die Generierungsvielfalt. Wir identifizieren eine Ursache, die bestehende Methoden übersehen: die gleichmäßige Bestrafung von Fehlern. Aktuelle Ansätze – seien es Datenfilterungsmethoden, die Prompts nach Schwierigkeit auswählen, oder Advantage-Normalisierungsschemata – behandeln alle falschen Rollouts innerhalb einer Gruppe identisch. Wir zeigen, dass diese Gleichbehandlung es übermütigen Fehlern (falsche Denkpfade, die der RL-Prozess fälschlicherweise verstärkt hat) ermöglicht, zu persistieren und die Wahrscheinlichkeitsmasse zu monopolisieren, was letztlich gültige explorative Trajektorien unterdrückt. Um dies zu adressieren, schlagen wir die Asymmetric Confidence-aware Error Penalty (ACE) vor. ACE führt eine metrik für den Konfidenzversatz pro Rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), ein, um negative Advantages dynamisch zu modulieren. Theoretisch zeigen wir, dass der Gradient von ACE in den Gradienten eines selektiven Regularisierers, der auf übermütige Fehler beschränkt ist, plus ein wohldefiniertes Residuum zerlegt werden kann, das die Stärke des Regularisierers teilweise moderiert. Wir führen umfangreiche Experimente durch, bei denen wir Qwen2.5-Math-7B, Qwen3-8B-Base und Llama-3.1-8B-Instruct auf dem DAPO-Math-17K-Datensatz mit GRPO und DAPO innerhalb des VERL-Frameworks feinabstimmen. Ausgewertet auf MATH-500 und AIME 2025, ergänzt ACE nahtlos bestehende Methoden und verbessert konsistent das gesamte Pass@k-Spektrum über alle drei Modellfamilien und Benchmarks hinweg.

Was macht eine gute Anfrage aus? Messung der Auswirkungen menschlich-irritierender sprachlicher Merkmale auf die Leistung von LLMs
What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Feb 23

ByWilliam Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso

Halluzinationen bei Large Language Models (LLMs) werden üblicherweise als Defekte des Modells oder seiner Dekodierungsstrategie betrachtet. Ausgehend von der klassischen Linguistik argumentieren wir, dass auch die Form einer Anfrage die Antwort eines Zuhörers (und des Modells) beeinflussen kann. Wir operationalisieren diese Erkenntnis, indem wir einen 22-dimensionalen Anfrage-Feature-Vektor konstruieren, der Satzkomplexität, lexikalische Seltenheit sowie Anapher, Negation, Beantwortbarkeit und Intentionsverankerung abdeckt – alles Faktoren, von denen bekannt ist, dass sie das menschliche Verständnis beeinflussen. Anhand von 369.837 realen Anfragen stellen wir die Frage: Gibt es bestimmte Arten von Anfragen, die Halluzinationen wahrscheinlicher machen? Eine groß angelegte Analyse zeigt eine konsistente "Risikolandschaft": Bestimmte Merkmale wie tiefe Satzverschachtelung und Unterbestimmtheit gehen mit einer höheren Halluzinationsneigung einher. Klare Intentionsverankerung und Beantwortbarkeit hingegen korrelieren mit geringeren Halluzinationsraten. Andere Merkmale, einschließlich Domänenspezifität, zeigen gemischte, datensatz- und modellabhängige Effekte. Diese Ergebnisse etablieren somit eine empirisch beobachtbare Repräsentation von Anfragemerkmalen, die mit dem Halluzinationsrisiko korreliert, und ebnen den Weg für gezieltes Query-Rewriting und zukünftige Interventionsstudien.

DLT-Corpus: Eine großangelegte Textsammlung für den Bereich der Distributed-Ledger-Technologie
DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Feb 25

ByWalter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu

Wir stellen DLT-Corpus vor, die bislang größte domänenspezifische Textsammlung für die Distributed-Ledger-Technology-(DLT-)Forschung: 2,98 Milliarden Tokens aus 22,12 Millionen Dokumenten, die wissenschaftliche Literatur (37.440 Publikationen), Patente des United States Patent and Trademark Office (USPTO) (49.023 Anmeldungen) und Social-Media-Beiträge (22 Millionen Posts) umfassen. Bestehende Natural-Language-Processing-(NLP-)Ressourcen für DLT konzentrieren sich eng auf Kryptowährungspreisforschung und Smart Contracts, wodurch domänenspezifische Sprache trotz einer Marktkapitalisierung von rund 3 Billionen US-Dollar und rascher technologischer Evolution kaum erforscht bleibt. Wir demonstrieren den Nutzen von DLT-Corpus durch die Analyse von Technologieentstehungsmustern und Korrelationen zwischen Markt und Innovation. Die Ergebnisse zeigen, dass Technologien ihren Ursprung in der wissenschaftlichen Literatur haben, bevor sie Patente und soziale Medien erreichen, was traditionellen Technologietransfermustern folgt. Während die Stimmung in den sozialen Medien selbst während Krypto-Wintern überwiegend bullisch bleibt, wachsen wissenschaftliche und patentbezogene Aktivitäten unabhängig von Marktschwankungen und folgen der gesamten Marktexpansion in einem Kreislauf, bei dem Forschung wirtschaftlichem Wachstum vorausgeht und dieses ermöglicht, welches wiederum weitere Innovation finanziert. Wir veröffentlichen öffentlich den vollständigen DLT-Corpus; LedgerBERT, ein domänenangepasstes Modell, das bei einer DLT-spezifischen Named-Entity-Recognition-(NER-)Aufgabe eine Verbesserung von 23 % gegenüber BERT-base erzielt; sowie alle zugehörigen Tools und Codes.

Keine Universallösung: QueryBandits zur Reduzierung von Halluzinationen
No One Size Fits All: QueryBandits for Hallucination Mitigation

Feb 23

ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

Fortgeschrittene Reasoning-Fähigkeiten in großen Sprachmodellen (LLMs) führen zu häufigeren Halluzinationen; dennoch konzentriert sich die meiste Gegenmaßnahmen-Forschung auf Open-Source-Modelle zur nachträglichen Erkennung und Parameterbearbeitung. Der Mangel an Studien zu Halluzinationen in Closed-Source-Modellen ist besonders besorgniserregend, da diese die überwiegende Mehrheit der Modelle in institutionellen Einsätzen ausmachen. Wir stellen QueryBandits vor, ein modellagnostisches Contextual-Bandit-Framework, das online adaptiv lernt, die optimale Query-Rewrite-Strategie auszuwählen, indem es eine empirisch validierte und kalibrierte Belohnungsfunktion nutzt. In 16 QA-Szenarien erreicht unser bestes QueryBandit (Thompson Sampling) eine Gewinnrate von 87,5 % gegenüber einer No-Rewrite-Baseline und übertrifft Zero-Shot-statische Strategien (z. B. Paraphrase oder Expand) um 42,6 % bzw. 60,3 %. Darüber hinaus schneiden alle Contextual Bandits in allen Datensätzen besser ab als einfache Bandits, wobei eine höhere Feature-Varianz mit einer größeren Varianz in der Arm-Auswahl einhergeht. Dies untermauert unsere Erkenntnis, dass es keine einzelne Rewrite-Strategie gibt, die für alle Abfragen optimal ist. Wir stellen auch fest, dass bestimmte statische Strategien einen höheren kumulativen Regret verursachen als No-Rewrite, was darauf hindeutet, dass eine unflexible Query-Rewriting-Strategie Halluzinationen verschlimmern kann. Daher kann das Erlernen einer Online-Strategie über semantische Features mit QueryBandits das Modellverhalten allein durch Forward-Pass-Mechanismen verändern, was die Verwendung mit Closed-Source-Modellen ermöglicht und den Bedarf an Neutraining oder gradientenbasierter Anpassung umgeht.

Risikobewusste Weltmodell-Prädiktive Regelung für generalisierbares End-to-End Autonomes Fahren
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Feb 26

ByJiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

Dank der Fortschritte im Imitationslernen (IL) und umfangreichen Fahrdatensätzen hat das End-to-End-autonome Fahren (E2E-AD) in letzter Zeit große Fortschritte erzielt. IL-basierte Methoden sind derzeit ein Mainstream-Paradigma: Modelle stützen sich auf standardmäßige Fahrverhalten von Experten und lernen, die Diskrepanz zwischen ihren Aktionen und den Expertenaktionen zu minimieren. Dieses Ziel, "nur wie der Experte zu fahren", leidet jedoch unter einer begrenzten Generalisierungsfähigkeit: Wenn sie auf seltene oder ungesehene Long-Tail-Szenarien außerhalb der Verteilung der Expertenaufzeichnungen treffen, neigen Modelle aufgrund fehlender Vorerfahrung zu unsicheren Entscheidungen. Dies wirft eine grundlegende Frage auf: Kann ein E2E-AD-System ohne jegliche Expertenaufsicht zuverlässige Entscheidungen treffen? Ausgehend von dieser Überlegung schlagen wir einen einheitlichen Rahmen namens Risk-aware World Model Predictive Control (RaWMPC) vor, um dieses Generalisierungsdilemma durch robuste Regelung zu lösen, ohne auf Expertenaufzeichnungen angewiesen zu sein. Praktisch nutzt RaWMPC ein Weltmodell, um die Konsequenzen mehrerer Kandidatenaktionen vorherzusagen, und wählt durch explizite Risikobewertung Aktionen mit geringem Risiko aus. Um dem Weltmodell die Fähigkeit zu verleihen, die Folgen riskanter Fahrverhalten vorherzusagen, entwerfen wir eine risikobewusste Interaktionsstrategie, die das Weltmodell systematisch gefährlichen Verhaltensweisen aussetzt, wodurch katastrophale Ergebnisse vorhersehbar und somit vermeidbar werden. Darüber hinaus führen wir eine Selbstbewertungs-Distillationsmethode ein, um die Risikovermeidungsfähigkeiten des gut trainierten Weltmodells in ein generatives Aktionsvorschlagsnetzwerk zu destillieren, ohne auf Expertenaufzeichnungen zurückzugreifen, und so bei Tests Aktionen mit geringem Risiko zu generieren. Umfangreiche Experimente zeigen, dass RaWMPC in In-Distribution- und Out-of-Distribution-Szenarien state-of-the-art-Methoden übertrifft und dabei eine überlegene Entscheidungsinterpretierbarkeit bietet.

MedCLIPSeg: Probabilistische Vision-Language-Adaption für dateneffiziente und generalisierbare medizinische Bildsegmentierung
MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Feb 23

ByTaha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz

Die medizinische Bildsegmentierung bleibt aufgrund begrenzter Anmerkungen für das Training, unklarer anatomischer Merkmale und Domänenverschiebungen eine Herausforderung. Während Vision-Language-Modelle wie CLIP starke cross-modale Repräsentationen bieten, ist ihr Potenzial für eine dichte, textgesteuerte medizinische Bildsegmentierung noch unzureichend erforscht. Wir stellen MedCLIPSeg vor, einen neuartigen Rahmen, der CLIP für eine robuste, dateneffiziente und unsicherheitsbewusste medizinische Bildsegmentierung adaptiert. Unser Ansatz nutzt Patch-level CLIP-Embeddings durch probabilistische cross-modale Aufmerksamkeit, was eine bidirektionale Interaktion zwischen Bild- und Text-Tokens sowie eine explizite Modellierung von prädiktiver Unsicherheit ermöglicht. Zusammen mit einem weichen Patch-level kontrastiven Verlust, der eine differenziertere semantische Lernfähigkeit über verschiedene Text-Prompts hinweg fördert, verbessert MedCLIPSeg effektiv die Dateneffizienz und Domänenverallgemeinerbarkeit. Umfangreiche Experimente über 16 Datensätze, die fünf Bildgebungsmodalitäten und sechs Organe abdecken, zeigen, dass MedCLIPSeg bisherige Methoden in Genauigkeit, Effizienz und Robustheit übertrifft und gleichzeitig interpretierbare Unsicherheitskarten liefert, die die lokale Zuverlässigkeit der Segmentierungsergebnisse hervorheben. Diese Arbeit demonstriert das Potenzial des probabilistischen Vision-Language-Modellierens für die textgesteuerte medizinische Bildsegmentierung.

DyaDiT: Ein multimodaler Diffusions-Transformer zur Erzeugung sozial vorteilhafter dyadischer Gesten
DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Feb 26

ByYichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

Die Erzeugung realistischer Konversationsgesten ist entscheidend für natürliche, sozial ansprechende Interaktionen mit digitalen Menschen. Bisherige Methoden bilden typischerweise einen einzelnen Audiostrom auf die Bewegung eines einzelnen Sprechers ab, ohne den sozialen Kontext zu berücksichtigen oder die wechselseitige Dynamik zwischen zwei Gesprächspartnern zu modellieren. Wir stellen DyaDiT vor, einen multimodalen Diffusion-Transformer, der kontextangemessene menschliche Bewegungen aus dyadischen Audiosignalen generiert. Trainiert auf dem Seamless Interaction Dataset, verarbeitet DyaDiT dyadische Audioeingaben mit optionalen Sozialkontext-Tokens, um kontextgerechte Bewegungen zu erzeugen. Die Methode fusioniert Informationen beider Sprecher, um Interaktionsdynamiken zu erfassen, nutzt ein Bewegungslexikon zur Kodierung von Bewegungs-Priors und kann optional die Gesten des Gesprächspartners verwenden, um responsivere Bewegungen zu erzeugen. Wir evaluieren DyaDiT anhand standardisierter Bewegungsgenerierungsmetriken und durch quantitative Nutzerstudien. Die Ergebnisse zeigen, dass unsere Methode nicht nur bestehende Ansätze in objektiven Metriken übertrifft, sondern auch von Nutzern deutlich bevorzugt wird, was ihre Robustheit und sozial vorteilhafte Bewegungsgenerierung unterstreicht. Code und Modelle werden nach Annahme der Arbeit veröffentlicht.

Echoes Over Time: Längengeneralisierung in Video-zu-Audio-Generierungsmodellen
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Feb 24

ByChristian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

Die Skalierung multimodaler Abgleichung zwischen Video und Audio stellt eine große Herausforderung dar, insbesondere aufgrund limitierter Daten und der Diskrepanz zwischen Textbeschreibungen und frame-basierten Videoinformationen. In dieser Arbeit gehen wir die Skalierungsproblematik bei der multimodalen Audioerzeugung an und untersuchen, ob Modelle, die mit kurzen Instanzen trainiert wurden, sich auf längere Instanzen während des Tests verallgemeinern lassen. Um diese Herausforderung zu bewältigen, stellen wir multimodale hierarchische Netzwerke vor, genannt MMHNet, eine erweiterte Version modernster Video-zu-Audio-Modelle. Unser Ansatz integriert eine hierarchische Methode und nicht-kausales Mamba, um die Erzeugung langformatiger Audiodaten zu unterstützen. Unsere vorgeschlagene Methode verbessert die Erzeugung langer Audiodateien von mehr als 5 Minuten signifikant. Wir beweisen zudem, dass das Trainieren mit kurzen und Testen mit langen Sequenzen in Video-zu-Audio-Aufgaben möglich ist, ohne mit längeren Zeitdauern trainieren zu müssen. Unsere Experimente zeigen, dass unsere Methode bemerkenswerte Ergebnisse auf Benchmarks für lange Videos erzielen und frühere Arbeiten in Video-zu-Audio-Aufgaben übertreffen kann. Darüber hinaus demonstrieren wir die Fähigkeit unseres Modells, Audiodaten von mehr als 5 Minuten Länge zu generieren, während bisherige Video-zu-Audio-Verfahren bei der Generierung langer Zeitdauern versagen.

MEG-zu-MEG-Transferlernen und sprachaufgabenübergreifende Sprach-/Stille-Erkennung mit begrenzten Daten
MEG-to-MEG Transfer Learning and Cross-Task Speech/Silence Detection with Limited Data

Feb 20

ByXabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro

Daten-effiziente neuronale Dekodierung ist eine zentrale Herausforderung für Sprach-Brain-Computer-Interfaces. Wir präsentieren die erste Demonstration von Transferlernen und aufgabenübergreifender Dekodierung für MEG-basierte Sprachmodelle, die Wahrnehmung und Produktion umfassen. Wir trainieren ein Conformer-basiertes Modell mit 50 Stunden Einzelpersonen-Hördaten vor und führen pro Teilnehmer bei 18 Probanden ein Feinabstimmen mit nur 5 Minuten Daten durch. Transferlernen führt zu konsistenten Verbesserungen mit Genauigkeitssteigerungen von 1–4 % innerhalb derselben Aufgabe und größeren, aufgabenübergreifenden Steigerungen von bis zu 5–6 %. Das Vortraining verbessert nicht nur die Leistung innerhalb jeder Aufgabe, sondern ermöglicht auch eine zuverlässige, aufgabenübergreifende Dekodierung zwischen Wahrnehmung und Produktion. Entscheidend ist, dass Modelle, die auf Sprachproduktion trainiert wurden, passives Hören über die Zufallsschwelle hinaus dekodieren können. Dies bestätigt, dass die gelernten Repräsentationen gemeinsame neuronale Prozesse und nicht aufgabenspezifische motorische Aktivität widerspiegeln.

Effizientes kontinuierliches Lernen in Sprachmodellen durch thalamisch geroutete kortikale Säulen
Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Feb 25

ByAfshin Khadangi

Kontinuierliches Lernen ist eine Kernanforderung für eingesetzte Sprachmodelle, doch Standard-Trainings- und Feinjustierungspipelines bleiben bei nicht-stationären Daten anfällig. Online-Updates führen häufig zu katastrophalem Vergessen, während Methoden zur Verbesserung der Stabilität oft Latenzzeit, Speicherbedarf oder rechenintensive Operationen derart erhöhen, dass sie sich schlecht auf lange Kontexte skalieren lassen. Wir stellen TRC² (Thalamisch Geroutete Kortikale Kolumnen) vor, eine Decoder-Only-Architektur, die kontinuierliches Lernen auf Ebene der Architektur adressiert. TRC² kombiniert sparse thalamisches Routing über kortikale Kolumnen mit Mechanismen für Modulation, Prädiktion, Gedächtnis und Feedback sowie einen schnellen korrektiven Pfad, der rasche Anpassung ohne Destabilisierung langsamerer Parameter ermöglicht. Der resultierende Block ist sparsam und chunk-parallel, was effizientes Training und Inferenz bei gleichzeitiger klarer Abtrennbarkeit der Subsysteme ermöglicht. Wir implementieren einen reproduzierbaren Trainings- und Evaluierungsstack sowie ein Continuous-Learning-Framework, das Stellvertreter-Vergessen unter fließenden Domänenverschiebungen misst. In Sprachmodellierungs- und Continuous-Learning-Benchmarks verbessert TRC² den Stabilitäts-Plastizitäts-Kompromiss bei vergleichbarer Rechenleistung und ermöglicht so schnelle Anpassung im Datenstrom bei Bewahrung zuvor erlernter Verhaltensweisen.