HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

24 papers found

SkillNet: KI-Fähigkeiten erstellen, bewerten und vernetzen
SkillNet: Create, Evaluate, and Connect AI Skills

Feb 26

ByYuan Liang, Ruobin Zhong, Haoming Xu, Chen Jiang, Yi Zhong, Runnan Fang, Jia-Chen Gu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Xin Xu, Tongtong Wu, Kun Wang, Yang Liu, Zhen Bi, Jungang Lou, Yuchen Eleanor Jiang, Hangcheng Zhu, Gang Yu, Haiwen Hong, Longtao Huang, Hui Xue, Chenxi Wang, Yijun Wang, Zifei Shan, Xi Chen, Zhaopeng Tu, Feiyu Xiong, Xin Xie, Peng Zhang, Zhengke Gui, Lei Liang, Jun Zhou, Chiyu Wu, Jin Shang, Yu Gong, Junyu Lin, Changliang Xu, Hongjie Deng, Wen Zhang, Keyan Ding, Qiang Zhang, Fei Huang, Ningyu Zhang, Jeff Z. Pan, Guilin Qi, Haofen Wang, Huajun Chen

Aktuelle KI-Agenten können Werkzeuge flexibel aufrufen und komplexe Aufgaben ausführen, doch ihr langfristiger Fortschritt wird durch das Fehlen systematischer Ansammlung und Übertragung von Fähigkeiten behindert. Ohne einen einheitlichen Mechanismus zur Konsolidierung von Fähigkeiten „erfinden Agenten das Rad häufig neu“, indem sie Lösungen in isolierten Kontexten wiederentdecken, ohne auf frühere Strategien zurückzugreifen. Um diese Einschränkung zu überwinden, stellen wir SkillNet vor, eine offene Infrastruktur zur Erstellung, Bewertung und Organisation von KI-Fähigkeiten im großen Maßstab. SkillNet strukturiert Fähigkeiten innerhalb einer einheitlichen Ontologie, die die Erstellung von Fähigkeiten aus heterogenen Quellen unterstützt, reichhaltige relationale Verbindungen herstellt und mehrdimensionale Bewertungen in den Bereichen Sicherheit, Vollständigkeit, Ausführbarkeit, Wartbarkeit und Kostenbewusstsein vornimmt. Unsere Infrastruktur integriert ein Repository mit über 200.000 Fähigkeiten, eine interaktive Plattform und ein vielseitiges Python-Toolkit. Experimentelle Auswertungen auf ALFWorld, WebShop und ScienceWorld zeigen, dass SkillNet die Leistung von Agenten erheblich verbessert, indem die durchschnittlichen Belohnungen um 40 % gesteigert und die Ausführungsschritte über mehrere Backbone-Modelle hinweg um 30 % reduziert werden. Indem Fähigkeiten als sich entwickelnde, kombinierbare Assets formalisiert werden, bietet SkillNet eine robuste Grundlage für Agenten, um von vorübergehender Erfahrung zu dauerhafter Meisterschaft zu gelangen.

MOOSE-Star: Erschließung praktikabler Trainingsverfahren für wissenschaftliche Entdeckungen durch Überwindung der Komplexitätsbarriere
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Mar 4

ByZonglin Yang, Lidong Bing

Während große Sprachmodelle (LLMs) vielversprechend für wissenschaftliche Entdeckungen sind, konzentriert sich die bestehende Forschung auf Inferenz oder feedback-gesteuertes Training, wodurch die direkte Modellierung des generativen Reasoning-Prozesses P(Hypothese|Hintergrundwissen) (P(h|b)) unerforscht bleibt. Wir zeigen, dass das direkte Training von P(h|b) mathematisch nicht handhabbar ist, bedingt durch die kombinatorische Komplexität (O(N^k)), die der Abfrage und Zusammensetzung von Inspirationen aus einer riesigen Wissensbasis innewohnt. Um diese Barriere zu überwinden, führen wir MOOSE-Star ein, einen einheitlichen Rahmen, der handhabbares Training und skalierbare Inferenz ermöglicht. Im besten Fall reduziert MOOSE-Star die Komplexität von exponentiell auf logarithmisch (O(log N)), indem (1) auf zerlegte Teilaufgaben trainiert wird, die aus der probabilistischen Gleichung der Entdeckung abgeleitet sind, (2) ein motivationsgeleiteter hierarchischer Suchansatz eingesetzt wird, um logarithmische Abfrage zu ermöglichen und irrelevante Teilräume auszuschließen, und (3) eine begrenzte Komposition für Robustheit gegenüber Abfragefehlern genutzt wird. Um dies zu ermöglichen, veröffentlichen wir TOMATO-Star, einen Datensatz mit 108.717 zerlegten wissenschaftlichen Arbeiten (38.400 GPU-Stunden) für das Training. Des Weiteren zeigen wir, dass, während Brute-Force-Sampling auf eine "Komplexitätsmauer" stößt, MOOSE-Star kontinuierliches Skalieren zur Testzeit aufweist.

DARE: Ausrichtung von LLM-Agenten an das R-Statistik-Ökosystem durch verteilungsbewusste Abfrage
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Mar 5

ByMaojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang

Große Sprachmodell-Agenten (LLM) können Datenwissenschafts-Workflows automatisieren, doch viele rigorose statistische Methoden, die in R implementiert sind, bleiben untergenutzt, weil LLMs mit statistischem Wissen und Tool-Retrieval Schwierigkeiten haben. Bestehende retrieval-augmentierte Ansätze konzentrieren sich auf Funktionssemantik und ignorieren Datenverteilungen, was zu suboptimalen Treffern führt. Wir schlagen DARE (Distribution-Aware Retrieval Embedding) vor, ein leichtgewichtiges Plug-and-Play-Retrieval-Modell, das Datenverteilungsinformationen in Funktionsrepräsentationen für R-Package-Retrieval integriert. Unsere Hauptbeiträge sind: (i) RPKB, eine kuratierte R-Package-Wissensbasis, abgeleitet aus 8.191 hochwertigen CRAN-Packages; (ii) DARE, ein Embedding-Modell, das Verteilungsmerkmale mit Funktionsmetadaten fusioniert, um die Relevanz des Retrievals zu verbessern; und (iii) RCodingAgent, ein R-orientierter LLM-Agent zur zuverlässigen R-Code-Generierung sowie eine Suite von statistischen Analyseaufgaben zur systematischen Evaluation von LLM-Agenten in realistischen Analyseszenarien. Empirisch erreicht DARE einen NDCG@10 von 93,47% und übertrifft state-of-the-art Open-Source-Embedding-Modelle beim Package-Retrieval um bis zu 17%, bei deutlich geringerer Parameterzahl. Die Integration von DARE in RCodingAgent führt zu signifikanten Verbesserungen bei nachgelagerten Analyseaufgaben. Diese Arbeit hilft, die Lücke zwischen LLM-Automatisierung und dem ausgereiften R-Statistik-Ökosystem zu verringern.

AgentVista: Bewertung multimodaler Agenten in ultra-herausfordernden realistischen visuellen Szenarien
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Feb 26

ByZhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

Multimodale Agenten in der Praxis lösen mehrstufige Arbeitsabläufe, die auf visuellen Beweisen basieren. Ein Agent kann beispielsweise ein Gerät reparieren, indem er ein Verkabelungsfoto mit einem Schaltplan verknüpft und die Reparatur mit Online-Dokumentation validiert, oder eine Reise planen, indem er einen Fahrplan interpretiert und Verbindungen unter Berücksichtigung von Routenbedingungen prüft. Bestehende multimodale Benchmarks bewerten jedoch hauptsächlich einstufiges visuelles Reasoning oder spezifische Werkzeugfähigkeiten und erfassen nicht vollständig den Realismus, die visuelle Detailtiefe und die langfristige Werkzeugnutzung, die praktische Agenten erfordern. Wir stellen AgentVista vor, einen Benchmark für generalistische multimodale Agenten, der 25 Teilbereiche aus 7 Kategorien umfasst und realistische, detailreiche visuelle Szenarien mit natürlicher hybrider Werkzeugnutzung kombiniert. Die Aufgaben erfordern langfristige Werkzeuginteraktionen über Modalitäten hinweg, einschließlich Websuche, Bildersuche, Seitennavigation und codebasierter Operationen sowohl für Bildverarbeitung als auch allgemeine Programmierung. Eine umfassende Evaluation modernster Modelle zeigt erhebliche Lücken in ihrer Fähigkeit zur langfristigen multimodalen Werkzeugnutzung auf. Selbst das beste Modell in unserer Evaluation, Gemini-3-Pro mit Werkzeugen, erreicht nur eine Gesamtgenauigkeit von 27,3 %, und schwierige Instanzen können mehr als 25 Werkzeugaufrufe erfordern. Wir erwarten, dass AgentVista die Entwicklung leistungsfähigerer und zuverlässigerer multimodaler Agenten für realistische und äußerst anspruchsvolle Problemlösungen beschleunigen wird.

RoboPocket: Verbessern Sie Robotik-Politiken sofort mit Ihrem Telefon
RoboPocket: Improve Robot Policies Instantly with Your Phone

Mar 5

ByJunjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu

Die Skalierung von Imitationslernen ist grundsätzlich durch die Effizienz der Datenerfassung begrenzt. Obwohl Handheld-Schnittstellen als skalierbare Lösung für die Datenerfassung in unkontrollierten Umgebungen aufgetaucht sind, arbeiten sie überwiegend open-loop: Operatoren erfassen Demonstrationen blind, ohne die Schwachstellen der zugrundeliegenden Policy zu kennen, was zu einer ineffizienten Abdeckung kritischer Zustandsverteilungen führt. Im Gegensatz dazu adressieren interaktive Methoden wie DAgger den Kovariaten-Shift effektiv, setzen jedoch auf die physische Ausführung durch den Roboter, die kostspielig und schwer zu skalieren ist. Um diesen Zielkonflikt zu lösen, stellen wir RoboPocket vor, ein portables System, das roboterfreie sofortige Policy-Iteration mit einzelnen Consumer-Smartphones ermöglicht. Seine Kerninnovation ist ein Remote-Inference-Framework, das die vorhergesagte Trajektorie der Policy mittels Augmented Reality (AR) Visual Foresight darstellt. Dieses immersive Feedback ermöglicht es Datensammlern, potenzielle Fehler proaktiv zu identifizieren und die Datenerfassung auf die Schwachstellen der Policy zu fokussieren, ohne einen physischen Roboter zu benötigen. Darüber hinaus implementieren wir eine asynchrone Online-Finetuning-Pipeline, die die Policy kontinuierlich mit eingehenden Daten aktualisiert und so den Lernloop innerhalb von Minuten schließt. Umfangreiche Experimente zeigen, dass RoboPocket den Datenskalerungsgesetzen folgt und die Dateneffizienz im Vergleich zu Offline-Skalierungsstrategien verdoppelt, wodurch ihr langjähriger Effizienzengpass überwunden wird. Darüber hinaus steigert unser sofortiger Iterationsloop auch die Stichprobeneffizienz in verteilten Umgebungen um bis zum 2-fachen bei einer geringen Anzahl interaktiver Korrekturen pro Person. Projektseite und Videos: https://robo-pocket.github.io.

HiFi-Inpaint: Auf dem Weg zu hochauflösender referenzbasierter Bildinpainting zur Erzeugung detailtreuer Mensch-Produkt-Bilder
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Mar 2

ByYichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng

Mensch-Produkt-Bilder, die die Integration von Menschen und Produkten darstellen, spielen eine entscheidende Rolle in der Werbung, im E-Commerce und im digitalen Marketing. Die zentrale Herausforderung bei der Generierung solcher Bilder liegt in der hochpräzisen Erhaltung von Produktdetails. Unter den bestehenden Paradigmen bietet referenzbasiertes Inpainting eine zielgerichtete Lösung, indem es Produktreferenzbilder nutzt, um den Inpainting-Prozess zu steuern. Allerdings bestehen in drei Schlüsselbereichen weiterhin Einschränkungen: das Fehlen umfangreicher, diverser Trainingsdaten, die Schwierigkeit aktueller Modelle, sich auf die Bewahrung von Produktdetails zu konzentrieren, und die Unzulänglichkeit grober Überwachungsmechanismen für eine präzise Steuerung. Um diese Probleme zu adressieren, schlagen wir HiFi-Inpaint vor, ein neuartiges, hochpräzises, referenzbasiertes Inpainting-Framework, das speziell für die Generierung von Mensch-Produkt-Bildern entwickelt wurde. HiFi-Inpaint führt eine Shared Enhancement Attention (SEA) ein, um feinkörnige Produktmerkmale zu verfeinern, und einen Detail-Aware Loss (DAL), um eine präzise Überwachung auf Pixelebene mittels Hochfrequenzkarten zu gewährleisten. Zusätzlich haben wir einen neuen Datensatz, HP-Image-40K, erstellt, dessen Proben aus selbstsynthetisierten Daten kuratiert und mit automatischer Filterung aufbereitet wurden. Experimentelle Ergebnisse zeigen, dass HiFi-Inpaint state-of-the-art Leistung erzielt und detailerhaltende Mensch-Produkt-Bilder liefert.

Große multimodale Modelle als allgemeine In-Context-Klassifikatoren
Large Multimodal Models as General In-Context Classifiers

Feb 26

ByMarco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

Welches multimodale Modell sollten wir für die Klassifizierung verwenden? Bisherige Studien legen nahe, dass die Antwort in CLIP-ähnlichen kontrastiven Vision-Language-Modellen (VLMs) liegt, aufgrund ihrer bemerkenswerten Leistung bei der Zero-Shot-Klassifizierung. Im Gegensatz dazu sind Large Multimodal Models (LMMs) besser für komplexere Aufgaben geeignet. In dieser Arbeit argumentieren wir, dass diese Antwort eine wichtige Fähigkeit von LMMs übersieht: In-Context-Learning. Wir benchmarken state-of-the-art LMMs auf diversen Datensätzen für Closed-World-Klassifizierung und stellen fest, dass – obwohl ihre Zero-Shot-Leistung niedriger ist als die von CLIP – LMMs mit wenigen In-Context-Beispielen kontrastive VLMs mit Cache-basierten Adaptern (ihr "In-Context"-Äquivalent) erreichen oder sogar übertreffen können. Wir erweitern diese Analyse auf das Open-World-Setting, in dem die generative Natur von LMMs sie besser für die Aufgabe geeignet macht. In diesem anspruchsvollen Szenario scheitern LMMs jedoch, wenn sie mit unvollständigen Kontextinformationen versorgt werden. Um dieses Problem zu adressieren, schlagen wir CIRCLE vor, eine einfache, trainingsfreie Methode, die In-Context-Beispielen Pseudolabels zuweist und diese iterativ mit dem verfügbaren Kontext selbst verfeinert. Durch umfangreiche Experimente zeigen wir, dass CIRCLE eine robuste Baseline für Open-World-Klassifizierung etabliert, VLM-Pendants übertrifft und das Potenzial von LMMs unterstreicht, als vereinheitlichte Klassifikatoren und flexible Alternative zu spezialisierten Modellen zu dienen.

MASQuant: Modalitätsbewusste Glättungsquantisierung für multimodale große Sprachmodelle
MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Mar 5

ByLulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao

Post-Training-Quantisierung (PTQ) mit Recheninvarianz für Large Language Models (LLMs) hat bemerkenswerte Fortschritte gezeigt, doch ihre Anwendung auf Multimodale Large Language Models (MLLMs) birgt erhebliche Herausforderungen. In diesem Artikel analysieren wir SmoothQuant als Fallstudie und identifizieren zwei kritische Probleme: Smoothing-Misalignment und Cross-Modale Recheninvarianz. Um diese Probleme zu adressieren, schlagen wir Modality-Aware Smoothing Quantization (MASQuant) vor, ein neuartiges Framework, das (1) Modality-Aware Smoothing (MAS) einführt, das separate, modalitätsspezifische Glättungsfaktoren lernt, um Smoothing-Misalignment zu verhindern, und (2) Cross-Modale Kompensation (CMC), die Cross-Modale Recheninvarianz durch SVD-Whitening behandelt, um multimodale Aktivierungsunterschiede in niedrigrangige Formen zu transformieren und so eine einheitliche Quantisierung über Modalitäten hinweg zu ermöglichen. MASQuant zeigt stabile Quantisierungsleistung sowohl bei dual-modalen als auch tri-modalen MLLMs. Experimentelle Ergebnisse belegen, dass MASQuant mit modernsten PTQ-Algorithmen wettbewerbsfähig ist. Quellcode: https://github.com/alibaba/EfficientAI.

Timer-S1: Ein Milliarden-großes Zeitreihen-Foundation-Modell mit serieller Skalierung
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Mar 5

ByYong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long

Wir stellen Timer-S1 vor, ein leistungsstarkes Mixture-of-Experts (MoE)-Zeitreihen-Foundation-Modell mit 8,3 Mrd. Gesamtparametern, 0,75 Mrd. aktivierten Parametern pro Token und einer Kontextlänge von 11.500 Token. Um den Skalierbarkeitsengpass bei bestehenden vortrainierten Zeitreihen-Foundation-Modellen zu überwinden, führen wir ein serielles Skalieren in drei Dimensionen durch: Modellarchitektur, Datensatz und Trainingspipeline. Timer-S1 integriert sparse TimeMoE-Blöcke und generische TimeSTP-Blöcke für Serial-Token Prediction (STP), ein generisches Trainingsziel, das der seriellen Natur von Prognosen folgt. Das vorgeschlagene Paradigma führt serielle Berechnungen ein, um Langzeitprognosen zu verbessern und gleichzeitig rechenintensives Rolling-Forecasting sowie ausgeprägte Fehlerakkumulation in der standardmäßigen Next-Token-Prediction zu vermeiden. Im Streben nach einem hochwertigen und verzerrungsfreien Trainingsdatensatz haben wir TimeBench kuratiert, ein Korpus mit einer Billion Zeitpunkten, und wenden sorgfältige Datenanreicherung an, um Prognoseverzerrungen zu mindern. Wir führen zudem eine Nachtrainingsphase ein, einschließlich fortgesetztem Vortraining und Long-Context-Extension, um die Kurzzeit- und Langkontextleistung zu steigern. Ausgewertet auf dem groß angelegten GIFT-Eval-Leaderboard erzielt Timer-S1 state-of-the-art Prognoseleistungen und erreicht als vortrainiertes Modell die besten MASE- und CRPS-Werte. Timer-S1 wird veröffentlicht, um die weitere Forschung zu erleichtern.

Interaktive Benchmarks
Interactive Benchmarks

Mar 5

ByBaoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang

Standard-Benchmarks sind aufgrund von Sättigung, Subjektivität und schlechter Generalisierung zunehmend unzuverlässig geworden. Wir vertreten die Auffassung, dass die Bewertung der Fähigkeit eines Modells, aktiv Informationen zu erwerben, wichtig ist, um seine Intelligenz zu beurteilen. Wir schlagen Interactive Benchmarks vor, ein einheitliches Bewertungsparadigma, das die Denkfähigkeit eines Modells in einem interaktiven Prozess unter Budgetbeschränkungen bewertet. Wir setzen diesen Rahmen in zwei Settings um: Interactive Proofs, bei denen Modelle mit einem Richter interagieren, um objektive Wahrheiten oder Antworten in Logik und Mathematik abzuleiten; und Interactive Games, bei denen Modelle strategisch denken, um langfristige Nutzen zu maximieren. Unsere Ergebnisse zeigen, dass interaktive Benchmarks eine robuste und authentische Bewertung der Modellintelligenz bieten und verdeutlichen, dass in interaktiven Szenarien noch erhebliches Verbesserungspotenzial besteht. Projektseite: https://github.com/interactivebench/interactivebench

SageBwd: Eine trainierbare Aufmerksamkeit mit niedriger Bittiefe
SageBwd: A Trainable Low-bit Attention

Mar 2

ByJintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

Niedrigbit-Aufmerksamkeit, wie beispielsweise SageAttention, hat sich als effektiver Ansatz zur Beschleunigung der Modellinferenz erwiesen, doch ihre Anwendbarkeit auf das Training ist nach wie vor wenig verstanden. In vorhergehenden Arbeiten haben wir SageBwd vorgestellt, eine trainierbare INT8-Aufmerksamkeit, die sechs von sieben Aufmerksamkeitsmatrix-Multiplikationen quantisiert, ohne die Feinabstimmungsleistung zu beeinträchtigen. Allerdings wies SageBwd während des Vorabtrainings eine anhaltende Leistungslücke zur Vollpräzisions-Aufmerksamkeit (FPA) auf. In dieser Arbeit untersuchen wir, warum diese Lücke auftritt, und zeigen, dass SageBwd während des Vorabtrainings mit der Vollpräzisions-Aufmerksamkeit gleichzieht. Durch Experimente und theoretische Analysen gelangen wir zu einigen wichtigen Erkenntnissen und Schlussfolgerungen: (i) QK-Norm ist für stabiles Training bei vielen Token pro Schritt notwendig, (ii) Quantisierungsfehler entstehen hauptsächlich aus dem Score-Gradienten dS im Rückwärtsdurchlauf, (iii) eine Reduzierung der Token pro Schritt ermöglicht es SageBwd, die FPA-Leistung im Vorabtraining zu erreichen, und (iv) K-Glättung bleibt für die Trainingsstabilität entscheidend, während Q-Glättung während des Vorabtrainings nur begrenzten Nutzen bietet.

DreamWorld: Vereinheitlichte Weltmodellierung in der Videogenerierung
DreamWorld: Unified World Modeling in Video Generation

Feb 28

ByBoming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

Trotz beeindruckender Fortschritte in der Videogenerierung bleiben bestehende Modelle auf oberflächliche Plausibilität beschränkt und verfügen nicht über ein kohärentes und einheitliches Verständnis der Welt. Bisherige Ansätze integrieren typischerweise nur eine einzige Form von Weltwissen oder verlassen sich auf starre Alignment-Strategien, um zusätzliches Wissen einzuführen. Die Ausrichtung an einem einzelnen Weltwissen ist jedoch unzureichend, um ein Weltmodell zu bilden, das die gemeinsame Modellierung mehrerer heterogener Dimensionen erfordert (z. B. physikalisches Alltagswissen, 3D- und zeitliche Konsistenz). Um diese Einschränkung zu adressieren, stellen wir DreamWorld vor, einen einheitlichen Rahmen, der komplementäres Weltwissen über ein *Joint World Modeling Paradigm* in Videogeneratoren integriert. Dieses Paradigma sagt gemeinsam Videopixel und Features von Foundation-Modellen vorher, um zeitliche Dynamik, räumliche Geometrie und semantische Konsistenz zu erfassen. Eine naive Optimierung dieser heterogenen Ziele kann jedoch zu visueller Instabilität und zeitlichem Flackern führen. Um dieses Problem zu mildern, schlagen wir *Consistent Constraint Annealing* (CCA) vor, um weltbezogene Constraints während des Trainings progressiv zu regulieren, sowie eine *Multi-Source Inner-Guidance*, um gelernte Welt-Priors beim Inferenzvorgang durchzusetzen. Umfangreiche Auswertungen zeigen, dass DreamWorld die Weltkonsistenz verbessert und Wan2.1 auf VBench um 2.26 Punkte übertrifft. Der Code wird unter https://github.com/ABU121111/DreamWorld{mypink{Github}} öffentlich verfügbar gemacht.

RealWonder: Echtzeit-Videogenerierung auf Basis physischer Aktionen
RealWonder: Real-Time Physical Action-Conditioned Video Generation

Mar 5

ByWei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

Aktuelle Videogenerierungsmodelle können physikalische Konsequenzen von 3D-Aktionen wie Kräfte und robotische Manipulationen nicht simulieren, da ihnen das strukturelle Verständnis dafür fehlt, wie Aktionen 3D-Szenen beeinflussen. Wir stellen RealWonder vor, das erste Echtzeitsystem zur aktionsbedingten Videogenerierung aus einem einzelnen Bild. Unser zentraler Ansatz ist die Nutzung von Physiksimulation als Zwischenbrücke: Anstatt kontinuierliche Aktionen direkt zu encodieren, übersetzen wir sie durch Physiksimulation in visuelle Repräsentationen (optischen Fluss und RGB), die Videomodelle verarbeiten können. RealWonder integriert drei Komponenten: 3D-Rekonstruktion aus Einzelbildern, Physiksimulation und einen destillierten Videogenerator, der nur 4 Diffusionsschritte benötigt. Unser System erreicht 13,2 FPS bei 480x832 Auflösung und ermöglicht die interaktive Erforschung von Kräften, Roboteraktionen und Kamerasteuerungen an starren Objekten, deformierbaren Körpern, Flüssigkeiten und granularen Materialien. Wir sehen in RealWonder neue Möglichkeiten, Videomodelle in immersiven Erfahrungen, AR/VR und Robotik-Lernen einzusetzen. Unser Code und unsere Modellgewichte sind auf unserer Projektwebseite öffentlich verfügbar: https://liuwei283.github.io/RealWonder/

On-Policy Selbst-Distillation zur Komprimierung von Reasoning-Prozessen
On-Policy Self-Distillation for Reasoning Compression

Mar 5

ByHejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Reasoning-Modelle denken laut nach, doch ein Großteil ihrer Aussagen ist Rauschen. Wir stellen OPSDC (On-Policy Self-Distillation for Reasoning Compression) vor, eine Methode, die Modelle lehrt, prägnanter zu schlussfolgern, indem sie ihr eigenes prägnantes Verhalten wieder in sich selbst destilliert. Der gesamte Ansatz lässt sich auf eine einfache Idee reduzieren: Man konditioniert dasselbe Modell mit einer "Sei prägnant"-Anweisung, um Lehrer-Logits zu erhalten, und minimiert die reverse KL-Divergenz pro Token auf den eigenen Rollouts des Schülers. Keine Ground-Truth-Antworten, keine Token-Budgets, keine Schwierigkeitsschätzer. Einfach Selbst-Distillation. Doch diese Einfachheit verbirgt eine überraschende Raffinesse: OPSDC komprimiert einfache Probleme automatisch stark, bewahrt aber die notwendige Bedachtsamkeit für schwierige Probleme. Bei Qwen3-8B und Qwen3-14B erreichen wir eine Token-Reduktion von 57–59 % auf MATH-500 bei gleichzeitiger Steigerung der Genauigkeit um 9–16 Punkte absolut. Auf AIME 2024 verbessert sich das 14B-Modell um 10 Punkte bei 41 % Kompression. Das Geheimnis? Ein Großteil dessen, was Reasoning-Modelle produzieren, ist nicht nur redundant – es ist aktiv schädlich, da jeder unnötige Token Fehler verstärkt.

UltraDexGrasp: Erlernen universeller geschickter Greiffähigkeiten für bimanuelle Roboter mit synthetischen Daten
UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

Mar 5

BySizhe Yang, Yiman Xie, Zhixuan Liang, Yang Tian, Jia Zeng, Dahua Lin, Jiangmiao Pang

Greifen ist eine grundlegende Fähigkeit für Roboter, um mit der physischen Welt zu interagieren. Menschen, die mit zwei Händen ausgestattet sind, wählen autonom geeignete Greifstrategien basierend auf Form, Größe und Gewicht von Objekten, was ein robustes Greifen und anschließende Manipulation ermöglicht. Im Gegensatz dazu sind aktuelle robotische Greifsysteme nach wie vor eingeschränkt, insbesondere in Mehrstrategie-Umgebungen. Obwohl erhebliche Anstrengungen auf das Greifen mit Parallelgreifern und Einhand-Greifsystemen abzielten, bleibt das geschickte Greifen für bimanuelle Roboter untererforscht, wobei Daten ein primärer Engpass sind. Die Realisierung von physikalisch plausiblen und geometrisch anpassungsfähigen Griffen, die externen Kräften und Momenten standhalten können, stellt erhebliche Herausforderungen dar. Um diese Probleme zu adressieren, führen wir UltraDexGrasp ein, ein Framework für universelles geschicktes Greifen mit bimanuellen Robotern. Die vorgeschlagene Daten-Generierungs-Pipeline integriert optimierungsbasierte Griff-Synthese mit planungsbasierter Demonstrationsgenerierung und erzeugt hochwertige und diverse Trajektorien über mehrere Greifstrategien hinweg. Mit diesem Framework kuratieren wir UltraDexGrasp-20M, einen großen, mehrstrategischen Greifdatensatz, der 20 Millionen Frames über 1.000 Objekte umfasst. Basierend auf UltraDexGrasp-20M entwickeln wir weiter eine einfache, aber effektive Greifpolitik, die Punktwolken als Eingabe verwendet, Szenenmerkmale über unidirektionale Attention aggregiert und Steuerbefehle vorhersagt. Die Politik, die ausschließlich auf synthetischen Daten trainiert wurde, erreicht einen robusten Zero-Shot Sim-to-Real-Transfer und ist bei neuartigen Objekten mit unterschiedlichen Formen, Größen und Gewichten durchgängig erfolgreich, was eine durchschnittliche Erfolgsrate von 81,2 % beim universellen geschickten Greifen in der realen Welt erreicht. Um zukünftige Forschung zum Greifen mit bimanuellen Robotern zu fördern, stellen wir die Daten-Generierungs-Pipeline unter https://github.com/InternRobotics/UltraDexGrasp als Open Source zur Verfügung.

Lokalitäts-berücksichtigender Vision-Transformer
Locality-Attending Vision Transformer

Mar 5

BySina Hajimiri, Farzad Beizaee, Fereshteh Shakeri, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz

Vision Transformer haben durch die Nutzung globaler Self-Attention zur Erfassung langreichweitiger Abhängigkeiten bemerkenswerte Erfolge in der Klassifikation erzielt. Derselbe Mechanismus kann jedoch feinkörnige räumliche Details verschleiern, die für Aufgaben wie Segmentierung entscheidend sind. In dieser Arbeit streben wir eine Verbesserung der Segmentierungsleistung von Vision Transformern nach einem Standardtraining auf Bildebene an. Konkret stellen wir ein einfaches, aber effektives Add-on vor, das die Leistung bei Segmentierungsaufgaben verbessert und gleichzeitig die bildbezogenen Erkennungsfähigkeiten der Vision Transformer erhält. In unserem Ansatz modulieren wir die Self-Attention mit einem lernbaren Gauß-Kernel, der die Aufmerksamkeit auf benachbarte Patches lenkt. Wir verfeinern weiterhin die Patch-Repräsentationen, um bessere Einbettungen an Patch-Positionen zu lernen. Diese Modifikationen ermutigen Tokens, sich auf die lokale Umgebung zu konzentrieren und stellen aussagekräftige Repräsentationen an räumlichen Positionen sicher, wobei die Fähigkeit des Modells, globale Informationen zu integrieren, erhalten bleibt. Experimente belegen die Wirksamkeit unserer Modifikationen, die durch deutliche Segmentierungsgewinne auf drei Benchmarks belegt wird (z.B. über 6 % bzw. 4 % auf ADE20K für ViT Tiny und Base), ohne Änderungen am Trainingsregime oder Einbußen bei der Klassifikationsleistung. Der Code ist verfügbar unter https://github.com/sinahmr/LocAtViT/.

KARL: Wissensagenten durch bestärkendes Lernen
KARL: Knowledge Agents via Reinforcement Learning

Mar 5

ByJonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Wir stellen ein System zum Training von Enterprise-Suchagenten mittels Reinforcement Learning vor, das state-of-the-art Leistung über eine vielfältige Suite schwer zu verifizierender agentenbasierter Suchaufgaben erzielt. Unsere Arbeit leistet vier zentrale Beiträge. Erstens führen wir KARLBench ein, eine Bewertungssuite mit multiplen Fähigkeiten, die sechs distincte Suchregime umfasst, einschließlich constraint-gesteuerter Entitätensuche, dokumenübergreifender Reportsynthese, tabellarischem numerischem Reasoning, exhaustiver Entitätenrückgewinnung, prozeduralem Reasoning über technische Dokumentation und Faktenaggregation über interne Unternehmensnotizen. Zweitens zeigen wir, dass Modelle, die über heterogene Suchverhalten trainiert werden, wesentlich besser generalisieren als solche, die für einen einzelnen Benchmark optimiert sind. Drittens entwickeln wir eine agentenbasierte Synthese-Pipeline, die langfristiges Reasoning und Werkzeugnutzung einsetzt, um diverse, fundierte und hochwertige Trainingsdaten zu generieren, mit iterativem Bootstrapping aus zunehmend leistungsfähigeren Modellen. Viertens schlagen wir ein neues Post-Training-Paradigma basierend auf iterativem Off-Policy-Reinforcement-Learning mit großen Batches vor, das probeneffizient, robust gegenüber Trainings-Inferenz-Engine-Diskrepanzen ist und sich natürlich auf Multi-Task-Training mit Out-of-Distribution-Generalisierung erweitern lässt. Im Vergleich zu Claude 4.6 und GPT 5.2 ist KARL auf KARLBench Pareto-optimal über Kosten-Qualitäts- und Latenz-Qualitäts-Abwägungen hinweg, einschließlich Aufgaben, die während des Trainings Out-of-Distribution waren. Mit ausreichender Rechenleistung zur Testzeit übertrifft es die stärksten Closed-Modelle. Diese Ergebnisse zeigen, dass maßgeschneiderte synthetische Daten in Kombination mit Multi-Task-Reinforcement-Learning kosteneffiziente und leistungsstarke Wissensagenten für fundiertes Reasoning ermöglichen.

Mozi: Gesteuerte Autonomie für arzneimittelentdeckende LLM-Agenten
Mozi: Governed Autonomy for Drug Discovery LLM Agents

Mar 4

ByHe Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li

Tool-augmented Large Language Model (LLM)-Agenten versprechen eine Vereinigung von wissenschaftlichem Denken und Berechnung, doch ihr Einsatz in hochriskanten Bereichen wie der Wirkstoffentwicklung wird durch zwei kritische Hindernisse eingeschränkt: unkontrollierte Werkzeugnutzung und mangelnde Zuverlässigkeit bei langfristigen Aufgaben. In stark vernetzten pharmazeutischen Prozessketten neigen autonome Agenten oft zu nicht reproduzierbaren Abläufen, bei denen sich Halluzinationen aus frühen Phasen multiplikativ zu Fehlschlägen in nachgelagerten Stufen aufschaukeln. Um dies zu überwinden, stellen wir Mozi vor – eine Architektur mit zwei Ebenen, die die Flexibilität generativer KI mit der deterministischen Strenge der computerbasierten Biologie verbindet. Ebene A (Kontroll-Ebene) etabliert eine kontrollierte Supervisor-Worker-Hierarchie, die rollenbasierte Werkzeugisolation durchsetzt, die Ausführung auf eingeschränkte Aktionsräume begrenzt und reflektionsbasiertes Neuplanung antreibt. Ebene B (Ablauf-Ebene) operationalisiert kanonische Phasen der Wirkstoffentwicklung – von der Target-Identifikation bis zur Lead-Optimierung – als zustandsbehaftete, zusammensetzbare Fähigkeitsgraphen. Diese Ebene integriert strikte Datenverträge und strategische Human-in-the-Loop (HITL)-Kontrollpunkte, um die wissenschaftliche Validität an Entscheidungsgrenzen mit hoher Unsicherheit zu gewährleisten. Basierend auf dem Designprinzip „Freiform-Denken für sichere Aufgaben, strukturierte Ausführung für langfristige Prozessketten“ bietet Mozi eingebaute Robustheitsmechanismen und Rückverfolgbarkeit auf Verfolgungsebene, um Fehlerakkumulation vollständig zu vermeiden. Wir evaluieren Mozi anhand von PharmaBench, einem kuratierten Benchmark für biomedizinische Agenten, und demonstrieren eine überlegene Orchestrierungsgenauigkeit gegenüber existierenden Baseline-Verfahren. Darüber hinaus zeigen wir in end-to-end therapeutischen Fallstudien Mozi's Fähigkeit, massive chemische Räume zu navigieren, strenge Toxizitätsfilter durchzusetzen und hochgradig wettbewerbsfähige *in-silico*-Kandidaten zu generieren. Damit verwandelt Mozi das LLM effektiv von einem anfälligen Gesprächspartner in einen zuverlässigen, kontrollierten Forschungspartner.

Auf dem Weg zum multimodalen lebenslangen Verständnis: Ein Datensatz und eine agentenbasierte Baseline
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Mar 5

ByGuo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu

Während Datensätze für das Videoverständnis auf stundenlange Aufnahmen skaliert wurden, bestehen diese typischerweise aus dicht aneinandergereihten Clips, die sich von natürlichem, unscriptetem Alltagsgeschehen unterscheiden. Um diese Lücke zu schließen, stellen wir MM-Lifelong vor, einen Datensatz für multimodales lebenslanges Verständnis (Multimodal Lifelong Understanding). Mit 181,1 Stunden Filmmaterial ist er auf Tages-, Wochen- und Monatsebene strukturiert, um unterschiedliche zeitliche Dichten zu erfassen. Umfangreiche Auswertungen zeigen zwei kritische Fehlermodi aktueller Paradigmen: End-to-End-MLLMs leiden unter einem Arbeitsgedächtnis-Engpass (Working Memory Bottleneck) aufgrund von Kontextsättigung, während repräsentative agentenbasierte Baseline-Modelle einen Global-Localization-Collapse erleiden, wenn sie spärliche, monatelange Zeitleisten navigieren. Als Lösung schlagen wir den Rekursiven Multimodalen Agenten (ReMA) vor, der dynamisches Speichermanagement einsetzt, um einen rekursiven Überzeugungszustand (Belief State) iterativ zu aktualisieren, und existierende Methoden signifikant übertrifft. Abschließend etablieren wir Datensatzaufteilungen, die darauf ausgelegt sind, temporale Verzerrungen und Domänenverzerrungen zu isolieren, und schaffen so eine rigorose Grundlage für zukünftige Forschung im supervidierten Lernen und in der Out-of-Distribution-Generalisation.

Abgeschnittenes Stufenweises Sampling mit Prozessbelohnungen für retrieval-gestütztes Schließen
Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Feb 26

ByChris Samarinas, Haw-Shiuan Chang, Hamed Zamani

Das Training großer Sprachmodelle zum schlussfolgernden Denken mit Suchmaschinen mittels Verstärkungslernen wird durch ein grundlegendes Kreditzuweisungsproblem behindert: bestehende Methoden wie Search-R1 bieten nur eine spärliche Ergebnisbelohnung nach einer gesamten mehrstufigen Trajektorie, was es unmöglich macht, Erfolg oder Misserfolg einzelnen Schlussfolgerungs- und Abrufentscheidungen zuzuordnen. Prozessbelohnungsmethoden wie StepSearch mildern dies durch die Einführung von Überwachung auf Schrittebene, basieren jedoch auf heuristischen Belohnungen wie TF-IDF-Überlappung mit Golddokumenten und sampeln weiterhin k vollständige Trajektorien pro Beispiel, was eine hohe Gradientenvarianz beibehält. Wir schlagen SLATE vor, ein Framework, das auf zwei komplementären Ideen aufbaut: (1) *truncated step-level sampling*, das k Trajektorien erzeugt, die ein gemeinsames Präfix teilen und sich nur im nächsten Schritt unterscheiden, und (2) dichte *LLM-as-judge*-Belohnungen, die heuristische Bewertung durch einen leistungsfähigen LLM-Evaluator ersetzen, der die Qualität jedes Denkschritts, jeder Suchanfrage und jeder Antwort bewertet und so eine reichhaltigere und zuverlässigere Überwachung bietet. Wir beweisen theoretisch, dass bei gleicher dichter Belohnungsstruktur das abgeschnittene Sampling die Varianz von Vorteilsschätzungen für T-stufige Trajektorien um bis zu einem Faktor T im Vergleich zum Sampling vollständiger Trajektorien reduziert, was zu Policy-Gradienten mit geringerer Varianz und besserer Zielausrichtung führt. Experimente auf sieben QA-Benchmarks bestätigen, dass SLATE durchgängig sowohl Baseline-Methoden mit spärlicher Belohnung als auch mit Prozessbelohnung übertrifft, mit den größten Verbesserungen bei schwierigeren Multi-Hop-Aufgaben und kleineren Modellen.

Latente Partikel-Weltmodelle: Selbstüberwachte objektzentrierte stochastische Dynamikmodellierung
Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Mar 4

ByTal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held

Wir stellen Latent Particle World Model (LPWM) vor, ein selbstüberwachtes, objektzentriertes Weltmodell, das für reale Multi-Objekt-Datensätze skaliert und in der Entscheidungsfindung anwendbar ist. LPWM entdeckt autonom Keypoints, Bounding Boxes und Objektmasken direkt aus Videodaten, wodurch es reichhaltige Szenenzerlegungen ohne Überwachung erlernen kann. Unsere Architektur wird rein end-to-end aus Videos trainiert und unterstützt flexible Konditionierung auf Aktionen, Sprache und Bildziele. LPWM modelliert stochastische Partikeldynamiken über ein neuartiges latentes Aktionsmodul und erzielt state-of-the-art Ergebnisse auf verschiedenen realen und synthetischen Datensätzen. Über die stochastische Videomodellierung hinaus ist LPWM direkt in der Entscheidungsfindung anwendbar, einschließlich zielkonditioniertem Imitationslernen, wie wir in der Arbeit demonstrieren. Code, Daten, vortrainierte Modelle und Video-Rollouts sind verfügbar: https://taldatech.github.io/lpwm-web

STMI: segmentierungsgesteuerte Token-Modulation mit cross-modaler Hypergraphen-Interaktion für multi-modale Objekt-Re-Identifikation
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Feb 28

ByXingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang

Multimodale Objekt-Re-Identifikation (ReID) zielt darauf ab, komplementäre Informationen aus verschiedenen Modalitäten zur Wiederauffindung spezifischer Objekte zu nutzen. Bisherige Methoden stützen sich jedoch häufig auf hartes Token-Filtering oder einfache Fusionsstrategien, was zum Verlust diskriminativer Merkmale und verstärkter Hintergrundinterferenz führen kann. Um diese Herausforderungen zu bewältigen, schlagen wir STMI vor, ein neuartiges multimodales Lernframework, das aus drei Schlüsselkomponenten besteht: (1) Das segmentierungsgesteuerte Merkmalmodulationsmodul (SFM) nutzt SAM-generierte Masken, um Vordergrundrepräsentationen zu verstärken und Hintergrundrauschen durch lernbare Aufmerksamkeitsmodulation zu unterdrücken; (2) Das semantische Token-Reallokationsmodul (STR) verwendet lernbare Abfragetokens und einen adaptiven Reallokationsmechanismus, um kompakte und informative Repräsentationen zu extrahieren, ohne Tokens zu verwerfen; (3) Das cross-modale Hypergraph-Interaktionsmodul (CHI) konstruiert einen vereinheitlichten Hypergraphen über Modalitäten hinweg, um semantische Beziehungen höherer Ordnung zu erfassen. Umfangreiche Experimente auf öffentlichen Benchmarks (d.h. RGBNT201, RGBNT100 und MSVR310) demonstrieren die Wirksamkeit und Robustheit unseres vorgeschlagenen STMI-Frameworks in multimodalen ReID-Szenarien.

Verteilungs-konditionierter Transport
Distribution-Conditioned Transport

Mar 5

ByNic Fishman, Gokul Gowri, Paolo L. B. Fischer, Marinka Zitnik, Omar Abudayyeh, Jonathan Gootenberg

Das Erlernen eines Transportmodells, das eine Quellverteilung auf eine Zielverteilung abbildet, ist ein grundlegendes Problem im maschinellen Lernen. Wissenschaftliche Anwendungen erfordern jedoch zunehmend Modelle, die auf während des Trainings ungesehene Quell- und Zielverteilungen verallgemeinern können. Wir stellen distributionskonditionierten Transport (DCT) vor, einen Rahmen, der Transportabbildungen auf gelernten Einbettungen von Quell- und Zielverteilungen konditioniert und so eine Verallgemeinerung auf ungesehene Verteilungspaare ermöglicht. DCT erlaubt auch semi-überwachtes Lernen für Verteilungsvorhersageprobleme: Da es von beliebigen Verteilungspaaren lernt, kann es Verteilungen, die nur unter einer Bedingung beobachtet wurden, nutzen, um die Transportvorhersage zu verbessern. DCT ist agnostisch gegenüber dem zugrundeliegenden Transportmechanismus und unterstützt Modelle, die von Flow Matching bis hin zu modellbasierten Verteilungsdivergenzen (z.B. Wasserstein, MMD) reichen. Wir demonstrieren die praktischen Leistungsvorteile von DCT an synthetischen Benchmarks und vier biologischen Anwendungen: Batch-Effekt-Transfer in der Einzelzellgenomik, Perturbationsvorhersage aus Massenzytometriedaten, das Lernen klonaler transkriptioneller Dynamiken in der Hämatopoese und die Modellierung der T-Zell-Rezeptor-Sequenzevolution.

Leichtgewichtiges visuelles Schließen für sozial sensible Roboter
Lightweight Visual Reasoning for Socially-Aware Robots

Mar 4

ByAlessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano

Roboter, die in gemeinsamen menschlichen Umgebungen agieren, müssen nicht nur ihre Umgebung navigieren, interagieren und erfassen, sondern auch dynamische und oft unvorhersehbare menschliche Verhaltensweisen interpretieren und darauf reagieren. Obwohl jüngste Fortschritte vielversprechend für die Verbesserung der robotischen Wahrnehmung und Befolgung von Anweisungen durch Vision-Language-Modelle (VLMs) sind, bleiben sie in der Bewältigung der Komplexität multimodaler Mensch-Roboter-Interaktionen (HRI) begrenzt. Angespornt durch diese Herausforderung stellen wir ein leichtgewichtiges Sprach-zu-Vision-Feedback-Modul vor, das die Schleife zwischen einem LLM und dem Vision-Encoder in VLMs schließt. Das Modul projiziert versteckte Zustände von Bild-Token über ein gated Multi-Layer Perceptron (MLP) zurück in den Encoder-Eingang, was einen zweiten Durchlauf auslöst, der die Szene im Textkontext neu interpretiert. Wir evaluieren diesen Ansatz an drei roboterzentrierten Aufgaben: Navigation in einer simulierten Umgebung (Habitat), sequenzielle Szenenbeschreibung (Mementos-Robotics) und Erkennung menschlicher Absichten (unser HRI-Datensatz). Die Ergebnisse zeigen, dass unsere Methode Qwen 2.5 (7B) um 3,3 % (geringere Distanz), +0,057 Beschreibungspunktzahl und +2,93 % Genauigkeit verbessert, mit weniger als 3 % zusätzlichen Parametern; Gemma 3 (4B) und LLaVA OV 1.5 (4B) zeigen gemischte Navigationsergebnisse, aber Verbesserungen von +0,111 / +0,055 und +10,81 % / +4,79 % bei den beiden letztgenannten Aufgaben. Der Code ist verfügbar unter https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.