HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

21 papers found

SLA2: Sparse-Lineare Attention mit lernbarem Routing und QAT
SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Feb 13

ByJintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez

Sparse-Linear Attention (SLA) kombiniert sparse und lineare Attention, um Diffusionsmodelle zu beschleunigen, und hat starke Leistung in der Videogenerierung gezeigt. Allerdings (i) basiert SLA auf einer heuristischen Aufteilung, die Berechnungen basierend auf der Größe der Attention-Gewichte dem sparse- oder linear-Zweig zuweist, was suboptimal sein kann. Zusätzlich (ii) identifizieren wir nach einer formalen Analyse des Attention-Fehlers in SLA eine Diskrepanz zwischen SLA und einer direkten Zerlegung in sparse und lineare Attention. Wir schlagen SLA2 vor, das (I) einen erlernbaren Router einführt, der dynamisch auswählt, ob jede Attention-Berechnung sparse oder lineare Attention verwenden soll, (II) eine treuere und direktere Formulierung für sparse-lineare Attention bereitstellt, die ein erlernbares Verhältnis zur Kombination der sparse- und linear-Attention-Zweige nutzt, und (III) ein sparse + low-bit Attention-Design, bei dem low-bit Attention durch quantisierungsbewusstes Fine-Tuning eingeführt wird, um den Quantisierungsfehler zu reduzieren. Experimente zeigen, dass SLA2 bei Videodiffusionsmodellen eine Attention-Sparsity von 97 % erreichen und eine 18,6-fache Beschleunigung der Attention bei gleichbleibender Generierungsqualität liefern kann.

AutoWebWorld: Synthese unendlicher verifizierbarer Web-Umgebungen mittels endlicher Automaten
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Feb 15

ByYifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo

Die Leistung autonomer Web-GUI-Agenten hängt maßgeblich von der Qualität und Menge ihrer Trainingsdaten ab. Ein grundlegendes Problem bleibt jedoch bestehen: Die Erfassung von Interaktionsverläufen auf realen Websites ist kostspielig und nur schwer zu verifizieren. Die zugrundeliegenden Zustandsübergänge sind verborgen, was zu einer Abhängigkeit von inkonsistenten und teuren externen Verifikationsmechanismen zur Bewertung der Korrektheit auf Einzelschritt-Ebene führt. Um dieses Problem zu lösen, schlagen wir AutoWebWorld vor, einen neuartigen Rahmen zur Synthese steuerbarer und verifizierbarer Webumgebungen, indem diese als Endliche Automaten (Finite State Machines, FSMs) modelliert und Code-generierende Agenten eingesetzt werden, um die FSMs in interaktive Websites zu übersetzen. Im Gegensatz zu realen Websites, bei denen Zustandsübergänge implizit sind, definiert AutoWebWorld alle Zustände, Aktionen und Übergangsregeln explizit. Dies ermöglicht eine programmatische Verifikation: Die Korrektheit einer Aktion wird anhand vordefinierter Regeln geprüft, und der Aufgabenerfolg wird durch das Erreichen eines Zielzustands im FSM-Graphen bestätigt. AutoWebWorld ermöglicht eine vollständig automatisierte Such- und Verifizierungspipeline, die über 11.663 verifizierte Verläufe aus 29 verschiedenen Webumgebungen zu lediglich 0,04 US-Dollar pro Verlauf generiert. Das Training mit diesen synthetischen Daten steigert die Leistung in realen Szenarien erheblich. Unser 7B Web-GUI-Agent übertrifft alle Vergleichsmodelle innerhalb von 15 Schritten auf WebVoyager. Darüber hinaus beobachten wir ein klares Skalengesetz: Mit zunehmendem Umfang der synthetischen Daten verbessert sich die Leistung auf WebVoyager und Online-Mind2Web kontinuierlich.

RynnBrain: Offene verkörperte Fundamentalmodelle
RynnBrain: Open Embodied Foundation Models

Feb 13

ByRonghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao

Trotz rasanter Fortschritte bei multimodalen Fundamentalmodellen fehlt der Community für verkörperte Intelligenz nach wie vor ein einheitliches, physikalisch fundiertes Grundmodell, das Wahrnehmung, Schlussfolgerung und Planung innerhalb realer raumzeitlicher Dynamiken integriert. Wir stellen RynnBrain vor, ein quelloffenes raumzeitliches Fundamentalmodel für verkörperte Intelligenz. RynnBrain stärkt vier Kernfähigkeiten in einem einheitlichen Rahmen: umfassendes egozentrisches Verständnis, vielfältige raumzeitliche Lokalisierung, physikalisch fundiertes Schlussfolgern und physikbewusste Planung. Die RynnBrain-Familie umfasst drei Fundamentalmodelle in verschiedenen Größen (2B, 8B und 30B-A3B MoE) sowie vier nachtrainierte Varianten, die für nachgelagerte verkörperte Aufgaben (d.h. RynnBrain-Nav, RynnBrain-Plan und RynnBrain-VLA) oder komplexe räumliche Denkaufgaben (d.h. RynnBrain-CoP) maßgeschneidert sind. Bei umfangreichen Auswertungen auf 20 verkörperten Benchmarks und 8 allgemeinen Benchmark für visuelles Verständnis übertreffen unsere RynnBrain-Fundamentalmodelle die vorhandenen Modelle für verkörperte Intelligenz deutlich. Die Suite nachtrainierter Modelle untermauert weiterhin zwei Schlüsselpotenziale des RynnBrain-Fundamentalmodelle: (i) die Ermöglichung physikalisch fundierten Schließens und Planens und (ii) die Funktion als starke vortrainierte Basis, die effizient an verschiedene verkörperte Aufgaben angepasst werden kann.

CADEvolve: Erstellung realistischer CAD-Modelle durch Programmevolution
CADEvolve: Creating Realistic CAD via Program Evolution

Feb 18

ByMaksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov

Computer-Aided Design (CAD) ermöglicht eine schnelle, bearbeitbare Modellierung für den Ingenieur- und Fertigungsbereich. Jüngste Fortschritte in der KI machen nun eine vollständige Automatisierung für verschiedene CAD-Aufgaben möglich. Der Fortschritt wird jedoch durch Daten behindert: Öffentliche Korpora enthalten überwiegend Sketch-Extrude-Sequenzen, es mangelt an komplexen Operationen, Mehrfachoperationskompositionen und Designintention, was eine effektive Feinabstimmung behindert. Versuche, dies mit eingefrorenen VLMs zu umgehen, führen aufgrund der begrenzten 3D-Verankerung in aktuellen Foundation-Modellen oft zu einfachen oder ungültigen Programmen. Wir stellen CADEvolve vor, eine evolutionsbasierte Pipeline und ein Datenset, das von einfachen Primitiven ausgeht und durch VLM-gesteuerte Bearbeitungen und Validierungen CAD-Programme schrittweise bis hin zu industrietauglicher Komplexität erweitert. Das Ergebnis sind 8.000 komplexe Bauteile, die als ausführbare CadQuery-parametrische Generatoren ausgedrückt werden. Nach einer mehrstufigen Nachbearbeitung und Erweiterung erhalten wir einen vereinheitlichten Datensatz von 1,3 Millionen Skripten, die mit gerenderter Geometrie gepaart sind und den vollständigen CadQuery-Operationssatz abdecken. Ein auf CADEvolve feinabgestimmtes VLM erzielt state-of-the-art Ergebnisse bei der Image2CAD-Aufgabe in den Benchmarks DeepCAD, Fusion 360 und MCB.

Lernen der Endeffektor-Steuerung für humanoide Roboter zur offen-vokabulären visuellen Loko-Manipulation
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

Die visuelle Loko-Manipulation beliebiger Objekte in unstrukturierten Umgebungen mit humanoiden Robotern erfordert eine präzise Endeffektor (EE)-Steuerung und ein generalisierbares Verständnis der Szene durch visuelle Eingaben (z.B. RGB-D-Bilder). Bestehende Ansätze basieren auf Imitationslernen in der realen Welt und weisen aufgrund der Schwierigkeiten bei der Erfassung groß angelegter Trainingsdatensätze eine begrenzte Generalisierungsfähigkeit auf. Dieses Papier stellt ein neues Paradigma, HERO, für die Objekt-Loko-Manipulation mit humanoiden Robotern vor, das die starke Generalisierungsfähigkeit und open-vocabulary-Understanding großer Vision-Modelle mit der hohen Steuerungsleistung aus simuliertem Training kombiniert. Wir erreichen dies durch die Entwicklung einer präzisen, residualbewussten EE-Tracking-Policy. Diese EE-Tracking-Policy kombiniert klassische Robotik mit maschinellem Lernen. Sie verwendet a) inverse Kinematik zur Umwandlung von Residualzielen für den Endeffektor in Referenztrajektorien, b) ein gelerntes neuronales Vorwärtsmodell für präzise Vorwärtskinematik, c) Zielanpassung und d) Neuplanung. Gemeinsam helfen uns diese Innovationen, den Endeffektor-Tracking-Fehler um den Faktor 3,2 zu reduzieren. Wir nutzen diesen präzisen Endeffektor-Tracker, um ein modulares System für die Loko-Manipulation aufzubauen, in dem wir open-vocabulary große Vision-Modelle für eine starke visuelle Generalisierung einsetzen. Unser System ist in der Lage, in verschiedenen realen Umgebungen zu operieren, von Büros bis hin zu Cafés, wobei der Roboter in der Lage ist, verschiedene Alltagsobjekte (z.B. Tassen, Äpfel, Spielzeuge) zuverlässig auf Oberflächen mit Höhen zwischen 43 cm und 92 cm zu manipulieren. Systematische modulare und End-to-End-Tests in Simulation und realer Welt demonstrieren die Wirksamkeit unseres vorgeschlagenen Designs. Wir glauben, dass die Fortschritte in diesem Papier neue Wege für das Training humanoider Roboter zur Interaktion mit Alltagsgegenständen eröffnen können.

Multi-Agent-Kooperation durch In-Context-Mitspieler-Inferenz
Multi-agent cooperation through in-context co-player inference

Feb 18

ByMarissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans

Die Erzielung von Kooperation zwischen eigennützigen Agenten bleibt eine grundlegende Herausforderung im Bereich des Multi-Agenten-Reinforcement-Learnings. Jüngste Arbeiten haben gezeigt, dass gegenseitige Kooperation zwischen "lernbewussten" Agenten induziert werden kann, welche die Lernprozesse ihrer Mitspieler berücksichtigen und aktiv formen. Bisherige Ansätze basieren jedoch typischerweise auf fest kodierten, oft inkonsistenten Annahmen über die Lernregeln der Mitspieler oder erzwingen eine strikte Trennung zwischen "naiven Lernenden", die auf schnellen Zeitskalen aktualisieren, und "Meta-Lernenden", die diese Aktualisierungen beobachten. Hier zeigen wir, dass die In-Context-Lernfähigkeiten von Sequenzmodellen eine Lernbewusstheit gegenüber Mitspielern ermöglichen, ohne fest kodierte Annahmen oder explizite Zeitskalen-Trennung zu erfordern. Wir demonstrieren, dass das Training von Sequenzmodell-Agenten gegen eine vielfältige Verteilung von Mitspielern natürlicherweise In-Context-Best-Response-Strategien induziert, die effektiv als Lernalgorithmen auf der schnellen, episodeninternen Zeitskala fungieren. Wir stellen fest, dass der in früheren Arbeiten identifizierte Kooperationsmechanismus – bei dem Anfälligkeit für Erpressung gegenseitige Formung antreibt – in diesem Setting natürlich entsteht: In-Context-Anpassung macht Agenten anfällig für Erpressung, und der daraus resultierende gegenseitige Druck, die In-Context-Lerndynamik des Gegners zu formen, mündet im Erlernen kooperativen Verhaltens. Unsere Ergebnisse legen nahe, dass standardmäßiges dezentrales Reinforcement-Learning auf Sequenzmodellen in Kombination mit Mitspieler-Diversität einen skalierbaren Weg zum Erlernen kooperativen Verhaltens bietet.

MAEB: Benchmark für massive Audio-Einbettungen
MAEB: Massive Audio Embedding Benchmark

Feb 17

ByAdnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen

Wir stellen den Massive Audio Embedding Benchmark (MAEB) vor, einen umfassenden Benchmark, der 30 Aufgaben in den Bereichen Sprache, Musik, Umgebungsgeräusche und cross-modale Audio-Text-Reasoning in über 100 Sprachen abdeckt. Wir evaluieren mehr als 50 Modelle und stellen fest, dass kein einzelnes Modell alle Aufgaben dominiert: Kontrastive Audio-Text-Modelle glänzen bei der Klassifizierung von Umgebungsgeräuschen (z.B. ESC50), erzielen aber nahezu Zufallstreffer bei multilingualen Sprachaufgaben (z.B. SIB-FLEURS), während sprachvor-trainierte Modelle das entgegengesetzte Muster zeigen. Clustering bleibt für alle Modelle herausfordernd, wobei selbst das leistungsstärkste Modell nur bescheidene Ergebnisse erzielt. Wir beobachten, dass Modelle, die bei akustischem Verständnis exzellieren, häufig bei linguistischen Aufgaben schlecht abschneiden und umgekehrt. Wir zeigen auch, dass die Leistung von Audio-Encodern auf MAEB stark mit ihrer Leistung in Audio-Large-Language-Modellen korreliert. MAEB leitet sich von MAEB+ ab, einer Sammlung von 98 Aufgaben. MAEB ist darauf ausgelegt, die Aufgabenvielfalt bei gleichzeitiger Reduzierung der Evaluierungskosten zu erhalten, und integriert sich in das MTEB-Ökosystem für eine vereinheitlichte Evaluierung über Text-, Bild- und Audiomodalitäten hinweg. Wir veröffentlichen MAEB und alle 98 Aufgaben zusammen mit Code und einer Bestenliste unter https://github.com/embeddings-benchmark/mteb.

Leere Regale oder verlorene Schlüssel? Der Abruf ist der Engpass für parametrische Faktentreue
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Feb 15

ByNitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

Standardmäßige Faktizitätsbewertungen von LLMs behandeln alle Fehler gleich und verdecken, ob Fehler auf fehlendem Wissen (leere Regale) oder auf eingeschränktem Zugriff auf kodierte Fakten (verlorene Schlüssel) beruhen. Wir schlagen ein Verhaltensframework vor, das faktisches Wissen auf der Ebene von Fakten und nicht von Fragen profiliert, indem es jeden Fakt danach charakterisiert, ob er kodiert ist und anschließend danach, wie zugänglich er ist: nicht abrufbar, direkt abrufbar oder nur mit Inferenzzeit-Berechnung (Denken) abrufbar. Um ein solches Profiling zu ermöglichen, führen wir WikiProfile ein, einen neuen Benchmark, der über eine automatisierte Pipeline mit einem an Websuche gekoppelten, geprompten LLM erstellt wird. Anhand von 4 Millionen Antworten von 13 LLMs stellen wir fest, dass die Kodierung in führenden Modellen für unseren Benchmark nahezu gesättigt ist; GPT-5 und Gemini-3 kodieren 95–98 % der Fakten. Dennoch bleibt der Abruf ein Hauptengpass: Viele Fehler, die zuvor fehlendem Wissen zugeschrieben wurden, rühren stattdessen von Zugriffsfehlern her. Diese Fehler sind systematisch und betreffen überproportional Long-Tail-Fakten und umgekehrte Fragen. Schließlich zeigen wir, dass Denken den Abruf verbessert und einen beträchtlichen Teil der Fehler beheben kann, was darauf hindeutet, dass zukünftige Fortschritte weniger auf Skalierung, sondern mehr auf Methoden beruhen könnten, die verbessern, wie Modelle das bereits Kodierte nutzen.

Auf dem Weg zu einer Wissenschaft der KI-Agenten-Zuverlässigkeit
Towards a Science of AI Agent Reliability

Feb 18

ByStephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan

KI-Agenten werden zunehmend für die Ausführung wichtiger Aufgaben eingesetzt. Während steigende Genauigkeitswerte in Standard-Benchmarks auf rasante Fortschritte hindeuten, scheitern viele Agenten in der Praxis nach wie vor. Diese Diskrepanz verdeutlicht eine grundlegende Einschränkung aktueller Evaluierungen: Das Komprimieren des Agentenverhaltens in eine einzige Erfolgskennzahl verschleiert kritische operative Mängel. Insbesondere wird ignoriert, ob Agenten konsistent über mehrere Durchläufe hinweg agieren, Störungen standhalten, vorhersagbar scheitern oder begrenzte Fehlerschwere aufweisen. Basierend auf Prinzipien der sicherheitskritischen Technik liefern wir ein ganzheitliches Leistungsprofil, indem wir zwölf konkrete Metriken vorschlagen, die die Zuverlässigkeit von Agenten entlang vier Schlüsseldimensionen aufschlüsseln: Konsistenz, Robustheit, Vorhersagbarkeit und Sicherheit. Durch die Evaluierung von 14 agentenbasierten Modellen mit zwei komplementären Benchmarks stellen wir fest, dass jüngste Fähigkeitsgewinne nur zu geringen Verbesserungen der Zuverlässigkeit führten. Indem wir diese beständigen Limitationen aufdecken, ergänzen unsere Metriken traditionelle Evaluierungen und bieten gleichzeitig Werkzeuge, um zu verstehen, wie Agenten funktionieren, sich verschlechtern und versagen.

Weltaktionsmodelle sind Null-Shot-Politiken.
World Action Models are Zero-shot Policies

Feb 17

BySeonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

State-of-the-Art Vision-Language-Action (VLA)-Modelle zeichnen sich durch semantische Generalisierungsfähigkeit aus, haben jedoch Schwierigkeiten, Generalisierung auf ungesehene physische Bewegungen in neuen Umgebungen zu erreichen. Wir stellen DreamZero vor, ein World Action Model (WAM), das auf einem vortrainierten Video-Diffusions-Backbone aufbaut. Im Gegensatz zu VLAs lernen WAMs physikalische Dynamiken, indem sie zukünftige Weltzustände und Aktionen vorhersagen und dabei Video als dichte Repräsentation der Weltenentwicklung nutzen. Durch die gemeinsame Modellierung von Video und Aktion erlernt DreamZero effektiv diverse Fähigkeiten aus heterogenen Roboterdaten, ohne auf repetitive Demonstrationen angewiesen zu sein. Dies führt in Echtzeit-Roboterexperimenten zu einer mehr als 2-fachen Verbesserung der Generalisierungsfähigkeit für neue Aufgaben und Umgebungen im Vergleich zu state-of-the-art VLAs. Entscheidend ist, dass wir durch Modell- und Systemoptimierungen ein autoregressives Video-Diffusionsmodell mit 14B Parametern für eine Echtzeit-Closed-Loop-Steuerung mit 7 Hz befähigen. Abschließend demonstrieren wir zwei Formen des Cross-Embodiment-Transfers: Video-only-Demonstrationen von anderen Robotern oder Menschen führen zu einer relativen Verbesserung von über 42 % bei der Leistung in ungesehenen Aufgaben mit nur 10-20 Minuten Daten. Noch überraschender ist, dass DreamZero Few-Shot-Embodiment-Anpassung ermöglicht – der Transfer auf eine neue Verkörperung gelingt mit nur 30 Minuten Spiel-Daten, während die Zero-Shot-Generalisierung erhalten bleibt.

Verstärkte Schnellgewichte mit Next-Sequence-Prädiktion
Reinforced Fast Weights with Next-Sequence Prediction

Feb 18

ByHee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

Schnelle-Gewichte-Architekturen bieten eine vielversprechende Alternative zu aufmerksamkeitsbasierten Transformern für die Modellierung langer Kontexte, da sie konstanten Speicherbedarf unabhängig von der Kontextlänge aufrechterhalten. Ihr Potenzial wird jedoch durch das Next-Token-Prediction (NTP)-Trainingsparadigma eingeschränkt. NTP optimiert Einzel-Token-Vorhersagen und ignoriert semantische Kohärenz über mehrere Token nach einem Präfix hinweg. Folglich lernen schnelle Gewichtsmodelle, die ihre Parameter dynamisch zur Speicherung kontextueller Informationen aktualisieren, suboptimale Repräsentationen, die keine langreichweitigen Abhängigkeiten erfassen. Wir stellen REFINE (Reinforced Fast weIghts with Next sEquence prediction) vor, ein Reinforcement-Learning-Framework, das schnelle Gewichtsmodelle unter der Next-Sequence-Prediction (NSP)-Zielfunktion trainiert. REFINE wählt informative Token-Positionen basierend auf Vorhersageentropie aus, generiert Multi-Token-Rollouts, weist selbstüberwachte sequenzielle Belohnungen zu und optimiert das Modell mit Group Relative Policy Optimization (GRPO). REFINE ist während der gesamten Trainingslebensdauer vortrainierter Sprachmodelle anwendbar: während des Trainings, nach dem Training und während Test-Time-Training. Unsere Experimente mit LaCT-760M und DeltaNet-1.3B zeigen, dass REFINE durchgängig das überwachte Fine-Tuning mit NTP bei Needle-in-a-Haystack-Retrieval, Frage-Antwort-Aufgaben mit langem Kontext und diversen Aufgaben in LongBench übertrifft. REFINE bietet einen effektiven und vielseitigen Rahmen zur Verbesserung der Langzeitkontextmodellierung in schnellen Gewichtsarchitekturen.

SAM 3D Body: Robuste Ganzkörper-Rekonstruktion menschlicher Meshes
SAM 3D Body: Robust Full-Body Human Mesh Recovery

Feb 17

ByXitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

Wir stellen SAM 3D Body (3DB) vor, ein promptbares Modell für die 3D-Rekonstruktion des menschlichen Körpers (Human Mesh Recovery, HMR) aus Einzelbildern, das state-of-the-art Leistung demonstriert, mit starker Generalisierungsfähigkeit und konsistenter Genauigkeit unter diversen "in-the-wild"-Bedingungen. 3DB schätzt die menschliche Pose des Körpers, der Füße und der Hände. Es ist das erste Modell, das eine neue parametrische Mesh-Repräsentation, Momentum Human Rig (MHR), verwendet, die Skelettstruktur und Oberflächenform entkoppelt. 3DB verwendet eine Encoder-Decoder-Architektur und unterstützt auxiliary Prompts, einschließlich 2D-Keypoints und Masken, was eine benutzergeführte Inferenz ähnlich der SAM-Modellfamilie ermöglicht. Wir leiten hochwertige Annotationen aus einer mehrstufigen Annotation-Pipeline ab, die verschiedene Kombinationen aus manueller Keypoint-Annotation, differenzierbarer Optimierung, Multi-View-Geometrie und dichter Keypoint-Erkennung verwendet. Unsere Data-Engine wählt und verarbeitet Daten effizient aus, um Datenvielfalt sicherzustellen, und erfasst ungewöhnliche Posen und seltene Aufnahmebedingungen. Wir stellen einen neuen Evaluierungsdatensatz vor, der nach Posen- und Erscheinungskategorien organisiert ist und eine nuancierte Analyse des Modellverhaltens ermöglicht. Unsere Experimente zeigen eine überlegene Generalisierung und substantielle Verbesserungen gegenüber früheren Methoden sowohl in qualitativen Nutzerpräferenzstudien als auch in traditionellen quantitativen Analysen. Sowohl 3DB als auch MHR sind Open-Source.

Optimierung der Few-Step-Generierung durch adaptive Matching-Distillation
Optimizing Few-Step Generation with Adaptive Matching Distillation

Feb 7

ByLichen Bai, Zikai Zhou, Shitong Shao, Wenliang Zhong, Shuo Yang, Shuo Chen, Bojun Chen, Zeke Xie

Distribution Matching Distillation (DMD) ist ein leistungsstarkes Beschleunigungsparadigma, dessen Stabilität jedoch häufig in sogenannten "Forbidden Zones" beeinträchtigt wird – Regionen, in denen der echte Teacher unzuverlässige Anleitung bietet, während der falsche Teacher eine unzureichende abstoßende Kraft ausübt. In dieser Arbeit schlagen wir einen einheitlichen Optimierungsrahmen vor, der bisherige Ansätze als implizite Strategien zur Vermeidung dieser korrumpierten Regionen neu interpretiert. Aufbauend auf dieser Erkenntnis führen wir Adaptive Matching Distillation (AMD) ein, einen selbstkorrigierenden Mechanismus, der Belohnungs-Proxies nutzt, um Forbidden Zones explizit zu erkennen und zu verlassen. AMD priorisiert korrigierende Gradienten dynamisch mittels struktureller Signalzerlegung und führt "Repulsive Landscape Sharpening" ein, um steile Energiebarrieren gegen den Kollaps in Fehlermodi zu erzwingen. Umfangreiche Experimente in Bild- und Video-Generierungsaufgaben (z.B. SDXL, Wan2.1) und rigorose Benchmarks (z.B. VBench, GenEval) zeigen, dass AMD die Probenqualität und Trainingsrobustheit signifikant steigert. So verbessert AMD beispielsweise den HPSv2-Score für SDXL von 30,64 auf 31,25 und übertrifft damit state-of-the-art Baselines. Diese Ergebnisse validieren, dass die explizite Korrektur von Optimierungspfaden innerhalb von Forbidden Zones entscheidend ist, um die Leistungsgrenzen von Generativen Modellen mit wenigen Schritten weiter zu verschieben.

Lernen personalisierter Agenten aus menschlichem Feedback
Learning Personalized Agents from Human Feedback

Feb 18

ByKaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini

Moderne KI-Agenten sind leistungsfähig, scheitern jedoch oft daran, sich mit den idiosynkratischen, sich entwickelnden Präferenzen individueller Nutzer in Einklang zu bringen. Bisherige Ansätze stützen sich typischerweise auf statische Datensätze, indem sie entweder implizite Präferenzmodelle auf Interaktionshistorie trainieren oder Nutzerprofile in externem Speicher kodieren. Diese Ansätze haben jedoch Schwierigkeiten mit neuen Nutzern und sich über die Zeit verändernden Präferenzen. Wir stellen Personalisierte Agenten aus menschlichem Feedback (PAHF) vor, einen Rahmen für kontinuierliche Personalisierung, bei dem Agenten online aus laufender Interaktion unter Verwendung eines expliziten, nutzerspezifischen Speichers lernen. PAHF operationalisiert eine dreistufige Schleife: (1) Einholung von Klärung vor der Aktion zur Auflösung von Mehrdeutigkeiten, (2) Verankerung von Aktionen in Präferenzen, die aus dem Speicher abgerufen werden, und (3) Integration von Feedback nach der Aktion zur Aktualisierung des Speichers bei Präferenzverschiebungen. Um diese Fähigkeit zu bewerten, entwickeln wir ein vierphasiges Protokoll und zwei Benchmarks in den Bereichen verkörperte Manipulation und Online-Shopping. Diese Benchmarks quantifizieren die Fähigkeit eines Agenten, anfängliche Präferenzen von Grund auf zu lernen und sich anschließend an Persönlichkeitsverschiebungen anzupassen. Unsere theoretische Analyse und empirischen Ergebnisse zeigen, dass die Integration von explizitem Speicher mit dualen Feedback-Kanälen entscheidend ist: PAHF lernt wesentlich schneller und übertrifft durchgängig sowohl Baseline-Modelle ohne Speicher als auch mit nur einem Kanal, reduziert den anfänglichen Personalisierungsfehler und ermöglicht eine schnelle Anpassung an Präferenzverschiebungen.

MMA: Multimedialer Gedächtnis-Agent
MMA: Multimodal Memory Agent

Feb 18

ByYihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang

Multimodale Agentensysteme mit langem Planungshorizont sind auf externen Speicher angewiesen; ähnlichkeitsbasierte Abrufverfahren liefern jedoch häufig veraltete, wenig vertrauenswürdige oder widersprüchliche Einträge, die zu übermäßig selbstsicheren Fehlentscheidungen führen können. Wir stellen den Multimodal Memory Agent (MMA) vor, der jedem abgerufenen Speichereintrag eine dynamische Zuverlässigkeitsbewertung zuweist, indem er Quellenglaubwürdigkeit, zeitlichen Abfall und konfliktsensiblen Netzwerkkonsens kombiniert. Dieses Signal wird zur Neugewichtung von Evidenz genutzt, wobei MMA bei unzureichender Unterstützung entscheidet, sich einer Antwort zu enthalten. Zudem führen wir MMA-Bench ein, einen programmgesteuert generierten Benchmark für Überzeugungsdynamiken mit kontrollierter Sprecherzuverlässigkeit und strukturierten Text-Bild-Widersprüchen. Mit diesem Framework decken wir den „Visuellen Placebo-Effekt“ auf, der zeigt, wie RAG-basierte Agenten latente visuelle Verzerrungen aus Foundation Models übernehmen. Auf FEVER erreicht MMA die Basisgenauigkeit, reduziert jedoch die Varianz um 35,2 % und verbessert die selektive Nutzbarkeit; auf LoCoMo steigert eine sicherheitsorientierte Konfiguration die handlungsrelevante Genauigkeit und reduziert falsche Antworten; auf MMA-Bench erzielt MMA im Vision-Modus eine Typ-B-Genauigkeit von 41,18 %, während der Baseline-Ansatz unter demselben Protokoll auf 0,0 % abfällt. Code: https://github.com/AIGeeksGroup/MMA.

Effizienter textgeführter Konvolutionsadapter für das Diffusionsmodell
Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Feb 16

ByAryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma

Wir stellen die Nexus-Adapter vor, neuartige textgesteuerte effiziente Adapter für das diffusionsbasierte Framework zur strukturerhaltenden bedingten Generierung (Structure Preserving Conditional Generation, SPCG). Kürzlich haben strukturerhaltende Methoden vielversprechende Ergebnisse bei der bedingten Bildgenerierung erzielt, indem sie ein Basismodell für die Prompt-Konditionierung und einen Adapter für Struktureingaben wie Skizzen oder Tiefenkarten verwenden. Diese Ansätze sind jedoch sehr ineffizient und erfordern manchmal ebenso viele Parameter im Adapter wie in der Basisarchitektur. Das Training des Modells ist nicht immer möglich, da das Diffusionsmodell selbst rechenintensiv ist und eine Verdopplung der Parameter höchst ineffizient ist. Bei diesen Ansätzen berücksichtigt der Adapter den Eingabe-Prompt nicht; daher ist er optimal für die Struktureingabe, aber nicht für den Eingabe-Prompt. Um diese Herausforderungen zu bewältigen, schlagen wir zwei effiziente Adapter vor, Nexus Prime und Slim, die durch Prompts und Struktureingaben gesteuert werden. Jeder Nexus-Block integriert Cross-Attention-Mechanismen, um eine umfassende multimodale Konditionierung zu ermöglichen. Dadurch versteht der vorgeschlagene Adapter den Eingabe-Prompt besser, während die Struktur erhalten bleibt. Wir führten umfangreiche Experimente mit den vorgeschlagenen Modellen durch und zeigten, dass der Nexus-Prime-Adapter die Leistung erheblich verbessert und im Vergleich zum Baseline-Modell T2I-Adapter nur 8 Mio. zusätzliche Parameter benötigt. Darüber hinaus stellten wir einen leichtgewichtigen Nexus-Slim-Adapter mit 18 Mio. Parametern weniger als der T2I-Adapter vor, der dennoch state-of-the-art Ergebnisse erzielte. Code: https://github.com/arya-domain/Nexus-Adapters

Lernen von situativem Bewusstsein in der realen Welt
Learning Situated Awareness in the Real World

Feb 18

ByChuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang

Ein zentraler Aspekt der menschlichen Wahrnehmung ist das situierte Bewusstsein, also die Fähigkeit, uns selbst zur umgebenden physischen Umwelt in Beziehung zu setzen und mögliche Handlungen im Kontext zu durchdenken. Die meisten bestehenden Benchmarks für multimodale Basismodelle (MFMs) konzentrieren sich jedoch auf umgebungszentrierte räumliche Beziehungen (Beziehungen zwischen Objekten in einer Szene) und übersehen weitgehend beobachterzentrierte Beziehungen, die ein Schlussfolgern relativ zum Blickwinkel, zur Pose und zur Bewegung eines Agenten erfordern. Um diese Lücke zu schließen, stellen wir SAW-Bench (Situated Awareness in the Real World) vor, einen neuartigen Benchmark zur Bewertung des egozentrischen situierten Bewusstseins anhand von Realwelt-Videos. SAW-Bench umfasst 786 selbst aufgenommene Videos, die mit Ray-Ban Meta (Gen 2) Smart Glasses in verschiedenen Innen- und Außenumgebungen aufgezeichnet wurden, sowie über 2.071 von Menschen annotierte Frage-Antwort-Paare. Er testet das beobachterzentrierte Verständnis eines Modells mit sechs verschiedenen Aufgaben zum situierten Bewusstsein. Unsere umfassende Auswertung zeigt eine Leistungslücke zwischen Mensch und Modell von 37,66 %, selbst mit dem leistungsstärksten MFM, Gemini 3 Flash. Über diese Lücke hinaus enthüllt unsere detaillierte Analyse mehrere bemerkenswerte Erkenntnisse; so können Modelle zwar partielle geometrische Hinweise in egozentrischen Videos nutzen, scheitern aber oft daran, eine kohärente Kamerageometrie abzuleiten, was zu systematischen Fehlern beim räumlichen Schlussfolgern führt. Wir positionieren SAW-Bench als Benchmark für situierte räumliche Intelligenz, der über passive Beobachtung hinausgeht und hin zu einem Verständnis physikalisch fundierter, beobachterzentrierter Dynamiken führt.

Unsicherheitsbewusste Bild-Text-Segmentierung für die medizinische Bildgebung
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Feb 16

ByAryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma

Wir stellen ein neuartiges unsicherheitsbasiertes multimodales Segmentierungsframework vor, das sowohl radiologische Bilder als auch zugehörige klinische Texte für präzise medizinische Diagnosen nutzt. Wir präsentieren einen Modalitäts-Decoding-Attentionsblock (MoDAB) mit einem leichtgewichtigen State-Space-Mixer (SSMix), um effiziente cross-modale Fusion und Modellierung von Langreichweiteneinflüssen zu ermöglichen. Zur Steuerung des Lernprozesses bei Mehrdeutigkeiten schlagen wir den Spectral-Entropic Uncertainty (SEU) Loss vor, der räumliche Überlappung, spektrale Konsistenz und Vorhersageunsicherheit in einem einheitlichen Ziel vereint. Bei komplexen klinischen Szenarien mit schlechter Bildqualität verbessert diese Formulierung die Modellzuverlässigkeit. Umfangreiche Experimente mit verschiedenen öffentlich verfügbaren medizinischen Datensätzen – QATA-COVID19, MosMed++ und Kvasir-SEG – zeigen, dass unsere Methode eine überlegene Segmentierungsleistung erzielt und dabei deutlich recheneffizienter ist als bestehende State-of-the-Art (SoTA) Ansätze. Unsere Ergebnisse unterstreichen die Bedeutung von Unsicherheitsmodellierung und strukturierter Modalitätsausrichtung bei Vision-Language-Segmentierungsaufgaben in der Medizin. Code: https://github.com/arya-domain/UA-VLS

BiManiBench: Eine hierarchische Benchmark zur Bewertung der bimanuellen Koordination multimodaler großer Sprachmodelle
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Feb 9

ByXin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li

Multimodale Large Language Models (MLLMs) haben die verkörperte KI erheblich vorangetrieben, und ihre Verwendung als Benchmark für robotische Intelligenz ist zu einem zentralen Trend geworden. Bisherige Bewertungsrahmen beschränken sich jedoch überwiegend auf Manipulation mit einem einzelnen Arm und erfassen nicht die räumlich-zeitliche Koordination, die für bimanuelle Aufgaben wie das Anheben eines schweren Topfes erforderlich ist. Um dies zu adressieren, stellen wir BiManiBench vor, einen hierarchischen Benchmark, der MLLMs auf drei Ebenen evaluiert: grundlegendes räumliches Schließen, hochrangige Aktionsplanung und niedrigrangige Steuerung der Endeffektoren. Unser Rahmenwerk isoliert einzigartige bimanuelle Herausforderungen wie die Reichweite der Arme und kinematische Einschränkungen und unterscheidet so Wahrnehmungshalluzinationen von Planungsfehlern. Die Analyse von über 30 modernsten Modellen zeigt, dass MLLMs trotz hoher Kompetenz im hochrangigen Schließen mit der räumlichen Verankerung und Steuerung zweier Arme kämpfen, was häufig zu gegenseitigen Interferenzen und Sequenzierungsfehlern führt. Diese Ergebnisse deuten darauf hin, dass dem aktuellen Paradigma ein tiefgehendes Verständnis gegenseitiger kinematischer Beschränkungen fehlt, was die Notwendigkeit zukünftiger Forschung zur Vermeidung von Kollisionen zwischen den Armen und zur fein abgestuften zeitlichen Sequenzierung unterstreicht.

Visuelle Gedächtnisinjektionsangriffe für Mehrfachdialoge
Visual Memory Injection Attacks for Multi-Turn Conversations

Feb 17

ByChristian Schlarmann, Matthias Hein

Generative große visuell-sprachliche Modelle (LVLMs) haben in letzter Zeit beeindruckende Leistungssteigerungen erzielt, und ihre Nutzerbasis wächst rapide. Die Sicherheit von LVLMs, insbesondere in einem langen, mehrschrittigen Kontext, ist jedoch weitgehend unerforscht. In diesem Beitrag betrachten wir das realistische Szenario, in dem ein Angreifer ein manipuliertes Bild im Web/in den sozialen Medien hochlädt. Ein wohlmeinender Benutzer lädt dieses Bild herunter und verwendet es als Eingabe für das LVLM. Unsere neuartige, heimliche Visual Memory Injection (VMI)-Attacke ist so konzipiert, dass das LVLM bei normalen Aufforderungen nominelles Verhalten zeigt, aber sobald der Benutzer eine auslösende Aufforderung gibt, eine spezifische, vorgegebene Zielnachricht ausgibt, um den Benutzer zu manipulieren, z.B. für gegnerisches Marketing oder politische Überzeugungsarbeit. Im Vergleich zu früheren Arbeiten, die sich auf Einzelschritt-Angriffe konzentrierten, ist VMI auch nach einer langen, mehrschrittigen Konversation mit dem Benutzer wirksam. Wir demonstrieren unseren Angriff an mehreren aktuellen Open-Weight-LVLMs. Dieser Artikel zeigt damit, dass eine großangelegte Manipulation von Benutzern mit veränderten Bildern in Mehrschritt-Konversationsszenarien möglich ist, was nach einer besseren Robustheit von LVLMs gegenüber diesen Angriffen verlangt. Wir veröffentlichen den Quellcode unter https://github.com/chs20/visual-memory-injection.

OPBench: Ein Graph-Benchmark zur Bekämpfung der Opioidkrise
OPBench: A Graph Benchmark to Combat the Opioid Crisis

Feb 16

ByTianyi Ma, Yiyang Li, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Chuxu Zhang, Yanfang Ye

Die Opioid-Epidemie setzt sich weltweit fort und verwüstet Gemeinschaften, belastet Gesundheitssysteme, zerrüttet Familien und erfordert dringend computergestützte Lösungen. Um dieser tödlichen Opioidkrise zu begegnen, haben sich Graph-Learning-Methoden als vielversprechendes Paradigma zur Modellierung komplexer drogenbezogener Phänomene erwiesen. Es besteht jedoch eine erhebliche Lücke: Es gibt keinen umfassenden Benchmark für die systematische Evaluierung dieser Methoden in realen Opioidkrisenszenarien. Um diese Lücke zu schließen, stellen wir OPBench vor, den ersten umfassenden Opioid-Benchmark, der fünf Datensätze aus drei kritischen Anwendungsbereichen umfasst: Erkennung von Opioidüberdosierungen aus Krankenversicherungsdaten, Erkennung von illegalem Drogenhandel auf digitalen Plattformen und Vorhersage von Drogenmissbrauch anhand von Ernährungsmustern. Konkret integriert OPBench diverse Graphstrukturen, einschließlich heterogener Graphen und Hypergraphen, um die reichhaltigen und komplexen relationalen Informationen in drogenbezogenen Daten zu bewahren. Um Datenknappheit zu beheben, arbeiten wir mit Fachexperten und autoritativen Institutionen zusammen, um Datensätze unter Einhaltung von Datenschutz- und ethischen Richtlinien zu kuratieren und zu annotieren. Darüber hinaus etablieren wir einen einheitlichen Evaluierungsrahmen mit standardisierten Protokollen, vordefinierten Datenaufteilungen und reproduzierbaren Baselines, um einen fairen und systematischen Vergleich von Graph-Learning-Methoden zu ermöglichen. Durch umfangreiche Experimente analysieren wir die Stärken und Grenzen bestehender Graph-Learning-Methoden und liefern so handlungsorientierte Erkenntnisse für die zukünftige Forschung zur Bekämpfung der Opioidkrise. Unser Quellcode und unsere Datensätze sind unter https://github.com/Tianyi-Billy-Ma/OPBench verfügbar.