HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

49 papers found

ArcANE: Bleiben rollenspielende Sprachagenten zur richtigen Zeit in ihrer Rolle?
ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?

Jun 4

ByWoojung Song, Nalim Kim, Sangjun Song, Chaewon Heo, Jongwon Lim, Yohan Jo

Rollensprachagenten (RPLAs) sollten Figuren darstellen, deren Werte und Verhalten sich im Verlauf der Geschichte weiterentwickeln, anstatt eine starre Persönlichkeit beizubehalten. Bestehende Benchmarks messen das faktische Abrufen in einem bestimmten Kapitel, nicht ob die Antworten mit der psychologischen Entwicklung der Figur übereinstimmen, insbesondere in Szenarien, die der Quelltext nie untersucht. Wir stellen ArcANE (Arc-Aware Narrative Evaluation) vor, einen automatisch erstellten Benchmark, der 17 Romane und 80 Hauptfiguren umfasst. Ein Charakterbogen unterteilt die Erzählung entlang einer psychologischen Achse in Phasen, und jede Testfrage stellt dasselbe Szenario über mehrere Phasen hinweg dar, wobei sowohl Situationen im Quelltext als auch Situationen außerhalb davon abgedeckt werden. Über sechs Modelle und sechs Kontextmodi hinweg übertrifft die Konditionierung auf den Charakterbogen jede andere Kontextstrategie bei jedem Modell, und die Lücke ist am größten bei Szenarien außerhalb des Quelltextes, bei denen das Abrufen nichts zu finden hat. Wir feinjustieren weiterhin Open-Weight-Modelle mit denselben Daten, um ArcANE-8B/32B zu erhalten, die den Arc-Vorteil bei Szenarien außerhalb des Quelltextes noch weiter vergrößern.

TIDE: Proaktive Multi-Problem-Entdeckung mittels vorlagengeführter Iteration
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration

Jun 3

BySoyeong Jeong, Jinheon Baek, Minki Kang, Sung Ju Hwang

Agenten werden vielfach als Assistenten für Dokumente, Werkzeuge und Code eingesetzt. Allerdings reagieren sie typischerweise nur auf explizite Benutzeranfragen, die lediglich die vom Benutzer bemerkten Probleme sichtbar machen, während viele andere wichtige Probleme, verborgen in aller Deutlichkeit, im weiteren Benutzerkontext koexistieren, deren Gesamtzahl im Voraus unbekannt ist. Wir fassen dies als die Aufgabe auf, mehrere verborgene Probleme aus dem Kontext zu entdecken, bei der koexistierende Probleme aufgedeckt, auf Grundlage unterstützender Belege begründet und mit konkreten Aktionen verknüpft werden sollen. Zu diesem Zweck führen wir TIDE ein, ein vorlagenbasiertes iteratives Rahmenwerk mit zwei komplementären Mechanismen. Angeregt durch die Beobachtung, dass eine einmalige Vorhersage auf den auffälligsten Fällen beruht und allgemeine Behauptungen liefert, schlagen wir insbesondere das iterative Entdecken vor, das pro Runde eine kleine Menge an Kandidaten unter Berücksichtigung dessen, was bereits gefunden wurde, hervorbringt, sodass nachfolgende Runden die Abdeckung erweitern; sowie Denkvorlagen (Thought Templates), wiederverwendbare Schemata, die aus zuvor gelösten Fällen destilliert wurden und festlegen, auf welche kontextuellen Signale zu achten ist und wie sie zu verknüpfen sind, wodurch jede Vorhersage in einer erkennbaren Problemklasse verankert wird. Wir validieren TIDE in zwei realistischen Szenarien – persönliche Arbeitsbereiche und Software-Repositorys – über vier Modell-Backbones hinweg und zeigen substanzielle Verbesserungen gegenüber einmaligen und parallelen Multi-Agenten-Baselines hinsichtlich Aufgabenabdeckung, Identifikation und Lösung.

AdaPlanBench: Evaluierung der adaptiven Planung von Large Language Model Agents unter Welt- und Nutzerbeschränkungen
AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints

Jun 4

ByJiayu Liu, Cheng Qian, Zhenhailong Wang, Bingxuan Li, Jiateng Liu, Heng Wang, Jeonghwan Kim, Yumeng Wang, Xiusi Chen, Yi R. Fung, Heng Ji

Die Planung für reale Probleme durch Sprachmodelle umfasst häufig sowohl Welt- als auch Benutzereinschränkungen, die zu Beginn nicht vollständig spezifiziert sind und erst durch Interaktion schrittweise offengelegt werden. Allerdings untersuchen bestehende Benchmarks die adaptive Planung unter solchen schrittweise offengelegten dualen Einschränkungen noch nicht ausreichend. Um diese Lücke zu schließen, stellen wir AdaPlanBench vor, einen dynamischen interaktiven Benchmark zur Bewertung, ob Large Language Model (LLM)-Agenten unter schrittweise offengelegten Welt- und Benutzereinschränkungen adaptiv planen und neu planen können. AdaPlanBench basiert auf 307 Haushaltsaufgaben mit einer skalierbaren Pipeline zur Konstruktion von Einschränkungen, die jede Aufgabe um duale Einschränkungen erweitert. Zur Laufzeit interagieren die Agenten in einem Multi-Turn-Protokoll mit der Umgebung, bei dem versteckte Einschränkungen nur dann offengelegt werden, wenn der Agent einen Plan vorschlägt, der gegen sie verstößt, was eine iterative Planüberarbeitung unter akkumulierendem Feedback erfordert. Dies macht die Planung anspruchsvoll, da Agenten aus dem Feedback Einschränkungen ableiten und verfolgen müssen, während sie gleichzeitig effektiv neu planen. Experimente mit zehn führenden LLMs zeigen, dass die adaptive Planung unter dualen Einschränkungen weiterhin herausfordernd ist, wobei das beste Modell nur eine Genauigkeit von 67,75 % erreicht. Wir beobachten weiterhin, dass die Leistung abnimmt, je mehr Einschränkungen sich ansammeln, wobei Benutzereinschränkungen eine besonders große Herausforderung darstellen und Fehler oft auf eine schwächere physische Verankerung und eine geringere Effektivität zurückzuführen sind. Diese Ergebnisse etablieren AdaPlanBench als Testumgebung für interaktive Planung mit dualen Einschränkungen und unterstreichen die Herausforderung einer zuverlässigen Anpassung an dynamisch offengelegte Einschränkungen in LLM-Agenten.

VideoKR: Auf dem Weg zu wissens- und schlussfolgerungsintensivem Video-Verständnis
VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

Jun 3

ByLin Fu, Zheyuan Yang, Yang Wang, Tingyu Song, Arman Cohan, Yilun Zhao

Wir stellen VideoKR vor, das erste große Trainingskorpus, das speziell für die Stärkung des wissens- und schlussfolgerungsintensiven Videoverständnisses entwickelt wurde. Es umfasst 315.000 Video-Argumentationsbeispiele, die auf 145.000 neu gesammelten, CC-lizenzierten Videos aus Expertenbereichen basieren. Wir entwickeln eine menschen-in-der-Schleife, fähigkeitsorientierte Beispielgenerierungspipeline, die auf zunehmend tiefere Video-Argumentationsfähigkeiten abzielt und gleichzeitig die Schwierigkeit, Vielfalt und Zuverlässigkeit sowohl der Beispiele als auch ihrer CoT-Begründungen sicherstellt. Wir kuratieren zudem VideoKR-Eval, einen neuen, von Experten annotierten Benchmark, bei dem Fragen echtes Videoverständnis und wissensintensive Argumentation erfordern, anstatt textuelle Abkürzungen zu nutzen. Unsere Experimente zeigen, dass Modelle, die unter einer standardisierten SFTrightarrowGRPO-Pipeline auf VideoKR nachtrainiert wurden, frühere Post-Training-Ansätze bei wissensintensiver Video-Argumentation übertreffen und gleichzeitig bei allgemeiner Video-Argumentation wettbewerbsfähig bleiben, was die Datenauswahl als entscheidenden Treiber für Fortschritte in der Video-Argumentation hervorhebt. Wir führen weiterhin umfassende Ablationsstudien durch, um die Beiträge von VideoKR zu isolieren, und liefern so umsetzbare Erkenntnisse für zukünftige Arbeiten.

Reinforcement Learning bewirkt kontextuelles Lernen der Übersetzung unbekannter Sprachen.
Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

Jun 4

ByHanxu Hu, Zdeněk Šnajdr, Pinzhen Chen, Jannis Vamvas, Rico Sennrich

Frühere Arbeiten haben gezeigt, dass große Sprachmodelle (LLMs) unbekannte oder ressourcenarme Sprachen übersetzen können, indem sie einem fortgesetzten Training unterzogen werden oder sogar ein Grammatikbuch in ihren Kontext einbetten. Beide Methoden leiden jedoch typischerweise unter Überanpassung an bestimmte Sprachen, mit nur eingeschränktem Zero-Shot-Transfer zur Testzeit. Um extrem ressourcenarme Sprachen in großem Maßstab zu übersetzen, argumentieren wir, dass LLMs die Meta-Fähigkeit erwerben müssen, sprachliches Wissen im Kontext zu nutzen, anstatt sich bestimmte Sprachen einzuprägen. In diesem Papier schlagen wir einen Ansatz des Verstärkungslernens (RL) für die Übersetzung unbekannter Sprachen vor, der einen reichhaltigen sprachlichen Kontext nutzt und eine oberflächliche Übersetzungsmetrik (chrF) als Belohnung verwendet. Empirisch gesehen extrahieren und wenden unsere mit RL trainierten Modelle trotz der leichtgewichtigen Belohnung effektiv relevante sprachliche Informationen aus dem bereitgestellten Kontext an, was zu besseren Übersetzungen völlig unbekannter Sprachen führt als In-Context-Lernen oder überwachtes Feintuning. Unsere Analysen deuten darauf hin, dass ergebnisbasiertes RL über traditionelle Argumentationsaufgaben wie Mathematik und Programmieren hinausgehen und als Rezept für Sprachlernen aus dem Kontext dienen kann.

RobotValues: Bewertung von Haushaltsrobotern bei Konflikten menschlicher Werte
RobotValues: Evaluating Household Robots When Human Values Conflict

Jun 2

ByJongwook Han, Hyeongjin Kim, Yohan Jo

Während Haushaltsroboter oft anhand der Aufgabenerfüllung bewertet werden, treten in alltäglichen häuslichen Umgebungen wertkonfliktträchtige Situationen auf, in denen von Robotern erwartet wird, Handlungen zu wählen, die anderen Werten als dem Aufgabenerfolg Vorrang einräumen – wie etwa menschlicher Autonomie, Effizienz oder sozialer Angemessenheit. Dennoch gibt es keine Benchmarks zur Bewertung der Wertpräferenzen von Robotern in solchen Szenarien. Wir stellen RobotValues vor, einen Benchmark zur Evaluierung von Haushaltsroboter-Planern in 10.000 Wertkonfliktszenarien. Jede Instanz besteht aus einem realistischen Haushaltsbild mit mehreren plausiblen Roboteraktionen, die unterschiedliche menschliche Werte priorisieren. Wir konstruieren RobotValues durch LLM-gestützte Szenariogenerierung, stakeholderbasierte Wertextraktion, Bilderzeugung und automatische Qualitätskontrolle. Unter Verwendung von RobotValues evaluieren wir in der Robotik eingesetzte VLMs und stellen fest, dass die Modelle standardmäßige Wertpräferenzen aufweisen, darunter Sicherheit und Anpassungsfähigkeit, während Handlungen, die den Datenschutz priorisieren, seltener gewählt werden. Wenn die Modelle angewiesen werden, spezifische Werte zu priorisieren, die mit ihren eigenen Präferenzen in Konflikt stehen, gelingt es ihnen oft nicht, ihre Standardhandlungen zu überschreiben – in 80 % der Fälle wählen sie falsche Handlungen. Diese Ergebnisse deuten darauf hin, dass die Bewertung von Haushaltsrobotern nicht nur die Aufgabenerfüllung oder Sicherheitskonformität messen sollte, sondern auch, ob Roboter zwischen plausiblen Handlungen wählen können, wenn menschliche Werte in Konflikt geraten.

Persönlicher KI-Agent für die visuelle Fragebeantwortung der Kamerarolle
Personal AI Agent for Camera Roll VQA

Jun 3

ByThao Nguyen, Krishna Kumar Singh, Donghyun Kim, Yong Jae Lee, Yuheng Li

Wir untersuchen das Setting der visuellen Fragebeantwortung auf persönlichen Kamerarollen. In diesem Setting kann ein KI-gestützter Konversationsassistent auf die persönliche Kamerarolle eines Nutzers zugreifen und relevante Fotos abrufen, um Fragen zu beantworten – von einfachen Faktenfragen (z. B. „Wie hieß das Essen, das ich gestern probiert habe?“) bis hin zu offeneren Fragen (z. B. „Empfiehl mir Gerichte, die ich noch nie gegessen habe“). Aufgrund des umfangreichen Charakters persönlicher Kamerarollen (d. h. mehrere Jahre, hunderte bis tausende Fotos) muss ein erfolgreicher KI-Assistent einen langfristigen, hochpersonalisierten visuellen Inhaltsstrom verstehen, um korrekte und/oder relevante Informationen navigieren und lokalisieren zu können. Zur Unterstützung dieses Ziels sammeln und annotieren wir manuell Fragen, die reale Nutzungsszenarien nachbilden. Der finale Datensatz, camroll, umfasst 50 Nutzer, 31.476 Bilder und 2.500 Frage-Antwort-Paare. Darüber hinaus entwickeln wir camroll-agent, einen KI-Konversationsagenten, der mit hierarchischem Gedächtnis und einem minimalen Satz von Werkzeugen ausgestattet ist, um eine effiziente Navigation durch große, personalisierte visuelle Gedächtnisinhalte zu ermöglichen. Experimentelle Ergebnisse zeigen, dass camroll-agent zahlreiche Basislinien und Methoden für KI-Agentensysteme zum Langzeitkontextverständnis übertrifft. Zusammen verdeutlichen der camroll-Datensatz und camroll-agent die Lücke im Langzeitkontextverständnis von KI-Agenten: Personalisiertes visuelles Gedächtnis erfordert andere Ansätze als das standardmäßige langzeitliche textuelle Gedächtnis, insbesondere wenn Konsistenz, visuelle Details und nutzerspezifischer Kontext eine Rolle spielen.

LoomVideo: Vereinheitlichung multimodaler Eingaben für die Videogenerierung und -bearbeitung
LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

Jun 4

ByJianzong Wu, Hao Lian, Jiongfan Yang, Dachao Hao, Ye Tian, Yunhai Tong, Jingyuan Zhu, Biaolong Chen, Qiaosong Qi, Aixi Zhang, Wanggui He, Mushui Liu, Jinlong Liu, Hao Jiang

Die Entwicklung einheitlicher Modelle zur Videogenerierung und -bearbeitung, die verschachtelte multimodale Eingaben interpretieren können, ist ein vielversprechendes, aber anspruchsvolles Grenzgebiet der Forschung. Bestehende einheitliche Frameworks basieren überwiegend auf massiven Modellen (typischerweise 13B Parameter oder mehr) und integrieren Quellvideobedingungen für die Bearbeitung durch Verkettung von Sequenztokens. Diese Verkettung verdoppelt unweigerlich die Sequenzlänge, vervierfacht die Rechenkomplexität des Self-Attention-Mechanismus und verursacht einen prohibitiv hohen Zusatzaufwand. Um diese Engpässe zu adressieren, präsentieren wir LoomVideo, eine hocheffiziente einheitliche Architektur mit 5B Parametern für sowohl Videogenerierung als auch -bearbeitung. LoomVideo ersetzt den Standard-Text-Encoder durch ein Multimodales Großes Sprachmodell (MLLM) und verwendet einen Deepstack-Injektionsmechanismus, um mehrschichtige MLLM-Merkmale mit dem Diffusion Transformer (DiT) abzugleichen. Wesentlich ist die Einführung eines Null-Overhead Scale-and-Add Konditionierungsansatzes für die Videobearbeitung. Durch Skalieren und direktes Addieren des sauberen Quellvideo-Latents zum verrauschten Ziel-Latent eliminiert dieses elegante Design die Notwendigkeit einer Token-Verkettung, reduziert drastisch die Rechenkosten und bewahrt gleichzeitig robuste Fähigkeiten für komplexe, nicht-rigide Bearbeitungen. Darüber hinaus wird eine Negative Temporal RoPE-Strategie nahtlos integriert, um mehrere Referenzbilder zu verarbeiten. Umfangreiche Experimente zeigen, dass unser kompaktes 5B-Modell über umfassende Benchmarks hinweg hochmoderne oder hochgradig wettbewerbsfähige Leistungen erzielt und eine außergewöhnliche Überlegenheit in E-Commerce- und Mode-Generierungsszenarien aufweist. Dank des Null-Overhead Konditionierungsmechanismus erreicht LoomVideo mindestens eine 5,41-fache Beschleunigung der Inferenzgeschwindigkeit im Vergleich zu Modellen mit ähnlichen Fähigkeiten und ebnet den Weg für hochgradig praktische und effiziente Videobasismodelle.

Komplexitätsbalancierte Diffusionsaufteilung
Complexity-Balanced Diffusion Splitting

Jun 4

ByNoam Issachar, Dani Lischinski, Raanan Fattal

Standardmäßige kontinuierliche generative Modelle basieren auf monolithischen Architekturen, die mit grundlegend unterschiedlichen Signalregimen umgehen müssen – von isotropem Rauschen bis hin zu komplexen Datenverteilungen. Während eine Skalierung der Modellkapazität die Leistung verbessert, ist der gleichmäßige Einsatz eines massiven Netzwerks über die gesamte generative Zeitachse von Natur aus ineffizient. In dieser Arbeit schlagen wir Complexity-Balanced Splitting (CBS) vor, ein prinzipienbasiertes Rahmenwerk für die zeitliche Kapazitätszuweisung, das die generative Arbeitslast auf mehrere spezialisierte Subnetzwerke verteilt. Basierend auf der Funktionenapproximationstheorie und de Boors Äquidistributionsprinzip unterteilt CBS die Diffusionszeitachse in Segmente gleichen Approximationsaufwands und weist Regionen, in denen die generative Dynamik schwieriger zu modellieren ist, mehr Repräsentationskapazität zu. Zur Schätzung dieser lokalen Komplexität führen wir zwei komplementäre und handhabbare Monitorfunktionen ein: ein räumliches Maß basierend auf der Dirichlet-Energie des Flusses und ein geometrisches Maß basierend auf der Beschleunigung der Abtasttrajektorien. Durch die Verwendung eines leichten Hilfsmodells zur Schätzung dieser Komplexitätsprofile eliminiert unser Ansatz die Notwendigkeit heuristischer zeitlicher Aufteilungen oder rechenintensiver Suchverfahren. Umfangreiche Evaluierungen über mehrere Architekturen (SiT, JiT und UNet) und Datensätze hinweg zeigen, dass CBS die Synthesequalität konsistent verbessert, ohne die Inferenzkosten pro Schritt zu erhöhen. Insbesondere verbessert CBS den FID um ~35 % bei SiT-XL mit CFG im Vergleich zu naivem zeitlichem Partitionieren. Die Projektseite ist verfügbar unter https://noamissachar.github.io/CBS/.

Neubetrachtung der kontinuierlichen Internalisierung von Erfahrungen für selbst-evolvierende LLM-Agenten
Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

Jun 3

ByJingwen Chen, Wenkai Yang, Shengda Fan, Wenbo Nie, Chenxing Sun, Shaodong Zheng, Yangen Hu, Lu Pan, Ke Zeng, Yankai Lin

Erfahrungsinternalisierung wandelt kontextuelle Erfahrung aus früheren Interaktionen in wiederverwendbare parametrische Fähigkeiten um und bietet einen vielversprechenden Weg zum kontinuierlichen Lernen in großen Sprachmodellen (LLMs). Während sich frühere Arbeiten vorwiegend auf Einzeliterationstransfer konzentriert haben, entdecken wir, dass bei Mehrfachiterations-Erfahrungslernen bestehende Methoden unter einem fortschreitenden Fähigkeitskollaps leiden, anstatt sich verstärkende Verbesserungen zu erzielen. Wir untersuchen dieses Versagen systematisch anhand von drei wesentlichen Dimensionen der Erfahrungsinternalisierung: (1) Erfahrungsgranularität: Wir stellen fest, dass Erfahrung auf Prinzipienebene haltbarer ist als Erfahrung auf Instanzebene, da sie effektiv übertragbare Strategien von trajektorienspezifischen Details abstrahiert. (2) Erfahrungseinspritzmuster: Unsere Analyse zeigt, dass schrittweise Einspritzung die globale Einspritzung deutlich übertrifft, indem sie Erfahrung mit Zwischenentscheidungszuständen abgleicht – eine Eigenschaft, die für langfristige Werkzeugnutzung entscheidend ist. (3) Internalisierungsregime: Wir demonstrieren, dass Off-Policy-Kontextdestillation auf qualitativ hochwertigen Lehrertrajektorien ein wesentlich stabileres Trainingssignal liefert als On-Policy-Kontextdestillation, die inhärent durch lokale Korrekturen auf schülerinduzierten fehlerhaften Zuständen begrenzt ist. Zusammengefasst liefern diese Erkenntnisse ein einfaches, aber robustes Rezept für stabile und nachhaltige Erfahrungsinternalisierung und bieten konkrete Leitlinien für die Entwicklung sich selbst weiterentwickelnder und kontinuierlich lernender LLMs.

Der Weg in die Zukunft des autonomen Fahrens: Der multimodale Datensatz KITScenes
The Road Ahead in Autonomous Driving: The KITScenes Multimodal Dataset

Jun 1

ByRichard Schwarzkopf, Fabian Immel, Alexander Blumberg, Jonas Merkert, Nils Rack, Kaiwen Wang, Fabian Konstantinidis, Julian Truetsch, Carlos Fernandez, Annika Bätz, Kevin Rösch, Marlon Steiner, Willi Poh, Yinzhe Shen, Royden Wagner, Felix Hauser, Dominik Strutz, Jaime Villa, Gleb Stepanov, Holger Caesar, Ömer Şahin Taş, Frank Bieder, Jan-Hendrik Pauls, Christoph Stiller

Bestehende Datensätze für autonomes Fahren haben bedeutende Fortschritte ermöglicht, weisen jedoch Defizite in der Sensorpräzision, Kartenvollständigkeit oder geografischen Vielfalt auf. Wir stellen KITScenes Multimodal vor, einen europäischen Datensatz, der auf hochpräzisen Sensoren und Karten basiert. Unsere vollständig synchronisierte Sensoranordnung kombiniert hochauflösende Global-Shutter-Kameras, Reichweiten-Lidar über 400 m, 4D-Bildgebungsradar und redundante GNSS/INS-Lokalisierung. Unsere HD-Karten sind nach unserem Kenntnisstand die vollständigsten aller Sensordatensätze und wurden durch Versuche zum autonomen Fahren mit Open-Source-Software validiert. Zum ersten Mal in einem öffentlichen Datensatz sind alle fahrrelevanten Verkehrselemente, wie Ampeln, in 3D auf reprojektionsgenauem Niveau mit vollständiger topologischer Konnektivität kartiert. Aufgenommen in Städten mit unregelmäßigen Straßengrundrissen und gemischten Verkehrsmodi, ergänzt unser Datensatz bestehende Datensätze, indem er die verfügbare geografische Vielfalt erweitert. Wir führen außerdem vier Benchmark-Aufgaben ein, die jeweils das räumliche Lernen für verkörperte KI voranbringen: Online-HD-Kartenkonstruktion, Tiefenschätzung großer Reichweite, neuartige Ansichtssynthese und End-to-End-Fahren. Projektseite: https://kitscenes.com/

Dream.exe: Können Videogenerierungsmodelle von ausführbarer Roboter-Manipulation träumen?
Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

Jun 4

ByRui Zhao, Kaiming Yang, Jifeng Zhu, Siyang Chen, Ziqi Wang, Weijia Wu, Kevin Qinghong Lin, Heng Wang, Mike Zheng Shou

Videogenerierungsmodelle haben beeindruckende Fortschritte bei der Synthese visuell ansprechender Inhalte erzielt, doch ihre Ausgaben bleiben auf den virtuellen Bereich beschränkt. Eine naheliegende Frage schließt sich an: Wie gut spiegeln diese Modelle die physikalische Welt wider, wenn ihre generierten Videos den Bildschirm verlassen und in die Realität eintreten? Wir schlagen robotergestützte Manipulation als ein konkretes, messbares Fenster zu dieser Frage vor: Wenn ein Modell physikalische Gesetze wirklich verinnerlicht hat, sollte die dargestellte Bewegung in ausführbare Roboterhandlungen umsetzbar sein. Wir führen Dream.exe ein, einen Bewertungsrahmen, der dieses Kriterium durch eine Video-zu-Ausführungs-Pipeline operationalisiert. Ausgehend von einem Szenenbild und einer Aufgabenbeschreibung synthetisiert Dream.exe ein Manipulationsvideo, wandelt die generierte Bewegung in Roboterbahnen um und führt diese in einem Physiksimulator aus, wodurch ein Fundierungssignal entsteht, das rein visuelle Metriken nicht bieten können. Mit dieser Pipeline bewerten wir 8 Modelle, die führende Closed-Source-Generatoren, Open-Source-Generatoren und roboterspezifische Modelle umfassen. Unser Benchmark umfasst 101 manuell kuratierte Manipulationsaufgaben auf drei Stufen physikalischer Komplexität, gemessen an visueller Qualität, Trajektorien-Treue und Ausführungserfolg. Erfreulicherweise erzielen mehrere Modelle messbare Ausführungserfolge, was darauf hindeutet, dass aus Internetdaten in großem Maßstab erlernte generative Prioris bereits bedeutsames physikalisches Wissen kodieren. Dennoch erweist sich die visuelle Qualität als schlechter Prädiktor für die Ausführbarkeit und offenbart eine Dimension der Modellfähigkeit, die von Standard-Visualisierungsbewertungen nicht erfasst wird. Dream.exe wird unter https://github.com/showlab/Dream.exe als Open Source verfügbar sein.

Unüberwachte Fähigkeitsentdeckung für agentische Datenanalyse
Unsupervised Skill Discovery for Agentic Data Analysis

Jun 4

ByZhisong Qiu, Kangqi Song, Shengwei Tang, Shuofei Qiao, Lei Liang, Huajun Chen, Shumin Deng

Die Fähigkeitserweiterung zur Inferenzzeit bietet eine effiziente Möglichkeit zur Verbesserung datenanalytischer Agenten, indem wiederverwendbares prozedurales Wissen ohne Aktualisierung der Modellparameter eingebracht wird. Die Entdeckung effektiver Fähigkeiten für die Datenanalyse bleibt jedoch herausfordernd, da verlässliche Überwachung teuer ist und die Erfolgskriterien je nach Analyseformat variieren. Dies wirft die zentrale Frage auf, wie wiederverwendbare Datenanalysefähigkeiten allein aus unmarkierter Exploration entdeckt werden können. Wir schlagen DataCOPE vor, ein ungeleitetes, verifizierergeführtes Framework zur Fähigkeitsentdeckung für datenanalytische Agenten. DataCOPE leitet Verifizierersignale aus den Explorationspfaden ab und nutzt diese, um die relative Qualität oder Übereinstimmung zwischen den Pfaden zu charakterisieren. Es koordiniert iterativ einen Datenanalyse-Agenten zur Pfadgenerierung, einen ungeleiteten Verifizierer zur Signalextraktion und einen Fähigkeitsmanager zur kontrastiven Fähigkeitsdestillation. Für die berichtbasierte Analyse instanziieren wir den Verifizierer als adaptiven Checklisten-Verifizierer, der aufgabenspezifische Kriterien ableitet, Berichte anhand der verifizierbaren Abdeckung bewertet und die Checkliste iterativ verfeinert. Für die schlussfolgerungsbasierte Analyse instanziieren wir ihn als Antwortübereinstimmungs-Verifizierer, der Pfade nach Antwortübereinstimmung gruppiert und Selbstkonsistenz als Hilfssignal nutzt. Wir evaluieren DataCOPE an der berichtbasierten Analyse aus Deep Data Research und der schlussfolgerungsbasierten Analyse aus DABStep. In beiden Umgebungen verbessert DataCOPE die zurückgehaltene Leistung konsistent gegenüber den Basislinien. Über vier Modelleinstellungen gemittelt steigert DataCOPE den durchschnittlichen Score bei berichtbasierten Aufgaben um 9,71 % und bei schlussfolgerungsbasierten Aufgaben um 32,30 %.

LLMs können Trainingsdaten preisgeben, aber wollen sie das? Eine neigungsbewusste Evaluierung der Memorisierung in LLMs
LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs

Jun 4

ByGianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech

Große Sprachmodelle können Trainingsdaten reproduzieren, doch bestehende Memorierungsbewertungen messen meist, ob Modelle dazu gezwungen werden können, und nicht, ob sie dies bei normaler Nutzung tun. Wir stellen PropMe vor, ein neigungsbewusstes Framework zur Memorierungsbewertung, das präfixbasierte Fähigkeitsangriffe mit nicht-adversariellen Bewertungen kontrastiert. Wir schlagen eine Metriktransformation vor, die auf bestehende Funktionen angewendet werden kann, um Neigungsmetriken zu erzeugen. Ferner führen wir SimpleTrace ein, eine leichtgewichtige Tracing-Pipeline, die auf Infini-Gram aufbaut, Modellgenerierungen deterministisch großen Trainingskorpora zuordnet und wörtliche, nahezu wörtliche sowie neigungstransformierte Memorierungsmetriken berechnet. Bei der Evaluierung zweier vollständig offener Modelle – Comma und DFM Decoder – anhand zweier Datensätze – Common Pile und Dynaword – in zwei Sprachen stellen wir eine konsistente Lücke zwischen Fähigkeit und Neigung fest: Präfixangriffe rufen wesentlich stärkere Memorierungssignale hervor als generische oder datensatzspezifische Aufforderungen, während die Neigungswerte insgesamt niedrig bleiben. Die Modelle können Trainingsdaten also preisgeben, wenn sie direkt dazu aufgefordert werden, tun dies aber selten in häufigeren, nicht-adversariellen Situationen. Wir stellen außerdem fest, dass DFM Decoder, der kontinuierlich von Comma aus vortrainiert wurde, eine geringere Memorierung und Memorierungsneigung für Common Pile aufweist, was bestätigt, dass die Memorierungsfähigkeit abnehmen kann, wenn spätere Trainingsphasen teilweise andere Daten betonen. Unsere Ergebnisse legen nahe – und wir ermutigen dazu –, dass Memorierungsaudits sowohl die Extraktionsfähigkeit im schlechtesten Fall als auch die gewöhnliche Leckage-Neigung berichten sollten, um ein umfassenderes Bild dieses Phänomens zu erhalten.

OPRD: On-Policy-Repräsentationsdestillation
OPRD: On-Policy Representation Distillation

Jun 4

ByShenzhi Yang, Guangcheng Zhu, Bowen Song, Haobo Wang, Mingxuan Xia, Xing Zheng, Yingfan Ma, Zhongqi Chen, Weiqiang Wang, Gang Chen

On-Policy-Destillation (OPD) beaufsichtigt den Schüler nur im Ausgaberaum, indem die Wahrscheinlichkeiten des nächsten Tokens abgeglichen werden. Dieses ausgabeorientierte Paradigma weist zwei Einschränkungen auf: (1) Die Stichprobenvarianz aus Monte-Carlo-KL-Schätzungen über große Vokabulare (z. B. Qwens ~150k Tokens) bleibt während des gesamten Trainings bestehen, und (2) es behandelt den Lehrer als Blackbox und verwirft alle versteckten Zwischenzustände nach dem LM-Head. Wir schlagen On-Policy-Repräsentations-Destillation (OPRD) vor, die die Destillation in den Zustandsraum der versteckten Schichten verlagert, indem die Repräsentationen von Schüler und Lehrer über ausgewählte Schichten bei denselben Rollouts abgeglichen werden, unter vollständiger Umgehung des LM-Heads. Theoretisch eliminiert OPRD die Stichprobenvarianz und liefert reichhaltigere strukturelle Informationen pro Schicht. Empirisch schließt OPRD die Schüler-Lehrer-Lücke bei AIME 2024/2025 und AIMO, während ausgabeorientierte OPD-Baselines unterhalb des Lehrers ein Plateau erreichen. OPRD trainiert zudem 1,44‑mal schneller und verbraucht 54 % weniger Speicher als Top‑k OPD. Code: https://github.com/ShenzhiYang2000/OPRD.

MAOAM: Einheitliche Objekt- und Materialauswahl mit Vision-Sprach-Modellen
MAOAM: Unified Object and Material Selection with Vision-Language Models

Jun 2

ByJaden Park, Valentin Deschaintre, Jason Kuen, Kangning Liu, Iliyan Georgiev, Krishna Kumar Singh, Yong Jae Lee, Michael Fischer

Die Auswahl ist eine Kernoperation in der interaktiven Bildbearbeitung. Um praktikabel zu sein, sollte ein Nutzer die gewünschte Auswahlregion entweder durch text- oder klickbasierte Interaktionen spezifizieren und disambiguieren können, und das System sollte nicht nur die Auswahl von Objekten, sondern auch anderer Kriterien wie Materialien unterstützen. Die materialbasierte Auswahl ist wertvoll für Aufgaben wie das Neutexturieren von Oberflächen oder das Bearbeiten von Instanzen eines bestimmten Materials. Allerdings sind bestehende, auf Vision-Language-Modellen (VLM) basierende Auswahlmethoden objektzentriert und unterstützen typischerweise nur eine einzelne Interaktionsmodalität, was ihre Anwendbarkeit einschränkt. In dieser Arbeit stellen wir daher Mask Any Object And Material (MAOAM) vor, ein einheitliches Auswahlframework, das eine präzise Auswahl auf Objekt- und Materialebene sowohl über text- als auch klickbasierte Interaktionen ermöglicht. MAOAM nutzt ein VLM mit einem Segmentierungskopf, um aus Nutzeraufforderungen pixelgenaue Masken zu erzeugen: Das VLM interpretiert die Auswahlabsicht des Nutzers (auf Objekt- oder Materialebene) und kodiert visuelle Entitäten, Attribute und räumliche Beziehungen, während der Segmentierungskopf das Ausgabetoken in eine Maske dekodiert. Eine zentrale Herausforderung ist das Fehlen von Materialauswahl-Datensätzen mit Textannotationen. Wir schlagen eine skalierbare Datengenerierungspipeline vor: Wir sammeln reale und synthetische Bilder mit Materialmasken und nutzen VLMs, um Materialbeschreibungen mit reichhaltiger visueller Semantik zu generieren. Wir trainieren MAOAM mit einem Multi-Task-Ziel über klick- und textbasierte Auswahl, zusammen mit einer aus den Materialbeschreibungen abgeleiteten Hilfs-VQA-Aufgabe, um ein tieferes Materialverständnis zu fördern. Obwohl das Modell mit unimodalen Aufforderungen trainiert wurde, zeigt es eine emergente Verbesserung der Auswahl, wenn bei der Inferenz Text und Klicks kombiniert werden, was flexible Bildbearbeitungsabläufe ermöglicht. Experimente zeigen genaue und kohärente Auswahlen über verschiedene Objekte, Materialien und Interaktionsszenarien hinweg, was die Robustheit in der Praxis unterstreicht.

Der Schattenpreis des Reasoning: Eine ökonomische Perspektive auf die optimale Budgetallokation für große Sprachmodelle
The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Jun 2

ByXu Wan, Speed Zhu, Jianwei Cai, Guang Chen, XiMing Huang, Wiggin Zhou, Mingyang Sun

Inferenzzeit-Skalierung hat sich als ein entscheidender Ansatz zur Verbesserung der Leistungsfähigkeit großer Sprachmodelle erwiesen, doch der praktische Einsatz wird durch strenge Rechenbudgets eingeschränkt. In dieser Arbeit formulieren wir die Zuweisung von Inferenzbudgets als ein globales, eingeschränktes Optimierungsproblem, das von ökonomischen Prinzipien geleitet wird. Durch die Modellierung des per-Abfrage-Nutzen des Denkprozesses mit einer verschobenen Anstiegsfunktion leiten wir eine optimale Zuweisungspolitik ab, die auf einem globalen Schattenpreis basiert, der den Grenznutzen bei Ressourcenknappheit ausgleicht. Auf Grundlage dieser Theorie schlagen wir CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning) vor. Dieses Verfahren führt eine rationale Abweisung durch und weist Ressourcen von zahlungsunfähigen Anfragen an lösbare Anfragen nahe ihrer Emergenzschwellen um. Umfangreiche Experimente zu verschiedenen Denkaufgaben mit unterschiedlichen Verkehrsströmen zeigen, dass CLEAR die Pareto-Grenze der Gesamt-Tokenkosten gegenüber der durchschnittlichen Genauigkeit signifikant verbessert. In ressourcenarmen Regimen erreicht CLEAR eine bis zu dreifache Verbesserung der globalen Genauigkeit im Vergleich zur gleichmäßigen Zuweisung.

Stellen Sie sich vor, bevor Sie vorhersagen: Verschränktes latentes visuelles Schließen für die Vorhersage von Videoereignissen.
Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

Jun 4

ByTianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang

Die Vorhersage von Videoereignissen (VEP) erfordert Modelle, die aus partiellen Videobelegen nicht beobachtete zukünftige Zustände erschließen. Bestehende Video-MLLMs verbalisieren zukünftige Zwischenschlüsse üblicherweise im Textraum: Sobald visuelle Belege verbalisiert werden, können feinkörnige Bewegungs-, Geometrie- und Interaktionshinweise verloren gehen, was zu plausiblen, aber visuell unbegründeten Halluzinationen führt. Wir stellen Future-L1 vor, ein verschränktes latentes visuelles Argumentationsframework, das es einem MLLM ermöglicht, während der autoregressiven Dekodierung zwischen Sprach-Tokens und kontinuierlichen latenten visuellen Spannen zu wechseln. Um diese Fähigkeit zu trainieren, erstellen wir Future-L1-50K, indem wir Beispiele auswählen, bei denen zukünftige visuelle Hinweise die Vorhersage unterstützen, und latente Zustände an zukünftige Frame-Einbettungen angleichen. Anschließend optimieren wir die abgetasteten latenten Trajektorien mit LA-DAPO, einem latentbewussten RL-Ziel mit ergebnis-kontrastiven und zeitlichen Diversitätsbelohnungen. Future-L1 erzielt auf beiden Benchmarks neue State-of-the-Art-Ergebnisse: Auf FutureBench verbessert es Qwen3-VL-8B von 61,0 auf 85,4 und übertrifft den bisherigen Bestwert von Video-CoE um 10,4 Punkte; auf TwiFF-Bench steigert es die durchschnittliche Punktzahl von 2,44 auf 3,04. Diese Ergebnisse deuten darauf hin, dass zukunftsorientierte Videobegründung davon profitiert, die visuellen Zwischensemantiken im latenten Raum zu bewahren, anstatt jeden Argumentationsschritt in Text zu übersetzen.

Welt-Sprache-Handlungs-Modell für vereinheitlichte Weltmodellierung, Sprachreasoning und Handlungssynthese
World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

Jun 4

ByYi Yang, Zhihong Liu, Siqi Kou, Yiyang Chen, Yanzhe Hu, Jianbo Zhou, Boyuan Zhao, Zhijie Wei, Xiao Xia, Xueqi Li, Pengfei Liu, Zhijie Deng

Wir schlagen Welt-Sprache-Aktion (WLA) Modelle als eine neue Klasse verkörperter Fundamentmodelle vor. WLA verarbeitet textuelle Anweisungen, Bilder und Roboterzustände als Eingaben, um gemeinsam textuelle Teilaufgaben, Teilzielbilder und Roboteraktionen vorherzusagen. Dabei verbindet es die Schnittstelle zur Weltmodellierung, um wie im Welt-Aktion-Modell (WAM) aus umfangreichen egozentrischen Videos zu lernen, sowie die Fähigkeiten zur Sprachargumentation, um wie in Vision-Sprache-Aktion (VLA) Modellen komplexe langfristige Aufgaben zu lösen. Das Kernstück von WLA bildet ein autoregressiver (AR) Transformer-Backbone, der anstelle eines bidirektionalen Diffusions-Transformers wie in WAMs den nächsten Zustand vorhersagt, bestehend aus der semantischen textuellen Intention und komplementären feinkörnigen physikalischen Dynamiken. Die physikalischen Dynamiken werden durch das Weltmodellierungsziel basierend auf einem dedizierten Weltexperten überwacht und genutzt, um die Charakterisierung der Zustand-Aktions-Korrelation für den Aktionsinstanzexperten zu erleichtern. WLA nutzt Meta-Abfragen, um die Weltvorhersage implizit auf die Aktionsgenerierung wirken zu lassen, sodass erstere während der Inferenz deaktiviert werden kann. Die Weltvorhersage kann auch aktiviert werden, um eine Skalierung zur Testzeit für eine verbesserte Robotersteuerung zu ermöglichen. Unser WLA-0-Prototyp mit 2 Mrd. aktiven Parametern erreicht 40 ms pro Inferenz auf einer NVIDIA RTX 5090. Evaluierungen in simulierten und realen Umgebungen zeigen, dass WLA-0 hochmoderne Fähigkeiten bei Mehrfachaufgaben und langfristigem Lernen erzielt, z. B. eine Erfolgsrate von 92,94 % auf RoboTwin2.0 Clean und 56,5 % auf RMBench. WLA-0 verspricht zudem, neuartige Aufgaben direkt aus roboterübergreifenden Videos ohne Aktionsannotationen zu erlernen.

Metakognitive Gedächtnis-Policy-Optimierung für LLM-Agenten mit langem Horizont
Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

May 28

ByZiyan Liu, Zhezheng Hao, Yeqiu Chen, Hong Wang, Jingren Hou, Ruiyi Ding, Yongkang Yang, Wence Ji, Wei Xia, Feng Liu

Gedächtnisgestützte LLM-Agenten bewältigen komplexe langfristige Aufgaben, indem sie Interaktionsverläufe rekursiv in kompakte Gedächtnisrepräsentationen zusammenfassen. Allerdings trainieren bestehende Ansätze diese Gedächtnisstrategien in der Regel mittels ergebnisbasiertem Reinforcement Learning, ohne lokalisieren zu können, wo die Qualität der Zwischenerinnerungen nachlässt. Mit fortschreitenden Interaktionen verwerfen mehrdeutige rekursive Zusammenfassungen zunehmend aufgabenrelevante Informationen und führen semantisches Rauschen ein. Dies verstärkt die Abweichung der Überzeugung, trübt die Schätzung des latenten Aufgabenstatus durch den Agenten und bringt letztlich das langfristige Denken aus der Bahn. Daher argumentieren wir, dass sich die Gedächtnisoptimierung nicht nur auf den Erfolg auf Trajektorienebene konzentrieren sollte, sondern auf die Klarheit der durch Zwischenzusammenfassungen induzierten Überzeugung. Zu diesem Zweck führen wir die Belief-Entropie ein, einen selbstüberwachten Proxy, der untersucht, wie unsicher das Modell hinsichtlich des latenten Aufgabenstatus angesichts seines aktuellen Gedächtnisses bleibt. Auf der Grundlage dieses Proxys schlagen wir die Metakognitive Gedächtnisstrategieoptimierung (MMPO) vor. Anstatt sich nur auf spärliche ergebnisbasierte Signale zu stützen, bietet MMPO eine feinkörnige, gedächtnisspezifische Überwachung, indem es Zusammenfassungen, die eine hohe epistemische Unsicherheit induzieren, explizit bestraft. Experimente zeigen, dass MMPO bestehende Methoden bei verschiedenen langfristigen Aufgaben durchweg übertrifft und selbst bei Skalierung auf Kontexte mit 1,75 Millionen Token eine Leistung von 97,1% beibehält.

Zur Eins-zu-Vielen temporalen Verankerung
Towards One-to-Many Temporal Grounding

Jun 4

ByQi Xu, Yue Tan, Shihao Chen, Jiahao Meng, Anna Wang, Shunping Ji, Hao Fei, Jason Li

Temporal Grounding (TG) zielt darauf ab, Videosegmente zu lokalisieren, die einer textuellen Abfrage entsprechen. Bisherige Forschung konzentriert sich überwiegend auf die Suche nach einem einzelnen Segment. In realen Szenarien ist es jedoch oft erforderlich, mehrere disjunkte Segmente für eine einzelne Abfrage zu lokalisieren – eine Konstellation, die wir als One-to-Many Temporal Grounding (OMTG) bezeichnen. Bisherige hochmoderne MLLMs, die für Eins-zu-Eins-Settings optimiert wurden, haben in diesem Kontext Schwierigkeiten und erzielen aufgrund fehlender Wahrnehmung der Ereignisanzahl oft nahezu Null-Punktzahlen. Um diese Lücke zu schließen, präsentieren wir eine systematische Lösung mit drei zentralen Beiträgen. Erstens etablieren wir den ersten umfassenden OMTG-Benchmark und führen die Zählgenauigkeit (C-Acc) sowie den effektiven temporalen F1-Wert (EtF1) als Bewertungsmetriken ein. Zweitens kuratieren wir mit einer ausgeklügelten Konstruktionspipeline einen hochwertigen OMTG-Datensatz mit 56.000 Stichproben. Drittens entwickeln wir neuartige temporale und Caption-Belohnungsfunktionen, die speziell für OMTG ausgelegt sind. Insbesondere nutzt die Caption-Belohnung Chain-of-Thought-Argumentation über dichte Video-Captions, um die Politikoptimierung explizit sowohl in Richtung Genauigkeit als auch Vollständigkeit zu lenken. Umfangreiche Experimente zeigen, dass unser Modell auf dem OMTG Bench einen neuen Spitzenwert des EtF1 von 43,65 % erreicht und damit den Gemini 2.5 Pro bzw. Seed-1.8 um 15,85 % bzw. 15,61 % übertrifft.

MLEvolve: Ein selbstentwickelndes Framework zur automatisierten Entdeckung von Algorithmen des maschinellen Lernens
MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Jun 4

ByShangheng Du, Xiangchao Yan, Jinxin Shi, Zongsheng Cao, Shiyang Feng, Zichen Liang, Boyuan Sun, Tianshuo Peng, Yifan Zhou, Xin Li, Jie Zhou, Liang He, Bo Zhang, Lei Bai

Große Sprachmodell (LLM)-Agenten werden zunehmend für langfristige Aufgaben wie wissenschaftliche Entdeckungen und Machine Learning Engineering (MLE) eingesetzt, bei denen eine nachhaltige Selbstevolution eine Schlüsselfähigkeit darstellt. Allerdings leiden bestehende MLE-Agenten unter Informationsisolation zwischen Zweigen, gedächtnisloser Suche und fehlender hierarchischer Steuerung, was gemeinsam die langfristige Optimierung behindert. Wir stellen MLEvolve vor, ein LLM-basiertes, selbst-evolvierendes Multi-Agenten-Framework für die End-to-End-Entdeckung von Machine-Learning-Algorithmen. Durch die Erweiterung der Baumsuche auf Progressive MCGS ermöglicht MLEvolve einen Informationsfluss zwischen Zweigen über graphemische Referenzkanten und verlagert die Suche schrittweise von breiter Exploration zu fokussierter Ausbeutung mittels eines entropie-inspirierten progressiven Zeitplans. Damit der Agent mit gesammelter Erfahrung evolvieren kann, führen wir das Retrospektive Gedächtnis ein, das eine Kaltstart-Domänenwissensbasis mit einem dynamischen globalen Gedächtnis für taskspezifischen Erfahrungsabruf und -wiederverwendung kombiniert. Für eine stabile langfristige Iteration entkoppeln wir zudem die strategische Planung von der Codegenerierung mittels adaptiver Kodierungsmodi. Die Evaluierung auf MLE-Bench zeigt, dass MLEvolve in mehreren Dimensionen den Stand der Technik erreicht, darunter die durchschnittliche Medaillenrate und die Rate gültiger Einreichungen innerhalb eines 12-Stunden-Budgets (der Hälfte der Standardlaufzeit). Darüber hinaus übertrifft MLEvolve auch spezialisierte Algorithmenentdeckungsmethoden wie AlphaEvolve bei mathematischen Algorithmenoptimierungsaufgaben und demonstriert damit eine starke domänenübergreifende Generalisierung. Unser Code ist verfügbar unter https://github.com/InternScience/MLEvolve.

AdaCodec: Ein prädiktiver visueller Code für Video-MLLMs
AdaCodec: A Predictive Visual Code for Video MLLMs

Jun 1

ByHaowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang

Video ist zeitlich redundant: Benachbarte Frames teilen sich in der Regel die meisten Objekte, den Hintergrund und das Layout. Dennoch codieren bestehende videomultimodale große Sprachmodelle (Video-MLLMs) üblicherweise jedes abgetastete Frame als unabhängiges RGB-Bild, was dazu führt, dass visuelle Token Inhalte wiederholen, die bereits in früheren Frames vorhanden sind. Dies legt eine direktere Schnittstelle für Video nahe: Sende ein vollständiges Referenz-Frame nur dann, wenn die Szene nicht gut aus dem vorherigen Kontext vorhersagbar ist, und übermittle ansonsten eine kompakte Beschreibung der Änderungen zwischen den Frames. Diese Schnittstelle bezeichnen wir als prädiktiven visuellen Code und setzen sie für Video-MLLMs als AdaCodec um. AdaCodec verwendet vollständige visuelle Token für ein Referenz-Frame nur dann, wenn dessen bedingte prädiktive Kosten hoch sind; andernfalls codiert es Änderungen zwischen den Frames, einschließlich Bewegung und Vorhersageresiduen, als kompakte P-Token. Über alle elf Benchmarks hinweg verbessert AdaCodec die Pro-Frame-RGB-Baseline von Qwen3-VL-8B bei gleichem visuellen Token-Budget. Selbst bei einem Siebtel des Budgets übertrifft AdaCodec mit 32k Token die 224k-Baseline auf allen Langvideo-Benchmarks; bei fünf allgemeinen Videobenchmarks steigert es die Durchschnittspunktzahl, während es die Zeit bis zum ersten Token von 9,26 s auf 1,62 s deutlich reduziert.

SePO: Selbstentwickelnder Prompt-Agent zur System-Prompt-Optimierung
SePO: Self-Evolving Prompt Agent for System Prompt Optimization

Jun 3

ByWangcheng Tao, Han Wu, Weng-Fai Wong

Optimierung des System-Prompts verbessert das Verhalten von Agenten, ohne das zugrundeliegende Modell zu verändern, und liefert menschenlesbare, modellunabhängige Anweisungen. Bestehende Methoden erstellen einen Prompt-Agenten, der die System-Prompts von Aufgabenagenten verfeinert, belassen jedoch den eigenen System-Prompt des Prompt-Agenten handgefertigt und fest. Wir schlagen die Selbstentwickelnde Prompt-Optimierung (SePO) vor, die den eigenen System-Prompt des Prompt-Agenten als Optimierungsziel neben den System-Prompts der Aufgabenagenten behandelt. SePO verwendet ein selbstreferenzielles Design: Ein einzelner Prompt-Agent verbessert sowohl die System-Prompts der Aufgabenagenten als auch seinen eigenen mittels einer offenen evolutionären Suche, die ein Archiv von Kandidaten-Prompts als Zwischenschritte unterhält. Das Training erfolgt in zwei Phasen: Im Vorabtraining wird der Prompt-Agent auf einem Multi-Task-Pool evolviert, und in der Feinabstimmung wird er anschließend auf eine Zielaufgabe angewendet. Über fünf Benchmarks hinweg – Mathematik (AIME'25), abstraktes Denken (ARC-AGI-1), wissenschaftliches Niveau auf Graduiertenebene (GPQA), Codegenerierung (MBPP) und Logikrätsel (Sudoku) – übertrifft SePO durchgängig Manual-CoT, TextGrad und MetaSPO und verbessert die durchschnittliche Genauigkeit um 4,49 Punkte im Vergleich zu Manual-CoT. Die Fähigkeit zur Prompt-Optimierung aus dem Vorabtraining verallgemeinert sich zudem auf Aufgaben, die über die Vorabtraining-Mischung hinausgehen, anstatt aufgabenspezifische Prompts auswendig zu lernen.

Lernen geometrischer Repräsentationen aus Videos für räumlich intelligente multimodale große Sprachmodelle
Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

Jun 4

ByHaibo Wang, Lifu Huang

Multimodale Large Language Models (MLLMs) zeichnen sich durch 2D-semantisches Verständnis aus, ihnen fehlt jedoch ein intrinsisches 3D-Bewusstsein, sodass ihre Repräsentationen keine geometrische und räumliche Konsistenz über Videobilder hinweg aufrechterhalten können. Angesichts des Mangels an großflächigen 3D-Daten präsentieren wir GeoVR, ein neuartiges Framework, das geometrische Repräsentationen allein aus 2D-Videosequenzen lernt. Dieser Ansatz restrukturiert effektiv den semantischen latenten Raum in MLLMs, um räumliche Intelligenz freizusetzen. Anstatt oberflächliche Merkmalsmischung einzusetzen, formt GeoVR die internen Repräsentationen des MLLM um, indem Geometriewissen aus vortrainierten 3D-Grundlagenmodellen destilliert wird. Dies wird durch eine Multi-Objective-Lernstrategie erreicht, die von vier komplementären geometrischen Zielen angetrieben wird: (1) Schätzung von Kameraposen zwischen Bildern zur Einbettung wechselnder Blickwinkeldynamiken, (2) Regression dichter Tiefenkarten zur Verankerung physikalischer Distanzen, (3) Vorhersage eines metrischen Skalierungsfaktors für die Kalibrierung in der realen Welt und (4) Destillation mehrskaliger 3D-Merkmale zur Ausrichtung des Zwischenmerkmalsraums. Unter der Leitung dieser expliziten physikalischen und geometrischen Einschränkungen entwickeln die internen Repräsentationen des Modells auf natürliche Weise ein starkes 3D-Bewusstsein. Umfangreiche Experimente mit Benchmarks zum räumlichen Denken zeigen, dass GeoVR eine hochmoderne Leistung erzielt und ein neues Paradigma zur Ausstattung von Grundlagenmodellen mit räumlicher Intelligenz etabliert.

Auf dem Weg zu einer wirklich mehrsprachigen ASR: Generalisierung von Code-Switching-ASR auf ungesehene Sprachpaare
Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

Jun 4

ByGio Paik, Hyunseo Shin, Soungmin Lee

Die Automatische Spracherkennung (ASR) hat sich zu einer Schlüsseltechnologie für die Mensch-KI-Interaktion entwickelt. Allerdings bleibt die Code-Switching-ASR (CS-ASR) besonders herausfordernd, da es an mehrsprachigen CS-Sprachressourcen für verschiedene Sprachpaare stark mangelt. Bisherige Ansätze verbessern die CS-ASR-Leistung hauptsächlich durch synthetische CS-Spracherzeugung oder paarspezifisches Feintuning auf begrenzten zweisprachigen Datensätzen. Dennoch stoßen diese Ansätze auf eine grundlegende Skalierbarkeitsgrenze, da die Unterstützung für CS für jedes Sprachpaar separat entwickelt werden muss, dessen Anzahl kombinatorisch mit der Anzahl unterstützter Sprachen wächst. In dieser Arbeit untersuchen wir, ob CS-Fähigkeiten, die aus einer begrenzten Menge gesehener Sprachpaare erlernt wurden, durch Modellzusammenführung und Domänengeneralisierungsmethoden auf ungesehene Sprachpaare übertragen werden können. Unsere Experimente zeigen, dass zusammengeführte zweisprachige CS-ASR-Modelle mäßig auf ungesehene Sprachpaare generalisieren, was auf eine begrenzte Übertragung zweisprachiger CS-Fähigkeiten zwischen Sprachpaaren hindeutet.

AffordanceVLA: Ein Vision-Language-Action-Modell, das Handlungsgenerierung durch affordanzbewusstes Verständnis ermöglicht
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

Jun 4

ByQize Yu, Jiadi You, Yuran Wang, Jiaqi Liang, Bowen Ping, Yang Tian, Yue Chen, Minghong Cai, Zeying Gong, Ruihai Wu, Yinchuan Li, Junwei Liang, Yingcong Chen

Vision-Language-Action (VLA)-Modelle nutzen das reichhaltige Weltwissen vortrainierter Vision-Language-Modelle (VLMs), um befolgungsbasierte robotische Manipulation zu ermöglichen. Allerdings behindert die strukturelle Diskrepanz zwischen den semantischen Räumen der VLMs und den verkörperten Steuerungspolicen häufig das Erlernen präziser Wahrnehmungs-Handlungs-Abbildungen. Um diese Herausforderung zu bewältigen, schlagen wir AffordanceVLA vor, ein einheitliches Framework, das strukturierte Affordance-Vorhersage als aufgabenorientierte Zwischenrepräsentation einführt, um eine präzisere und robustere Wahrnehmungs-Handlungs-Abbildung zu etablieren. Konkret modellieren wir Manipulations-Priors schrittweise durch drei komplementäre Komponenten: 1) Which2Act für objektzentrierte Verankerung durch visuelle latente Prädiktion zur Unterdrückung von Ablenkungen; 2) Where2Act für 2D-Interaktionslokalisierung durch Schätzung von Affordance-Karten; und 3) How2Act für 3D-geometrisches Denken zur Steuerung von Manipulationspolicen. Diese Affordance-Hinweise liefern räumlich verankerte, semantisch konditionierte und handlungsgekoppelte Zwischenrepräsentationen und überbrücken somit auf natürliche Weise Vision, Sprache und Handlung. Wir integrieren diese Module in eine Mixture-of-Transformer (MoT)-Architektur mit spezialisierten Experten und trainieren das Modell mit einer dreistufigen Trainingsstrategie und einem progressiven Daten-Curriculum. Um die Knappheit dichter Affordance-Labels in Robotikdatensätzen zu überwinden, entwickeln wir zudem eine robuste automatisierte Datenaufbereitungspipeline. Umfangreiche Experimente in Simulation und realer Umgebung zeigen, dass AffordanceVLA in verschiedenen Manipulationsszenarien eine starke Leistung erzielt.

Flash-WAM: Modalitätsbewusste Destillation für Weltaktionsmodelle
Flash-WAM: Modality-Aware Distillation for World Action Models

Jun 3

ByArman Akbari, Ci Zhang, Arash Akbari, Lin Zhao, Yixiao Chen, Weiwei Chen, Xuan Zhang, Geng Yuan, Yanzhi Wang

Welt-Aktions-Modelle (WAMs) generieren gemeinsam zukünftige Videos und Roboteraktionen durch iterative Diffusion und erzielen dabei starke Leistungen auf Manipulations-Benchmarks, benötigen jedoch Dutzende von Entrauschungsschritten – ein Aufwand, der eine Echtzeitsteuerung ausschließt. Die Schrittdestillation hat sich als naheliegende Abhilfe erwiesen, doch handelsübliche Verfahren versagen im gemeinsamen Video-Aktions-Kontext, da Video- und Aktionsströme unterschiedliche SNR-verschobene Rauschpläne verwenden und mit deutlich unterschiedlichen marginalen Rauschverteilungen ins Training gehen – eine Asymmetrie, die unimodale Destillationsmethoden nicht bewältigen können. Wir stellen Flash-WAM vor, ein modalitätsbewusstes Schrittdestillations-Framework, das von der Konsistenzdestillation inspiriert ist und die Konsistenzfunktion für jede Modalität so wählt, dass sie zu deren Rauschregime passt: eine lineare Gradienten-Skalierungsparametrisierung für das niederrauschige Regime des Aktionsstroms, gepaart mit einer varianzerhaltenden Parametrisierung für das hochrauschige Regime des Videostroms, basierend auf einer strukturellen Analyse der Familie der Konsistenzfunktionen, die die unter der Konsistenzrandbedingung erreichbare Gradientenskalierung charakterisiert. Implementiert auf LingBot-VA komprimiert Flash-WAM die Inferenz auf einen einzigen Schritt pro Modalität. Auf RoboTwin 2.0 reduziert dies die Latenz pro Chunk von 8,1 Sekunden auf 348 ms auf einer NVIDIA L40S – eine 23-fache Beschleunigung, die Echtzeit-Inferenz ermöglicht. Flash-WAM erhält den Aufgabenerfolg auf Simulations-Benchmarks (85,5 % auf RoboTwin 2.0, 95,7 % auf LIBERO) und stellt die reale Leistung weitgehend wieder her (durchschnittlich 60 % auf einem humanoiden Roboter Unitree G1), während die naive Konsistenzdestillation bei gleichem Schrittbudget auf 24 % fällt.

SEAOTTER: Sensoreingebettetes Autoencoding mit einmaliger Transkodierung für effiziente Rekonstruktion
SEAOTTER: Sensor Embedded Autoencoding with One-Time Transcode for Efficient Reconstruction

Jun 2

ByDan Jacobellis, Neeraja J. Yadwadkar

In Robotersystemen können große Mengen visueller Daten mit hoher Auflösung problemlos mit kostengünstiger, energiesparender Hardware erfasst werden. Allerdings verhindern begrenzte Bandbreite und begrenzte On-Device-Rechenressourcen eine vollständige Nutzung bei der Übertragung über herkömmliche Codecs wie JPEG/MPEG. Neuere Codecs wie AV1/AVIF verbessern zwar den Raten-Verzerrungs-Kompromiss, erfordern jedoch deutlich mehr Ressourcen für die Kodierung, was ohne kundenspezifische ASICs unpraktikabel ist. Aktuelle asymmetrische Autoencoder liefern unter extremen Energie- und Bandbreitenbeschränkungen eine hohe Qualität, verursachen jedoch prohibitive Dekodierungskosten und verwenden proprietäre Formate, die die jahrzehntelange Infrastruktur um Standards wie JPEG ignorieren. Um diese Einschränkungen zu adressieren, stellen wir ein Kompressionsframework für Cloud-Robotik vor, das auf einem Sensor-Eingebetteten Autoencoder in Verbindung mit einer Einmaligen Transkodierung für effiziente Rekonstruktion (SEAOTTER) basiert. Da die Sensor-, Cloud- und Verbraucherstufen sehr unterschiedlichen Energie- und Bandbreitenbudgets gegenüberstehen, kombiniert SEAOTTER die Kompaktheit einer gelernten Latenten mit der breiten Nutzbarkeit einer standardmäßigen JPEG-Datei. Da naive Transkodierung die Leistung beeinträchtigt, schlagen wir eine lernbare JPEG-Farb- und Quantisierungstransformation vor, die eine höhere Genauigkeit für globale, dichte und visionssprachbasierte Wahrnehmung ermöglicht. Mit SEAOTTER trainieren wir sowohl allgemeine als auch aufgabenspezifische Transkodierungspipelines für einen vortrainierten, eingefrorenen Encoder. Bei einem Kompressionsverhältnis von 200:1 und im Vergleich zu AVIF beobachten wir eine 7-mal schnellere Kodierung, 3,5-mal schnellere Dekodierung und +8 % ImageNet-Top-1-Genauigkeit, während die Kompatibilität mit der JPEG-Infrastruktur erhalten bleibt. Unser Code ist verfügbar unter https://github.com/UT-SysML/seaotter .

MechVQA: Benchmarking und Verbesserung multimodaler LLMs für das umfassende Verständnis mechanischer Zeichnungen
MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

May 29

ByQian Kou, Xiaofeng Shi, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge bei allgemeinen Aufgaben der visuellen Fragebeantwortung (VQA) erzielt. Sie erweisen sich jedoch als anfällig bei mechanischen Konstruktionszeichnungen, wo eine hohe Annotationsdichte und schwaches Domänenwissen, verbunden mit unzuverlässigem räumlichem Schlussfolgern unter strengen Projektionsregeln und geometrischen Randbedingungen, dazu führen, dass entscheidende Hinweise leicht übersehen werden und häufig falsche Antworten resultieren. Um diese Lücke zu schließen, stellen wir den ersten umfassenden Datensatz zum Verständnis mechanischer Zeichnungen vor, MechVQA, der durch eine halbautomatische Erstellungs- und Qualitätskontroll-Pipeline erstellt wurde. MechVQA enthält 3.300 hochdichte Abbildungen mit 21.000 Frage-Antwort-Paaren, die zehn verschiedene feingranulare Aufgaben auf drei Fähigkeitsstufen umfassen: Erkennung, Schlussfolgerung und Beurteilung. Damit bietet er eine Testumgebung zur Bewertung und Verbesserung des Verständnisses von MLLMs für reale mechanische Zeichnungen. Aufbauend auf MechVQA entwickeln wir anschließend das MechVL-Modell mittels eines mehrstufigen Trainingsparadigmas und schaffen damit eine starke domänenspezifische Basislinie. Umfangreiche experimentelle Ergebnisse zeigen, dass MechVL die stärkste Closed-Source-Basislinie um 7,57 Prozentpunkte in der Gesamtpunktzahl von MechVQA übertrifft, die Fähigkeit zum Verständnis mechanischer Zeichnungen erheblich verbessert und eine wiederverwendbare Grundlage für den Einsatz von MLLMs in Szenarien der mechanischen Konstruktion und Inspektion bietet.

Kontextrevision, Verschiebung des simulierten Standpunkts: Audit der LLM-basierten Standpunktsimulation in Online-Diskussionen
Revising Context, Shifting Simulated Stance: Auditing LLM-Based Stance Simulation in Online Discussions

Jun 4

ByXinnong Zhang, Wanting Shan, Hanjia Lyu, Zhongyu Wei, Jiebo Luo

Große Sprachmodelle werden zunehmend eingesetzt, um Social-Media-Nutzer zu simulieren und abzuleiten, wie Einzelpersonen auf Online-Diskussionen reagieren könnten. Es bleibt jedoch unklar, ob diese Simulationen präzise nutzerspezifische Überzeugungen widerspiegeln oder ob sie sehr empfindlich auf semantisch unabhängige Veränderungen in Gesprächskontexten reagieren. In dieser Arbeit untersuchen wir die kontrafaktische Kontextrevision als Rahmenwerk für die Überprüfung von auf LLM basierender Standpunktsimulation. Ausgehend von einer ursprünglichen Online-Konversation leiten wir zunächst die Haltung eines Zielnutzers gegenüber einem bestimmten Thema ab. Anschließend wenden wir kontrollierte Revisionsstrategien auf den Gesprächskontext an und simulieren die Haltung des Nutzers erneut unter dem revidierten Kontext. Wir vergleichen rein textbasierte Revisionsstrategien mit einer multimodalen, die meme-basierten Kontext einbezieht, und bewerten zwei Hauptwirkungsmetriken, nämlich die durchschnittliche gerichtete Standpunktverschiebung und die Standpunktübergangsrate. Die Ergebnisse zeigen effektive und robuste Standpunktübergänge sowohl bei rein textbasierten als auch bei multimodalen Strategien über verschiedene Polarisierungs-Präferenz-Mechanismen hinweg. Unsere Studie trägt einen Bewertungsrahmen zum Verständnis der Kontextsensitivität von auf LLM basierender Standpunktsimulation bei. Im weiteren Sinne zeigt sie sowohl die Verheißung als auch das Risiko des Einsatzes von LLMs zur Simulation von Online-Meinungsdynamiken auf.

Latentes Reasoning mit Normalisierenden Flüssen
Latent Reasoning with Normalizing Flows

Jun 4

ByGuancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu

Große Sprachmodelle verbessern das Reasoning oft durch die Generierung expliziter Chain-of-Thought (CoT), was die Bedeutung von Zwischenberechnungen verdeutlicht. Allerdings erzwingt textuelles CoT diese Berechnung durch einen diskreten, seriellen und kommunikationsorientierten Token-Strom: Jeder Reasoning-Schritt muss verbalisiert werden, bevor das Modell fortfahren kann, selbst wenn die zugrunde liegende Aktualisierung semantisch, unsicher oder nur teilweise ausgeprägt ist. Latentes Reasoning bietet eine Alternative mit höherer Bandbreite, indem es Zwischenberechnungen in kompakten kontinuierlichen Zuständen durchführt, bevor es sich auf Text festlegt. Allerdings opfern bestehende Methoden des latenten Reasonings oft wichtige Vorteile, die CoT in autoregressiven Sprachmodellen effektiv machen, darunter die native Links-nach-Rechts-Generierung, probabilistisches Sampling, Kompatibilität mit KV-Cache-Dekodierung und handhabbare Likelihood-Schätzung. Wir schlagen NF-CoT vor, ein Framework für latentes Reasoning, das diese Vorteile bewahrt, indem es kontinuierliche Gedanken mit normalisierenden Flüssen modelliert. NF-CoT instanziiert einen normalisierenden Fluss im TARFlow-Stil innerhalb des LLM-Backbones und definiert ein handhabbares Wahrscheinlichkeitsmodell über kompakte kontinuierliche Gedanken, die aus explizitem CoT destilliert wurden. Kontinuierliche Gedankenpositionen werden von einem NF-Head generiert, während Textpositionen vom Standard-LM-Head innerhalb desselben kausalen Stroms generiert werden. Dieses Design liefert exakte Likelihoods für latente Gedanken, ermöglicht probabilistische Links-nach-Rechts-Dekodierung mit dem ursprünglichen KV-Cache und unterstützt direkte Policy-Gradient-Optimierung im latenten Reasoning-Raum. Bei Benchmarks zur Codegenerierung verbessert NF-CoT die Bestehensquoten gegenüber explizitem CoT und früheren Baseline-Methoden des latenten Reasonings, während es die Kosten des Zwischenreasonings erheblich reduziert.

EvoDS: Sich selbst weiterentwickelnder autonomer Data-Science-Agent mit Fähigkeitenlernen und Kontextverwaltung
EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

Jun 2

ByZherui Yang, Fan Liu, Yansong Ning, Hao Liu

Jüngste Fortschritte bei Large Language Model (LLM)-Agenten haben vielversprechende Entwicklungen in der automatisierten Datenwissenschaft ermöglicht. Bestehende Ansätze bleiben jedoch grundlegend durch ihre statischen Aktionsmengen und das Fehlen eines prinzipiengeleiteten, langfristigen Kontextmanagements eingeschränkt, was ihre Fähigkeit behindert, wiederverwendbare Erfahrungen über Aufgaben hinweg zu sammeln und in mehrstufigen, iterativen Datenwissenschaftspipelines zuverlässig zu operieren. Um diese Herausforderungen zu bewältigen, stellen wir EvoDS vor, einen sich selbst weiterentwickelnden autonomen Datenwissenschaftsagenten, der durch agentisches Reinforcement Learning lernt, seine Fähigkeiten zu erweitern und den langfristigen Kontext adaptiv zu verwalten. Insbesondere führt EvoDS zwei Schlüsselstrategien ein: (1) den Mechanismus des autonomen Fertigkeitserwerbs (ASA), der es Agenten ermöglicht, ausführbare Fähigkeiten zu synthetisieren, zu validieren und wiederzuverwenden; und (2) die Strategie der adaptiven Kontextkompression (ACC), die Kontextmanagement als ein erlerntes Kontrollproblem und nicht als passive Trunkierung behandelt. Diese Strategien werden in einem zweistufigen Multi-Agenten-Trainingsschema orchestriert, das es EvoDS ermöglicht, sich im Laufe der Zeit autonom zu verbessern. Theoretisch beweisen wir, dass das hierarchische Design von EvoDS den Werkzeugauswahlfehler reduziert und sein Optimierungsziel mit einem Informationsengpassprinzip übereinstimmt, was eine effiziente Kontextnutzung gewährleistet. Empirisch übertrifft EvoDS modernste Open-Source-Datenwissenschaftsagenten um durchschnittlich 28,9 % in vier verschiedenen Benchmarks, während Token-Überlauffehler eliminiert werden. Unser Code und unsere Daten sind verfügbar unter https://github.com/usail-hkust/EvoDS.

AURA: Intentionsgerichtete Sondierung zur Aufdeckung impliziter Bedürfnisse in situierten LLM-Agenten
AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents

Jun 4

ByYang Li, Jiaxiang Liu, Jiang Cai, Mingkun Xu

Eine situierte Frage wie „Wo ist Lin Wei?“ kodiert oft mehr als ihren wörtlichen Inhalt: Der Nutzer möchte möglicherweise auch wissen, ob Lin Wei Zeit hat, gut gelaunt ist oder ob es sich lohnt, sie jetzt zu unterbrechen. Standardmäßige Tool-Use-Agenten beantworten die wörtliche Frage und beenden die Interaktion. AURA fügt einen Inferenzschritt zwischen Szenenwahrnehmung und Tool-Nutzung ein, der einen IntentFrame erzeugt: eine strukturierte Schätzung des impliziten Bedarfs mit einem skalaren Lückenwert (Gap Score), der das Abfragebudget und die Tool-Auswahl pro Anfrage steuert. In einer Benchmark mit 100 Anfragen und vier Szenen für implizite Absichten verbessert AURA die Abdeckung impliziter Bedürfnisse gegenüber ReAct-artigem Nachfragen (Delta = +0,07, p < 10^-6); drei der vier Szenen sind einzeln signifikant, der Gewinn reproduziert sich auf einem zweiten Backbone, und eine Prompt-Ablation führt den Anstieg auf die Lückenkalibrierung zurück, nicht auf das Auswendiglernen von Antworten. Bei faktischen Abfragen tauscht der Controller rohe Genauigkeit gegen 82 % weniger Abfragen und null Verstöße gegen verbotene Tools auf einem datenschutzsensiblen Teilbereich; die Rahmenbedingungen werden in den Limitations detailliert beschrieben. Code, Simulator und Benchmark werden unter https://github.com/innovation64/AURA veröffentlicht.

Discrete-WAM: Einheitliche diskrete Vision-Action-Token-Editierung für das World-Policy-Lernen
Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Jun 4

ByZiyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye

Autonomes Fahren erfordert Überlegungen darüber, wie Eigenaktionen die Entwicklung der Umgebung beeinflussen. Die meisten Ende-zu-Ende-Methoden basieren jedoch auf direkten Zustands-Aktions-Abbildungen, die Korrelationen erfassen, ohne die aktionsbedingte Dynamik explizit zu modellieren. Hingegen fehlt kontinuierlichen latenten Weltmodellen oft eine kompositionelle Struktur für kausales Denken über kontrafaktische Zukünfte hinweg. Wir stellen Discrete-WAM vor, eine einheitliche latente Weltpolitik für visuelle Wahrnehmung und Aktionen, die zukünftige visuelle Zustände und Eigenaktionen als ausgerichtete diskrete Token repräsentiert und so kompositionelles kausales Denken über alternative Zukünfte ermöglicht. Aufbauend auf dieser einheitlichen diskreten Ausrichtung etabliert Discrete-WAM ein gemeinsames diskretes Diffusionsframework mit einheitlichen generativen Aufgaben, das Weltmodellierung, Welt-Aktionspolitik und hierarchische entscheidungsfähige Politik gemeinsam formuliert und so kompositionelle Generalisierung über verschiedene Fahrszenarien hinweg unterstützt. Experimente auf groß angelegten Benchmarks für autonomes Fahren zeigen, dass Discrete-WAM eine wettbewerbsfähige Leistung erzielt, während es kontrollierbare Generierung und kontrafaktisches Denken unterstützt und so einen prinzipientreuen Weg zu zuverlässigeren Entscheidungen bietet.

Ist diese Bearbeitung korrekt? Ein mehrdimensionaler Benchmark für reasoning-bewusste Bildbearbeitung
Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing

Apr 16

ByYixuan Ding, Wei Huang, Ruijie Quan, Xiaojuan Qi, Yi Yang

Diffusionsbasierte Bildbearbeitung hat unter natürlichen Sprachinstruktionen eine hohe visuelle Wiedergabetreue erreicht, dennoch operieren die meisten bestehenden Systeme weiterhin auf der Ebene der oberflächlichen Instruktionsbefolgung, ohne die in realen Nutzeranfragen eingebetteten impliziten kontextuellen Beschränkungen zu berücksichtigen. Dies führt oft zu visuell plausiblen, aber logisch inkonsistenten Bearbeitungen. In dieser Arbeit stellen wir RE-Edit vor, einen Benchmark für reasoning-bewusste Bildbearbeitung, der Bildbearbeitungssysteme über fünf komplementäre Reasoning-Dimensionen hinweg bewertet: physikalisch, umweltbezogen, kulturell, kausal und referenziell. RE-Edit umfasst 1.000 sorgfältig kuratierte Proben, die jeweils so gestaltet sind, dass visuelle Plausibilität allein nicht ausreicht und eine korrekte Bearbeitung die Erfüllung impliziter logischer Beschränkungen erfordert. Zur Unterstützung einer detaillierten Analyse etablieren wir dimensionsbezogene Bewertungskriterien und führen eine umfassende Studie mit zehn Open-Source- und zwei kommerziellen Bildbearbeitungsmodellen durch. Unsere Ergebnisse zeigen, dass selbst fortschrittliche Systeme bei implizitem mehrdimensionalem Reasoning häufig Schwierigkeiten haben, obwohl sie qualitativ hochwertige visuelle Ergebnisse liefern. Weiterhin präsentieren wir eine leichte, reasoning-gestützte Nachbearbeitungs-Baseline als erste Erkundung, die veranschaulicht, wie explizites Reasoning modellagnostisch helfen kann, solche Fehlschläge zu mildern.

Trust-Region-Q-Adjungierten-Matching
Trust Region Q Adjoint Matching

May 26

ByYonghoon Dong, Kyungmin Lee, Changyeon Kim, Jaehyuk Kim, Jinwoo Shin

Off-Policy-Verstärkungslernen von vortrainierten Fluss-Policys bleibt aufgrund der Instabilität der Optimierung, die aus dem mehrschrittigen Abtastprozess resultiert, herausfordernd. Kürzlich hat Q-Learning mit Adjoint Matching (QAM) dieses Problem adressiert, indem es die Problemstellung in ein gedächtnisloses stochastisches Optimalsteuerungsproblem (SOC) mit einem gelernten Kritiker umformuliert. Allerdings erbt QAM eine grundlegende Fragilität der kritikergeleiteten Verbesserung: Kleine Kritikerfehler werden verstärkt, wenn Kritiker schlecht konditioniert sind, was häufig zu einem Modellkollaps führt. In dieser Arbeit wird Trust Region Q-Adjoint Matching (TRQAM) vorgestellt, ein stabiles Off-Policy-Feinabstimmungsalgorithmus, der mittels projiziertem dualen Abstieg den Pfadraum-KL-Abstand zu vortrainierten Fluss-Policys adaptiv kontrolliert. Insbesondere optimieren wir den Trust-Region-Parameter λ in der SOC-Dynamik und zeigen theoretisch, dass der Pfadraum-KL-Abstand durch eine geschlossene Funktion von λ dargestellt werden kann. Dadurch kann unsere Methode die exakte Abweichung von vortrainierten Fluss-Policys präzise kontrollieren und so ein stabiles Off-Policy-RL erreichen. In Experimenten mit 50 OGBench-Aufgaben übertrifft TRQAM durchgängig den bisherigen Stand der Technik sowohl im Offline-RL als auch im Offline-zu-Online-RL. Insbesondere erreicht TRQAM eine Gesamterfolgsrate von 68% im Offline-RL und verbessert damit die stärkste Baseline von 46% erheblich.

Bedauernsminimierung mit adaptiven Gegnern in wiederholten Spielen
Regret Minimization with Adaptive Opponents in Repeated Games

Jun 4

ByMingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang

In diesem Artikel untersuchen wir die Minimierung von Bedauern in wiederholten Spielen mit adaptiven Gegnern, die basierend auf der Geschichte des Spielverlaufs reagieren können. Es ist bekannt, dass das Standardmaß des externen Bedauerns im Online-Lernen solche Adaptivität nicht erfassen kann. Um das kontrafaktische Denken der Spieler zu berücksichtigen, führen wir {\tt Repeated Policy Regret (RP-Regret)} ein, ein spieltheoretisches Maß, das die Differenz zwischen dem realisierten und dem im Nachhinein besten akkumulierten Nutzen misst, wenn alle Spieler auf die Geschichte des Spielverlaufs reagieren können. Im Vergleich zu bestehenden Bedauernsbegriffen in diesem Kontext ist unser Maß nativer für wiederholte Spiele, was stärkere Vergleicher und Gegner mit weniger Einschränkungen ermöglicht, während die Möglichkeit, bessere Gleichgewichte zu finden, erhalten bleibt, wenn alle Spieler es minimieren. Zunächst identifizieren wir notwendige Bedingungen für das Erreichen von sublinearem {\tt RP-Regret} in der Zeit, sowohl hinsichtlich der Variation der Vergleichsstrategien des Spielers in der Bedauernsdefinition als auch hinsichtlich der Gedächtnisse sowohl des Vergleichers als auch der gegnerischen Strategien. Anschließend untersuchen wir zusätzliche Bedingungen und beweisbare Algorithmen zur Minimierung von {\tt RP-Regret}, das per Definition nicht-konvex im Strategieraum ist. Um dieser Herausforderung zu begegnen, schlagen wir drei Algorithmen vor: (i) einen, der auf einem Optimierungsorakel basiert, wie es in einigen früheren Arbeiten zum nicht-konvexen Online-Lernen angenommen wurde; (ii) einen, der in jeder Iteration einen konvexen und linearisierten Ersatzwert für {\tt RP-Regret} minimiert; (iii) einen, der {\tt RP-Regret} direkt minimiert, wenn Gegner ihre Strategien langsam ändern. Darüber hinaus können, wenn alle Spieler Algorithmen zur Minimierung des {\tt RP-Regret} (oder seiner linearisierten Variante) ausführen, bestimmte teilspielperfekte Gleichgewichte des wiederholten Spiels erlernt werden. Wir liefern auch Experimente, die zeigen, dass die Minimierung unserer Bedauernsbegriffe zu kooperativeren Lösungen mit höherem Nutzen in Spielen wie der Hirschjagd führen kann.

Benchmark alles überall auf einmal
Benchmark Everything Everywhere All at Once

Jun 4

ByShiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

Benchmarks sind grundlegend für die Evaluierung und Weiterentwicklung von LLMs und MLLMs, da sie standardisierte und explizite Leistungsmaße liefern. Ihre Erstellung ist jedoch arbeitsintensiv und schwer wiederverwendbar, was Bedenken hinsichtlich Nachhaltigkeit und Skalierbarkeit aufwirft. Darüber hinaus erreichen bestehende Benchmarks nach ihrer Veröffentlichung oft schnell eine Leistungssättigung, was zu einer unzureichenden Unterscheidungsfähigkeit zwischen hochmodernen Modellen führt. Um diese Herausforderungen zu bewältigen, stellen wir Benchmark Agent vor, ein vollständig autonomes agentisches System, das für die Erstellung von Benchmarks konzipiert ist. Unser Framework orchestriert die gesamte Pipeline zur Benchmark-Erstellung, von der Analyse der Benutzeranfrage und dem Design von Subtasks bis hin zur Datenannotation und Qualitätskontrolle. Um Benchmark Agent zu evaluieren, setzen wir es ein, um 15 repräsentative Benchmarks zu erstellen, die verschiedene Evaluierungsszenarien abdecken, darunter Textverständnis, multimodales Verständnis und domänenspezifisches Reasoning. Umfangreiche Experimente, darunter menschliche Evaluierung, LLM-as-a-Judge-Bewertung und Konsistenzprüfungen, zeigen, dass Benchmark Agent in der Lage ist, hochwertige Benchmark-Beispiele mit minimalem menschlichem Eingriff zu generieren. Noch wichtiger ist, dass wir durch kontinuierliche Evaluierung mehrere aufschlussreiche Erkenntnisse gewinnen, darunter, dass aktuelle Modelle bei bestimmten domänenspezifischen Reasoning-Aufgaben Schwierigkeiten haben. Wir glauben, dass sich schnell weiterentwickelnde Benchmarks einen bedeutenden Beitrag zur Forschungsgemeinschaft leisten können. Die Vorschau und der Code werden auf der Demoseite und im Code-Repository öffentlich zugänglich sein.

Die Form der Addition: Geometrische Strukturen der Arithmetik in großen Sprachmodellen
The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models

May 29

ByLiuyuan Wen, Xun Zhu, Lihao Huang, Wenbin Li, Yang Gao

Große Sprachmodelle weisen eine paradoxe Fragilität in der grundlegenden Arithmetik auf, was auf eine Diskrepanz zwischen interner Berechnung und diskreter Ausgabe hindeutet. Durch die Analyse der Geometrie des Residuenstroms bei der Addition mehrerer Operanden identifizieren wir die Iso-Raw-Sum-Trajektorie (IRST), eine geometrische Struktur, bei der Repräsentationen durch semantische Ziffern verankert und durch kontinuierliche Übertragungsfasern moduliert werden. Wir schlagen das verrauschte Quantisierungsmodell vor, um diese Geometrie zu erklären, und betrachten arithmetische Fehler als geometrische Verschiebungen, die durch internes neuronales Rauschen verursacht werden, das ein kontinuierliches, latentes Übertragungspotenzial über Quantisierungsschwellen drückt. Dieser geometrische Rahmen erhellt zudem die Flexibilität von Sonden, indem er erklärt, wie leichte Sonden koexistierende latente Signale (wie Grundwahrheit versus Halluzination) aus einem einzigen Aktivierungsvektor entwirren können. Schließlich validieren wir diese Erkenntnisse durch eine Methode zur geometrischen Konsistenzprüfung, die diese Quantisierungsfehler während der Inferenz effektiv erkennt und korrigiert. Unser Code ist verfügbar unter https://github.com/RL-MIND/Shape-of-Addition.

LLM-Anonymisierung gegen agentische Re-Identifikation
LLM Anonymization Against Agentic Re-Identification

Jun 1

ByZiwen Li, Jianing Wen, Tianshi Li

Agentische LLMs mit Websuche verändern das Bedrohungsmodell für die Textanonymisierung: Schwache kontextuelle Hinweise können zu querverweisbaren Beweisen für eine Re-Identifikation werden, doch dieselben Details tragen gleichzeitig einen nachgelagerten Analysewert des Textes. Bestehende Abwehrmaßnahmen entfernen entweder explizite Identifikatoren, verrauschen Text für formale Privatsphäre oder testen umgeschriebenen Text gegen Nicht-Web-Inferenzmodelle, wobei der Operationsbereich zwischen Widerstandsfähigkeit gegenüber agentischer Websuche-Re-Identifikation und Nutzenerhalt wenig erforscht bleibt. Wir stellen AURA (Anonymization with Utility-Retention Adaptation) vor, ein LLM-gestütztes Masken-Rekonstruktions-Framework, das die Privatsphärenlokalisierung von der nutzenerhaltenden Rekonstruktion entkoppelt und Kandidaten mittels adversarieller Privatsphären- und Nutzenerhaltungsprüfungen auswählt. Wir evaluieren AURA an Transkripten von Interviews mit echten Nutzern unter Verwendung von Re-Identifikationsangriffen, die von Websuchagenten durchgeführt werden, sowie einer Nutzenevaluierung basierend auf Fakten zum Interviewtenprofil, Codebuch-Fakten und dem gemeinsamen kontextuellen Nutzenraster. Unsere Ergebnisse zeigen, dass AURA die Privatsphäre-Nutzen-Grenze verbessert, indem es einen adaptiven Privatsphärenumfang nutzt, um die Widerstandsfähigkeit gegenüber agentischer Re-Identifikation zu stärken, und eine Masken-Rekonstruktions-Anonymisierungsmethode verwendet, um den kontextuellen Nutzen bei festgelegtem Privatsphärenumfang besser zu bewahren.

Video2LoRA: Parametrische Video-Internierung für Vision-Language-Modelle
Video2LoRA: Parametric Video Internalization for Vision-Language Models

Jun 3

ByManan Suri, Sarvesh Baskar, Dinesh Manocha

Die Verarbeitung von Videos in Vision-Language-Modellen ist aufwändig: Jeder Frame belegt Hunderte von Tokens, und die Inferenzkosten skalieren mit jedem Frame und jeder wiederholten Abfrage. Wir stellen Video2LoRA vor, eine Methode zur parametrischen Video-Internalisierung. Ein Perceiver-Hypernetzwerk liest die schichtweise erzeugten Zwischenrepräsentationen, während ein eingefrorenes VLM ein Video kodiert, und generiert in einem einzigen Vorwärtsdurchlauf einen Low-Rank Adaptation (LoRA)-Adapter. Im Gegensatz zum standardmäßigen LoRA-Feintuning, das iterative Gradientenaktualisierungen erfordert, sagt Video2LoRA diese Gewichte direkt aus dem Video vorher. Trainiert für SmolVLM2 500M und 2.2B auf Videozusammenfassung und -beschriftung, ermöglicht Video2LoRA demselben eingefrorenen VLM, Abfragen allein aus dem Adapter zu beantworten, wobei zum Zeitpunkt der Abfrage null visuelle Tokens in seinem Kontext vorhanden sind. Video2LoRA ist statistisch nicht unterlegen und äquivalent zur direkten Video-im-Kontext-Inferenz über alle fünf Beschriftungs-Benchmarks bei beiden Modellgrößen sowie über sieben von acht Benchmark-Größen-Paarungen bei der Video-Fragebeantwortung. Obwohl nur auf 12 Frames bei 384px trainiert, bleibt es stabil bis zu 1.024 Frames und 1024px, wo die direkte Video-im-Kontext-Inferenz oft degeneriert. Über diesen gesamten Bereich reduziert es die visuelle Tokenlast zur Antwortzeit um bis zu 1.500-fach und die Abfrage-TTFT um das 6- bis 80-fache, während videotreue Ausgaben erhalten bleiben. Wir stellen außerdem fest, dass unabhängig generierte Adapter für nicht überlappende Videosegmente im Rangraum komponiert werden können, was einen Weg zur segmentierten Langvideo-Internalisierung aufzeigt.

Komplexität absorbieren: Ein interaktionsnativer Wissensrahmen für Finanz-LLM-Agenten
Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents

Jun 1

ByAiliya Borjigin, Igor Stadnyk, Ben Bilski, Maksym Chikita, Dmytro Kyrylenko, Sofiia Pidturkina, Julia Stadnyk

Finanz-KI-Agenten scheitern oft aus einem einfachen Grund: Sie überlassen den Nutzern die Komplexität. Ein Nutzer muss wiederholt Ziele, Risikopräferenzen, Portfoliokontext, frühere Urteile und sich ändernde Marktannahmen neu formulieren, während der Agent antwortet, abruft, handelt und vergisst. Im Finanzwesen ist dies nicht nur unpraktisch. Bei Aufgaben wie Marktanalyse, Kopierhandelsprüfung und Handelsvorbereitung können vergessener Kontext und veraltete Speicher Latenzen, wiederholte Fehler, schwache Nachvollziehbarkeit und unsichere Entscheidungen verursachen. Wir schlagen die interaktionsnative Wissensverkettung (InKH) vor, eine Architektur für auf großen Sprachmodellen basierende Finanz-Agenten, die die Komplexität in das System absorbiert. InKH wandelt Ereignisse von Nutzern, Märkten, Portfolios und Werkzeugen in strukturiertes operatives Wissen um. Es nutzt passive Wissensinjektion, um vor dem Hauptmodellschritt einen begrenzten Arbeitskontext-Puffer zusammenzustellen, einen temporalen Graphspeicher für latenzarmen Abruf, eine Wiki-Audit-Oberfläche für menschenlesbare Governance sowie Hintergrundextraktion mit Reifegrad, Verfall und Schreibzeit-Invalidierung. Wir evaluieren InKH auf einem reproduzierbaren kontrollierten synthetischen Benchmark mit 24 zufälligen Seeds, 4 Runden, 80 Episoden pro Runde und 6 Basislinien, was 46.080 basislinien-konditionierte Evaluierungen ergibt. InKH erreicht eine mittlere Aufgabenqualität von 0,815 bei einer Latenz von 900 ms. Im Vergleich zu agentengetriebenem Wiki-Walk-Speicher reduziert es die Latenz um 82,95 %, die Tokenkosten um 82,29 % und die Nutzung von veraltetem Wissen um 96,58 %, während die Qualität um 0,108 und die Rückverfolgbarkeit um 0,461 verbessert werden. Im Vergleich zu einem temporalen Graphsystem ohne Invalidierung verbessert es die Qualität um 0,050 und reduziert die Nutzung von veraltetem Speicher um 96,58 %, bei vergleichbaren Betriebskosten. Die Ergebnisse unterstützen eine Designthese für Finanz-KI: Akzeptanz entsteht, wenn die Komplexität vom System absorbiert wird, anstatt auf den Nutzer übertragen zu werden. Der Benchmark validiert das Verhalten auf Architekturebene, nicht die Live-Handelsleistung.

Kombinatorische Synthese: Skalierung von Code RLVR durch atomare Zerlegung und Rekombination
Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

May 29

ByJiasheng Zheng, Boxi Cao, Boxi Yu, Yuzhong Zhang, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich in jüngster Zeit als Grundpfeiler für die Entwicklung der bemerkenswerten Codierfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) etabliert. Die Skalierbarkeit von RLVR wird jedoch stark durch die Knappheit ausreichend anspruchsvoller, überprüfbarer Code-Aufgaben eingeschränkt, die nahe an der Leistungsgrenze des Modells liegen. Frühere Studien stützen sich oft auf heuristische Keimerweiterungen zur Datensynthese, was die Neuartigkeit und den Schwierigkeitsgrad erheblich einschränkt. Infolgedessen skaliert der Trainingswert solcher Daten nicht proportional zum Umfang ihrer Synthese. Zu diesem Zweck schlagen wir die Atomare Dekomposition und Rekombination (ADR) vor, ein neuartiges Framework, das überprüfbare Code-Aufgaben durch Zerlegung in atomare Elemente und kontrollierte Rekombination erzeugt und so die Generierung wirklich neuartiger und anspruchsvoller überprüfbarer Code-Aufgaben ermöglicht. Experimente und Analysen zeigen, dass ADR im Vergleich zu bestehenden Basislinien eine überlegene Originalität, Schwierigkeit, Diversität und Testqualität erreicht und durchgängig größere Verbesserungen der Code-Fähigkeiten bei RLVR in verschiedenen nachgelagerten Bereichen liefert, darunter algorithmische Programmierung, Werkzeugnutzung und Datenwissenschaft. Unsere Arbeit wirft Licht auf ein neues Paradigma für die Synthese neuartiger Code-Aufgaben und skalierbares RLVR-Training.

Multimodales Musikempfehlungssystem mit LLMs
Multimodal Music Recommendation System using LLMs

May 28

BySrikar Prabhas Kandagatla, Sreehitha R. Narayana, Chandana Magapu, Swetha Mohan, Shamanth Kuthpadi, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Nesreen Ahmed

Musikempfehlungssysteme behandeln Songs üblicherweise als undurchsichtige Token und stützen sich auf kollaborative Interaktionshistorien, die semantische oder akustische Inhalte außer Acht lassen. In früheren Arbeiten wurden LLM-gestützte, multimodale und textverbesserte Ansätze für die sequenzielle Empfehlung untersucht, und während einige Methoden semantische, akustische oder Interaktionssignale teilweise kombinieren, modelliert keine alle drei gemeinsam innerhalb eines einheitlichen, LLM-basierten sequenziellen Reasoning-Frameworks, das Empfehlungen auf den tatsächlichen Songinhalt gründet. In dieser Arbeit schlagen wir ein multimodales Framework für die sitzungsbasierte Musikempfehlung vor, das den LastFM-1K-Datensatz mit drei komplementären Signalen anreichert: (1) Audio- und Lyrik-Embeddings, die mit vortrainierten Musik- und Textrepräsentationsmodellen extrahiert werden, (2) LLM-generierte semantische Metadaten unter Verwendung des MGPHot-Annotationsschemas und (3) Hörvollständigkeitsraten. Wir übernehmen das E4SRec-Framework, indem wir es um multimodale Merkmale sowie verschiedene Item-ID-Encoder-Backbones – darunter SASRec, BERT4Rec und GRU4Rec – erweitern. Des Weiteren erweitern wir die LLM-Backbone-Option um LLaMa-2-13B, Qwen2.5-7B-Instruct und LLaMa-3-70B sowohl in Zero-Shot- als auch in Feintuning-Einstellungen. Unsere Experimente zeigen, dass die Integration inhaltsbasierter Merkmale die ID-basierten Baselines im Recall um bis zu 95 % und im NDCG um bis zu 79 % übertrifft. Darüber hinaus zeigen unsere Experimente, dass eine naive multimodale Fusion nicht immer additive Verbesserungen erzielt, was auf Herausforderungen bei der crossmodalen Integration hinweist. Wir veröffentlichen einen groß angelegten multimodalen Benchmark für die Musikempfehlung.

SABER: Benchmarking der Betriebssicherheit von LLM-Code-Agenten in zustandsbehafteten Projektarbeitsbereichen
SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces

May 31

ByQi Hu, Yifeng Tang, Qinghua Wang, Lanyang Zhao, Pengji Zhang, Yuhao Qing, Xin Yao, Dong Huang, Lin Zhang, Zhuoran Ji

Große Sprachmodelle werden zunehmend als Code-Agenten eingesetzt, was die Sicherheit von einzelnen Antworten hin zu Aktionssequenzen verlagert. Bestehende Benchmarks bewerten jedoch hauptsächlich, ob Modelle unsichere Aufforderungen ablehnen, und lassen Auswirkungen auf zustandsbehaftete Arbeitsumgebungen weitgehend unberücksichtigt. Wir präsentieren SABER, einen Benchmark für umgebungsbewusste operative Sicherheit, der Modelle in realistische agentenartige Projekte versetzt und die Sicherheit anhand des finalen Umgebungszustands nach einer Aktionssequenz bewertet. Über binäre Sicherheitsverstoßberichte hinaus kategorisiert SABER Verstöße nach Ursache und ermöglicht so die Analyse modellspezifischer Sicherheitsprofile. Unsere Auswertungen zeigen, dass selbst das leistungsstärkste Modell eine schädliche Sicherheitsverstoßrate (HSR) von über 54 % aufweist, was darauf hindeutet, dass das aktuelle Alignment für realistische Projektumgebungen unzureichend bleibt. SABER offenbart zudem unterschiedliche Sicherheitsprofile über Modelle hinweg. Unser Benchmark ist öffentlich verfügbar unter https://github.com/sssr-lab/saber.

ForeSci: Evaluierung von LLM-Agenten für vorausschauende KI-Forschungsurteile
ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

Jun 4

ByQiuyu Tian, Haojie Yin, Yingce Xia, Youyong Kong, Zequn Liu

KI-Forschung erfordert oft Entscheidungen, bevor zukünftige Belege existieren: Welcher Engpass soll angegangen werden, welche Richtung verfolgt werden oder wo ein Projekt positioniert werden soll. Wir stellen ForeSci vor, einen zeitlich kontrollierten Benchmark zur Bewertung, ob LLM-Agenten solche vorausschauenden Forschungsurteile auf der Grundlage historischer Belege treffen können. ForeSci enthält 500 Aufgaben in vier sich schnell entwickelnden KI-Domänen und vier Entscheidungsfamilien. Jede Aufgabe ist mit einer cutoff-konformen Offline-Wissensdatenbank gepaart; Post-Cutoff-Papiere werden während der Generierung verborgen und nur zur Validierung verwendet. Um zufällige Vorhersagen zukünftiger Ereignisse zu vermeiden, werden Aufgaben aus Pre-Cutoff-Taxonomie-Zweigen und Belegsignalen abgeleitet, und die Backbones zur Antwortgenerierung so ausgewählt, dass sie vor den Aufgaben-Cutoffs liegen. Wir bewerten native LLMs, Hybrid RAG und drei Forschungsagent-Anpassungen über vier Backbones hinweg. Die Ergebnisse zeigen, dass eine explizite Organisation von Belegen die Rückverfolgbarkeit und faktische Unterstützung verbessert, die Gewinne jedoch stark von der Entscheidungsfamilie abhängen. Diagnosen offenbaren eine wiederkehrende Evidenz-Entscheidungs-Entkopplung: Agenten können relevante Belege zitieren, während sie das falsche Forschungsobjekt vorhersagen. ForeSci macht vorausschauende KI-Forschungsurteile zu einem kontrollierten Benchmark zur Bewertung von Forschungsagenten als Entscheidungssystemen.

Qualitätsgesteuertes halbüberwachtes Lernen für die medizinische Bildsegmentierung
Quality-Guided Semi-Supervised Learning for Medical Image Segmentation

Jun 1

ByKumar Abhishek, Ghassan Hamarneh

Das Trainieren präziser medizinischer Bildsegmentierungsmodelle erfordert große Mengen dicht annotierter Daten, deren Beschaffung kostspielig und zeitaufwändig ist. Halbsupervisiertes Lernen (SSL) mildert dieses Problem, indem es sowohl aus reichlich vorhandenen unbeschrifteten als auch aus begrenzten beschrifteten Daten lernt. Die meisten modernen SSL-Methoden stützen sich jedoch auf Pseudo-Labels für unbeschriftete Daten und bewerten deren Zuverlässigkeit typischerweise anhand von Modellkonfidenz oder -unsicherheit – Maße, die selbstreferenziell sind und keine explizite Verankerung in der Segmentierungsqualität aufweisen. Stattdessen schlagen wir ein qualitätsgesteuertes SSL-Framework vor, das ein dediziertes Netzwerk trainiert, um die Segmentierungsqualität aus Bild-Masken-Paaren zu schätzen. Der Prädiktor wird auf Masken variabler Qualität trainiert, die durch synthetische Korruptionen erzeugt und mit unvollständigen Ausgaben teilweise trainierter Segmentierungsmodelle angereichert werden, wodurch realistische Fehlermuster während des Trainings erfasst werden. Wir integrieren den Qualitätsprädiktor in SSL durch zwei komplementäre Mechanismen: einen qualitätsbewussten Regularisierungsverlust und ein auf Qualität basierendes Schema zur Neugewichtung von Pseudo-Label-Stichproben. Wir zeigen, dass unsere Methode als nahtlose Verbesserung bestehender SSL-Frameworks eingesetzt werden kann. Umfangreiche Experimente über fünf Datensätze und mehrere Architekturen hinweg belegen konsistente Verbesserungen gegenüber konkurrierenden SSL-Methoden und treiben den Stand der Technik in der halbsupervisierten medizinischen Bildsegmentierung voran.

BRepCLIP: Kontrastives multimodales Vortraining auf BRep-Primitiven für CAD-Verständnis
BRepCLIP: Contrastive Multimodal Pretraining on BRep Primitives for CAD Understanding

Jun 3

ByMuhammad Usama, Didier Stricker, Mohammad Sadil Khan, Muhammad Zeshan Afzal

Das Lernen von Repräsentationen von CAD-Modellen ist ein weitgehend ungelöstes Problem. Während das 3D-Repräsentationslernen rund um Punktwolken und Netze floriert, hat das native Format von CAD – Boundary-Repräsentationen (BReps), die exakte parametrische Flächen, Kurven und deren Topologie codieren – als Substrat für das Repräsentationslernen wenig Beachtung gefunden. Wir stellen BRepCLIP vor, das erste Framework, das BRep-Geometrie durch kontrastives Vortraining mit Sprach- und Bildeinbettungen abgleicht. Wir modellieren jedes CAD-Objekt als Sequenz von Flächen- und Kanten-Tokens mit separaten diskreten Vokabularen für Flächen- und Kurvengeometrie, ergänzt um räumliche und semantische Deskriptoren, die Flächentypen (z. B. zylindrisch, Torus, NURBS) und Kurvenprimitive (z. B. Linie, Bogen, B-Spline) erfassen. Ein Transformer-Encoder aggregiert diese Tokens zu einer globalen BRep-Einbettung, die über ein gemeinsames kontrastives Ziel mit den Text- und Bild-Encodern von CLIP abgeglichen wird. BRepCLIP erzeugt diskriminativere und semantisch fundiertere Einbettungen als bestehende punktbasierte Alternativen und verbessert das Top-1-Retrieval gegenüber OpenShape um 40,4 %, 22,0 % bzw. 23,9 % auf ABC, CADParser und Automate sowie die Zero-Shot-Klassifikation auf FabWave um 15 % im Top-1-Score. Wir demonstrieren weiterhin seinen Nutzen als CAD-bewusste Ähnlichkeitsmetrik zur Bewertung von text- und bildgesteuerter CAD-Generierung und unterstreichen die Bedeutung strukturbewussten Vortrainings für das multimodale CAD-Verständnis. Die Projektseite ist verfügbar unter https://muhammadusama100.github.io/BrepClip2026/