ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

1

Fertigkeit1: Vereinheitlichte Evolution von fähigkeitserweiterten Agenten durch bestärkendes Lernen
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

Eine persistente Fähigkeitenbibliothek ermöglicht es Sprachmodell-Agenten, erfolgreiche Strategien über verschiedene Aufgaben hinweg wiederzuverwenden. Die Aufrechterhaltung einer solchen Bibliothek erfordert drei gekoppelte Fähigkeiten: Der Agent wählt eine relevante Fähigkeit aus, wendet sie während der Ausführung an und destilliert neue Fähigkeiten aus Erfahrungen. Bestehende Methoden optimieren diese Fähigkeiten isoliert oder mit separaten Belohnungsquellen, was zu teilweiser und widersprüchlicher Evolution führt. Wir schlagen Skill1 vor, ein Framework, das eine einzelne Policy trainiert, um Fähigkeitsauswahl, -nutzung und -destillation gemeinsam hin zu einem gemeinsamen Aufgaben-Ergebnis-Ziel zu entwickeln. Die Policy erzeugt eine Anfrage, um die Fähigkeitenbibliothek zu durchsuchen, bewertet Kandidaten neu, um eine auszuwählen, löst die Aufgabe unter deren Bedingung und destilliert eine neue Fähigkeit aus der Trajektorie. Die gesamte Lernableitung stammt von einem einzigen Aufgaben-Ergebnis-Signal. Sein niederfrequenter Trend schreibt die Auswahl zu und seine hochfrequente Variation schreibt die Destillation zu. Experimente in ALFWorld und WebShop zeigen, dass Skill1 bisherige auf Fähigkeiten basierende und verstärkende Lern-Baselines übertrifft. Die Trainingsdynamik bestätigt die gemeinsame Evolution der drei Fähigkeiten, und Ablationen zeigen, dass das Entfernen jeglicher Belohnungssignale die Evolution beeinträchtigt.

2

Jenseits semantischer Ähnlichkeit: Neubewertung der Retrieval-Methodik für agentenbasierte Suche durch direkte Korpusinteraktion
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

Moderne Retrieval-Systeme, ob lexikalisch oder semantisch, erschließen einen Korpus über eine feste Ähnlichkeitsschnittstelle, die den Zugriff auf einen einzelnen Top-k-Retrieval-Schritt vor der Reasoning-Phase komprimiert. Diese Abstraktion ist effizient, stellt jedoch für agentenbasierte Suche einen Engpass dar: Exakte lexikalische Einschränkungen, spärliche Hinweiskonjunktionen, lokale Kontextprüfungen und mehrstufige Hypothesenverfeinerungen sind schwer zu implementieren, wenn man einen konventionellen Standard-Retriever aufruft, und früh herausgefilterte Evidenz kann durch stärkeres nachgelagertes Reasoning nicht wiederhergestellt werden. Agentenaufgaben verschärfen diese Einschränkung weiter, da sie von Agenten verlangen, mehrere Schritte zu orchestrieren, einschließlich der Entdeckung von Zwischenentitäten, der Kombination schwacher Hinweise und der Überarbeitung des Plans nach Beobachtung teilweiser Evidenz. Um diese Einschränkung zu überwinden, untersuchen wir die direkte Korpusinteraktion (DCI), bei der ein Agent den Rohkorpus direkt mit allgemeinen Terminal-Tools (z.B. grep, Dateilesevorgänge, Shell-Befehle, leichtgewichtige Skripte) durchsucht, ohne ein Embedding-Modell, Vektorindex oder Retrieval-API. Dieser Ansatz erfordert keine Offline-Indizierung und passt sich natürlich an sich entwickelnde lokale Korpora an. In IR-Benchmarks und end-to-end agentenbasierten Suchaufgaben übertrifft dieses einfache Setup starke sparse, dense und Re-Ranking-Baselines auf mehreren BRIGHT- und BEIR-Datensätzen deutlich und erreicht hohe Genauigkeit bei BrowseComp-Plus und Multi-Hop-QA, ohne auf konventionelle semantische Retriever angewiesen zu sein. Unsere Ergebnisse zeigen, dass mit zunehmender Stärke von Sprachagenten die Retrieval-Qualität nicht nur von der Reasoning-Fähigkeit abhängt, sondern auch von der Auflösung der Schnittstelle, über die das Modell mit dem Korpus interagiert. DCI eröffnet hier einen breiteren Schnittstellengestaltungsraum für agentenbasierte Suche.

3

Kontinuierliches latentes Diffusionssprachmodell
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

Große Sprachmodelle haben bemerkenswerte Erfolge unter dem autoregressiven Paradigma erzielt, doch hochwertige Texterzeugung muss nicht an eine feste Links-nach-rechts-Reihenfolge gebunden sein. Bestehende Alternativen haben nach wie vor Schwierigkeiten, Erzeugungseffizienz, skalierbares Repräsentationslernen und effektive globale semantische Modellierung gemeinsam zu erreichen. Wir schlagen Cola DLM vor, ein hierarchisches latentes Diffusions-Sprachmodell, das Texterzeugung durch hierarchische Informationszerlegung abbildet. Cola DMI erlernt zunächst eine stabile Text-zu-Latent-Abbildung mit einem Text-VAE, modelliert dann ein globales semantisches Prior in einem kontinuierlichen latenten Raum mit einem block-kausalen DiT und erzeugt schließlich Text durch bedingte Dekodierung. Aus einer einheitlichen Markov-Pfad-Perspektive führt sein Diffusionsprozess einen latenten Prior-Transport anstelle einer Token-level-Beobachtungsrückgewinnung durch, wodurch die globale semantische Organisation von der lokalen textuellen Realisierung getrennt wird. Dieses Design führt zu einer flexibleren nicht-autoregressiven Induktionsverzerrung, unterstützt semantische Kompression und Prior-Anpassung im kontinuierlichen Raum und erstreckt sich natürlich auf andere kontinuierliche Modalitäten. Durch Experimente über 4 Forschungsfragen, 8 Benchmarks, streng abgeglichene ~2B-Parameter autoregressive und LLaDA-Baselines sowie Skalierungskurven bis zu etwa 2000 EFLOPs identifizieren wir eine effektive Gesamtkonfiguration von Cola DLM und verifizieren sein starkes Skalierungsverhalten für die Texterzeugung. Zusammengenommen etablieren die Ergebnisse die Modellierung hierarchischer kontinuierlicher latenter Priors als prinzipielle Alternative zur streng Token-basierten Sprachmodellierung, bei der Erzeugungsqualität und Skalierungsverhalten die Modellfähigkeit besser widerspiegeln können als Likelihood, während sie gleichzeitig einen konkreten Weg zur vereinheitlichten Modellierung über diskrete Texte und kontinuierliche Modalitäten hinweg aufzeigen.

4

MiA-Signatur: Annäherung globaler Aktivierung für das Verständnis langer Kontexte
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

Eine zunehmende Anzahl von Studien in der Kognitionswissenschaft deutet darauf hin, dass bewusst zugängliche und berichtbare Prozesse mit einer globalen Aktivierung verteilter Gedächtnissysteme einhergehen, während diese Aktivierung selbst nur teilweise zugänglich ist, da Individuen nicht direkt auf alle aktivierten Inhalte zugreifen oder diese aufzählen können. Diese Spannung legt einen plausiblen Mechanismus nahe, wonach Kognition auf einer kompakten Repräsentation beruhen könnte, die den globalen Einfluss der Aktivierung auf nachgelagerte Prozesse approximiert. Inspiriert von dieser Idee führen wir das Konzept der "Mindscape Activation Signature" (MiA-Signatur) ein – eine komprimierte Darstellung des durch eine Anfrage induzierten globalen Aktivierungsmusters. In LLM-Systemen wird dies durch eine submodularbasierte Auswahl hochrangiger Konzepte instanziiert, die den aktivierten Kontextraum abdecken, optional verfeinert durch leichtgewichtige iterative Aktualisierungen mittels Arbeitsgedächtnis. Die resultierende MiA-Signatur dient als Konditionierungssignal, das die Wirkung des vollständigen Aktivierungszustands annähert, dabei aber rechentechnisch handhabbar bleibt. Die Integration von MiA-Signaturen in sowohl RAG- als auch agentenbasierte Systeme führt zu konsistenten Leistungssteigerungen in verschiedenen Aufgaben zum Verständnis langer Kontexte.

5

RaguTeam bei SemEval-2026 Task 8: Meno und Freunde in einem richterlich orchestrierten LLM-Ensemble für vertrauenswürdige Mehrschritt-Antwortgenerierung
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

Wir präsentieren unser siegreiches System für Task~B (Generierung mit Referenztexten) beim SemEval-2026 Task~8: MTRAGEval. Unsere Methode ist ein heterogenes Ensemble aus sieben LLMs mit zwei Prompting-Varianten, bei dem ein GPT-4o-mini-Judge die beste Kandidatenantwort pro Instanz auswählt. Wir belegten den 1. Platz unter 26 Teams und erreichten ein konditioniertes harmonisches Mittel von 0,7827, womit wir die stärkste Baseline (gpt-oss-120b, 0,6390) übertrafen. Ablationstudien zeigen, dass die Vielfalt der Modellfamilien, -größen und Prompting-Strategien entscheidend ist, wobei das Ensemble durchgängig jedes Einzelmodell schlägt. Wir stellen zudem Meno-Lite-0.1 vor, ein domänenangepasstes 7B-Modell mit einem guten Kosten-Leistungs-Verhältnis, und analysieren MTRAGEval, wobei wir Annotationseinschränkungen und Verbesserungsrichtungen aufzeigen. Unser Code ist öffentlich verfügbar: https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE: Multi-Aspect Reward Balance for Diffusion RL
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

Reinforcement Learning Fine-Tuning hat sich als vorherrschender Ansatz zur Ausrichtung von Diffusionsmodellen an menschlichen Präferenzen etabliert. Die Bewertung von Bildern ist jedoch von Natur aus eine mehrdimensionale Aufgabe, bei der mehrere Bewertungskriterien gleichzeitig optimiert werden müssen. Bisherige Verfahren behandeln mehrere Belohnungen entweder durch das Training eines spezialisierten Modells pro Belohnung, durch die Optimierung einer gewichteten Summenbelohnung R(x)=∑ₖ wₖ Rₖ(x) oder durch sequenzielles Fine-Tuning mit einem manuell erstellten Stufenplan. Diese Ansätze führen entweder nicht zu einem vereinheitlichten Modell, das für alle Belohnungen gemeinsam trainiert werden kann, oder erfordern einen aufwändigen, manuell abgestimmten sequenziellen Trainingsprozess. Wir stellen fest, dass das Scheitern auf der Verwendung einer naiven gewichteten Summenbelohnung zur Aggregation beruht. Dieser Ansatz leidet unter einem Stichproben-Mismatch, da die meisten Rollouts spezialisierte Stichproben sind – hochgradig informativ für bestimmte Belohnungsdimensionen, aber irrelevant für andere; folglich verdünnt die gewichtete Summierung deren Aufsichtsinformation. Um dieses Problem zu adressieren, schlagen wir MARBLE (Multi-Aspect Reward BaLancE) vor, ein Optimierungsframework im Gradientenraum, das unabhängige Advantage-Schätzer für jede Belohnung verwaltet, policy-Gradienten pro Belohnung berechnet und diese durch Lösen eines quadratischen Optimierungsproblems zu einer einzigen Aktualisierungsrichtung harmonisiert, ohne manuell abgestimmte Belohnungsgewichtung. Wir schlagen weiterhin eine amortisierte Formulierung vor, die die affine Struktur des in DiffusionNFT verwendeten Verlusts ausnutzt, um die Kosten pro Schritt von K+1 Backward-Passes auf nahezu die Kosten eines Single-Reward-Baselines zu reduzieren, kombiniert mit EMA-Glättung der Ausgleichskoeffizienten, um die Aktualisierungen gegen vorübergehende Single-Batch-Schwankungen zu stabilisieren. Bei SD3.5 Medium mit fünf Belohnungen verbessert MARBLE alle fünf Belohnungsdimensionen gleichzeitig, wandelt den Kosinus des Gradienten der am schlechtesten ausgerichteten Belohnung von negativ unter gewichteter Summierung in 80 % der Mini-Batches zu konsistent positiv und läuft mit 0,97X der Trainingsgeschwindigkeit des Baseline-Trainings.

7

Wann der Vorstellung zu vertrauen ist: Adaptive Aktionsausführung für Weltaktionsmodelle
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

World Action Models (WAMs) haben sich kürzlich als vielversprechendes Paradigma für die robotische Manipulation etabliert, indem sie zukünftige visuelle Beobachtungen und zukünftige Aktionen gemeinsam vorhersagen. Allerdings führen aktuelle WAMs typischerweise eine festgelegte Anzahl vorhergesagter Aktionen nach jedem Modell-Inferenzschritt aus, wodurch das System blind dafür bleibt, ob die imaginierte Zukunft mit dem tatsächlichen physischen Ablauf übereinstimmt. In dieser Arbeit formulieren wir die adaptive WAM-Ausführung als ein Future-Reality-Verification-Problem: Der Roboter sollte länger agieren, wenn die WAM-vorhergesagte Zukunft zuverlässig bleibt, und früher neu planen, wenn die Realität von der Vorstellung abweicht. Zu diesem Zweck schlagen wir Future Forward Dynamics Causal Attention (FFDC) vor, einen leichtgewichtigen Verifizierer, der gemeinsam über vorhergesagte zukünftige Aktionen, vorhergesagte visuelle Dynamik, reale Beobachtungen und Sprachinstruktionen schlussfolgert, um abzuschätzen, ob den verbleibenden Ausführungsaktionen noch vertraut werden kann. FFDC ermöglicht adaptive Aktionsblockgrößen als emergente Konsequenz der Vorhersage-Beobachtungs-Konsistenz, was die Effizienz der langfristigen Ausführung erhält und gleichzeitig die Reaktionsfähigkeit in kontaktintensiven oder schwierigen Phasen wiederherstellt. Wir führen außerdem Mixture-of-Horizon Training ein, um die Abdeckung langfristiger Trajektorien für die adaptive Ausführung zu verbessern. Experimente auf dem RoboTwin-Benchmark und in der realen Welt demonstrieren, dass unsere Methode eine starke Robustheit-Effizienz-Abwägung erreicht: Auf RoboTwin reduziert sie die WAM-Vorwärtspässe um 69,10 % und die Ausführungszeit um 34,02 %, während die Erfolgsrate im Vergleich zur Short-Chunk-Baseline um 2,54 % steigt; in realen Experimenten verbessert sie die Erfolgsrate um 35 %.

8

Kontinuierliche Zeit-Verteilungsanpassung für Diffusionsdistillation in wenigen Schritten
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

Schrittweise Distillation hat sich zu einer führenden Technik zur Beschleunigung von Diffusionsmodellen entwickelt, wobei Distribution Matching Distillation (DMD) und Consistency Distillation zwei repräsentative Paradigmen darstellen. Während Konsistenzmethoden Selbstkonsistenz entlang der gesamten PF-ODE-Trajektorie erzwingen, um sie in Richtung der sauberen Datenmannigfaltigkeit zu lenken, stützt sich das ursprüngliche DMD auf spärliche Supervision bei einigen wenigen vordefinierten diskreten Zeitschritten. Diese eingeschränkte diskret-zeitliche Formulierung und die modus-suchende Natur der umgekehrten KL-Divergenz neigen dazu, visuelle Artefakte und übermäßig geglättete Ergebnisse zu zeigen, was oft komplexe Hilfsmodule – wie GANs oder Belohnungsmodelle – erforderlich macht, um die visuelle Qualität wiederherzustellen. In dieser Arbeit führen wir Continuous-Time Distribution Matching (CDM) ein, das den DMD-Rahmen erstmals von diskreter Verankerung auf kontinuierliche Optimierung überträgt. CDM erreicht dies durch zwei kontinuierlich-zeitliche Designs. Erstens ersetzen wir den festen diskreten Zeitplan durch einen dynamischen kontinuierlichen Zeitplan zufälliger Länge, sodass die Verteilungsanpassung an beliebigen Punkten entlang der Sampling-Trajektorien durchgesetzt wird und nicht nur an wenigen festen Ankerpunkten. Zweitens schlagen wir ein kontinuierlich-zeitliches Ausrichtungsziel vor, das aktives Off-Trajektorie-Matching auf Latents durchführt, die über das Geschwindigkeitsfeld des Studenten extrapoliert werden, was die Generalisierung verbessert und feine visuelle Details erhält. Umfangreiche Experimente mit verschiedenen Architekturen, einschließlich SD3-Medium und Longcat-Image, zeigen, dass CDM eine hochgradig wettbewerbsfähige visuelle Qualität für die Bildgenerierung mit wenigen Schritten bietet, ohne auf komplexe Hilfsziele angewiesen zu sein. Der Code ist verfügbar unter https://github.com/byliutao/cdm.

9

SkillOS: Lernfähigkeiten-Kuration für sich selbst weiterentwickelnde Agenten
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

LLM-basierte Agenten werden zunehmend für die Bearbeitung von Streaming-Aufgaben eingesetzt, bleiben jedoch oft Einmal-Problemlöser, die nicht aus vergangenen Interaktionen lernen. Aus Erfahrungen destillierte, wiederverwendbare Fähigkeiten bieten ein natürliches Substrat für die Selbstentwicklung, wobei die hochwertige Kuratierung von Fähigkeiten den entscheidenden Engpass darstellt. Bestehende Ansätze verlassen sich entweder auf manuelle Fähigkeitskuratierung, vorgegebene heuristische Fähigkeitsoperationen oder trainieren Operationen für kurzfristige Fähigkeiten. Dennoch haben sie Schwierigkeiten, komplexe langfristige Kuratierungsstrategien aus indirektem und verzögertem Feedback zu erlernen. Um diese Herausforderung zu bewältigen, schlagen wir SkillOS vor, ein erfahrungsgestütztes RL-Trainingsverfahren zum Erlernen der Fähigkeitskuratierung in sich selbst entwickelnden Agenten. SkillOS kombiniert einen eingefrorenen Agenten-Executor, der Fähigkeiten abruft und anwendet, mit einem trainierbaren Fähigkeitskurator, der ein externes SkillRepo aus gesammelten Erfahrungen aktualisiert. Um Lernsignale für die Kuratierung bereitzustellen, entwerfen wir zusammengesetzte Belohnungen und trainieren anhand gruppierter Aufgabenströme, die auf fähigkeitsrelevanten Aufgabenabhängigkeiten basieren. Dabei aktualisieren frühere Trajektorien das SkillRepo, und später folgende verwandte Aufgaben bewerten diese Aktualisierungen. In mehrstufigen agentenbasierten Aufgaben und einstufigen Reasoning-Aufgaben übertrifft SkillOS durchgängig speicherlose und leistungsstarke speicherbasierte Baseline-Modelle sowohl in Effektivität als auch Effizienz, wobei der gelernte Fähigkeitskurator über verschiedene Executor-Architekturen und Aufgabenbereiche hinweg generalisiert. Weitere Analysen zeigen, dass der gelernte Kurator eine zielgerichtetere Fähigkeitsnutzung bewirkt, während sich die Fähigkeiten im SkillRepo im Laufe der Zeit zu strukturierteren Markdown-Dateien entwickeln, die höherwertige Meta-Fähigkeiten kodieren.

10

Unsinn hilft: Störungen im Prompt-Raum erweitern die Denkexploration
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

Verstärkendes Lernen mit verifizierbaren Belohnungen, insbesondere Group Relative Policy Optimization (GRPO), hat die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erheblich vorangebracht. Bei komplexen Aufgaben leidet GRPO jedoch häufig unter dem „Null-Vorteils-Problem“: Wenn alle gesampelten Rollouts für eine Anfrage scheitern, kollabiert der relative Vorteil auf null. Infolgedessen verliert das Modell für diese Fragen effektive Trainingssignale, was Trainingsdaten und Rechenbudget verschwendet. Obwohl das einfache Erhöhen des Sampling-Budgets für diese Fragen ein gängiges Mittel ist, schränkt die statische Sampling-Strategie die Erkundung von Lösungswegen grundsätzlich ein und begrenzt so die Erfolgsquote. In diesem Artikel schlagen wir Lorem Perturbation for Exploration (LoPE) vor, ein einfaches, aber effektives Trainingsframework, um diesen Erkundungsengpass zu überwinden. Wir postulieren, dass aufgabenirrelevante Perturbationen im Prompt-Raum die Ausgabeverteilung des Modells ausreichend verschieben können, um orthogonale Reasoning-Pfade für schwierige Fragen freizuschalten. Konkret fügt LoPE den Prompts vor dem erneuten Sampling Sequenzen hinzu, die stochastisch aus einem Lorem-Ipsum-Vokabular (einem pseudo-lateinischen Platzhaltertext) zusammengesetzt sind. Experimente mit 1,7B-, 4B- und 7B-Modellen zeigen, dass LoPE das erneute Sampling mit den ursprünglichen Prompts signifikant übertrifft. Eine weitere Analyse offenbart, dass auch andere lateinbasierte Zufallssequenzen mit niedriger Perplexität effektive Perturbationen darstellen. Unsere Ergebnisse etablieren LoPE als eine starke Baseline zur Erweiterung der Erkundung beim verstärkenden Lernen von LLMs.

11

Audio-Visuelles Verständnis in großen Foundation Models
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

Audiovisuelle Intelligenz (AVI) hat sich als zentrale Forschungsfront in der Künstlichen Intelligenz etabliert, die auditive und visuelle Modalitäten verbindet, um Maschinen zu ermöglichen, die in der multimodalen realen Welt wahrnehmen, generieren und interagieren können. Im Zeitalter großer Basismodelle ist die gemeinsame Modellierung von Audio und Vision zunehmend entscheidend geworden, nicht nur für das Verständnis, sondern auch für die kontrollierbare Generierung und das Schlussfolgern über dynamische, zeitlich verankerte Signale. Jüngste Fortschritte wie Meta MovieGen und Google Veo-3 unterstreichen das wachsende industrielle und akademische Interesse an vereinheitlichten Audio-Vision-Architekturen, die aus massiven multimodalen Daten lernen. Trotz rasanter Fortschritte bleibt die Literatur jedoch fragmentiert, da sie vielfältige Aufgaben, inkonsistente Taxonomien und heterogene Evaluierungspraktiken umfasst, die einen systematischen Vergleich und Wissensintegration behindern. Dieser Übersichtsartikel bietet die erste umfassende Betrachtung von AVI durch die Linse großer Basismodelle. Wir etablieren eine einheitliche Taxonomie, die das breite Aufgabenspektrum der AVI abdeckt, vom Verstehen (z.B. Spracherkennung, Schallortung) über die Generierung (z.B. audiogesteuerte Videosynthese, Video-zu-Audio) bis hin zur Interaktion (z.B. Dialog-, verkörperte oder agentenbasierte Schnittstellen). Wir synthetisieren methodische Grundlagen, einschließlich Modalitätstokenisierung, cross-modaler Fusion, autoregressiver und diffusionsbasierter Generierung, Large-Scale-Pretraining, Instruktionsalignment und Präferenzoptimierung. Darüber hinaus stellen wir repräsentative Datensätze, Benchmarks und Evaluierungsmetriken zusammen, bieten einen strukturierten Vergleich über Aufgabenfamilien hinweg und identifizieren offene Herausforderungen in den Bereichen Synchronisation, räumliches Schließen, Steuerbarkeit und Sicherheit. Indem wir dieses sich schnell ausdehnende Forschungsgebiet in einen kohärenten Rahmen zusammenfassen, zielt dieser Übersichtsartikel darauf ab, eine grundlegende Referenz für die zukünftige Forschung zu großskaliger AVI zu sein.

12

StraTA: Anreizagentisches Reinforcement Learning durch strategische Trajektorienabstraktion
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

Große Sprachmodelle (LLMs) werden zunehmend als interaktive Agenten eingesetzt, doch ihre Optimierung für langfristige Entscheidungsfindung bleibt schwierig, da bestehende Methoden weitgehend rein reaktiv sind, was sowohl die Exploration als auch die Kreditzuweisung über längere Trajektorien schwächt. In dieser Arbeit stellen wir Strategic Trajectory Abstraction (StraTA) vor, ein einfaches Framework, das eine explizite trajektorienbasierte Strategie in bestärkendes Lernen (RL) für Agenten einführt. StraTA sampelt eine kompakte Strategie aus dem initialen Aufgabenstatus, konditioniert nachfolgende Aktionen auf diese Strategie und trainiert Strategiegenerierung und Aktionsausführung gemeinsam mit einem hierarchischen GRPO-inspirierten Rollout-Design, das zusätzlich durch diverse Strategien-Rollouts und kritische Selbstbewertung verbessert wird. Experimente auf ALFWorld, WebShop und SciWorld zeigen, dass StraTA konsistent sowohl die Sample-Effizienz als auch die Endleistung gegenüber starken Baselines verbessert. StraTA erreicht Erfolgsquoten von 93,1 % auf ALFWorld und 84,2 % auf WebShop. Auf SciWorld erzielt StraTA eine Gesamtpunktzahl von 63,5 % und übertrifft damit state-of-the-art Closed-Source-Modelle.

13

Automatische Forschung mit spezialisierten Agenten entwickelt effektive und nicht-triviale Trainingsrezepte
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

Wir untersuchen Auto-Research als eine geschlossene empirische Schleife, die durch externe Messungen angetrieben wird. Jeder eingereichte Versuch umfasst eine Hypothese, eine ausführbare Code-Änderung, ein ergebnisbezogenes Messergebnis des Evaluators sowie Feedback, das den nächsten Vorschlag formt. Das Ergebnis ist keine generierte Arbeit oder ein einzelner Modell-Checkpoint, sondern eine nachvollziehbare Abfolge von Vorschlägen, Code-Diffs, Experimenten, Bewertungen und Fehlerkennzeichnungen. Wir implementieren diese Schleife mit spezialisierten Agenten, die Rezept-Oberflächen partitionieren und gemessene Abstammungslinien über Versuche hinweg teilen. Die zentrale empirische Erkenntnis ist, dass Abstammungsfeedback es Agenten ermöglicht, Ergebnisse des Evaluators – einschließlich Abstürzen, Budgetüberschreitungen, Größenfehlern und verfehlten Genauigkeitsgrenzen – in späteren programmweiten Rezeptänderungen umzusetzen, anstatt in einmaligen Vorschlägen. Über 1.197 Hauptversuche sowie 600 Parameter-Golf-Kontrollversuche hinweg – nach einmaliger Einrichtung und Inbetriebnahme – wählten Menschen keine Vorschläge aus, bearbeiteten keine Rezepte, überschrieben Bewertungen oder reparierten fehlgeschlagene Versuche während der Suche. In den drei Hauptläufen reduziert derselbe eingereichte-Versuch-Kreislauf die Parameter-Golf-Validierungs-bpb um 0,81 %, steigert NanoChat-D12 CORE um 38,7 % und verringert die CIFAR-10 Airbench96-Wanduhrzeit um 4,59 %, wobei jede Aufgabe durch ihren eigenen externen Evaluator und Legalitätsprüfungen gemessen wird. Die Aufzeichnung enthält ein strenges Architektur-Domain-Audit von 157 Einreichungen der Hauptläufe sowie Programmumformulierungen wie eine Änderung des NanoChat-Aufmerksamkeits-Kernel-Pfads. Innerhalb dieses Rahmens schreibt die Schleife autonom Code, reicht Experimente ein, verarbeitet Feedback, wendet bekannte Techniken innerhalb jeder Umgebung an und kombiniert diese und verbessert öffentliche Ausgangsrezepte.

14

A^2TGPO: Agentische Turn-Group Policy Optimierung mit adaptivem Turn-Level Clipping
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

Reinforcement Learning für agentische große Sprachmodelle (LLMs) stützt sich typischerweise auf eine spärliche, trajectorienbezogene Ergebnisbelohnung, was die Bewertung des Beitrags einzelner Tool-Aufrufe innerhalb mehrstufiger Interaktionen erschwert. Bestehende Ansätze für eine solche prozessbezogene Kreditzuweisung sind entweder auf separate externe Prozessbewertungsmodelle angewiesen, die zusätzlichen Aufwand verursachen, oder auf baumbasierte Struktur-Rollouts, die lediglich das Ergebnissignal umverteilen, während sie die Trajektorienvielfalt einschränken. Eine vielversprechende Alternative nutzt die pro Zug auftretende Änderung der vorhergesagten Wahrscheinlichkeit der Ground-Truth durch die Policy, bezeichnet als Informationsgewinn (IG), als intrinsisches Prozesssignal ohne externen Bewerter. Allerdings sehen frühere Arbeiten zur Nutzung von IG-Signalen innerhalb der RL-Trainingsschleife drei systematische Herausforderungen: Die Normalisierung über Züge hinweg, die heterogenen Positionskontexten ausgesetzt sind, kann die relative Stellung einzelner Züge verzerren; die Akkumulation einer variablen Anzahl von Termen führt dazu, dass die Advantage-Größen mit der Trajektorientiefe driften; und ein fester Clipping-Bereich steuert Policy-Updates identisch für Züge mit sehr unterschiedlichen IG-Signalen. In diesem Artikel schlagen wir A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping) vor, das IG als intrinsisches Signal beibehält, aber neu gestaltet, wie es normalisiert, akkumuliert und genutzt wird: (i) Zuggruppen-Normalisierung: Normalisiert IG innerhalb jeder (Prompt, Zug-Index)-Gruppe, sodass jeder Zug nur mit Peers auf derselben Interaktionstiefe verglichen wird; (ii) varianzskalierte diskontierte Akkumulation: Teilt den kumulativen normalisierten IG durch die Quadratwurzel der akkumulierten Terme, um die Advantage-Größen über verschiedene Zugpositionen hinweg vergleichbar zu halten; und (iii) adaptives zugbezogenes Clipping: Passt den Clipping-Bereich jedes Zuges basierend auf seinem normalisierten IG an, erweitert die Update-Region für informative Züge und verengt sie für uninformativen.

15

Kann RL LLMs langfristiges Denken beibringen? Die Ausdrucksfähigkeit ist entscheidend.
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

Reinforcement Learning (RL) wurde bereits eingesetzt, um das logische Schließen großer Sprachmodelle (LLMs) zu verbessern, doch eine systematische Untersuchung, wie sich das Training mit dem Schwierigkeitsgrad der Aufgabe skaliert, wurde bisher durch das Fehlen kontrollierter, skalierbarer Umgebungen behindert. Wir stellen ScaleLogic vor, ein synthetisches Framework für logisches Schließen, das eine unabhängige Steuerung über zwei Schwierigkeitsachsen bietet: die Tiefe der erforderlichen Beweisplanung (d.h. den Planungshorizont) und die Ausdrucksstärke der zugrundeliegenden Logik. Unser Framework unterstützt eine breite Palette von Logiken: von einer einfachen Implikationslogik ("wenn-dann") bis hin zu ausdrucksstärkerem Schließen erster Ordnung mit Konjunktion ("und"), Disjunktion ("oder"), Negation ("nicht") und universeller Quantifizierung ("für alle"). Mithilfe dieses Frameworks zeigen wir, dass der für das RL-Training erforderliche Rechenaufwand T einem Potenzgesetz in Bezug auf die Schließtiefe D folgt (T ∝ D^γ, R² > 0,99) und dass der Skalierungsexponent γ monoton mit der logischen Ausdrucksstärke von 1,04 auf 2,60 ansteigt. Bei nachgelagerten Benchmarks für Mathematik und allgemeines logisches Schließen führen Trainingssettings mit höherer Ausdrucksstärke sowohl zu größeren Leistungssteigerungen (bis zu +10,66 Punkten) als auch zu einem recheneffizienteren Transfer im Vergleich zu Settings mit geringerer Ausdrucksstärke. Dies zeigt, dass nicht nur das Ausmaß, sondern auch der Inhalt des Trainings den nachgelagerten Transfer prägt. Wir zeigen weiterhin, dass das Potenzgesetz über mehrere RL-Methoden hinweg Bestand hat und ein curriculumbasiertes Training die Skalierungseffizienz erheblich verbessert.

16

ReflectDrive-2: Verstärkungslernen-angepasste Selbstbearbeitung für diskrete Diffusionssteuerung
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

Wir stellen ReflectDrive-2 vor, einen maskierten diskreten Diffusionsplaner mit separatem Aktions-Experten für das autonome Fahren, der Pläne als diskrete Trajektorien-Tokens repräsentiert und sie durch paralleles maskiertes Decodieren erzeugt. Dieser diskrete Token-Raum ermöglicht eine direkte Trajektorienrevision: AutoEdit überschreibt ausgewählte Tokens mit demselben Modell, ohne dass ein zusätzliches Verfeinerungsnetzwerk erforderlich ist. Um diese Fähigkeit zu trainieren, verwenden wir ein zweistufiges Verfahren. Zuerst konstruieren wir strukturierte Störungen von Expertentrajektorien entlang der Längsrichtung (Fortschritt) und der Querrichtung (Gierwinkel) und beaufsichtigen das Modell dabei, die ursprüngliche Expertentrajektorie wiederherzustellen. Anschließend feintunen wir den vollständigen Decision-Draft-Reflect-Rollout mit Reinforcement Learning (RL), wobei wir die finale Belohnung für das Fahrverhalten der endgültigen, bearbeiteten Trajektorie zuweisen und die Policy-Gradient-Credits über die vollständigen Rollout-Transitionen zurückverteilen. Vollständiges Rollout-RL erweist sich als entscheidend für die Kopplung von Entwurf und Bearbeitung: Unter rein beaufsichtigtem Training verbessert AutoEdit zur Inferenzzeit PDMS höchstens um 0,3, während RL den Gewinn auf 1,9 steigert. Wir entwickeln zudem einen effizienten Reflective-Decoding-Stack für die Decision-Draft-Reflect-Pipeline, der Shared-Prefix-KV-Wiederverwendung, Alternating Step Decode und fusioniertes Unmasking auf dem Endgerät kombiniert. Auf NAVSIM erreicht ReflectDrive-2 91,0 PDMS mit rein kamerabasierter Eingabe und 94,8 PDMS in einer Best-of-6-Orakel-Einstellung, bei einer durchschnittlichen Latenz von 31,8 ms auf NVIDIA Thor.

17

TabEmbed: Benchmarking und Erlernen generalistischer Einbettungen für das tabellarische Verständnis
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

Foundation Models haben einheitliche Repräsentationen für die natürliche Sprachverarbeitung etabliert, doch dieses Paradigma ist für tabellarische Daten weitgehend unerforscht. Bestehende Methoden stoßen auf grundlegende Limitationen: LLM-basierte Ansätze erzeugen keine abfragekompatiblen Vektorausgaben, während Text-Embedding-Modelle häufig die tabellarische Struktur und numerische Semantik nicht erfassen. Um diese Lücke zu schließen, führen wir zunächst den Tabular Embedding Benchmark (TabBench) ein, eine umfassende Testsuite zur Bewertung des Tabellenverständnisses von Embedding-Modellen. Anschließend präsentieren wir TabEmbed, das erste generalistische Embedding-Modell, das tabellarische Klassifikation und Retrieval in einem gemeinsamen Embedding-Raum vereint. Durch die Reformulierung verschiedener Tabellenaufgaben als semantische Matching-Probleme nutzt TabEmbed kontrastives Lernen mit Large-Scale-Daten und Positive-Aware-Hard-Negative-Mining, um feinkörnige strukturelle und numerische Nuancen zu erkennen. Experimentelle Ergebnisse auf TabBench zeigen, dass TabEmbed state-of-the-art Text-Embedding-Modelle signifikant übertrifft und damit eine neue Baseline für universelles Tabellenrepräsentationslernen setzt. Code und Datensätze sind öffentlich verfügbar unter https://github.com/qiangminjie27/TabEmbed und https://huggingface.co/datasets/qiangminjie27/TabBench.

18

UniPool: Ein global geteilter Expertenpool für Mixture-of-Experts
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

Moderne Mixture-of-Experts (MoE)-Architekturen weisen Expertenkapazität nach einer starren, pro-Schicht geltenden Regel zu: Jede Transformer-Schicht besitzt einen separaten Satz von Experten. Diese Konvention koppelt die Skalierung der Tiefe mit einem linearen Wachstum der Expertenparameter und geht davon aus, dass jede Schicht eine isolierte Expertenkapazität benötigt. Jüngste Analysen und unsere Routing-Untersuchungen stellen diese Zuteilungsregel jedoch infrage: Ersetzt man den gelernten Top-K-Router einer tieferen Schicht durch einheitliches zufälliges Routing, sinkt die nachgelagerte Genauigkeit über mehrere produktive MoE-Modelle hinweg nur um 1,0–1,6 Punkte. Motiviert durch diese Redundanz schlagen wir UniPool vor, eine MoE-Architektur, die Expertenkapazität als globales Architekturbudget behandelt, indem sie den pro-Schicht Expertenbesitz durch einen einzelnen, gemeinsamen Pool ersetzt, auf den unabhängige pro-Schicht Router zugreifen. Um stabiles und ausgeglichenes Training unter Shared-Resource-Bedingungen zu ermöglichen, führen wir einen Pool-weiten auxiliary loss ein, der die Expertennutzung über den gesamten Pool hinweg ausgleicht, und setzen NormRouter ein, um sparsames und skalierstabiles Routing in den gemeinsamen Expertenpool zu gewährleisten. Über fünf Modellskalen der LLaMA-Architektur (182M, 469M, 650M, 830M und 978M Parameter), trainiert mit 30B Tokens aus "The Pile", verbessert UniPool durchgängig den Validierungsverlust und die Perplexität gegenüber den angepassten, einfachen MoE-Baselines. Über diese Skalen hinweg reduziert UniPool den Validierungsverlust um bis zu 0,0386 im Vergleich zu einfachem MoE. Über die reine Verlustverbesserung hinaus identifizieren unsere Ergebnisse die Pool-Größe als einen expliziten Hyperparameter für die Tiefenskalerung: Reduzierte-Pool UniPool-Varianten, die nur 41,6 %–66,7 % des Expertenparameter-Budgets des einfachen MoE verwenden, erreichen oder übertreffen die leistung auf Schichtebene bei den getesteten Skalen. Dies zeigt, dass Expertenparameter unter einem Shared-Pool-Design nicht linear mit der Tiefe wachsen müssen; sie können sublinear wachsen und dabei effizienter und effektiver bleiben als einfaches MoE. Weitere Analysen zeigen, dass sich die Vorteile von UniPool mit einer feiner granularen Expertenzerlegung kombinieren lassen.

19

SwiftI2V: Effiziente hochauflösende Bild-zu-Video-Erzeugung durch bedingte segmentweise Generierung
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

Die hochauflösende Bild-zu-Video-Generierung (I2V) zielt darauf ab, realistische zeitliche Dynamiken zu synthetisieren und gleichzeitig feinste Erscheinungsdetails des Eingabebildes zu bewahren. Bei 2K-Auflösung wird dies äußerst anspruchsvoll, und bestehende Lösungen weisen verschiedene Schwächen auf: 1) End-to-End-Modelle sind oft unverhältnismäßig speicherintensiv und langsam; 2) Die Kaskadierung einer niedrigauflösenden Generierung mit einer generischen Video-Super-Resolution neigt dazu, Details zu halluzinieren und von eingabespezifischen lokalen Strukturen abzudriften, da die Super-Resolution-Stufe nicht explizit auf das Eingabebild konditioniert ist. Daher schlagen wir SwiftI2V vor, ein effizientes Framework für hochauflösende I2V. Basierend auf dem weit verbreiteten Zwei-Stufen-Design löst es das Effizienz-Treue-Dilemma, indem zunächst eine niedrigaufgelöste Bewegungsreferenz erzeugt wird, um Token-Kosten zu reduzieren und die Modellierung zu erleichtern, gefolgt von einer stark bildkonditionierten 2K-Synthese, die durch die Bewegung geführt wird, um eingabetreue Details mit kontrolliertem Aufwand wiederherzustellen. Konkret führt SwiftI2V Conditional Segment-wise Generation (CSG) ein, um Videos segmentweise mit einem begrenzten Token-Budget pro Schritt zu synthetisieren, und nutzt bidirektionale kontextuelle Interaktion innerhalb jedes Segments, um segmentsübergreifende Kohärenz und Eingabetreue zu verbessern. Auf VBench-I2V bei 2K-Auflösung erreicht SwiftI2V eine mit End-to-End-Baselines vergleichbare Leistung, reduziert jedoch die Gesamt-GPU-Zeit um das 202-fache. Insbesondere ermöglicht es eine praktische 2K-I2V-Generierung auf einer einzelnen Data-Center-GPU (z.B. H800) oder Consumer-GPU (z.B. RTX 4090).

20

KI-Mathematiker: Mathematiker mit agentenbasierter KI beschleunigen
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

Wir stellen den KI-Mathematik-Assistenten vor, eine Arbeitsplattform für Mathematiker, um interaktiv KI-Agenten zur Verfolgung offener Forschungsvorhaben einzusetzen. Der KI-Mathematik-Assistent ist darauf ausgelegt, ganzheitliche Unterstützung für die explorative und iterative Realität mathematischer Arbeitsabläufe zu bieten, einschließlich Ideenfindung, Literaturrecherche, computergestützter Exploration, Theorembeweis und Theoriebildung. Durch einen asynchronen, zustandsbehafteten Arbeitsbereich, der Unsicherheiten verwaltet, Benutzerabsichten verfeinert, gescheiterte Hypothesen nachverfolgt und native mathematische Artefakte ausgibt, spiegelt das System menschliche kollaborative Arbeitsprozesse wider. In ersten Tests half der KI-Mathematik-Assistent Forschern bei der Lösung offener Probleme, der Identifizierung neuer Forschungsrichtungen und der Entdeckung übersehener Literaturreferenzen. Neben der Demonstration eines hochinteraktiven Paradigmas für KI-gestützte mathematische Entdeckungen erzielt der KI-Mathematik-Assistent zudem state-of-the-Art-Ergebnisse in anspruchsvollen Problemlösungs-Benchmarks, einschließlich einer Bewertung von 48 % auf FrontierMath Tier 4 – ein neuer Höchstwert unter allen evaluierten KI-Systemen.

21

RemoteZero: Räumliche Analyse ohne menschliche Annotationen
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

Georäumliches Reasoning erfordert von Modellen, komplexe räumliche Semantik und Nutzerabsicht in präzise Zielkoordinaten für die Erdbeobachtung zu übersetzen. Jüngste Fortschritte haben den Reasoning-Pfad von manueller Kuratierung befreit, sodass Modelle ihre eigenen Inferenzketten generieren können. Eine letzte Abhängigkeit bleibt jedoch bestehen: Sie werden nach wie vor durch menschlich annotierte Ground-Truth-Koordinaten supervidiert. Dies macht den Reasoning-Prozess autonom, aber nicht seinen räumlichen Endpunkt, und verhindert eine echte Selbstevolution auf der Basis umfangreicher ungelabelter Fernerkundungsdaten. Um diesen Engpass zu überwinden, führen wir RemoteZero ein, ein rahmenbasiertes, aufzeichnungsfreies Framework für georäumliches Reasoning. RemoteZero wird von einer einfachen Asymmetrie motiviert: Ein MLLM ist typischerweise besser darin zu verifizieren, ob eine Region eine Anfrage erfüllt, als direkt präzise Koordinaten zu generieren. Indem es diese stärkere diskriminative Fähigkeit nutzt, ersetzt RemoteZero die geometrische Überwachung durch intrinsische semantische Verifikation und ermöglicht GRPO-Training ohne Bounding-Box-Annotationen. Das resultierende Framework unterstützt zudem iterative Selbstevolution, die es dem Modell erlaubt, sich anhand ungelabelter Fernerkundungsbilder durch sein eigenes Verifikationssignal zu verbessern. Experimente zeigen, dass RemoteZero eine wettbewerbsfähige Leistung gegenüber stark supervidierten Methoden erzielt und damit das Potenzial selbstverifizierenden Trainings für die Lokalisierung im georäumlichen Reasoning demonstriert.

22

Die Granularitätsachse: Eine latente Mikro-zu-Makro-Richtung für soziale Rollen in Sprachmodellen
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

Große Sprachmodelle (LLMs) werden routinemäßig angewiesen, soziale Rollen von Individuen bis hin zu Institutionen einzunehmen, doch es bleibt unklar, ob ihre internen Repräsentationen die Granularität solcher Rollen erfassen – von der Mikroebene individueller Erfahrung bis zur Makroebene organisationalen, institutionellen oder nationalen Denkens. Wir zeigen, dass sie dies tun. Wir definieren eine kontrastbasierte Granularitätsachse als Differenz zwischen den mittleren Hidden States von Makro- und Mikro-Rollen. In Qwen3-8B aligniert diese Achse mit der Hauptachse (PC1) des Rollenrepräsentationsraums bei einem Kosinus von 0,972 und erklärt 52,6 % ihrer Varianz, was darauf hindeutet, dass Granularität die dominante geometrische Achse ist, die die angeregten sozialen Rollen organisiert. Wir konstruieren 75 soziale Rollen über fünf Granularitätsebenen hinweg und sammeln 91.200 rollenkonditionierte Antworten auf gemeinsame Fragen und Prompt-Varianten, extrahieren dann Hidden States auf Rollenebene und projizieren sie auf die Achse. Die Rollenprojektionen steigen monoton über alle fünf Ebenen an, bleiben stabil über Layer, Prompt-Varianten, Endpunktdefinitionen, Hold-out-Aufteilungen und score-gefilterte Teilmengen hinweg und übertragen sich auf Llama-3.1-8B-Instruct. Die Achse ist auch kausal relevant: Aktivierungssteuerung entlang der Achse verschiebt die Antwortgranularität in die vorhergesagte Richtung; Llama bewegt sich von 2,00 auf 3,17 auf einer Fünf-Punkte-Makroskala unter positiver Steuerung bei Prompts, die lokale Antworten zulassen. Die beiden Modelle unterscheiden sich in der Steuerbarkeit, was darauf hindeutet, dass die Steuerung vom jeweiligen Standardbetriebsregime des Modells abhängt. Insgesamt legen unsere Ergebnisse nahe, dass soziale Rollengranularität nicht nur ein stilistisches Oberflächenmerkmal ist, sondern eine strukturierte, geordnete und kausal manipulierbare latente Richtung im rollenkonditionierten Verhalten von Sprachmodellen.

23

EMO: Vortraining von Mixture of Experts für emergente Modularität
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

Große Sprachmodelle werden typischerweise als monolithische Systeme eingesetzt, die das vollständige Modell erfordern, selbst wenn Anwendungen nur einen begrenzten Teil der Fähigkeiten benötigen, z. B. Code, Mathematik oder domänenspezifisches Wissen. Mixture-of-Experts-Modelle (MoEs) scheinen eine mögliche Alternative zu bieten, indem sie nur eine Teilmenge von Experten pro Eingabe aktivieren. In der Praxis führt die Beschränkung der Inferenz auf eine Teilmenge von Experten für eine bestimmte Domäne jedoch zu erheblichen Leistungseinbußen. Dies schränkt ihre Praxistauglichkeit in speicherbeschränkten Umgebungen ein, insbesondere da Modelle größer und spärlicher werden. Wir stellen EMO vor, ein MoE, das für Modularität – die unabhängige Nutzung und Zusammensetzung von Expertenteilmengen – konzipiert ist, ohne dass menschlich definierte Priors erforderlich sind. Unser zentraler Ansatz ist es, Token aus ähnlichen Domänen dazu zu bringen, sich auf ähnliche Experten zu stützen. Da Token innerhalb eines Dokuments oft eine Domäne teilen, schränkt EMO sie darauf ein, Experten aus einem gemeinsamen Pool auszuwählen, während unterschiedliche Dokumente unterschiedliche Pools nutzen können. Diese einfache Beschränkung ermöglicht es, dass während des Pretrainings kohärente Expertengruppierungen allein auf Basis von Dokumentgrenzen entstehen. Wir pretrainieren ein EMO mit 1B aktiven und 14B gesamten Parametern auf 1T Token. Als vollständiges Modell erreicht es die Leistung standardmäßiger MoEs. Entscheidend ist, dass es die selektive Expertennutzung ermöglicht: Das Beibehalten von nur 25 % (12,5 %) der Experten führt lediglich zu einem absoluten Leistungsabfall von 1 % (3 %), während Standard-MoEs unter denselben Bedingungen versagen. Weiterhin stellen wir fest, dass sich Expertenteilmengen in EMO auf semantischer Ebene (z. B. Domänen wie Mathematik oder Code) spezialisieren, im Gegensatz zur syntaktischen Spezialisierung auf niedriger Ebene, die in Standard-MoEs beobachtet wird. Insgesamt zeigen unsere Ergebnisse einen Weg zur modularen, speichereffizienten Bereitstellung großer, spärlicher Modelle auf und eröffnen neue Möglichkeiten für zusammensetzbare Architekturen.

24

Präskriptive Skalierungsgesetze für datenbeschränktes Training
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

Der Trainingsrechenbedarf übersteigt zunehmend die Verfügbarkeit hochwertiger Daten. Dies verlagert die zentrale Herausforderung von der optimalen Rechenleistungszuweisung hin zur Maximierung des Nutzens begrenzter Daten. Das weit verbreitete Chinchilla-Skalierungsgesetz geht davon aus, dass jedes Trainings-Token einzigartig ist. Dies schränkt seine Fähigkeit ein, Vor-Trainings-Entscheidungen in datenbegrenzten Regimen zu leiten. Wir modellieren den überschüssigen Verlust bei Wiederholung mit einer einfachen additiven Überanpassungsstrafe und stellen fest, dass dies das Modellverhalten genau beschreibt. Unser Skalierungsgesetz liefert qualitativ neue Ratschläge für eine rechenoptimalen Zuordnung. Über einen bestimmten Punkt hinaus sind weitere Wiederholungen kontraproduktiv, und Rechenleistung sollte besser für Modellkapazität aufgewendet werden. Wir zeigen, dass die Befolgung der von unserem Gesetz empfohlenen Konfiguration die Leistung in datenbegrenzten Regimen verbessert. Da unsere Ein-Parameter-Form die Überanpassung in einem einzelnen Koeffizienten isoliert, ermöglicht sie schließlich den direkten Vergleich verschiedener Trainingskonfigurationen. In einer Fallstudie zeigen wir, dass starke Weight Decay (λ=1,0) diesen Koeffizienten um etwa 70 % reduziert, was eine Skalierungsgesetz-Erklärung für jüngste Erkenntnisse liefert, dass optimale Weight Decay in datenbegrenzten Regimen eine Größenordnung über der Standardpraxis liegt.

25

KernelBench-X: Ein umfassender Benchmark zur Bewertung von LLM-generierten GPU-Kerneln
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

Die auf LLM basierende Triton-Kernel-Generierung hat erhebliches Interesse geweckt, doch eine grundlegende empirische Frage bleibt unbeantwortet: An welcher Stelle versagt diese Fähigkeit und warum? Wir stellen KernelBench-X vor, einen Benchmark, der diese Frage durch kategoriebewusste Auswertung von Korrektheit und Hardware-Effizienz über 176 Aufgaben in 15 Kategorien beantworten soll. Unser systematischer Vergleich von fünf repräsentativen Methoden ergibt drei Haupterkenntnisse. Erstens bestimmt die Aufgabenstruktur die Korrektheit stärker als das Methodendesign. Die Kategorie erklärt fast dreimal mehr Varianz in der semantischen Korrektheit als die Methode (9,4 % vs. 3,3 % erklärte Abweichung), und 72 % der Fusionsaufgaben scheitern bei allen fünf Methoden, während mathematische Aufgaben konsistent gelöst werden. Zweitens verbessert iterative Verfeinerung die Korrektheit, aber nicht die Leistung. Über GEAK-Iterationen hinweg steigt die Kompilierungsrate von 52,3 % auf 68,8 %, während die durchschnittliche Beschleunigung von 1,58-fach auf 1,44-fach sinkt; neu gerettete Kernel schneiden durchweg schlechter ab als durchgängig korrekte (1,16-fach vs. 1,58-fach Beschleunigung in Runde~0bis1). Drittens impliziert Korrektheit keine Effizienz. 46,6 % der korrekten Kernel sind langsamer als die PyTorch-Eager-Baseline, und die Beschleunigungsvarianz über verschiedene Hardware hinweg erreicht das 21,4-fache. Darüber hinaus bleibt Quantisierung völlig ungelöst (0/30 Erfolge) trotz nicht trivialer Kompilierungsraten, was ein systematisches Missverständnis numerischer Berechnungsvorgaben anstelle oberflächlicher Syntaxfehler offenbart. Diese Erkenntnisse legen nahe, dass künftige Fortschritte von der Bewältigung globaler Koordination, der expliziten Modellierung numerischer Präzision und der Einbeziehung von Hardware-Effizienz in die Generierung abhängen. Der Code ist verfügbar unter https://github.com/BonnieW05/KernelBenchX.

26

Ausgewogene Aggregation: Verständnis und Behebung von Aggregationsverzerrungen in GRPO
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich zu einem zentralen Paradigma für die Verbesserung des logischen Denkens und der Codegenerierung in großen Sprachmodellen entwickelt, wobei GRPO-artiges Training aufgrund seiner Einfachheit und Effektivität weit verbreitet ist. Eine wichtige, jedoch kaum untersuchte Designentscheidung bleibt jedoch: wie tokenweise Policy-Gradient-Terme innerhalb jeder Stichprobengruppe aggregiert werden. Standard-GRPO verwendet Sequenzaggregation, während neuere Arbeiten Tokenaggregation als bessere Alternative vorschlagen. Wir zeigen, dass diese beiden Regeln unterschiedliche Optimierungsverzerrungen hervorrufen: Tokenaggregation führt zu einer Sign-Längen-Kopplung, während Sequenzaggregation längere Antworten durch gleichgewichtete Sequenzbewertung implizit abwertet. Um diesen Zielkonflikt zu lösen, schlagen wir Balanced Aggregation (BA) vor, einen einfachen, direkt austauschbaren Ansatz, der tokenweise Mittelwerte separat innerhalb der positiven und negativen Teilmengen berechnet und diese dann mit gewichteten Sequenzanzahlen kombiniert. Experimente mit Qwen2.5-Math-7B und Qwen3-1.7B auf DAPO-17k und Polaris, bewertet anhand von sechs Benchmarks für logisches Denken und Programmieren, zeigen, dass BA die Trainingsstabilität und Endleistung im Vergleich zu standardmäßiger Token- und Sequenzaggregation konsequent verbessert. Unsere Analyse zeigt weiterhin, dass die relative Wirksamkeit von Token- und Sequenzaggregation maßgeblich durch die Antwortlängenvarianz und die Längendifferenz zwischen positiven und negativen Beispielen bestimmt wird, was die Aggregation als kritische Designdimension in GRPO-artigem RLVR hervorhebt.

27

Die Skalierungseigenschaften impliziten deduktiven Schließens in Transformer-Modellen
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

Wir untersuchen die Skalierungseigenschaften von implizitem deduktivem Schließen über Horn-Klauseln in Tiefen-beschränkten Transformatoren. Durch systematische Dekorrelation von Beweisbarkeit von Störmerkmalen und Erzwingung von algorithmischer Ausrichtung finden wir, dass in hinreichend tiefen Modellen mit einer bidirektionalen Präfixmaske implizites Schließen die Leistung von explizitem Chain-of-Thought (CoT) über verschiedene Graphentopologien und Problembreiten hinweg annähert, obwohl CoT für Tiefenextrapolation weiterhin notwendig bleibt.

28

GeoStack: Ein Framework für quasi-abelsche Wissenskomposition in VLMs
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

Wir behandeln das Problem der Wissenskomposition in Vision-Language-Modellen (VLMs), bei dem die Akkumulation von Expertise über mehrere Domänen oder Aufgaben typischerweise zu katastrophalem Vergessen führt. Wir stellen GeoStack (Geometric Stacking) vor, einen modularen Rahmen, der es ermöglicht, unabhängig voneinander trainierte Domain-Experten zu einem einheitlichen Modell zu kombinieren. Durch die Auferlegung geometrischer und struktureller Beschränkungen auf die Adapter-Mannigfaltigkeit stellt GeoStack sicher, dass das Grundlagenwissen des Basismodells erhalten bleibt. Darüber hinaus demonstrieren wir mathematisch eine Gewichtsfaltungseigenschaft, die eine konstante Inferenzkomplexität (O(1)) erreicht, unabhängig von der Anzahl der integrierten Experten. Experimentelle Ergebnisse in den Bereichen Multi-Domain-Adaption und klassenzuwachsenden Lernens zeigen, dass GeoStack einen effizienten Mechanismus für langfristige Wissenskomposition bereitstellt und gleichzeitig katastrophales Vergessen signifikant mindert. Der Code ist verfügbar unter https://github.com/QuantitativeImagingLaboratory/GeoStack.

29

Wenn es keinen Vergleichsmaßstab gibt: Validierung vergleichender LLM-Sicherheitsbewertungen ohne Ground-Truth-Labels
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

Viele Einsätze müssen die Sicherheit von Kandidaten für Sprachmodelle vergleichen, bevor ein gelabelter Benchmark für die relevante Sprache, den Sektor oder das regulatorische Rahmenwerk existiert. Wir formalisieren diese Situation als vergleichende Sicherheitsbewertung ohne Benchmark und spezifizieren den Vertrag, unter dem ein szenariobasierter Audit als Einsatznachweis interpretiert werden kann. Die Bewertungen sind nur unter einem festen Szenarienpaket, Bewertungsschema, Auditor, Judge, Sampling-Konfiguration und Rerun-Budget gültig. Da keine Labels verfügbar sind, ersetzen wir die Übereinstimmung mit dem Ground-Truth durch eine Kette instrumenteller Validität: Ansprechen auf einen kontrollierten Safe-versus-Abliterated-Kontrast, Dominanz der zielgetriebenen Varianz über Artefakte des Auditors und Judges sowie Stabilität über Reruns hinweg. Wir instanziieren diese Kette in SimpleAudit, einem lokal-first Bewertungsinstrument, und validieren es an einem norwegischen Sicherheitspaket. Sichere und abliterierte Ziele trennen sich mit AUROC-Werten zwischen 0,89 und 1,00, die Zielidentität ist die dominante Varianzkomponente (η² ≈ 0,52), und die Schwereprofile stabilisieren sich nach zehn Reruns. Die Anwendung derselben Kette auf Petri zeigt, dass sie beide Werkzeuge zulässt. Die wesentlichen Unterschiede entstehen vorgelagert zur Kette, in der Durchsetzung von Anspruch-Vertrag und der Einsatztauglichkeit. Ein norwegischer Beschaffungsfall im öffentlichen Sektor, der Borealis und Gemma 3 vergleicht, demonstriert die resultierenden Nachweise in der Praxis: Das sicherere Modell hängt von der Szenarienkategorie und dem Risikomaß ab. Folglich müssen Bewertungen, gepaarte Deltas, kritische Raten, Unsicherheit sowie die verwendeten Auditor und Judge gemeinsam berichtet werden, anstatt in einer einzigen Rangfolge zusammengefasst zu werden.

30

Generativer Quanteninspirierter Kolmogorov-Arnold-Eigenlöser
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

Hochleistungsrechnen (HPC) gewinnt zunehmend an Bedeutung für skalierbare Quantenchemie-Workflows, die klassische generative Modelle, Quantenschaltkreissimulationen und ausgewählte Konfigurationswechselwirkungs-Nachverarbeitung koppeln. Wir stellen den generativen quanteninspirierten Kolmogorov-Arnold-Eigenlöser (GQKAE) vor, eine parameter-effiziente Erweiterung des generativen Quanten-Eigenlösers (GQE) für die Quantenchemie. GQKAE ersetzt die parameterintensiven Feedforward-Netzwerk-Komponenten in GPT-artigen generativen Eigenlösern durch hybride quanteninspirierte Kolmogorov-Arnold-Netzwerk-Module und bildet so eine kompakte HQKANsformer-Backbone-Struktur. Die Methode bewahrt die autoregressive Operatorauswahl und die Pipeline zur Auswertung der quantenselektierten Konfigurationswechselwirkung, verwendet jedoch Single-Qubit-DatA-Re-Uploading-ActivatioN-Module, um ausdrucksstarke nichtlineare Abbildungen bereitzustellen. Numerische Benchmarks für H4, N2, LiH, C2H6, H2O und das H2O-Dimer zeigen, dass GQKAE eine mit der GPT-basierten GQE-Architektur vergleichbare chemische Genauigkeit erreicht, während trainierbare Parameter und Speicherbedarf um etwa 66 % reduziert und die Echtzeit-Performance verbessert werden. Für stark korrelierte Systeme wie N2 und LiH verbessert GQKAE zudem das Konvergenzverhalten und die finalen Energieabweichungen. Diese Ergebnisse deuten darauf hin, dass quanteninspirierte Kolmogorov-Arnold-Netzwerke den klassischen Seiten-Overhead reduzieren können, während die Qualität der Schaltkreiserzeugung erhalten bleibt, und bieten einen skalierbaren Weg für HPC-Quanten-Co-Design auf kurz- bis mittelfristigen Quantenplattformen.

31

Denken, dann Bewerten: Entkoppeltes Schließen und Bewerten für Video-Belohnungsmodellierung
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

Jüngste Fortschritte bei generativen Videomodellen werden zunehmend durch Post-Training und Skalierung zur Testzeit vorangetrieben, die beide entscheidend von der Qualität von Video-Belohnungsmodellen (RMs) abhängen. Ein ideales Belohnungsmodell sollte präzise Belohnungen vorhersagen, die mit menschlichen Präferenzen in verschiedenen Szenarien übereinstimmen. Bisherige Paradigmen stehen jedoch vor einem grundlegenden Dilemma: Diskriminative RMs regressieren Belohnungen direkt auf Merkmalen, die durch multimodale große Sprachmodelle (MLLMs) extrahiert werden, ohne explizite Schlussfolgerungen, was sie anfällig für Shortcut-Learning macht und sie stark auf massive Datenskalen für Generalisierung angewiesen sein lässt. Im Gegensatz dazu zeigen generative RMs mit Chain-of-Thought (CoT)-Reasoning eine überlegene Interpretierbarkeit und Generalisierungsfähigkeit, da sie feinkörnige semantische Überwachung nutzen, um die zugrundeliegenden Rationalitäten menschlicher Präferenzen zu internalisieren. Allerdings leiden sie unter inhärenten Optimierungsengpässen aufgrund der Kopplung von Reasoning und Bewertung innerhalb einer einzelnen autoregressiven Inferenzkette. Um die Generalisierungsvorteile von CoT-Reasoning zu nutzen und gleichzeitig die Trainingsinstabilität der gekoppelten Bewertung zu mildern, führen wir DeScore ein, ein trainningseffizientes und generalisierbares Video-Belohnungsmodell. DeScore verwendet ein entkoppeltes „Think-then-Score“-Paradigma: Ein MLLM generiert zunächst einen expliziten CoT, gefolgt von einem dedizierten diskriminativen Bewertungsmodul, das aus einem lernbaren Abfragetoken und einem Regressionskopf besteht, der die endgültige Belohnung vorhersagt. DeScore wird über einen zweistufigen Rahmen optimiert: (1) ein diskriminativer Kaltstart, der einen zufälligen Maskierungsmechanismus integriert, um robuste Bewertungsfähigkeiten sicherzustellen, und (2) eine Reinforcement-Learning-Phase mit zwei Zielen, die unabhängig die CoT-Reasoning-Qualität verfeinert und die endgültige Belohnung kalibriert, um sicherzustellen, dass höhere Reasoning-Qualität direkt zu besserer Modellleistung führt.

32

Wiederherstellung versteckter Belohnungen in diffusionsbasierten Politiken
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

Dieses Paper stellt EnergyFlow vor, einen Rahmen, der generative Aktionsmodellierung mit inversem bestärkendem Lernen vereint, indem eine skalare Energie-Funktion parametrisiert wird, deren Gradient das Denoising-Feld darstellt. Wir zeigen, dass unter Maximum-Entropy-Optimalität die durch Denoising Score Matching gelernte Score-Funktion den Gradienten der soft Q-Funktion des Experten rekonstruiert, was eine Belohnungsextraktion ohne adversarielles Training ermöglicht. Formal beweisen wir, dass die Einschränkung des gelernten Feldes auf konservative Felder die Hypothesenkomplexität reduziert und Generalisierungsgrenzen für Out-of-Distribution-Daten verschärft. Wir charakterisieren weiterhin die Identifizierbarkeit der rekonstruierten Belohnungen und grenzen ab, wie Schätzfehler der Scores sich auf Aktionspräferenzen auswirken. Empirisch erreicht EnergyFlow state-of-the-art Imitationsleistung in verschiedenen Manipulationsaufgaben und liefert gleichzeitig ein effektives Belohnungssignal für nachgelagertes bestärkendes Lernen, das sowohl adversarielle IRL-Methoden als auch likelihood-basierte Alternativen übertrifft. Diese Ergebnisse zeigen, dass die strukturellen Zwänge für valide Belohnungsextraktion gleichzeitig vorteilhafte induktive Verzerrungen für Policy-Generalisierung darstellen. Der Code ist verfügbar unter https://github.com/sotaagi/EnergyFlow.

33

Sparkle: Realisierung lebendiger, instruktionsgesteuerter Videohintergrundersetzung durch entkoppelte Steuerung
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

In den letzten Jahren haben Open-Source-Initiativen wie Senorita-2M die Videobearbeitung in Richtung natürlicher Sprachsteuerung vorangetrieben. Allerdings konzentrieren sich aktuell öffentlich verfügbare Datensätze überwiegend auf lokale Bearbeitung oder Stiltransfer, die größtenteils die ursprüngliche Szenenstruktur beibehalten und einfacher zu skalieren sind. Im Gegensatz dazu erfordert der Hintergundaustausch – eine zentrale Aufgabe für kreative Anwendungen wie Filmproduktion und Werbung – die Synthese völlig neuer, zeitlich konsistenter Szenen bei gleichzeitiger Beibehaltung genauer Vordergrund-Hintergrund-Interaktionen, was die großskalige Datengenerierung erheblich schwieriger macht. Folglich bleibt diese komplexe Aufgabe aufgrund eines Mangels an hochwertigen Trainingsdaten weitgehend unerforscht. Diese Lücke zeigt sich in leistungsschwachen State-of-the-Art-Modellen, z.B. Kiwi-Edit, da der primäre Open-Source-Datensatz, der diese Aufgabe enthält (OpenVE-3M), häufig statische, unnatürliche Hintergründe erzeugt. In diesem Artikel führen wir diese Qualitätsverschlechterung auf fehlende präzise Hintergrundführung während der Datensynthese zurück. Dementsprechend entwickeln wir eine skalierbare Pipeline, die Vordergrund- und Hintergrundführung auf entkoppelte Weise mit strenger Qualitätsfilterung generiert. Aufbauend auf dieser Pipeline stellen wir Sparkle vor, einen Datensatz mit ~140.000 Videopaaren aus fünf häufigen Hintergrundwechsel-Themen, sowie Sparkle-Bench, den bisher größten Evaluierungsmaßstab für Hintergundaustausch. Experimente zeigen, dass unser Datensatz und das darauf trainierte Modell auf sowohl OpenVE-Bench als auch Sparkle-Bench deutlich bessere Leistung erzielen als alle existierenden Baseline-Modelle. Unser vorgeschlagener Datensatz, Benchmark und Modell sind vollständig quelloffen unter https://showlab.github.io/Sparkle/ verfügbar.

34

Machen wir Fortschritte in der multimodalen Domänenverallgemeinerung? Eine umfassende Benchmark-Studie
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

Trotz der wachsenden Beliebtheit von multimodaler Domänenverallgemeinerung (MMDG) zur Verbesserung der Modellrobustheit bleibt unklar, ob die berichteten Leistungssteigerungen echten algorithmischen Fortschritt widerspiegeln oder lediglich Artefakte inkonsistenter Evaluierungsprotokolle sind. Die aktuelle Forschung ist fragmentiert, wobei sich Studien erheblich in Bezug auf Datensätze, Modalitätskonfigurationen und experimentelle Settings unterscheiden. Darüber hinaus konzentrieren sich bestehende Benchmarks überwiegend auf Aktionserkennung und vernachlässigen oft kritische reale Herausforderungen wie Eingabekorruption, fehlende Modalitäten und Modellvertrauenswürdigkeit. Dieser Mangel an Standardisierung verhindert eine zuverlässige Bewertung des Fortschritts in diesem Forschungsgebiet. Um dieses Problem zu adressieren, stellen wir MMDG-Bench vor, den ersten einheitlichen und umfassenden Benchmark für MMDG, der die Evaluation über sechs Datensätze hinweg standardisiert, die drei verschiedene Aufgaben abdecken: Aktionserkennung, mechanische Fehlerdiagnose und Stimmungsanalyse. MMDG-Bench umfasst sechs Modalitätskombinationen, neun repräsentative Methoden und mehrere Evaluierungssettings. Über die Standardgenauigkeit hinaus bewertet es systematisch die Robustheit gegenüber Korruption, die Verallgemeinerungsfähigkeit bei fehlenden Modalitäten, die Fehlklassifikationserkennung und die Out-of-Distribution-Erkennung. Mit insgesamt 7.402 trainierten neuronalen Netzen über 95 einzigartige domänenübergreifende Aufgaben hinweg liefert MMDG-Bench fünf zentrale Erkenntnisse: (1) Unter fairen Vergleichsbedingungen bieten neuere spezialisierte MMDG-Methoden nur marginale Verbesserungen gegenüber der ERM-Baseline; (2) keine einzelne Methode schnegt durchgängig besser ab als andere über Datensätze oder Modalitätskombinationen hinweg; (3) eine erhebliche Lücke zur oberen Leistungsgrenze bleibt bestehen, was darauf hindeutet, dass MMDG noch lange nicht gelöst ist; (4) trimodale Fusion übertrifft nicht konsistent die stärksten bimodalen Konfigurationen; und (5) alle evaluierten Methoden zeigen eine signifikante Verschlechterung unter Korruptions- und Szenarien mit fehlenden Modalitäten, wobei einige Methoden zudem die Modellvertrauenswürdigkeit beeinträchtigen.

35

EDU-CIRCUIT-HW: Evaluierung multimodaler großer Sprachmodelle anhand realer handschriftlicher Lösungen von Studierenden in MINT-Fächern auf Universitätsniveau
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

Multimodale Large Language Models (MLLMs) bergen ein erhebliches Potenzial, um das traditionelle Bildungswesen zu revolutionieren und die Arbeitsbelastung von Lehrkräften zu verringern. Die genaue Interpretation unstrukturierter, handschriftlicher MINT-Lösungen von Studierenden, die mathematische Formeln, Diagramme und textuelle Begründungen miteinander verweben, stellt jedoch eine erhebliche Herausforderung dar, da es an authentischen, domänenspezifischen Benchmarks mangelt. Zudem stützen sich aktuelle Evaluierungsparadigmen überwiegend auf die Ergebnisse nachgelagerter Aufgaben (z.B. automatische Bewertung), die oft nur einen Teil der erkannten Inhalte abfragen und somit das Verständnis der MLLMs für die komplexe handschriftliche Logik als Ganzes nicht erfassen. Um diese Lücke zu schließen, veröffentlichen wir EDU-CIRCUIT-HW, einen Datensatz mit über 1.300 authentischen, handschriftlichen Studierendenlösungen aus einer MINT-Lehrveranstaltung auf Universitätsniveau. Unter Verwendung von expertengeprüften, wortgetreuen Transkriptionen und Bewertungsberichten der Studierendenlösungen evaluieren wir gleichzeitig die Erfassungsgenauigkeit (Upstream) verschiedener MLLMs und ihre Leistung bei der automatischen Bewertung (Downstream). Unsere Auswertung deckt ein erstaunliches Ausmaß latenter Fehler in den von MLLMs erkannten handschriftlichen Inhalten auf und unterstreicht die unzureichende Zuverlässigkeit der Modelle für automatische Bewertungen und andere verständnisorientierte Anwendungen in hochriskanten Bildungskontexten. Als mögliche Lösung präsentieren wir eine Fallstudie, die zeigt, dass die präemptive Erkennung und Korrektur von Erfassungsfehlern auf Basis identifizierter Fehlermuster – bei nur minimalem menschlichem Eingriff (z.B. Weiterleitung von 3,3 % der Aufgaben an menschliche Prüfer und des Rests an den GPT-5.1-Bewerter) – die Robustheit des eingesetzten KI-gestützten Bewertungssystems wirksam steigern kann. Code und Datensatz sind in diesem GitHub-Repo verfügbar: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

36

PianoCoRe: Kombinierter und verfeinerter Piano-MIDI-Datensatz
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

Symbolische Musikdatensätze mit übereinstimmenden Partituren und Aufführungen sind für viele Aufgaben der Musikinformationsgewinnung (MIR) unerlässlich. Bisherige Ressourcen decken jedoch oft nur einen engen Komponistenkreis ab, weisen eine geringe Aufführungsvielfalt auf, verzichten auf Noten-für-Noten-Zuordnungen oder verwenden inkonsistente Namensformate. Diese Arbeit stellt PianoCoRe vor, einen groß angelegten Klavier-MIDI-Datensatz, der wichtige Open-Source-Klavierkorpora vereinheitlicht und verfeinert. Der Datensatz umfasst 250.046 Aufführungen von 5.625 Stücken, komponiert von 483 Komponisten, mit insgesamt 21.763 Stunden aufgeführter Musik. PianoCoRe wird in abgestuften Teilmengen veröffentlicht, um verschiedene Anwendungen zu unterstützen: von groß angelegten Analysen und Vorverarbeitung (PianoCoRe-C und dedupliziertes PianoCoRe-B) bis hin zur Modellierung expressiver Aufführungen mit Noten-für-Noten-Partituralignment (PianoCoRe-A/A*). Die notenbezogene Teilmenge PianoCoRe-A bietet mit 157.207 Aufführungen, die 1.591 Partituren zugeordnet sind, die bislang größte Open-Source-Sammlung dieser Art. Neben dem Datensatz bestehen die Beiträge aus: (1) einem MIDI-Qualitätsklassifikator zur Erkennung fehlerhafter und partiturähnlicher Transkriptionen und (2) RAScoP, einer Pipeline zur Verfeinerung von Alignments, die zeitliche Zuordnungsfehler bereinigt und fehlende Noten interpoliert. Die Analyse zeigt, dass die Verfeinerung zeitliches Rauschen reduziert und Tempo-Ausreißer eliminiert. Darüber hinaus weist ein auf PianoCoRe trainierter Modell zur Erzeugung expressiver Aufführungen eine verbesserte Robustheit gegenüber unbekannten Stücken auf, verglichen mit Modellen, die auf Rohdaten oder kleineren Datensätzen trainiert wurden. PianoCoRe bietet eine sofort einsetzbare Grundlage für die nächste Generation der Forschung zu expressiver Klavieraufführung.

37

BioTool: Ein umfassendes Tool-Aufruf-Datenset zur Verbesserung der biomedizinischen Fähigkeiten von Large Language Models
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

Trotz der Erfolge großer Sprachmodelle (LLMs) bei allgemeinen Aufgaben bleibt ihre Leistung in hochspezialisierten Domänen wie der Biomedizin unbefriedigend. Eine wesentliche Einschränkung ist die Unfähigkeit von LLMs, biomedizinische Werkzeuge effektiv zu nutzen, auf die klinische Experten und biomedizinische Forscher in ihren täglichen Arbeitsabläufen umfassend angewiesen sind. Während neuere Tool-Calling-Datensätze aus dem Allgemeinbereich die Fähigkeiten von LLM-Agenten erheblich verbessert haben, stützen sich bestehende Bemühungen im biomedizinischen Bereich weitgehend auf In-Context-Learning und beschränken Modelle auf eine kleine Auswahl an Werkzeugen. Um diese Lücke zu schließen, stellen wir BioTool vor, einen umfassenden biomedizinischen Tool-Calling-Datensatz, der für das Fine-Tuning von LLMs konzipiert ist. BioTool umfasst 34 häufig genutzte Werkzeuge, die aus den Datenbanken NCBI, Ensembl und UniProt zusammengestellt wurden, sowie 7.040 hochwertige, menschlich verifizierte Abfrage-API-Aufruf-Paare, die die Bereiche Variation, Genomik, Proteomik, Evolution und allgemeine Biologie abdecken. Das Fine-Tuning eines LLM mit 4 Milliarden Parametern auf BioTool führt zu erheblichen Verbesserungen der biomedizinischen Tool-Calling-Leistung und übertrifft dabei modernste kommerzielle LLMs wie GPT-5.1. Darüber hinaus zeigen Bewertungen durch menschliche Experten, dass die Integration eines auf BioTool feinabgestimmten Tool-Callers die Qualität nachgelagerter Antworten im Vergleich zum gleichen LLM ohne Werkzeugnutzung signifikant verbessert, was die Wirksamkeit von BioTool zur Steigerung der biomedizinischen Fähigkeiten von LLMs unterstreicht. Der vollständige Datensatz und der Evaluierungscode sind unter https://github.com/gxx27/BioTool verfügbar.

38

TIDE: Jede Ebene kennt den Token unterhalb des Kontexts
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

Wir hinterfragen eine allgemein akzeptierte, aber kaum untersuchte Designentscheidung in jedem modernen LLM: Ein Token-Index wird einmal in der Eingabe-Einbettungsschicht nachgeschlagen und dann dauerhaft verworfen. Diese Annahme einer einmaligen Injektion führt zu zwei strukturellen Problemen: (i) das Problem seltener Tokens, bei dem eine Zipf-verteilte Vokabularhäufigkeit dazu führt, dass Einbettungen seltener Tokens chronisch untertrainiert sind, da sie nur einen Bruchteil des kumulativen Gradientensignals im Vergleich zu häufigen Tokens erhalten; und (ii) das Problem des kontextuellen Kollapses, bei dem Modelle mit begrenzten Parametern distributionell ähnliche Tokens auf ununterscheidbare versteckte Zustände abbilden. Als Lösungsansatz für beide Probleme schlagen wir TIDE vor, das den Standard-Transformer um ein EmbeddingMemory erweitert: ein Ensemble von K unabhängigen MemoryBlocks, die Token-Indizes auf kontextfreie semantische Vektoren abbilden. Diese werden einmal berechnet und durch einen tiefenabhängigen Softmax-Router mit einer lernbaren Null-Instanz in jede Schicht injiziert. Wir belegen theoretisch und empirisch die Vorteile von TIDE bei der Lösung der Probleme, die mit der einmaligen Token-Identitätsinjektion verbunden sind, sowie die Leistungsverbesserung in mehreren Sprachmodellierungs- und Downstream-Aufgaben.

May 7
May 8