ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

1

Seedance 2.0: Fortschritte in der Videogenerierung für die Komplexität der Welt
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0 ist ein neues natives multimodales Audio-Video-Generierungsmodell, das Anfang Februar 2026 offiziell in China veröffentlicht wurde. Im Vergleich zu seinen Vorgängern Seedance 1.0 und 1.5 Pro nutzt Seedance 2.0 eine vereinheitlichte, hocheffiziente und groß angelegte Architektur für die gemeinsame multimodale Audio-Video-Generierung. Dies ermöglicht die Unterstützung von vier Eingabemodalitäten: Text, Bild, Audio und Video, indem es eine der bislang umfassendsten Suiten an multimodalen Referenz- und Bearbeitungsfunktionen in der Branche integriert. Das Modell verzeichnet erhebliche, umfassende Verbesserungen in allen wichtigen Teilbereichen der Video- und Audiogenerierung. Sowohl in Expertenbewertungen als auch in öffentlichen Nutzertests hat es eine Leistung gezeigt, die mit den führenden Standards in diesem Bereich vergleichbar ist. Seedance 2.0 unterstützt die direkte Generierung von Audio-Video-Inhalten mit einer Dauer von 4 bis 15 Sekunden und nativen Ausgabeauflösungen von 480p und 720p. Für multimodale Eingaben als Referenz unterstützt die derzeitige offene Plattform bis zu 3 Videoclips, 9 Bilder und 3 Audioclips. Zusätzlich bieten wir Seedance 2.0 Fast an, eine beschleunigte Variante von Seedance 2.0, die für Szenarien mit geringer Latenz entwickelt wurde, um die Generierungsgeschwindigkeit zu erhöhen. Seedance 2.0 hat erhebliche Verbesserungen bei seinen grundlegenden Generierungsfähigkeiten und der multimodalen Generierungsleistung erbracht und bietet Endnutzern somit ein verbessertes kreatives Erlebnis.

2

GameWorld: Auf dem Weg zu standardisierter und verifizierbarer Evaluation multimodaler Spielagenten
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

Auf dem Weg zu einem verkörperlichten Generalisten für reale Interaktionen leiden Multimodal Large Language Model (MLLM)-Agenten nach wie vor unter problematischer Latenz, spärlichem Feedback und irreversiblen Fehlern. Videospiele bieten eine ideale Testumgebung mit reichhaltigen visuellen Beobachtungen und geschlossenen Interaktionsschleifen, die feinkörnige Wahrnehmung, langfristige Planung und präzise Steuerung erfordern. Die systematische Evaluierung dieser Fähigkeiten wird jedoch derzeit durch heterogene Aktionsschnittstellen und heuristische Verifikation behindert. Zu diesem Zweck stellen wir GameWorld vor, einen Benchmark, der für eine standardisierte und verifizierbare Bewertung von MLLMs als generalistische Spielagenten in Browserumgebungen konzipiert ist. Es werden zwei Arten von Spielagenten-Schnittstellen untersucht: (i) Computer-Use-Agenten, die direkt Tastatur- und Maussteuerungsbefehle emittieren, und (ii) generalistische multimodale Agenten, die in einem semantischen Aktionsraum über deterministisches Semantic Action Parsing agieren. GameWorld umfasst 34 verschiedene Spiele und 170 Aufgaben, die jeweils mit zustandsverifizierbaren Metriken für eine ergebnisbasierte Evaluierung gepaart sind. Die Ergebnisse über 18 Modell-Schnittstellen-Paare hinweg deuten darauf hin, dass selbst der leistungsstärkste Agent weit davon entfernt ist, menschliche Fähigkeiten in Videospielen zu erreichen. Umfangreiche Experimente mit wiederholten kompletten Benchmark-Durchläufen demonstrieren die Robustheit des Benchmarks, während weitere Untersuchungen zu Echtzeit-Interaktion, Kontext-Gedächtnis-Empfindlichkeit und Aktionsvalidität weitere Herausforderungen für Spielagenten aufzeigen. Indem GameWorld einen standardisierten, verifizierbaren und reproduzierbaren Evaluierungsrahmen bietet, legt es eine robuste Grundlage für die Weiterentwicklung der Forschung zu multimodalen Spielagenten und darüber hinaus. Die Projektseite ist unter https://gameworld-bench.github.io zu finden.

3

RationalRewards: Reasoning-Belohnungen skalieren die visuelle Generierung sowohl während des Trainings als auch zur Testzeit
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

Die meisten Belohnungsmodelle für die Bildgenerierung reduzieren reichhaltige menschliche Bewertungen auf einen einzelnen, unerklärten Score und verwerfen dabei die zugrundeliegende Präferenzbegründung. Wir zeigen, dass Belohnungsmodelle, die dazu angeleitet werden, explizite, multidimensionale Kritiken vor der Bewertung zu produzieren, sich von passiven Bewertern in aktive Optimierungswerkzeuge verwandeln und Generatoren auf zwei komplementäre Weisen verbessern: Zur Trainingszeit liefern strukturierte Begründungen interpretierbare, feingranulare Belohnungen für bestärkendes Lernen; zur Testzeit verwandelt eine Generate-Critique-Refine-Schleife Kritiken in gezielte Prompt-Revisionen, die Ergebnisse ohne Parameteraktualisierungen verbessern. Um ein solches Belohnungsmodell ohne kostspielige Annotierung von Begründungen zu trainieren, führen wir Preference-Anchored Rationalization (PARROT) ein, einen prinzipienbasierten Rahmen, der hochwertige Begründungen aus leicht verfügbaren Präferenzdaten durch verankerte Generierung, Konsistenzfilterung und Distillation gewinnt. Das resultierende Modell, RationalRewards (8B), erreicht state-of-the-art Präferenzvorhersage unter Open-Source-Belohnungsmodellen, vergleichbar mit Gemini-2.5-Pro, während es 10-20 mal weniger Trainingsdaten als vergleichbare Baseline-Modelle verwendet. Als RL-Belohnung verbessert es konsistent Text-zu-Bild- und Bildbearbeitungs-Generatoren über skalare Alternativen hinaus. Am bemerkenswertesten ist, dass seine Testzeit-Kritik-und-Verbesserungs-Schleife auf mehreren Benchmarks RL-basiertes Fine-Tuning übertrifft oder gleichauf liegt, was nahelegt, dass strukturiertes Reasoning latente Fähigkeiten in bestehenden Generatoren freisetzen kann, die suboptimale Prompts nicht zu aktivieren vermögen.

4

SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

Räumliches Schlussfolgern in dreidimensionalen Szenen ist eine Kernfähigkeit für verkörperte Intelligenz, doch kontinuierliche Modellverbesserungen werden durch die Kosten geometrischer Annotationen ausgebremst. Das selbst-evolvierende Paradigma bietet einen vielversprechenden Ansatz, seine Abhängigkeit von Modellkonsens zur Erstellung von Pseudo-Labels führt jedoch dazu, dass das Training die geometrischen Fehler des Modells verstärkt statt korrigiert. Wir identifizieren eine für 3D-räumliches Schlussfolgern einzigartige Eigenschaft, die diese Einschränkung umgeht: Ground Truth ist eine deterministische Konsequenz der zugrundeliegenden Geometrie und exakt aus Punktwolken und Kameraposen ohne Modellbeteiligung berechenbar. Auf dieser Erkenntnis aufbauend präsentieren wir SpatialEvo, einen selbst-evolvierenden Rahmen für 3D-räumliches Schlussfolgern, der auf der Deterministischen Geometrischen Umgebung (DGE) zentriert ist. Die DGE formalisiert 16 Aufgabenkategorien des räumlichen Schlussfolgerns unter expliziten geometrischen Validierungsregeln und wandelt unannotierte 3D-Szenen in interaktive Orakel ohne Rauschen um, die Modellkonsens durch objektive physikalische Rückmeldung ersetzen. Eine einzelne Shared-Parameter-Policy ko-evolviert unter DGE-Beschränkungen in Fragesteller- und Löser-Rollen: Der Fragesteller generiert physikalisch valide räumliche Fragen basierend auf Szenenbeobachtungen, während der Löser präzise Antworten gegen DGE-verifizierte Ground Truth ableitet. Ein aufgabenadaptiver Scheduler konzentriert das Training endogen auf die schwächsten Modellkategorien und erzeugt einen dynamischen Lehrplan ohne manuelles Design. Experimente über neun Benchmarks zeigen, dass SpatialEvo auf 3B- und 7B-Skalen die höchsten Durchschnittswerte erreicht, mit konsistenten Gewinnen auf räumlichen Reasoning-Benchmarks und ohne Verschlechterung beim allgemeinen visuellen Verständnis.

5

OccuBench: Bewertung von KI-Agenten anhand realer Berufsaufgaben mittels sprachbasierter Weltmodelle
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

KI-Agenten sollen professionelle Arbeiten in Hunderten von Berufsfeldern ausführen (von der Notaufnahmetriage über die Sicherheitsüberwachung von Kernreaktoren bis zur Zollabfertigung), doch bestehende Benchmarks können Agenten nur in den wenigen Domänen evaluieren, für die öffentliche Umgebungen existieren. Wir stellen OccuBench vor, einen Benchmark mit 100 realen beruflichen Aufgabenstellungen aus 10 Branchenkategorien und 65 Fachdomänen, ermöglicht durch Language World Models (LWMs), die domänenspezifische Umgebungen durch LLM-gesteuerte Tool-Response-Generierung simulieren. Unsere Multi-Agenten-Synthesepipeline erzeugt automatisch Evaluationsinstanzen mit garantierter Lösbarkeit, kalibrierter Schwierigkeit und dokumentengestützter Diversität. OccuBench evaluiert Agenten entlang zweier komplementärer Dimensionen: Aufgabenbewältigung über Berufsdomänen hinweg und Umweltrobustheit unter kontrollierter Fehlerinjektion (explizite Fehler, implizite Datenverschlechterung und gemischte Fehler). Wir evaluieren 15 Frontier-Modelle aus 8 Modellfamilien und finden heraus: (1) Kein einzelnes Modell dominiert alle Branchen, da jedes ein distinctes berufliches Fähigkeitsprofil aufweist; (2) implizite Fehler (abgeschnittene Daten, fehlende Felder) sind schwieriger als explizite Fehler (Timeouts, 500er) und gemischte Fehler, da sie keine offensichtlichen Fehlersignale bieten und der Agent Datenverschlechterung eigenständig erkennen muss; (3) größere Modelle, neuere Generationen und höherer Reasoning-Aufwand verbessern durchgängig die Leistung. GPT-5.2 verbessert sich um 27,5 Punkte von minimalem zu maximalem Reasoning-Aufwand; und (4) starke Agenten sind nicht notwendigerweise starke Umgebungssimulatoren. Die Simulatorqualität ist entscheidend für die Zuverlässigkeit LWM-basierter Evaluation. OccuBench bietet die erste systematische branchenübergreifende Evaluation von KI-Agenten für professionelle berufliche Aufgaben.

6

Von P(y|x) zu P(y): Untersuchung von Reinforcement Learning im Vortrainierungsraum
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

Während verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) das Reasoning von LLMs durch Optimierung der bedingten Verteilung P(y|x) erheblich verbessert, ist sein Potenzial grundlegend durch die bestehende Ausgabeverteilung des Basismodells begrenzt. Die Optimierung der marginalen Verteilung P(y) im Vortrainierungsraum adressiert diesen Engpass, indem sie Reasoning-Fähigkeiten kodiert und breite Explorationskapazitäten bewahrt. Dennoch stützt sich konventionelles Vortraining auf statische Korpora für passives Lernen, was zu einer Verteilungsverschiebung führt, die eine zielgerichtete Reasoning-Verbesserung behindert. In dieser Arbeit führen wir PreRL (Pre-train Space RL) ein, das belohnungsgesteuerte Online-Updates direkt auf P(y) anwendet. Wir validieren theoretisch und empirisch die starke Gradientenausrichtung zwischen log P(y) und log P(y|x) und etablieren PreRL damit als praktikable Alternative zu standardmäßigem RL. Darüber hinaus entschlüsseln wir einen kritischen Mechanismus: Negative Sample Reinforcement (NSR) innerhalb von PreRL dient als außerordentlich effektiver Treiber für Reasoning. NSR-PreRL beschneidet schnell falsche Reasoning-Räume und stimuliert gleichzeitig endogene Reflektionsprozesse, was Transitions- und Reflektionsgedanken um das 14,89-fache bzw. 6,54-fache steigert. Gestützt auf diese Erkenntnisse schlagen wir Dual Space RL (DSRL) vor, eine Policy-Reincarnation-Strategie, die Modelle mit NSR-PreRL initialisiert, um den Reasoning-Horizont zu erweitern, bevor zu standardmäßigem RL für feinkörnige Optimierung übergegangen wird. Umfangreiche Experimente zeigen, dass DSRL durchgängig starke Baseline-Methoden übertrifft und beweist, dass das Beschneiden im Vortrainierungsraum die Policy effektiv in einen verfeinerten korrekten Reasoning-Teilraum lenkt.

7

Gedächtnis-Transferlernen: Wie Erinnerungen über Domänen hinweg in kodierenden Agenten übertragen werden
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

Gedächtnisbasierte Selbstevolution hat sich als vielversprechendes Paradigma für Coding-Agenten etabliert. Bisherige Ansätze beschränken die Gedächtnisnutzung jedoch typischerweise auf homogene Aufgabenbereiche und nutzen die gemeinsamen infrastrukturellen Grundlagen, wie Laufzeitumgebungen und Programmiersprachen, die bei verschiedenen realen Programmierproblemen existieren, nicht aus. Um diese Einschränkung zu adressieren, untersuchen wir Memory Transfer Learning (MTL) durch die Nutzung eines einheitlichen Gedächtnispools aus heterogenen Domänen. Wir evaluieren die Leistung über 6 Programmier-Benchmarks hinweg mit vier Gedächtnisrepräsentationen, die von konkreten Ausführungsspuren bis zu abstrakten Erkenntnissen reichen. Unsere Experimente zeigen, dass domänenübergreifendes Gedächtnis die durchschnittliche Leistung um 3,7 % steigert, primär durch den Transfer von Meta-Wissen, wie etwa Validierungsroutinen, und nicht durch aufgabenspezifischen Code. Entscheidend ist, dass Abstraktion die Übertragbarkeit bestimmt; hochgradige Erkenntnisse generalisieren gut, während niedriggradige Spuren aufgrund ihrer übermäßigen Spezifität oft negativen Transfer verursachen. Des Weiteren zeigen wir, dass die Transferwirksamkeit mit der Größe des Gedächtnispools skaliert und dass Gedächtnis sogar zwischen verschiedenen Modellen übertragen werden kann. Unsere Arbeit etabliert empirische Designprinzipien für die Erweiterung der Gedächtnisnutzung über Einzeldomänen-Silos hinaus. Projektseite: https://memorytransfer.github.io/

8

Explorations- und Exploitationsfehler sind für Sprachmodell-Agenten messbar.
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

Sprachmodell-Agenten (LM-Agenten) werden zunehmend für komplexe, offene Entscheidungsaufgaben eingesetzt, von KI-Codierung bis hin zu physischer KI. Eine zentrale Anforderung in diesen Szenarien ist die Fähigkeit, sowohl den Problemraum zu erkunden als auch erworbenes Wissen effektiv zu nutzen. Die systematische Unterscheidung und Quantifizierung von Exploration und Exploitation anhand beobachteter Aktionen ohne Zugriff auf die interne Policy des Agenten bleibt jedoch eine Herausforderung. Um dies zu adressieren, entwerfen wir kontrollierbare Umgebungen, die von praktischen embodied AI-Szenarien inspiriert sind. Jede Umgebung besteht aus einer teilweise beobachtbaren 2D-Gitterkarte und einem unbekannten Task-Directed Acyclic Graph (DAG). Die Kartengenerierung kann programmgesteuert angepasst werden, um den Schwierigkeitsgrad für Exploration oder Exploitation zu betonen. Um eine policy-agnostische Evaluation zu ermöglichen, entwickeln wir eine Metrik zur Quantifizierung von Explorations- und Exploitationsfehlern aus den Aktionen des Agenten. Wir evaluieren eine Vielzahl von LM-Agenten an der Forschungsfront und stellen fest, dass selbst state-of-the-art Modelle bei unserer Aufgabe Schwierigkeiten haben, wobei verschiedene Modelle distincte Fehlermodi aufweisen. Weiterhin beobachten wir, dass Reasoning-Modelle die Aufgabe effektiver lösen und zeigen, dass sowohl Exploration als auch Exploitation durch minimalen Harness-Engineering signifikant verbessert werden können. Wir veröffentlichen unseren Code unter https://github.com/jjj-madison/measurable-explore-exploit.

9

Zielrichtlinienoptimierung
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

Im Reinforcement Learning (RL) sampeln wir bei einem gegebenen Prompt eine Gruppe von Vervollständigungen aus einem Modell und bewerten sie. Daraus ergeben sich zwei Fragen: Welche Vervollständigungen sollten eine höhere Wahrscheinlichkeitsmasse erhalten, und wie sollten sich die Parameter bewegen, um diese Änderung zu realisieren? Standard-Policy-Gradienten-Methoden beantworten beide Fragen gleichzeitig, sodass das Update je nach Lernrate, Clipping und anderen Optimierer-Einstellungen zu groß oder zu klein ausfallen kann. Wir führen Target Policy Optimization (TPO) ein, das die beiden Fragen trennt. Bei gegebenen bewerteten Vervollständigungen konstruiert TPO eine Zielverteilung q_i ∝ p_i^{,alt} exp(u_i) und passt die Policy mittels Kreuzentropie daran an. Der Verlustgradient auf den Logits der gesampelten Vervollständigungen ist p^θ - q, der verschwindet, sobald die Policy dem Ziel entspricht. Bei tabellarischen Bandits, Transformer-Sequenzaufgaben und RLVR mit milliardenparametrigen LLMs erreicht TPO bei einfachen Aufgaben das Niveau von PG, PPO, GRPO und DG und übertrifft sie bei spärlicher Belohnung erheblich. Code ist verfügbar unter https://github.com/JeanKaddour/tpo.

10

Sema Code: Entkopplung von KI-Codierungsagenten in programmierbare, einbettbare Infrastruktur
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

KI-Code-Agenten sind zu einem zentralen Bestandteil von Entwickler-Workflows geworden, doch jede bestehende Lösung schränkt ihre Fähigkeiten zur Wissensverarbeitung in eine bestimmte Bereitstellungsform ein, wie etwa eine CLI, ein IDE-Plugin oder eine Webanwendung. Diese Einschränkung erzeugt systemische Barrieren, wenn Unternehmen versuchen, diese Fähigkeiten über heterogene Entwicklungsumgebungen hinweg wiederzuverwenden. Um diese Herausforderung zu bewältigen, stellen wir Sema Code vor, ein offenes KI-Code-Framework, das auf dem Prinzip der Einbettbarkeit, Erweiterbarkeit und des Framework-First-Ansatzes aufbaut. Sema Code entkoppelt die Kern-Agenten-Engine vollständig von allen Client-Schichten und veröffentlicht sie als eigenständige npm-Bibliothek, die jede Laufzeitumgebung programmgesteuert ansteuern kann. Rund um diese Architektur haben wir acht Schlüsselmechanismen entwickelt: Multi-Tenant-Engine-Isolierung, FIFO-Eingabewarteschlangen mit sicherer Sitzungswiederherstellung, adaptive Kontextkompression, Multi-Agenten-kollaborative Planung, intelligentes Todo-basiertes Prozessmanagement, vierstufige asynchrone Berechtigungskontrolle, dreistufige Ökosystem-Integration (umfassend MCP, Skills und Plugins) sowie ein Framework für Hintergrundaufgaben mit getrennten Ausführungs- und Beobachtungsberechtigungen. Diese Mechanismen adressieren gemeinsam die ingenieurtechnischen Herausforderungen bei der Transformation einer komplexen Agenten-Engine in einen gemeinsamen, programmierbaren Kern. Zur Demonstration seiner architektonischen Vielseitigkeit treibt die gleiche Sema Core-Engine gleichzeitig eine VSCode-Erweiterung und ein Multi-Channel-Nachrichtengateway an, das wir SemaClaw nennen, um Agenten-Interaktionen plattformübergreifend – etwa über Telegram und Feishu – zu vereinheitlichen. Diese repräsentieren zwei grundlegend verschiedene Produktformen, die einen identischen Verarbeitungskern teilen und sich nur in der Client-Schicht unterscheiden.

11

SemaClaw: Ein Schritt hin zu universellen persönlichen KI-Agenten durch Harness-Engineering
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

Der Aufstieg von OpenClaw Anfang 2026 markiert den Zeitpunkt, an dem Millionen von Nutzern begannen, persönliche KI-Agenten in ihr tägliches Leben zu integrieren und ihnen Aufgaben von der Reiseplanung bis hin zu mehrstufigen Recherchen zu delegieren. Dieses Ausmaß der Verbreitung signalisiert, dass zwei parallele Entwicklungsstränge einen Wendepunkt erreicht haben. Erstens ein Paradigmenwechsel in der KI-Entwicklung, der sich vom Prompt- und Context-Engineering zum Harness-Engineering weiterentwickelt – dem Design der vollständigen Infrastruktur, die notwendig ist, um ungebundene Agenten in kontrollierbare, überprüfbare und produktionsreife Systeme zu verwandeln. Während sich die Modellfähigkeiten angleichen, wird diese Harness-Schicht zum primären Ort der architektonischen Differenzierung. Zweitens die Entwicklung der Mensch-Agenten-Interaktion von diskreten Aufgaben hin zu einer persistenten, kontextbewussten Kooperationsbeziehung, die eine offene, vertrauenswürdige und erweiterbare Harness-Infrastruktur erfordert. Wir stellen SemaClaw vor, ein Open-Source-Multi-Agenten-Anwendungsframework, das diesen Wandel adressiert, indem es durch Harness-Engineering einen Schritt in Richtung universeller persönlicher KI-Agenten macht. Unsere Hauptbeiträge umfassen eine DAG-basierte Zwei-Phasen-Hybrid-Orchestrierung von Agententeams, ein PermissionBridge-Verhaltenssicherheitssystem, eine dreistufige Kontextmanagement-Architektur und eine agentenbasierte Wiki-Funktion für den automatisierten Aufbau persönlicher Wissensdatenbanken.

12

Freie Geometrie: Verfeinerung der 3D-Rekonstruktion aus längeren Versionen ihrer selbst
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

Feed-forward 3D-Rekonstruktionsmodelle sind effizient, aber starr: Einmal trainiert, führen sie Inferenz in einem Zero-Shot-Verfahren durch und können sich nicht an die Testszenen anpassen. Infolgedessen enthalten visuell plausible Rekonstruktionen oft Fehler, insbesondere bei Verdeckungen, spiegelnden Reflexionen und mehrdeutigen Hinweisen. Um dies zu beheben, stellen wir Free Geometry vor, ein Framework, das es Feed-forward 3D-Rekonstruktionsmodellen ermöglicht, sich zur Testzeit selbst weiterzuentwickeln, ohne jegliche 3D-Ground-Truth-Daten. Unser zentraler Ansatz ist, dass das Model zuverlässigere und blickkonsistentere Rekonstruktionen erzeugt, wenn es mehr Ansichten erhält. Indem wir diese Eigenschaft nutzen, maskieren wir für eine Testsequenz eine Teilmenge der Frames, um eine selbstüberwachte Aufgabe zu konstruieren. Free Geometry erzwingt eine blickübergreifende Merkmalskonsistenz zwischen Repräsentationen aus vollständigen und teilweisen Beobachtungen, während gleichzeitig die paarweisen Beziehungen, die durch die ausgehaltenen Frames impliziert werden, beibehalten werden. Diese Selbstüberwachung ermöglicht eine schnelle Neukalibrierung durch leichte LoRA-Updates, die weniger als 2 Minuten pro Datensatz auf einer einzelnen GPU benötigen. Unser Ansatz verbessert durchgängig state-of-the-art Foundation-Modelle, einschließlich Depth Anything 3 und VGGT, über 4 Benchmark-Datensätze hinweg und erzielt eine durchschnittliche Verbesserung von 3,73 % in der Kamerapositionsgenauigkeit und 2,88 % in der Punktwolkenvorhersage. Code ist verfügbar unter https://github.com/hiteacherIamhumble/Free-Geometry.

13

LangFlow: Kontinuierliche Diffusion konkurriert mit diskreten Ansätzen im Sprachmodellierung
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

Kontinuierliche Diffusion bildet die Grundlage für hochwertige, steuerbare und schrittminimierte Erzeugung vieler Datenmodalitäten wie Bilder. Im Sprachmodellieren hingegen hinken bisherige kontinuierliche Diffusions-Sprachmodelle (DLMs) ihren diskreten Gegenstücken aufgrund des稀疏en Datenraums und des unzureichend erforschten Designraums hinterher. In dieser Arbeit schließen wir diese Lücke mit LangFlow, dem ersten kontinuierlichen DLM, das mit diskreter Diffusion konkurrieren kann, indem wir Einbettungsraum-DLMs über die Bregman-Divergenz mit Flow Matching verbinden, ergänzt durch drei Schlüsselinnovationen: (1) Wir leiten eine neuartige ODE-basierte NLL-Schranke für eine prinzipiengeleitete Evaluation kontinuierlicher flow-basierter Sprachmodelle her; (2) wir schlagen ein informationseinheitliches Prinzip zur Einstellung des Noise-Schedules vor, das einen lernbaren Noise-Scheduler auf Basis einer Gumbel-Verteilung motiviert; und (3) wir überarbeiten bisherige Trainingsprotokolle durch die Integration von Self-Conditioning, da wir feststellen, dass es sowohl die Likelihood als auch die Probenqualität von Einbettungsraum-DLMs verbessert, mit wesentlich anderen Effekten als bei diskreter Diffusion. Im Zusammenspiel rivalisiert LangFlow mit den besten diskreten DLMs sowohl bei der Perplexity (PPL) als auch der generativen Perplexity (Gen. PPL), erreicht eine PPL von 30,0 auf LM1B und 24,6 auf OpenWebText. Es übertrifft sogar autoregressive Baselines beim Zero-Shot-Transfer in 4 von 7 Benchmarks. LangFlow liefert den ersten klaren Beleg, dass kontinuierliche Diffusion ein vielversprechendes Paradigma für Sprachmodellierung ist. Homepage: https://github.com/nealchen2003/LangFlow

14

TIPP: Bedeutung von Tokens bei On-Policy-Distillation
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

On-Policy Knowledge Distillation (OPD) trainiert einen Student anhand seiner eigenen Rollouts unter Token-level-Aufsicht eines Teachers. Nicht alle Token-Positionen sind gleichermaßen bedeutsam, doch bestehende Ansichten zur Token-Wichtigkeit sind unvollständig. Wir stellen eine direkte Frage: Welche Token liefern das nützlichste Lernsignal in OPD? Unsere Antwort lautet, dass informative Token aus zwei Bereichen stammen: Positionen mit hoher Student-Entropie und Positionen mit niedriger Student-Entropie plus hoher Teacher–Student-Divergenz, wo der Student übermäßig selbstsicher und falsch liegt. Empirisch erweist sich die Student-Entropie als starke Näherung erster Ordnung: Das Beibehalten von 50 % der Token mittels entropiebasierter Stichprobenziehung erreicht oder übertrifft das Training mit allen Token, während der Spitzenspeicherbedarf um bis zu 47 % reduziert wird. Doch Entropie allein übersieht einen zweiten wichtigen Bereich. Wenn wir Token mit niedriger Entropie und hoher Divergenz isolieren, erreicht das Training mit weniger als 10 % aller Token nahezu die Voll-Token-Baselines. Dies zeigt, dass übermäßig selbstsichere Token ein dichtes korrektives Signal tragen, obwohl sie für rein entropiebasierte Regeln nahezu unsichtbar sind. Wir systematisieren diese Erkenntnisse mit TIP (Token Importance in On-Policy Distillation), einer Zwei-Achsen-Taxonomie über Student-Entropie und Teacher–Student-Divergenz, und liefern eine theoretische Erklärung, warum Entropie nützlich, aber strukturell unvollständig ist. Diese Sichtweise motiviert typenbewusste Token-Auswahlregeln, die Unsicherheit und Disagreement kombinieren. Wir validieren dieses Bild an drei Teacher–Student-Paaren, die Qwen3, Llama und Qwen2.5 umfassen, auf MATH-500 und AIME 2024/2025 sowie auf dem DeepPlanning-Benchmark für langfristiges agentenbasiertes Planen, wo ein Q3-exklusives Training mit <20 % der Token die Voll-Token-OPD übertrifft. Unsere Experimente sind durch Erweiterung des OPD-Repositorys https://github.com/HJSang/OPSD_OnPolicyDistillation implementiert, das speichereffiziente Distillation größerer Modelle unter begrenzten GPU-Budgets unterstützt.

15

UI-Zoomer: Ungewissheitsgesteuertes adaptives Heranzoomen zur GUI-Referenzierung
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

GUI-Grounding, das Benutzeroberflächenelemente aus Screenshots anhand natürlicher Sprachabfragen lokalisiert, bleibt bei kleinen Symbolen und dichten Layouts eine Herausforderung. Testzeit-Zoom-Methoden verbessern die Lokalisierung durch Zuschneiden und erneutes Inferenzieren in höherer Auflösung, wenden das Zuschneiden jedoch einheitlich mit festen Ausschnittgrößen auf alle Instanzen an, ohne zu berücksichtigen, ob das Modell tatsächlich bei jedem Fall unsicher ist. Wir schlagen UI-Zoomer vor, ein trainingsfreies adaptives Zoom-Framework, das sowohl den Auslöser als auch den Maßstab des Zooms als Problem der Quantifizierung von Vorhersageunsicherheit behandelt. Ein konfidenzgesteuerter Gate-Mechanismus fusioniert räumlichen Konsens zwischen stochastischen Kandidaten mit tokenbasierter Generierungskonfidenz, um Zoomen selektiv nur bei unsicherer Lokalisierung auszulösen. Bei Auslösung zerlegt ein unsicherheitsgesteuertes Zuschnittmodul die Vorhersagevarianz in positionsbezogene Streuung zwischen Stichproben und boxbezogene Ausdehnung innerhalb von Stichproben, wodurch ein instanzspezifischer Zuschnittradius mittels des Gesetzes der totalen Varianz abgeleitet wird. Umfangreiche Experimente auf ScreenSpot-Pro, UI-Vision und ScreenSpot-v2 zeigen konsistente Verbesserungen gegenüber starken Baselines über mehrere Modellarchitekturen hinweg, mit Steigerungen von bis zu +13,4 %, +10,3 % bzw. +4,2 % ohne zusätzliches Training.

16

TREX: Automatisierung des LLM-Fine-Tuning durch agentengesteuerte, baumbasierte Exploration
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

Während Large Language Models (LLMs) KI-Forschungsagenten befähigt haben, isolierte wissenschaftliche Aufgaben zu bewältigen, stellt die Automatisierung komplexer, realer Arbeitsabläufe – wie etwa das Training von LLMs – nach wie vor eine erhebliche Herausforderung dar. In diesem Artikel stellen wir TREX vor, ein Multi-Agenten-System, das den gesamten Lebenszyklus des LLM-Trainings automatisiert. Durch die Orchestrierung der Zusammenarbeit zwischen zwei Kernmodulen – dem Forscher (Researcher) und dem Ausführungsmodul (Executor) – führt das System nahtlos Anforderungsanalyse, open-domain Literatur- und Datenrecherche, die Formulierung von Trainingsstrategien, die Zubereitung von Datenrezepten sowie Modelltraining und -evaluation durch. Der mehrstufige experimentelle Prozess wird als Suchbaum modelliert, was es dem System ermöglicht, Explorationspfade effizient zu planen, historische Ergebnisse wiederzuverwenden und übergreifende Erkenntnisse aus iterativen Versuchen zu destillieren. Um die Fähigkeit zur automatisierten LLM-Ausbildung zu bewerten, erstellen wir FT-Bench, einen Benchmark, der 10 Aufgaben aus realen Szenarien umfasst, die von der Optimierung grundlegender Modellfähigkeiten bis zur Verbesserung der Leistung bei domänenspezifischen Aufgaben reichen. Experimentelle Ergebnisse zeigen, dass der TREX-Agent die Modellleistung bei Zielaufgaben konsequent optimiert.

17

ReconPhys: Rekonstruktion von Erscheinungsbild und physikalischen Eigenschaften aus einem einzelnen Video
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

Die physikalisch plausible Rekonstruktion nicht-starrer Objekte bleibt eine große Herausforderung. Bestehende Ansätze nutzen differenzierbares Rendering für pro-Szene-Optimierung, um Geometrie und Dynamik zu erfassen, erfordern jedoch aufwändiges Tuning oder manuelle Annotation, was Praxistauglichkeit und Generalisierbarkeit einschränkt. Um dies zu adressieren, stellen wir ReconPhys vor, das erste vorwärtsgerichtete Framework, das physikalische Attributschätzung und 3D-Gaussian-Splatting-Rekonstruktion aus einem einzelnen monokularen Video gemeinsam erlernt. Unser Ansatz verwendet eine Dual-Branch-Architektur, die mittels einer selbstüberwachten Strategie trainiert wird und keine Ground-Truth-Physiklabels benötigt. Für eine gegebene Videosequenz inferiert ReconPhys simultan Geometrie, Erscheinungsbild und physikalische Attribute. Experimente auf einem groß angelegten synthetischen Datensatz demonstrieren überlegene Leistung: Unser Verfahren erreicht 21,64 PSNR in der Vorhersage zukünftiger Zustände gegenüber 13,27 bei state-of-the-art Optimierungs-Baselines, während die Chamfer-Distanz von 0,349 auf 0,004 reduziert wird. Entscheidend ist, dass ReconPhys schnelle Inferenz (<1 Sekunde) ermöglicht – verglichen mit Stunden bei bestehenden Methoden – und so die schnelle Generierung simulationsfertiger Assets für Robotik und Grafik erleichtert.

18

MERRIN: Ein Benchmark für den Abruf und die Schlussfolgerung multimodaler Evidenz in verrauschten Web-Umgebungen
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

Angeregt durch die underspezifizierte, multihop-Natur von Suchanfragen sowie die multimodale, heterogene und oft widersprüchliche Beschaffenheit realer Web-Ergebnisse stellen wir MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) vor, einen human-annotierten Benchmark zur Bewertung suchaugmentierter Agenten. MERRIN misst die Fähigkeit von KI-Agenten, relevante Modalitäten zu identifizieren, multimodale Evidenz zu retrieven und multihop Reasoning über verrauschte Webquellen durchzuführen. Es unterscheidet sich von vorheriger Arbeit in drei wichtigen Aspekten: (1) der Verwendung natürlicher Sprachabfragen ohne explizite Modalitätshinweise, (2) der Einbeziehung untererforschter Modalitäten wie Video und Audio sowie (3) der Anforderung, komplexe, oft verrauschte oder widersprüchliche multimodale Evidenz während der Websuche zu retrieven. Wir evaluieren diverse Suchagenten, die von zehn Modellen angetrieben werden – darunter starke Closed-Source-Modelle (z.B. GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) und Open-Weight-Modelle (Qwen3-4B/30B/235B) – in drei Suchszenarien (keine Suche, native Suche, agentenbasierte Suche). Unsere Ergebnisse zeigen, dass MERRIN äußerst anspruchsvoll ist: die durchschnittliche Genauigkeit über alle Agenten beträgt 22,3 %, wobei der leistungsstärkste Agent lediglich 40,1 % erreicht. Weiter beobachten wir, dass zwar stärkere Agenten wie Gemini Deep Research höhere Leistung erzielen, die Verbesserungen jedoch aufgrund von Over-Exploration begrenzt sind; sie führen mehr Schritte aus und nutzen mehr Tools, lassen sich jedoch oft von widersprüchlichen oder teilweise relevanten Webinhalten ablenken, was zu falschen Antworten führt. Im Vergleich zu Menschen verbrauchen diese Agenten mehr Ressourcen, erreichen jedoch geringere Genauigkeit, hauptsächlich aufgrund ineffizienter Quellenauswahl und übermäßiger Abhängigkeit von Textmodalitäten. Diese Erkenntnisse unterstreichen die Notwendigkeit von Suchagenten, die zu robustem Suchen und Schließen über diverse Modalitäten in verrauschten Webumgebungen fähig sind, wodurch MERRIN eine wertvolle Testplattform zur Bewertung solcher Fähigkeiten darstellt.

19

Erzählungsgesteuerte Papier-zu-Folien-Generierung mit ArcDeck
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

Wir stellen ArcDeck vor, ein Multi-Agenten-Framework, das die Erstellung von Präsentationsfolien aus wissenschaftlichen Artikeln als strukturierte narrative Rekonstruktionsaufgabe formuliert. Im Gegensatz zu bestehenden Methoden, die Rohtext direkt in Folien zusammenfassen, modelliert ArcDeck explizit den logischen Fluss des Ausgangspapiers. Es analysiert zunächst die Eingabe, um einen Diskursbaum zu konstruieren und ein globales Commitment-Dokument zu erstellen, wodurch die übergeordnete Intention erhalten bleibt. Diese strukturellen Priors leiten dann einen iterativen Multi-Agenten-Verfeinerungsprozess, in dem spezialisierte Agenten den Präsentationsentwurf iterativ kritisieren und überarbeiten, bevor die endgültigen visuellen Layouts und Designs gerendert werden. Zur Evaluation unseres Ansatzes führen wir außerdem ArcBench ein, einen neu kuratierten Benchmark mit akademischen Paper-Slide-Paaren. Experimentelle Ergebnisse zeigen, dass explizite Diskursmodellierung in Kombination mit rollenspezifischer Agentenkoordination den narrativen Fluss und die logische Kohärenz der generierten Präsentationen signifikant verbessert.

20

Selbst-Distillation Null: Selbstrevision verwandelt binäre Belohnungen in dichte Überwachung
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

Aktuelle Methoden des Post-Trainings in verifizierbaren Umgebungen lassen sich in zwei Kategorien einteilen. Reinforcement Learning (RLVR) stützt sich auf binäre Belohnungssignale, die breit anwendbar und leistungsfähig sind, aber nur eine spärliche Überwachung während des Trainings bieten. Distillation bietet eine dichte Überwachung auf Token-Ebene, die typischerweise von einem externen Lehrer oder durch hochwertige Demonstrationen gewonnen wird. Die Beschaffung einer solchen Überwachung kann jedoch kostspieligig oder nicht verfügbar sein. Wir schlagen Self-Distillation Zero (SD-Zero) vor, eine Methode, die deutlich trainingsdaten-effizienter als RL ist und keinen externen Lehrer oder hochwertige Demonstrationen benötigt. SD-Zero trainiert ein einzelnes Modell für zwei Rollen: einen Generator, der eine erste Antwort erzeugt, und einen Reviser, der auf Basis dieser Antwort und ihres binären Belohnungssignals eine verbesserte Antwort generiert. Anschließend führen wir On-Policy-Self-Distillation durch, um den Reviser in den Generator zu destillieren, wobei wir die Token-Verteilungen des Revisers, bedingt auf die Antwort des Generators und deren Belohnung, als Überwachung verwenden. Im Effekt trainiert SD-Zero das Modell dazu, binäre Belohnungssignale in dichte Selbstüberwachung auf Token-Ebene umzuwandeln. Auf Mathematik- und Code-Reasoning-Benchmarks mit Qwen3-4B-Instruct und Olmo-3-7B-Instruct steigert SD-Zero die Leistung um mindestens 10 % gegenüber den Basismodellen und übertrifft starke Baseline-Methoden, einschließlich Rejection Fine-Tuning (RFT), GRPO und Self-Distillation Fine-Tuning (SDFT), unter Verwendung desselben Fragesatzes und gleichen Trainingsdaten-Budgets. Umfangreiche Ablationsstudien zeigen zwei neuartige Charakteristika unseres vorgeschlagenen Algorithmus: (a) Selbstlokalisierung auf Token-Ebene, bei der der Reviser anhand des Belohnungssignals die Schlüsseltoken identifizieren kann, die in der Antwort des Generators überarbeitet werden müssen, und (b) iterative Selbstevolution, bei der die verbesserte Fähigkeit, Antworten zu überarbeiten, durch regelmäßige Synchronisation des Lehrers zurück in die Generierungsleistung destilliert werden kann.

21

Anthropogene regionale Anpassung in multimodalen Vision-Sprache-Modellen
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

Während das Feld der Vision-Sprache (VL) bemerkenswerte Erfolge bei der Integration visueller und textueller Informationen über mehrere Sprachen und Domänen hinweg erzielt hat, existiert noch kein dediziertes Framework zur Bewertung der menschenzentrierten Ausrichtung in Vision-Sprache-Systemen. Wir leisten zwei Beiträge, um diese Lücke zu schließen. Erstens führen wir die Anthropogene Regionale Adaptation ein: ein neuartiges Paradigma, das darauf abzielt, die Modellrelevanz für spezifische regionale Kontexte zu optimieren und gleichzeitig die Beibehaltung globaler Generalisierungsfähigkeiten sicherzustellen. Zweitens präsentieren wir eine einfache, aber effektive Adaptationsmethode namens Geographical-Generalization-made-easy (GG-EZ), die regionale Datenfilterung und Modellzusammenführung nutzt. Durch umfassende Experimente mit 3 VL-Architekturen – großen Vision-Sprache-Modellen, Text-zu-Bild-Diffusionsmodellen und Vision-Sprache-Einbettungsmodellen – sowie einer Fallstudie zur regionalen Adaptation in Südostasien (SEA) demonstrieren wir die Bedeutung der Anthropogenen Regionalen Adaptation und die Wirksamkeit von GG-EZ. Dabei zeigen wir Steigerungen von 5–15 % in kulturellen Relevanzmetriken für die SEA-Region bei gleichzeitiger Beibehaltung von über 98 % der globalen Leistung, die gelegentlich sogar übertroffen wird. Unsere Ergebnisse etablieren die Anthropogene Regionale Ausrichtung als ein grundlegendes Paradigma für die Anwendbarkeit multimodaler Vision-Sprache-Modelle in verschiedenen Regionen und demonstrieren eine einfache, aber effektive Baseline-Methode, die die regionale Wertausrichtung optimiert und gleichzeitig die globale Generalisierung bewahrt.

22

UI-Copilot: Fortschritte bei der langfristigen GUI-Automatisierung durch werkzeugintegrierte Richtlinienoptimierung
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

MLLM-basierte GUI-Agenten haben beeindruckende Fähigkeiten bei komplexen Benutzeroberflächeninteraktionen gezeigt. Dennoch bleiben langfristige Szenarien herausfordernd, da diese Agenten mit Aufgaben belastet werden, die über ihre intrinsischen Fähigkeiten hinausgehen, was zu Gedächtnisabbau, Fortschrittsverwirrung und mathematischen Halluzinationen führt. Um diese Herausforderungen zu bewältigen, stellen wir UI-Copilot vor – ein kollaboratives Framework, bei dem der GUI-Agent sich auf die Aufgabendurchführung konzentriert, während ein leichtgewichtiger Copilot bedarfsgerechte Unterstützung für Gedächtnisabruf und numerische Berechnungen bietet. Wir führen Memory Decoupling ein, um persistente Beobachtungen vom transienten Ausführungskontext zu trennen, und trainieren den Policy-Agenten, den Copilot selektiv als Retriever oder Calculator basierend auf den Aufgabenanforderungen aufzurufen. Um effektives Tool-Invocation-Lernen zu ermöglichen, schlagen wir Tool-Integrated Policy Optimization (TIPO) vor, das die Tool-Auswahl durch Einzelschritt-Vorhersage und die Aufgabendurchführung durch On-Policy-Multi-Step-Rollouts separat optimiert. Experimentelle Ergebnisse zeigen, dass UI-Copilot-7B auf dem anspruchsvollen MemGUI-Bench State-of-the-Art-Leistung erzielt und starke 7B-skalige GUI-Agenten wie GUI-Owl-7B und UI-TARS-1.5-7B übertrifft. Zudem erzielt UI-Copilot-7B auf AndroidWorld eine absolute Verbesserung von 17,1 % gegenüber dem Basis-Qwen-Modell, was die starke Generalisierungsfähigkeit von UI-Copilot für reale GUI-Aufgaben unterstreicht.

23

SkVM: Kompilierung von Fähigkeiten für effiziente Ausführung überall
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

LLM-Agenten verwenden zunehmend Skills als wiederverwendbare Kompositionseinheit. Obwohl Skills über verschiedene Agentenplattformen hinweg geteilt werden, behandeln aktuelle Systeme sie als Rohkontext, was dazu führt, dass derselbe Skill bei verschiedenen Agenten inkonsistent arbeitet. Diese Fragilität untergräbt die Portabilität und Ausführungseffizienz von Skills. Um diese Herausforderung zu bewältigen, analysieren wir 118.000 Skills und lassen uns vom traditionellen Compiler-Design inspirieren. Wir behandeln Skills als Code und LLMs als heterogene Prozessoren. Um Portabilität umsetzbar zu machen, zerlegen wir die Anforderungen eines Skills in einen Satz primitiver Fähigkeiten und messen, wie gut jedes Modell-Harness-Paar diese unterstützt. Basierend auf diesen Fähigkeitsprofilen schlagen wir SkVM vor, ein Compiler- und Laufzeitsystem, das für portable und effiziente Skill-Ausführung konzipiert ist. Zur Kompilierzeit führt SkVM fähigkeitsbasierte Kompilierung, Umgebungsbindung und Nebenläufigkeits-Extraktion durch. Zur Laufzeit wendet SkVM JIT-Code-Verfestigung und adaptive Neukompilierung zur Leistungsoptimierung an. Wir evaluieren SkVM mit acht LLMs unterschiedlicher Größe und drei Agenten-Harnesses, die SkillsBench und repräsentative Skill-Aufgaben abdecken. Die Ergebnisse zeigen, dass SkVM die Aufgabenabschlussrate über verschiedene Modelle und Umgebungen hinweg signifikant verbessert und gleichzeitig den Token-Verbrauch um bis zu 40% reduziert. Hinsichtlich der Leistung erzielt SkVM eine bis zu 3,2-fache Beschleunigung durch verbesserte Parallelität und eine 19- bis 50-fache Latenzreduzierung durch Code-Verfestigung.

24

Protokollieren KI-Codierungsagenten wie Menschen? Eine empirische Studie
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

Software-Logging ist entscheidend für die Wartung und Fehlerbehebung komplexer Systeme, dennoch ist unklar, wie KI-Coding-Agents mit dieser nicht-funktionalen Anforderung umgehen. Während frühere Arbeiten die Logging-Praktiken von Menschen charakterisieren, sind das Verhalten von KI-Coding-Agents und die Wirksamkeit natürlicher Sprachanweisungen zu deren Steuerung unerforscht. Um diese Lücke zu schließen, führen wir eine empirische Studie mit 4.550 agentenbasierten Pull Requests in 81 Open-Source-Repositories durch. Wir vergleichen die Logging-Muster von Agents mit menschlichen Baseline-Werten und analysieren die Auswirkungen expliziter Logging-Anweisungen. Wir stellen fest, dass Agents in 58,4 % der Repositorys Logging seltener ändern als Menschen, obwohl sie eine höhere Log-Dichte aufweisen, wenn sie es tun. Darüber hinaus sind explizite Logging-Anweisungen selten (4,7 %) und unwirksam, da Agents in 67 % der Fälle konstruktiven Anforderungen nicht nachkommen. Schließlich beobachten wir, dass Menschen 72,5 % der Log-Reparaturen nach der Generierung durchführen und als „stille Hausmeister“ agieren, die Logging- und Observability-Probleme ohne explizites Review-Feedback beheben. Diese Ergebnisse deuten auf ein doppeltes Versagen natürlicher Sprachsteuerung hin (d.h. Knappheit von Logging-Anweisungen und geringe Agenten-Compliance), was nahelegt, dass deterministische Guardrails notwendig sein könnten, um konsistente Logging-Praktiken sicherzustellen.

25

HDR-Videogenerierung durch latente Ausrichtung mit logarithmischer Kodierung
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

Hochdynamische (HDR) Bildgebung bietet eine reichhaltige und originalgetreue Darstellung der Szennenstrahldichte, stellt jedoch aufgrund ihrer Diskrepanz zu den begrenzten, wahrnehmungskomprimierten Daten, mit denen generative Modelle trainiert werden, nach wie vor eine Herausforderung für diese Modelle dar. Eine naheliegende Lösung ist das Erlernen neuer Repräsentationen für HDR, was zusätzliche Komplexität und Datenanforderungen mit sich bringt. In dieser Arbeit zeigen wir, dass HDR-Generierung auf viel einfachere Weise erreicht werden kann, indem die starken visuellen Priors genutzt werden, die bereits von vortrainierten generativen Modellen erfasst wurden. Wir beobachten, dass eine logarithmische Kodierung, die in filmischen Bearbeitungspipelines weit verbreitet ist, HDR-Bildmaterial in eine Verteilung abbildet, die natürlich mit dem latenten Raum dieser Modelle übereinstimmt. Dies ermöglicht eine direkte Anpassung durch leichtgewichtiges Fine-Tuning, ohne einen Encoder neu trainieren zu müssen. Um Details wiederherzustellen, die in der Eingabe nicht direkt beobachtbar sind, führen wir weiterhin eine Trainingsstrategie ein, die auf kameraähnlichen Degradationen basiert. Diese ermutigt das Modell, fehlende HDR-Inhalte aus seinen gelernten Priors abzuleiten. Durch die Kombination dieser Erkenntnisse demonstrieren wir die Erzeugung hochwertiger HDR-Videos mit einem vortrainierten Videomodell und minimaler Anpassung, wobei wir robuste Ergebnisse in verschiedenen Szenen und anspruchsvollen Lichtverhältnissen erzielen. Unsere Ergebnisse deuten darauf hin, dass HDR, obwohl es ein grundlegend anderes Bildgebungsregime darstellt, effektiv bewältigt werden kann, ohne generative Modelle neu zu entwerfen, sofern die Repräsentation so gewählt wird, dass sie mit ihren gelernten Priors übereinstimmt.

26

Geometrischer Kontexttransformer für Streaming-3D-Rekonstruktion
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

Streaming-3D-Rekonstruktion zielt darauf ab, 3D-Informationen wie Kameraposen und Punktwolken aus einem Videostream zu gewinnen, was geometrische Genauigkeit, zeitliche Konsistenz und Recheneffizienz erfordert. Inspiriert von den Prinzipien des Simultaneous Localization and Mapping (SLAM) stellen wir LingBot-Map vor, ein vorwärtsgerichtetes 3D-Foundation-Modell zur Rekonstruktion von Szenen aus Streaming-Daten, das auf einer geometrischen Kontext-Transformer (GCT)-Architektur aufbaut. Ein entscheidender Aspekt von LingBot-Map liegt in seinem sorgfältig gestalteten Attention-Mechanismus, der einen Ankerkontext, ein posenbezogenes Referenzfenster und einen Trajektorienspeicher integriert, um jeweils Koordinatenverankerung, dichte geometrische Hinweise und Korrektur von Drift über lange Distanzen zu adressieren. Dieser Aufbau hält den Streaming-Zustand kompakt, bewahrt jedoch einen reichen geometrischen Kontext, was eine stabile und effiziente Inferenz mit etwa 20 FPS bei Eingaben mit einer Auflösung von 518 x 378 über lange Sequenzen von mehr als 10.000 Einzelbildern ermöglicht. Umfangreiche Auswertungen über eine Vielzahl von Benchmarks zeigen, dass unser Ansatz im Vergleich zu bestehenden Streaming- und iterativen optimierungsbasierten Verfahren eine überlegene Leistung erzielt.

27

ROSE: Retrievalorientierte Segmentierungsverbesserung
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

Bestehende Segmentierungsmodelle auf Basis multimodaler großer Sprachmodelle (MLLMs), wie LISA, haben oft Schwierigkeiten mit neuartigen oder aufkommenden Entitäten, da sie keine aktuellen Kenntnisse integrieren können. Um diese Herausforderung zu bewältigen, führen wir die Novel Emerging Segmentation Task (NEST) ein, die sich auf die Segmentierung (i) neuartiger Entitäten konzentriert, die MLLMs aufgrund ihrer Abwesenheit in den Trainingsdaten nicht erkennen können, und (ii) aufkommender Entitäten, die im Wissen des Modells existieren, aber aktuelle externe Informationen für eine genaue Erkennung erfordern. Um die Erforschung von NEST zu unterstützen, erstellen wir einen NEST-Benchmark mittels einer automatisierten Pipeline, die nachrichtenbezogene Datenproben für eine umfassende Evaluation generiert. Zusätzlich schlagen wir ROSE vor: Retrieval-Oriented Segmentation Enhancement, ein Plug-and-Play-Framework, das darauf ausgelegt ist, jedes MLLM-basierte Segmentierungsmodell zu erweitern. ROSE umfasst vier Schlüsselkomponenten. Zunächst wird ein Internet Retrieval-Augmented Generation-Modul eingeführt, das benutzergesteuerte multimodale Eingaben nutzt, um Echtzeit-Informationen aus dem Web abzurufen. Anschließend bereichert ein Textual Prompt Enhancer das Modell mit aktuellen Informationen und umfangreichem Hintergrundwissen, was die Wahrnehmungsfähigkeit des Modells für aufkommende Entitäten verbessert. Des Weiteren wird ein Visual Prompt Enhancer vorgeschlagen, um die mangelnde Bekanntheit von MLLMs mit neuartigen Entitäten durch die Nutzung von Internet-basierten Bildern auszugleichen. Um die Effizienz zu erhalten, wird ein WebSense-Modul eingeführt, das intelligent entscheidet, wann Abrufmechanismen basierend auf der Benutzereingabe aufgerufen werden sollen. Experimentelle Ergebnisse zeigen, dass ROSE die Leistung auf dem NEST-Benchmark signifikant steigert und eine starke, auf Gemini-2.0 Flash basierende Retrieval-Baseline um 19.2 gIoU übertrifft.

28

Unendliche Wissenschaftsarena: Ein unbegrenzter, prozedural generierter Maßstab für wissenschaftliche Analysen
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

Große Sprachmodelle etablieren sich zunehmend als wissenschaftliche Assistenten, doch die Bewertung ihrer Fähigkeit, aus empirischen Daten zu schlussfolgern, bleibt eine Herausforderung. Benchmarks, die aus veröffentlichten Studien und menschlichen Annotationen abgeleitet werden, weisen Publikationsbias, Known-Knowledge-Bias, Labelrauschen und hohen Speicherbedarf auf. Wir stellen InfiniteScienceGym vor, einen prozedural generierten Benchmark wissenschaftlicher Repositorien, gekoppelt mit einer verifizierbaren Frage-Antwort-Aufgabe. Aus einem Startwert erzeugt der Simulator deterministisch ein in sich geschlossenes Repository mit realistischer Verzeichnisstruktur, Dateien und tabellarischen Daten, und ein privilegierter QA-Generator erzeugt sowohl beantwortbare als auch unbeantwortbare Fragen mit exakter Ground Truth. Dies ermöglicht die Bewertung von evidenzbasiertem Schlussfolgern, Zurückhaltung bei Unsicherheit und werkzeugvermittelter Analyse in einer kontrollierten Umgebung, ohne umfangreiche statische Korpora verteilen zu müssen. InfiniteScienceGym ergänzt reale wissenschaftliche Benchmarks, indem es gezielt blinde Flecken und Fehlermodi adressiert, die mit reinen Publikationsdatensätzen schwer zu evaluieren sind. Bei der Evaluation proprietärer und Open-Weight-Modelle stellen wir fest, dass keines eine Gesamtgenauigkeit von mehr als 45 % erreicht, dass die Erkennung unbeantwortbarer Fragen eine wesentliche Schwäche bleibt und dass leistungsstärkere Modelle Werkzeuge tendenziell effektiver nutzen, anstatt einfach mehr Tokens zu verbrauchen.

29

Mobile-GUI-Agenten unter realen Bedrohungen: Sind wir schon so weit?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

In den letzten Jahren war eine rasante Entwicklung von mobilen GUI-Agenten zu beobachten, die auf großen Sprachmodellen (LLMs) basieren und in der Lage sind, eigenständig verschiedene gerätesteuernde Aufgaben auf der Grundlage natürlicher Sprachbefehle auszuführen. Die steigende Genauigkeit dieser Agenten in Standard-Benchmarks hat die Erwartungen an einen großflächigen Einsatz in der Praxis geweckt, und es wurden bereits mehrere kommerzielle Agenten veröffentlicht und von Early Adopters genutzt. Doch sind wir wirklich bereit dafür, GUI-Agenten als systemische Bausteine in unsere Alltagsgeräte zu integrieren? Wir vertreten die Auffassung, dass eine wichtige Vorabprüfung vor der Bereitstellung fehlt, nämlich zu untersuchen, ob die Agenten ihre Leistung unter realen Bedrohungsszenarien aufrechterhalten können. Konkret unterscheiden sich reale Apps dadurch von bestehenden gängigen Benchmarks, die auf einfachen, statischen App-Inhalten basieren (was notwendig ist, um die Konsistenz der Testumgebung zwischen verschiedenen Tests zu gewährleisten), dass sie mit Inhalten von nicht vertrauenswürdigen Dritten gefüllt sind, wie z.B. Werbe-E-Mails, nutzergenerierte Beiträge und Medien, etc. ... Zu diesem Zweck führen wir ein skalierbares Framework zur Instrumentierung von App-Inhalten ein, das flexible und gezielte Inhaltsmodifikationen innerhalb bestehender Anwendungen ermöglicht. Mithilfe dieses Frameworks erstellen wir einen Testumfang, der sowohl eine dynamische Aufgabenausführungsumgebung als auch einen statischen Datensatz mit anspruchsvollen GUI-Zuständen umfasst. Die dynamische Umgebung umfasst 122 reproduzierbare Aufgaben, und der statische Datensatz besteht aus über 3.000 Szenarien, die aus kommerziellen Apps konstruiert wurden. Wir führen Experimente mit sowohl Open-Source- als auch kommerziellen GUI-Agenten durch. Unsere Ergebnisse zeigen, dass die Leistung aller untersuchten Agenten aufgrund von Inhalten Dritter erheblich beeinträchtigt werden kann, mit durchschnittlichen Irreführungsraten von 42,0 % bzw. 36,1 % in den dynamischen und statischen Umgebungen. Das Framework und der Benchmark wurden unter https://agenthazard.github.io veröffentlicht.

30

Was lernen Sprachmodelle und wann? Die Hypothese des impliziten Lehrplans
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

Große Sprachmodelle (LLMs) können bemerkenswert komplexe Aufgaben bewältigen, doch die feinen Details, wie diese Fähigkeiten während des Pre-Trainings entstehen, bleiben weitgehend unverstanden. Skalierungsgesetze für den Validierungsverlust zeigen uns, wie sehr sich ein Modell mit zusätzlicher Rechenleistung verbessert, aber nicht, welche Fähigkeiten es in welcher Reihenfolge erwirbt. Um dies zu beheben, stellen wir die Hypothese des impliziten Curriculums auf: Das Pre-Training folgt einem kompositionellen und vorhersagbaren Curriculum, das über Modelle und Datenmischungen hinweg konsistent ist. Wir testen dies, indem wir eine Reihe einfacher, zusammensetzbarer Aufgaben entwerfen, die Bereiche wie Retrieval, morphologische Transformationen, Koreferenz, logisches Schließen und Mathematik abdecken. Mithilfe dieser Aufgaben verfolgen wir die Entstehungspunkte über vier Modellfamilien hinweg, die Größen von 410M bis 13B Parametern umfassen. Wir stellen fest, dass die Reihenfolge, in der Modelle festgelegte Genauigkeitsschwellenwerte erreichen (Emergence Order), auffallend konsistent ist (ρ = 0,81 über 45 Modellpaare), und dass zusammengesetzte Aufgaben meist nach ihren Komponentenaufgaben entstehen. Des Weiteren finden wir, dass diese Struktur in den Modellrepräsentationen kodiert ist: Aufgaben mit ähnlichen Funktionsvektor-Repräsentationen tendieren auch dazu, ähnliche Trainingsverläufe zu zeigen. Indem wir den Raum der Repräsentationen nutzen, der sich aus unserem Aufgabensatz ableitet, können wir die Trainingsverläufe einfacher, zurückgehaltener kompositioneller Aufgaben während des gesamten Pre-Trainings effektiv vorhersagen (R² = 0,68–0,84 über Modelle hinweg), ohne sie zuvor evaluiert zu haben. Zusammengenommen deuten diese Ergebnisse darauf hin, dass das Pre-Training strukturierter abläuft, als Verlustkurven erkennen lassen: Fähigkeiten entstehen in einer kompositionellen Reihenfolge, die über Modelle hinweg konsistent ist und aus ihren internen Zuständen ablesbar ist.

Apr 15
Apr 16
Apr 17