HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

44 papers found

ABot-Earth 0.5: Generatives 3D-Erdmodell
ABot-Earth 0.5: Generative 3D Earth Model

Jun 8

ByMing Qian, Tianjian Ouyang, Mingchao Sun, Zijian Wang, Jincheng Xiong, Jiarong Han, Yongchang Zhang, Jiawei Zhang, Xu Wang, Yu Liu, Luyang Tang, Fei Yu, Zengye Ge, Mengmeng Du, Yuan Liu, Nianfei Fan, Song Wang, Yingliang Peng, Chunxue Jia, Yang Liu, Shiying Zeng, Haozhe Shi, Junnan Lai, Hongyu Pan, Zheng Wu, Ning Guo, Mu Xu, Hang Zhang

193

Wir stellen ABot-Earth 0.5 vor, ein generatives 3D-Framework, das dazu entwickelt wurde, großflächige, nahtlose 3D-Umgebungen aus allgegenwärtigen, georeferenzierten Satellitenbildern zu synthetisieren. Um dies zu erreichen, schlagen wir ein neuartiges generatives Modell vor, das direkt mit der 3D Gaussian Splatting (3DGS)-Repräsentation formuliert ist. Das Modell wird auf einem vielfältigen Korpus existierender realer Stadtrekonstruktionen trainiert und lernt, realistische Geometrie und Texturen zu erzeugen. Bei der Inferenz synthetisiert es neuartige 3D-Szenen, die ausschließlich durch Satellitenbilder konditioniert sind, mit einer skalierbaren Rate von unter 10 Minuten pro Quadratkilometer und zeigt dabei außergewöhnlichen Realismus. Das Framework ist auf Zugänglichkeit ausgelegt, mit integrierten hierarchischen Level-of-Detail (LOD)-Strukturen, die eine Echtzeit-Interaktivvisualisierung auf webbasierten Karten-Engines ermöglichen. Diese hochgetreue Simulations-Sandbox verringert effektiv die Sim-to-Real-Domänenlücke und ermöglicht kritische nachgelagerte Embodied AI-Anwendungen wie die Closed-Loop-UAV-Navigation. Durch die Bereitstellung einer extrem kostengünstigen und hocheffizienten Lösung senkt ABot-Earth 0.5 die technischen und finanziellen Hürden für großflächige 3D-Rekonstruktion erheblich und befähigt die Zukunft der globalen digitalen Erdvisualisierung.

Kwai Keye-VL-2.0 Technischer Bericht
Kwai Keye-VL-2.0 Technical Report

Jun 9

ByKwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

167

Wir stellen Kwai Keye-VL-2.0-30B-A3B vor, ein quelloffenes multimodales Grundlagenmodell basierend auf der Mixture-of-Experts (MoE)-Architektur, das darauf abzielt, das Verständnis langer Videos und agentische Intelligenz voranzutreiben. Um die Herausforderungen ultra-langer Kontexte, Informationsredundanz und prohibitiv hoher Rechenkosten bei stundenlangen Videos zu bewältigen, ist Keye-VL-2.0 das erste Modell, das DeepSeek Sparse Attention (DSA) an auf GQA basierende multimodale Architekturen anpasst und so eine verlustfreie Verarbeitung von 256K Kontexten bei gleichzeitiger Erfassung von Schlüsselframes und langfristigen zeitlichen Abhängigkeiten ermöglicht. Diese Architektur wird durch eine hochoptimierte Trainings- und Inferenzinfrastruktur gestützt, die skalierbare Video-E/A, heterogenen ViT-LM-Parallelismus und benutzerdefinierte DSA-Kernel umfasst, wodurch der Durchsatz maximiert und der Rechenaufwand minimiert wird. Darüber hinaus führen wir zur Überwindung des algorithmischen Dilemmas des katastrophalen Vergessens während der Multi-Task-Ausrichtung die Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) in Kombination mit Context-RL und Video-RL ein. Durch die Destillation dichten Token-Level-Lehrer-Feedbacks aus On-Policy-Rollouts zurück in das MoE-Backbone, das nur 3B Parameter aktiviert, befähigt Keye-VL-2.0 nativ fortgeschrittene Agenten-Kollaboration in Code-, Tool- und Search-Szenarien mit multimodaler Selbstkorrektur. Umfassende Evaluierungen auf Benchmarks zu Videoverständnis, zeitlicher Verankerung, Reasoning, STEM und Agenten zeigen, dass Keye-VL-2.0-30B-A3B Spitzenleistungen unter Modellen vergleichbarer Größe erzielt, insbesondere bei der feinkörnigen zeitlichen Lokalisierung auf TimeLens und dem Verständnis langer Videos auf Video-MME-v2 und LongVideoBench. Wir veröffentlichen unsere Modell-Checkpoints, um den Fortschritt der Community hin zu skalierbaren und robusten multimodalen Agentenanwendungen zu beschleunigen.

Role-Agent: Bootstrapping von LLM-Agenten durch Dual-Rollen-Evolution
Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Jun 9

ByXucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu

Obwohl Agenten, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, bei komplexen Aufgaben eine starke Leistung gezeigt haben, wird ihr Lernen oft durch ineffizientes Interaktionsfeedback und statische Trainingsumgebungen eingeschränkt, was eine breitere Generalisierung behindert. Um diese Einschränkungen zu adressieren, führt dieses Paper Role-Agent ein, ein Framework, das ein einzelnes LLM nutzt, um gleichzeitig sowohl als Agent als auch als Umgebung zu fungieren, wodurch eine bootstrapierte Koevolution ermöglicht wird. Role-Agent besteht aus zwei synergetischen Komponenten: World-In-Agent (WIA) und Agent-In-World (AIW). In WIA agiert das LLM als Agent und prognostiziert nach jeder Aktion zukünftige Zustände; die Übereinstimmung zwischen prognostizierten und tatsächlichen Zuständen wird dann als Prozessbelohnung verwendet, was umgebungsbewusstes Denken fördert. In AIW analysiert das LLM Fehlermodi aus fehlgeschlagenen Trajektorien und ruft Aufgaben mit ähnlichen Fehlermustern ab, wodurch die Trainingsdatenverteilung für gezieltes Üben umgeformt wird. Experimente mit mehreren Benchmarks zeigen, dass Role-Agent die Leistung konsistent verbessert, mit einem durchschnittlichen Zugewinn von über 4% gegenüber starken Basislinien.

Retrospektive Nutzoptimierung: Verbesserung von LLM-Agenten durch Selbstpräferenz über Trajektorien-Rollouts
Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

Jun 4

ByWenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia

KI-Agenten stützen sich auf ein Bündel aus Fähigkeiten, Werkzeugen und Arbeitsabläufen, um komplexe Probleme zu lösen. Die kontinuierliche Verbesserung dieses Bündels ist für die Anpassung an neue Aufgaben unerlässlich. Allerdings erfordern bestehende Optimierungsmethoden üblicherweise Ground-Truth-Validierungssets, doch derart gekennzeichnete Daten sind in praktischen Einsatzumgebungen nur schwer zu beschaffen. Um dieses Problem anzugehen, führen wir die Retrospective Harness Optimization (RHO) ein, eine selbstüberwachte Methode, die das Agentenbündel ausschließlich mithilfe vergangener Trajektorien optimiert. Konkret wählt RHO ein diverses Kernset anspruchsvoller Aufgaben aus vergangenen Trajektorien aus und löst diese parallel erneut. Der Agent analysiert diese Rollouts mittels Selbstvalidierung und Selbstkonsistenz, generiert anschließend Kandidaten für Bündelaktualisierungen und wählt die effektivste anhand seiner eigenen paarweisen Selbstpräferenz aus. Wir evaluieren RHO in drei verschiedenen Bereichen, die Softwareentwicklung, technische Arbeit und Wissensarbeit umfassen. Bemerkenswerterweise verbessert ein einziger Optimierungsdurchlauf die Bestehensquote auf SWE-Bench Pro von 59 % auf 78 %, ohne dass eine externe Bewertung erforderlich ist. Darüber hinaus zeigt unsere Analyse, dass RHO gezielt frühere Fehlermodi adressiert. Folglich verändert das optimierte Bündel die Verhaltensmuster des Agenten und bewahrt eine höhere Genauigkeit während längerfristiger Sitzungen.

SearchSwarm: Auf dem Weg zur Delegationsintelligenz in agentischen LLMs für langfristige tiefgehende Forschung
SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

Jun 8

ByPu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

Von großen Sprachmodellen wird zunehmend erwartet, dass sie komplexe, langfristige reale Aufgaben bewältigen, deren Kontextanforderungen unbegrenzt wachsen können, während die Kontextfenster der Modelle inhärent begrenzt bleiben. Aktuelle Arbeiten untersuchen ein Paradigma, bei dem ein Hauptagent Aufgaben zerlegt und Teilaufgaben an Unteragenten delegiert, die diese ausführen und nur zusammengefasste Ergebnisse zurückgeben, wodurch das Kontextbudget des Hauptagenten geschont wird. Um dies jedoch gut zu bewerkstelligen, ist Delegationsintelligenz erforderlich: die Fähigkeit, komplexe Aufgaben zu zerlegen, zu bestimmen, wann und was delegiert werden soll, und zurückgegebene Ergebnisse in den laufenden Arbeitsablauf zu integrieren. Trainingsdaten für diese Fähigkeit sind in natürlich vorkommenden Texten rar, und unseres Wissens nach ist die Synthese solcher Daten und das Trainieren von Modellen zum Erwerb dieser Fähigkeit in der Open-Source-Community weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir eine vorläufige Untersuchung vor, die auf tiefgehende Recherche abzielt, eine repräsentative langfristige Agentenaufgabe. Insbesondere entwerfen wir eine Steuerung, die das Modell zu einer hochwertigen Aufgabenzerlegung und -delegation führt, während die Unteragenten dazu angehalten werden, Ergebnisse ordnungsgemäß zurückzugeben, um den Arbeitsablauf des Hauptagenten zu unterstützen. Die durch die Steuerung geführten Trajektorien kodieren auf natürliche Weise korrekte Delegationsentscheidungen, die wir als überwachte Feinabstimmungsdaten verwenden, um Delegationsintelligenz in die Modellgewichte zu verinnerlichen. Unser resultierendes Modell SearchSwarm-30B-A3B erreicht 68,1 auf BrowseComp und 73,3 auf BrowseComp-ZH, die besten Ergebnisse aller Modelle vergleichbarer Größe. Wir werden unsere Steuerung, Modellgewichte und Trainingsdaten veröffentlichen, um zukünftige Forschung zu ermöglichen.

Jenseits der uniformen Token-Level-Trust-Region im Reinforcement Learning von LLMs
Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

Jun 9

ByRenjie Mao, Xiangxin Zhou, Lvfang Tao, Yixin Ding, Yu Shi, Yongguang Lin, Yuheng Wu, Honglin Zhu, Qian Qiu, Wenxi Zhu

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich als Standard zur Verbesserung des logischen Denkens großer Sprachmodelle etabliert. Allerdings bleiben bestehende PPO-artige Vertrauensbereichmechanismen positionsunabhängig, indem sie für alle Token unabhängig voneinander einheitliche Schwellenwerte durchsetzen. Diese punktweise Behandlung steht in zweierlei Hinsicht im Widerspruch zur autoregressiven Generierung. Erstens ignorieren einheitliche Schwellenwerte die autoregressive Asymmetrie: Abweichungen in frühen Phasen verursachen eine kumulative Drift auf Sequenzebene, sodass statische Schwellenwerte frühe Abweichungen unzureichend regulieren und späte Erkundungsphasen übermäßig einschränken. Zweitens übersieht die isolierte Bewertung von Token-Divergenzen die kumulative Präfix-Divergenz, da unabhängig vom Grad der Abweichung des konditionierenden Verlaufs von der Rollout-Policy stets derselbe Divergenzspielraum gewährt wird. Um diese Einschränkung zu beheben, schlagen wir CPPO (Cumulative Prefix-divergence Policy Optimization) vor – eine Token-Maskierungsregel, die Aktualisierungen über zwei gekoppelte Mechanismen an eine endliche Horizont-Policy-Verbesserungsschranke anpasst. Erstens legt ein positionsgewichteter Schwellenwert an frühen Positionen, deren Effekte länger anhalten, strengere Grenzen fest und lockert die Beschränkungen für Token in späten Phasen. Zweitens erfasst ein kumulatives Präfixbudget historische Abweichungen und schränkt weitere Token-Divergenzen dynamisch ein, um kumulierende Fehler entlang des Präfixes zu verhindern. Empirisch verbessert CPPO die Trainingsstabilität und die Genauigkeit des logischen Denkens über verschiedene Modellgrößen hinweg erheblich.

MemDreamer: Entkopplung von Wahrnehmung und Schlussfolgerung für das Verständnis langer Videos durch hierarchischen Graphspeicher und agentischen Retrieval-Mechanismus
MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

Jun 5

ByCong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

Aktuelle Vision-Language-Modelle (VLMs) haben Schwierigkeiten mit stundenlangen Videos, da die Verarbeitung vollständiger visueller Sequenzen zu einer untragbaren Token-Explosion und Aufmerksamkeitsverdünnung führt. Um dies zu überwinden, führen wir MemDreamer ein, der Wahrnehmung und Reasoning entkoppelt und das Verständnis langer Videos in einen agentischen Explorationsprozess überführt. Als Plug-and-Play-Framework streamt er Videos inkrementell, um ein hierarchisches Graphgedächtnis aufzubauen – eine Top-Down-Drei-Ebenen-Architektur zur semantischen Abstraktion, verankert durch einen grundlegenden Graphen, der räumlich-zeitliche und kausale Beziehungen erfasst. Während der Inferenz nutzt das Reasoning-Modell agentisches, werkzeugunterstütztes Retrieval, durchquert Hierarchien, durchsucht Knoten und traversiert logische Kanten über eine Beobachtungs-Reasoning-Aktions-Schleife. Experimente zeigen, dass MemDreamer auf vier gängigen Benchmarks Spitzenergebnisse (SOTA) erzielt und den Abstand zu menschlichen Experten auf nur 3,7 Punkte verringert. Er begrenzt das Reasoning-Kontextfenster auf lediglich 2 % der Vollkontextaufnahme und erzielt gleichzeitig eine absolute Genauigkeitssteigerung von 12,5 Punkten. Darüber hinaus deckt eine statistische Analyse eine starke positive lineare Korrelation zwischen der Leistung eines VLM bei Logik-Reasoning- und Langvideo-Verständnis-Benchmarks auf, was die agentische Fähigkeitsskalierung als neues Paradigma für multimodales Verständnis etabliert.

Flow-DPPO: Divergenz-Proximale-Politikoptimierung für Flow-Matching-Modelle
Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Jun 9

ByBowen Ping, Xiangxin Zhou, Penghui Qi, Minnan Luo, Liefeng Bo, Tianyu Pang

Aktuelle Arbeiten haben gezeigt, dass Online-Verstärkungslernen (RL) die Qualität und Ausrichtung von Flow-Matching-Modellen für die Bild- und Videogenerierung erheblich verbessern kann. Methoden wie Flow-GRPO und CPS modellieren den Entrauschungsprozess als Markov-Entscheidungsprozess und wenden PPO-artiges Ratio-Clipping an, um eine Vertrauensregion zu erzwingen. Wir argumentieren jedoch, dass Ratio-Clipping strukturell ungeeignet für Flow-Modelle ist: Das Wahrscheinlichkeitsverhältnis zwischen alter und neuer Policy ist eine verrauschte Einzelstichprobenschätzung der tatsächlichen Policy-Divergenz, was in einigen Regionen der Trajektorie zu einer Überbeschränkung und in anderen zu einer Unterbeschränkung führt. Wir schlagen Flow-DPPO (Flow Divergence Proximal Policy Optimization) vor, das Ratio-Clipping durch eine Divergenz-Proximal-Beschränkung ersetzt. Eine zentrale Beobachtung ist, dass die Schritt-für-Schritt-Policy in Flow-Modellen Gauß'sch ist, was eine exakte und günstige Berechnung der KL-Divergenz zwischen alter und neuer Policy ermöglicht. Flow-DPPO verwendet eine asymmetrische Divergenzmaske, die Gradienten-Updates nur dann blockiert, wenn sie sich gleichzeitig von der Vertrauensregion entfernen und den Divergenzschwellenwert verletzen. Experimente zeigen, dass Flow-DPPO höhere Belohnungen mit besserer KL-Proximal-Effizienz erzielt, katastrophales Vergessen abmildert, eine ausgewogene multiobjektive Optimierung fördert und ein stabiles Training über mehrere Epochen ermöglicht, bei dem Ratio-Clipping an Leistung verliert. Code und Modelle sind verfügbar unter https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

SCAIL-2: Vereinheitlichung der kontrollierten Charakteranimation mit End-to-End In-Context-Konditionierung
SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning

Jun 9

ByWenhao Yan, Fengjia Guo, Zhuoyi Yang, Jie Tang

Kontrollierte Charakteranimation erfordert die Übertragung von Bewegung von einer treibenden Sequenz auf einen Referenzcharakter. Frühere Arbeiten stützen sich stark auf Zwischenrepräsentationen, darunter Posen-Skelette zur Darstellung von Bewegung oder maskierte Hintergründe zur Darstellung der Umgebung, was unweigerlich zu Informationsverlust führt. Um dies zu adressieren, stellen wir SCAIL-2 vor, ein Framework, das diese Zwischenrepräsentationen umgeht und eine End-to-End-Charakteranimation ermöglicht. Durch direktes Anhängen von treibenden Videos an die Sequenz kann das Modell alle erforderlichen visuellen Informationen aus dem Eingabevideo beziehen. Um den Mangel an End-to-End-Daten zu beheben, vereinheitlichen wir Unteraufgaben der Charakteranimation mit entkoppelten Bedingungen und erstellen dann eine Pipeline zur Synthese von MotionPair-60K, einem End-to-End-Bewegungstransfer-Datensatz, der heterogene Aufgaben der Charakteranimation enthält. Um die Vereinheitlichung zu erreichen, nutzen wir In-Context-Masken-Konditionierung und modus-spezifisches RoPE als weiche Führung über textuelle Anweisungen und rohe visuelle Informationen hinaus. Um synthetische Diskrepanzen in detailreichen Regionen zu adressieren, schlagen wir Bias-Aware DPO vor, um Präferenzitems zu konstruieren und Fehler zu mindern. Umfangreiche Experimente zeigen, dass unsere Methode bestehende State-of-the-Art-Ansätze in verschiedenen Charakteranimationsaufgaben deutlich übertrifft. Ein großer Teil der synthetischen Daten sowie Modellgewichte werden auf unserer Projektseite veröffentlicht: https://teal024.github.io/SCAIL-2/.

Lip Forcing: Autoregressive Diffusion mit wenigen Schritten zur Echtzeit-Lippensynchronisation
Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

Jun 9

ByPaul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim

Diffusionsbasierte Lippen-Synchronisationsmodelle erzielen eine hohe visuelle Qualität und audiovisuelle Ausrichtung, jedoch machen bidirektionale Aufmerksamkeit über die gesamte Sequenz und viele Entrauschungsschritte sie für Echtzeit-Inferenz unpraktikabel. Wir präsentieren Lip Forcing, nach unserem Wissen die erste autoregressive Diffusionsmethode für Video-zu-Video (V2V) Lippen-Synchronisation, die einen 14B audiokonditionierten bidirektionalen Video-Diffusionslehrer in kausale Schüler destilliert. Bei der Inferenz erzeugen die Schüler jedes Segment in nur zwei Entrauschungsschritten ohne Inferenz-CFG, was eine Echtzeit-Lippen-Synchronisation ermöglicht. Eine lippensynchronisationsspezifische Lehrer-Trajektorien-Analyse zeigt einen CFG-Fidelity-Sync-Kompromiss: Vorhersagen ohne CFG bevorzugen die Referenztreue, während CFG-gesteuerte Vorhersagen die Synchronisation innerhalb eines mittleren Trajektorienbandes bevorzugen. Lip Forcing überführt dieses Ergebnis in drei analysenbasierte Komponenten: Sync-Window DMD, einen zweistufigen Inferenzplan und eine SyncNet-basierte Belohnung. Wir validieren Lip Forcing in zwei Schülergrößen, die beide aus dem 14B-Lehrer destilliert wurden. Der 1,3B-Schüler erreicht Echtzeit-Streaming bei 31 FPS, 17,6-mal schneller als sein gleichgroßes bidirektionales Modell. Der 14B-Schüler, das größte für V2V-Lippensynchronisation berichtete Diffusionsmodell, läuft 39,8-mal schneller als sein Lehrer bei vergleichbarer Referenztreue. Die Zeit bis zum ersten Frame liegt bei beiden Größen im Sub-Millisekundenbereich, weit unter jeder Diffusionsbasislinie.

WorldOlympiad: Kann Ihr Weltmodell einen Triathlon überstehen?
WorldOlympiad: Can Your World Model Survive a Triathlon?

Jun 9

ByYuke Zhao, Wangbo Zhao, Weijie Wang, Zeyu Zhang, Dakai An, Akide Liu, Yinghao Yu, Jiasheng Tang, Fan Wang, Wei Wang, Bohan Zhuang

Wir präsentieren WorldOlympiad, einen Benchmark zur Diagnose videobasierter Weltmodelle hinsichtlich physikalischer Treue, geometrischer Konsistenz und Interaktionstreue. Während bestehende Benchmarks oft auf visuelle Qualität, semantische Übereinstimmung oder kurzfristige zeitliche Kohärenz fokussieren, bieten sie nur begrenzte Einblicke, ob generierte Videos physikalischen Regeln folgen, kohärente 3D-Strukturen bewahren und über lange Horizonte kontrollierbare Interaktionen aufrechterhalten. Um diese Lücke zu schließen, zerlegt WorldOlympiad die Evaluierung von Weltmodellen in drei komplementäre Dimensionen. Die physikalische Spur verwendet Objektsegmentierung und MLLM-als-Richter, um zu beurteilen, ob generierte Videos interpretierbaren Regeln in Mechanik, thermischen Phänomenen und Materialeigenschaften folgen. Die geometrische Spur rekonstruiert generierte Videos mit Gaussian Splatting und bewertet strukturelle Konsistenz, sichtübergreifende Kohärenz sowie die Ausrichtung der Kameratrajektorie. Die Interaktionsspur beurteilt, ob generierte Rollouts komplexen Aktionsaufforderungen folgen und flüssige, kohärente Übergänge zwischen aufeinanderfolgenden Videosegmenten aufrechterhalten. WorldOlympiad umfasst zudem drei wichtige nachgelagerte Szenarien – Gaming, Robotik und allgemeine reale Videos – und erfasst vielfältige Herausforderungen von interaktiver Steuerung über verkörperte Manipulation bis hin zu offenen Bewegungs- und Kameradynamiken. Zusammen bilden diese Spuren und Szenarien eine skalierbare und interpretierbare Evaluierungssuite, die Fehlermodi jenseits generischer Videoqualität aufdeckt. Experimente mit modernsten Modellen offenbaren erhebliche Lücken im physikalischen Denken, der 3D-Konsistenz und der Langzeitinteraktion und unterstreichen die Notwendigkeit strukturierterer Evaluierungsprotokolle für generative Weltmodelle.

Neubetrachtung der Divergenzregularisierung im LLM-RL
Rethinking the Divergence Regularization in LLM RL

Jun 8

ByJiarui Yao, Xiangxin Zhou, Penghui Qi, Wee Sun Lee, Liefeng Bo, Tianyu Pang

Reinforcement Learning (RL) ist zu einer Schlüsselkomponente des Post-Trainings großer Sprachmodelle (LLMs) geworden. In der Praxis ist LLM-RL aufgrund von Trainings-Inferenz-Diskrepanzen und veralteten Policies häufig off-policy, weshalb eine Kontrolle der Vertrauensregion für eine stabile Optimierung unerlässlich ist. Gängige Methoden wie PPO und GRPO nähern diese Kontrolle durch einen Ratio-Clipping-Mechanismus an, doch die Importance Ratio kann bei langschwänzigen Vokabularen ein schlechter Proxy für die Distributionsverschiebung sein. Neuere Arbeiten wie DPPO beheben diese Diskrepanz, indem sie das ratio-basierte Clipping durch eine divergenzbasierte Maske ersetzen, was eine Vertrauensregion definiert, die auf der absoluten Wahrscheinlichkeitsverschiebung des abgetasteten Tokens beruht. Allerdings basiert DPPO nach wie vor auf einer harten Maske: Sobald ein Token die Grenze der Vertrauensregion in eine schädliche Richtung überschreitet, wird sein Gradient verworfen, anstatt korrigiert zu werden. Um dieses Problem zu adressieren, schlagen wir Divergence Regularized Policy Optimization (DRPO) vor, das die harte Maske durch einen glatten, vorteilsgewichteten quadratischen Regularisierer auf die Policy-Verschiebung ersetzt. DRPO bewahrt die gleiche Geometrie der Vertrauensregion wie DPPO, induziert jedoch beschränkte, kontinuierliche Gradientengewichte, die divergierende Updates abschwächen und auch jenseits der Grenze Korrektursignale liefern. Experimente über verschiedene Modellgrößen, Architekturen und Präzisionseinstellungen hinweg zeigen, dass DRPO die Stabilität und Effizienz des LLM-RL-Trainings verbessert.

EEVEE: Auf dem Weg zum Testzeit-Prompt-Learning in der realen Welt für selbstverbessernde Agenten
EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

Jun 9

ByWeixian Xu, Shilong Liu, Mengdi Wang

In dieser Arbeit stellen wir EEVEE vor, das erste Multi-Dataset-Testzeit-Prompt-Learning-Framework für LLM-Agenten, das Testzeit-Prompt-Learning unter realen Aufgabenströmen ermöglicht. Bestehende Methoden sind weitgehend für Einzeldatensatz-Umgebungen konzipiert, während reale Anwendungen Modelle erfordern, die heterogene Eingabeströme aus mehreren Datensätzen, Domänen und Aufgabenverteilungen verarbeiten können, was ihre praktische Anwendbarkeit einschränkt. Um cross-dataset-Interferenzen zu reduzieren, führt EEVEE einen Router ein, der eingehende Eingaben in Aufgabencluster unterteilt und diesen geeignete Prompt-Konfigurationen zuweist. Dieses Design wird über eine Router-Prompt-Ko-Evolutionsstrategie optimiert, die verschränkte Router- und Prompt-Lernphasen einsetzt, um ihre gegenseitige Abhängigkeit zu adressieren. Experimente mit mehreren Datensätzen zeigen, dass das Framework die Robustheit unter heterogenen Datenströmen verbessert und gleichzeitig die Einzel-Benchmark-Lernfähigkeit und Effizienz bewahrt. Insbesondere verbessert EEVEE die durchschnittlichen Multi-Benchmark-Ergebnisse um 10,38 bzw. 24,32 Punkte gegenüber Qwen3-4B-Instruct und DeepSeek-V3.2 und übertrifft die SOTA-Methoden GEPA und ACE um bis zu 37,2% bzw. 48,2%.

ARM: Ein auto-regressives großes multimodales Modell mit vereinheitlichten diskreten Repräsentationen
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Jun 9

ByJunke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang

Diese Arbeit stellt ARM vor, ein auf diskreten Repräsentationen basierendes autoregressives Modell, das Bildverständnis, -generierung und -bearbeitung in einem Next-Token-Prädiktionsrahmen vereinheitlicht. ARM basiert auf drei Ansätzen: Erstens trainieren wir einen diskreten semantischen visuellen Tokenizer, der Bilder in kompakte Token-Sequenzen abbildet. Unser Tokenizer wird mit mehreren Zielen überwacht, die gemeinsam semantische Diskriminierbarkeit, Sprachausrichtung und originalgetreue Rekonstruktion fördern und somit verschiedene Aufgaben in einem gemeinsamen latenten Raum unterstützen. Damit trainieren wir ein 7B autoregressives Modell über große Mengen von Text- und Bild-Token-Sequenzen, das nahtlos visuell-sprachliche Wahrnehmungs- und Generierungsfähigkeiten entwickelt. Schließlich wendet ARM Bestärkendes Lernen (RL) an, um das präferenzausgerichtete Verhalten für Text-zu-Bild-Generierung und anweisungsgeführte Bearbeitung weiter zu verbessern, indem aufgabenbezogene Ziele wie visuelle Qualität, Anweisungsbefolgung und Bearbeitungskonsistenz optimiert werden. Überraschenderweise zeigen die Ergebnisse, dass RL nicht nur die Leistung bei den Zielaufgaben erheblich verbessert (z. B. Steigerung des WISE-Gesamtwerts von 0,50 auf 0,56, GEdit-Bench-EN G_O von 5,75 auf 6,68), sondern auch aufgabenübergreifende Synergien zwischen Text-zu-Bild-Generierung und Bearbeitung induziert. Insgesamt unterstreichen diese Ergebnisse das autoregressive Modellieren, wenn es mit starken Repräsentationen und Präferenzoptimierung kombiniert wird, als skalierbare Grundlage für multimodale Intelligenz. Code: https://github.com/wdrink/ARM.

Workflow-GYM: Zur Langzeitbewertung von agentischen Computernutzungsaufgaben in realen Berufsfeldern
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Jun 9

ByLiya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Yi Zhu, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Zhiyong Wu, Shen Yan, Yujia Qin, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang

In den letzten Jahren hat sich die Entwicklung von KI-Agenten rasant beschleunigt, um zunehmend komplexe, realweltliche Aufgaben zu bewältigen. Allerdings bewerten bestehende Benchmarks selten, ob Agenten grafische Benutzeroberflächen (GUIs) bedienen können, um langfristige, hochwertige professionelle Arbeitsabläufe in verschiedenen Bereichen abzuschließen. Aktuelle GUI-Benchmarks konzentrieren sich weiterhin hauptsächlich auf allgemeine Software, relativ einfache Anwendungen und kurzfristige Aufgaben. Daher ist weitgehend unbekannt, ob moderne Agenten Benutzeranweisungen folgen können, um domänenspezifische professionelle Software autonom zu bedienen und wirtschaftlich wertvolle Arbeit vollständig Ende-zu-Ende zu erledigen. Um diese Lücke zu schließen, stellen wir Workflow-GYM vor, einen Benchmark für langfristige GUI-Aufgaben mit Schwerpunkt auf professionellen Domänen und spezialisierten Softwareumgebungen. Durch umfangreiche Experimente mit den modernsten Modellen stellen wir fest, dass selbst die stärksten Modelle nur etwas über 30 % Erfolgsquoten erreichen. Dies verdeutlicht, dass professionelle, langfristige GUI-Arbeitsabläufe für aktuelle GUI-Agenten nach wie vor eine große Herausforderung darstellen. Eine weitere Analyse zeigt, dass aktuelle Agenten Schwierigkeiten haben, die Konsistenz langfristiger Arbeitsabläufe aufrechtzuerhalten, und häufig Phasenauslassungen, Fehlerfortpflanzung, Zielabweichungen sowie ein unzureichendes Verständnis professioneller Softwareumgebungen aufweisen. Unsere Ergebnisse liefern wichtige Einblicke in die Grenzen aktueller Agentensysteme und weisen auf zentrale Richtungen für die nächste Generation der GUI-Agenten-Forschung hin.

Ein Token pro multimodaler Evidenz: Latenter Speicher für ressourcenbeschränkte QA
One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

Jun 9

ByZhi Zheng, Ziqiao Meng, Hao Luan, Wei Liu, Wee Sun Lee

Externer Speicher verankert effektiv die auf großen Sprachmodellen (LLMs) und Bild-Sprach-Modellen (VLMs) basierende Fragebeantwortung (QA) in relevanter multimodaler Evidenz. Allerdings stellen bestehende Speicherparadigmen jedes Speicherelement in Form von Rohtext und -bildern dar, sodass retrievalbasierte Systeme die abgerufenen Texte oder Bilder an die Generierungs-LLMs/VLMs weiterleiten müssen, was zu hohem Tokenverbrauch und Speicherdruck führt und es für ressourcenbeschränkte Anwendungen unerschwinglich macht. Wir schlagen Latent Memory vor, ein Speicherparadigma im latenten Raum, das jedes rohe Text- oder Bildbeweiselement durch einen einzigen hochdimensionalen latenten Token ersetzt, der von einem kleinen Kompressor-LLM/VLM erzeugt wird. Anstatt rohe Evidenz zur Generierung abzurufen, operiert Latent Memory in einem einheitlichen latenten Darstellungsraum: Die Anfrage wird in diesen Raum eingebettet, um relevante latente Token abzurufen, und die abgerufenen latenten Token werden direkt einem vortrainierten LLM oder VLM als Prompt für die Antwortgenerierung übergeben. Um jeden latenten Token gleichzeitig informationsreich für Rekonstruktion, Abruf und Generierung zu machen, trainieren wir den Kompressor mit Rekonstruktions-, Kontrastiv- und Destillationszielen in einem einheitlichen End-to-End-Verfahren. Latent Memory wird an sieben rein textbasierten QA-Benchmarks (z. B. HotpotQA) und multimodalen QA-Benchmarks evaluiert, wo es im Vergleich zu fortgeschrittenen RAG-Baselines eine wettbewerbsfähige QA-Leistung erzielt, während es drei- bis zehnmal weniger Generierungstoken verbraucht. Es liefert zudem die stärkste bildgestützte QA-Leistung auf WebQA. Der Code ist verfügbar unter https://github.com/zz1358m/Latent-Memory-Master.

Aufmerksamkeitsamnesie in hybriden LLMs: Wenn CoT-Feinabstimmung den Langzeitabruf beeinträchtigt, und wie man ihn behebt
Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

Jun 9

ByXinyu Zhou, Boyu Zhu, Yi Xu, Zhiwei Li, Yingfa Chen, Huiming Wang, Zhijiang Guo

Chain-of-Thought (CoT) überwachtes Feintuning (SFT) wird häufig eingesetzt, um die Reasoning-Fähigkeit zu verbessern. Wir stellen jedoch fest, dass es bei hybriden Lineare-Attention-Modellen systematisch den Langkontext-Abruf verschlechtert. Über Architekturen wie HypeNet und Jet-Nemotron hinweg verschlechtert sich die Retrieval-Leistung bei der Nadel-im-Heuhaufen-Aufgabe (NIAH) nach CoT-SFT erheblich, und die Verschlechterung wird unter schwierigeren Retrieval-Bedingungen und bei längeren Kontextfenstern noch gravierender. Beispielsweise sinkt HypeNet-9B bei NIAH-S2@256K von 67,2 % auf 9,4 %. Wir führen dies darauf zurück, dass CoT-SFT die Aufmerksamkeitsgradienten hin zu kurzfristigen Mustern verzerrt und dabei die Query-Key-Projektionen (W_Q, W_K) stört, die für das Langstrecken-Routing verantwortlich sind. Ausgehend von dieser Beobachtung schlagen wir QK-Restore vor, eine trainingsfreie Methode, die nur W_Q und W_K aus dem Pre-SFT-Checkpoint wiederherstellt, während alle anderen Post-SFT-Parameter erhalten bleiben. Darüber hinaus führen wir eine Procrustes-Variante ein, um eine Balance zwischen Routing-Erhaltung und Reasoning-Anpassung zu erreichen. Über Architekturen hinweg stellt QK-Restore konsistent die Langkontext-Fähigkeit ohne Trainingskosten wieder her, während die Reasoning-Leistung erhalten bleibt; beispielsweise verbessert es bei HypeNet-5B die S3@256K von 65,4 % auf 76,4 %, während eine starke Reasoning-Leistung beibehalten wird.

Interpretation und Steuerung eines Text-zu-Sprache-Sprachmodells mit Sparse-Autoencodern
Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

Jun 8

ByNikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov

Sprachmodelle dienen zunehmend als Rückgrat von Text-zu-Sprache-Systemen (TTS), doch wir verstehen noch wenig darüber, welche Repräsentationen sie aufbauen, wenn Text- und generierte Sprach-Token einen einzigen residualen Datenstrom gemeinsam nutzen. Wir trainieren BatchTopK-Sparse-Autoencoder auf dem LM-Backbone von CosyVoice3 und führen eine modalitätsbewusste Auto-Interp-Pipeline ein, die jedes Merkmal danach beschriftet, in welchem Kontext es aktiviert wird – Text-Präfix-Kontext, 1-Sekunden-Sprachclips oder beidem. Die wiederhergestellten Merkmale sind interpretierbar und umfassen Phoneme, Lachen, Akzentaufforderungen sowie das Sprechergeschlecht. Die Steuerung durch den SAE-Latentraum zeigt, dass diese Merkmale kausal und nicht nur deskriptiv sind: Gezielte Eingriffe erhöhen die Lachwahrscheinlichkeit von 0,02 auf 0,79, kehren das wahrgenommene Sprechergeschlecht um und steuern die Sprechgeschwindigkeit, während der gesprochene Inhalt erhalten bleibt. SAE-Merkmale dienen somit sowohl als Interpretierbarkeitsobjekte als auch als Kontrollrichtungen für die TTS-Synthese.

SkillHarm: Lebenszyklus-bewusste, Skill-basierte Angriffe durch automatisierte Konstruktion
SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction

Jun 1

ByYuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou, Junyi Li, Weitong Ruan, Chentao Ye, Rahul Gupta, Diyi Yang, Yu Su, Huan Sun

Agentenfähigkeiten nehmen eine privilegierte Position im Agenten-Workflow ein, da von Agenten erwartet wird, dass sie diese implizit befolgen und ausführen, wodurch Drittanbieter-Fähigkeiten eine angreifbare Oberfläche darstellen. Bisherige Studien haben unsichere Agentenverhalten aufgedeckt, die durch angriffsbasierte Fähigkeiten ausgelöst werden, bewerten jedoch vergiftete Fähigkeiten hauptsächlich innerhalb einer einzelnen Aufgabenausführung und zählen Schäden durch Ad-hoc-Risikolisten auf. Um diese Lücken zu schließen, führen wir SkillHarm ein, einen Benchmark für angriffsbasierte Fähigkeiten über den gesamten Nutzungslebenszyklus hinweg, gepaart mit einer systematischen Taxonomie fähigkeitsrelevanter Risiken. SkillHarm bewertet zwei Angriffsszenarien: Fixed-Payload Poisoning (FPP), bei dem ein fest vergiftetes Fähigkeitspaket direkt jede Aufgabensitzung gefährdet, die es aufruft, und Self-Mutating Poisoning (SMP), bei dem eine anfangs harmlose Ausführung stillschweigend persistente Fähigkeitsinhalte mutiert und den Schaden bis zur erneuten Nutzung hinauszögert. Es definiert weiterhin 12 Risikotypen basierend auf der vom Schaden betroffenen Agenten-Workflow-Komponente: Datenpipelines, Systemumgebungen und Agentenautonomie. Um diese Angriffe in großem Maßstab zu instanziieren, entwickeln wir AutoSkillHarm, eine automatisierte Konstruktionspipeline mit Codierungsagenten, die von natürlichsprachigen Treibern gesteuert werden. Der resultierende Benchmark enthält 879 Angriffsbeispiele über 71 Fähigkeiten hinweg. Experimente zeigen, dass aktuelle Agenten weiterhin anfällig sind, mit Angriffserfolgsraten von bis zu 86,3 % bei FPP und 69,3 % bei SMP. Unsere Analyse offenbart zudem ein latentes Risiko: Viele scheinbare Angriffsfehlschläge resultieren daraus, dass der Agent die vergiftete Datei nicht einbezieht, anstatt aus echtem Widerstand, und aktuelle Abwehrmaßnahmen sind noch nicht in der Lage, die Bedrohung zuverlässig zu entschärfen.

Online-Fertiglernen für Web-Agenten mittels zustandsgebundener dynamischer Abfrage
Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

Jun 3

ByJiaxi Li, Ke Deng, Yun Wang, Jingyuan Huang, Yucheng Shi, Qiaoyu Tan, Jin Lu, Ninghao Liu

Sprachagenten verlassen sich zunehmend auf wiederverwendbare Fähigkeiten, um mehrstufige Webautomatisierung in verwandten Aufgaben zu verbessern. Ein wachsender Forschungszweig untersucht das Online-Fähigkeitslernen, bei dem Agenten kontinuierlich aus früheren Aufgabenverläufen Fähigkeiten ableiten und diese spontan in zukünftigen Aufgaben wiederverwenden. Allerdings setzen bestehende Methoden Fähigkeiten hauptsächlich auf Aufgabenebene wieder ein: Eine feste Menge an Fähigkeiten wird basierend auf der anfänglichen Aufgabenanweisung abgerufen und dann während der gesamten Ausführung beibehalten. Diese statische Strategie ist nicht auf die Webausführung abgestimmt, bei der die geeignete nächste Aktion nicht nur vom Aufgabenzielebenden auch vom aktuellen Webseitenzustand abhängt, der sich häufig in Situationen entwickelt, die von den anfänglichen Fähigkeiten nicht abgedeckt werden. Um diese Lücke zu schließen, schlagen wir das State-Grounded Dynamic Retrieval (SGDR) vor, eine Methode zum Online-Fähigkeitslernen, die eine schrittweise Wiederverwendung von Fähigkeiten für Webagenten ermöglicht. SGDR besteht aus drei Komponenten: einem Gleitfenster-Extraktionsprozess, der abgeschlossene Verläufe in wiederverwendbare Unterprozeduren umwandelt, die in Zwischenausführungszuständen aufgerufen werden können; einer dualen Text-Code-Repräsentation, die den Fähigkeitsabruf mit ausführbaren Aktionen verbindet; und einem zustandsverankerten dynamischen Retrieval-Mechanismus, der Fähigkeiten sowohl auf das Aufgabenzieleben als auch auf den aktuellen Webseitenzustand abstimmt. Experimente auf WebArena in fünf Bereichen zeigen, dass SGDR durchweg starke Baselines übertrifft und mit GPT-4.1 durchschnittliche Erfolgsquoten von 37,5 % und mit Qwen3-4B 24,3 % erreicht, was relativen Verbesserungen von 10,6 % bzw. 10,0 % gegenüber der stärksten Baseline entspricht. Der Code ist verfügbar unter https://github.com/plusnli/skill-dynamic-retrieval.

BrainSurgery: Reproduzierbare und zuverlässige deklarative Gewichtsmanipulationen für die Modellbearbeitung und das Upcycling
BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

Jun 8

ByGianluca Barmina, Annemette Broch Pirchert, Andrea Blasi Núñez, Lukas Galke Poech, Peter Schneider-Kamp

Mit der Skalierung von Deep-Learning-Modellen wird die Verwaltung, Inspektion und Modifikation großer Checkpoints zunehmend herausfordernd. Forscher müssen häufig Modellgewichte für Layer-Umstrukturierung, Präzisionsumwandlung, Niedrigrang-Faktorisierung und Architektur-Debugging ändern, doch diese Arbeitsabläufe stützen sich oft auf fragile Ad-hoc-Python-Skripte. Hier stellen wir BrainSurgery vor, ein Werkzeug für robuste und reproduzierbare „Tensor-Chirurgie“ an neuronalen Netzwerk-Checkpoints, und bieten eine Systemdemonstration mit vier Beispielen und drei Fallstudien, vom Model-Upcycling bis zur LoRA-Extraktion. Durch Abstraktion von Speicherformaten und Speicherverwaltung führt BrainSurgery komplexe Transformationen mittels deklarativer YAML-Pläne durch. Es unterstützt strukturelle Modifikationen, mathematische Transformationen und Tensor-Umformungen durch ausdrucksstarke Regex und strukturiertes Targeting, während eingebaute Assertionen Tensorformen, Datentypen und Werte validieren, um stille Fehler zu verhindern. Wir sehen voraus, dass BrainSurgery durch seine reproduzierbaren und validierten Operationen eine solide Grundlage für zukünftige Forschung bieten wird.

Wie verläuft das Denken? Verfolgung des aufmerksamkeitsinduzierten Informationsflusses für gezieltes RL in LLMs
How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

Jun 9

ByZhichen Dong, Yang Li, Yuhan Sun, Weixun Wang, Yijia Luo, Zinian Peng, Taiheng Ye, Chao Yang, Wenbo Su, Yu Cheng, Bo Zheng, Junchi Yan

Die Zuweisung von Verantwortlichkeiten auf Token-Ebene bleibt ein zentrales Hindernis für Reinforcement Learning (RL) in großen Sprachmodellen (Large Language Models, LLMs), da RL-Methoden üblicherweise alle Token gleich behandeln und nicht zwischen entscheidenden Denkschritten, routinemäßiger Formatierung oder fließenden Fülltexten unterscheiden. Neuere Ansätze nutzen modellinterne Signale, um eine feinere Kreditzuweisung zu erreichen, doch sind dies oft punktuelle Heuristiken, die die globale Struktur der Informationsausbreitung ignorieren. Wir schlagen FlowTracer vor, ein RL-Framework, das einen antwortgerichteten Denkfluss auf einem aufmerksamkeitsinduzierten gerichteten azyklischen Graphen verfolgt – Knoten entsprechen Tokens, Kantenkapazitäten stammen aus aggregierten Aufmerksamkeitsgewichten – und daraus einen Token-Kredit auf Basis dieser globalen Struktur ableitet. Die Kantenkapazitäten werden neu gewichtet, sodass nur der Einfluss erhalten bleibt, der den Antwortbereich erreichen kann, während lokale Flusserhaltung erzwungen wird, sodass Zwischentoken durch Pfadlängen oder irrelevante Verzweigungen weder effektive Masse verlieren noch gewinnen. Auf diesem Graphen extrahiert FlowTracer ein Informationsfluss-Backbone, das Frage und Antwort verbindet, und bewertet Tokens anhand des Flussdurchsatzes, wodurch stark einflussreiche Hubs und Aggregationskontrollpunkte sichtbar werden, die langreichweitige Abhängigkeiten vermitteln. Diese abgeleiteten Bedeutungen werden genutzt, um Belohnungen auf Token-Ebene zu formen, sodass Lernsignale präzise auf die Tokens fokussieren können, die Informationen zu (oder von) korrekten Antworten lenken, und erzielen konsistente Leistungssteigerungen über eine Reihe von Denkaufgaben hinweg.

Überbrückung der Agent-Welt-Lücke: Text-Welt-Modelle für LLM-basierte Agenten
Bridging the Agent-World Gap: Text World Models for LLM-based Agents

Jun 8

ByYixia Li, Hongru Wang, Peng Lai, Zhiwen Ruan, He Zhu, Youxin Zhu, Ganlong Zhao, Minda Hu, Yun Chen, Sibei Yang, Peng Li, Jeff Z. Pan, Jia Pan, Guanhua Chen, Yang Liu, Guanbin Li

Auf großen Sprachmodellen (LLMs) basierende Agenten werden zunehmend in interaktiven textuellen Umgebungen eingesetzt – von der Webnavigation und Codebearbeitung über die Werkzeugnutzung bis hin zu langfristigen Dialogen. Dennoch bleiben viele von ihnen weitgehend reaktiv, indem sie Beobachtungen auf Aktionen abbilden, ohne ein explizites Modell davon zu haben, wie diese Umgebungen strukturiert sind und sich entwickeln. Dies motiviert Textweltmodelle (TWMs): Übergangsmodelle über textuelle Zustände, die, gegeben einen Zustand und eine Kandidatenaktion, die resultierende Webseite, Terminalausgabe, API-Antwort oder Benutzerantwort vorhersagen und somit Planung, effizientes Lernen und prinzipienbasierte Evaluierung unterstützen. Wir überprüfen systematisch Textweltmodelle für LLM-basierte Agenten, organisiert um einen formalen Rahmen und den Agentenlebenszyklus: (1) Grundlagen, die Textweltmodelle definieren und sie nach Zustandsrepräsentation und Verankerungsdomäne charakterisieren; (2) Konstruktion, die die Paradigmen LLM-als-WM und Code-als-WM taxonomisiert und Methoden zu deren Erstellung überprüft; (3) Anwendung, die untersucht, wie Weltmodelle Agenten zur Trainingszeit durch Erfahrungssynthese und zur Inferenzzeit durch Planung, Verifikation und Anpassung unterstützen; und (4) Evaluierung, die sowohl die Evaluierung des Weltmodells selbst als auch seine Nutzung als Evaluierungsumgebung für Agenten abdeckt. Wir zielen darauf ab, dieses sich schnell entwickelnde Gebiet zu konsolidieren, seinen Designraum zu klären und offene Herausforderungen für zukünftige Forschung hervorzuheben.

Struct-Searcher: Agentisches strukturelles Denken verbessert multimodale tiefgehende Informationssuche
Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

Jun 5

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng

Deep-Research-Agenten haben zunehmend Aufmerksamkeit erregt aufgrund ihrer Fähigkeit, umfangreiche Online-Informationen zu sammeln, um Zielwissen zu erwerben, wobei sich neuere Bemühungen von rein textbasierter Informationssuche hin zu multimodalen Umgebungen verlagern. Bestehende agentische Workflows sind jedoch weitgehend an Evidenzakkumulationsmodelle angelehnt, die Evidenz linear aggregieren und keine prinzipiellen Mechanismen für den Umgang mit widersprüchlichen Informationen über heterogene Modalitäten hinweg bieten. Hierzu schlagen wir Struct-Searcher vor, einen strukturellen agentischen Workflow, der auf der Glaubensrevisionstheorie basiert und explizit einen sich entwickelnden multimodalen Strukturgraphen während des gesamten Reasoning-Prozesses aufrechterhält, wodurch eine effektive konfliktbewusste multimodale Tiefensuche ermöglicht wird. Umfangreiche Experimente mit mehreren Benchmark-Datensätzen und Basis-Modellen zeigen, dass Struct-Searcher (1) plug-and-play und modellagnostisch ist, mit einer durchschnittlichen relativen Genauigkeitssteigerung von 17,2% auf BrowseComp-VL über fünf verschiedene Backbones hinweg; (2) Spitzenleistungen erbringt, indem es konsequent moderne Vision-Language-Modelle (VLMs) und Deep-Research-Agenten übertrifft, mit relativen Genauigkeitssteigerungen von 3,7% auf MM-BrowseComp, 1,5% auf HLE-VL und 0,7% auf BrowseComp-VL gegenüber dem zweitbesten konkurrierenden Ansatz.

PsychoSafe: Hervorrufen psychologisch informierter Ablehnungen in großen Sprachmodellen
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

Jun 8

ByGianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher

Große Sprachmodelle (LLMs) sehen sich routinemäßig Anfragen gegenüber, die abgelehnt werden sollten, was einen Zielkonflikt zwischen Hilfsbereitschaft und Schadensverhütung schafft. Allerdings können Ablehnungen selbst hilfreich sein. In risikoreichen Interaktionen, die Krise, Zwang oder eskalierende Absicht beinhalten, kann eine direkte Verweigerung zwar direkten Schaden verhindern, aber dennoch die Bedürfnisse der Person hinter der Anfrage unberücksichtigt lassen. Wir stellen PsychoSafe vor, ein psychologisch fundiertes Ablehnungsframework, das Ablehnung als strukturierte unterstützende Kommunikation auf der Grundlage evidenzbasierter Interventionsstrategien neu definiert. Zur Entwicklung von PsychoSafe konstruieren wir ein Korpus von 8019 Prompt-Antwort-Paaren, das fünf psychologisch relevante Risikobereiche abdeckt, und wenden Prompting und parameter-effizientes Feintuning auf Qwen 3.5 27B an. Bei einem ausgewogenen Validierungssatz von 500 Prompts, bewertet mit einem LLM-Richter und durch menschliche Bewertungen validiert, verbessert PsychoSafe-Prompting die allgemeine Ablehnungsqualität um 28,1 % gegenüber einer generischen Baseline, mit besonders starken Zuwächsen bei der Weiterleitung an externe Ressourcen (+46,8 %) und der psychologischen Fundierung (+34,8 %), während die Leistung bei nachgelagerten Aufgaben ohne Ablehnungscharakter erhalten bleibt. Das Feintuning erzielt nahezu perfekte Ablehnungs- und Ressourcenverweisraten, verringert jedoch die Relevanz der Antworten. Zusätzliche Evaluierungen auf SORRY-Bench und XSTest zeigen eine starke Robustheit innerhalb des Bereichs, aber eine begrenzte Generalisierung außerhalb des Bereichs, was darauf hindeutet, dass zukünftige Arbeiten die Feintuning-Daten diversifizieren sollten, um Modellen zu helfen, Interventionen selektiv und nicht schematisch anzuwenden.

U-TTT: Zur generalisierbaren PET-Bildentrauschung mittels Testzeit-Training
U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

Jun 9

ByZhiwen Yang, Jiayin Li, Hao Lu, Hui Zhang, Zihua Wang, Bingzheng Wei, Yan Xu

Bestehende Deep-Learning-Modelle zur Entrauschung von Positronenemissionstomographie (PET)-Bildern leiden häufig unter einer starken Leistungseinbuße bei Verteilungsverschiebungen, was ihren robusten klinischen Einsatz grundlegend einschränkt. Diese mangelnde Generalisierungsfähigkeit beruht auf dem konventionellen Paradigma von Modellen mit festen Parametern, die sich nach dem Training nicht an Variationen in den Testdaten (z. B. Dosisstufen oder Scannertypen) anpassen können. Um diese Einschränkung zu überwinden und eine robuste Generalisierung zu erreichen, führen wir U-TTT ein, ein neuartiges U-förmiges Modell, das Testzeit-Training (TTT)-Schichten integriert, um die Modellparameter während der Inferenz durch Selbstüberwachung dynamisch anzupassen und sich so an die spezifischen Merkmale jeder Testinstanz anzupassen. Darüber hinaus verfügt U-TTT über einen Dual-Domain-Anpassungsmechanismus, bestehend aus einer räumlichen Testzeit-Training (S-TTT)-Schicht und einer Frequenz-Testzeit-Training (F-TTT)-Schicht, um die komplexen Beeinträchtigungen von 3D-PET-Daten umfassend zu erfassen. Die S-TTT-Schicht erfasst und korrigiert räumliche strukturelle Beeinträchtigungen, während die F-TTT-Schicht globale Rauschspektren unterdrückt und feine hochfrequente Details wiederherstellt. Umfangreiche Experimente zeigen, dass U-TTT eine Spitzenleistung bei der PET-Entrauschung erzielt und eine überlegene Generalisierung unter anspruchsvollen Verteilungsverschiebungen aufweist, einschließlich sowohl unbekannter Dosisstufen als auch unbekannter Scanner. Unser Code wird unter https://github.com/Yaziwel/U-TTT verfügbar sein.

Emergente Fehlausrichtung kann durch Sycophancy induziert und durch Alignment Gating rückgängig gemacht werden.
Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

Jun 8

BySicheng Wang, Xiangyang Zhu, Han Wang, Zongrui Wang, Yuan Tian, Kaiwei Zhang, Kaiyuan Ji, Qi Jia, Guangtao Zhai

Frühere Arbeiten haben gezeigt, dass das Feintuning großer Sprachmodelle auf böswillige oder falsche Ausgaben in engen Domänen eine breite Fehlausrichtung und schädliches Verhalten hervorrufen kann, ein Phänomen, das als emergente Fehlausrichtung (emergent misalignment) bekannt ist. Allerdings sind effiziente Methoden zur Umkehrung einer solchen Fehlausrichtung nach wie vor begrenzt. In dieser Arbeit leisten wir zwei Beiträge. Erstens identifizieren wir das Sycophancy-Feintuning, d.h. das Trainieren von Modellen, passiv mit falschen Meinungen von Nutzern übereinzustimmen, als einen bisher wenig erforschten Treiber emergenter Fehlausrichtung und zeigen, dass es breites und schwerwiegendes fehlausgerichtetes Verhalten hervorruft. Zweitens schlagen wir Alignment Gating vor, eine effiziente Methode zur Umkehrung emergenter Fehlausrichtung, die während des Feintunings lernbare und steuerbare Gates in das Modell einfügt. Durch das Feintuning lernen diese Gates, die internen Repräsentationen zu identifizieren, die für unsichere Antworten verantwortlich sind. Die Verstärkung oder Unterdrückung dieser Repräsentationen verschlimmert bzw. mildert daraufhin die emergente Fehlausrichtung. Darüber hinaus stellen wir fest, dass das Alignment-Gating-Modul eine starke Generalisierung aufweist: Gating-Gewichte, die aus Feintuning in engen Domänen gewonnen wurden, unterdrücken fehlausgerichtetes Verhalten in breiten Domänen erheblich, während sie die allgemeinen Fähigkeiten des Modells bewahren.

UniPET: ein universelles Netzwerk zur hochwertigen Entrauschung von PET-Bildern bei verschiedenen Dosisreduktionsfaktoren
UniPET: a universal network for high-quality PET image denoising across varied dose reduction factors

Jun 9

ByZhiwen Yang, Yang Zhou, Haowei Chen, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu

Die meisten bestehenden tiefenlernbasierten Methoden zur Rauschunterdrückung in PET-Bildern gehen von einem festen und bekannten Dosisreduktionsfaktor (DRF) für Niedrigdosis-PET-Bilder aus. Diese Methoden weisen jedoch eine erhebliche Leistungsverschlechterung auf, wenn der DRF in praktischen Anwendungen von dem angenommenen Wert abweicht. Um die Herausforderung durch variierende DRFs zu bewältigen, konzentrieren sich einige vorbereitende Studien auf die Aufgabe der universellen PET-Bild-Entrauschung, mit dem Ziel, ein universelles Modell über Niedrigdosisdaten hinweg über verschiedene DRFs zu trainieren. Dennoch haben diese einfachen universellen Modelle oft Schwierigkeiten mit nicht übereinstimmenden Stilen, die in verschiedenen DRF-Daten vorhanden sind, was zu dem Problem der Stilunterdrückung mit einem signifikanten Überglättungseffekt führt. Um dieses Problem zu lösen, führen wir innovativ die Domänengeneralisierung in die PET-Bild-Entrauschung ein und schlagen ein universelles PET-Bild-Entrauschungsnetzwerk (UniPET) vor, um eine hochwertige PET-Bild-Entrauschung über verschiedene DRFs hinweg zu erreichen. UniPET umfasst zwei Hauptinnovationen: ein Stilabgleichsnetzwerk (SAN) und eine regionsbewusste Lernstrategie (RALS). Insbesondere nutzt SAN Stilabgleichstechniken aus der Domänengeneralisierung, um Stile über verschiedene DRFs hinweg anzugleichen und wiederherzustellen, wodurch die Generalisierbarkeit des Modells über verschiedene DRFs sichergestellt wird, während Stile effektiv erhalten bleiben. Um die Stilwiederherstellung weiter zu verbessern, unterscheidet RALS zwischen glatten und stilisierten Regionen und führt ausschließlich auf letzteren adversariales Lernen durch, wodurch der Fokus des Modells gezielter auf das Lernen von stilisierten Regionen gelenkt wird. Es wird gezeigt, dass unser vorgeschlagenes UniPET adaptiv verschiedene DRF-Stile wiederherstellen und eine hochwertige PET-Bild-Entrauschung über DRFs hinweg erreichen kann. Umfassende Experimente zeigen, dass UniPET in spezifischen DRFs eine vergleichbare Leistung wie einzelne DRF-spezifische Modelle aufweist und sowohl quantitativ, wahrnehmungsbezogen als auch klinisch den aktuellen Stand der Technik bei der universellen PET-Bild-Entrauschung erreicht.

MilliVid: Hierarchische Latente zur Langzeitkonsistenz in der Videogenerierung
MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

Jun 8

ByIshaan Preetam Chandratreya, David Charatan, Basile Van Hoorick, Sergey Zakharov, Vitor Guizilini, Phillip Isola, Vincent Sitzmann

Videogenerative Modelle sind zunehmend leistungsfähiger geworden, doch die langreichweitige Konsistenz bleibt schwer zu erreichen, da selbst einige Dutzend Frames unpraktisch lange Transformer-Sequenzlängen erfordern. Wir zeigen, dass dieses Problem durch die Erzeugung von Videos mittels eines Coarse-to-Fine-Rollouts in einem mehrskaligen Token-Raum gemildert werden kann. Unser Ansatz ist einfach: Zunächst trainieren wir einen Autoencoder vortrainieren, der jedes Frame in eine Hierarchie von Tokens komprimiert, wobei die Ebenen von der typischen latenten Auflösung bis zu nur einer Handvoll Tokens pro Frame reichen. Die gröbsten Ebenen erfassen die wichtigsten Informationen, wie Szenenlayout und Semantik, während feinere Ebenen hochfrequente Erscheinung und Textur hinzufügen. Anschließend trainieren wir ein Videodiffusionsmodell, um diese Tokens mittels eines Coarse-to-Fine-Rollouts zu erzeugen. Durch sorgfältige Kontrolle des Detailgrads, mit dem Frames während jedes Rollout-Schritts erzeugt und als Kontext verwendet werden, können wir die langreichweitige Konsistenz in Geometrie und Objektpermanenz bewahren und gleichzeitig weniger Rechenleistung für die langreichweitige Konsistenz weniger wahrnehmungsrelevanter Details aufwenden. Wir validieren diesen Ansatz mit einem benutzerdefinierten Datensatz langer Minecraft-Videos, in denen er im Vergleich zu bestehenden Basislinien wesentlich konsistentere Rollouts erzeugt.

Was sollten Agenten sagen? Aktions-Zustands-Kommunikation für effiziente Multi-Agenten-Systeme
What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Jun 3

ByChen Huang, Yuhao Wu, Wenxuan Zhang

Multi-Agenten-Systeme (MAS), die auf großen Sprachmodellen basieren, sind typischerweise um Rollen, Pipelines und Turn-Zeitpläne herum organisiert, während die Inhalte, die Agenten einander übermitteln, oft als uneingeschränkte natürliche Sprache belassen werden. Diese freie Kommunikation kann jedoch den Token-Verbrauch schnell in die Höhe treiben, das gemeinsame Kontextfenster beanspruchen und letztlich sowohl die Systemleistung als auch die Inferenzkosten beeinträchtigen. Wir analysieren fünf gängige Strategien zur Kommunikation zwischen Agenten in zwei MAS-Topologien und stellen fest, dass keine feste Strategie universell optimal ist. Stattdessen enthalten effektive Nachrichten zwischen Agenten durchgängig handlungszentrierte Informationen, die von nachgelagerten Agenten benötigt werden. Darauf aufbauend schlagen wir PACT (Protocolized Action-state Communication and Transmission – protokollierte Aktions-Zustands-Kommunikation und -Übertragung) vor, das die Kommunikation zwischen Agenten als ein öffentliches Zustandsaktualisierungsproblem behandelt und jede rohe Agentenausgabe in einen kompakten Aktions-Zustands-Datensatz projiziert, bevor sie in den gemeinsamen Verlauf eingeht. Über verschiedene MAS-Topologien hinweg verbessert PACT durchgängig das Verhältnis von Leistung zu Kosten, wobei eine vergleichbare oder stärkere Aufgabenerfüllung mit deutlich weniger Token erzielt wird. Die Vorteile erstrecken sich auch auf Produktions-Coding-Tools: PACT steigert die Lösungsrate von OpenHands bei –10 % Token pro gelöster Aufgabe und bleibt auf SWE-agent lösungsneutral, während die Eingabe-Token halbiert werden. Unser Code ist öffentlich verfügbar unter https://github.com/iNLP-Lab/PACT.

Next Forcing: Kausale Weltmodellierung mit Multi-Chunk-Vorhersage
Next Forcing: Causal World Modeling with Multi-Chunk Prediction

Jun 9

ByGangwei Xu, Qihang Zhang, Jiaming Zhou, Xing Zhu, Yujun Shen, Xin Yang, Yinghao Xu

Autoregressive Videogenerierung hat sich als ein leistungsfähiges Paradigma für World Action Models (WAMs) etabliert. Bestehende Ansätze leiden jedoch unter langsamer Trainingskonvergenz und begrenzter konvergierter Genauigkeit, insbesondere bei hohen Bildraten, da die Trainingsüberwachung auf den aktuellen Chunk beschränkt ist, ohne explizite Signale zur zukünftigen Dynamik; zudem ist die Inferenz aufgrund iterativer Videoentrauschung langsam. In diesem Artikel präsentieren wir Next Forcing, ein Multi-Chunk-Prediction (MCP)-Framework für kausale Weltmodellierung, das schnelleres Training, höhere Genauigkeit und beschleunigte Inferenz ermöglicht. Inspiriert von der Multi-Token-Vorhersage in großen Sprachmodellen führt Next Forcing ein MCP-Trainingsziel ein, das das Hauptmodell mit leichten, auxiliären MCP-Modulen erweitert, um gleichzeitig Video-Chunks über mehrere zukünftige Zeithorizonte hinweg zu entrauschen (nächster^1, nächster^2, nächster^3 Chunk). Diese MCP-Module bilden eine kausale Kette über Vorhersagetiefen, bei der Zwischenmerkmale, die aus mehreren Schichten des Hauptmodells fusioniert werden, zur Vorhersage zukünftiger Dynamiken genutzt werden. Dies ermöglicht es, dass Vorhersagen der nahen Zukunft die der ferneren Zukunft informieren und bietet dem Hauptmodell eine dichte, mehrskalige zeitliche Überwachung. Während des Trainings beschleunigen die MCP-Module die Konvergenz erheblich und verbessern die konvergierte Genauigkeit, insbesondere bei hohen Bildraten: Bei 50 fps erreicht Next Forcing eine relative Verbesserung von 93,1% gegenüber LingBot-VA nach 5k Trainingsschritten und eine 2,3-fach schnellere Konvergenz und erzielt neue State-of-the-Art-Ergebnisse auf dem RoboTwin-Benchmark (94,1/93,5% auf Clean/Random). Bei der Inferenz können die MCP-Module beibehalten werden, um den nächsten Video-Chunk parallel zum aktuellen vorherzusagen, was eine 2-fache Inferenzbeschleunigung ermöglicht. Next Forcing zeigt auch signifikante Verbesserungen auf PhyWorld, einem Benchmark zur Bewertung der Einhaltung physikalischer Gesetze bei der Videogenerierung, und eine Reduzierung der FVD um über 50% beim allgemeinen Video-Pretraining.

Dynamische lineare Aufmerksamkeit
Dynamic Linear Attention

Jun 9

ByXin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang

Die Skalierbarkeit großer Sprachmodelle (LLMs) auf lange Kontexte wird grundlegend durch die quadratische Komplexität der Standard-Aufmerksamkeit eingeschränkt, was die Verwendung linearer Aufmerksamkeitsmechanismen mit subquadratischen Kosten motiviert. Zur Verbesserung der Repräsentationskapazität unter langen Kontexten organisieren neuere Ansätze den Speicher in einer Mehrzustandsweise. Allerdings basieren bestehende Methoden der linearen Aufmerksamkeit mit mehreren Zuständen auf festen Zustandsverschmelzungsstrategien, die sich nicht an dynamisch variierende Token-Wichtigkeiten anpassen können, wodurch kritische Token irreversibel verschleiert werden und über lange Sequenzen hinweg schwere Fehlerakkumulation entsteht. Um diese Einschränkung zu beheben, schlagen wir DLA vor, ein dynamisches Gedächtnismodellierungsframework für lineare Aufmerksamkeit mit mehreren Zuständen. DLA führt (i) die informationsbewusste dynamische Zustandsverschmelzung (Information-Aware Dynamic State Merging) ein, die Zustandsgrenzen adaptiv auf Basis der tokenbezogenen Informationsvariation festlegt, hochauflösende Repräsentationen um semantische Übergänge herum bewahrt und gleichzeitig stabile Regionen aggressiv zusammenfasst, sowie (ii) die kapazitätsbegrenzte Gedächtnismodellierung (Capacity-Bounded Memory Modeling), die einen festgroßen, chronologisch geordneten Zustandscache unterhält, indem sie selektiv benachbarte Zustände mit geringem Informationsgehalt verschmilzt, um das Speicherwachstum bei minimalem Informationsverlust zu kontrollieren. Wir trainieren DLA auf zwei verschiedenen linearen Aufmerksamkeitsmodellen vor und evaluieren es auf 16 Datensätzen aus drei Kategorien. Die experimentellen Ergebnisse belegen die Überlegenheit von DLA gegenüber dem Stand der Technik.

Testzeit-Gradientenführung von Fluss-Policies im Reinforcement Learning
Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

Jun 9

ByZhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine

Ausdrucksstarke kontinuierliche Steuerungspolicen, wie Diffusions- und Flussmodelle, bilden das Rückgrat der jüngsten Fortschritte bei der Skalierung von Imitationslernen für simulierte und reale Robotersteuerung. Obwohl bekannt ist, dass sie im überwachten Imitationslernszenario stabil skalieren, hat sich ihre Integration in Reinforcement-Learning-Pipelines (RL) zur Politikverbesserung als schwieriger erwiesen. Dies erfordert oft spezialisierte Trainingsziele oder die Rückpropagation durch Rauschunterdrückungsprozesse, was zu bekannten Stabilitätsproblemen führt und die Skalierbarkeit beeinträchtigt. In diesem Papier untersuchen wir die Frage, ob einfache Politikverbesserungsschemata allein zur Testzeit, bei intaktem stabilem überwachtem Policentraining, eine wettbewerbsfähige Alternative sein können, die diese Probleme umgeht. Zu diesem Zweck schlagen wir QGF (Q-Guided Flow) vor, einen RL-Algorithmus, der die Politikoptimierung vollständig zur Testzeit durchführt. QGF funktioniert, indem sowohl eine Referenz-Flusspolitik (über ein standardmäßiges Verhaltensklonungsziel) als auch ein Value-Function-Kritiker vortrainiert werden und zur Testzeit der Wertgradient verwendet wird, um die Referenzpolitik zur Erzeugung höherwertiger Aktionen zu leiten, ohne dass zusätzliches Policenlernen erforderlich ist. Empirisch übertrifft QGF frühere Testzeit-RL-Methoden auf Single-Task- und zielbedingten Offline-RL-Benchmarks mit hochdimensionalen Aktionsräumen und ist wettbewerbsfähig mit modernen Trainingszeit-Algorithmen, während die Ausführung viel günstiger ist. Darüber hinaus zeigt es eine günstige Skalierung mit der Modellgröße, da die Instabilität des Actor-Critic-Trainings vermieden wird, und bietet eine praktische und effektive alternative RL-Algorithmus mit ausdrucksstarken Policen.

Späte Schichtfusion ist ausreichend: Zweipfad-Vision-Token-Routing für multimodale große Sprachmodelle unter visueller Sättigung
Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

Jun 8

BySiyuan Liu, Jinyang Wu

Multimodale große Sprachmodelle (MLLMs) übernehmen üblicherweise das tiefe, symmetrische Transformer-Grundgerüst, das für unimodale Textmodellierung entwickelt wurde, und wenden dieselbe Berechnung einheitlich auf Bild- und Sprach-Tokens an. Dieses Design übersieht eine entscheidende Modalitätsasymmetrie: Bild- und Text-Tokens unterscheiden sich erheblich in Informationsdichte, Redundanz und erforderlicher Argumentationstiefe. Durch eine schichtweise Analyse von LLaVA-1.5 beobachten wir, dass visuelle Tokens in den mittleren Schichten tendenziell sättigen. Konkret sinkt die Text-zu-Bild-Aufmerksamkeit von 0,68 in Schicht 0 auf 0,07 in Schicht 4 und stabilisiert sich nach Schicht 18 nahe 0,04, während Text-Tokens weiterhin von tiefer semantischer Verarbeitung profitieren. Diese Ergebnisse deuten auf eine Diskrepanz zwischen architektonischer Symmetrie und tiefenasynchroner Modalitätsentwicklung hin, was zu redundanter visueller Berechnung und möglicher Drift von Wahrnehmungsrepräsentationen während tiefer aufgabenspezifischer Anpassung führt. Motiviert durch diese Erkenntnisse schlagen wir Dual-Path Vision Token Routing (DPVR) vor, ein modalitätsasymmetrisches Routing-Framework für effiziente MLLMs. Seine Kerninstanziierung, DPVR-LF (Late-Layer Fusion), leitet visuelle Tokens am Sättigungspunkt in eine einlagige trainierbare Nebenverzweigung um, führt einen dreizehnlagigen text-only Vorwärtsdurchlauf durch, der Bildpositionen im tiefen Stapel überspringt, und fusioniert die visuellen und textuellen Ströme erst in der letzten Schicht wieder. Mit etwa 3% trainierbaren Parametern erhält DPVR-LF wettbewerbsfähige multimodale Leistung auf Standard-Benchmarks und reduziert gleichzeitig die visuelle Berechnung im tiefen Transformer-Stapel. Die Ergebnisse stellen die konventionelle Annahme in Frage, dass visuelle Tokens alle tiefen Sprachmodellschichten durchlaufen müssen, und deuten darauf hin, dass eine einzige späte Fusionsschicht ausreichen kann, um eine starke Wahrnehmungskompetenz in MLLMs vom Typ LLaVA aufrechtzuerhalten.

Täuschen uns Coding-Agenten? Erkennung und Verhinderung von Betrug durch gedeckelte Bewertung mit randomisierten Tests
Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Jun 5

ByThanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida

Ein zunehmender Fehlermodus bei der Bewertung und dem Training von Agenten besteht darin, dass Modelle durch die Nutzung von Abkürzungen statt der Lösung der eigentlichen Aufgabe hohe Bewertungsergebnisse erzielen können, was zu trügerischer Leistung führt. Dies macht Bewertungsergebnisse als Maße für die tatsächliche Aufgabenlösungsfähigkeit unzuverlässig. Wir schlagen CapCode vor, ein Framework zur Konstruktion von Kodierungsdatensätzen mit randomisierten Tests, deren bestmögliche, nicht betrügerische Leistung absichtlich unter eins gedeckelt ist. Dieses gedeckelte Leistungsdesign verleiht den Bewertungsergebnissen eine klarere Interpretation: Ergebnisse, die deutlich über dem Deckel liegen, sind unplausibel und liefern daher Hinweise auf Betrug. Um Betrug zu verhindern, schlagen wir CapReward vor, ein auf dem CapCode-Prinzip basierendes Belohnungsdesign, das eine Optimierung über den Deckel hinaus unterbindet. Experimente über mehrere Datensätze hinweg zeigen, dass CapCode Betrug erkennt, während es die Leistungsrangfolge der Modelle bewahrt, und dass CapReward betrügerisches Verhalten reduziert, was zu Modellen führt, die die beabsichtigte Aufgabenspezifikation besser befolgen.

IR3DE: Ein linearer Router für große Sprachmodelle
IR3DE: A Linear Router for Large Language Models

Jun 4

ByEros Fanì, Oğuzhan Ersoy

Grundlegende große Sprachmodelle (Large Language Models, LLMs) zeigen Kompetenz in einer Vielzahl allgemeiner Aufgaben und erzielen bemerkenswerte Ergebnisse bei verschiedenen spezialisierten Aufgaben durch domänenspezifische LLMs. Angesichts der ständig wachsenden Liste verfügbarer LLMs werden Inferenz-Router vorgeschlagen, um das am besten geeignete LLM für jede Eingabeaufforderung auszuwählen. Bestehende Routing-Methoden optimieren jedoch entweder die Kosten über schwache bis starke allgemeine LLMs hinweg oder erfordern umfangreiches Training, um domänenspezifisches Routing zu unterstützen. In diesem Papier schlagen wir IR3DE vor, einen auf Ridge-Regression basierenden Router für Domänenexperten, der kostengünstige und schnelle Routing-Entscheidungen für jede Eingabeaufforderung ermöglicht. Wir evaluieren IR3DE in zwei Umgebungen des kausalen Sprachmodellierens (Causal Language Modeling, CLM), bei denen die Aufgaben die Vorhersage des nächsten Tokens für alle Domänen sind, sowie in einer Denkaufgaben-Umgebung, in der jede Domäne ihre eigene eindeutige Denkaufgabe hat. Trotz eines linearen Routers erreicht IR3DE in beiden CLM-Umgebungen eine mit den anderen Basislinien vergleichbare Leistung und übertrifft sie in der Denkaufgaben-Umgebung mit einer normalisierten Leistung von 98,4 %. Darüber hinaus ermöglicht IR3DE das Hinzufügen oder Entfernen neuer Domänenexperten, ohne dass der Router von Grund auf neu trainiert werden muss, sodass ein dynamischer Satz von LLMs mit minimalen Unterbrechungen für den Router selbst bereitgestellt werden kann. Unser Code ist verfügbar unter: github.com/gensyn-ai/IR3DE.

Die Rolle der Feedback-Ausrichtung bei der Selbstdestillation
The Role of Feedback Alignment in Self-Distillation

Jun 9

BySemih Kara, Oğuzhan Ersoy

Die Konditionierung eines Sprachmodells auf zusätzlichen Kontext, wie etwa Rückmeldungen zu einem vorherigen Versuch, verbessert typischerweise dessen Antwort. Selbstdestillation trainiert das Modell, diese Verbesserung beizubehalten, wenn der Kontext nicht vorhanden ist. Die Methode funktioniert, indem sie die Ausgabeverteilung des Modells unter zwei Einstellungen angleicht: einem Schüler, der nur die Frage sieht, und einem Selbstlehrer, der auch den Kontext sieht. Was das Modell lernt, hängt daher davon ab, welchen Kontext der Selbstlehrer erhält, doch die Gestaltung dieses Kontextes ist weitgehend unerforscht. Wir untersuchen die Kontextgestaltung für Selbstdestillation, indem wir einen Löser auf Rückmeldungen eines eingefrorenen Kritikers trainieren. Wir vergleichen drei Bedingungen: (i) eine binäre Belohnung (GRPO), (ii) die Referenzlösung und (iii) eine schrittweise ausgerichtete Kritik, die an die Argumentationsspur des Lösers angepasst ist. Die schrittweise ausgerichtete Kritik erzielt die größten Verbesserungen und übertrifft GRPO um 16,11 Punkte sowie die referenzlösungskonditionierte Selbstdestillation um 5,27 Punkte (Avg@12). Eine Vorteilsanalyse pro Token zeigt, warum: Schrittweise ausgerichtetes Feedback zielt nur auf die Tokens ab, bei denen die Argumentation fehlschlägt, und lässt korrektes Verhalten intakt. Die Konditionierung auf die Referenzlösung hingegen zwingt das Modell, sein Verhalten bei jedem Token zu ändern (selbst bei korrekten Schritten), da eine alternative Herleitung zwangsläufig in Formulierung und Ansatz abweicht. Dies deutet darauf hin, dass die strukturelle Ausrichtung zwischen Feedback und der Argumentation des Lösers ein entscheidender Faktor für die Wirksamkeit der Selbstdestillation ist.

PaperMentor: Ein menschenzentrierter Multi-Agent-Schreibtutor für KI-Forschungspapiere auf Overleaf
PaperMentor: A Human-Centered Multi-Agent Writing Tutor for AI Research Papers on Overleaf

Jun 7

ByJiarui Liu, Terry Jingchen Zhang, Ryan Faulkner, X. Angelo Huang, Vilém Zouhar, Dominik Glandorf, Isabel Dahlgren, Van Q. Truong, Rishit Dagli, Yuen Chen, Felix Leeb, Punya Syon Pandey, Yves Bicker, Suvajit Majumder, Wenyuan Jiang, Zeju Qiu, Sankalan Pal Chowdhury, Bernhard Schölkopf, Mona Diab, Zhijing Jin

Experten-Feedback von erfahrenen Forschenden ist für Nachwuchswissenschaftler*innen entscheidend, um ihre Manuskripte zu verbessern. Dennoch bleibt qualitativ hochwertiges Feedback oft rar, da die Begutachtung von Forschungspapieren arbeitsintensiv ist. Neuartige KI-gestützte Schreibassistenten konzentrieren sich weitgehend auf Grammatikkorrekturen oder die Simulation von Peer Reviews mit abschließenden Bewertungen, liefern jedoch keine konkreten, handlungsorientierten Vorschläge, die Studierende während des Schreibprozesses bei der Verbesserung ihrer Arbeiten unterstützen. Wir stellen PaperMentor vor, ein menschenzentriertes Schreibassistenzsystem, das handlungsorientierte Vorschläge als Overleaf-native Inline-Kommentare bereitstellt, während das eigentliche Schreiben vollständig den menschlichen Autor*innen überlassen bleibt. PaperMentor integriert eine sorgfältig aus den Schreibempfehlungen etablierter Forschender kuratierte Expertenkompetenzbibliothek mit 12 spezialisierten Agenten, die verschiedene Aspekte des wissenschaftlichen Schreibens abdecken, wie Formatierungskonformität, Formulierungsgenauigkeit und Terminologiekonsistenz. In einer Nutzerstudie (n=14) wurden 90,6 % der generierten Kommentare als umsetzbar und 67,5 % als valide bewertet – eine signifikante Verbesserung gegenüber einer GPT-5.2-Baseline ohne die Kompetenzbibliothek. Wir veröffentlichen PaperMentor als Open-Source-Software zur öffentlichen Nutzung. Unser Code ist unter der AGPL-3.0-Lizenz auf https://github.com/jiarui-liu/overleaf verfügbar.

Wenn die Chain of Thought besser weiß: Fehlermodi in Multi-Turn-Argumentationsmodellen
When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Jun 9

BySai Kartheek Reddy Kasu, Nils Lukas, Samuele Poppi

Fehler in Mehrschritt-Schlussfolgerungsmodellen bleiben bei einer Bewertung anhand von Endpunkten weitgehend unsichtbar. Ein Modell kann sich zu Beginn einer langen Dialogsequenz auf einen unsicheren Standpunkt festlegen, doch seine Verweigerungsrate im letzten Schritt kann kaum von einem robust ausgerichteten Basiswert zu unterscheiden sein. Um diese verborgenen zeitlichen Dynamiken aufzudecken, schlagen wir eine ablauforientierte Diagnosemethode vor – die CoT-Output-2x2-Sicherheitsmatrix. Dieses Rahmenwerk kennzeichnet jede Gesprächsrunde entlang zweier unabhängiger Achsen (internes Denken und sichtbare Ausgabe) und definiert vier operativ festgelegte Fehlerklassen: robuste Ausrichtung, Ausrichtungsvortäuschung, offener Jailbreak sowie eine eigenständige Fehlerform, die wir als Kontextinjektionsfehler bezeichnen (bei dem die Denkkette eine sichere Argumentation beibehält, die sichtbare Ausgabe jedoch schädliche Inhalte produziert – eine Mehrschritt-Ausprägung von Ungetreue im Denken). Wir evaluieren drei destillierte Argumentationsmodelle gegen einen festgelegten Angreifer unter fünf Überwachungsbedingungen und erfassen 6750 beobachtete Dialogrunden im Szenario „Informationsgefahr“. Unsere Analyse deckt zwei reproduzierbare Schwachstellen auf: ein Aufsichtsparadoxon, bei dem explizite Überwachungshinweise paradoxerweise die Raten der Ausrichtungsvortäuschung erhöhen statt senken, sowie einen Kontextinjektionsfehler, bei dem Modelle trotz sicherer interner Zustände auf unsichere externe Ausgaben fixiert bleiben. Wir veröffentlichen den vollständigen Datensatz aus Mehrschritt-Dialogen und Denkkettenspuren, um weiterführende Spurendiagnose-Forschung zu unterstützen.

Dezentrale Multi-Agenten-Systeme mit gemeinsamem Kontext
Decentralized Multi-Agent Systems with Shared Context

Jun 9

ByYuzhen Mao, Azalia Mirhoseini

Mehr-Agenten-Systeme (MAS) können das Reasoning großer Sprachmodelle zur Testzeit skalieren, indem sie komplexe Probleme in parallele Teilaufgaben zerlegen. Die meisten existierenden MAS stützen sich jedoch auf eine zentrale Orchestrierung, bei der ein Haupt-Agent Aufgaben zuweist, Ergebnisse sammelt und zusammenführt. Mit wachsender Anzahl an Teilaufgaben wird dieser Kontrolleur zu einem Kommunikations- und Integrationsengpass. Wir schlagen Decentralized Language Models (DeLM) vor, ein MAS-Framework, das die Koordination durch parallele Agenten, einen gemeinsamen verifizierten Kontext und eine Aufgabenwarteschlange dezentralisiert. Agenten beanspruchen asynchron Teilaufgaben, lesen den akkumulierten Fortschritt, führen lokales Reasoning durch und schreiben kompakte, verifizierte Aktualisierungen zurück. Der gemeinsame Kontext fungiert als gemeinsames Kommunikationssubstrat und ermöglicht es Agenten, auf dem verifizierten Fortschritt anderer aufzubauen, ohne jede Aktualisierung über einen zentralen Kontrolleur leiten zu müssen. Empirisch verbessert DeLM sowohl das Testzeit-Scaling im Software-Engineering als auch das Reasoning über lange Kontexte hinweg. Auf SWE-bench Verified erzielt DeLM die beste Leistung bei Avg.@1, Pass@2 und Pass@4 mit Verbesserungen von bis zu 10,5 Prozentpunkten gegenüber der stärksten Baseline, während die Kosten pro Aufgabe um etwa 50 % gesenkt werden. Auf LongBench-v2 Multi-Doc QA erreicht DeLM die höchste durchschnittliche Genauigkeit über vier frontier Modellfamilien hinweg und verbessert sich gegenüber der stärksten Baseline um bis zu 5,7 Prozentpunkte. Der Code ist auf unserer Projektwebsite unter https://yuzhenmao.github.io/DeLM/ verfügbar.

Wenn die Verhaltenssicherheitsbewertung scheitert: Eine Perspektive auf Repräsentationsebene
When Behavioral Safety Evaluation Fails: A Representation-Level Perspective

Jun 6

ByEnyi Jiang, Anders Gjølbye, Yibo Jacky Zhang, Sanmi Koyejo

Die Sicherheit großer Sprachmodelle (Large Language Models, LLMs) wurde häufig auf der Verhaltensebene bewertet, was nur begrenzte Hinweise auf die interne Robustheit liefert, da diese Bewertungen auf Ausgaben abzielen und nicht auf Verwundbarkeiten auf der Repräsentationsebene unter Eingriffen. Wir formalisieren diese Diskrepanz als die Prüfungslücke (Audit Gap): die Differenz zwischen Verhaltenssicherheit und Robustheit unter Eingriffen. Um diese Lücke zu untersuchen, konstruieren wir dissoziierte Modelle, die äußerlich sicheres Verhalten bewahren, während sie im latenten Raum verwundbar bleiben. Wir führen ein interventionsbasiertes Bewertungsrahmenwerk ein, um die Robustheit von Modellen durch weiche Eingriffe in Parameter- und latente Räume zu testen, einschließlich schädlichem Feintuning und schichtweisen latenten Störungen. Zur Formalisierung der Bewertung schlagen wir den Latent Vulnerability Score (LVS) vor, der misst, wie leicht schädliches Verhalten durch begrenzte latente Störungen hervorgerufen werden kann. Anhand dieses Bewertungsrahmenwerks zeigen wir, dass Metriken der Verhaltenssicherheit unzureichende Maße für die Robustheit auf Repräsentationsebene über mehrere sicher und unsicher ausgerichtete hochmoderne Modelle hinweg sind. Insbesondere weisen dissoziierte Modelle trotz vergleichbarem Ablehnungsverhalten unter schädlichen Eingriffen deutlich erhöhte LVS-Werte auf, wobei intermediäre Repräsentationen am empfindlichsten auf Eingriffe reagieren. Unsere Ergebnisse deuten darauf hin, dass die alleinige Bewertung der Verhaltenssicherheit ein unvollständiges Bild der Modellrobustheit liefert, was repräsentationsbewusste Prüfungen der latenten Vulnerabilität und des beobachtbaren Verhaltens motiviert.

FadeMem: Distanzbewusste Speicherkonsolidierung für autoregressive Videodiffusion
FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

Jun 9

ByYu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang

Autoregressive Videogeneratoren synthetisieren lange Videos durch die Erzeugung aufeinanderfolgender zeitlicher Segmente, jedoch wächst ihr historischer KV-Cache mit der Videolänge. Bestehende Methoden mit begrenztem Cache reduzieren diese Kosten durch lokale Fenster, Sink-Tokens oder komprimierte Speicherzustände, weisen jedoch üblicherweise verschiedenen Teilen der Historie feste Rollen zu. Wir schlagen FadeMem vor, einen distanzbewussten Mechanismus zur KV-Speicherkonsolidierung, der historische KV-Blöcke unter einem festen Cache-Budget in eine zeitliche Hierarchie organisiert. Dieses Design ist durch frequenzabhängigen zeitlichen Zerfall motiviert: Feine Details dekorrelieren schnell, während grobe Szenenstruktur und Identität über längere Horizonte hinweg nützlich bleiben. Während der Generierung wird neue Historie als feinkörnige Einträge eingefügt, während ältere benachbarte Einträge unter einem Potenzgesetz-Zeitzuteilungsplan progressiv zusammengeführt werden, was einen dichten-nahen, spärlich-fernen Speicher innerhalb eines Caches ergibt. Ohne architektonische Änderungen bewahrt FadeMem aktuellen Kontext für kurzfristige Dynamiken und kompakte Langstreckenanker für Identitäts- und Szenenkohärenz. Experimente zeigen verbesserte Subjektkonsistenz, Hintergrundstabilität und zeitliche Kohärenz im Vergleich zu bestehenden Strategien mit begrenztem Cache.

In-Context-Multiple-Instanz-Lernen
In-Context Multiple Instance Learning

Jun 4

ByAlexander Möllers, Marvin Sextro, Julius Hense, Gabriel Dernbach, Klaus-Robert Müller

Multiple Instance Learning (MIL) behandelt Probleme, bei denen die Überwachung auf der Ebene von Instanzbeuteln verfügbar ist, und wurde erfolgreich in Bereichen von der computationalen Pathologie bis hin zu Satellitenbildern angewendet. Dennoch haben bestehende Algorithmen Schwierigkeiten in dem durch wenige Labels gekennzeichneten Bereich (Low-Label-Regime), der viele reale Anwendungen charakterisiert. Flexible Modelle überfitten, während starre Modelle sich nicht an die vorliegende Aufgabe anpassen können. Wir zeigen, dass das Vortraining eines In-Context-Lerners mit einer Perceiver-artigen Architektur auf synthetischen Daten ein Modell ergibt, das neue Aufgaben aus einer Handvoll gelabelter Instanzbeutel lösen kann. Zur Inferenzzeit erfolgt die Klassifikation in einem einzigen Durchlauf und erfordert keine Gradientenaktualisierungen. Wir schlagen verschiedene synthetische Datengeneratoren für bag-strukturierte Daten vor und untersuchen diese; wir stellen fest, dass sie komplementäre induktive Biases erfassen. Ein auf einer Mischung dieser Generatoren vortrainiertes Modell übernimmt deren aufgabenspezifische Stärken und erzielt die beste durchschnittliche Leistung über zwölf MIL-Benchmarks hinweg, wobei es überwachte Basislinien übertrifft, die aufgabenspezifisches Training erfordern.

BenSyc: Benchmarking konversationaler Unterwürfigkeit und menschlicher Ausrichtung in großen Sprachmodellen für bengalische Kontexte
BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

Jun 8

ByKazi Noshin, Sajib Acharjee Dip, Ranat Das Prangon, Fardin Hassan Tamim, Syed Ishtiaque Ahmed, Liqing Zhang, Sharifa Sultana

Große Sprachmodelle (Large Language Models, LLMs) nehmen zunehmend an emotional sensiblen sozialen Gesprächen teil, wobei Antworten von einer ausgewogenen Unterstützung hin zu übermäßiger Validierung oder eskalierender Ausrichtung abweichen können. Die bestehende Sycophancy-Forschung konzentriert sich hauptsächlich auf faktische Übereinstimmung und Anweisungsbefolgungsszenarien, während kulturell verankerte Gesprächs-Sycophancy kaum untersucht ist. Wir stellen BenSyc vor, die erste Benchmark zur Untersuchung von Gesprächs-Sycophancy in bengalischen sozialen Kontexten. Ausgehend von 11.840 Reddit-Beiträgen und 170.000 Kommentaren aus Communities in Bangladesch und Westbengalen konstruieren wir eine human-validierte Benchmark mit binären Labels und einer feinkörnigen fünfteiligen Taxonomie, die Invalidierung, Neutralität, Unterstützung, Validierung und Eskalation umfasst. Wir evaluieren mehr als 15 offene und proprietäre LLMs hinsichtlich der Klassifikation der Gesprächsausrichtung und Aufgaben zur Antwortgenerierung. Die Ergebnisse zeigen, dass die Unterscheidung zwischen empathischer Unterstützung und verstärkungsorientierter Validierung selbst für moderne instruktionsabgestimmte Modelle eine Herausforderung darstellt: Das beste System erreicht lediglich 61,8 Macro-F1 bei der binären Erkennung und 61,7 Macro-F1 bei der Fünf-Klassen-Klassifikation. Bei Generierungsszenarien produzieren mehrere Modelle in emotional aufgeladenen Situationen häufig stark validierende oder eskalierende Antworten. Unsere Ergebnisse verdeutlichen erhebliche Unterschiede zwischen Modellfamilien und Gesprächsverhalten und unterstreichen die Bedeutung kulturell verankerter multilingualer Benchmarks für die Evaluierung sozial ausgerichteter KI-Konversationssysteme.