HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

42 papers found

Beobachten, Schließen und Suchen: Ein Benchmark für tiefgehende Videoanalyse auf offenen Webseiten zur agentenbasierten Videoreasoning
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Jan 11

ByChengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang

209

In real-worlden Videoszenarien zur Fragebeantwortung bieten Videos oft nur lokalisierte visuelle Hinweise, während verifizierbare Antworten über das offene Web verteilt sind; Modelle müssen daher gleichzeitig extrahierung von Hinweisen über Bildsequenzen hinweg, iteratives Retrieval und mehrstufige verifikationsbasierte Schlussfolgerungen durchführen. Um diese Lücke zu schließen, entwickeln wir den ersten Benchmark für tiefgehende Videoanalyse, VideoDR. VideoDR konzentriert sich auf videobasierte, offene Video-Fragebeantwortung, die Extraktion visueller Ankerpunkte über Bildsequenzen hinweg, interaktive Websuche und mehrstufiges Reasoning über kombinierte Video-Web-Evidenz erfordert; durch rigorose menschliche Annotation und Qualitätskontrolle erhalten wir hochwertige Proben tiefgehender Videoanalyse, die sechs semantische Domänen abdecken. Wir evaluieren mehrere proprietäre und open-source multimodale Großsprachmodelle unter sowohl Workflow- als auch Agenten-Paradigmen, und die Ergebnisse zeigen, dass Agenten nicht durchgängig überlegen gegenüber Workflows sind: ihre Vorteile hängen von der Fähigkeit eines Modells ab, anfängliche Videoankerpunkte über lange Retrieval-Ketten beizubehalten. Weitere Analysen zeigen, dass Zielabweichung und langfristige Konsistenz die Kernengpässe darstellen. Zusammenfassend bietet VideoDR einen systematischen Benchmark zur Untersuchung von Video-Agenten in offenen Webumgebungen und identifiziert die Schlüsselherausforderungen für Agenten der nächsten Generation zur tiefgehenden Videoanalyse.

BabyVision: Visuelles Denken jenseits der Sprache
BabyVision: Visual Reasoning Beyond Language

Jan 10

ByLiang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li

193

Während Menschen grundlegende visuelle Fähigkeiten lange vor dem Spracherwerb entwickeln, stützen sich zeitgenössische Multimodale LLMs (MLLMs) nach wie vor stark auf sprachliche Priors, um ihr fragiles visuelles Verständnis zu kompensieren. Wir haben eine entscheidende Tatsache aufgedeckt: State-of-the-Art MLLMs versagen konsequent bei einfachen visuellen Aufgaben, die Menschen, sogar Dreijährige, mühelos lösen können. Um diese Lücke systematisch zu untersuchen, führen wir BabyVision ein, einen Benchmark, der entwickelt wurde, um kernvisuelle Fähigkeiten von MLLMs unabhängig von linguistischem Wissen zu bewerten. BabyVision umfasst eine breite Palette von Aufgaben mit 388 Items, unterteilt in 22 Unterklassen über vier Schlüsselkategorien hinweg. Empirische Ergebnisse und humanevaluation zeigen, dass führende MLLMs signifikant unter menschlichen Referenzwerten abschneiden. Gemini3-Pro-Preview erzielt 49,7 Punkte, liegt damit hinter Sechsjährigen zurück und bleibt deutlich unter dem Erwachsenendurchschnitt von 94,1 Punkten. Diese Ergebnisse zeigen, dass aktuelle MLLMs trotz guter Leistungen in wissensbasierten Evaluationen immer noch grundlegende visuelle Primitive vermissen lassen. Fortschritte bei BabyVision stellen einen Schritt hin zu menschenähnlichen visuellen Wahrnehmungs- und Reasoning-Fähigkeiten dar. Wir erforschen zudem das Lösen visueller Reasoning-Aufgaben mit Generativmodellen durch den Vorschlag von BabyVision-Gen und einem automatischen Evaluations-Toolkit. Unser Code und Benchmark-Daten sind unter https://github.com/UniPat-AI/BabyVision zur Reproduktion veröffentlicht.

PaCoRe: Skalierung von Testzeit-Rechenleistung durch paralleles koordiniertes Schließen
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Jan 9

ByJingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum

Wir stellen Parallel Coordinated Reasoning (PaCoRe) vor, ein Trainings- und Inferenz-Framework, das entwickelt wurde, um eine zentrale Einschränkung aktueller Sprachmodelle zu überwinden: ihre Unfähigkeit, den Test-Time Compute (TTC) weit über sequenzielles Reasoning unter einem festen Kontextfenster hinaus zu skalieren. PaCoRe verlässt das traditionelle sequenzielle Paradigma, indem es den TTC durch massive parallele Erkundung antreibt, die über eine Nachrichtenübertragungsarchitektur in mehreren Runden koordiniert wird. Jede Runde startet viele parallele Reasoning-Pfade, verdichtet deren Erkenntnisse in kontextbegrenzte Nachrichten und synthetisiert diese Nachrichten, um die nächste Runde zu steuern und letztendlich die endgültige Antwort zu erzeugen. Das Modell wird end-to-end mit large-scale, ergebnisbasiertem Reinforcement Learning trainiert, beherrscht die für PaCoRe erforderlichen Synthesefähigkeiten und skaliert auf einen effektiven TTC im Bereich von mehreren Millionen Tokens, ohne die Kontextgrenzen zu überschreiten. Der Ansatz führt zu deutlichen Verbesserungen in verschiedenen Domänen und treibt das Reasoning insbesondere in der Mathematik über die Fähigkeiten von Frontier-Systemen hinaus: Ein 8B-Modell erreicht 94,5 % auf HMMT 2025 und übertrifft damit GPT-5 mit 93,2 %, indem es den effektiven TTC auf etwa zwei Millionen Tokens skaliert. Wir veröffentlichen Modell-Checkpoints, Trainingsdaten und die vollständige Inferenz-Pipeline als Open Source, um Folgearbeiten zu beschleunigen.

MHLA: Wiederherstellung der Ausdruckskraft linearer Aufmerksamkeit durch token-basierten Multi-Head-Ansatz
MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Jan 12

ByKewei Zhang, Ye Huang, Yufan Deng, Jincheng Yu, Junsong Chen, Huan Ling, Enze Xie, Daquan Zhou

Während die Transformer-Architektur in vielen Bereichen dominiert, behindert ihre quadratische Selbstaufmerksamkeitskomplexität den Einsatz in großmaßstäblichen Anwendungen. Lineare Aufmerksamkeit bietet eine effiziente Alternative, doch ihre direkte Anwendung führt oft zu Leistungseinbußen, wobei bestehende Lösungsansätze typischerweise durch zusätzliche Module (z.B. tiefenweise separierbare Faltungen) erneut Rechenaufwand verursachen, der den ursprünglichen Zweck zunichtemacht. In dieser Arbeit identifizieren wir einen zentralen Schwachpunkt dieser Methoden: den Kollaps des globalen Kontexts, bei dem das Modell seine Repräsentationsvielfalt verliert. Um dies zu beheben, schlagen wir Multi-Head Linear Attention (MHLA) vor, das diese Vielfalt durch die Berechnung von Aufmerksamkeit innerhalb aufgeteilter Köpfe entlang der Token-Dimension erhält. Wir beweisen, dass MHLA bei linearem Komplexitätsaufwand einen Großteil der Ausdruckskraft der Softmax-Aufmerksamkeit zurückgewinnen kann, und bestätigen seine Wirksamkeit in mehreren Domänen: Es erzielt eine Verbesserung von 3,6 % bei der ImageNet-Klassifikation, einen Zuwachs von 6,3 % im NLP-Bereich, eine Steigerung von 12,6 % bei der Bildgenerierung und eine Verbesserung von 41 % bei der Videogenerierung bei gleicher Zeitkomplexität.

X-Coder: Förderung des kompetitiven Programmierens durch vollständig synthetische Aufgaben, Lösungen und Tests
X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Jan 11

ByJie Wu, Haoling Li, Xin Zhang, Jiani Guo, Jane Luo, Steven Liu, Yangyu Huang, Ruihang Chu, Scarlett Li, Yujiu Yang

Competitive Programming stellt aufgrund seines hohen Anspruchs an schlussfolgerndes Denken und seiner hohen logischen Komplexität eine große Herausforderung für Code-LLMs dar. Allerdings sind aktuelle Code-LLMs nach wie vor stark auf reale Daten angewiesen, was ihre Skalierbarkeit einschränkt. In diesem Beitrag untersuchen wir einen vollständig synthetischen Ansatz: das Trainieren von Code-LLMs mit vollständig generierten Aufgaben, Lösungen und Testfällen, um Modelle für das Code-Verständnis zu stärken, ohne auf reale Daten zurückgreifen zu müssen. Um dies zu ermöglichen, nutzen wir feature-basierte Synthese und schlagen eine neuartige Daten-Synthese-Pipeline namens SynthSmith vor. SynthSmith zeigt ein starkes Potenzial, vielfältige und anspruchsvolle Aufgaben zusammen mit verifizierten Lösungen und Tests zu erzeugen, und unterstützt sowohl überwachtes Fein-Tuning als auch Reinforcement Learning. Basierend auf den vorgeschlagenen synthetischen SFT- und RL-Datensätzen führen wir die X-Coder-Modellreihe ein, die eine bemerkenswerte Pass-Rate von 62,9 avg@8 auf LiveCodeBench v5 und 55,8 auf v6 erreicht und damit DeepCoder-14B-Preview und AReal-boba2-14B übertrifft, obwohl sie nur 7B Parameter hat. Eine eingehende Analyse zeigt, dass Skalierungsgesetze auf unserem synthetischen Datensatz gelten, und wir untersuchen, welche Dimensionen effektiver zu skalieren sind. Wir liefern weiterhin Einblicke in code-zentriertes Reinforcement Learning und heben die Schlüsselfaktoren hervor, die die Leistung durch detaillierte Ablationen und Analysen prägen. Unsere Ergebnisse zeigen, dass die Skalierung hochwertiger synthetischer Daten und die Einführung eines gestaffelten Trainings das Code-Verständnis erheblich voranbringen können, während die Abhängigkeit von realen Programmierdaten verringert wird.

Verloren im Rauschen: Wie Reasoning-Modelle bei kontextuellen Störfaktoren versagen
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Jan 12

BySeongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo

Jüngste Fortschritte bei Reasoning-Modellen und agentenbasierten KI-Systemen haben zu einer verstärkten Nutzung diverser externer Informationen geführt. Dieser Wandel führt jedoch zu Eingabekontexten, die inhärent verrauscht sind – eine Realität, die aktuelle bereinigte Benchmarks nicht erfassen. Wir stellen NoisyBench vor, einen umfassenden Benchmark, der die Robustheit von Modellen systematisch über 11 Datensätze in RAG-, Reasoning-, Alignment- und Tool-Use-Aufgaben gegenüber verschiedenen Rauschtypen evaluiert, darunter zufällige Dokumente, irrelevante Chatverläufe und schwierige negative Ablenkungen. Unsere Auswertung zeigt einen katastrophalen Leistungseinbruch von bis zu 80 % bei state-of-the-art Modellen im Umgang mit kontextuellen Ablenkungen. Entscheidend ist, dass wir feststellen, dass agentenbasierte Workflows diese Fehler oft verstärken, indem sie verrauschten Tool-Ausgaben zu stark vertrauen, und dass Ablenkungen emergentes Fehlverhalten auslösen können, selbst ohne adversäre Absicht. Wir zeigen, dass Prompting, Context Engineering, SFT und ergebnisbasierte RL-Verfahren keine Robustheit gewährleisten; im Gegensatz dazu stärkt unser vorgeschlagener Rationale-Aware Reward (RARE) die Resilienz signifikant, indem er die Identifikation hilfreicher Informationen innerhalb des Rauschens belohnt. Schließlich decken wir einen inversen Skalierungstrend auf, bei dem erhöhte Rechenleistung zur Testzeit zu schlechterer Leistung in verrauschten Umgebungen führt, und demonstrieren mittels Attention-Visualisierung, dass Modelle sich überproportional auf Stör-Tokens konzentrieren – wesentliche Erkenntnisse für die Entwicklung der nächsten Generation robuster, reasoning-fähiger Agenten.

GlimpRouter: Effiziente kollaborative Inferenz durch Erfassen eines Gedankentokens
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Jan 8

ByWenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu

Große Reasoning-Modelle (LRMs) erzielen bemerkenswerte Leistungen durch das explizite Generieren mehrstufiger Gedankenketten, doch diese Fähigkeit verursacht erhebliche Inferenzlatenz und Rechenkosten. Kollaborative Inferenz bietet eine vielversprechende Lösung, indem Arbeit selektiv zwischen leichtgewichtigen und großen Modellen verteilt wird, doch eine grundlegende Herausforderung bleibt bestehen: zu bestimmen, wann ein Reasoning-Schritt die Kapazität eines großen Modells oder die Effizienz eines kleinen Modells erfordert. Bestehende Routing-Strategien verlassen sich entweder auf lokale Token-Wahrscheinlichkeiten oder nachträgliche Verifikation, was erheblichen Inferenz-Overhead verursacht. In dieser Arbeit schlagen wir eine neuartige Perspektive für schrittweise Kollaboration vor: Die Schwierigkeit eines Reasoning-Schritts lässt sich bereits anhand seines allerersten Tokens ableiten. Inspiriert durch das "Aha-Moment"-Phänomen in LRMs zeigen wir, dass die Entropie des initialen Tokens ein starker Prädiktor für die Schritt-Schwierigkeit ist. Aufbauend auf dieser Erkenntnis stellen wir GlimpRouter vor, ein trainierungsfreies, schrittweises Kollaborationsframework. GlimpRouter verwendet ein leichtgewichtiges Modell, um nur den ersten Token jedes Reasoning-Schritts zu generieren, und leitet den Schritt nur dann an ein größeres Modell weiter, wenn die anfängliche Token-Entropie einen Schwellenwert überschreitet. Experimente auf mehreren Benchmarks demonstrieren, dass unser Ansatz die Inferenzlatenz signifikant reduziert und gleichzeitig die Genauigkeit erhält. Beispielsweise erzielt GlimpRouter auf AIME25 eine substantielle Verbesserung der Genauigkeit um 10,7 % bei gleichzeitiger Reduzierung der Inferenzlatenz um 25,9 % im Vergleich zu einem eigenständigen großen Modell. Diese Ergebnisse deuten auf einen einfachen, aber effektiven Mechanismus für Reasoning hin: Die Zuteilung von Rechenressourcen basierend auf einem flüchtigen Eindruck des Gedankens anstelle einer vollständigen Schrittbewertung.

OS-Symphony: Ein holistischer Rahmenwerk für robuste und generalistische computernutzende Agenten
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Jan 12

ByBowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding

Während Vision-Language-Modelle (VLMs) Computer-Using Agents (CUAs) erheblich vorangebracht haben, kämpfen aktuelle Frameworks mit Robustheit in langfristigen Workflows und Generalisierung in neuartigen Domänen. Diese Einschränkungen resultieren aus einem Mangel an granularer Kontrolle über die Kuratierung historischer visueller Kontexte und dem Fehlen einer visuell-bewussten Tutorial-Retrieval. Um diese Lücken zu schließen, stellen wir OS-Symphony vor, ein holistisches Framework, das einen Orchestrator umfasst, der zwei zentrale Innovationen für robuste Automatisierung koordiniert: (1) einen Reflection-Memory-Agenten, der meilenstein-gesteuertes Langzeitgedächtnis nutzt, um Trajektorien-basierte Selbstkorrektur zu ermöglichen und so den Verlust visueller Kontexte in langfristigen Aufgaben effektiv abmildert; (2) vielseitige Tool-Agenten mit einem Multimodal-Searcher, der ein SeeAct-Paradigma anwendet, um in einer browserbasierten Sandbox zu navigieren und live, visuell abgestimmte Tutorials zu synthetisieren, wodurch Treueprobleme in ungesehenen Szenarien gelöst werden. Experimentelle Ergebnisse demonstrieren, dass OS-Symphony substantiale Leistungssteigerungen über verschiedene Modellskalen hinweg erzielt und neue State-of-the-Art-Ergebnisse auf drei Online-Benchmarks etabliert, insbesondere mit 65,84 % auf OSWorld.

Jenseits harter Masken: Progressive Token-Evolution für Diffusions-Sprachmodelle
Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

Jan 12

ByLinhao Zhong, Linyu Wu, Bozhen Fang, Tianjian Feng, Chenchen Jing, Wen Wang, Jiaheng Zhang, Hao Chen, Chunhua Shen

Diffusions-Sprachmodelle (DLMs) bieten eine vielversprechende Alternative für Sprachmodellierung, indem sie parallele Decodierung durch iterative Verfeinerung ermöglichen. Die meisten DLMs beruhen jedoch auf harten binären Maskierungen und diskreten Token-Zuweisungen, was die Revision früher Entscheidungen behindert und Zwischenrepräsentationen mit probabilistischem Charakter unzureichend nutzt. In diesem Artikel stellen wir EvoToken-DLM vor, einen neuartigen diffusionsbasierten Sprachmodellierungsansatz, der harte binäre Masken durch sich entwickelnde weiche Token-Verteilungen ersetzt. EvoToken-DLM ermöglicht einen progressiven Übergang von maskierten Zuständen zu diskreten Ausgaben und unterstützt revidierbare Decodierung. Um diese Entwicklung effektiv zu unterstützen, führen wir kontinuierliche Trajektorienüberwachung ein, die die Trainingsziele mit iterativen probabilistischen Aktualisierungen in Einklang bringt. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass EvoToken-DLM durchweg eine überlegene Leistung erzielt und starke diffusionsbasierte sowie maskierte DLM-Baselines übertrifft. Projektwebseite: https://aim-uofa.github.io/EvoTokenDLM.

MegaFlow: Großskaliges verteiltes Orchestrierungssystem für das agentenbasierte Zeitalter
MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

Jan 12

ByLei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang

Die rasante Entwicklung interaktiver und autonomer KI-Systeme markiert unseren Eintritt in die Ära der Agenten. Das Training und die Evaluierung von Agenten für komplexe agentenbasierte Aufgaben wie Softwareentwicklung und Computernutzung erfordert nicht nur effiziente Modellberechnungen, sondern auch eine ausgeklügelte Infrastruktur, die umfangreiche Agenten-Umgebungs-Interaktionen koordinieren kann. Bislang existiert jedoch keine Open-Source-Infrastruktur, die Training und Evaluierung in großem Maßstab für derart komplexe agentenbasierte Aufgaben effektiv unterstützen kann. Um diese Herausforderung zu bewältigen, stellen wir MegaFlow vor – ein großskaliges verteiltes Orchestrierungssystem, das effizientes Scheduling, Ressourcenzuteilung und feingranulare Aufgabenverwaltung für Agenten-Umgebungs-Workloads ermöglicht. MegaFlow abstrahiert die Agenten-Trainingsinfrastruktur in drei unabhängige Dienste (Model Service, Agent Service und Environment Service), die über einheitliche Schnittstellen interagieren und unabhängige Skalierung sowie flexible Ressourcenzuteilung über verschiedene Agenten-Umgebungs-Konfigurationen hinweg ermöglichen. In unseren Agenten-Trainingsdeployments orchestriert MegaFlow erfolgreich zehntausende gleichzeitige Agentenaufgaben bei hoher Systemstabilität und effizienter Ressourcennutzung. Durch die Ermöglichung solch großskaliger Agenten-Trainings schließt MegaFlow eine kritische Infrastrukturlücke in der aufstrebenden Landschaft agentenbasierter KI.

Steuerbarer Speicherverbrauch: Abwägung zwischen Verankerung und Innovation in der langfristigen Mensch-Agenten-Interaktion
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

Jan 8

ByMuzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo, Qi Qian, Yuanzhe Shen, Kaitao Song, Jiakang Yuan, Changze Lv, Xiaoqing Zheng

Da LLM-basierte Agenten zunehmend in langfristigen Interaktionen eingesetzt werden, ist kumulatives Gedächtnis entscheidend für Personalisierung und die Beibehaltung stilistischer Konsistenz. Allerdings verwenden die meisten bestehenden Systeme einen „Alles-oder-nichts“-Ansatz zur Gedächtnisnutzung: Die Einbeziehung aller relevanten Vergangenheitsinformationen kann zu „Memory Anchoring“ führen, bei dem der Agent in vergangenen Interaktionen gefangen ist, während der vollständige Ausschluss des Gedächtnisses zu Unterauslastung und Verlust wichtiger Interaktionshistorie führt. Wir zeigen, dass die Abhängigkeit eines Agenten vom Gedächtnis als explizite und benutzerkontrollierbare Dimension modelliert werden kann. Wir führen zunächst eine behavioralistische Metrik der Gedächtnisabhängigkeit ein, um den Einfluss vergangener Interaktionen auf aktuelle Outputs zu quantifizieren. Anschließend schlagen wir den Steerable Memory Agent (SteeM) vor – ein Framework, das Benutzern ermöglicht, die Gedächtnisabhängigkeit dynamisch zu regulieren, von einem Neustart-Modus, der Innovation fördert, bis zu einem Hochpräzisions-Modus, der eng der Interaktionshistorie folgt. Experimente in verschiedenen Szenarien zeigen, dass unser Ansatz konventionelle Prompting-Strategien und rigide Gedächtnismaskierung durchgängig übertrifft und eine differenziertere und effektivere Steuerung für personalisierte Mensch-Agent-Kollaboration ermöglicht.

Dr. Zero: Sich selbst entwickelnde Suchagenten ohne Trainingsdaten
Dr. Zero: Self-Evolving Search Agents without Training Data

Jan 11

ByZhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang

Da hochwertige Daten zunehmend schwerer zu beschaffen sind, hat sich die datenfreie Selbstevolution als vielversprechendes Paradigma etabliert. Dieser Ansatz ermöglicht es großen Sprachmodellen (LLMs), autonom komplexe Probleme zu generieren und zu lösen, wodurch ihre Fähigkeiten zum logischen Schlussfolgern verbessert werden. Allerdings haben Such-Agenten mit Mehrschritt-Interaktionen in datenfreier Selbstevolution Schwierigkeiten, was auf die begrenzte Fragenvielfalt und den erheblichen Rechenaufwand für mehrstufiges Schlussfolgern und Werkzeugeinsatz zurückzuführen ist. In dieser Arbeit stellen wir Dr. Zero vor, ein Framework, das Such-Agenten eine effektive Selbstevolution ohne jegliche Trainingsdaten ermöglicht. Insbesondere entwerfen wir eine Selbstevolutions-Rückkopplungsschleife, in der ein Vorschlagender (Proposer) diverse Fragen generiert, um einen Löser (Solver) zu trainieren, der aus demselben Basismodell initialisiert wird. Während der Löser sich weiterentwickelt, incentiviert er den Vorschlagenden, zunehmend schwierige, aber lösbare Aufgaben zu produzieren, und etabliert so einen automatisierten Lehrplan zur Verfeinerung beider Agenten. Um die Trainingseffizienz zu steigern, führen wir außerdem eine hop-gruppierte relative Optimierung der Strategie (Hop-grouped Relative Policy Optimization, HRPO) ein. Diese Methode clustert strukturell ähnliche Fragen, um gruppenweite Vergleichsbaselines zu konstruieren, und minimiert so effektiv den Stichprobenaufwand bei der Bewertung der individuellen Schwierigkeit und Lösbarkeit jeder Anfrage. Folglich reduziert HRPO den Rechenbedarf für das Training des Lösers erheblich, ohne Leistung oder Stabilität zu beeinträchtigen. Umfangreiche Experimente zeigen, dass der datenfreie Dr. Zero vollständig überwachte Such-Agenten erreicht oder übertrifft, was beweist, dass komplexe Schlussfolgerungs- und Suchfähigkeiten allein durch Selbstevolution entstehen können.

DrivingGen: Ein umfassender Benchmark für generative Video-Weltmodelle im autonomen Fahren
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Jan 4

ByYang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander

Videogenerationsmodelle als eine Form von Weltmodellen haben sich zu einer der spannendsten Grenzen der KI entwickelt, indem sie Agenten die Fähigkeit verleihen, die Zukunft zu imaginieren, indem sie die zeitliche Entwicklung komplexer Szenen modellieren. Im autonomen Fahren führt diese Vision zu Fahr-Weltmodellen: generative Simulatoren, die Ego- und Agenten-Zukünfte imaginieren und damit skalierbare Simulation, sichere Tests von Grenzfällen und umfangreiche synthetische Datengenerierung ermöglichen. Trotz schnell wachsender Forschungsaktivitäten fehlt dem Feld jedoch ein rigoroser Benchmark, um Fortschritte zu messen und Prioritäten zu setzen. Bestehende Evaluationen bleiben begrenzt: generische Videometriken übersehen sicherheitskritische Bildfaktoren; Trajektorienplausibilität wird selten quantifiziert; zeitliche und agentenbezogene Konsistenz wird vernachlässigt; und Kontrollierbarkeit bezüglich Ego-Konditionierung bleibt unberücksichtigt. Zudem decken aktuelle Datensätze nicht die für den Realbetrieb erforderliche Vielfalt an Bedingungen ab. Um diese Lücken zu schließen, präsentieren wir DrivingGen, den ersten umfassenden Benchmark für generative Fahr-Weltmodelle. DrivingGen kombiniert einen diversen Evaluationsdatensatz – kuratiert aus Fahrzeugdatensätzen und internetweiten Videoquellen, der verschiedene Wetterbedingungen, Tageszeiten, geografische Regionen und komplexe Manöver abdeckt – mit einer Reihe neuer Metriken, die gemeinsam visuelle Realitätstreue, Trajektorienplausibilität, zeitliche Kohärenz und Kontrollierbarkeit bewerten. Das Benchmarking von 14 State-of-the-Art-Modellen zeigt klare Zielkonflikte: Allgemeine Modelle sehen besser aus, verletzen jedoch physikalische Gesetze, während fahrspezifische Modelle Bewegungen realistisch erfassen, aber in der visuellen Qualität zurückfallen. DrivingGen bietet einen einheitlichen Evaluationsrahmen, um zuverlässige, kontrollierbare und einsatzfähige Fahr-Weltmodelle zu fördern, die skalierbare Simulation, Planung und datengestützte Entscheidungsfindung ermöglichen.

Steigerung Latenter Diffusionsmodelle durch Entkoppelte Repräsentationsausrichtung
Boosting Latent Diffusion Models via Disentangled Representation Alignment

Jan 9

ByJohn Page, Xuesong Niu, Kai Wu, Kun Gai

Latente Diffusionsmodelle (LDMs) erzeugen hochwertige Bilder, indem sie in einem komprimierten latenten Raum operieren, der typischerweise durch Bild-Tokenizer wie Variational Autoencoder (VAEs) gewonnen wird. Um einen generierungsfreundlichen VAE zu entwickeln, haben neuere Studien untersucht, Vision Foundation Models (VFMs) als Repräsentationsausrichtungsziele für VAEs zu nutzen, ähnlich dem Ansatz, der üblicherweise für LDMs verwendet wird. Obwohl dies gewisse Leistungssteigerungen bringt, übersieht die Verwendung desselben Ausrichtungsziels für sowohl VAEs als auch LDMs deren grundlegend unterschiedliche Repräsentationsanforderungen. Wir vertreten die Ansicht, dass VAEs, während LDMs von latenten Räumen profitieren, die hochlevelige semantische Konzepte beibehalten, sich durch semantische Entflechtung auszeichnen sollten, um Attribut-Informationen auf strukturierte Weise kodieren zu können. Um dies zu adressieren, schlagen wir den Semantic Disentangled VAE (Send-VAE) vor, der explizit für entflochtenes Repräsentationslernen optimiert ist, indem sein latenter Raum mit der semantischen Hierarchie vortrainierter VFMs ausgerichtet wird. Unser Ansatz verwendet ein nichtlineares Mapper-Netzwerk, um VAE-latente Räume zu transformieren und sie mit VFMs abzugleichen, um die Lücke zwischen attributbasierter Entflechtung und hochleveliger Semantik zu überbrücken und so eine effektive Lenkung für das VAE-Lernen zu ermöglichen. Wir evaluieren die semantische Entflechtung durch Linear Probing bei Attributvorhersageaufgaben, was eine starke Korlation mit verbesserter Generierungsleistung zeigt. Abschließend trainieren wir mit Send-VAE flow-basierte Transformer (SiTs); Experimente zeigen, dass Send-VAE das Training deutlich beschleunigt und einen state-of-the-art FID von 1.21 bzw. 1.75 mit und ohne Classifier-Free Guidance auf ImageNet 256x256 erreicht.

ET-Agent: Anreizsetzung für effektive werkzeugintegrierte Reasoning-Agenten durch Verhaltenskalibrierung
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

Jan 11

ByYifei Chen, Guanting Dong, Zhicheng Dou

Große Sprachmodelle (LLMs) können ihre parametrischen Wissensgrenzen durch die Übernahme des Tool-Integrated Reasoning (TIR)-Paradigmas erweitern. Allerdings konzentrieren sich bestehende LLM-basierte Agenten-Trainingsframeworks oft auf die Genauigkeit der Antworten und übersehen dabei eine spezifische Ausrichtung auf Verhaltensmuster. Folglich zeigen Agenten bei TIR-Aufgaben häufig ineffektive Aktionen, wie redundante und unzureichende Tool-Aufrufe. Wie fehlerhafte Verhaltensmuster bei der Ausführung von TIR-Aufgaben kalibriert werden können, um effektive Trajektorien zu erkunden, bleibt ein offenes Problem. In diesem Artikel schlagen wir ET-Agent vor, ein Trainingsframework zur Kalibrierung des Tool-Nutzungsverhaltens von Agenten durch zwei synergetische Perspektiven: Selbst-evolvierendes Data Flywheel und Behavior Calibration Training. Konkret führen wir ein selbst-evolvierendes Data Flywheel ein, um verbesserte Daten zu generieren, die zur Feinabstimmung des LLM verwendet werden, um dessen Explorationsfähigkeit zu verbessern. Darauf aufbauend implementieren wir ein zweiphasiges Behavior-Calibration-Training-Framework. Dieses ist darauf ausgelegt, fehlerhafte Verhaltensmuster schrittweise auf optimale Verhaltensweisen zu kalibrieren. Weitere vertiefte Experimente bestätigen die Überlegenheit unseres Ansatzes in mehreren Dimensionen, einschließlich Korrektheit, Effizienz, Schlüssigkeit der Argumentation und Genauigkeit der Tool-Ausführung. Unser ET-Agent-Framework liefert praktische Erkenntnisse für die Forschung im TIR-Bereich. Der Code ist unter https://github.com/asilverlight/ET-Agent verfügbar.

Was Nutzer unausgesprochen lassen: Unvollständige Anfragen schränken Vision-Sprach-Modelle ein
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

Jan 7

ByDasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song

Aktuelle Vision-Language-Benchmarks bestehen überwiegend aus wohlstrukturierten Fragen mit klaren, expliziten Prompt-Formulierungen. Reale Nutzeranfragen sind jedoch häufig informell und unterbestimmt. Nutzer lassen natürlicherweise vieles unausgesprochen und verlassen sich auf Bilder, um den Kontext zu vermitteln. Wir stellen HAERAE-Vision vor, einen Benchmark mit 653 realen visuellen Fragen aus koreanischen Online-Communities (0,76 % Überlebensrate aus 86.000 Kandidaten), die jeweils mit einer expliziten Neufassung gepaart sind, was insgesamt 1.306 Abfragevarianten ergibt. Bei der Evaluation von 39 VLMs stellen wir fest, dass selbst State-of-the-Art-Modelle (GPT-5, Gemini 2.5 Pro) bei den ursprünglichen Anfragen unter 50 % erreichen. Entscheidend ist, dass die alleinige Explizitmachung der Abfrage Verbesserungen von 8 bis 22 Prozentpunkten bringt, wobei kleinere Modelle am meisten profitieren. Wir zeigen weiter, dass selbst mit Websuche unterbestimmte Anfragen schlechter abschneiden als explizite Anfragen ohne Suche, was offenbart, dass aktuelle Retrieval-Verfahren nicht kompensieren können, was Nutzer unausgesprochen lassen. Unsere Ergebnisse belegen, dass ein erheblicher Teil der Schwierigkeiten von VLMs auf der natürlichen Unterbestimmtheit von Anfragen beruht und nicht auf den Modellfähigkeiten, was eine kritische Lücke zwischen Benchmark-Evaluation und realem Einsatz aufzeigt.

Bäume im Wald: Latente Überlagerung für effizientes visuelles Schließen
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

Jan 11

ByYubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu

Während Chain-of-Thought große visuell-sprachliche Modelle mit mehrstufigem Reasoning befähigt, leiden explizite textuelle Begründungen unter einem Informationsbandbreiten-Engpass, bei dem kontinuierliche visuelle Details während der diskreten Tokenisierung verloren gehen. Jüngste latente Reasoning-Methoden versuchen, diese Herausforderung zu bewältigen, unterliegen jedoch oft einem vorzeitigen semantischen Kollaps aufgrund starrer autoregressiver Zielvorgaben. In diesem Artikel schlagen wir Laser vor, ein neuartiges Paradigma, das visuelles Deduzieren durch Dynamic Windowed Alignment Learning (DWAL) neu formuliert. Anstatt eine punktgenaue Vorhersage zu erzwingen, richtet Laser den latenten Zustand an einem dynamischen Gültigkeitsfenster zukünftiger Semantik aus. Dieser Mechanismus erzwingt eine kognitive Hierarchie nach dem "Wald-vor-Bäume"-Prinzip, die es dem Modell ermöglicht, eine probabilistische Superposition globaler Merkmale beizubehalten, bevor es sich auf lokale Details eingrenzt. Entscheidend ist, dass Laser die Interpretierbarkeit durch decodierbare Trajektorien bewahrt, während es unbegrenztes Lernen durch Self-Refined Superposition stabilisiert. Umfangreiche Experimente auf 6 Benchmarks zeigen, dass Laser state-of-the-art Leistung unter latenten Reasoning-Methoden erreicht und die starke Baseline Monet im Durchschnitt um 5,03% übertrifft. Bemerkenswerterweise erzielt es diese Gewinne mit extremer Effizienz, reduziert Inferenz-Tokens um mehr als 97% und zeigt gleichzeitig robuste Generalisierung in Out-of-Distribution-Domänen.

TourPlanner: Ein wettbewerbsfähiges Konsens-Framework mit beschränkungsgesteuertem Reinforcement Learning für die Reiseplanung
TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

Jan 8

ByYinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong

Reiseplanung ist ein anspruchsvoller Entscheidungsprozess, der die Synthese vielschichtiger Informationen zur Erstellung von Reiserouten erfordert. Bestehende Ansätze zur Reiseplanung stehen jedoch vor mehreren Herausforderungen: (1) Die Reduzierung von Kandidaten für Points of Interest (POIs) bei gleichzeitiger Aufrechterhaltung einer hohen Recall-Rate; (2) Ein einzelner Reasoning-Pfad schränkt die Erschließungsfähigkeit innerhalb des zulässigen Lösungsraums für die Reiseplanung ein; (3) Die gleichzeitige Optimierung harter und weicher Constraints bleibt eine große Schwierigkeit. Um diese Herausforderungen zu bewältigen, schlagen wir TourPlanner vor, einen umfassenden Rahmen mit Multi-Path-Reasoning und Constraint-gesteuertem Reinforcement Learning. Konkret führen wir zunächst einen Workflow zur personalisierten Recall- und räumlichen Optimierung (PReSO) ein, um einen räumlich optimierten Kandidaten-POI-Satz zu konstruieren. Anschließend schlagen wir Competitive Consensus Chain-of-Thought (CCoT) vor, ein Multi-Path-Reasoning-Paradigma, das die Fähigkeit verbessert, den zulässigen Lösungsraum zu erkunden. Um den Plan weiter zu verfeinern, integrieren wir einen sigmoidbasierten Gating-Mechanismus in die Reinforcement-Learning-Phase, der die Erfüllung weicher Constraints dynamisch priorisiert, sobald harte Constraints erfüllt sind. Experimentelle Ergebnisse auf Reiseplanungs-Benchmarks zeigen, dass TourPlanner state-of-the-art Leistung erzielt und bestehende Methoden sowohl in Bezug auf Machbarkeit als auch Benutzerpräferenz-Abgleich signifikant übertrifft.

RealMem: Bewertung von LLMs in realen, speichergestützten Interaktionen
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

Jan 11

ByHaonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen

Da sich große Sprachmodelle (LLMs) von statischen Dialogoberflächen zu autonomen allgemeinen Agenten entwickeln, ist ein effektives Gedächtnis von entscheidender Bedeutung, um langfristige Konsistenz zu gewährleisten. Allerdings konzentrieren sich bestehende Benchmarks primär auf lockere Konversationen oder aufgabenorientierte Dialoge und erfassen nicht **"langfristige projektorientierte"** Interaktionen, bei denen Agenten sich entwickelnde Ziele verfolgen müssen. Um diese Lücke zu schließen, stellen wir **RealMem** vor, den ersten Benchmark, der auf realistischen Projektszenarien basiert. RealMem umfasst über 2.000 sitzungsübergreifende Dialoge in elf Szenarien und nutzt natürliche Nutzeranfragen zur Evaluation. Wir schlagen eine Synthese-Pipeline vor, die Projektgrundlagenerstellung, Multi-Agenten-Dialoggenerierung sowie Gedächtnis- und Terminplanungsmanagement integriert, um die dynamische Entwicklung des Gedächtnisses zu simulieren. Experimente zeigen, dass aktuelle Gedächtnissysteme erhebliche Schwierigkeiten bei der Verwaltung langfristiger Projektzustände und dynamischer Kontextabhängigkeiten haben, die realen Projekten inhärent sind. Unser Code und unsere Datensätze sind verfügbar unter [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).

OpenTinker: Trennung der Belange im agentenbasierten bestärkenden Lernen
OpenTinker: Separating Concerns in Agentic Reinforcement Learning

Jan 12

BySiqi Zhu, Jiaxuan You

Wir stellen OpenTinker vor, eine Infrastruktur für Reinforcement Learning (RL) von Agenten auf Basis großer Sprachmodelle (LLM), die auf einer Trennung der Zuständigkeiten in den Bereichen Algorithmusdesign, Ausführung und Agenten-Umgebungs-Interaktion aufbaut. Anstatt auf monolithische, end-to-end RL-Pipelines zu setzen, zerlegt OpenTinker lernende agentenbasierte Systeme in leichtgewichtige, komponierbare Komponenten mit klar definierten Abstraktionsgrenzen. Benutzer definieren Agenten, Umgebungen und Interaktionsprotokolle, während Inferenz und Training einer verwalteten Laufzeitumgebung zur Ausführung delegiert werden. OpenTinker führt einen zentralen Scheduler ein, der Trainings- und Inferenz-Workloads – einschließlich RL auf LoRA-Basis und mit vollständigen Parametern, supervised Fine-Tuning und Inferenz – über gemeinsame Ressourcen verwaltet. Wir erörtern zudem Designprinzipien zur Erweiterung von OpenTinker für Multi-Agenten-Training. Abschließend präsentieren wir eine Reihe von RL-Anwendungsfällen, die die Wirksamkeit des Frameworks in praktischen agentenbasierten Lernszenarien demonstrieren.

e5-omni: Explizite cross-modale Ausrichtung für omni-modale Einbettungen
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

Jan 7

ByHaonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou

Moderne Informationssysteme beinhalten oft verschiedene Arten von Elementen, z. B. eine Textanfrage, ein Bild, ein Videoclip oder ein Audiosegment. Dies motiviert die Entwicklung omni-modaler Einbettungsmodelle, die heterogene Modalitäten in einen gemeinsamen Raum abbilden, um einen direkten Vergleich zu ermöglichen. Die meisten aktuellen omni-modalen Einbettungen stützen sich jedoch nach wie vor stark auf die implizite Ausrichtung, die von vortrainierten Vision-Language-Model (VLM)-Backbones geerbt wird. In der Praxis führt dies zu drei häufigen Problemen: (i) Ähnlichkeitslogits haben eine modalitätsabhängige Schärfe, sodass die Werte nicht auf einer konsistenten Skala liegen; (ii) Negative Stichproben innerhalb eines Batches werden mit der Zeit weniger effektiv, da Batches mit gemischten Modalitäten eine unausgeglichene Verteilung der Schwierigkeitsgrade erzeugen; infolgedessen werden viele Negative schnell trivial und tragen wenig zum Gradienten bei; und (iii) Einbettungen über verschiedene Modalitäten hinweg weisen nicht übereinstimmende Statistiken erster und zweiter Ordnung auf, was Rankings weniger stabil macht. Um diese Probleme zu lösen, schlagen wir e5-omni vor, ein leichtgewichtiges Rezept zur expliziten Ausrichtung, das handelsübliche VLMs in robuste omni-modale Einbettungsmodelle adaptiert. e5-omni kombiniert drei einfache Komponenten: (1) modalitätsbewusste Temperaturkalibrierung zur Angleichung der Ähnlichkeitsskalen, (2) ein kontrollierbarer Negative-Curriculum-Ansatz mit Entzerrung, um sich auf verwirrende Negative zu konzentrieren und gleichzeitig den Einfluss falscher Negative zu reduzieren, und (3) Batch-Whitening mit Kovarianzregularisierung, um die cross-modale Geometrie im gemeinsamen Einbettungsraum besser anzugleichen. Experimente mit MMEB-V2 und AudioCaps zeigen konsistente Verbesserungen gegenüber starken bi-modalen und omni-modalen Baseline-Modellen, und das gleiche Rezept überträgt sich auch gut auf andere VLM-Backbones. Wir veröffentlichen unseren Modell-Checkpoint unter https://huggingface.co/Haon-Chen/e5-omni-7B.

Strukturiertes episodisches Ereignisgedächtnis
Structured Episodic Event Memory

Jan 10

ByZhengxuan Lu, Dongfang Li, Yukun Shi, Beilun Wang, Longyue Wang, Baotian Hu

Aktuelle Ansätze für das Gedächtnis in Large Language Models (LLMs) stützen sich überwiegend auf statisches Retrieval-Augmented Generation (RAG), was häufig zu verstreutem Abruf führt und die strukturellen Abhängigkeiten, die für komplexes Schlussfolgern erforderlich sind, nicht erfassen kann. Für autonome Agenten mangelt es diesen passiven und flachen Architekturen an der kognitiven Organisation, die notwendig ist, um die dynamische und assoziative Natur langfristiger Interaktionen zu modellieren. Um dies zu adressieren, schlagen wir Structured Episodic Event Memory (SEEM) vor, einen hierarchischen Rahmen, der eine Graph-Gedächtnisschicht für relationale Fakten mit einer dynamischen episodischen Gedächtnisschicht für den narrativen Fortgang synergetisch verbindet. Basierend auf der kognitiven Frame-Theorie transformiert SEEM Interaktionsströme in strukturierte Episodic Event Frames (EEFs), die durch präzise Herkunftsnachweise verankert sind. Darüber hinaus führen wir einen agentenbasierten assoziativen Fusionsmechanismus und Reverse Provenance Expansion (RPE) ein, um kohärente narrative Kontexte aus fragmentarischen Belegen zu rekonstruieren. Experimentelle Ergebnisse auf den Benchmarks LoCoMo und LongMemEval demonstrieren, dass SEEM die Baseline-Modelle signifikant übertrifft und es Agenten ermöglicht, eine überlegene narrative Kohärenz und logische Konsistenz beizubehalten.

Wie lernen große Sprachmodelle Konzepte während des kontinuierlichen Vortrainierens?
How Do Large Language Models Learn Concepts During Continual Pre-Training?

Jan 7

ByBarry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang

Menschen verstehen die Welt primär durch Konzepte (z.B. Hund) – abstrakte mentale Repräsentationen, die Wahrnehmung, Denken und Lernen strukturieren. Wie große Sprachmodelle (LLMs) solche Konzepte während kontinuierlichen Vortrainings erwerben, behalten und vergessen, ist jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir, wie einzelne Konzepte erlernt und vergessen werden sowie wie mehrere Konzepte durch Interferenz und Synergie interagieren. Wir verknüpfen diese Verhaltensdynamiken mit internen Konzeptschaltkreisen der LLMs – rechnerische Teilgraphen, die mit spezifischen Konzepten assoziiert sind – und integrieren Graphmetriken zur Charakterisierung der Schaltkreisstruktur. Unsere Analyse zeigt: (1) Konzeptschaltkreise von LLMs liefern ein nicht-triviales, statistisch signifikantes Signal für Konzeptlernen und -vergessen; (2) Konzeptschaltkreise zeigen während kontinuierlichen Vortrainings ein stufenweises zeitliches Muster mit frühem Anstieg, gefolgt von gradueller Abnahme und Stabilisierung; (3) Konzepte mit größeren Lernzuwächsen neigen zu stärkerem Vergessen bei nachfolgendem Training; (4) semantisch ähnliche Konzepte verursachen stärkere Interferenz als schwach verwandte; (5) konzeptuelles Wissen unterscheidet sich in seiner Übertragbarkeit, wobei einige Konzepte das Lernen anderer signifikant erleichtern. Zusammengenommen bieten unsere Ergebnisse eine schaltkreisebene Sicht auf die Dynamik des Konzeptlernens und liefern Grundlagen für die Gestaltung interpretierbarerer und robusterer konzeptbewusster Trainingsstrategien für LLMs.

Entsprechen LLM-Entscheidungen der verbalen Konfidenz?
Are LLM Decisions Faithful to Verbal Confidence?

Jan 12

ByJiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu

Große Sprachmodelle (LLMs) können überraschend differenzierte Einschätzungen ihrer eigenen Unsicherheit liefern. Es bleibt jedoch unklar, inwieweit dieses artikulierte Vertrauen mit der Denkweise, dem Wissen oder der Entscheidungsfindung des Modells verbunden ist. Um dies zu testen, führen wir RiskEval ein: einen Rahmen zur Bewertung, ob Modelle ihre Ablehnungsstrategien an variierende Fehlerkosten anpassen. Unsere Auswertung mehrerer führender Modelle zeigt eine kritische Dissoziation: Modelle zeigen weder Kostenbewusstsein bei der Formulierung ihres verbalen Vertrauens noch strategische Anpassungsfähigkeit bei der Entscheidung, unter hohen Strafkosten zu antworten oder abzulehnen. Selbst wenn extreme Strafen häufige Ablehnung zur mathematisch optimalen Strategie machen, verweigern Modelle die Antwort fast nie, was zu einem Nutzenkollaps führt. Dies deutet darauf hin, dass kalibrierte verbale Vertrauenswerte allein möglicherweise nicht ausreichen, um vertrauenswürdige und interpretierbare KI-Systeme zu schaffen, da heutigen Modellen die strategische Fähigkeit fehlt, Unsicherheitssignale in optimale und risikosensitive Entscheidungen umzusetzen.

Sci-Reasoning: Ein Datensatz zur Entschlüsselung von KI-Innovationsmustern
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns

Jan 8

ByJiachen Liu, Maestro Harmon, Zechen Zhang

Während die KI-Innovation rasant voranschreitet, bleibt der intellektuelle Prozess hinter Durchbrüchen – wie Forscher Lücken identifizieren, vorherige Arbeiten synthetisieren und Erkenntnisse gewinnen – kaum verstanden. Der Mangel an strukturierten Daten zum wissenschaftlichen Denken behindert eine systematische Analyse und die Entwicklung von KI-Forschungssystemen. Wir stellen Sci-Reasoning vor, den ersten Datensatz, der die intellektuelle Synthese hochwertiger KI-Forschung erfasst. Mithilfe von community-validierten Qualitätssignalen und einer LLM-beschleunigten, menschlich verifizierten Pipeline verfolgen wir Oral- und Spotlight-Papers von NeurIPS, ICML und ICLR (2023-2025) bis zu ihren wichtigsten Vorläufern und artikulieren spezifische Denkverbindungen in einem strukturierten Format. Unsere Analyse identifiziert 15 verschiedene Denkmuster, wobei drei dominante Strategien 52,7 % ausmachen: Lückengetriebene Neurahmung (24,2 %), domänenübergreifende Synthese (18,0 %) und Repräsentationsverschiebung (10,5 %). Die wirkungsvollsten Innovationsrezepte kombinieren mehrere Muster: Lückengetriebene Neurahmung + Repräsentationsverschiebung, domänenübergreifende Synthese + Repräsentationsverschiebung sowie Lückengetriebene Neurahmung + domänenübergreifende Synthese. Dieser Datensatz ermöglicht quantitative Studien des wissenschaftlichen Fortschritts und liefert strukturierte Denkpfade für das Training der näch Generation von KI-Forschungssystemen.

"TODO: Fix the Mess Gemini Created": Auf dem Weg zum Verständnis von durch GenKI verursachter selbst eingestandener technischer Schuld
"TODO: Fix the Mess Gemini Created": Towards Understanding GenAI-Induced Self-Admitted Technical Debt

Jan 12

ByAbdullah Al Mujahid, Mia Mohammad Imran

Da große Sprachmodelle (LLMs) wie ChatGPT, Copilot, Claude und Gemini zunehmend in Softwareentwicklungsprozesse integriert werden, hinterlassen Entwickler vermehrt Spuren von KI-Nutzung in ihren Code-Kommentaren. Unter diesen befinden sich Kommentare, die ausdrücklich sowohl den Einsatz generativer KI als auch das Vorhandensein technischer Mängel anerkennen. Durch die Analyse von 6.540 LLM-bezogenen Code-Kommentaren aus öffentlichen Python- und JavaScript-basierten GitHub-Repositories (November 2022–Juli 2025) identifizierten wir 81 Kommentare, die ebenfalls selbst eingestandenes technisches Schulden (SATD) enthalten. Entwickler beschreiben am häufigsten aufgeschobene Tests, unvollständige Anpassungen und ein begrenztes Verständnis von KI-generiertem Code, was darauf hindeutet, dass KI-Unterstützung sowohl beeinflusst, wann als auch warum technische Schulden entstehen. Wir prägen den Begriff "durch generative KI induziertes selbst eingestandenes technisches Schulden" (GIST) als konzeptionelle Betrachtungsweise, um wiederkehrende Fälle zu beschreiben, in denen Entwickler KI-generierten Code integrieren und gleichzeitig explizit Unsicherheit über sein Verhalten oder seine Korrektheit äußern.

Kodifizierte Vorausdeutung-Auflösung Textgenerierung
Codified Foreshadowing-Payoff Text Generation

Jan 11

ByLongfei Yun, Kun Zhou, Yupeng Hou, Letian Peng, Jingbo Shang

Vorausdeutung und Einlösung sind allgegenwärtige narrative Mittel, mit denen Autoren bereits zu Beginn einer Geschichte gemachte Versprechungen einführen und diese durch konkrete, beobachtbare Ergebnisse auflösen. Trotz Fortschritten in der Geschichtengenerierung gelingt es großen Sprachmodellen (LLMs) jedoch häufig nicht, diese langreichweitigen narrativen Abhängigkeiten zu überbrücken; oft bleiben "Tschechows Gewehre" ungefeuert, selbst wenn der notwendige Kontext vorhanden ist. Bestehende Evaluationen übersehen weitgehend dieses strukturelle Versagen und konzentrieren sich eher auf oberflächliche Kohärenz als auf die logische Erfüllung narrativer Vorbereitungen. In diesem Artikel stellen wir Codified Foreshadowing-Payoff Generation (CFPG) vor, einen neuartigen Rahmen, der narrative Qualität durch die Linse der Einlösungsrealisierung neu definiert. Da LLMs bekanntermaßen Schwierigkeiten haben, den "Auslösemechanismus" eines vorausgedeuteten Ereignisses intuitiv zu erfassen, transformiert CFPG narrative Kontinuität in eine Reihe ausführbarer kausaler Prädikate. Durch die Extraktion und Kodierung von Vorausdeutungs-Auslöser-Einlösungs-Tripeln aus dem BookSum-Korpus bieten wir eine strukturierte Supervision, die sicherstellt, dass vorausgedeutete Versprechungen nicht nur erwähnt, sondern auch zeitlich und logisch erfüllt werden. Experimente zeigen, dass CFPG Standard-Prompting-Baselines in Bezug auf Einlösungsgenauigkeit und narrative Ausrichtung signifikant übertrifft. Unsere Ergebnisse legen nahe, dass die explizite Kodierung narrativer Mechanismen entscheidend ist, um LLMs von oberflächlicher Flüssigkeit zu echter narrativer Kompetenz zu bewegen.

Künstliche Verschränkung bei der Feinabstimmung großer Sprachmodelle
Artificial Entanglement in the Fine-Tuning of Large Language Models

Jan 11

ByMin Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu

Große Sprachmodelle (LLMs) können mittels parameter-effizientem Feinabgleich (PEFT) an neue Aufgaben angepasst werden, wobei nur eine geringe Anzahl trainierbarer Parameter modifiziert wird, häufig durch Low-Rank-Updates. In dieser Arbeit nehmen wir eine quanteninformationstheoretisch inspirierte Perspektive ein, um deren Wirksamkeit zu verstehen. Aus dieser Perspektive entsprechen Low-Rank-Parametrisierungen natürlich niedrigdimensionalen Matrix Product States (MPS)-Darstellungen, die verschränkungsbasierte Charakterisierungen der Parameterstruktur ermöglichen. Daher bezeichnen und messen wir "Künstliche Verschränkung", definiert als die Verschränkungsentropie der Parameter in künstlichen neuronalen Netzen (insbesondere in LLMs). Wir untersuchen zunächst die repräsentative Low-Rank-Adaptation (LoRA)-PEFT-Methode zusammen mit vollständigem Feinabgleich (FFT) an LLaMA-Modellen der Größenordnungen 1B und 8B, die auf den Datensätzen Tulu3 und OpenThoughts3 trainiert wurden, und decken auf: (i) Die interne künstliche Verschränkung in den Updates der Query- und Value-Projektionsmatrizen in LoRA folgt einem Volumengesetz mit einer zentralen Unterdrückung (bezeichnet als "Verschränkungstal"), das hyperparameterempfindlich ist und sich von dem bei FFT unterscheidet; (ii) Die externe künstliche Verschränkung in Attention-Matrizen, die Token-Token-Korrelationen im Repräsentationsraum entspricht, folgt einem Flächengesetz mit logarithmischen Korrekturen und bleibt robust gegenüber LoRA-Hyperparametern und Trainingsschritten. In Anlehnung an das No-Hair-Theorem aus der Schwarze-Loch-Physik schlagen wir vor, dass, obwohl LoRA und FFT unterschiedliche interne Verschränkungssignaturen induzieren, sich solche Unterschiede nicht in den Attention-Ausgaben manifestieren, was auf eine "No-Hair"-Eigenschaft hindeutet, die die Wirksamkeit von Low-Rank-Updates erklärt. Wir liefern ferner theoretische Unterstützung auf Basis der Theorie zufälliger Matrizen und erweitern unsere Analyse auf eine MPS-Adaptation-PEFT-Methode, die qualitativ ähnliche Verhaltensweisen zeigt.

ShowUI-Aloha: Ein durch menschliche Anleitung trainierter GUI-Agent
ShowUI-Aloha: Human-Taught GUI Agent

Jan 12

ByYichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou

Grafische Benutzeroberflächen (GUIs) sind zentral für die Mensch-Computer-Interaktion, doch die Automatisierung komplexer GUI-Aufgaben bleibt eine große Herausforderung für autonome Agenten, hauptsächlich aufgrund eines Mangels an skalierbaren, hochwertigen Trainingsdaten. Obwohl Aufzeichnungen menschlicher Demonstrationen eine reichhaltige Datenquelle darstellen, sind diese typischerweise lang, unstrukturiert und ohne Annotationen, was es Agenten erschwert, daraus zu lernen. Um dieses Problem zu lösen, stellen wir ShowUI-Aloha vor, eine umfassende Pipeline, die unstrukturierte, natürlich aufgenommene Bildschirmvideos von Desktop-Umgebungen in strukturierte, ausführbare Aufgaben umwandelt. Unser Framework umfasst vier Schlüsselkomponenten: Einen Rekorder, der den Bildschirm sowie präzise Benutzerinteraktionen wie Mausklicks, Tastenanschläge und Scrollbewegungen aufzeichnet. Einen Interpreter, der diese Rohinteraktionen und den visuellen Kontext semantisch analysiert und in beschreibende natürliche Sprachbeschreibungen übersetzt. Einen Planer, der die analysierten Demonstrationen verarbeitet, Aufgabenstatus verwaltet und dynamisch den nächsten hochleveligen Aktionsplan auf Basis kontextueller Schlussfolgerungen erstellt. Einen Ausführungsmodul, der diese Aktionspläne auf Betriebssystemebene zuverlässig ausführt und präzise Klicks, Ziehbewegungen, Texteingaben sowie Fensteroperationen mit Sicherheitsprüfungen und Echtzeit-Feedback durchführt. Zusammen bieten diese Komponenten eine skalierbare Lösung zur Erfassung und Analyse realer menschlicher Daten und zeigen einen praktikablen Weg zum Aufbau universeller GUI-Agenten auf, die effektiv durch reine Beobachtung menschlicher Handlungen lernen können.

Über die Nicht-Entkopplung von überwachtem Feinabstimmen und Reinforcement Learning im Nachschulungsprozess
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

Jan 12

ByXueyan Niu, Bo Bai, Wei Han, Weixi Zhang

Das Post-Training großer Sprachmodelle verknüpft routinemäßig supervidiertes Finetuning (SFT) mit Reinforcement Learning (RL). Diese beiden Methoden verfolgen unterschiedliche Ziele: SFT minimiert den Kreuzentropieverlust zwischen Modellausgaben und Expert:innenantworten, während RL Belohnungssignale maximiert, die aus menschlichen Präferenzen oder regelbasierten Verifikationssystemen abgeleitet werden. Moderne Reasoning-Modelle haben die Praxis der abwechselnden SFT- und RL-Trainingsphasen weitgehend übernommen. Es existiert jedoch keine theoretische Grundlage dafür, ob diese Methoden entkoppelt werden können. Wir beweisen, dass eine Entkopplung in beiden Reihenfolgen unmöglich ist: (1) SFT-then-RL-Kopplung: RL erhöht den SFT-Verlust unter SFT-Optimalität und (2) RL-then-SFT-Kopplung: SFT verringert die durch RL erreichte Belohnung. Experimente mit Qwen3-0.6B bestätigen den vorhergesagten Leistungsabfall und verifizieren, dass SFT und RL nicht ohne Verlust vorheriger Leistungsfähigkeit im Post-Training getrennt werden können.

Benchmarking von kleinen Sprachmodellen und kleinen Sprachmodellen für logisches Denken bei der Klassifizierung des Schweregrads von Systemprotokollen
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

Jan 12

ByYahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang

System-Protokolle sind entscheidend für die Überwachung und Diagnose moderner IT-Infrastrukturen, doch ihr Umfang und ihre Komplexität erfordern eine zuverlässige und effiziente automatische Interpretation. Da Schweregrade vordefinierte Metadaten in Systemprotokollnachrichten sind, bietet ein Modell, das diese lediglich klassifiziert, nur begrenzten eigenständigen praktischen Nutzen und gibt wenig Aufschluss über dessen grundlegende Fähigkeit, Systemprotokolle zu interpretieren. Wir vertreten die Auffassung, dass die Schweregradklassifizierung informativer ist, wenn sie als Benchmark zur Untersuchung des Runtime-Protokollverständnisses dient, anstatt als Endaufgabe. Anhand realer journalctl-Daten von Linux-Produktionsservern evaluieren wir neun Small Language Models (SLMs) und Small Reasoning Language Models (SRLMs) mittels Zero-Shot-, Few-Shot- und Retrieval-Augmented Generation (RAG)-Prompting. Die Ergebnisse zeigen eine starke Schichtung. Qwen3-4B erzielt mit RAG die höchste Genauigkeit von 95,64 %, während Gemma3-1B sich von 20,25 % unter Few-Shot-Prompting auf 85,28 % mit RAG verbessert. Bemerkenswerterweise erreicht das winzige Qwen3-0.6B eine Genauigkeit von 88,12 %, trotz schwacher Leistung ohne Retrieval. Im Gegensatz dazu verschlechtern sich mehrere SRLMs, einschließlich Qwen3-1.7B und DeepSeek-R1-Distill-Qwen-1.5B, erheblich in Kombination mit RAG. Effizienzmessungen trennen die Modelle weiter: Die meisten Gemma- und Llama-Varianten schließen Inferenzen in unter 1,2 Sekunden pro Protokoll ab, während Phi-4-Mini-Reasoning über 228 Sekunden pro Protokoll benötigt und dabei <10 % Genauigkeit erreicht. Diese Ergebnisse legen nahe, dass (1) Architekturdesign, (2) Trainingsziele und (3) die Fähigkeit, abgerufenen Kontext unter strengen Ausgabebeschränkungen zu integrieren, gemeinsam die Leistung bestimmen. Indem dieser Benchmark kleine, einsetzbare Modelle betont, entspricht er den Echtzeitanforderungen von Digital Twin (DT)-Systemen und zeigt, dass die Schweregradklassifizierung als Linse zur Bewertung von Modellkompetenz und Echtzeitfähigkeit dient, mit Implikationen für Root Cause Analysis (RCA) und breitere DT-Integration.

Über den Trugschluss der globalen Token-Perplexität bei der Evaluation gesprochener Sprachmodelle
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

Jan 9

ByJeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso

Generative Sprachmodelle, die auf umfangreichen Rohaudiodaten vortrainiert wurden, können eine Sprachaufforderung mit passendem Inhalt fortsetzen und dabei Eigenschaften wie Sprecheridentität und Emotion bewahren. Sie fungieren somit als Basismodelle für gesprochene Dialoge. In der bisherigen Literatur werden diese Modelle häufig anhand der „globalen Token-Perplexität“ bewertet, bei der die Formulierung der Text-Perplexität direkt auf Sprach-Tokens angewendet wird. Diese Praxis übersieht jedoch fundamentale Unterschiede zwischen den Modalitäten Sprache und Text, was möglicherweise zu einer Unterschätzung der Sprachcharakteristika führt. In dieser Arbeit schlagen wir eine Reihe von bewertungsbasierten und generativen Evaluierungsmethoden vor, die anstelle der naiven globalen Token-Perplexität verwendet werden können. Wir zeigen, dass die vorgeschlagenen Evaluationen die wahrgenommene Generierungsqualität genauer widerspiegeln, was sich in stärkeren Korrelationen mit menschlich bewerteten Mean Opinion Scores (MOS) zeigt. Bei der Bewertung mit den neuen Metriken verändert sich das relative Leistungsbild der Sprachmodelle erheblich, wobei sich die Kluft zwischen dem leistungsstärksten Modell und der menschlichen Topline deutlich verringert. Zusammengenommen deuten diese Ergebnisse darauf hin, dass eine angemessene Evaluation entscheidend ist, um Fortschritte in der Sprachmodellierung genau zu bewerten.

Gecko: Eine effiziente neuronale Architektur zur inhärenten Verarbeitung von Sequenzen beliebiger Länge
Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

Jan 10

ByXuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu

Die Entwicklung eines einheitlichen neuronalen Netzwerks, das sequentielle Daten beliebiger Länge effizient und inhärent verarbeiten kann, ist ein zentrales und herausforderndes Problem in der Sequenzmodellierung. Die Designentscheidungen beim Transformer – einschließlich quadratischer Komplexität und schwacher Längenextrapolation – haben dessen Skalierbarkeit auf lange Sequenzen begrenzt. In dieser Arbeit stellen wir Gecko vor, eine neuronale Architektur, die das Design von Mega und Megalodon (exponentiell gleitender Durchschnitt mit gated Attention) erbt und durch mehrere technische Komponenten erweitert, um die Erfassung langreichweitiger Abhängigkeiten zu verbessern. Dazu gehören Timestep Decay Normalization, ein Sliding-Chunk-Attention-Mechanismus und adaptiver Arbeitspeicher. In einem kontrollierten Vortrainingsvergleich mit Llama2 und Megalodon im Maßstab von 7 Milliarden Parametern und 2 Billionen Trainingstokens erzielt Gecko eine bessere Effizienz und Skalierbarkeit für lange Kontexte. Gecko erreicht einen Trainingsverlust von 1,68 und übertrifft damit Llama2-7B (1,75) und Megalodon-7B (1,70) signifikant, wobei es nahe an Llama2-13B (1,67) heranreicht. Bemerkenswerterweise zeigt Gecko ohne Verwendung von Kontextverlängerungstechniken inhärente Fähigkeiten zur Verarbeitung und Abfrage langer Kontexte, verarbeitet stabil Sequenzen von bis zu 4 Millionen Tokens und ruft Informationen aus Kontexten ab, die bis zu 4-mal länger sind als sein Attention-Fenster. Code: https://github.com/XuezheMax/gecko-llm

FlyPose: Auf dem Weg zu robuster menschlicher Posenschätzung aus Luftaufnahmen
FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Jan 9

ByHassaan Farooq, Marvin Brenner, Peter St\ütz

Unbemannte Luftfahrzeuge (UAVs) werden zunehmend in unmittelbarer Nähe zu Menschen für Anwendungen wie Paketzustellung, Verkehrsüberwachung, Katastrophenhilfe und Infrastrukturinspektionen eingesetzt. Um einen sicheren und zuverlässigen Betrieb in diesen von Menschen bevölkerten Umgebungen zu gewährleisten, ist eine genaue Erfassung menschlicher Körperhaltungen und Handlungen aus der Luftperspektive erforderlich. Diese Perspektive stellt bestehende Methoden aufgrund geringer Auflösung, steiler Betrachtungswinkel und (Selbst-)Verdeckungen vor Herausforderungen, insbesondere wenn die Anwendung echtzeitfähige Modelle erfordert. Wir trainieren und implementieren FlyPose, eine schlanke "Top-Down"-Pipeline zur Schätzung menschlicher Körperhaltung für Luftaufnahmen. Durch Multi-Dataset-Training erreichen wir eine durchschnittliche Steigerung von 6,8 mAP bei der Personenerkennung über die Testsets von Manipal-UAV, VisDrone, HIT-UAV sowie unserem eigenen benutzerdefinierten Datensatz. Für die 2D-Schätzung menschlicher Körperhaltung verzeichnen wir eine Verbesserung von 16,3 mAP auf dem anspruchsvollen UAV-Human-Datensatz. FlyPose läuft mit einer Inferenzlatenz von ~20 Millisekunden inklusive Vorverarbeitung auf einem Jetson Orin AGX Developer Kit und wird onboard eines Quadrokopter-UAVs während Flugexperimenten eingesetzt. Wir veröffentlichen ebenfalls FlyPose-104, einen kleinen aber anspruchsvollen Datensatz zur Schätzung menschlicher Körperhaltung aus der Luft, der manuelle Annotationen aus schwierigen Luftperspektiven enthält: https://github.com/farooqhassaan/FlyPose.

Stochastisches CHAOS: Warum deterministische Inferenz tötet und verteilungsbasierte Variabilität der Herzschlag künstlicher Kognition ist
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

Jan 12

ByTanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das

Deterministische Inferenz ist ein beruhigendes Ideal in klassischer Software: Dasselbe Programm mit derselben Eingabe sollte stets dieselbe Ausgabe produzieren. Während große Sprachmodelle in den realen Einsatz übergehen, wurde dieses Ideal unverändert in Inferenz-Stacks übernommen. Jüngste Arbeiten des Thinking Machines Lab haben eine detaillierte Analyse der Nichtdeterminiertheit in der LLM-Inferenz vorgelegt und gezeigt, wie batch-invariante Kernel und deterministische Attention bitweise identische Ausgaben erzwingen können, wobei deterministische Inferenz als Voraussetzung für Reproduzierbarkeit und unternehmerische Zuverlässigkeit positioniert wird. In diesem Papier vertreten wir die gegenteilige Position. Wir argumentieren, dass deterministische Inferenz für LLMs deren Fähigkeiten abtötet. Sie tötet die Fähigkeit ab, Unsicherheit zu modellieren, unterdrückt emergente Fähigkeiten, zwingt das Reasoning auf einen einzigen spröden Pfad und schwächt die Sicherheitsausrichtung (Safety Alignment), indem sie Tail Risks verbirgt. LLMs implementieren bedingte Verteilungen über Ausgaben, keine festen Funktionen. Diese Verteilungen auf eine einzige kanonische Vervollständigung zu reduzieren, mag beruhigend wirken, verschleiert aber systematisch Eigenschaften, die für künstliche Kognition zentral sind. Stattdessen befürworten wir Stochastic CHAOS, bei dem die Verteilungsvariabilität als ein zu messendes und zu kontrollierendes Signal behandelt wird. Empirisch zeigen wir, dass deterministische Inferenz systematisch irreführend ist. Die deterministische Auswertung mit einer einzelnen Stichprobe unterschätzt sowohl die Fähigkeiten als auch die Fragilität der Modelle und verschleiert die Ausfallwahrscheinlichkeit unter Paraphrasen und Rauschen. Phasenübergänge, die mit emergenten Fähigkeiten verbunden sind, verschwinden unter greedy Decoding. Mehrpfad-Reasoning verschlechtert sich, wenn es auf deterministische Backbones gezwungen wird, was die Genauigkeit und diagnostische Einsicht verringert. Schließlich unterschätzt die deterministische Bewertung das Sicherheitsrisiko, indem sie seltene, aber gefährliche Verhaltensweisen verbirgt, die nur bei einer Auswertung mit mehreren Stichproben auftreten.

SketchJudge: Eine diagnostische Benchmark zur Bewertung handgezeichneter Diagramme mit multimodalen großen Sprachmodellen
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

Jan 11

ByYuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang

Während multimodale große Sprachmodelle (MLLMs) bemerkenswerte Fortschritte im visuellen Verständnis erzielt haben, stoßen sie oft an ihre Grenzen, wenn sie mit der unstrukturierten und mehrdeutigen Natur von handgezeichneten Skizzen konfrontiert werden. Diese Einschränkung zeigt sich besonders bei der bisher wenig erforschten Aufgabe des visuellen Bewertens, bei der Modelle nicht nur ein Problem lösen, sondern auch Fehler in handgezeichneten Diagrammen diagnostizieren sollen. Solche diagnostischen Fähigkeiten hängen von komplexem strukturellem, semantischem und metakognitivem Denken ab. Um diese Lücke zu schließen, stellen wir SketchJudge vor, einen neuartigen Benchmark, der speziell für die Bewertung von MLLMs als Prüfer handgezeichneter MINT-Diagramme entwickelt wurde. SketchJudge umfasst 1.015 handgezeichnete Schülerantworten aus vier Bereichen: Geometrie, Physik, Diagramme und Flussdiagramme, mit unterschiedlichen stilistischen Variationen und eindeutigen Fehlertypen. Evaluierungen auf SketchJudge zeigen, dass selbst fortschrittliche MLLMs deutlich hinter menschlichen Leistungen zurückbleiben, was die Wirksamkeit des Benchmarks bei der Aufdeckung der Fragilität aktueller Vision-Sprache-Abgleichung in symbolischen und verrauschten Kontexten bestätigt. Alle Daten, Codes und Auswertungsskripte sind öffentlich unter https://github.com/yuhangsu82/SketchJudge verfügbar.

Kann textuelles Denken die Leistung von MLLMs bei feinkörniger visueller Klassifizierung verbessern?
Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

Jan 11

ByJie Zhu, Yiyang Su, Xiaoming Liu

Multimodale große Sprachmodelle (MLLMs) zeigen starke Allzweckfähigkeiten, haben aber nach wie vor Schwierigkeiten mit der feingranularen visuellen Klassifikation (FGVC), einer zentralen Wahrnehmungsaufgabe, die subtile visuelle Unterscheidung erfordert und für viele reale Anwendungen entscheidend ist. Eine weit verbreitete Strategie zur Steigerung der Leistung bei anspruchsvollen Aufgaben wie Mathematik und Programmieren ist die Chain-of-Thought (CoT)-Argumentation. Mehrere frühere Arbeiten haben jedoch berichtet, dass CoT die Leistung bei visuellen Wahrnehmungsaufgaben tatsächlich beeinträchtigen kann. Diese Studien betrachten das Problem jedoch aus relativ engen Blickwinkeln und lassen offen, warum CoT die leistungsintensive Wahrnehmung verschlechtert. Wir untersuchen die Rolle von CoT in FGVC systematisch neu durch die Linse der Zero-Shot-Evaluierung und mehrerer Trainingsparadigmen. In diesen Settings decken wir ein zentrales Paradoxon auf: Die durch CoT verursachte Verschlechterung wird maßgeblich durch die Argumentationslänge vorangetrieben, wobei längere textuelle Argumentation konsequent die Klassifikationsgenauigkeit verringert. Wir bezeichnen dieses Phänomen als die „Kosten des Denkens“ (Cost of Thinking). Aufbauend auf dieser Erkenntnis leisten wir zwei zentrale Beiträge: (1) \alg, eine einfache und allgemeine Plug-and-Play-Normalisierungsmethode für die Multi-Reward-Optimierung, die heterogene Belohnungssignale ausbalanciert, und (2) ReFine-RFT, ein Framework, das Ensemble-Belohnungen mit \alg kombiniert, um die Argumentationslänge zu begrenzen und gleichzeitig dichte, auf Genauigkeit ausgerichtete Rückmeldungen zu liefern. Umfangreiche Experimente belegen die Wirksamkeit unserer Erkenntnisse und des vorgeschlagenen ReFine-RFT, das state-of-the-art Leistung über FGVC-Benchmarks hinweg erzielt. Code und Modelle sind verfügbar unter https://github.com/jiezhu23/ReFine-RFT{Projektlink}.

Verbessert Inference Scaling die Zuverlässigkeit des Schließens? Eine Multi-Modell-Analyse von Trade-offs bei der Selbstkonsistenz
Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Jan 10

ByDeep Mehta

Selbstkonsistenz hat sich als beliebte Technik zur Verbesserung der Genauigkeit großer Sprachmodelle bei Reasoning-Aufgaben etabliert. Der Ansatz ist einfach: Es werden mehrere Reasoning-Pfade generiert und die häufigste Antwort durch Mehrheitsabstimmung ausgewählt. Obwohl dies die Genauigkeit zuverlässig steigert, bleibt unklar, ob diese Gewinne echte Verbesserungen der Reasoning-Qualität widerspiegeln. Wir untersuchen eine grundlegende Frage, die bisher nicht erforscht wurde: Verbessert die Skalierung des Inferenzprozesses die Zuverlässigkeit des Reasonings? Wir führen eine umfassende empirische Studie mit vier führenden Modellen (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview und DeepSeek-v3.2) an 100 mathematischen Reasoning-Problemen aus GSM8K durch. Unsere Analyse verwendet Bootstrap-Konfidenzintervalle, McNemar-Tests für gepaarte Vergleiche und Cohen's d-Effektstärken, um die Effekte rigoros zu quantifizieren. Die Ergebnisse zeigen auffällige Unterschiede zwischen den Modellen, die gängige Annahmen über Selbstkonsistenz infrage stellen. GPT-5.2 zeigt das erwartete Muster: Die Genauigkeit verbessert sich von 78 % auf 90 % bei N=5, während die Zuverlässigkeit relativ stabil bleibt (0,540 zu 0,510). Claude Opus 4.5 zeigt ein völlig anderes Bild. Seine Genauigkeit sinkt tatsächlich von 78 % auf 74,3 %, während die Zuverlässigkeit bei N=5 dramatisch von 0,270 auf 0,891 ansteigt. DeepSeek-v3.2, das bereits bei 98 % Genauigkeit liegt, zeigt Deckeneffekte mit moderaten Zuverlässigkeitsgewinnen (0,440 zu 0,541). Gemini-3-flash verbessert sich von 81 % auf 86 % Genauigkeit bei einem leichten Rückgang der Zuverlässigkeit (0,260 zu 0,212). Eine Analyse der Problem-Schwierigkeit zeigt, dass GPT-5.2 82 % der schwierigen Probleme löst, während es nur bei 13 % der einfachen Probleme versagt. Claude hingegen versagt bei 23 % der einfachen Probleme, was seinen Genauigkeitsrückgang erklärt. Diese Erkenntnisse sind für Praktiker relevant: Selbstkonsistenz ist nicht universell vorteilhaft, und Teams sollten ihre spezifischen Modelle vor dem Einsatz testen. Wir veröffentlichen unseren Code und geben praktische Empfehlungen für den Umgang mit diesen Zielkonflikten.

Eine steigende Flut hebt alle Boote: MTQE-Belohnungen für Idiome verbessern die allgemeine Übersetzungsqualität
A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality

Jan 9

ByIshika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür

Nicht-kompositionelle Ausdrücke (z.B. Idiome, Sprichwörter und Metaphern) stellen erhebliche Herausforderungen für neuronale maschinelle Übersetzungssysteme dar, da ihre Bedeutung nicht aus einzelnen Wörtern allein abgeleitet werden kann. Diese Ausdrücke kodieren reiche, kulturelle Bedeutung und haben sowohl figurative als auch wörtliche Bedeutungen, was eine genaue Übersetzung erschwert. Da Modelle recht gut darin sind, kompositionelle Texte zu übersetzen, untersuchen wir GRPO-artiges Fine-Tuning unter Verwendung von Machine Translation Quality Estimation (MTQE)-Modellen als Belohnungsfunktionen, um Modelle darin zu trainieren, Idiome besser zu übersetzen. Unter Verwendung von chinesischen und hindi Idiom-Datensätzen stellen wir fest, dass sich die Idiom-Übersetzungsfähigkeiten um ~14 Punkte verbessern, die allgemeine, nicht-idiomatische Übersetzung sich implizit um ~8 Punkte verbessert und die cross-lingualen Übersetzungsfähigkeiten (trainiert in einer Sprache, evaluiert in einer anderen) um ~6 Punkte zulegen. Insgesamt quantifiziert unsere Arbeit die nicht-kompositionelle Übersetzungslücke und bietet Erkenntnisse für die Entwicklung von LLMs mit einem stärkeren cross-kulturellen und figurativen Sprachverständnis.

SPINAL -- Skalierungsgesetz- und Präferenzintegration in neuronalen Ausrichtungs-Schichten
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

Jan 8

ByArion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das

Direct Preference Optimization (DPO) ist eine prinzipiengeleitete, skalierbare Alternative zu RLHF für die Ausrichtung großer Sprachmodelle anhand paarweiser Präferenzen, doch ihr interner geometrischer Fußabdruck bleibt unterbestimmt, was Audits, Checkpoint-Vergleiche und Fehlervorhersagen einschränkt. Wir stellen SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) vor, eine Diagnosetechnik, die misst, wie die Ausrichtung Repräsentationen über die Tiefe hinweg verändert, indem sie lokalisierten strukturellen Wandel Schicht für Schicht nachverfolgt. Über Modellfamilien hinweg erzeugt DPO einen schichtweisen Kalibrierungseffekt, der in den letzten Decoder-Blöcken konzentriert ist (oft Schichten 21-30), wo Präferenzgradienten die Next-Token-Verteilung am direktesten beeinflussen. SPINAL kodiert jeden Checkpoint als eine Tiefenspur über (Schichtindex, Kontraktionsscore, Transportscore). Der Kontraktionsscore fasst zusammen, wie schnell das Ende des Spektrums einer Schicht abklingt (wie schnell kleine Modi verschwinden); höhere Werte zeigen eine stärkere Kontraktion in weniger effektive Richtungen an. Der Transportscore fasst zusammen, wie stark sich die Tokenverteilung zwischen benachbarten Schichten unter Verwendung eines beschränkten Überlappungsmaßes verschiebt; niedrigere Werte zeigen kürzere, glattere Schritte durch den Repräsentationsraum an. Ausgerichtete Checkpoints zeigen einen spätschichtigen Anstieg der Kontraktion und eine glatte Reduktion des Transports, was mit einer gestrafften und stabilisierten Policy-Masse konsistent ist, während nicht-ausgerichtete Modelle Tiefenpfade mit höherer Krümmung, höherer Entropie und geometrisch inkohärente Pfade aufweisen. Insgesamt ist die Ausrichtung geometrisch lokalisiert: Die letzten Schichten kodieren die dominanten, präferenzinduzierten Korrekturen. SPINAL macht diese Lokalisierung zu einem praktischen Audit-Signal, das quantifiziert, wo sich die Ausrichtung konzentriert, wie stark sie sich manifestiert und wann sie während des Trainings zu destabilisieren beginnt.

3D CoCa v2: Kontrastive Lernverfahren mit Testzeit-Suche für generalisierbare räumliche Intelligenz
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

Jan 10

ByHao Tang, Ting Huang, Zeyu Zhang

Räumliche Intelligenz bezeichnet die Fähigkeit, Objekte und ihre Beziehungen in dreidimensionalen Umgebungen wahrzunehmen, zu begreifen und zu beschreiben, was eine Grundlage für verkörperte Wahrnehmung und Szenenverständnis bildet. 3D-Bildbeschreibung zielt darauf ab, 3D-Szenen in natürlicher Sprache zu beschreiben; dies bleibt jedoch aufgrund der Sparsamkeit und Unregelmäßigkeit von Punktwolken und, noch entscheidender, der schwachen Verankerung und begrenzten Out-of-Distribution (OOD)-Generalisierung bestehender Beschreibungssysteme über stark unterschiedliche Umgebungen hinweg, einschließlich Innen- und Außen-3D-Szenen, eine Herausforderung. Um diese Herausforderung zu bewältigen, schlagen wir 3D CoCa v2 vor, ein generalisierbares 3D-Beschreibungsframework, das kontrastives Vision-Language-Lernen mit 3D-Beschreibungsgenerierung vereint und die Robustheit durch Test-Time-Search (TTS) weiter verbessert, ohne die Parameter des Beschreibungssystems zu aktualisieren. 3D CoCa v2 baut auf einer eingefrorenen CLIP-basierten semantischen Priorität, einem raumbewussten 3D-Szenenencoder für Geometrie und einem multimodalen Decoder auf, der gemeinsam mit kontrastiven und Beschreibungszielen optimiert wird, ohne externe Detektoren oder handgefertigte Vorschläge zu benötigen. Bei der Inferenz erzeugt TTS diverse Beschreibungskandidaten und führt eine belohnungsgesteuerte Auswahl unter Verwendung einer kompakten Szenenzusammenfassung durch. Experimente zeigen Verbesserungen gegenüber 3D CoCa von +1,50 CIDEr@0,5IoU auf ScanRefer und +1,61 CIDEr@0,5IoU auf Nr3D sowie +3,8 CIDEr@0,25 in der Zero-Shot-OOD-Evaluierung auf TOD3Cap. Der Code wird unter https://github.com/AIGeeksGroup/3DCoCav2 veröffentlicht.

FinForge: Halbsynthetische Generierung von Finanz-Benchmarks
FinForge: Semi-Synthetic Financial Benchmark Generation

Jan 11

ByGlenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava

Die Bewertung von Sprachmodellen (LMs) in spezialisierten, hochriskanten Domänen wie der Finanzwelt bleibt eine große Herausforderung, was vor allem auf den Mangel an offenen, hochwertigen und domänenspezifischen Datensätzen zurückzuführen ist. Bestehende allgemeine Benchmarks bieten zwar eine breite Abdeckung, mangelt es ihnen jedoch an der Tiefe und Domänentreue, die erforderlich sind, um die Fähigkeiten von LMs für realistische Finanzanalysen zu bewerten, die sowohl konzeptionelles Verständnis als auch quantitative Strenge erfordern. Um diese Lücke zu schließen, stellen wir FinForge vor: eine skalierbare, halbsynthetische Pipeline zur Erstellung finanzspezifischer Evaluierungs-Benchmarks durch eine Kombination aus expertengeleiteter Datenkuratierung und kontrollierter, LM-basierter Synthese. FinForge verbindet manuelle und programmatische Korpus-Erstellung aus autoritativen Finanzquellen mit strukturierter Fragengenerierung und Validierung unter Verwendung von Gemini 2.5 Flash. Um die Wirksamkeit der Pipeline zu demonstrieren, erstellen wir FinForge-5k, einen Benchmark-Snapshot mit über 5.000 menschlich validierten Frage-Antwort-Paaren aus 11 Finanzteilgebieten, der aus einem kuratierten Korpus von 100.000 verifizierten Dokumenten mit insgesamt 143 Millionen Tokens abgeleitet ist. Die Evaluierung modernster Open-Source- und Closed-Source-Modelle anhand von FinForge-5k zeigt erhebliche Unterschiede in der finanziellen Reasoning-Fähigkeit auf, wobei führende Modelle Genauigkeitswerte von nahezu 80 % erreichen. Diese Ergebnisse unterstreichen den Nutzen des Frameworks für die Diagnose aktueller Modellgrenzen und die Steuerung zukünftiger Verbesserungen der finanziellen Domänenkompetenz. Der gesamte Code und die Daten sind unter https://github.com/gtfintechlab/FinForge verfügbar.