HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

53 papers found

Anti-Selbstdestillation für Reasoning-RL mittels punktweiser gegenseitiger Information
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

May 12

ByGuobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

191

On-Policy-Selbst-Destillation, bei der ein Schüler in Richtung einer Kopie seiner selbst gezogen wird, die durch privilegierten Kontext (z. B. eine verifizierte Lösung oder Rückmeldung) konditioniert ist, bietet einen vielversprechenden Ansatz zur Verbesserung der Denkfähigkeit ohne einen stärkeren externen Lehrer. Doch bei mathematischen Denkaufgaben sind die Fortschritte uneinheitlich, selbst wenn derselbe Ansatz anderswo erfolgreich ist. Eine Analyse der punktweisen gegenseitigen Information führt das Scheitern auf den privilegierten Kontext selbst zurück: Er erhöht die Konfidenz des Lehrers bei Token, die bereits durch die Lösung impliziert werden (strukturelle Konnektive, überprüfbare Behauptungen), und senkt sie bei Überlegungs-Token ("Warte", "Lass", "Vielleicht"), die die mehrstufige Suche vorantreiben. Wir schlagen Anti-Selbst-Destillation (AntiSD) vor, die eine Divergenz zwischen Schüler und Lehrer aufsteigt statt absteigt: Dies kehrt das Vorzeichen pro Token um und ergibt einen natürlich begrenzten Vorteil in einem Schritt. Ein entropiegesteuertes Tor deaktiviert den Term, sobald die Lehrer-Entropie zusammenbricht, und vervollständigt so einen Drop-in-Ersatz für die Standard-Selbst-Destillation. Über fünf Modelle mit 4B bis 30B Parametern bei Benchmarks für mathematisches Denken erreicht AntiSD die Genauigkeit der GRPO-Baseline in 2 bis 10 Mal weniger Trainingsschritten und verbessert die endgültige Genauigkeit um bis zu 11,5 Punkte. AntiSD eröffnet einen Weg zur skalierbaren Selbstverbesserung, bei dem ein Sprachmodell sein eigenes Denken durch sein Trainingssignal vorantreibt.

AutoResearchClaw: Selbstverstärkende autonome Forschung mit Mensch-KI-Zusammenarbeit
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

May 19

ByJiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

182

Die Automatisierung wissenschaftlicher Entdeckungen erfordert mehr als nur die Generierung von Fachartikeln aus Ideen. Echte Forschung ist iterativ: Hypothesen werden aus mehreren Perspektiven hinterfragt, Experimente scheitern und informieren den nächsten Versuch, und Erkenntnisse sammeln sich über Zyklen hinweg an. Bestehende autonome Forschungssysteme modellieren diesen Prozess oft als lineare Pipeline: Sie stützen sich auf das Denken eines einzelnen Agenten, halten an, wenn die Ausführung fehlschlägt, und übertragen keine Erfahrungen über Durchläufe hinweg. Wir stellen AutoResearchClaw vor, eine multi-agentenbasierte autonome Forschungspipeline, die auf fünf Mechanismen aufbaut: strukturierte Multi-Agenten-Debatte zur Hypothesengenerierung und Ergebnisanalyse, einen selbstheilenden Ausführer mit einer Pivot/Refine-Entscheidungsschleife, die Fehler in Informationen umwandelt, überprüfbare Ergebnisberichterstattung, die erfundene Zahlen und halluzinierte Zitate verhindert, Human-in-the-loop-Kollaboration mit sieben Interventionsmodi, die von vollständiger Autonomie bis zur schrittweisen Überwachung reichen, und durchlaufübergreifende Evolution, die frühere Fehler in zukünftige Sicherheitsvorkehrungen umwandelt. Auf ARC-Bench, einem Experiment-Stage-Benchmark mit 25 Themen, übertrifft AutoResearchClaw AI Scientist v2 um 54,7 %. Eine Human-in-the-loop-Ablation über sieben Interventionsmodi zeigt, dass präzise, gezielte Zusammenarbeit an entscheidenden Punkten mit hoher Hebelwirkung sowohl die vollständige Autonomie als auch die erschöpfende schrittweise Überwachung durchgängig übertrifft. Wir positionieren AutoResearchClaw als Forschungsverstärker, der das menschliche wissenschaftliche Urteilsvermögen ergänzt und nicht ersetzt. Der Code ist verfügbar unter https://github.com/aiming-lab/AutoResearchClaw.

Wenn das Sehen für den Klang spricht
When Vision Speaks for Sound

May 13

ByXiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen, Peng Qi

147

Trotz rascher Fortschritte bei videofähigen MLLMs stellen wir fest, dass ihr scheinbares Audioverständnis in Videos oft visionsgetrieben ist: Modelle stützen sich auf visuelle Hinweise, um akustische Informationen zu erschließen oder zu halluzinieren, anstatt den Audiostream zu überprüfen. Dieses Problem tritt sowohl bei hochmodernen quelloffenen Omni-Modellen als auch bei führenden geschlossenen Modellen von Anbietern wie Google und OpenAI auf. Wir charakterisieren dieses Fehlermuster als einen audio-visuellen Kluger-Hans-Effekt, bei dem Modelle fälschlicherweise audiogestützt erscheinen, aber tatsächlich visuell-akustische Korrelationen ausnutzen, ohne zu überprüfen, ob Audio- und Videostream wirklich übereinstimmen. Um dieses Verhalten systematisch zu untersuchen, führen wir Thud ein, ein interventionsgestütztes Prüfrahmenwerk, das auf drei kontrafaktischen Audio-Bearbeitungen basiert: Shift (Prüfung der zeitlichen Synchronisation), Mute (Prüfung der Existenz von Ton) und Swap (Prüfung der audio-visuellen Konsistenz). Über die Diagnose hinaus untersuchen wir zudem ein zweistufiges Ausrichtungsrezept: Interventionsbasierte Präferenzpaare lehren die Audioverifikation, während allgemeine Videopräferenzen auf Ereignisebene das Modell vor Überspezialisierung bewahren. Unser bestes Rezept mit 10.000 Stichproben verbessert die durchschnittliche Leistung über die drei Interventionsdimensionen um 28 Prozentpunkte und steigert gleichzeitig die Leistung bei allgemeinen Video- und audio-visuellen QA-Benchmarks leicht.

Aktive Lerner als effiziente PRP-Reranker
Active Learners as Efficient PRP Rerankers

May 15

ByJeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Barron, Juan Wisznia, Luciano del Corro

Pairwise Ranking Prompting (PRP) ruft paarweise Präferenzurteile von einem LLM ab, die dann zu einem Ranking zusammengeführt werden, üblicherweise mittels klassischer Sortieralgorithmen. Allerdings sind die Urteile verrauscht, reihenfolgeempfindlich und manchmal intransitiv, sodass die Annahmen des Sortierens nicht mit dem Szenario übereinstimmen. Da das Sortieren darauf abzielt, eine vollständige Permutation wiederherzustellen, führt das Abschneiden, um ein Aufrufbudget einzuhalten, nicht zu einem zuverlässigen Top-K. Wir formulieren daher das PRP-Reranking als aktives Lernen aus verrauschten paarweisen Vergleichen um und zeigen, dass aktive Ranker als Drop-in-Ersatz dienen, die den NDCG@10 pro Aufruf im aufrufbeschränkten Bereich verbessern. Unser rauschrobuster Rahmen führt außerdem einen Oracle mit randomisierter Richtung ein, der einen einzigen LLM-Aufruf pro Paar verwendet. Dieser Ansatz wandelt systematischen Positionsbias in mittelwertfreies Rauschen um, wodurch ein unverzerrtes aggregiertes Ranking ohne die Kosten bidirektionaler Aufrufe ermöglicht wird.

OpenComputer: Verifizierbare Softwarewelten für Computer-Nutzungs-Agenten
OpenComputer: Verifiable Software Worlds for Computer-Use Agents

May 19

ByJinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

Wir präsentieren OpenComputer, ein verifikationsgestütztes Framework zur Erstellung verifizierbarer Softwarewelten für Computer-Nutzungsagenten. OpenComputer integriert vier Komponenten: (1) app-spezifische Zustandsverifikatoren, die strukturierte Inspektionsendpunkte über reale Anwendungen bereitstellen, (2) eine sich selbst weiterentwickelnde Verifikationsschicht, die die Verifikatorzuverlässigkeit mittels ausführungsgestütztem Feedback verbessert, (3) eine Aufgabengenerierungspipeline, die realistische und maschinell überprüfbare Desktop-Aufgaben synthetisiert, und (4) eine Evaluierungsumgebung, die vollständige Trajektorien aufzeichnet und prüfbare Teilpunkte-Belohnungen berechnet. In seiner aktuellen Form umfasst OpenComputer 33 Desktop-Anwendungen und 1.000 finalisierte Aufgaben, die Browser, Office-Tools, Kreativsoftware, Entwicklungsumgebungen, Dateimanager und Kommunikationsanwendungen abdecken. Experimente zeigen, dass OpenComputers fest codierte Verifikatoren enger mit menschlicher Beurteilung übereinstimmen als die LLM-als-Richter-Bewertung, insbesondere wenn der Erfolg vom feinkörnigen Anwendungszustand abhängt. Frontier-Agenten haben trotz Teilfortschritten Schwierigkeiten mit der End-to-End-Fertigstellung, und Open-Source-Modelle zeigen starke Abfälle von ihren OSWorld-Verified-Ergebnissen, was eine anhaltende Lücke in der robusten Computerautomatisierung offenbart.

GoLongRL: Fähigkeitsorientiertes Langkontext-Reinforcement-Learning mit Multitask-Ausrichtung
GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19

ByMinxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

Wir präsentieren GoLongRL, ein vollständig quelloffenes, fähigkeitsorientiertes Post-Training-Rezept für langkontextuelles Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Bisherige Methoden des langkontextuellen RL betrachten die Datenkonstruktion oft als Frage der Gestaltung zunehmend komplexer Abrufpfade, was zu einer homogenen Aufgabenabdeckung und Belohnungsformulierungen führt, die praktische Anforderungen an lange Kontexte unzureichend widerspiegeln. Unsere Arbeit liefert zwei Beiträge. (1) Fähigkeitsorientierte Datenkonstruktion mit vollständiger offener Veröffentlichung. Wir veröffentlichen offen einen Datensatz mit 23.000 RLVR-Stichproben, die vollständige Konstruktionspipeline und den gesamten Trainingscode. Angeleitet durch eine Taxonomie langkontextueller Fähigkeiten umfasst der Datensatz 9 Aufgabentypen, die jeweils mit ihrer natürlichen Bewertungsmetrik versehen sind. Er besteht aus kuratierten quelloffenen Stichproben etablierter Korpora und synthetischen Stichproben, deren Frage-Antwort-Paare aus realen Quelldokumenten wie Büchern, wissenschaftlichen Arbeiten und mehrfachen Dialogen generiert wurden. Unter demselben einfachen GRPO-Setup übertrifft unser Datensatz allein den quellgeschlossenen QwenLong-L1.5-Datensatz. Darüber hinaus liefert unser auf diesen Daten trainiertes Qwen3-30B-A3B-Modell eine langkontextuelle Leistung, die mit DeepSeek-R1-0528 und Qwen3-235B-A22B-Thinking-2507 vergleichbar ist, was darauf hindeutet, dass eine breitere Abdeckung und größere Belohnungsvielfalt die Verbesserung langkontextueller Fähigkeiten erheblich begünstigen. (2) TMN-Reweight für heterogene Multitask-Optimierung. Um Optimierungsprobleme durch heterogene Belohnungen zu adressieren, schlagen wir TMN-Reweight vor, das eine aufgabenweise Mittelwertnormalisierung zur Skalenangleichung aufgabenübergreifender Belohnungen mit einer schwierigkeitsadaptiven Gewichtung für eine zuverlässigere Vorteilsschätzung kombiniert. TMN-Reweight verbessert die durchschnittliche Leistung gegenüber dem einfachen GRPO weiter, wobei die allgemeinen Fähigkeiten in den berichteten Bewertungen erhalten oder verbessert werden.

Prozessbelohnungen mit gelernter Zuverlässigkeit
Process Rewards with Learned Reliability

May 15

ByJinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai, Yuyi Yang, Wenxuan Zhang, Jiaxin Huang

Prozess-Belohnungsmodelle (PRMs) liefern schrittweise Rückmeldungen für das logische Schließen, aber aktuelle PRMs geben meist nur eine einzelne Belohnungsbewertung für jeden Schritt aus. Daher müssen nachgelagerte Methoden unvollkommene schrittweise Belohnungsvorhersagen als zuverlässige Entscheidungssignale behandeln, ohne Hinweis darauf, wann diesen Vorhersagen vertraut werden sollte. Wir schlagen BetaPRM vor, ein verteilungsbasiertes PRM, das sowohl eine schrittweise Erfolgswahrscheinlichkeit als auch die Zuverlässigkeit dieser Vorhersage vorhersagt. Auf Grundlage der schrittweisen Erfolgsüberwachung durch Monte-Carlo-Fortsetzungen lernt BetaPRM eine Beta-Überzeugung, die die beobachtete Anzahl erfolgreicher Fortsetzungen durch eine Beta-Binomial-Wahrscheinlichkeit erklärt, anstatt das endliche Stichproben-Erfolgsverhältnis als Punktschätzer zu regressieren. Dieses gelernte Zuverlässigkeitssignal gibt an, wann einer Schrittbelohnung vertraut werden sollte, und ermöglicht es nachgelagerten Anwendungen, zuverlässige Belohnungen von unsicheren zu unterscheiden. Als eine Anwendung führen wir die Adaptive Berechnungszuteilung (ACA) für die PRM-gesteuerte Best-of-N-Argumentation ein. ACA nutzt das gelernte Zuverlässigkeitssignal, um anzuhalten, wenn eine hochbelohnte Lösung zuverlässig ist, und zusätzliche Berechnungen für unsichere Kandidatenpräfixe aufzuwenden. Experimente über vier Basisarchitekturen und vier Argumentations-Benchmarks zeigen, dass BetaPRM die PRM-gesteuerte Best-of-N-Auswahl verbessert, während die standardmäßige schrittweise Fehlererkennung erhalten bleibt. Aufbauend auf diesem Signal verbessert ACA den Genauigkeits-Token-Kompromiss gegenüber der Best-of-16 mit festem Budget und reduziert den Token-Verbrauch um bis zu 33,57 %, während die Genauigkeit der endgültigen Antwort verbessert wird.

EnvFactory: Skalierung von Werkzeugnutzungsagenten mittels Synthese ausführbarer Umgebungen und robustem Reinforcement Learning
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18

ByMinrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

Die Ausstattung von LLMs mit Fähigkeiten zur Werkzeugnutzung durch agentisches Reinforcement Learning (Agentic RL) wird durch zwei Herausforderungen eingeschränkt: das Fehlen skalierbarer, robuster Ausführungsumgebungen und die Knappheit realistischer Trainingsdaten, die implizites menschliches Denken erfassen. Bestehende Ansätze sind auf kostspielige reale APIs, zu Halluzinationen neigende LLM-Simulatoren oder synthetische Umgebungen angewiesen, die oft nur einzelne Interaktionen umfassen oder auf vorab gesammelten Dokumenten basieren. Darüber hinaus sind synthetische Trajektorien häufig über-spezifiziert und ähneln eher Anweisungssequenzen als natürlichen menschlichen Absichten, was ihre Wirksamkeit für das RL-Training verringert. Wir stellen EnvFactory vor, ein vollautomatisches Framework, das beide Herausforderungen adressiert. EnvFactory erkundet und verifiziert eigenständig zustandsbehaftete, ausführbare Werkzeugumgebungen aus authentischen Ressourcen und synthetisiert natürliche mehrschrittige Trajektorien mittels topologiebewusstem Sampling und kalibrierter Verfeinerung, wodurch fundierte Anfragen mit impliziten Absichten entstehen. Mit nur 85 verifizierten Umgebungen aus 7 Domänen generiert EnvFactory 2.575 SFT- und RL-Trajektorien. Trotz der Verwendung deutlich weniger Umgebungen als frühere Arbeiten – die oft fünfmal so viele nutzen – erzielt EnvFactory eine überlegene Trainingseffizienz und bessere Leistung in nachgelagerten Anwendungen: Verbesserungen bei Qwen3-Modellen um bis zu +15 % auf BFCLv3, +8,6 % auf MCP-Atlas und +6 % bei Konversations-Benchmarks wie τ^2-Bench und VitaBench. Durch die vollständige Automatisierung sowohl der Umgebungskonstruktion als auch der Trajektoriensynthese bietet EnvFactory eine skalierbare, erweiterbare und robuste Grundlage für Agentic RL.

CogOmniControl: Reasoning-gesteuerte kontrollierbare Videogenerierung mittels kreativer Absichtskognition
CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

May 19

ByHongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao, Chengzhong Xu, Jianbing Shen

Aktuelle Diffusionsmodelle erzielen eine starke Fotorealismus und Flüssigkeit in der Videogenerierung, bleiben aber unter abstrakten, spärlichen oder komplexen Bedingungen fragil, was zu schlechter Leistung in professionellen Produktionsabläufen wie Storyboard-Skizzen und Clay-Render-Bedingungen führt. Bestehende Videogenerierungsmodelle injizieren entweder Bedingungen durch Adapter oder koppeln ein generisches Vision-Language-Modell (VLM) in ein Diffusions-Backbone, was eine Fähigkeitslücke hinterlässt und es nicht gelingt, Videos zu produzieren, die mit der kreativen Absicht des Benutzers übereinstimmen. Wir stellen CogOmniControl vor, ein reasoning-gesteuertes Framework, das die kontrollierbare Videogenerierung in kognitive Erfassung der kreativen Absicht und Generierung aufteilt. Insbesondere trainieren wir ein spezialisiertes CogVLM mit authentischen Anime-Produktionsdaten. Im Vergleich zu generischen VLMs generiert es professionellere und klarere Ausgaben, erfasst die kreative Absicht des Benutzers genau aus spärlichen und abstrakten Bedingungen und wandelt diese Hinweise in dichte Reasoning-Ausgaben um. Darüber hinaus vereinheitlicht CogOmniDiT die Steuerungen aus verschiedenen Bedingungen durch In-Context-Generierung und wird durch Reinforcement Learning an die Reasoning-Ausgaben von CogVLM angepasst. Ferner nutzen wir die robuste Fähigkeit von CogVLM zur Steuerung der Videogenerierung, erschließen sein Potenzial bei der Planung spezifischer Evaluatoren und ermöglichen eine Best-of-N-Auswahl für die generierten Videos. Diese Integration verwandelt das gesamte Framework in eine geschlossene, „harness-artige“ Architektur. Wir führen außerdem CogReasonBench und CogControlBench ein, die aus Daten professioneller Arbeitsabläufe erstellt wurden, die echte kreative Absicht und nicht simulierte tragen. Experimente auf zwei Benchmarks zeigen, dass CogOmniControl die bestehenden Open-Source-Modelle übertrifft. Die Projektwebsite: https://um-lab.github.io/CogOmniControl/

Nutzung von LLM-Agenten mit Skill-Programmen
Harnessing LLM Agents with Skill Programs

May 18

ByHongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao

Die Ausstattung von LLM-Agenten mit wiederverwendbaren Fähigkeiten aus vergangenen Erfahrungen hat sich zu einem populären und erfolgreichen Ansatz für die Bewältigung komplexer und langfristiger Aufgaben entwickelt. Allerdings werden diese Erkenntnisse oft als textuelle Anleitungen kodiert, die weitgehend beratend bleiben und keine expliziten Mechanismen dafür bieten, wann und wie in die Agentenschleife eingegriffen werden soll. Um diese Lücke zu schließen, stellen wir HASP (Harnessing LLM Agents with Skill Programs) vor, ein neues Framework, das Fähigkeiten in ausführbare Programmfunktionen (PFs) aufwertet. Anstatt passive Ratschläge zu geben, fungieren PFs als ausführbare Leitplanken, die bei fehleranfälligen Zuständen aktiviert werden und entweder die nächste Aktion modifizieren oder korrigierenden Kontext einfügen. HASP ist hochgradig modular: Es kann zur Inferenzzeit für direkte Eingriffe in die Agentenschleife, während des Post-Trainings zur Bereitstellung strukturierter Überwachung oder zur Selbstverbesserung durch die Weiterentwicklung validierter, von Lehrkräften überprüfter PFs eingesetzt werden. Empirisch erzielt HASP im Vergleich zu sowohl trainingsfreien als auch trainingsbasierten Methoden bei Web-Suche, mathematischem Denken und Programmieraufgaben erhebliche Verbesserungen. Beispielsweise verbessern allein die PFs zur Inferenzzeit die durchschnittliche Leistung um 25 % im Vergleich zum (Multi-Loop) ReAct Agenten, während Post-Training und kontrollierte Evolution einen Gewinn von 30,4 % gegenüber Search-R1 erzielen. Um tiefere Einblicke in HASP zu geben, zeigt unsere Mechanismusanalyse, wie PFs ausgelöst werden und eingreifen, wie Fähigkeiten verinnerlicht werden und welche Anforderungen an eine stabile Weiterentwicklung der Fähigkeitsbibliothek bestehen.

Aurora: Einheitliche Videobearbeitung mittels eines werkzeugnutzenden Agenten
Aurora: Unified Video Editing with a Tool-Using Agent

May 18

ByYongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua, Wei Xiong, Jiebo Luo

Aktuelle Videobearbeitungsmodelle haben sich auf ein einheitliches Konditionierungsdesign festgelegt: Ein einzelner Diffusionstransformer verarbeitet gemeinsam Text, Quellvideo und Referenzbilder, und ein einziger Gewichtssatz deckt Ersetzung, Entfernung, Stilübertragung und referenzgesteuerte Einfügung ab. Das Design ist flexibel, setzt jedoch voraus, dass der Benutzer bereits modellfertigen Text, Referenzbilder und räumliche Verankerung für lokale Bearbeitungen bereitstellt, was reale Anfragen oft auslassen. Wir stellen Aurora vor, ein agentisches Videobearbeitungsframework, das einen werkzeugverstärkten Vision-Language-Modell-(VLM-)Agenten mit einem vereinheitlichten Video-Diffusionstransformer kombiniert. Der VLM-Agent ordnet eine rohe Benutzeranfrage einem strukturierten Bearbeitungsplan zu, der auf die Konditionierungskanäle des Transformers abgestimmt ist, und löst so die textuelle und visuelle Unterspezifikation vor der Generierung. Wir trainieren den VLM-Agenten mit überwachten Daten für vollständige Bearbeitungsplanung und Referenzbildauswahl sowie mit Präferenzpaaren für robuste Werkzeugnutzung und Anweisungsverfeinerung. Wir führen AgentEdit-Bench ein, um agentenunterstützte Videobearbeitung unter textueller und visueller Unterspezifikation zu bewerten. Experimente auf AgentEdit-Bench und zwei bestehenden Videobearbeitungs-Benchmarks zeigen, dass Aurora sich gegenüber rein anweisungsbasierten Baselines verbessert und dass der VLM-Agent auf kompatible eingefrorene Videobearbeitungsmodelle übertragbar ist. Projektseite: https://yeates.github.io/Aurora-Page

Artifact-Bench: Evaluierung von MLLMs zur Erkennung und Bewertung von Artefakten in KI-generierten Videos
Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

May 18

ByYuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai, Yue Ding, Ruizhe Chen, Bohan Zeng, Xinlong Chen, Xuanyu Zhu, Bozhou Li, Yuran Wang, Yifan Dai, Chengzhuo Tong, Xinyu Liu, Yiyan Ji, Yujie Wei, Yuhao Dong, Shilin Yan, Fengxiang Wang, Yi-Fan Zhang, Haotian Wang, Yuanxing Zhang, Pengfei Wan

Neuere Videogenerierungsmodelle haben die Realitätstreue KI-generierter Videos erheblich verbessert, dennoch weisen ihre Ausgaben weiterhin Artefakte wie zeitliche Inkonsistenzen, strukturelle Verzerrungen und semantische Inkohärenz auf. Während Multimodale Große Sprachmodelle (MLLMs) starke visuelle Verständnisfähigkeiten besitzen, bleibt unklar, inwieweit sie solche Artefakte wahrnehmen und darüber schlussfolgern können. Existierende Benchmarks ermangeln oft einer systematischen Bewertung der artefaktbewussten Wahrnehmung und feinkörnigen diagnostischen Argumentation, insbesondere über verschiedene KI-generierte Videobereiche hinaus, die über fotorealistische Inhalte hinausgehen. Um diese Lücke zu schließen, führen wir Artifact-Bench ein, einen umfassenden Benchmark zur Bewertung von MLLMs hinsichtlich der Erkennung und Analyse von Artefakten in KI-generierten Videos. Zunächst etablieren wir eine dreistufige hierarchische Taxonomie von Realismus-Artefakten, die fotorealistische, animierte und CG-stilisierte Videos abdeckt. Basierend auf dieser Taxonomie definiert Artifact-Bench drei komplementäre Aufgaben: die Klassifikation von echten vs. KI-generierten Videos, den paarweisen Realismusvergleich und die feinkörnige Artefaktidentifikation. Experimente mit 19 führenden MLLMs zeigen erhebliche Einschränkungen in der Artefaktwahrnehmung und -argumentation auf, wobei viele Modelle in anspruchsvollen Umgebungen eine zufällige oder sogar unterzufällige Leistung erbringen. Darüber hinaus beobachten wir eine signifikante Fehlanpassung zwischen den Urteilen der MLLMs und den menschlichen Wahrnehmungspräferenzen, was ihre begrenzte Zuverlässigkeit als allgemeine Bewerter für die Realitätstreue KI-generierter Videos unterstreicht.

ThoughtTrace: Verstehen von Benutzergedanken in realen Interaktionen mit LLMs
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

May 19

ByChuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu

Konversations-KI erreicht mittlerweile Milliarden von Nutzern, doch bestehende Datensätze erfassen lediglich das Gesagte, nicht das Gedachte. Wir stellen ThoughtTrace vor, den ersten groß angelegten Datensatz, der reale mehrschrittige Mensch-KI-Gespräche mit selbstberichteten Gedanken der Nutzer verknüpft – ihren Gründen für das Verfassen von Eingabeaufforderungen und ihren Reaktionen auf Assistentenantworten. ThoughtTrace umfasst 1.058 Nutzer, 2.155 Gespräche, 17.058 Gesprächsbeiträge und 10.174 Gedankenannotationen, die über 20 Sprachmodelle hinweg erhoben wurden. Unsere Analyse zeigt, dass ThoughtTrace langfristige, thematisch vielfältige Interaktionen abbildet und dass Gedanken semantisch von Nachrichten verschieden, für führende große Sprachmodelle aus dem Kontext schwer ableitbar, inhaltlich vielfältig und mit Gesprächsphasen verknüpft sind. Darüber hinaus demonstrieren wir den Nutzen von Gedanken für die nachgelagerte Modellierung. Erstens verbessern Gedanken als Kontext zur Inferenzzeit die Vorhersage des Nutzerverhaltens. Zweitens liefern gedankengeleitete Umformulierungen feinkörnige Ausrichtungssignale für das Training personalisierter Assistenten. Insgesamt etabliert ThoughtTrace Nutzergedanken als neue Datenmodalität zur Untersuchung der kognitiven Dynamiken hinter der Mensch-KI-Interaktion und schafft eine Grundlage für die Entwicklung von Assistenten, die die latenten Ziele, Präferenzen und Bedürfnisse der Nutzer besser verstehen und sich daran anpassen können.

OmniGUI: Benchmarking von GUI-Agenten in omni-modalen Smartphone-Umgebungen
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

Apr 3

ByFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

Aktuelle Benchmarks für grafische Benutzeroberflächen (GUI)-Agenten basieren überwiegend auf statischen Bildschirmaufnahmen. In der realen Smartphone-Interaktion müssen Agenten jedoch routinemäßig flüchtige Audiohinweise und zeitliche Videodynamiken verarbeiten, die eng mit dem Moment der Aktion verknüpft sind. Um diese Lücke zu schließen, führen wir OmniGUI ein, den ersten Benchmark auf Schritt-Ebene, der dazu entwickelt wurde, GUI-Agenten in omnimodalen Smartphone-Umgebungen zu evaluieren. OmniGUI bietet kontinuierliche, verschachtelte multimodale Eingaben, die pro Aktionsschritt statische Bilder, synchrones Audio und Videoclips umfassen. Der Datensatz umfasst 709 von Experten demonstrierte Episoden (2.579 Aktionsschritte) aus 29 Anwendungen, die systematisch mit objektiven multimodalen Abhängigkeitsstufen annotiert sind. Da sich dedizierte omnimodale GUI-Agent-Frameworks derzeit noch in einem frühen Stadium befinden, wählen wir grundlegende omnimodale Modelle, die nativ verschachtelte Eingaben verarbeiten können, als Agent-Proxys für unsere ersten Baselines. Unsere empirische Bewertung zeigt, dass aktuelle Modelle zwar bei visuell statischen Aufgaben Kompetenz aufweisen, ihre Aktionsvorhersageleistung jedoch in Umgebungen, die zeitgleiche zeitliche und auditive Signale erfordern, erheblich nachlässt. Darüber hinaus isolieren Ablationsstudien spezifische operationelle Engpässe, insbesondere modalübergreifende Interferenzen bei der Verarbeitung aufgabenirrelevanter Umgebungsgeräusche. Der vollständige Datensatz, die Evaluierungspipeline und die Basisaufforderungen sind im ergänzenden Material bereitgestellt. Projektseite: https://omni-gui.github.io.

MSAVBench: Zur umfassenden und zuverlässigen Bewertung der Multi-Shot-Audio-Video-Generierung
MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

May 19

ByYujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan

Die Videogenerierung entwickelt sich rasant von der Einzelaufnahme-Synthese hin zu komplexen Multi-Shot-Audio-Video-Erzählungen (MSAV), um realen Anforderungen gerecht zu werden. Die Evaluierung solcher modernen Modelle bleibt jedoch eine grundlegende Herausforderung. Bestehende Benchmarks sind hinsichtlich ihres Umfangs und ihrer Datenvielfalt eingeschränkt und stützen sich auf starre Evaluierungspipelines, was eine systematische und zuverlässige Bewertung moderner MSAV-Modelle verhindert. Um diese Lücken zu schließen, führen wir MSAVBench ein, den ersten umfassenden Benchmark und adaptiven hybriden Evaluierungsrahmen für die Multi-Shot-Audio-Video-Generierung. Unser Benchmark umfasst vier Schlüsseldimensionen – Video, Audio, Shot und Referenz – und deckt unterschiedliche Aufgabeneinstellungen, variierende Shot-Anzahlen von bis zu 15 sowie anspruchsvolle nicht-realistische Szenarien ab. Unser Evaluierungsrahmen verbessert die Robustheit durch einen adaptiven Selbstkorrekturmechanismus für die Shot-Segmentierung, instanzspezifische Rubriken für subjektive Metriken sowie werkzeuggestützte Beweisextraktion für komplexe Urteile. Darüber hinaus erreicht MSAVBench eine hohe Übereinstimmung mit menschlichen Bewertungen, mit einer Spearman-Rangkorrelation von 91,5 %. Unsere systematische Evaluierung von 19 hochmodernen Closed- und Open-Source-Modellen zeigt, dass aktuelle Systeme weiterhin mit der Steuerung auf Regieebene und einer feinkörnigen Audio-Video-Synchronisation kämpfen, während modulare oder agentische Generierungspipelines einen vielversprechenden Weg zur Verringerung der Lücke zwischen Open- und Closed-Source-Modellen bieten. Wir werden die Benchmark-Daten und den Evaluierungscode veröffentlichen, um zukünftige Forschung zu unterstützen.

Interaktive Evaluation erfordert eine Designwissenschaft
Interactive Evaluation Requires a Design Science

May 18

ByKeyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei

Die KI-Bewertung durchläuft einen strukturellen Wandel. Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als Systeme eingesetzt, die über Zeit hinweg durch Werkzeuge, Umgebungen, Benutzer und andere Agenten agieren, während viele Bewertungspraktiken noch Annahmen von antwortzentrierten Benchmarks übernehmen (z. B. feste Eingaben, isolierte Ausgaben und Ergebnisurteile, die aus einer einzelnen Antwort getroffen werden können). Das Feld hat begonnen, interaktive Benchmarks zu entwickeln, doch die resultierende Landschaft ist fragmentiert: Benchmarks unterscheiden sich darin, welche Interaktionsartefakte sie zulassen, wie Trajektorien bewertet werden und welche Aussagen ihre Ergebnisse stützen. Dieses Positionspapier argumentiert, dass interaktive Bewertung als ein prinzipienbasiertes Bewertungsparadigma behandelt werden sollte, nicht lediglich als eine neue Familie von Agenten-Benchmarks. Die bloße Übernahme früherer Bewertungsparadigmen reicht nicht aus. Wir definieren Bewertung als eine autonome Abbildung von Evidenz zu Urteilen und zeigen, dass interaktive Bewertung beide Seiten dieser Abbildung verändert: Die Evidenz wird zu interaktionsgenerierten Trajektorien, während das Bewertungsverfahren Prozess, Wiederherstellbarkeit, Koordination, Robustheit und Systemleistung bewerten muss. Aufbauend auf dieser Definition schlagen wir eine zweiachsige Taxonomie vor, leiten Gestaltungsprinzipien und Berichtsstandards ab, untersuchen repräsentative Szenarien und analysieren, wie altbekannte Bewertungsherausforderungen auf der Trajektorienebene wieder auftauchen.

CEPO: RLVR-Selbstdestillation mittels Contrastive Evidence Policy Optimization
CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

May 19

ByAhmed Heakl, Abdelrahman M. Shaker, Youssef Mohamed, Rania Elbadry, Omar Fetouh, Fahad Shahbaz Khan, Salman Khan

Wenn ein Modell unter Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eine korrekte Lösung erzeugt, erhält jeder Token dasselbe Belohnungssignal, unabhängig davon, ob es sich um einen entscheidenden Denkschritt oder eine grammatikalische Fülloperation handelt. Ein naheliegender Lösungsansatz besteht darin, das Modell durch eine Lehrervorgabe auf die richtige Antwort zu konditionieren und jene Token zu identifizieren, die es bei Kenntnis der Antwort anders generiert hätte. Frühere Arbeiten zeigen, dass dies entweder das Training beeinträchtigt, indem die Antwort in den Gradienten sickert, oder ein schwaches Signal erzeugt, das nicht zwischen entscheidenden Schritten und Füllinformationen unterscheiden kann, da beide im Vergleich zur Modellbasislinie gleichermaßen überraschend wirken. Wir schlagen Contrastive Evidence Policy Optimization (CEPO) vor, das bei jedem Token eine schärfere Frage stellt: nicht nur „Bevorzugt die richtige Antwort diesen Token?“, sondern „Bevorzugt die richtige Antwort ihn, während die falsche Antwort ihn ablehnt?“ Ein Token, das beides erfüllt, ist ein echter Denkschritt; ein Token, das keines erfüllt, ist Füllmaterial. Die Lehrervorgabe für die falsche Antwort wird aus abgelehnten Rollouts im selben Trainingsbatch konstruiert, ohne zusätzliche Stichprobenkosten. Wir beweisen, dass CEPO alle strukturellen Sicherheitsgarantien des bisherigen Stands der Technik übernimmt, während es die Kreditzuweisung bei entscheidenden Tokens strikt verschärft – eine Verbesserung, die genau an Füllpositionen verschwindet. Empirisch erreicht CEPO eine durchschnittliche Genauigkeit von 43,43 % bzw. 60,56 % über fünf multimodale mathematische Reasoning-Benchmarks im Maßstab 2B bzw. 4B, im Vergleich zu 41,17 % bzw. 57,43 % für GRPO unter identischen Trainingsbudgets. Verteilungsabgleichende Selbst-Destillationsmethoden (OPSD, SDPO) fallen unter die untrainierte Basislinie und bestätigen empirisch den von unserer Theorie vorhergesagten Informationsverlust. Unser Code ist verfügbar unter https://github.com/ahmedheakl/CEPO.

SENSE: Satellitengestützte Energiesynthese für eine nachhaltige Umwelt
SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

May 18

ByKailai Sun, Mingyi He, Heye Huang, Can Rong, Alok Prakash, Baoshen Guo, Shenhao Wang, Jinhua Zhao

Urban Building Energy Modeling (UBEM) spielt eine entscheidende Rolle bei der Verwirklichung der Ziele 7 und 11 der Vereinten Nationen für nachhaltige Entwicklung. Obwohl bestehende Studien auf Basis von Satellitenbildern und Deep Learning bemerkenswerte Fortschritte erzielt haben, bestehen zahlreiche Herausforderungen: Die meisten bestehenden Studien sind von Natur aus prädiktiv und spiegeln nicht den generativen Charakter der Stadtplanung wider; obwohl generative KI und Diffusionsmodelle bei Satellitenbildern ein explosives Wachstum verzeichnet haben, fehlt ihnen die städtische funktionale Generierung (z. B. die Energieschicht); drittens sind abgestimmte, qualitativ hochwertige, hochauflösende Gebäudeenergiedaten in Verbindung mit Satellitenbildern begrenzt und knapp. Hier schlagen wir SENSE (Satellite-based ENergy Synthesis for Sustainable Environment) vor, ein einheitliches generatives UBEM-Framework, das gemeinsam realistische urbane Satellitenbilder und abgestimmte, qualitativ hochwertige Karten des Gebäudeenergieverbrauchs und der Gebäudehöhe synthetisiert. Durch die Konditionierung auf Straßennetze und urbane Dichtemetriken nutzt SENSE, das auf einem steuerbaren Diffusionsmodell basiert, das von großen Bildverarbeitungsmodellen erlernte Wissen, um Informationen über den Energieverbrauch und die Höhe von Gebäuden (Annotationen) im latenten Raum zu generieren. Experimente in vier Städten (New York City, Boston, Lyon, Busan) zeigen, dass SENSE eine hohe visuelle Wiedergabetreue und starke physikalische Konsistenz erreicht und die ASHRAE-Standardmetrik erfüllt. Experimente zeigen, dass SENSE mit weniger als 20 % gekennzeichneten Energiedaten ausreichend annotierte synthetische Daten generieren kann, wodurch die nachgelagerte Vorhersageleistung um 10 % IoU gesteigert wird. Im Vergleich zu den modernsten städtischen Energievorhersagemethoden hat SENSE den Vorhersagefehler erheblich reduziert (Reduktion um 3 %–11 % NMBE und 1 %–9 % CVRMSE). Diese Studie bietet eine energieeffiziente Lösung für Stadtplanung und physikalische Generierung in den Bereichen Stadtwissenschaft, Energiewissenschaft und Bauwissenschaft. Der Datensatz und der Code: https://huggingface.co/datasets/skl24/MUSE und https://github.com/kailaisun/GenAI4Urban-Energy/.

Videomodelle können mit verifizierbaren Belohnungen schlussfolgern
Video Models Can Reason with Verifiable Rewards

May 14

ByTinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen

Videodiffusionsmodelle haben schnelle Fortschritte in der wahrnehmungsbezogenen Realität und zeitlichen Kohärenz erzielt, bleiben jedoch primär auf plausible Generierung statt auf verifizierbare Schlussfolgerungen optimiert. Diese Einschränkung tritt besonders bei Aufgaben hervor, bei denen generierte Videos explizite räumliche, zeitliche oder logische Randbedingungen erfüllen müssen. Inspiriert von der Rolle des bestärkenden Lernens mit verifizierbaren Belohnungen (RLVR) in schlussfolgerungsorientierten Sprachmodellen führen wir VideoRLVR ein, ein praktisches Rezept zur Optimierung von Videodiffusionsmodellen mit regelbasiertem Feedback. VideoRLVR formuliert videobasierte Schlussfolgerung als Generierung verifizierbarer visueller Trajektorien und besteht aus einem SDE-GRPO-Optimierungskern, dichten zerlegten Belohnungen und einer Early-Step-Focus-Strategie für effizientes Training. Die Early-Step-Focus-Strategie beschränkt die Politikoptimierung auf die frühe Denoising-Phase, reduziert die Trainingslatenz um etwa 40% und bewahrt dabei die Leistungsfähigkeit. Wir evaluieren VideoRLVR in Maze, FlowFree und Sokoban, drei prozedural generierten Domänen mit objektiven Erfolgskriterien. In diesen Aufgaben verbessert VideoRLVR durchgängig die Ergebnisse im Vergleich zu überwachten Feintuning-Baselines, wobei sich dichte zerlegte Belohnungen besonders in Szenarien mit niedriger Erfolgsrate als wichtig erweisen. Unser RL-optimiertes Modell übertrifft auch die bewerteten proprietären und Open-Source-Videogenerierungsmodelle in diesen verifizierbaren Schlussfolgerungs-Benchmarks und außerdomänlichen Benchmarks. Diese Ergebnisse deuten darauf hin, dass verifizierbares RL Videomodelle über wahrnehmungsbezogene Nachahmung hinaus zu zuverlässigerer regelkonformer visueller Schlussfolgerung führen kann.

PixVerve: Weiterentwicklung der nativen UHR-Bildgenerierung auf 100 MP mit einem groß angelegten hochwertigen Datensatz
PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

May 19

ByHaojun Chen, Haoyang He, Chengming Xu, Qingdong He, Junwei Zhu, Yabiao Wang, Zhucun Xue, Xianfang Zeng, Zhennan Chen, Xiaobin Hu, Hao Zhao, Yong Liu, Jiangning Zhang, Dacheng Tao

Text-zu-Bild-Modelle (T2I) haben in letzter Zeit bemerkenswerte Fortschritte bei Auflösungen um 1K und 2K erzielt. Angesichts des ausgeprägten Wunsches nach einer besseren visuellen Erfahrung und der rasanten Entwicklung der Bildgebungstechnologie ist die Nachfrage nach der Erzeugung ultrahochauflösender (UHR) Bilder erheblich gestiegen. Allerdings stellt die UHR-Bilderzeugung aufgrund der Knappheit und Komplexität hochauflösender Inhalte große Herausforderungen dar. In dieser Arbeit stellen wir zunächst PixVerve-95K vor, einen hochwertigen, quelloffenen UHR-T2I-Datensatz, der mit einer sorgfältig entwickelten Datenpipeline kuratiert wurde. Er enthält 95.000 Bilder aus verschiedenen Szenarien (jedes Bild hat eine minimale Pixelzahl von 100 Millionen) sowie siebendimensionale Annotationen. Auf der Grundlage unseres groß angelegten Bild-Text-Datensatzes unternehmen wir einen bahnbrechenden Schritt, um verschiedene T2I-Basismodelle mit drei Trainingsschemata auf die native 100-MP-Erzeugung zu erweitern. Schließlich etabliert der von uns vorgeschlagene PixVerve-Bench-Benchmark, der sowohl konventionelle Metriken als auch auf multimodalen großen Sprachmodellen basierende Bewertungen nutzt, ein umfassendes Evaluierungsprotokoll für UHR-Bilder, das visuelle Qualität und semantische Übereinstimmung umfasst. Umfangreiche experimentelle Ergebnisse auf unserem Benchmark sowie die konstruktive Erforschung von Trainingsstrategien liefern gemeinsam wertvolle Erkenntnisse für zukünftige Durchbrüche.

Semantische Generative Feinabstimmung für Vereinheitlichte Multimodale Modelle
Semantic Generative Tuning for Unified Multimodal Models

May 18

BySongsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

Einheitliche multimodale Modelle (UMMs) streben danach, visuelles Verständnis und visuelle Generierung in einer einzigen Architektur zu vereinen. Allerdings optimieren gängige Trainingsparadigmen das Verständnis unabhängig voneinander über spärliche Textsignale und die Generierung durch dichte Pixelziele. Eine solche entkoppelte Strategie führt zu nicht ausgerichteten Repräsentationsräumen, die das visuelle Verständnis von der Generierung isolieren und ihre gegenseitige Verstärkung behindern. Diese Arbeit stellt die erste systematische Untersuchung des generativen Post-Trainings vor, bei dem wir hierarchische visuelle Aufgaben als generative Proxys formulieren, um die Isolation in UMMs zu überbrücken. Unsere empirische Untersuchung zeigt, dass semantische Aufgaben auf hoher Ebene, insbesondere die Bildsegmentierung, als optimale Proxys dienen. Im Gegensatz zu Aufgaben auf niedriger Ebene, die Modelle mit Texturdetails ablenken, liefert die Segmentierung strukturelle Semantiken, die sowohl die visuelle Wahrnehmung als auch die generative Layouttreue erheblich verbessern. Aufbauend auf diesen Erkenntnissen führen wir Semantic Generative Tuning (SGT) ein, ein neuartiges Paradigma, das die Segmentierung als generativen Proxy nutzt, um multimodale Fähigkeiten auszurichten und zu synergieren. Mechanistische Analysen zeigen weiterhin, dass SGT die lineare Separierbarkeit von Merkmalen grundlegend verbessert und das visuell-textuelle Aufmerksamkeitsallokationsmuster optimiert. Umfangreiche Evaluierungen zeigen, dass SGT sowohl das multimodale Verständnis als auch die generative Treue bei gängigen Benchmarks konsistent verbessert. Unser Code ist verfügbar unter https://song2yu.github.io/SGT/.

Schnelle 4D-Mesh-Generierung durch räumlich-zeitliche Aufmerksamkeitsketten
Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

May 19

ByDvir Samuel, Yuval Atzmon, Gal Chechik, Yoni Kasten

Die 4D-Netzgenerierung hat sich in letzter Zeit als leistungsstarkes Paradigma zur Rekonstruktion dynamischer 3D-Strukturen aus Videos erwiesen, doch bestehende Methoden bleiben langsam, rechenintensiv und schwer auf längere Sequenzen skalierbar. Wir stellen einen trainingsfreien Ansatz vor, der die 4D-Netzgenerierung beschleunigt und gleichzeitig die Qualität der zeitlichen Korrespondenz verbessert. Unsere zentrale Beobachtung ist, dass zeitliche Korrespondenzen in einem 4D-Grundgerüst auftreten, lange bevor dessen generierte Netze visuell korrekt werden. Wir nutzen dies mit einem allgemeinen Rahmenwerk, das wir als Spatio-Temporal Attention Chain bezeichnen, das Informationen über Raum und Zeit propagiert. Ausgehend von Scheitelpunkten auf einem Anker-Netz bildet die Kette Scheitelpunkte auf latente Token ab. Sie folgt dann zeitlichen Korrespondenzen im latenten Raum und gewinnt framespezifische Scheitelpunkte durch eine latent-zu-Scheitelpunkt-Aufmerksamkeit zurück. Dieses Design vermeidet teures explizites Matching, bewahrt Details des Anker-Netzes und verbessert so die dynamische Netzgeometrie und zeitliche Konsistenz. Im Vergleich zum Stand der Technik erzeugt unsere Methode ein 4D-Netz in 9 Sekunden, erreicht eine 13-fache Beschleunigung und liefert dabei qualitativ hochwertigere Ergebnisse. Darüber hinaus skaliert unser Ansatz auf Videos, die bis zu 16-mal länger sind, ohne die Netzqualität zu beeinträchtigen. Über die Generierung hinaus ermöglichen die verbesserten Korrespondenzen eine wettbewerbsfähige Zero-Shot-Leistung bei zwei nachgelagerten Aufgaben: 2D-Objektverfolgung und 4D-Verfolgung. Wir zeigen weiterhin, dass unser Rahmenwerk eine zuverlässige Kameraschätzung ermöglicht, eine Fähigkeit, die von früheren 4D-Netzgenerierungsmethoden nicht unterstützt wurde.

RT-Splatting: Gemeinsame Modellierung von Reflexion und Transmission mit Gaussian Splatting
RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting

May 18

ByJi Shi, Xianghua Ying, Bowei Xing, Ruohao Guo, Wenzhen Yue

3D Gaussian Splatting (3DGS) ermöglicht Echtzeit-Synthese neuer Ansichten mit hoher visueller Qualität. Bestehende Methoden haben jedoch Schwierigkeiten mit halbtransparenten spiegelnden Oberflächen, die sowohl komplexe Reflexionen als auch klare Transmission aufweisen, was oft zu unscharfen Reflexionen oder übermäßig verdeckter Transmission führt. Um dies zu adressieren, präsentieren wir RT-Splatting, ein Framework, das die geometrische Belegung jedes Gaußschen Elements von seiner optischen Opazität entkoppelt. Diese Faktorisierung ergibt eine einheitliche Oberflächen-Volumen-Szenenrepräsentation mit einem einzigen Satz von Gaußschen Primitiven. Unser hybrider Renderer interpretiert diese Repräsentation sowohl als Oberfläche zur Erfassung hochfrequenter Reflexionen als auch als Volumen zur Erhaltung klarer Transmission. Um die Mehrdeutigkeit bei der gemeinsamen Optimierung von Reflexion und Transmission zu mildern, führen wir das spekularitätsbewusste Gradienten-Gating (Specular-Aware Gradient Gating) ein, das irreführende Gradienten aus stark spekularen Regionen in den Transmissionszweig unterdrückt und störende Floater effektiv reduziert. Experimente an anspruchsvollen halbtransparenten Szenen zeigen, dass RT-Splatting den aktuellen Stand der Technik erreicht und hochgetreue Reflexionen sowie klare Transmission bei Echtzeit-Rendering liefert. Darüber hinaus ermöglicht unsere Faktorisierung auf natürliche Weise flexible Szenenbearbeitung. Die Projektseite ist verfügbar unter https://sjj118.github.io/RT-Splatting.

Delta-Aufmerksamkeitsresiduen
Delta Attention Residuals

May 13

ByCheng Luo, Zefan Cai, Junjie Hu

Aufmerksamkeits-Residuen ersetzen standardmäßige additive residual-Verbindungen durch erlernte Softmax-Aufmerksamkeit über die Ausgaben vorheriger Schichten, was eine selektive schichtübergreifende Weiterleitung ermöglicht. Allerdings richten sich standardmäßige Aufmerksamkeits-Residuen weiterhin auf kumulative verborgene Zustände in vorherigen Schichten, die hochgradig redundant sind. Wir zeigen, dass diese Redundanz zu einem Routing-Kollaps in tieferen Schichten führt: Die Aufmerksamkeitsgewichte werden kontrastarm und nähern sich der Gleichverteilung (maximales Gewicht ca. 0,2), was die Fähigkeit des Modells einschränkt, informative Zustände in vorherigen Schichten auszuwählen. Dies wirft eine zentrale, aber bislang wenig untersuchte Designfrage auf: Welche schichtweisen Repräsentationen sollten in Aufmerksamkeits-Residuen weitergeleitet werden? Zur Beantwortung dieser Frage schlagen wir Delta-Aufmerksamkeits-Residuen vor, die sich auf Deltas konzentrieren – die Änderung, die durch jede Unterschicht eingeführt wird (v_i = h_{i+1} - h_i) – anstatt auf kumulative Zustände. Delta-Repräsentationen sind strukturell vielfältig und ergeben kontrastreichere Aufmerksamkeitsverteilungen (maximales Gewicht ca. 0,6), was eine selektivere und effektivere Weiterleitung über Schichten hinweg ermöglicht. Dieses Prinzip gilt sowohl auf der Ebene einzelner Unterschichten als auch auf Blockebene. Über alle getesteten Modellgrößen hinweg (220M–7,6B) übertreffen Delta-Aufmerksamkeits-Residuen sowohl standardmäßige Residuen als auch Aufmerksamkeits-Residuen durchgängig, mit einer Verbesserung der Validierungs-Perplexität um 1,7–8,2 %. Delta-Aufmerksamkeits-Residuen ermöglichen zudem die Umwandlung vortrainierter Prüfpunkte in Delta-Aufmerksamkeits-Residuen mittels standardmäßigem Feintuning. Code ist verfügbar unter https://github.com/wdlctc/delta-attention-residuals-code.

Überwindung des katastrophalen Vergessens beim visuellen kontinuierlichen Lernen mit Reinforcement-Feintuning
Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

May 10

ByMeng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu

Neuere Studien deuten darauf hin, dass Reinforcement Feintuning (RFT) von Natur aus widerstandsfähiger gegen katastrophales Vergessen ist als überwachtes Feintuning (SFT). Allerdings bleibt offen, ob RFT (z. B. GRPO) das Vergessen in anspruchsvollen visuellen kontinuierlichen Lernsettings wie klasseninkrementellem Lernen (CIL) und domaininkrementellem Lernen (DIL) wirksam überwinden kann. Durch eine Pilotstudie bestätigen wir, dass RFT zwar durchgängig besser abschneidet als SFT, jedoch immer noch unter nicht vernachlässigbarem Vergessen leidet. Wir führen diesen Engpass empirisch auf Trajektorien-Drift-Agnostizismus zurück: Bei Kandidaten-Rollouts, die identische Aufgabenbelohnungen erzielen, variiert die KL-Divergenz von der Politik der vorherigen Aufgabe erheblich, was stark mit katastrophalem Vergessen über aufeinanderfolgende Aufgaben hinweg korreliert. Ausgehend von dieser Erkenntnis schlagen wir die retentionsbewusste Policy-Optimierung (RaPO) vor, eine einfache und dennoch effektive RFT-Methode, die das Vergessen durch Belohnungsformung auf Trajektorienebene explizit abschwächt. Insbesondere umfasst RaPO zwei Kernkomponenten: (1) Retentionsbelohnung, die die Verteilungsdrift auf Trajektorienebene in ein kontinuierliches Belohnungssignal umwandelt und dabei wissensbewahrende Rollouts innerhalb jeder Gruppe bevorzugt verstärkt; (2) aufgabenübergreifende Vorteilsnormalisierung (CTAN), die einen persistenten exponentiell gleitenden Durchschnitt der Belohnungsstatistiken über Aufgabengrenzen hinweg aufrechterhält, um den Optimierungsfortschritt während des kontinuierlichen Lernens zu stabilisieren. Unter Nutzung der freiformigen textuellen Generalisierung multimodaler großer Sprachmodelle (MLLMs) evaluieren wir RaPO umfassend in fünf visuellen kontinuierlichen Lernsettings. Umfangreiche Experimente zeigen, dass RaPO eine führende Leistung erzielt, das katastrophale Vergessen erheblich reduziert und gleichzeitig eine starke Plastizität bewahrt. Nach unserem besten Wissen stellt diese Arbeit die erste systematische Untersuchung von RFT im visuellen kontinuierlichen Lernen dar und bietet Einblicke, von denen wir hoffen, dass sie zukünftige Forschung inspirieren werden.

PEEK: Kontextkarte als Orientierungscache für LLM-Agenten mit langem Kontext
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

May 19

ByZhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

Agenten auf Basis großer Sprachmodelle (LLMs) operieren zunehmend über lange und wiederkehrende externe Kontexte wie Dokumentkorpusse und Code-Repositories. Bei wiederholten Aufrufen bewahren bestehende Ansätze entweder den Verlauf des Agenten, passiven Zugriff auf Rohmaterial oder aufgabenbezogene Strategien. Keiner von ihnen bewahrt das, was wir als am dringendsten für wiederholte, kontextgleiche Arbeitslasten erachten: wiederverwendbares Orientierungswissen (z. B. was der Kontext enthält, wie er organisiert ist und welche Entitäten, Konstanten und Schemata historisch nützlich waren) über den wiederkehrenden Kontext selbst. Wir stellen PEEK vor, ein System, das dieses Orientierungswissen als Kontextkarte zwischenspeichert und verwaltet: ein kleines, in der Größe konstantes Artefakt im Prompt des Agenten, das ihm einen beständigen Einblick in den externen Kontext gewährt. Die Karte wird durch eine programmierbare Cache-Richtlinie mit drei Modulen verwaltet: einem Distiller, der übertragbares Wissen aus Inferenzzeitsignalen extrahiert, einem Cartographer, der dieses Wissen in strukturierte Änderungen übersetzt, und einem prioritätsbasierten Evictor, der ein festes Tokenbudget durchsetzt. Bei langen Kontexten für Schlussfolgerungen und Informationsaggregation verbessert PEEK starke Basislinien um 6,3–34,0 %, benötigt dabei 93–145 weniger Iterationen und verursacht 1,7–5,8x geringere Kosten als das führende Prompt-Learning-Framework ACE. Beim Kontextlernen verbessert PEEK die Lösungsrate und die Rubrikgüte um 6,0–14,0 % bzw. 7,8–12,1 % bei 1,4x geringeren Kosten als ACE. Diese Verbesserungen generalisieren über verschiedene Sprachmodelle und Agentenarchitekturen, einschließlich OpenAI Codex, einem produktionsreifen Codierungsagenten. Zusammengenommen zeigen diese Ergebnisse, dass eine Kontextkarte LLM-Agenten mit langen Kontexten hilft, genauer und effizienter mit wiederkehrenden externen Kontexten zu interagieren.

Weniger Entwurf, mehr Abruf: Hybride Baumkonstruktion für spekulative Dekodierung
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

May 19

ByYuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

Spekulatives Dekodieren (SD) beschleunigt die Inferenz großer Sprachmodelle durch ein Entwurf-und-Prüf-Paradigma. Um die Akzeptanzrate zu maximieren, konstruieren neuere Methoden umfangreiche Entwurfsbäume, die jedoch leider erheblichen VRAM-Bandbreiten- und Rechenaufwand verursachen und so die End-to-End-Beschleunigung limitieren. Während ein dynamisches Tiefen-Pruning diese Latenz verringern kann, indem es marginale Verzweigungen entfernt, verwirft es auch potenziell gültige Kandidaten und verhindert so, dass die Akzeptanzrate die Obergrenze dichter Bäume erreicht. In dieser Arbeit identifizieren wir eine kritische Möglichkeit der Ressourcenzuweisung: Der Übergang vom dichten zum beschnittenen Entwurf gibt erhebliches Rechenbudget frei. Um diesen Pareto-Kompromiss zu durchbrechen, führen wir Graft ein, ein Kompensationsrahmenwerk, das Pruning und Retrieval als sich gegenseitig verstärkende Operationen koppelt. Pruning stellt ausreichend Budget für das Retrieval bereit, während das Retrieval den durch Pruning verursachten Coverage-Verlust ausgleicht und die akzeptierte Länge wiederherstellt. Durch einen sequenziellen `Prune-then-Graft`-Mechanismus fügt Graft hochprädiktive, abgerufene Token an die durch Pruning geöffneten Positionen ein und füllt so die topologischen Lücken mit nahezu null Overhead. Graft ist vollständig trainingsfrei und verlustfrei. Umfassende Evaluierungen zeigen, dass Graft in praktischen Bereitstellungsszenarien, einschließlich Kurzkontext-Generierung, Langkontext-Generierung und großskaligen Modellen, eine neue Pareto-Grenze etabliert. Bei Kurzkontext-Benchmarks erreicht es eine bis zu 5,41-fache Beschleunigung und verbessert die durchschnittliche Beschleunigung gegenüber EAGLE-3 um bis zu 21,8% beim großskaligen Qwen3-235B. Wir stellen auch eine vorläufige Untersuchung zur Anwendung von Graft auf das DFlash-artige Block-Entwurfs-Paradigma vor, die erste Belege und Einsichten für die Erweiterung des Pfropfens über autoregressive Entwurfsbäume hinaus liefert.

TideGS: Skalierbares Training von über einer Milliarde 3D-Gauß-Splatting-Primitiven durch Out-of-Core-Optimierung
TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization

May 19

ByChonghao Zhong, Linfeng Shi, Hua Chen, Tiecheng Sun, Hao Zhao, Binhang Yuan, Chaojian Li

Das Training von 3D Gaussian Splatting (3DGS) im Maßstab von Milliarden von Primitiven ist grundsätzlich speicherbegrenzt: Jedes Gauß'sche Primitive trägt einen großen Attributvektor, und die aggregierte Parametertabelle übersteigt schnell die GPU-Kapazität, wodurch frühere Systeme auf zehn Millionen Gauß'sche Primitive auf handelsüblicher Single-GPU-Hardware beschränkt sind. Wir stellen fest, dass das 3DGS-Training inhärent dünnbesetzt und trajektorienabhängig ist: Jede Iteration aktiviert nur die Gauß'schen Primitive, die aus dem aktuellen Kamerabatch sichtbar sind, sodass der GPU-Speicher als Arbeitsmengen-Cache und nicht als persistenter Parameterspeicher dienen kann. Basierend auf dieser Erkenntnis führen wir TideGS ein, ein Out-of-Core-Trainingsframework, das Parameter über eine SSD-CPU-GPU-Hierarchie mittels drei synergetischer Techniken verwaltet: blockvirtualisierte Geometrie für SSD-ausgerichtete räumliche Lokalität, eine hierarchische asynchrone Pipeline zur Überlappung von I/O mit Berechnungen und trajektorienadaptive differentielle Datenstromverarbeitung, die nur inkrementelle Arbeitsmengen-Deltas zwischen Iterationen überträgt. Experimente zeigen, dass TideGS das Training mit über einer Milliarde Gauß'scher Primitive auf einer einzelnen 24-GB-GPU ermöglicht und dabei die beste Rekonstruktionsqualität unter den evaluierten Single-GPU-Baselines auf großflächigen Szenen erreicht, was über frühere Out-of-Core-Baselines (z. B. etwa 100 Mio. Gauß'sche Primitive) und standardmäßiges In-Memory-Training (z. B. etwa 11 Mio. Gauß'sche Primitive) hinausgeht.

Nicht jede Rubrik lehrt gleichermaßen: Policy-bewusste Rubrikbelohnungen für RLVR
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

May 19

ByUtkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

Verstärkendes Lernen mit überprüfbaren Belohnungen hat das Post-Training äußerst effektiv gemacht, wenn Korrektheit automatisch geprüft werden kann. Viele wichtige Modellverhalten erfordern jedoch die gleichzeitige Erfüllung mehrerer qualitativer Kriterien. Rubrikbasierte Belohnungen adressieren dieses Szenario, indem sie aufgabenspezifische Kriterien bewerten und zu einer skalaren Belohnung aggregieren. Dennoch vermischen statische Aggregationen die von Menschen zugewiesene Bedeutung eines Kriteriums mit seiner aktuellen Nützlichkeit als Optimierungssignal. Wir zeigen, dass diese Annahme beim Rubrik-RL zusammenbricht: Viele wichtige Kriterien sind bereits gesättigt oder derzeit unerreichbar, während Kriterien, die Rollouts unterscheiden, nicht unbedingt die mit den größten menschlichen Gewichten sind. Wir führen POW3R ein, ein politikbewusstes Rubrik-Belohnungsframework, das menschliche Gewichte und Kategoriebalance als Rubrikziel beibehält, während es kriterienebene Belohnungsgewichte während des Trainings anpasst. POW3R nutzt rolloutebenen Kontrast, um Kriterien zu betonen, die aktuelle die Ausgaben der Politik trennen, wodurch die GRPO-Belohnung informativer wird, ohne das zugrundeliegende Bewertungsziel zu ändern. Über drei Basis-Politiken auf zwei Datensätzen, die multimodale und reine Textumgebungen umfassen, gewinnt POW3R 24 von 30 Basis-Politik/Metrik-Vergleichen und verbessert sowohl die mittlere Rubrikbelohnung als auch die strikte Erfüllung (der Anteil der Aufforderungen, deren Antwort jedes geforderte Rubrikkriterium erfüllt) im Vergleich zu einfachem GRPO mit Rubrikbelohnungen und erreicht dasselbe Plateau in 2,5- bis 4-mal weniger Trainingsschritten. Rubrikbelohnungen sollten daher unterscheiden, was in der endgültigen Antwort wichtig sein sollte, von dem, was die aktuelle Politik lehren kann.

Matérn-Rauschen für triangulierungsunabhängiges Flow Matching auf Netzen
Matérn Noise for Triangulation-Agnostic Flow Matching on Meshes

May 19

ByTianshu Kuai, Arman Maesumi, Daniel Ritchie, Noam Aigerman

Diese Arbeit befasst sich mit der Aufgabe, Signale auf Dreiecksnetzen auf triangulierungsunabhängige Weise zu erzeugen – das bedeutet, dass das trainierte Modell effektiv auf verschiedene Netze und Triangulierungen angewendet werden kann. Praktisch gesehen wird das Paradigma des Flussabgleichs (FM) an eine netzbasierte, triangulierungsunabhängige Umgebung angepasst. Theoretisch wird eine spezifische Rauschverteilung vorgeschlagen, die triangulierungsunabhängig ist und im Entrauschungsprozess des FM-Modells verwendet wird. Während Rauschverteilungen für beispielsweise Bilder meist trivial zu entwickeln sind, erweist sich die Entwicklung einer triangulierungsunabhängigen Verteilung als wesentlich schwieriger. Wir formulieren eine mathematische Definition der Triangulierungsunabhängigkeit von Verteilungen über ihr Spektrum. Anschließend zeigen wir, dass eine Diskretisierung eines bestimmten Gaußschen Zufallsfeldes, des sogenannten Matérn-Prozesses, diese gewünschten Eigenschaften besitzt und einen einfachen und effizienten Sampling-Algorithmus liefert. Wir verwenden dies als unser Rauschmodell und passen FM an die triangulierungsunabhängige Umgebung an, indem wir einen hochmodernen Ansatz zur Erlernung von Signalen auf Netzen im Gradientenbereich – PoissonNet – als Entrauscher einsetzen. Wir führen Experimente zu anspruchsvollen Aufgaben durch, wie dem Sampling elastischer Ruhezustände und der Erzeugung von Posen humanoiden Figuren. Unsere Methode erzeugt nachweislich hochrealistische Ergebnisse für Netze mit über einer Million Dreiecken und übertrifft den Stand der Technik in Qualität und Diversität erheblich.

Zero-Shot Sim-to-Real Roboterlernen: Eine Studie zur geschickten Manipulation beim reaktiven Fangen
Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching

May 10

ByKejia Ren, Gaotian Wang, Andrew S. Morgan, Kaiyu Hang

Dextere Manipulation ist physikintensiv und hochgradig empfindlich gegenüber Modellierungsfehlern und Wahrnehmungsrauschen, was den Sim-to-Real-Transfer außerordentlich herausfordernd macht. Domänenrandomisierung (DR) wird üblicherweise eingesetzt, um die Robustheit gelernter Policys für solche Aufgaben zu verbessern, doch konventionelle DR randomisiert eine Instanz pro Episode und bietet somit nur sehr begrenzte Exposition gegenüber der Variabilität realer Dynamiken. Zu diesem Zweck schlagen wir die Domänen-randomisierte Instanzmenge (DRIS) vor, die eine Menge randomisierter Instanzen gleichzeitig repräsentiert und propagiert, eine reichhaltigere Approximation unsicherer Dynamiken ermöglicht und es Policys erlaubt, Aktionen zu lernen, die mehrere mögliche Ergebnisse berücksichtigen. Gestützt durch theoretische Analysen zeigen wir, dass DRIS robustere Policys hervorbringt und die Notwendigkeit von Feinanpassungen in der realen Welt verringert – selbst mit einer bescheidenen Anzahl von Instanzen (z.B. 10). Wir demonstrieren dies an einer anspruchsvollen reaktiven Fangaufgabe. Im Gegensatz zu traditionellen Fangvorrichtungen, die Endeffektoren nutzen, die das Objekt mechanisch stabilisieren (z.B. gekrümmte oder umschließende Oberflächen), verwendet unser System eine flache Platte, die keine passive Stabilisierung bietet, was die Aufgabe gegenüber Rauschen sehr empfindlich macht und schnelle reaktive Bewegungen erfordert. Die gelernten Policys zeigen eine starke Robustheit gegenüber Unsicherheiten und ermöglichen einen zuverlässigen Zero-Shot Sim-to-Real-Transfer.

Code-gestütztes Reasoning für kleine Sprachmodelle: Evaluierung ausführbarer MCQA-Gerüste
Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

May 12

ByPrateek Biswas, Dhaval Patel, Vedant Khandelwal, Shuxin Lin, Amit Sheth

Multiple-Choice-Frage-Antwort-Benchmarks bewerten kleine Sprachmodelle (SLMs) üblicherweise als direkte Beantworter, aber eingesetzte Sprachmodellsysteme verlassen sich zunehmend auf externe Gerüste wie Werkzeuge, Code und wiederholte Modellaufrufe. Wir führen Code-Guided Reasoning (CGR) ein, ein Evaluationsprotokoll und eine Ressource für generierte Programme, um zu messen, wann ausführbare Argumentationsgerüste die SLM-Leistung bei MCQA-Aufgaben verbessern. CGR standardisiert sechs Komponenten: eine normalisierte Itemschnittstelle, einen direkten Löser-Prompt, einen Generator-Prompt, ein Python-Gerüst, Löseraufruf- und Extraktionshilfen sowie einen Drei-Kanal-Ergebnisdatensatz. Bei 20.498 beibehaltenen Ergebniszeilen aus einem lokal vorbereiteten MCQA-Bündel und sechs metadatenregistrierten Lösermodellen zeigt die beobachtete Nicht-Null-Baseline-Partition eine makrogestützte Genauigkeit von 66,21 % gegenüber einer direkten Genauigkeit von 38,11 %, eine Differenz von +28,10 Prozentpunkten mit einem Paar-Bootstrap-Intervall von [20,32, 36,43]. Unter einem strengeren Ab > 30 % direkten Signal-Gate beträgt die makroskopische Differenz +14,11 Punkte. Diese Schätzungen sind deskriptiv. Die assistierte Inferenz verwendet ein größeres Löseraufruf-Budget, die Antwortextraktion ist anfällig, Time-MQA enthält die beobachteten Regressionen, und einige generierte Programme verletzen die Anweisung zum Verzicht auf fest codierte Werte. CGR stellt das Trace-Paket bereit, das zur Interpretation dieser Ergebnisse erforderlich ist, einschließlich direkter, assistierter und generatorseitiger Antworten, Partitionsdefinitionen, generierter Programme, Antwortmetadaten und Audits.

Kontext-Memorisierung für effiziente Langkontext-Generierung
Context Memorization for Efficient Long Context Generation

May 18

ByYasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki

Moderne Anwendungen großer Sprachmodelle (LLM) verlassen sich zunehmend auf lange Konditionierungspräfixe, um das Modellverhalten zur Inferenzzeit zu steuern. Obwohl die präfixgestützte Inferenz effektiv ist, weist sie zwei strukturelle Einschränkungen auf: i) der Einfluss des Präfixes lässt mit fortschreitender Generierung nach, und ii) die Aufmerksamkeitsberechnung über das Präfix skaliert linear mit seiner Länge. Bestehende Ansätze behalten das Präfix entweder in der Aufmerksamkeit bei, während sie es komprimieren, oder verinnerlichen es durch gradientenbasiertes Training in die Modellparameter. Ersteres wendet zur Inferenz weiterhin Aufmerksamkeit auf das Präfix an, während Letzteres trainingsintensiv und für Präfixaktualisierungen ungeeignet ist. Um diese Probleme zu lösen, schlagen wir Attention-State-Memory vor, einen trainingsfreien Ansatz, der das Präfix in einen leichten, nachschlagebasierten Speicher vorberechneter Aufmerksamkeitszustände zwischen Präfix- und Abfrage-Token externalisiert. Auf ManyICLBench mit LLaMA-3.1-8B verbessert unsere Methode die Genauigkeit gegenüber In-Context-Learning bei Speicherbudgets von 1K–8K, während sie die Aufmerksamkeitslatenz bei 8K um das 1,36-fache reduziert, und übertrifft die Full-Attention-RAG-Leistung auf dem NBA-Benchmark mit nur 20 % ihres Speicherbedarfs.

optimize_anything: Eine universelle API zur Optimierung beliebiger Textparameter
optimize_anything: A Universal API for Optimizing any Text Parameter

May 19

ByLakshya A Agrawal, Donghyun Lee, Shangyin Tan, Wenjie Ma, Karim Elmaaroufi, Rohit Sandadi, Sanjit A. Seshia, Koushik Sen, Dan Klein, Ion Stoica, Joseph E. Gonzalez, Omar Khattab, Alexandros G. Dimakis, Matei Zaharia

Kann ein einziges LLM-basiertes Optimierungssystem mit spezialisierten Werkzeugen in grundlegend unterschiedlichen Domänen mithalten? Wir zeigen, dass ein einziges KI-basiertes Optimierungssystem – das Einzelaufgabensuche, Mehraufgabensuche mit problemübergreifendem Transfer sowie Generalisierung auf unbekannte Eingaben unterstützt – bei sechs verschiedenen Aufgaben Spitzenergebnisse erzielt, sofern Optimierungsprobleme als Verbesserung eines Textartefakts formuliert werden, das durch eine Bewertungsfunktion evaluiert wird. Unser System entdeckt Agentenarchitekturen, die die ARC-AGI-Genauigkeit von Gemini Flash fast verdreifachen (von 32,5% auf 89,5%), findet Scheduling-Algorithmen, die Cloud-Kosten um 40% senken, generiert CUDA-Kernel, bei denen 87% PyTorch erreichen oder übertreffen, und übertrifft AlphaEvolves berichtete Kreispackungslösung (n=26). Ablationen in drei Domänen zeigen, dass handlungsrelevante Zusatzinformationen eine schnellere Konvergenz und deutlich höhere Endwerte liefern als reines Bewertungsfeedback, und dass Mehraufgabensuche bei gleichem Budget pro Problem durch aufgabenübergreifenden Transfer unabhängige Optimierung übertrifft, wobei die Vorteile mit der Anzahl verwandter Aufgaben skalieren. Gemeinsam zeigen wir erstmals, dass Textoptimierung mit LLM-basierter Suche ein allgemeines Problemlösungsparadigma darstellt, das Aufgaben, die traditionell domänenspezifische Algorithmen erfordern, in einem einheitlichen Rahmen vereint. Wir veröffentlichen optimize\_anything mit Unterstützung für mehrere Backends als Open-Source im Rahmen des GEPA-Projekts unter https://github.com/gepa-ai/gepa.

Wo tritt das Autorschaftssignal in Encoder-basierten Sprachmodellen auf?
Where Does Authorship Signal Emerge in Encoder-Based Language Models?

May 19

ByFrancis Kulumba, Guillaume Vimont, Laurent Romary, Florian Cafiero

Autorschaftsattributionsmodelle, die mit demselben vortrainierten Encoder, denselben Daten und derselben Verlustfunktion feinabgestimmt wurden, können sich in ihrer Leistung um das Vierfache unterscheiden, allein abhängig von ihrem Bewertungsmechanismus. Wir verwenden Werkzeuge der mechanistischen Interpretierbarkeit, um diese Diskrepanz zu erklären. Stilistische Merkmale wie Wortlänge, Interpunktionsdichte und Funktionswortfrequenz sind in jeder Schicht jedes Modells gleichermaßen verfügbar, einschließlich in einem handelsüblichen Kontroll-Encoder, sodass die Diskrepanz nicht auf die Repräsentationsqualität zurückzuführen ist. Stattdessen zeigt die kausale Intervention, dass der Bewerter bestimmt, wo der Encoder das Autorschaftssignal konsolidiert. Mittelwert-Pooling erzwingt die Konsolidierung in frühen bis mittleren Schichten, während späte Interaktion sie auf spätere Schichten verschiebt. Wir leiten diesen Unterschied ferner aus der Gradientenstruktur jedes Bewerters ab, und die Trainingsdynamiken zeigen unterschiedliche Lernverläufe, die aus diesem Unterschied resultieren.

ESI-Bench: Auf dem Weg zu verkörperter räumlicher Intelligenz, die den Wahrnehmungs-Handlungs-Kreislauf schließt
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

May 18

ByYining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

Räumliche Intelligenz entfaltet sich in einem Wahrnehmungs-Handlungs-Kreislauf: Agenten handeln, um Beobachtungen zu sammeln, und schlussfolgern, wie Beobachtungen als Funktion von Handlungen variieren. Anstatt passiv zu verarbeiten, was gesehen wird, decken sie aktiv auf, was unsichtbar ist – verdeckte Strukturen, Dynamiken, Behältnisse und Funktionalitäten, die allein durch passive Wahrnehmung nicht erfasst werden können. Wir gehen über frühere Formulierungen räumlicher Intelligenz hinaus, die Orakelbeobachtungen voraussetzen, indem wir den Beobachter als Handelnden neu definieren. Wir führen ESI-BENCH ein, einen umfassenden Benchmark für verkörperte räumliche Intelligenz, der 10 Aufgabenkategorien und 29 Unterkategorien umfasst, auf OmniGibson aufbaut und auf Spelkes Kernwissenssystemen gründet. Agenten müssen entscheiden, welche Fähigkeiten sie einsetzen – Wahrnehmung, Fortbewegung und Manipulation – und wie sie diese sequenzieren, um aufgabenrelevante Evidenz aktiv anzusammeln. Wir führen umfangreiche Experimente mit hochmodernen MLLMs durch und stellen fest, dass aktive Exploration passive Ansätze deutlich übertrifft, wobei Agenten spontan emergente räumliche Strategien entdecken, ohne explizite Anweisungen, während zufällige Multi-Ansichten oft eher Rauschen als Signal hinzufügen, obwohl sie weitaus mehr Bilder verbrauchen. Die meisten Fehler resultieren nicht aus schwacher Wahrnehmung, sondern aus Handlungsblindheit: schlechte Handlungswahl führt zu schlechten Beobachtungen, die wiederum kaskadierende Fehler auslösen. Während explizite 3D-Verankerung die Schlussfolgerung bei tiefensensitiven Aufgaben stabilisiert, erweist sich unvollkommene 3D-Repräsentation als schädlicher als 2D-Baselines, da sie räumliche Beziehungen verzerrt. Humanstudien zeigen zudem, dass Modelle – anders als Menschen, die falsifizierende Blickwinkel suchen und Überzeugungen bei Widersprüchen revidieren – mit hoher Konfidenz voreilig urteilen, unabhängig von der Evidenzqualität, was eine metakognitive Lücke offenbart, die weder bessere Wahrnehmung noch mehr verkörperte Interaktion allein schließen kann.

Stufenadaptive Token-Auswahl für effiziente omnimodale LLMs
Stage-adaptive Token Selection for Efficient Omni-modal LLMs

May 19

ByZijie Xin, Jie Yang, Ruixiang Zhao, Tianyi Wang, Fengyun Rao, Jing Lyu, Xirong Li

Omnimodale große Sprachmodelle (om-LLMs) erreichen ein einheitliches audiovisuelles Verständnis, indem sie Video und Audio in zeitlich ausgerichtete Token-Sequenzen kodieren, die auf Fensterebene verschachtelt sind. Die Verarbeitung dieser dichten nicht-textuellen Token im gesamten LLM verursacht jedoch erheblichen Rechenaufwand. Obwohl trainingsfreie Token-Auswahl diese Kosten senken kann, konzentrieren sich bestehende Methoden entweder auf rein visuelle Eingaben oder entfernen om-LLM-Token nur vor dem LLM mit festen modalitätsspezifischen Quoten, ohne zu erfassen, wie sich die kreuzmodale Token-Wichtigkeit über die Schichten hinweg entwickelt. Um diese Einschränkung zu adressieren, analysieren wir zunächst die schichtweise Token-Abhängigkeit von om-LLMs. Wir stellen fest, dass visuelle und audio-basierte Abhängigkeiten einem blockweisen Muster folgen und mit zunehmender Tiefe allmählich schwächer werden, was darauf hindeutet, dass viele nicht-textuelle Token in späten Schichten nach der kreuzmodalen Fusion redundant werden. Motiviert durch diese Beobachtung schlagen wir SEATS vor, eine trainingsfreie, stufenadaptive Token-Auswahlmethode für effiziente om-LLM-Inferenz. Vor dem LLM entfernt SEATS raumzeitliche Redundanz durch attention-gewichtete Diversitätsauswahl. Innerhalb des LLM entfernt es Token progressiv über Blöcke hinweg und weist das Behaltensbudget von Zeitfenstern auf Modalitäten dynamisch unter Verwendung von Query-Relevanzwerten zu. In späten Schichten entfernt es alle verbleibenden nicht-textuellen Token, sobald die kreuzmodale Fusion abgeschlossen ist. Experimente mit Qwen2.5-Omni und Qwen3-Omni zeigen, dass SEATS die Inferenzeffizienz effektiv verbessert. Bei Beibehaltung von nur 10 % der visuellen und Audio-Token erreicht es eine 9,3-fache FLOPs-Reduktion und eine 4,8-fache Prefill-Beschleunigung, während 96,3 % der ursprünglichen Leistung erhalten bleiben.

Echo-Forcing: Ein Szenenspeicher-Framework für die interaktive Erzeugung langer Videos
Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

May 15

ByMingqiang Wu, Weilun Feng, Zhefeng Zhang, Haotong Qin, Yuqi Li, Guoxin Fan, Xiaokun Liu, Zhulin An, Libo Huang, Yongjun Xu, Chuanguang Yang

Autoregressive Videodiffusionsmodelle ermöglichen eine offene Generierung durch lokale Aufmerksamkeit und KV-Caching. Allerdings konzentrieren sich bestehende trainingsfreie Optimierungsmethoden für lange Videos hauptsächlich auf stabile Erweiterungen unter einem einzigen Prompt, was die Handhabung interaktiver Szenarien mit Promptwechsel, Vergessen alter Szenen und Abruf historischer Szenen erschwert. Wir identifizieren den Kernengpass als die funktionale Verflechtung historischer KV-Zustände: Stabile Anker und aktuelle Dynamiken werden von derselben Cache-Strategie behandelt, was zu veralteter Hintergrundkontamination, verzögerter Reaktion auf neue Prompts und Verlust des Langzeitgedächtnisses führt. Um dieses Problem zu lösen, schlagen wir Echo-Forcing vor, ein trainingsfreies Szenengedächtnis-Framework, das speziell für interaktive lange Videogenerierung entwickelt wurde und drei Kernmechanismen umfasst: (1) Hierarchisches Temporäres Gedächtnis, das stabile Anker, komprimierte Historie und aktuelle Fenster unter relativer RoPE entkoppelt; (2) Szenenabruf-Frames, die historische Szenen in räumlich strukturierte KV-Representationen komprimieren, um Langzeitabruf zu unterstützen; und (3) Differenzbewusstes Gedächtnisverfall, das konfligierende Token adaptiv gemäß der Diskrepanz zwischen alten und neuen Szenen vergisst. Basierend auf diesen Entwürfen unterstützt Echo-Forcing einheitlich sanfte Übergänge, harte Schnitte und Langzeitszenenabruf unter einem begrenzten Cache-Budget. Umfangreiche Auswertungen auf VBench-Long zeigen weiterhin, dass Echo-Forcing die beste Gesamtleistung sowohl in der Generierung langer Videos als auch in interaktiven Videogenerierungseinstellungen erzielt. Unser Code ist unter https://github.com/mingqiangWu/Echo-Forcing veröffentlicht.

Mid-Training mit selbstgenerierten Daten verbessert das Verstärkungslernen in Sprachmodellen
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

May 8

ByAswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

Die Wirksamkeit von Reinforcement Learning (RL) in großen Sprachmodellen (Large Language Models, LLMs) hängt von der Art und Vielfalt der Daten ab, die vor und während des RL verwendet werden. Insbesondere Reasoning-Probleme lassen sich häufig auf verschiedene Weisen angehen, die auf unterschiedlichen Formen des Schlussfolgerns beruhen, und eine Beschränkung auf nur eine begrenzte Auswahl solcher Ansätze in den Trainingsdaten kann die Effektivität von RL einschränken. Motiviert durch diesen Umstand untersuchen wir die Verwendung diverser selbst generierter Daten während eines Zwischentrainings als Zwischenschritt vor dem RL-Training. Konkret verwenden wir ein Bootstrap-gestütztes Datenerzeugungsframework, das sich an George Polyas Problemlösungsansätzen orientiert, um für jede Frage in den Trainingsdaten mehrere Varianten korrekter Antworten zu generieren, und führen anschließend ein Feintuning durch. Zunächst bieten wir eine theoretische Perspektive darauf, wie ein Zwischentraining mit solchen Daten RL verbessert, und erläutern, wie Policy-Gradient-Updates die Kombination mehrerer Ansätze fördern können. Anschließend zeigen wir empirisch, dass mit unserem Zwischentraining initialisierte RL-Modelle konsistente Verbesserungen bei verschiedenen Benchmarks für mathematisches Reasoning sowie bei anderen OOD-Aufgaben wie Codegenerierung und narrativem Reasoning erzielen. Insgesamt zeigt unsere Untersuchung, dass das Erlernen mehrerer Problemlösungsansätze durch ein Sprachmodell auf Basis selbst generierter Daten das nachfolgende RL unterstützt.

Ethische Hypergeschwindigkeit (EHV): Eine nachweislich deterministische, governance-bewusste JIT-Compiler-Architektur für agentische Systeme
Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

May 18

ByRiddhi Mohan Sharma

Da autonome agentische Systeme in regulierten kritischen Infrastrukturen skaliert werden, stellt das Fehlen einer mechanistischen, hardwareverankerten Durchsetzung für hochfrequente Richtlinienaktualisierungen eine grundlegende Sicherheitslücke dar. Wir führen Ethical Hyper-Velocity (EHV) ein, ein neuartiges Architekturframework für die formale Verifikation von KI-Governance-Richtlinien zur Laufzeit. Im Gegensatz zu retrospektiven Audit-Frameworks (ISO/IEC 42001, NIST AI RMF), die Latenzen von 14–30 Tagen verursachen, verlagert EHV den Richtliniendurchsetzungspunkt (Policy Enforcement Point, PEP) über einen governancebewussten Just-In-Time (JIT)-Compiler in die Inferenz-Pipeline. Durch die Integration konfliktfreier replizierter Datentypen (Conflict-free Replicated Data Types, CRDTs) zur Richtliniensynchronisation und epochenbasierter Attestierungs-Caches in vertrauenswürdigen Ausführungsumgebungen (Trusted Execution Environments, TEEs) erreicht EHV einen submillisekunden Formaldeterminismus (Sub-millisecond Formal Determinism, SMFD). Wir demonstrieren mittels TLA+-Formalverifikation, dass nicht konforme agentische Aktionen im begrenzten Betriebszustandsraum des Systems rechnerisch unerreichbar sind. Wir beweisen, dass O(1)-Laufzeitdurchsetzung den traditionellen Zielkonflikt zwischen Bereitstellungsgeschwindigkeit und Governance-Integrität beseitigen kann, wodurch die Governance-Latenz von O(Tage) auf O(1) reduziert wird.

CopT: Kontrastives On-Policy-Denken mit kontinuierlichen Räumen für allgemeines und agentisches Schlussfolgern
CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

May 19

ByDachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee

Chain-of-Thought (CoT) ist eine Standardmethode zur Erschließung von Denkfähigkeiten großer Sprachmodelle (Large Language Models, LLMs). Das gängige CoT-Paradigma behandelt Denken jedoch als Voraussetzung für das Beantworten, was den Zugang zu plausiblen Antworten verzögern und unnötige Token-Kosten verursachen kann – selbst wenn das Modell in der Lage ist, eine Antwort vor einer ausgedehnten Denkphase zu identifizieren. Dieses Verhalten wird als performatives Denken bezeichnet. In dieser Arbeit führen wir CopT ein, eine umgestaltete Reasoning-Pipeline, die die übliche Reihenfolge von Denken und Antworten umkehrt. Anstatt vor dem Antworten zu denken, wird bei CopT zunächst eine Entwurfsantwort erzeugt und anschließend ein darauf aufbauendes On-Policy-Denken durchgeführt, das auf der eigenen Entwurfsantwort basiert, um diese zu reflektieren und zu korrigieren. Um zu bewerten, ob der Entwurfsantwort vertraut werden kann, nutzt CopT kontinuierliche Einbettungen als Inferenzzeit-Kontrastverifizierer. Insbesondere wird die Unterstützung des Modells für dieselben generierten Token unter diskreten Token-Eingaben und kontinuierlichen Einbettungseingaben verglichen, woraus ein sequenzebener Reverse-KL-Schätzer für die Zuverlässigkeit der Antwort resultiert. Unsere Analyse zeigt, dass der erwartete Schätzwert unter bestimmten Annahmen der gegenseitigen Information zwischen dem nicht aufgelösten latenten Zustand und dem ausgegebenen Antwort-Token entspricht, was erklärt, warum er antwortrelevante Unsicherheit erfasst und nicht beliebige Unsicherheit im latenten Zustand. Wenn die Antwort als nicht ausreichend zuverlässig eingestuft wird, führt CopT ein weiteres On-Policy-Denken durch. Dabei steuert ein zweiter KL-Schätzer dynamisch die Sichtbarkeit der Entwurfsantwort, um nützliche Teilinformationen zu bewahren, während das Risiko verringert wird, durch unzuverlässige Inhalte in die Irre geführt zu werden. In Aufgaben aus Mathematik, Programmierung und agentischem Reasoning verbessert CopT die maximale Genauigkeit um bis zu 23 % und reduziert den Token-Verbrauch um bis zu 57 % bei vergleichbarer oder höherer Genauigkeit – ohne zusätzliches Training. Der Code ist verfügbar unter https://github.com/sdc17/CopT.

Auswahl der Redaktion: Bewertung abstrakter Absichten in der Bildbearbeitung durch Analyse atomarer Entitäten
Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis

May 14

ByMor Ventura, Roy Hirsch, Yonatan Bitton, Regev Cohen, Roi Reichart

Menschen kommunizieren auf natürliche Weise durch abstrakte Konzepte wie „Stimmung“. Aktuelle Bildbearbeitungs-Benchmarks konzentrieren sich jedoch hauptsächlich auf explizite, wörtliche Anweisungen, sodass abstrakte Anweisungen weitgehend unerforscht bleiben. In dieser Arbeit formalisieren wir zunächst die Definition und Taxonomie der abstrakten Bildbearbeitung. Um die Befolgung von Anweisungen in diesem anspruchsvollen Bereich zu messen, führen wir Entity-Rubrics ein, ein Framework, das abstrakte Bearbeitungen in individuelle Bewertungen auf Entitätsebene zerlegt und eine starke Korrelation mit menschlichen Urteilen aufweist. Zusammen mit diesem Framework stellen wir AbstractEdit vor, den ersten Benchmark, der der abstrakten Bildbearbeitung in vielfältigen realen Szenen gewidmet ist. Die Evaluierung von 11 führenden Modellen auf diesem Datensatz offenbart eine grundlegende Herausforderung: Standardarchitekturen haben Schwierigkeiten, Absicht und Erhaltung in Einklang zu bringen, und neigen standardmäßig zu Unter- oder Überbearbeitung. Unsere Analyse zeigt, dass bedeutende Verbesserungen stark von der Integration fortschrittlicher LLM-Textkodierer und iterativen Denkens abhängen. Für die Zukunft könnte unser entitätsbasiertes Paradigma über die Bewertung hinausgehen und als Belohnungsmodell dienen, es Modellen ermöglichen, abstrakte Kommunikation korrekt zu interpretieren oder spezifische Fehler in Testzeit-Kritikschleifen hervorzuheben. Letztendlich hoffen wir, dass diese Arbeit als Sprungbrett für eine nahtlose multimodale Interaktion dient und die Lücke zwischen starrer maschineller Ausführung und der natürlichen, offenen Art der menschlichen Kommunikation schließt.

Sprachwechsel-Auslöser nehmen einen latenten Umweg durch Sprachmodelle
Language-Switching Triggers Take a Latent Detour Through Language Models

May 18

ByFrancis Kulumba, Wissam Antoun, Théo Lasnier, Benoît Sagot, Djamé Seddah

Backdoor-Angriffe auf Sprachmodelle stellen ein wachsendes Sicherheitsproblem dar, dennoch sind die internen Mechanismen, durch die eine Trigger-Sequenz die Modellberechnungen kapert, weiterhin nur unzureichend verstanden. Wir identifizieren eine Schaltung, die einem sprachumschaltenden Backdoor in einem autoregressiven Sprachmodell mit 8B Parametern zugrunde liegt, bei dem ein aus drei Wörtern bestehender lateinischer Trigger (neun Tokens) die englische Ausgabe auf Französisch umleitet. Wir zerlegen die Schaltung in drei Phasen: (1) Verteilte Aufmerksamkeitsköpfe in frühen Schichten komponieren die Trigger-Tokens in die letzte Sequenzposition; (2) das resultierende Signal breitet sich durch mittlere Schichten in einem Unterraum orthogonal zur natürlichen Sprachidentitätsrichtung des Modells aus; (3) das MLP in der letzten Schicht wandelt dieses latente Signal in französische Logits um. Die gesamte Schaltung fließt durch einen seriellen Engpass an einer einzelnen Position: Eine Störung dieser Position in jeder beliebigen Schicht neutralisiert den Trigger vollständig, beeinträchtigt aber auch die Fähigkeiten des Modells. Die orthogonale latente Kodierung legt nahe, dass Verteidigungsmaßnahmen, die nach sprachähnlichen Signalen in Zwischendarstellungen suchen, diesen Trigger vollständig übersehen würden.

DocAtlas: Multilinguales Dokumentenverständnis in über 80 Sprachen
DocAtlas: Multilingual Document Understanding Across 80+ Languages

May 12

ByAhmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

Das mehrsprachige Dokumentenverständnis bleibt für ressourcenarme Sprachen aufgrund knapper Trainingsdaten und modellbasierter Annotationspipelines, die bestehende Verzerrungen verstärken, eingeschränkt. Wir stellen DocAtlas vor, ein Framework, das hochpräzise OCR-Datensätze und Benchmarks erstellt, die 82 Sprachen und 9 Evaluierungsaufgaben abdecken. Unsere dualen Pipelines – differentielles Rendering nativer DOCX-Dokumente und synthetische LaTeX-basierte Generierung für rechts-nach-links-Schriften – erzeugen präzise strukturelle Annotationen in einem einheitlichen DocTag-Format, das Layout, Text und Komponententypen kodiert, ohne dass gelernte Modelle für die Kernannotation erforderlich sind. Die Evaluierung von 16 State-of-the-Art-Modellen zeigt anhaltende Lücken bei ressourcenarmen Schriften. Wir zeigen, dass Direct Preference Optimization (DPO) unter Verwendung von aus dem Rendering abgeleiteter Ground Truth als positivem Signal eine stabile mehrsprachige Anpassung erreicht und sowohl die In-Domain- (+1,9 %) als auch die Out-of-Domain-Genauigkeit (+1,8 %) verbessert, ohne messbare Verschlechterung der Basissprache – wohingegen überwachtes Feintuning die Out-of-Domain-Leistung um bis zu 21 % verschlechtert. Unsere beste Variante, DocAtlas-DeepSeek, verbessert sich um +1,7 % gegenüber der stärksten Baseline.

Omni-DuplexEval: Bewertung der Echtzeit-Duplex-Omnimodal-Interaktion
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

May 17

ByChaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen

Echtzeit-Duplex-Interaktion ist für multimodale KI-Systeme, die in realen Szenarien operieren, unerlässlich, da Modelle kontinuierlich Streaming-Eingaben verarbeiten und zu geeigneten Zeitpunkten reagieren müssen. Die meisten bestehenden multimodalen großen Sprachmodelle (MLLMs) werden jedoch in Offline-Umgebungen evaluiert, in denen die gesamte Videoeingabe verarbeitet wird, bevor eine Antwort generiert wird. Obwohl neuere Arbeiten begonnen haben, Echtzeit-Duplex-MLLMs zu untersuchen, fehlt es noch an einem umfassenden Benchmark oder einer automatischen Bewertungsmethode für dieses Szenario. Um diese Lücke zu schließen, schlagen wir Omni-DuplexEval vor, einen Benchmark zur systematischen Evaluierung von Echtzeit-Duplex-Interaktion. Der Benchmark besteht aus zwei komplementären Szenarien: (1) Echtzeitbeschreibung, die die Fähigkeit bewertet, kontinuierliche, zeitlich abgestimmte Antworten zu generieren, die sich entwickelnde multimodale Eingaben verfolgen, und (2) proaktive Erinnerung, die die Fähigkeit bewertet, relevante Ereignisse zu identifizieren und zu geeigneten Zeitpunkten zu reagieren. Omni-DuplexEval umfasst 660 Videos mit feinkörnigen, manuell annotierten Labels und präzisen zeitlichen Metadaten, die sich über 9 Aufgaben aus realen Szenarien erstrecken, wobei alle Fragen als offene Fragen formuliert sind. Wir führen ferner ein automatisches Bewertungsframework basierend auf LLM-as-a-Judge ein, das eine systematische Evaluierung ermöglicht, indem es sowohl die Inhaltsausrichtung der Antwort als auch den Antwortzeitpunkt durch zeitstempelbewusstes und sequenzielles Denken gemeinsam bewertet und eine starke Übereinstimmung mit menschlichen Bewertungen erzielt. Experimente mit modernsten Duplex-MLLMs zeigen erhebliche Einschränkungen. Das leistungsfähigste Modell erreicht insgesamt nur 39,6 %, während es bei proaktiver Erinnerung lediglich 20,0 % erzielt. Unsere Analyse identifiziert zwei zentrale Herausforderungen: Modelle haben Schwierigkeiten, zeitnahe Antworten mit kohärenter, ganzheitlicher Inhaltsgenerierung in Einklang zu bringen, und sie sind oft nicht in der Lage, sowohl den Zeitpunkt als auch den Inhalt der Antwort zu bestimmen. Wir hoffen, dass unsere Arbeit weitere Fortschritte bei MLLMs ermöglicht.

Warum verlieren Reasoning-Modelle an Abdeckung? Die Rolle von Daten und Wegegabelungen
Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road

May 16

ByNgoc-Hieu Nguyen, Parshin Shojaee, Phuc Minh Nguyen, Nan Zhang, Chandan K Reddy, Khoa D Doan, Rui Zhang

Jüngste Fortschritte bei großen Sprachmodellen haben zur Entstehung von Reasoning-Modellen geführt, die durch spezialisierte Feinabstimmungsverfahren eine starke Leistung bei komplexen Aufgaben zeigen. Während diese Methoden zuverlässig die Pass@1-Genauigkeit verbessern, wurde in früheren Arbeiten beobachtet, dass sie ein Coverage-Schrumpfungsverhalten aufweisen, bei dem die Pass@k-Leistung im Vergleich zum Basismodell abnimmt. In diesem Beitrag untersuchen wir, wie die Reasoning-Schrumpfung im Rahmen eines SFT-basierten Post-Trainings entsteht. Wir stellen die Hypothese auf, dass dieses Verhalten durch Eigenschaften der Feinabstimmungsdaten bedingt ist, insbesondere im Zusammenhang mit Entscheidungspunkten oder „Weggabelungen“-Szenarien, in denen das Modell auf nicht entzifferbare Muster mit mehreren gültigen Denkpfaden stößt. Um diese Hypothese zu testen, entwerfen wir kontrollierte Fallstudien, die solche Entscheidungspunktsituationen simulieren, und zwar sowohl bei Graphverzweigungen mit nicht entzifferbaren Knoten als auch bei Reasoning-Modi. Durch die Verfolgung der Post-Training-Dynamik in diesen Umgebungen stellen wir fest, dass das Schrumpfungsphänomen eng mit der Prävalenz von Entscheidungspunktszenarien in den Trainingsdaten korreliert. Wir zeigen außerdem, dass dieses Schrumpfungsverhalten teilweise durch ein gezieltes Datensynthese-Design von Entscheidungspunkten und einen stärker diversitätsfördernden Dekodierungsmechanismus abgemildert werden kann. Unsere Ergebnisse identifizieren datenzentrische Faktoren als einen Haupttreiber der Schrumpfung in Reasoning-Modellen und heben diversitätsbewusste Designs als wirksamen Hebel zu deren Kontrolle hervor.

Bug oder Feature^2: Gewichtsdrift, Aktivierungssparsität und Spikes
Bug or Feature^2: Weight Drift, Activation Sparsity, and Spikes

May 17

ByEgor Shvetsov, Aleksandr Serkov, Shokorov Viacheslav, Redko Dmitry, Vladislav Goloshchapov, Evgeny Burnaev

Das Design moderner neuronaler Architekturen hat sich durch inkrementelle empirische Entscheidungen entwickelt, doch die Mechanismen, die ihre Trainingsdynamik steuern, sind weiterhin nur unvollständig verstanden. Wir identifizieren und analysieren eine negative Gewichtsdrift, die durch die Wechselwirkung zwischen Standardverlustfunktionen und positiv verzerrten Aktivierungsfunktionen hervorgerufen wird. Wir beweisen, dass unter MSE- oder Kreuzentropie-Verlust der Gradient bezüglich positiver Voraktivierungen zum Initialisierungszeitpunkt in Erwartung nichtnegativ ist, was im frühen Training zu negativen Werten fortschreitender Gewichte führt. Die Drift ist intrinsisch für die Optimierung und nicht datenabhängig und bleibt über verschiedene Architekturen (MLP, ResNet, ViT, GPT-nano, MP-SENe) und asymmetrische Aktivierungsfunktionen (ReLU, GELU, SiLU) hinweg bestehen. In Verbindung mit ReLU erzeugt die Gewichtsdrift eine Aktivierungssparsity, die bei GPT-nano bis zu 90 % erreicht. Wir charakterisieren den Sparsity-Accuracy-Kompromiss über 79 Konfigurationen und identifizieren eine scharfe Genauigkeitsklippe oberhalb von etwa 70 % Aktivierungssparsity. Während ReLU² in GPT-nano ein gutes Sparsity-Accuracy-Verhältnis erzielt, verstärkt es pathologisch identifizierte Aktivierungsspitzen in den mittleren Transferschichten. Clipping behebt dies unter Beibehaltung der repräsentationalen Vorteile des Quadrierens: abgeschnittenes ReLU² übertrifft seine unbeschnittene Version, und GELU² erreicht den niedrigsten Validierungsverlust bei GPT-nano. Der Code ist verfügbar unter https://github.com/On-Point-RND/BugOrFeature.

Sei nett, schreibe um: Harmlose Projektionen durch Umschreiben schützen vor LLM-Datenvergiftungsangriffen
Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

May 18

ByJohn T. Halloran, Noopur S. Bhatt

Große Sprachmodelle (LLMs) sind sehr anfällig für Hintertürangriffe (BAs), bei denen Trainingsdaten mit triggerbasierten schädlichen Inhalten vergiftet werden. Darüber hinaus haben sich bestehende Abwehrmaßnahmen bei umfassenden Tests über verschiedene BA-Muster hinweg als unwirksam erwiesen. Um BAs besser zu bekämpfen, untersuchen wir den Einsatz von LLM-Umschreibung als proaktive Verteidigung gegen Datenvergiftung. Erstens zeigen wir theoretisch, dass bei Verwendung von Open-Book-Benign-Rewriting (OBBR) – also wenn die LLM-Umschreibung auf unschädliche Beispiele aus offenen Quellen zurückgreift – die Wahrscheinlichkeit, dass die umgeschriebene Ausgabe unschädlich ist, strikt größer ist als bei Closed-Book-Rewriting. Somit neutralisiert OBBR schädliche Inhalte, indem es Trainingsbeispiele in den Raum unschädlicher Prompts projiziert. Anschließend zeigen wir, dass OBBR im Gegensatz zu früheren Abwehrmaßnahmen eine Vielzahl bestehender BAs wirksam entschärft: Über fünf bekannte BAs und vier weit verbreitete LLMs hinweg steigert OBBR die Sicherheitsleistung im Durchschnitt um 51% im Vergleich zu modernsten BA-Abwehrmaßnahmen und um 25,7% im Vergleich zu Closed-Book-Rewriting-Methoden. Schließlich weisen wir nach, dass OBBR im Vergleich zu anderen BA-Abwehrmaßnahmen recheneffizient ist, die Modellleistung bei Aufgaben der natürlichen Sprachverarbeitung nach der Feinabstimmung nicht beeinträchtigt und in der Lage ist, sich gegen nicht-triggerbasierte Datenvergiftungsangriffe zu verteidigen.

Basis-Modelle wirken auf KI-Detektoren menschlich.
Base Models Look Human To AI Detectors

May 19

ByYixuan Even Xu, Ziqian Zhong, Aditi Raghunathan, Fei Fang, J. Zico Kolter

Mit der zunehmenden Verbreitung KI-generierter Texte im großen Maßstab in der realen Welt setzen Institutionen vermehrt kommerzielle KI-Textdetektoren ein, insbesondere in Bildungs- und akademischen Integritätsprozessen. Wir berichten über einen überraschenden empirischen Befund zu solchen Systemen: Bei der Evaluierung durch GPTZero und Pangram werden generierte Texte von Basismodellen oft als überwiegend menschlich bewertet, während Texte ihrer anweisungsoptimierten Gegenstücke dies nicht sind. Aufbauend auf dieser Beobachtung schlagen wir Humanization by Iterative Paraphrasing (HIP) vor, eine detektorunabhängige Pipeline, die ein Basismodell minimal auf einen Paraphraser nachjustiert und diesen iterativ anwendet. Im Vergleich zu den getesteten Basislinien bietet HIP einen besseren Kompromiss zwischen Semantikerhaltung und Detektorumgehung bei kommerziellen Detektoren. Über die Llama-3- und Qwen-3-Familien hinweg, die Modellgrößen von 0,6B bis 70B umfassen, verbessert HIP konsistent die von Detektoren eingeschätzte Menschlichkeit. Unsere Ergebnisse deuten darauf hin, dass aktuelle Detektoren eher Artefakte der Instruktionsoptimierung und des lokalen Kontexts verfolgen als eine invariante Vorstellung maschinengenerierten Textes. Dies wiederum erfordert Detektordesigns, die diese Faktoren expliziter modellieren.

Informatik-Konferenzen sollten nichtabstreitbare experimentelle Ergebnisse verlangen
Computer Science Conferences Should Require Nonrepudiable Experimental Results

May 9

ByMamadou K. Keita, Christopher Homan

Dieses Positionspapier argumentiert, dass Informatikkonferenzen manipulationssichere und nichtabstreitbare Bestätigungen von experimentellen Ergebnissen verlangen sollten. Wir bezeichnen das zugrundeliegende Problem als Experiment-Nichtabstreitbarkeit: Ein konformes Protokoll muss die Zahlen in einem Papier an eine tatsächlich ausgeführte Berechnung binden, und zwar so, dass der Autor sie später weder ändern noch abstreiten kann. Das derzeitige System basiert auf selbst gemeldeten Checklisten, optionaler Codefreigabe und vom Autor kontrolliertem Logging. Keiner dieser Mechanismen beantwortet die Frage, die ein Gutachter nicht überprüfen kann: Hat der Code, den das Papier beschreibt, die Zahlen produziert, die das Papier berichtet? Wir definieren das Problem formal, legen die Sicherheitseigenschaften fest, die jedes konforme Protokoll erfüllen muss, und beschreiben ein Bedrohungsmodell, das Angriffe umfasst, die aktuelle Ansätze nicht verhindern. Um zu zeigen, dass das Problem lösbar ist, haben wir K-Veritas entwickelt, eine Referenzimplementierung in Go, die signierte Berichte erstellt, ohne auf Trainingsdaten zuzugreifen. K-Veritas ist ein Testfeld, keine endgültige Antwort. Wir rufen Konferenzen und die Community dazu auf, Nichtabstreitbarkeit als erstklassige Anforderung zu behandeln und dabei zu helfen, einen offenen, unabhängigen Standard dafür zu etablieren.

S-Bus: Automatische Lese-Set-Rekonstruktion für die Zustandskoordination von Multi-Agenten-LLMs
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination

May 16

BySajjad Khan

Gleichzeitige LLM-Agenten, die einen veränderlichen natürlichsprachlichen Zustand teilen, erzeugen strukturelle Wettlaufsituationen (Structural Race Conditions, SRCs): Schreib-Schreib- und shardübergreifende veraltete Lese-Konflikte, die die Agentenausgabe stillschweigend korrumpieren. Bestehende Multi-Agenten-Frameworks (LangGraph, CrewAI, AutoGen) bieten keine Schreib-Eigentumssemantik für gemeinsamen Zustand. Wir präsentieren S-Bus, eine HTTP-Middleware, deren zentraler Mechanismus ein server-seitiges DeliveryLog ist: ein agentenspezifisches Log von HTTP-GET-Operationen, das automatisch den Lese-Satz jedes Agenten zum Commit-Zeitpunkt rekonstruiert, ohne Änderungen am Agenten-SDK unter HTTP/1.1. Die Konsistenzeigenschaft, die das DeliveryLog bereitstellt – Observable-Read Isolation (ORI), eine partielle kausale Konsistenz über die HTTP-beobachtbare Projektion des Lese-Satzes – verhindert strukturelle Wettlaufsituationen, wenn Agenten über gemeinsame Shards zusammenarbeiten. Drei Beiträge: (C1) Der DeliveryLog-Mechanismus zur automatischen, auf HTTP-Datenverkehr basierenden Rekonstruktion des Lese-Satzes, mit maschineller Evidenz auf drei Ebenen: ReadSetSoundness und ORICommitSafety maschinengeprüft in TLAPS (bis auf ein beibehaltenes Typisierungsaxiom); erschöpfendes TLC bei N=3 (20.763.484 verschiedene Zustände, null Verstöße); Dafny erledigt 9 induktive Korrektheitslemmata. (C2) Empirische strukturelle Konfliktvermeidungsgleichheit gegenüber PostgreSQL 17 SERIALIZABLE und Redis 7 WATCH/MULTI bei Gemeinschafts-Shard-Konkurrenzdurchläufen mit 427.308 aktiven HTTP-409-Konflikten: Null Typ-I-Korrumpierungen über alle drei Backends hinweg. (C3) Der Betriebsbereich von ORI ist topologieabhängig: semantisch neutral bei dedizierten Shard-Workloads; schädlich bei gemeinschaftlichem Schreiben auf einem einzelnen Shard, da die Erhaltung gleichzeitige Widersprüche propagiert. Quellcode: https://github.com/sajjadanwar0/sbus

SAGA: Eine sequenzadaptive generative Architektur für mehrhorizontale probabilistische Prognose mit adaptiver temporaler konformer Vorhersage
SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

May 18

ByGustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert

Mikrosimulationsmodelle, die von Finanzministerien und Zentralbanken verwendet werden, stützen sich auf parametrische Prozesse für Lebenseinkommen, die nur erste und zweite Momente der bedingten Verteilung erfassen und langfristige nichtlineare Strukturen übersehen. Wir schlagen SAGA vor, einen Decoder-only Transformer für unregelmäßige tabellarische Panelsequenzen, gekoppelt mit einem Split-Conformal-Kalibrierungs-Wrapper, der individuelle Vorhersageintervalle mit marginalen Überdeckungsgarantien für endliche Stichproben liefert. Trainiert auf dem longitudinalen schwedischen LISA-Register von 1990 bis 2022, das 2.143.817 Personen und 61.284.903 Personenjahre umfasst, prognostiziert das Modell jährliche Arbeitseinkommen für Horizonte von einem bis dreißig Jahren und aggregiert sie mittels Monte-Carlo-Simulation zu abgezinsten Lebenseinkommensverteilungen. Gegenüber dem kanonischen parametrischen Prozess von Guvenen, Karahan, Ozkan und Song sowie tabellarischen und rekurrenten Basislinien reduziert SAGA den Continuous Ranked Probability Score um 31,9 Prozent für den Zehn-Jahres-Horizont und den mittleren absoluten Fehler um 37,7 Prozent für den Zwanzig-Jahres-Horizont. Konforme Intervalle erreichen nominale Abdeckung mit einer marginalen Abweichung von bis zu 0,4 Prozentpunkten und einer Abweichung von bis zu 2,4 Prozentpunkten für die ungünstigste demografische Untergruppe. Der rekonstruierte Gini-Koeffizient des Lebenseinkommens beträgt 0,327, verglichen mit der teilweise beobachteten Wahrheit von 0,341 und der GKOS-Schätzung von 0,378. Modellgewichte, Kalibrierungstabellen und ein synthetischer äquivalenter Datensatz werden zur Replikation außerhalb der geschützten SCB-MONA-Umgebung veröffentlicht.

RoPE unterscheidet weder Positionen noch Token in langen Kontexten, nachweislich.
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

May 15

ByYufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng

Wir identifizieren intrinsische Einschränkungen von Rotierenden Positions-Einbettungen (RoPE) in Transformer-basierten Sprachmodellen für lange Kontexte. Unsere theoretische Analyse abstrahiert vom spezifischen Inhalt des Kontexts und hängt nur von dessen Länge ab. Wir beweisen, dass mit zunehmender Kontextlänge die RoPE-basierte Attention unvorhersagbar wird und zwei für ihre Wirksamkeit zentrale Eigenschaften verliert. Erstens verliert sie ihren Lokalitäts-Bias: RoPE begünstigt nähere Positionen nicht mehr wahrscheinlicher als wesentlich weiter entfernte. Zweitens verliert sie die Konsistenz der Token-Relevanz: Ein Schlüsselvektor, der an einer Position einen höheren Attention-Score erhält als ein anderer, kann an einer anderen Position einen niedrigeren Score erhalten. In beiden Fällen nähert sich die Fehlerwahrscheinlichkeit 0,5 an, was nicht besser ist als zufälliges Raten. Wir beweisen ferner, dass der Attention-Score unverändert bleiben kann, wenn ein Schlüssel-Token an eine andere Position verschoben oder sogar durch ein anderes Token ersetzt wird, was auf ein Versagen hindeutet, Positionen oder Token zu unterscheiden. Durch die Anpassung der RoPE-Basis wird die Fähigkeit, Positionen zu unterscheiden, gegen die Fähigkeit, Token zu unterscheiden, abgetauscht, aber beides kann nicht gleichzeitig bewahrt werden. Die Erhöhung des RoPE-Basis-Hyperparameters, eine gängige Praxis in heutigen Langkontextmodellen, hilft, verschiedene Token zu unterscheiden, opfert aber zwangsläufig die Fähigkeit, Positionen zu unterscheiden. Unsere empirische Analyse zeigt, dass Mehrkopf- und Mehrschichtarchitekturen nicht ausreichen, um diese Einschränkungen zu überwinden. Unsere Ergebnisse deuten darauf hin, dass in zukünftigen Transformer-Sprachmodellen für lange Kontexte grundlegend neue Mechanismen zur Codierung von Position und Token-Reihenfolge erforderlich sein könnten.