HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

25 papers found

SkillOpt: Ausführungsstrategie für selbstentwickelnde Agentenfähigkeiten
SkillOpt: Executive Strategy for Self-Evolving Agent Skills

May 22

ByYifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo

153

Agentenfähigkeiten werden heute von Hand erstellt, in einem Schritt generiert oder durch lose kontrollierte Selbstverbesserung weiterentwickelt. Keiner dieser Ansätze verhält sich wie ein Deep-Learning-Optimierer für die Fähigkeit, und keiner verbessert sich unter Rückmeldung zuverlässig über seinen Ausgangspunkt hinaus. Wir argumentieren, dass die Fähigkeit stattdessen als externer Zustand eines eingefrorenen Agenten trainiert werden sollte – mit derselben Disziplin, die die Reproduzierbarkeit von Gewichtsraumoptimierung gewährleistet. SkillOpt ist unseres Wissens der erste systematische, kontrollierbare Textraum-Optimierer für Agentenfähigkeiten: Ein separates Optimierungsmodell wandelt bewertete Rollouts in begrenzte Hinzufügen-/Löschen-/Ersetzen-Änderungen an einem einzigen Skill-Dokument um, und eine Änderung wird nur akzeptiert, wenn sie einen zurückgehaltenen Validierungswert strikt verbessert. Ein textuelles Lernratenbudget, ein Puffer für abgelehnte Änderungen und eine epochenweise langsame/Meta-Aktualisierung machen das Skill-Training stabil, während bei der Bereitstellung null zusätzliche Modellaufrufe zur Inferenzzeit anfallen. Über sechs Benchmarks, sieben Zielmodelle und drei Ausführungsumgebungen (direkter Chat, Codex, Claude Code) hinweg ist SkillOpt in allen 52 bewerteten (Modell, Benchmark, Umgebung)-Zellen entweder am besten oder gleichauf und schlägt jeden zellenweisen Konkurrenten unter menschlichen, One-Shot-LLM-, Trace2Skill-, TextGrad-, GEPA- und EvoSkill-Fähigkeiten. Mit GPT-5.5 steigert es die durchschnittliche Genauigkeit ohne Skill um +23,5 Punkte im direkten Chat, um +24,8 innerhalb der Codex-Agentenschleife und um +19,1 innerhalb von Claude Code. Transferexperimente zeigen weiterhin, dass optimierte Skill-Artefakte ihren Wert behalten, wenn sie über Modellskalen hinweg, zwischen Codex- und Claude-Code-Ausführungsumgebungen sowie zu einem nahegelegenen Mathematik-Benchmark ohne weitere Optimierung verschoben werden.

Neubetrachtung des schichtübergreifenden Informationsroutings in Diffusions-Transformern
Rethinking Cross-Layer Information Routing in Diffusion Transformers

May 20

ByChao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang, Kan Liu, Tao Lan, Lin Qu, Shao-Qun Zhang

Diffusionstransformatoren (DiTs) haben sich als De-facto-Rückgrat der modernen visuellen Generierung etabliert, und nahezu jede wesentliche Designachse – Tokenisierung, Aufmerksamkeit, Konditionierung, Ziele und latente Autoencoder – wurde umfassend überarbeitet. Der Reststrom, der steuert, wie sich Informationen über die Schichten hinweg ansammeln, wurde jedoch direkt vom ursprünglichen Transformer übernommen. In diesem Artikel präsentieren wir eine systematische empirische Analyse des schichtübergreifenden Informationsflusses in DiTs, gemeinsam entlang der Tiefe und des Entrauschungszeitschritts, und identifizieren drei konkrete Symptome der traditionellen residualen Addition: eine monotone Zunahme der Vorwärtsmagnitude, ein starkes Abklingen des Rückwärtsgradienten und eine ausgeprägte blockweise Redundanz. Motiviert durch diese Diagnose schlagen wir Diffusion-Adaptive Routing (DAR) vor, einen Drop-in-Ersatz für das Residuum, der eine lernbare, zeitschrittadaptive und nicht inkrementelle Aggregation über die Historie der Sublayer-Ausgaben durchführt. Darüber hinaus ist das vorgeschlagene DAR mit vielen modernen Methoden zur Verbesserung von Transformatoren kompatibel, wie etwa REPA. Auf ImageNet 256×256 verbessert DAR SiT-XL/2 um 2,11 FID (7,56 gegenüber 9,67) und erreicht die konvergierte Qualität der Basislinie mit 8,75-fach weniger Trainingsiterationen. In Kombination mit REPA ergibt sich eine 2-fache Trainingsbeschleunigung in der frühen Phase, was darauf hindeutet, dass das schichtübergreifende Informationsrouting eine wenig erforschte Designachse in der Diffusionsmodellierung darstellt, die orthogonal zu bestehenden Repräsentationsabgleichszielen operiert. Über das Vortraining hinaus kann DAR auch während der Feinanpassungsphase von großskaligen T2I-Modellen angewendet werden und bewahrt hochfrequente Details während der Distribution-Matching-Destillation.

Linse: Überdenken der Trainingseffizienz für grundlegende Text-zu-Bild-Modelle
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

May 20

ByDong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen

Wir stellen Lens vor, ein T2I-Modell mit 3,8 Milliarden Parametern, das in verschiedenen Benchmarks eine mit modernsten Modellen mit mehr als 6 Milliarden Parametern konkurrenzfähige und in mehreren Fällen überlegene Leistung erzielt und dabei wesentlich weniger Trainingsaufwand benötigt. Beispielsweise erfordert Lens nur etwa 19,3 % des Trainingsaufwands, der für Z-Image verwendet wird. Die Trainingseffizienz von Lens beruht über seine kompakte Modellgröße hinaus auf zwei Schlüsselstrategien. Erstens maximieren wir die Informationsdichte der Daten pro Trainingsbatch, indem wir (i) auf Lens-800M trainieren, einem Datensatz von 800 Millionen dicht beschrifteten Bild-Text-Paaren, deren Bildunterschriften von GPT-4.1 generiert wurden und im Durchschnitt etwa 109 Wörter enthalten, was eine reichhaltigere semantische Überwachung als herkömmliche kurze Bildunterschriften bietet, und (ii) jeden Batch aus Bildern mit mehreren Auflösungen und unterschiedlichen Seitenverhältnissen zusammensetzen, wodurch die effektive visuelle Abdeckung jedes Optimierungsschritts vergrößert wird. Zweitens verbessern wir die Konvergenzgeschwindigkeit durch sorgfältige architektonische Entscheidungen, einschließlich der Übernahme eines semantischen VAE, der bessere latente Repräsentationen liefert, und der Verwendung eines starken Sprach-Encoders, der die Optimierung beschleunigt und gleichzeitig mehrsprachige Generalisierung aus rein englischen Trainingsdaten ermöglicht. Nach dem Vortraining wenden wir RL mit taxonomiegesteuerten Prompts (Lens-RL-8K) und strukturierten Belohnungskriterien an, um Artefakte zu unterdrücken und die visuelle Qualität zu verbessern, ein Reasoner-Modul mit trainingsfreier System-Prompt-Suche, um Benutzeranfragen besser mit dem Modell abzugleichen, sowie destillationsbasierte Beschleunigung für die 4-Schritt-Inferenz. Durch effizientes Training und systematische Optimierung verallgemeinert Lens auf beliebige Seitenverhältnisse von 1:2 bis 2:1 und Auflösungen bis zu 1440^2 und unterstützt Prompts in mehreren häufig verwendeten Sprachen. Dank seiner kompakten Größe erzeugt Lens ein 1024^2-Bild in 3,15 Sekunden auf einer einzelnen NVIDIA H100 GPU, während seine destillierte Turbo-Version eine 4-Schritt-Generierung in 0,84 Sekunden durchführt.

SciAtlas: Ein groß angelegter Wissensgraph für automatisierte wissenschaftliche Forschung
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

May 20

ByShuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen

Das exponentielle Wachstum der globalen akademischen Produktion hat Forscher und KI-Agenten mit einer beispiellosen „Informationsflut“ konfrontiert, bei der fragmentierte und unstrukturierte Wissensorganisation eine tiefe interdisziplinäre Integration behindert. Aktuelle akademische Retrieval-Werkzeuge stützen sich überwiegend auf oberflächlichen Stichwortabgleich oder vektorraumbasierte semantische Suche, denen die für die Navigation komplexer logischer Verbindungen erforderlichen topologischen Schlussfolgerungsfähigkeiten fehlen. Agentische, auf tiefer Forschung basierende Frameworks neigen oft zu logischen Halluzinationen und verursachen hohe Inferenzkosten. Um diese Lücke zu schließen, stellen wir in diesem Bericht SciAtlas vor, einen groß angelegten, multidisziplinären, heterogenen Wissensgraph akademischer Ressourcen, der als panoramisches wissenschaftliches Evolutionsnetzwerk konzipiert ist. Durch die Integration von über 43 Millionen Papern aus 26 Disziplinen sowie insgesamt 157 Millionen Entitäten und 3 Milliarden Triple bietet SciAtlas ein strukturiertes topologisches kognitives Substrat, das Disziplingrenzen auflöst und KI-Agenten mit einer globalen Perspektive ausstattet. Darüber hinaus entwickeln wir einen neuro-symbolischen Retrieval-Algorithmus mit Dreipfad-Kollaborationsabruf und Graph-Neubewertung, der einen nahtlosen Übergang von einfacher semantischer Übereinstimmung zur deterministischen Assoziationserkennung ermöglicht. Wir präsentieren auch wichtige Anwendungsrichtungen von SciAtlas, darunter Literaturüberblick, automatisierte Synthese von Forschungstrends, Ideenpositionierung und Erkundung akademischer Verläufe, um zu demonstrieren, dass SciAtlas als effektive „kognitive Karte“ dienen kann, um den gesamten Kreislauf automatisierter wissenschaftlicher Forschung zu unterstützen und gleichzeitig die Denkkosten erheblich zu senken. Wir haben die Schnittstellen für KG-Abruf und verschiedene nachgelagerte Aufgaben in unserem GitHub-Repository veröffentlicht.

StepAudio 2.5 Technischer Bericht
StepAudio 2.5 Technical Report

May 22

ByBin Lin, Bo Zhao, Boyong Wu, Chao Yan, Chen Wu, Cheng Yi, Chengyuan Yao, Daijiao Liu, Fei Tian, Feng Tian, Haiyang Sun, Haoyang Zhang, Jiangjie Zhen, Jinglan Gong, Jun Chen, Li Xie, Peilin Li, Peng Yang, Pengfei Tan, Qingjian Lin, Runze Li, Shenghua Hu, Siyi Zhou, Wenwen Qu, Xiangyu Li, Xiangyu Tony Zhang, Xuerui Yang, Yang Yang, Yechang Huang, Yu Fu, Yuchu Luo, Yuxin Li, Yuxin Zhang, Zhengyan Sheng, Brian Li, Chang Zeng, Changlin Zhang, Chen Geng, Chenghao Dong, Chengli Feng, Dan Zhou, Danni Wan, Di Chen, Die Zhang, Dongqing Pang, Guanglong Yang, Guoqiang Hu, Huangxi Zhu, Jianzheng Gao, Jinghua Liang, Jinmei Wan, Junjie Yuan, Kang An, Lei Lei, Limin Zhong, Lun Cai, Mengqiang Ren, Min Xu, Mingliang Li, Mingxiao Li, Na Wang, Qiang Tong, Qiaoling Huang, Qingfu Du, Rui Wang, Shengchen Zhou, Shi Qiu, Shihao Peng, Shiliang Yang, Siqi Tu, Tianjiao Deng, Ting Xu, Tong Wang, WeiMing Niu, Wuxun Xie, Xianwei Zhang, Xianyu Feng, Xiaojia Liu, Xing Chen, Xiongbin Wu, Yan Wu, Yang Li, Yi Liu, Yifan Zhang, Yile Liu, Yongshen Long, Yu Luo, Yuanhao Ding, Yuhao Wang, Yuhe Yin, Yunfang Xu, Yuxiang Yang, Zhiguo Huang, Zhiyue Wu, Zichao Li, Zichao Zhou, Daxin Jiang, Future Li, Gang Yu, Xiangyu Zhang, Yibo Zhu

Vereinheitlichte Audio-Sprachmodellierung hat sich zu einem prominenten Trend in modernen Sprachsystemen entwickelt und verspricht, die Denkfähigkeiten großer Sprachmodelle auf auditive Aufgaben zu übertragen. Allerdings gelingt es bestehenden vereinheitlichten Grundlagen oft nicht, die Tiefe spezialisierter Systeme in den Bereichen automatische Spracherkennung (ASR), Text-zu-Sprache-Synthese (TTS) und Echtzeit-Sprachinteraktion zu erreichen. Die Überbrückung dieser Kluft bleibt eine offene Herausforderung. Dieser Bericht stellt StepAudio 2.5 vor, ein vereinheitlichtes Audio-Sprach-Grundlagenmodell, das spezialisierte Systeme in allen drei Fähigkeiten erreicht oder übertrifft. Anstatt diese Aufgaben als architektonisch getrennt zu betrachten, gehen wir von der Prämisse aus, dass, sobald Text und Audio einen multimodalen Repräsentationsraum teilen, die Aufgabenspezialisierung zu einer Frage der Betriebsregime wird: Datenkonstruktion, Optimierungsziele und Dekodierungsbeschränkungen. Geleitet von dieser Erkenntnis erweitern wir das Post-Training-Paradigma von standardmäßigem überwachten Lernen hin zu aufgabenangepasstem Reinforcement Learning from Human Feedback (RLHF) und nutzen es als primären Mechanismus zur Definition komplexer Optimierungsziele. Wir verwenden diese RLHF-zentrierte Ausrichtung zusammen mit spezialisierter Dekodierung, um ein gemeinsames Rückgrat in drei unterschiedliche Betriebsmodi zu formen. Konkret verbessert der ASR-Zweig die Transkriptionseffizienz durch verifizierbare Multi-Token-Dekodierung; der TTS-Zweig erreicht kontrollierbare, ausdrucksstarke Synthese durch präferenzbasiertes RLHF und kontextreiche Überwachung; und der Echtzeit-Zweig realisiert latenzarme, personenkonsistente Dialoge durch generatives Belohnungsmodellieren innerhalb eines RLHF-Rahmens. In Standard-Benchmarks erzielt StepAudio 2.5 Spitzenergebnisse in ASR, TTS und Echtzeit und demonstriert damit, dass eine singuläre Audio-Sprach-Grundlage erfolgreich die unterschiedlichen Einsatzziele von Sprachverstehen, -generierung und Live-Interaktion verinnerlichen kann.

Sehen Sie, was ich meine: Abgleich von Bild- und Sprachrepräsentationen für ein videobasiertes feinkörniges Objektverständnis
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

May 18

ByBoyuan Sun, Bowen Yin, Yuanming Li, Xihan Wei, Qibin Hou

Wir präsentieren SWIM (See What I Mean), eine neuartige Trainingsstrategie, die visuelle und sprachliche Repräsentationen aufeinander abstimmt, um ein feinkörniges Objektverständnis allein auf der Grundlage von Textaufforderungen zu ermöglichen. Im Gegensatz zu bestehenden Ansätzen, die explizite visuelle Aufforderungen wie Masken oder Punkte erfordern, nutzt SWIM die Maskenüberwachung nur während des Trainings, um die kreismodale Aufmerksamkeit zu lenken, sodass das modell beim Schließen automatisch auf das benutzerspezifizierte Objekt fokussieren kann. Unsere Analyse der kreismodalen Aufmerksamkeit in vortrainierten multimodalen großen Sprachmodellen (MLLMs) offenbart eine systematische Diskrepanz: Attributwörter erzeugen scharfe, lokalisierte Aktivierungen in der visuellen Modalität, während Objektnomen aufgrund eines semantischen Referenzbias und verteilter hochrangiger Repräsentationen diffuse und verstreute Muster aufweisen. Um diese Fehlausrichtung zu beheben, konstruieren wir NL-Refer, einen angereicherten Datensatz, bei dem jede Objektmaske mit einem präzisen natürlichsprachlichen Referenzausdruck gepaart ist. SWIM extrahiert kreismodale Aufmerksamkeitskarten aus mehreren Schichten von Objektnomen und erzwingt räumliche Konsistenz mit den Ground-Truth-Masken. Experimentelle Ergebnisse zeigen, dass SWIM die Text-Bild-Ausrichtung erheblich verbessert und auf Benchmarks zum feinkörnigen Objektverständnis eine überlegene Leistung gegenüber auf visuellen Aufforderungen basierenden Methoden erzielt. Der Code und die Daten sind verfügbar unter https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.

Von der Roherfahrung zum Fähigkeitskonsum: Eine systematische Untersuchung modellgenerierter Agentenfähigkeiten
From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

May 22

ByZisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo

Sprachagenten verbessern sich zunehmend durch die Wiederverwendung von Fähigkeiten – strukturierte prozedurale Artefakte, die aus vergangenen Erfahrungen destilliert werden. Insbesondere domänenspezifische und modellgenerierte Fähigkeiten sind vielversprechend. Sie ermöglichen eine schnelle Anpassung innerhalb einer Domäne durch die Kodierung domänenspezifischer wiederkehrender Abläufe und skalieren über arbeitsintensive manuelle Erstellung hinaus. Während jedoch Extraktionsmethoden weiterhin zunehmen, bleibt das Verständnis begrenzt, ohne eine umfassende Studie, die den gesamten Fähigkeitslebenszyklus abdeckt – Erfahrungsgenerierung, Fähigkeitsextraktion und Fähigkeitsnutzung –, um zu untersuchen, ob solche Fähigkeiten tatsächlich funktionieren, wann sie funktionieren und was ihren Erfolg oder Misserfolg ausmacht. Um diese Lücke zu schließen, bauen wir ein nutzenorientiertes Bewertungsframework, das systematische experimentelle Ergebnisse über Extraktoren und Zielagenten hinweg liefert und fünf verschiedene aufgabenorientierte Agentendomänen abdeckt. Wir stellen fest, dass modellgenerierte Fähigkeiten im Durchschnitt vorteilhaft sind, aber einen nicht-trivialen negativen Transfer aufweisen, und dass weder Extraktoren noch Zielagenten einheitlich agieren. Ein Modell kann ein starker Extraktor, aber ein schwacher Konsument sein, oder umgekehrt, wobei der Nutzen einer Fähigkeit unabhängig von der Modellgröße oder der Basislinienaufgabenstärke ist. Um diese Muster zu erklären, sezieren wir dann jede Lebenszyklusphase im Detail, analysieren, wie die Erfahrungszusammensetzung die Fähigkeitsqualität prägt, welche Eigenschaften nützliche Fähigkeiten charakterisieren und wie dieselbe Fähigkeit über verschiedene Konsumenten hinweg übertragen wird. Schließlich übersetzen wir diese Erkenntnisse in eine konkrete Meta-Fähigkeit, die die Fähigkeitsextraktion auf die mit dem tatsächlichen Nutzen verbundenen Merkmale lenkt, was die Fähigkeitsqualität durchgängig über Domänen hinweg verbessert und den negativen Transfer erheblich reduziert.

PiD: Schnelle und hochauflösende latente Dekodierung mit Pixel-Diffusion
PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

May 22

ByYifan Lu, Qi Wu, Jay Zhangjie Wu, Zian Wang, Huan Ling, Sanja Fidler, Xuanchi Ren

Die meisten praktischen hochauflösenden Text-zu-Bild-Systeme, darunter latente Diffusions- und autoregressive Modelle, erzeugen Bilder in einem kompakten latenten Raum, und ein Decoder bildet die generierten Latenten wieder in Pixel ab. Allerdings ist der Latenz-zu-Pixel-Decoder rekonstruktionsorientiert, optimiert zur Invertierung des Encoders statt zur Synthese weiterer Details, und wird im Megapixel-Maßstab zunehmend aufwändig. Dieser Nachteil erfordert ein ausdrucksstärkeres und effizienteres Decodierungs-Paradigma. Motiviert durch jüngste Fortschritte bei skalierbarer Pixeldiffusion im Pixelraum stellen wir PiD vor, einen Pixel-Diffusion-Decoder, der die latente Decodierung als bedingte Pixeldiffusion neu definiert und Decodierung sowie Hochskalierung in einem generativen Modul vereint. Durch direktes Entrauschen im hochauflösenden Pixelraum synthetisiert PiD 4-fach und sogar 8-fach hochskalierte Bilder mit geringer Latenz. Für die latente Bedingung injiziert ein leichter sigma-bewusster Adapter verrauschte Latente in das Pixeldiffusions-Backbone, sodass PiD teilweise entrauschte Latente decodieren und den latenten Diffusionsprozess vorzeitig beenden kann. Zur weiteren Effizienzsteigerung destillieren wir das Modell mittels DMD2 und reduzieren die Inferenz auf nur 4 Schritte. PiD ist sowohl auf konventionelle VAE-Latente als auch auf semantische Latente (z. B. SigLIP, DINOv2) anwendbar, die in neueren RAE-basierten Modellen verwendet werden. PiD decodiert Latente von 512×512 Bildern in 2048×2048 Pixel in unter einer Sekunde mit 13 GB Spitzenspeicher auf einer handelsüblichen RTX 5090 und ist auf einer GB200-GPU mit bis zu 210 ms etwa 6‑mal schneller als kaskadierte diffusionsbasierte Super-Resolution-Pipelines, bei besserer visueller Wiedergabetreue.

PhotoFlow: Agentische 3D-Virtualfotografie-Missionen
PhotoFlow: Agentic 3D Virtual Photography Missions

May 22

ByJiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

Virtuelle Fotografie fordert einen Agenten auf, eine vorbereitete 3D-Szene ohne vorgewählte Kameraposition oder Referenzbild zu betreten, eine geeignete Aufnahme aus Szeneninformationen und einer sprachlichen Absicht abzuleiten, ausführbare Kameraparameter zu wählen und das endgültige Foto zu rendern. Jüngste Fortschritte bei Vision-Language-Modellen machen diese Art von räumlichem Agenten zunehmend plausibel, doch die Aufgabe stellt zwei Fähigkeiten auf die Probe, die nach wie vor schwer gemeinsam zu bewerten sind: komplexes räumliches Verständnis in 3D und abstraktes ästhetisches Urteilsvermögen. Wir stellen PhotoFlow vor, einen Director-Reviewer-Reflector-Agenten für die Kamerasuche mit geschlossenem Regelkreis. Der Director erstellt eine weiche fotografische Blaupause und schlägt vielfältige Kamerakandidaten vor; der Reviewer kombiniert Regelprüfungen, visuelle Kritik und paarweise Auswahl des aktuellen Besten; und der Reflector wandelt Misserfolge in Bereichsspeicher, Totzonenunterdrückung und hoch-explorative Neupositionierung um. Wir führen außerdem VPhotoBench ein, einen Benchmark mit 47 lizenzfreien Blender-Szenen und 141 sprachgesteuerten Fotografieaufgaben, die Subjektplatzierung, relationale Komposition und Atmosphäre/Stil abdecken. In separaten Experimenten erzielt PhotoFlow bei einem Rendering-Budget von sechs Runden den stärksten externen Qualitäts-Ausrichtungs-Verbund und die höchste Erfolgsrate im Vergleich zu Einzelbildvorhersage, Einzelkettenreflexion, Ankerbank-Auswahl und zufälliger Suche. Unseres Wissens nach ist dies die erste Arbeit, die sprachgesteuerte virtuelle Fotografie in beliebigen Blender-Szenen als ausführbare Agentenaufgabe etabliert, und unsere Ergebnisse zeigen, dass ein LLM-zentrierter räumlicher Agent bereits in einem Umfeld, das sowohl 3D-Schlussfolgerung als auch ästhetische Wahl herausfordert, überzeugende Fotos erzeugen kann.

VGenST-Bench: Ein Benchmark für räumlich-zeitliches Denken durch aktive Videosynthese
VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

May 21

ByJinho Park, Youbin Kim, Hogun Park, Eunbyung Park

Räumlich-zeitliches Denken ist eine Kernfähigkeit für multimodale große Sprachmodelle (MLLMs), die in der realen Welt operieren. Dementsprechend stellt die präzise Evaluierung dieser Fähigkeit eine wesentliche Herausforderung dar. Bestehende Benchmark-Datensätze zum räumlich-zeitlichen Denken basieren jedoch vorwiegend auf statischen Bildsätzen oder passiv kuratierten Videodaten, was die Evaluierung von feingranularen Denkfähigkeiten einschränkt. In dieser Arbeit stellen wir VGenST-Bench vor, einen Video-Benchmark, der generative Modelle nutzt, um aktiv hochgradig kontrollierte und vielfältige Evaluierungsszenarien zu synthetisieren. Zur Konstruktion von VGenST-Bench schlagen wir eine Multi-Agenten-Pipeline vor, die eine menschliche Qualitätskontrollstufe integriert, um die Qualität aller generierten Videos und QA-Paare sicherzustellen. Wir etablieren eine umfassende 3x2x2-Video-Taxonomie, die räumliche Skala, Perspektive und Szenendynamik umfasst, um ein breites Spektrum an Szenarien abzudecken. Darüber hinaus entwerfen wir eine hierarchische Aufgabenreihe, die die visuelle Wahrnehmung auf niedriger Ebene vom räumlich-zeitlichen Denken auf hoher Ebene entkoppelt. Durch die Verschiebung des Paradigmas von passiver Kuratierung hin zu aktiver Synthese ermöglicht VGenST-Bench eine feingranulare Diagnose des räumlich-zeitlichen Verständnisses in MLLMs.

RankE: Ende-zu-Ende-Post-Training für diskrete Text-zu-Bild-Generierung mit Decoder-Koevolution
RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

May 20

BySiyong Jian, Siyuan Li, Luyuan Zhang, Zedong Wang, Xin Jin, Ying Li, Cheng Tan, Huan Wang

Diskrete autoregressive (AR) Text-zu-Bild (T2I) Modelle kombinieren einen VQ-Tokenizer mit einer AR-Policy. Aktuelle Post-Training-Pipelines optimieren lediglich die Policy, während der VQ-Dekoder eingefroren bleibt. Neuere Arbeiten zu Diffusions-T2I-Modellen, exemplarisch REPA-E, haben gezeigt, dass das VAE selbst einen zentralen Ausrichtungsengpass darstellt – eine vergleichbare Untersuchung für diskrete AR-Modelle existiert jedoch nicht. Wir zeigen, dass eine reine Policy-Optimierung einen latenten Kovariatenshift induziert: Während sich die Policy weiterentwickelt, weicht die resultierende Tokenverteilung von der Ground-Truth-Verteilung ab, auf der der Dekoder trainiert wurde. Dies führt dazu, dass die Belohnungswerte steigen, während die decodierte Bildqualität abnimmt. Um dieses Missverhältnis zu beheben, schlagen wir RankE vor – das erste End-to-End-Post-Training-Framework für diskrete T2I-Generierung. Anstatt die Policy gegen einen fixierten Dekoder zu optimieren, ko-evolviert RankE beide Komponenten durch eine alternierende Optimierung: Jedes Modul maximiert ein rankingbasiertes Ausrichtungsziel, während es durch einen für seinen Parameterraum geeigneten Stabilitätsanker regularisiert wird. Diese Ko-Evolution durchbricht den Treue-Ausrichtungs-Kompromiss, der Ansätze mit eingefrorenem Dekoder plagt: Bei LlamaGen-XL (775M) verbessert standardmäßiges RL zwar CLIP, verschlechtert jedoch den FID, während RankE beide Metriken gleichzeitig verbessert (FID 15,21, CLIP 33,76 auf MS-COCO 30K). Konsistente Verbesserungen bei Janus-Pro (1B) bestätigen, dass die Dekoder-Ko-Evolution zuverlässig die Belohnungsoptimierung in Qualitätssteigerungen im Pixelraum übersetzt.

ETCHR: Bearbeiten zur Klärung und Nutzung von Schlussfolgerungen
ETCHR: Editing To Clarify and Harness Reasoning

May 22

ByBeichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin

Multimodale große Sprachmodelle haben das visuelle Denken vorangebracht, doch eine rein textuelle Gedankenkette bleibt für Fragen, die eine feinkörnige Fokussierung oder Ansichtstransformationen erfordern, ein Engpass. Das Paradigma des „Denkens mit Bildern“ verringert diese Lücke, aber bestehende Ansätze sind entweder durch fest vordefinierte Werkzeugsätze eingeschränkt oder erzeugen verrauschte Zwischenbilder aus einheitlichen multimodalen Methoden. Wir verfolgen eine dritte Option: die Verwendung eines dedizierten Bildbearbeitungsmodells und dessen Entkopplung von einem Verständnismodell. Allerdings versagen handelsübliche Bildeditoren als Denkassistenten aufgrund zweier sich ergänzender Lücken: einer sprachseitigen Lücke, bei der als passive Befehlsbefolger trainierte Editoren eine abstrakte Frage nicht auf eine geeignete visuelle Transformation abbilden können, sowie einer erzeugungsseitigen Lücke, bei der die Korrektheit der Bearbeitung mit zunehmender Denktiefe nachlässt. Ausgehend von dieser Analyse stellen wir ETCHR (Editing To Clarify and Harness Reasoning – Bearbeitung zur Klärung und Nutzung des Denkens) vor, einen fragestellungsabhängigen, denkbewussten Bildeditor, der vom nachgeschalteten Verständnismodell entkoppelt ist und mit einem auf die beiden Lücken ausgerichteten zweistufigen Rezept trainiert wird: Nachahmung des Denkens durch überwachtes Feintuning auf Bearbeitungspfaden, gefolgt von Verbesserung des Denkens mit aus VLMs abgeleiteten Belohnungen für die Korrektheit der Bearbeitung und die Genauigkeit des nachgeschalteten Denkens. Da der Editor entkoppelt ist, lässt sich ETCHR trainingsfrei in verschiedene Open- und Closed-Source-MLLMs einbinden. Über fünf Aufgabenfamilien hinweg (feinkörnige Wahrnehmung, Diagrammverständnis, logisches Denken, Puzzle-Wiederherstellung und 3D-Verständnis) verbessert ETCHR den durchschnittlichen Pass@1 von 55,95 auf 60,77 (+4,82) mit Qwen3-VL-8B, von 65,08 auf 70,55 (+5,47) mit Gemini-3.1-Flash-Lite und von 76,55 auf 81,16 (+4,61) mit dem 1T-Parameter-MoE-Modell Kimi K2.5.

SCOPE: Simulation von spielübergreifenden Operationen in spielbaren Umgebungen für FPS-Weltmodelle
SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

May 22

ByZizhao Tong, Hongfeng Lai, Zeqing Wang, Zhaohu Xing, Kexu Cheng, Haoran Xu, Zhao Pu, Shangwen Zhu, Ruili Feng, Jian Zhao, Yan Zhang, Hao Tang, Yeying Jin, Ling Shao

Interaktive Weltmodelle für Ego-Shooter-Spiele (FPS) müssen in jedem Frame hochfrequente, überlappende Steuersignale auflösen, ohne unbeeinflusste Regionen zu stören. Bisherige Methoden injizieren Aktionen global und trainieren auf einzelnen Titeln, was bei dichten FPS-Eingaben versagt. Wir beobachten, dass FPS-Aktionen räumlich selektiv sind: diskrete Ereignisse wie Schießen oder Nachladen betreffen nur einen lokalisierten Bereich um die Waffe (den Sichtbereich), während kontinuierliche Kamera- und Bewegungssteuerungen stabile Umgebungen lenken. Wir schlagen SCOPE vor, das ein Konditionierungsmodul in jeden Transformer-Block eines vortrainierten Video-Diffusionsmodells einfügt. Es formt Merkmale in pixelweise zeitliche Sequenzen um, sodass jede Position ihre Aktionsantwort aus dem lokalen visuellen Inhalt berechnet. Dies trennt Effekte innerhalb des Sichtbereichs von der Generierung außerhalb, ohne Segmentierungsbeschriftungen. Wir führen außerdem CrossFPS ein, den ersten spielübergreifenden FPS-Datensatz mit frame-synchroner Aktions-Telemetrie. Er umfasst 69.000 Clips aus 7 Titeln mit 10-Freiheitsgrad-Steuersignalen, kuratiert, um Gameplay-Verzerrungen zu vermeiden. Das Modell erlernt allgemeine visuell-zu-Aktions-Zuordnungen statt spielspezifischer Muster und ermöglicht so Zero-Shot-Transfer auf unbekannte Szenen. Experimente bestätigen hohe Aktionsreaktionsfähigkeit, präzise Trennung des Sichtbereichs und effektive spielübergreifende Generalisierung.

LLMs als verrauschte Kanäle: Eine Shannon-Perspektive auf Modellkapazität und Skalierungsgesetze
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22

ByXu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

Existierende Skalierungsgesetze für Große Sprachmodelle (Large Language Models, LLMs), die überwiegend monotone Potenzgesetze sind, können nicht-monotone Phänomene wie katastrophales Übertraining und quantisierungsbedingte Verschlechterung nicht erklären, bei denen die Leistung trotz erhöhter Rechenleistung abnimmt. Wir schlagen das Shannon-Skalierungsgesetz vor, einen einheitlichen theoretischen Rahmen, der das Training von LLMs als Informationsübertragung über einen verrauschten Kanal modelliert, basierend auf dem Shannon-Hartley-Theorem. Durch die Abbildung von Modellparametern auf die Kanalbandbreite und Trainings-Token auf die Signalleistung erfasst unsere Formulierung explizit die Wechselwirkung zwischen Lernsignal und intrinsischem Rauschen. Diese Perspektive offenbart eine grundlegende Shannon-Kapazität für LLMs: Das Skalieren der Modellgröße oder der Daten ohne ausreichendes Signal-Rausch-Verhältnis (SNR) verstärkt unweigerlich das Rauschen und induziert einen Übergang von monotoner Verbesserung zu einer U-förmigen Leistungsverschlechterung. Wir validieren unsere Theorie durch Experimente mit Pythia und OLMo2 unter Störungen, darunter gaußsches Rauschen, Quantisierung und überwachtes Feintuning bei Mathematik-, Frage-Antwort- und Code-Aufgaben. Das Shannon-Skalierungsgesetz übertrifft durchgängig klassische Skalierungsgesetze und aktuelle störungsbewusste Gesetze, erzielt hohe R²-Werte und erfasst präzise Verlusttäler, die von früheren Ansätzen übersehen wurden. Es extrapoliert zudem: Angepasst an Pythia-Modelle ≤6,9B mit ≤180B Token sagt es das ungesehene 12B-Modell bis zu 307B Token mit einem gepoolten R²=0,847 voraus, während monotone Basislinien versagen.

Vom Sehen zum Denken: Entkopplung von Wahrnehmung und logischem Denken verbessert das Post-Training von Vision-Language-Modellen
From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

May 19

ByJuncheng Wu, Hardy Chen, Haoqin Tu, Xianfeng Tang, Freda Shi, Hui Liu, Hanqing Lu, Cihang Xie, Yuyin Zhou

Jüngste Fortschritte bei visuellen Sprachmodellen (VLMs) legen den Schwerpunkt auf lange Ketten-Denkprozesse; dennoch stellen wir fest, dass ihre Leistung bei visuellen Aufgaben in erster Linie durch mangelnde visuelle Wahrnehmung und nicht durch das Denken selbst eingeschränkt wird. In dieser Arbeit untersuchen wir systematisch das Zusammenspiel von Wahrnehmung und Denken beim Nachtraining von VLMs, indem wir ihre Fähigkeiten in drei separate Trainingsphasen aufteilen: visuelle Wahrnehmung, visuelles Denken und textbasiertes Denken, jeweils mit spezialisierten Trainingsdaten. Wir zeigen, dass visuelle Wahrnehmung (a) eine gezielte Optimierung mit speziellen Daten erfordert; (b) als grundlegendes Gerüst dient, das durch gestuftes Training gefestigt werden sollte, bevor das visuelle Denken verfeinert wird; und (c) effektiver durch Reinforcement Learning als durch captionsbasiertes SFT erlernt wird. Unsere Experimente mit mehreren VLMs zeigen, dass gestuftes Training konsistent sowohl die visuelle Wahrnehmung als auch die Denkleistung im Vergleich zu zusammengelegtem Training verbessert. Bemerkenswerterweise erreichen mit unserem Ansatz trainierte Modelle eine um 1,5 % höhere Denkgenauigkeit bei gleichzeitig 20,8 % kürzeren Denkspuren, was darauf hindeutet, dass eine bessere Wahrnehmung den Bedarf an übermäßigem Denken reduziert. Darüber hinaus zeigen wir, dass diese fähigkeitsbasierte Stufung eine neue Curriculum-Dimension darstellt, die orthogonal zu traditionellen schwierigkeitsbasierten Curricula ist, und dass die Kombination beider zusätzliche additive Gewinne bringt. Unsere gestuft trainierten Modelle erzielen eine überlegene Leistung unter VLMs mit offenen Gewichten und etablieren fortgeschrittene Ergebnisse bei mehreren visuellen Mathe- und Wahrnehmungsaufgaben (z. B. +5,2 % bei WeMath und +3,7 % bei RealWorldQA) im Vergleich zum Basis-Pendant.

Geo-Align: Ausrichtung der Videoerzeugung mittels metrischer Geometriebelohnung
Geo-Align: Video Generation Alignment via Metric Geometry Reward

May 22

ByZizun Li, Haoyu Guo, Runzhe Teng, Chunhua Shen, Tong He

Kameragesteuerte Videogenerierung hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings basieren bestehende Methoden zur Video-zu-Video-Neuberechnung hauptsächlich auf überwachtem Feintuning unter Verwendung synthetischer Datensätze. Derzeit herrscht ein extremer Mangel an synchronisierten Echtwelt-Videodaten mit mehreren Ansichten. Infolgedessen zeigt das vorherrschende Paradigma oft eine eingeschränkte Generalisierung bei der Verarbeitung von Echtweltvideos außerhalb der Verteilung, wobei Modelle Schwierigkeiten haben, physikalische Skalen und Kameratrajektorien genau einzuhalten. Um diese Lücke zu schließen, schlagen wir Geo-Align vor, das erste Reinforcement-Learning-Framework, das speziell für die kameragesteuerte Videoneuberechnung entwickelt wurde. Aufbauend auf einem vortrainierten Modell optimieren wir das Modell durch einen skalierungsbewussten wahrnehmungsbasierten Belohnungsmechanismus. Konkret führen wir einen metrischen 3D-Schätzer ein, um präzise Kameratrajektorien aus generierten Videos zu extrahieren, der explizit Abweichungen in Rotation und Translation bestraft. Darüber hinaus haben wir sorgfältig eine Datenpipelinestrategie entwickelt, die auf konditionierenden Echtweltvideos und aus synthetischen Daten abgeleiteten Zielkameratrajektorien basiert, wodurch die Abhängigkeit von gepaarten Daten entfällt. Umfangreiche Experimente zeigen, dass Geo-Align bestehende überwachte Lernbasislinien sowohl in der präzisen Kamerasteuerbarkeit als auch in der visuellen Wiedergabetreue konsequent übertrifft, was die Wirksamkeit unserer Methode belegt.

Neubetrachtung von Muon jenseits des Vortrainings: Spektrale Fehler und Hochpass-Lösungen für VLA und RLVR
Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

May 19

ByChongyu Fan, Gaowen Liu, Mingyi Hong, Ramana Rao Kompella, Sijia Liu

Muon ist ein matrixbewusster Optimierer, der Newton-Schulz (NS)-Iterationen nutzt, um eine spektrale Gradientenorthogonalisierung zu erzwingen, indem alle Singulärwerte der Momentum-Matrix in Richtung 1 getrieben werden. Während dieses gleichmäßige spektrale Whitening die Exploration verbessert und AdamW beim LLM-Pretraining übertrifft, zeigen wir, dass es in zwei Bereichen über das Pretraining hinaus zu grundlegenden Einschränkungen führen kann: (i) modusübergreifendes Vision-Language-Action (VLA)-Training, bei dem inhärent niedrigrangige Gradienten des Aktionsmoduls eine Verstärkung verrauschter Ausläuferrichtungen verursachen, und (ii) Verstärkungslernen mit verifizierbaren Belohnungen (RLVR), bei dem Gradienten mit niedrigem SNR und die Notwendigkeit, die kopfweise Spezialisierung aus vorherigem Training zu bewahren, das Whitening instabil machen. Um diese Herausforderungen zu bewältigen, schlagen wir Pion vor, einen Drop-in-Ersatz für Muon, der dessen Recheneffizienz beibehält, während das gleichmäßige spektrale Whitening durch einen zweistufigen Promotion+Suppression-Mechanismus ersetzt wird, den wir Hochpass-NS-Iteration nennen. Dieses Design erzeugt einen scharfen spektralen Hochpasseffekt, der dominante Singulärwerte bei 1 verankert, während verrauschte Ausläuferkomponenten in Richtung 0 unterdrückt werden, mit kontrollierbarer Filterstärke. Um die vortrainierte kopfweise Heterogenität zu bewahren, unterstützt Pion auch einen Kopfmodus, der Aktualisierungen unabhängig über Aufmerksamkeitsköpfe hinweg durch eine einfache Umformung anwendet, ohne zusätzliche Kosten. Im VLA-Training auf LIBERO und LIBERO-Plus übertrifft Pion durchgängig beide Basislinien sowohl bei l_1-Regressions- (VLA-Adapter) als auch bei Flow-Matching-Architekturen (VLANeXt), z. B. erreicht es nach 1500 Trainingsschritten mit VLA-Adapter eine Erfolgsrate von 100 % auf LIBERO Object, gegenüber 97,0 % für Muon und nur 32,2 % für AdamW. Der Vorteil von Pion erstreckt sich weiterhin auf einen echten Franka Research 3 Roboter mit einem pi_0.5-Backbone unter dem DROID-Aufbau bei drei Greif- und Platzierungsaufgaben. Im RLVR-Posttraining auf Qwen3-1.7B/4B mit GRPO und GMPO übertrifft Pion ebenfalls AdamW auf MATH und GSM8K, während Muon auf Null zusammenbricht.

GenRecon: Verbindung generativer Priors für die Mehransichts-3D-Szenenrekonstruktion
GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

May 22

ByKatharina Schmid, Nicolas von Lützow, Jozef Hladký, Angela Dai, Matthias Nießner

Wir stellen einen neuen Ansatz zur hochgetreuen 3D-Szenenrekonstruktion aus Multi-View-RGB-Bildern vor, der die Rekonstruktion eng mit einem starken generativen 3D-Vorwissen koppelt. Wir betrachten die Szenenrekonstruktion als bedingte 3D-Generierung über eine Menge räumlich lokalisierter, überlappender Abschnitte, die gemeinsam die Szene kacheln, und skalieren so die Generierung auf große Szenenausdehnungen. Entscheidend ist, dass wir die Genauigkeit und Vollständigkeit modernster generativer Formmodelle übernehmen – wir verwenden Trellis.2 als Beispiel – und diese auf die Szenenebene verallgemeinern. Zu diesem Zweck schlagen wir einen projektionsbasierten Konditionierungsmechanismus vor, der posierte Multi-View-Bildmerkmale in eine kohärente, mit dem generativen Modell ausgerichtete 3D-Repräsentation hebt, unabhängig von der Ansichtsreihenfolge und räumlich in der Szene verankert, was zu einer hochgetreuen, multi-view-konsistenten generierten Geometrie führt. Dies ermöglicht es, das starke objektebenenspezifische Vorwissen von Trellis.2 auf die Multi-View-Szenenskala zu heben und treue, bearbeitbare PBR-Netzrekonstruktionen von Innenraumumgebungen zu erzeugen. Dadurch erzielen wir hochpräzise Ergebnisse, die hochmoderne Rekonstruktionsmethoden um 16 % übertreffen.

LatentUMM: Duale latente Ausrichtung für einheitliche multimodale Modelle
LatentUMM: Dual Latent Alignment for Unified Multimodal Models

May 18

ByYinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang

Vereinheitlichte multimodale Modelle (UMMs) erzielen durch das Lernen eines gemeinsamen latenten Raums sowohl im Verständnis als auch in der Generierung hohe Leistung, weisen jedoch häufig funktionale Inkonsistenzen zwischen diesen beiden Fähigkeiten auf. Wir beobachten, dass dieses Problem nicht auf fehlende gemeinsame Repräsentationen zurückzuführen ist, sondern auf das Fehlen einer expliziten Abstimmung zwischen den Transformationen, die in den latenten Raum hinein und aus ihm heraus abbilden. Infolgedessen können Generierung und erneute Kodierung inkonsistenten Trajektorien folgen, was bei Modalitätsübergängen zu semantischer Drift führt. In dieser Arbeit schlagen wir LatentUMM vor, ein Framework, das einen erweiterten gemeinsamen latenten Raum konstruiert, um diese Transformationen explizit abzustimmen und die cross-modale Konsistenz zu verbessern. LatentUMM besteht aus zwei Phasen. Erstens wird durch eine duale latente Abstimmung Konsistenz sowohl auf Modalitäts- als auch auf Kapazitätsebene erzwungen: Cross-modale Abstimmung verwendet ein stärkeres Einbettungsmodell, um strukturierte cross-modale Semantik aufzuerlegen, während eine duale Kapazitätsabstimmung bidirektionale Konsistenz unter Generierung und erneuter Kodierung erzwingt. Zweitens verbessert die Stabilisierung der latenten Dynamik die Robustheit durch stochastische latente Rollouts und Präferenzoptimierung, wobei Trajektorien bevorzugt werden, die die semantische Konsistenz besser bewahren. Experimente zeigen, dass LatentUMM die multimodale Konsistenz in verschiedenen Architekturen konsistent verbessert. Der Code ist verfügbar unter: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM

Gute Token-Jagd: Ein Anhalter-Leitfaden zur Token-Auswahl für Visuelle Geometrie-Transformer
Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers

May 22

ByShuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski

Visuelle Geometrie-Transformer haben sich zu leistungsstarken Architekturen für die Multi-View-3D-Rekonstruktion entwickelt, die eine gemeinsame Vorhersage mehrerer 3D-Attribute in einer Feed-Forward-Weise ermöglichen. Allerdings wachsen ihre Rechenkosten aufgrund der globalen Aufmerksamkeitsschichten innerhalb dieser Modelle quadratisch mit der Länge der Eingabesequenz. Dies schränkt sowohl ihre Skalierbarkeit als auch ihre Effizienz ein. In dieser Arbeit begegnen wir dieser Herausforderung mit einer einfachen, aber allgemeinen Strategie: der Beschränkung der Anzahl von Schlüssel-/Wert-Token, mit denen jeder Query während der globalen Aufmerksamkeit interagiert. Um eine effektive Tokenauswahl zu erreichen, führen wir ein zweistufiges Framework ein. Zunächst erfolgt ein frameübergreifender Auswahlschritt auf Frame-Ebene, um Frames zu identifizieren, die beibehalten werden sollten. Zweitens verwirft ein innerframe Selektion Schritt innerhalb der ausgewählten Frames weitere redundante Token. Unsere Analyse unterstreicht den Vorteil einer diversitätsbasierten Strategie für die frameübergreifende Auswahl, die eine breite Abdeckung der Szene gewährleistet. Für die innerframe Selektion zeigen wir, dass eine schichtbewusste Ausdünnung notwendig ist, wobei der Auswahlprozess durch die Entropie des globalen Aufmerksamkeitsmusters geleitet wird. Unser Ansatz bietet einen überlegenen Geschwindigkeits-Genauigkeits-Kompromiss im Vergleich zu bestehenden Lösungen. Umfangreiche Experimente zeigen, dass er visuelle Geometrie-Transformer für Szenen mit 500 Bildern um über 85% beschleunigt, während die Basisleistung beibehalten oder sogar verbessert wird, was darauf hindeutet, dass unsere Token-Auswahlstrategie in zukünftigen Anwendungen visueller Geometrie-Transformer eine entscheidende Rolle spielen kann. Unsere Projektwebsite ist verfügbar unter https://zsh2000.github.io/good-token-hunting.github.io.

Die Kosten des Sehens: Vertrauenswürdiges multimodales Schließen im monolithischen Paradigma erreichen
The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

May 21

ByKaran Goyal

Die rasante Verbreitung von Vision-Language-Modellen (VLMs) wird oft als Ermöglichung einer einheitlichen multimodalen Wissensentdeckung dargestellt, beruht jedoch auf einer kaum untersuchten Annahme: dass aktuelle VLMs multimodale Daten getreu synthetisieren. Wir argumentieren, dass sie dies häufig nicht tun, und diese Lücke ein Problem der Vertrauenswürdigkeit im vorherrschenden Paradigma des Vision-Encoder-Projektor-LLM widerspiegelt. Statt fundiertes Wissen aus visuellen Eingaben zu extrahieren, weisen hochmoderne Modelle häufig eine funktionale Blindheit auf, d. h., sie nutzen starke Sprachpriors aus, um schwerwiegende Engpässe der visuellen Repräsentation zu umgehen. In dieser Arbeit stellen wir die konventionelle Methodik der multimodalen Evaluation in Frage, die auf Datenablation oder der Erstellung neuer Datensätze beruht und daher Datensatzverzerrungen mit architektonischer Unfähigkeit vermengt. Wir schlagen einen informationstheoretischen Neuansatz vor: das Modalitätsübersetzungsprotokoll, das darauf ausgelegt ist, zu quantifizieren, was wir die Kosten des Sehens nennen. Indem wir semantische Lasten übersetzen statt sie zu ablieren, formulieren wir drei neuartige Metriken – die Gebühr (ToS), den Fluch (CoS) und den Trugschluss (FoS) des Sehens –, die im semantischen Suffizienzkriterium (SSC) gipfeln. Darüber hinaus stellen wir die Hypothese eines Divergenzgesetzes des multimodalen Skalierens auf: Wenn die zugrunde liegenden Sprach-Engines auf beispiellose Reasoning-Fähigkeiten skaliert werden, könnte die Strafe des visuellen Wissensengpasses zunehmen statt abnehmen. Wir argumentieren, dass die Community über den „multimodalen Gewinn“ als primäres Evaluationsziel hinausgehen sollte. Indem wir das SSC von einer passiven diagnostischen Einschränkung zu einem aktiven architektonischen Bauplan erheben, schaffen wir eine Grundlage, um die nächste Generation von KI-Systemen hin zu echtem multimodalen Reasoning zu führen.

HINT-SD: Gezielte Rückschau-Selbstdestillation für Agenten mit langem Zeithorizont
HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

May 18

ByWoongyeng Yeo, Yumin Choi, Taekyung Ki, Sung Ju Hwang

Das Training von LLM-Agenten für langfristige Aufgaben mit verstärkendem Lernen ist herausfordernd, da spärliche Ergebnisbelohnungen zwar anzeigen, ob eine Aufgabe erfolgreich ist, aber nicht, welche Zwischenaktionen zum Ergebnis geführt haben oder wie sie korrigiert werden sollten. Neuere Methoden mildern dieses Problem, indem sie Belohnungen oder textuelle Hinweise aus schrittweisen Aktions-Output-Signalen erzeugen oder durch feedback-konditionierte Selbstdestillation. Allerdings ist das Erzeugen von Feedback bei jedem Schritt ineffizient, wenn viele Zwischenschritte bereits erfolgreich oder neutral sind, und die Anwendung von Feedback auf einen festen oder falsch ausgerichteten Schritt führt oft dazu, dass die Aktionen, die zum Scheitern beigetragen haben, nicht überwacht werden. Um diese Lücke zu schließen, schlagen wir HINT-SD vor, ein gezieltes Selbstdestillations-Framework, das durch Rückblick auf die gesamte Trajektorie fehlerrelevante Aktionen auswählt und feedback-konditionierte Destillation nur auf gezielten Aktionsspannen anwendet. Experimente auf BFCL v3 und AppWorld zeigen, dass unsere Methode den dichten, schrittweisen Feedback-Baseline um bis zu 18,80 % übertrifft und dabei eine 2,26-fach geringere Zeit pro Trainingsschritt erreicht, was darauf hindeutet, dass die Auswahl der Destillationsstellen ein Schlüsselfaktor für ein sowohl effektives als auch effizientes langfristiges Agententraining ist.

Die Illusion des logischen Denkens: Aufdeckung von verdeckter Datenkontamination in LLMs mittels Zero-CoT-Truncation
The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

May 21

ByYifan Lan, Yuanpu Cao, Hanyu Wang, Lu Lin, Jinghui Chen

Große Sprachmodelle (LLMs) haben beeindruckende Argumentationsfähigkeiten bei einer Vielzahl von Aufgaben gezeigt, aber Datenkontamination untergräbt die objektive Bewertung dieser Fähigkeiten. Dieses Problem wird durch böswillige Modellherausgeber weiter verschärft, die ausweichende bzw. indirekte Kontaminationsstrategien anwenden, wie das Paraphrasieren von Benchmark-Daten, um bestehende Erkennungsmethoden zu umgehen und die Leistung auf Ranglisten künstlich zu steigern. Aktuelle Ansätze haben Schwierigkeiten, eine solch heimliche Kontamination zuverlässig zu erkennen. In dieser Arbeit decken wir ein kritisches Phänomen auf: Die von einem Modell generierten Argumentationsschritte maskieren aktiv dessen zugrunde liegende Memorierung. Inspiriert davon schlagen wir die Zero-CoT Probe (ZCP) vor, eine neuartige Black-Box-Erkennungsmethode, die bewusst den gesamten Chain-of-Thought (CoT)-Prozess abschneidet, um latente Abkürzungszuordnungen aufzudecken. Um die Memorierung weiter von den inhärenten Problemlösungsfähigkeiten des Modells zu isolieren, vergleicht ZCP die Zero-CoT-Leistung des Modells auf dem ursprünglichen Benchmark mit einem isomorph gestörten Referenzdatensatz. Darüber hinaus führen wir das Kontaminationsvertrauen (Contamination Confidence) ein, eine Metrik, die sowohl die Wahrscheinlichkeit als auch den Schweregrad einer Kontamination quantifiziert und damit über einfache binäre Klassifikationen hinausgeht. Umfangreiche Experimente an sowohl zuvor identifizierten kontaminierten Modellen als auch speziell feinabgestimmten kontaminierten Modellen zeigen, dass ZCP sowohl direkte als auch ausweichende Datenkontamination robust erkennt. Der Code für ZCP ist unter https://github.com/Yifan-Lan/zero-cot-probe zugänglich.

Gleichgewichts-Reasoner: Das Lernen von Attraktoren ermöglicht skalierbares Schlussfolgern
Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

May 20

ByBenhao Huang, Zhengyang Geng, Zico Kolter

Die Skalierung der Testzeitberechnung durch iterative Aktualisierung eines latenten Zustands hat sich als leistungsfähiges Paradigma für das Schlussfolgern erwiesen. Dennoch bleiben die internen Mechanismen, die es diesen iterativen Modellen ermöglichen, über auswendig gelernte Muster hinaus zu generalisieren, unklar. Wir stellen die Hypothese auf, dass verallgemeinerbares Schlussfolgern aus dem Erlernen aufgabenbedingter Attraktoren entsteht: latente dynamische Systeme, deren stabile Fixpunkte gültigen Lösungen entsprechen. Wir formalisieren diesen Prozess durch Equilibrium Reasoners (EqR), die eine Testzeitskalierung ohne externe Verifizierer oder aufgabenspezifische Priors ermöglichen. EqR skaliert die interne Dynamik entlang zweier Achsen: Tiefe, durch Ausführen weiterer Iterationen, und Breite, durch Aggregation stochastischer Trajektorien aus mehreren Initialisierungen. Empirisch sind die Gewinne aus der Testzeitskalierung eng mit einer stärkeren Konvergenz zu lösungsorientierten Attraktoren verbunden. Diese Attraktorperspektive ermöglicht es neuronalen Netzen, Testzeitberechnung basierend auf der Aufgabenschwierigkeit adaptiv zuzuteilen. Während einfache Fälle innerhalb von 1 bis 5 Iterationsschritten konvergieren, profitieren schwierigere Fälle von massiver Testzeitskalierung. Durch das Aufrollen bis zu einem Äquivalent von 40.000 Schichten steigert skalierbares latentes Schlussfolgern die Genauigkeit von 2,6 % bei Feedforward-Modellen auf über 99 % bei Sudoku-Extreme. Diese Ergebnisse legen nahe, dass gelernte Attraktorlandschaften eine nützliche mechanistische Linse zum Verständnis skalierbaren Schlussfolgerns in iterativen latenten Modellen bieten.

Vorhersage der nächsten Beschleunigungsstufe für autoregressive MRT-Rekonstruktion
Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction

May 21

ByYilmaz Korkmaz, Vishal M. Patel

Die MRT-Rekonstruktion ist ein inhärent schlecht gestelltes inverses Problem, da unvollständige Messungen viele plausible Lösungen zulassen. Diese Mehrdeutigkeit wird unter hoher Beschleunigung noch gravierender, da kontinuierliche Prädiktoren in der Pixelebene dazu neigen, über mögliche Rekonstruktionen zu mitteln und hochfrequente anatomische Details zu unterdrücken. Wir beheben diese Einschränkung, indem wir die Rekonstruktion in einen diskreten mehrskaligen latenten Raum verlagern und sie als autoregressive Vorhersage der nächsten Beschleunigungsstufe formulieren. Durch die Nutzung diskreter Priors, die sich in der visuellen autoregressiven Modellierung als effektiv erwiesen haben, schränkt unsere Methode die Lösung auf kompakte Sequenzen von Codebuch-Tokens ein, was scharfe Rekonstruktionen selbst aus extrem spärlichen Messungen ermöglicht. Diese diskrete autoregressive Formulierung fügt sich zudem natürlich in moderne Post-Training-Techniken großer Sprachmodelle ein. Aufbauend auf dieser Beobachtung führen wir die On-Policy-Privileged-Information-Distillation für die visuelle autoregressive Modellierung ein, bei der einem Lehrer während des Trainings ausschließlich privilegierter Kontext zur Verfügung gestellt wird, der zur Inferenzzeit nicht verfügbar ist – in unserem Fall vollständig abgetastete Akquisitionen – und der einen Schüler überwacht, der auf seinen eigenen Rollouts trainiert wird, was zu konsistenten Verbesserungen der Rekonstruktion führt. Durch umfangreiche Experimente auf dem fastMRI-Benchmark zeigen wir, dass unser Ansatz bei extremer Unterabtastung über verschiedene Abtastmuster hinweg eine verbesserte Rekonstruktionsleistung erbringt. Die Projektwebsite ist https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}.