papers.title

papers.description

Kling-Omni Technischer Bericht
Kling-Omni Technical Report

Dec 18

ByKling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu

122

Wir stellen Kling-Omni vor, ein generalistisches generatives Framework, das darauf ausgelegt ist, hochwertige Videos direkt aus multimodalen visuell-sprachlichen Eingaben zu synthetisieren. Aus einer End-to-End-Perspektive heraus überbrückt Kling-Omni die funktionale Trennung zwischen verschiedenen Aufgaben der Videogenerierung, -bearbeitung und intelligenten Schlussfolgerung und integriert sie in ein ganzheitliches System. Im Gegensatz zu fragmentierten Pipeline-Ansätzen unterstützt Kling-Omni eine Vielzahl von Benutzereingaben, einschließlich Textanweisungen, Referenzbildern und Videokontexten, verarbeitet diese zu einer einheitlichen multimodalen Repräsentation und ermöglicht so die Erstellung von Videoinhalten in Kinoqualität mit hoher Intelligenz. Um diese Fähigkeiten zu unterstützen, haben wir ein umfassendes Datensystem aufgebaut, das die Grundlage für multimodale Videocreation bildet. Das Framework wird weiter gestärkt durch effiziente Strategien für groß angelegtes Pre-Training und Infrastrukturoptimierungen für die Inferenz. Umfassende Evaluierungen zeigen, dass Kling-Omni außergewöhnliche Fähigkeiten bei der Kontextgenerierung, der reasoning-basierten Bearbeitung und der Befolgung multimodaler Anweisungen demonstriert. Über ein reines Content-Erstellungswerkzeug hinaus glauben wir, dass Kling-Omni einen entscheidenden Fortschritt hin zu multimodalen Welt-Simulatoren darstellt, die in der Lage sind, dynamische und komplexe Welten wahrzunehmen, zu schlussfolgern, zu generieren und mit ihnen zu interagieren.

Adaptation agentiver KI
Adaptation of Agentic AI

Dec 18

ByPengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

Moderne agentenbasierte KI-Systeme basieren auf Fundamentmodellen, die dazu adaptiert werden können, zu planen, zu schlussfolgern und mit externen Werkzeugen zu interagieren, um zunehmend komplexere und spezialisierte Aufgaben auszuführen. Mit wachsender Fähigkeit und Reichweite dieser Systeme wird Adaption zu einem zentralen Mechanismus zur Verbesserung von Leistung, Zuverlässigkeit und Generalisierungsfähigkeit. In diesem Beitrag fassen wir die schnell wachsende Forschungslandschaft in einem systematischen Rahmen zusammen, der sowohl Agenten- als auch Werkzeugadaptionen umspannt. Wir unterteilen diese weiterhin in durch Werkzeugausführung signalisierte und durch Agentenausgabe signalisierte Formen der Agentenadaption sowie in agentenunabhängige und agentenüberwachte Formen der Werkzeugadaption. Wir zeigen, dass dieser Rahmenwerk das Designspektrum von Adaptionsstrategien in agentenbasierter KI klärt, ihre Kompromisse explizit macht und praktische Leitlinien für die Auswahl oder den Wechsel zwischen Strategien während des Systemdesigns bietet. Anschließend betrachten wir die repräsentativen Ansätze in jeder Kategorie, analysieren ihre Stärken und Grenzen und heben wichtige offene Herausforderungen und zukünftige Möglichkeiten hervor. Insgesamt zielt dieser Beitrag darauf ab, eine konzeptionelle Grundlage und eine praktische Roadmap für Forschende und Praktiker zu bieten, die bestrebt sind, leistungsfähigere, effizientere und zuverlässigere agentenbasierte KI-Systeme zu entwickeln.

LLaDA2.0: Skalierung von Diffusions-Sprachmodellen auf 100B
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

ByTiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang

Dieses Paper stellt LLaDA2.0 vor – ein Tupel von diskreten Diffusions-Großsprachmodellen (dLLM), die durch systematische Konvertierung von autoregressiven (AR) Modellen auf bis zu 100B Gesamtparameter skaliert werden und damit ein neues Paradigma für den Einsatz in der Frontier-Skala etablieren. Anstatt kostspieliges Training von Grund auf durchzuführen, bewahrt LLaDA2.0 Wissensvererbung, progressive Anpassung und effizienzbewusste Designprinzipien und konvertiert ein vortrainiertes AR-Modell nahtlos mittels eines neuartigen 3-Phasen-Trainingsschemas auf Basis von blockweiser WSD (Warm-Up, Stable, Decay) in ein dLLM: progressive Erhöhung der Blockgröße in der Blockdiffusion (Warm-Up), großskalige Vollsequenzdiffusion (Stable) und Rückkehr zur kompakten Blockdiffusion (Decay). Zusammen mit Post-Training-Alignment durch SFT und DPO erhalten wir LLaDA2.0-mini (16B) und LLaDA2.0-flash (100B), zwei instruktionsfeinabgestimmte Mixture-of-Experts (MoE)-Varianten, die für den praktischen Einsatz optimiert sind. Durch den Erhalt der Vorteile des parallelen Decodierens bieten diese Modelle überlegene Leistung und Effizienz in der Frontier-Skala. Beide Modelle wurden als Open Source veröffentlicht.

Next-Embedding-Vorhersage macht starke visuelle Lernmodelle
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

Angeregt durch die Erfolge des generativen Vorabtrainings im Bereich der natürlichen Sprache, stellen wir die Frage, ob dieselben Prinzipien auch starke selbstüberwachte visuelle Lernverfahren hervorbringen können. Anstatt Modelle so zu trainieren, dass sie Merkmale für die nachgelagerte Verwendung ausgeben, trainieren wir sie, um Einbettungen zu generieren, die direkt Vorhersageaufgaben durchführen. Diese Arbeit untersucht einen solchen Wechsel vom Erlernen von Repräsentationen zum Erlernen von Modellen. Konkret lernen Modelle, zukünftige Patch-Einbettungen auf der Grundlage vergangener Einbettungen vorherzusagen, wobei kausale Maskierung und Stop-Gradient zum Einsatz kommen, was wir als Next-Embedding Predictive Autoregression (NEPA) bezeichnen. Wir zeigen, dass ein einfacher Transformer, der auf ImageNet-1k mit Next-Embedding-Prediction als einzigem Lernziel vortrainiert wurde, effektiv ist – ohne Pixelrekonstruktion, diskrete Tokens, kontrastiven Verlust oder aufgabenspezifische Köpfe. Diese Formulierung bewahrt architektonische Einfachheit und Skalierbarkeit, ohne zusätzliche Designkomplexität zu erfordern. NEPA erzielt starke Ergebnisse über verschiedene Aufgaben hinweg und erreicht 83,8 % bzw. 85,3 % Top-1-Genauigkeit auf ImageNet-1K mit ViT-B- und ViT-L-Backbones nach Feinabstimmung und überträgt effektiv auf semantische Segmentierung mit ADE20K. Wir sind der Ansicht, dass generatives Vorabtraining auf der Grundlage von Einbettungen eine einfache, skalierbare und potenziell modalitätsagnostische Alternative zum visuellen selbstüberwachten Lernen darstellt.

StereoPilot: Lernen einheitlicher und effizienter Stereoumwandlung durch generative A-priori-Informationen
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

Das rasante Wachstum stereoskopischer Displays, einschließlich VR-Headsets und 3D-Kinos, hat zu einer steigenden Nachfrage nach hochwertigem Stereo-Videomaterial geführt. Die Produktion von 3D-Videos bleibt jedoch kostspielig und komplex, während die automatische Monokular-zu-Stereo-Umwandlung durch die Grenzen der mehrstufigen „Depth-Warp-Inpaint“- (DWI) Pipeline behindert wird. Dieses Paradigma leidet unter Fehlerfortpflanzung, Tiefenmehrdeutigkeit und Formatinkonsistenz zwischen parallelen und konvergenten Stereo-Konfigurationen. Um diese Herausforderungen zu bewältigen, stellen wir UniStereo vor, den ersten umfassenden, vereinheitlichten Datensatz für die Stereo-Videoumwandlung, der beide Stereo-Formate abdeckt, um faire Benchmarks und robustes Modelltraining zu ermöglichen. Aufbauend auf diesem Datensatz schlagen wir StereoPilot vor, ein effizientes Vorwärtsmodell, das die Zielansicht direkt synthetisiert, ohne auf explizite Tiefenkarten oder iterative Diffusionssammlung angewiesen zu sein. Ausgestattet mit einem lernbaren Domain-Switcher und einem Zyklus-Konsistenzverlust passt sich StereoPilot nahtlos an verschiedene Stereo-Formate an und erreicht eine verbesserte Konsistenz. Umfangreiche Experimente zeigen, dass StereoPilot state-of-the-art-Methoden sowohl in visueller Qualität als auch in Recheneffizienz deutlich übertrifft. Projektseite: https://hit-perfect.github.io/StereoPilot/.

Seedance 1.5 Pro: Ein natives audiovisuelles Joint-Generation-Foundation-Modell
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

ByHeyi Chen, Siyan Chen, Xin Chen, Yanfei Chen, Ying Chen, Zhuo Chen, Feng Cheng, Tianheng Cheng, Xinqi Cheng, Xuyan Chi, Jian Cong, Jing Cui, Qinpeng Cui, Qide Dong, Junliang Fan, Jing Fang, Zetao Fang, Chengjian Feng, Han Feng, Mingyuan Gao, Yu Gao, Dong Guo, Qiushan Guo, Boyang Hao, Qingkai Hao, Bibo He, Qian He, Tuyen Hoang, Ruoqing Hu, Xi Hu, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Donglei Ji, Siqi Jiang, Wei Jiang, Yunpu Jiang, Zhuo Jiang, Ashley Kim, Jianan Kong, Zhichao Lai, Shanshan Lao, Yichong Leng, Ai Li, Feiya Li, Gen Li, Huixia Li, JiaShi Li, Liang Li, Ming Li, Shanshan Li, Tao Li, Xian Li, Xiaojie Li, Xiaoyang Li, Xingxing Li, Yameng Li, Yifu Li, Yiying Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Zhiqiang Liang, Wang Liao, Yalin Liao, Heng Lin, Kengyu Lin, Shanchuan Lin, Xi Lin, Zhijie Lin, Feng Ling, Fangfang Liu, Gaohong Liu, Jiawei Liu, Jie Liu, Jihao Liu, Shouda Liu, Shu Liu, Sichao Liu, Songwei Liu, Xin Liu, Xue Liu, Yibo Liu, Zikun Liu, Zuxi Liu, Junlin Lyu, Lecheng Lyu, Qian Lyu, Han Mu, Xiaonan Nie, Jingzhe Ning, Xitong Pan, Yanghua Peng, Lianke Qin, Xueqiong Qu, Yuxi Ren, Kai Shen, Guang Shi, Lei Shi, Yan Song, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Yan Sun, Zeyu Sun, Wenjing Tang, Yaxue Tang, Zirui Tao, Feng Wang, Furui Wang, Jinran Wang, Junkai Wang, Ke Wang, Kexin Wang, Qingyi Wang, Rui Wang, Sen Wang, Shuai Wang, Tingru Wang, Weichen Wang, Xin Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Ziyu Wang, Guoqiang Wei, Wanru Wei, Di Wu, Guohong Wu, Hanjie Wu, Jian Wu, Jie Wu, Ruolan Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Liang Xiang, Fei Xiao, XueFeng Xiao, Pan Xie, Shuangyi Xie, Shuang Xu, Jinlan Xue, Shen Yan, Bangbang Yang, Ceyuan Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yang Yang, Yihang Yang, ZhiXian Yang, Ziyan Yang, Songting Yao, Yifan Yao, Zilyu Ye, Bowen Yu, Jian Yu, Chujie Yuan, Linxiao Yuan, Sichun Zeng, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Chuntao Zhang, Heng Zhang, Jingjie Zhang, Kuo Zhang, Liang Zhang, Liying Zhang, Manlin Zhang, Ting Zhang, Weida Zhang, Xiaohe Zhang, Xinyan Zhang, Yan Zhang, Yuan Zhang, Zixiang Zhang, Fengxuan Zhao, Huating Zhao, Yang Zhao, Hao Zheng, Jianbin Zheng, Xiaozheng Zheng, Yangyang Zheng, Yijie Zheng, Jiexin Zhou, Jiahui Zhu, Kuan Zhu, Shenhan Zhu, Wenjia Zhu, Benhui Zou, Feilong Zuo

Jüngste Fortschritte in der Videogenerierung haben den Weg für eine einheitliche audiovisuelle Generierung geebnet. In dieser Arbeit präsentieren wir Seedance 1.5 pro, ein Fundamentalmodel, das speziell für die native, gemeinsame Audio-Video-Generierung entwickelt wurde. Durch die Nutzung einer Dual-Branch-Diffusion-Transformer-Architektur integriert das Model ein cross-modales Joint-Modul mit einer spezialisierten mehrstufigen Datenpipeline und erreicht so eine außergewöhnliche audiovisuelle Synchronisation sowie überlegene Generierungsqualität. Um die praktische Nutzbarkeit zu gewährleisten, implementieren wir sorgfältige Nachtrainingsoptimierungen, einschließlich Supervised Fine-Tuning (SFT) auf hochwertigen Datensätzen und Reinforcement Learning from Human Feedback (RLHF) mit multidimensionalen Belohnungsmodellen. Darüber hinaus führen wir ein Beschleunigungsframework ein, das die Inferenzgeschwindigkeit um mehr als das 10-fache steigert. Seedance 1.5 pro zeichnet sich durch präzises multilinguales und dialektales Lippen-Syncing, dynamische filmische Kamerasteuerung und verbesserte narrative Kohärenz aus und positioniert sich damit als robuste Engine für professionelle Inhalteerstellung. Seedance 1.5 pro ist nun auf Volcano Engine unter https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo verfügbar.

Depth Any Panoramas: Ein Grundmodell für die Panorama-Tiefenschätzung
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

In dieser Arbeit stellen wir ein panoramisches metrisches Tiefen-Grundmodell vor, das sich über verschiedene Szenenentfernungen hinweg verallgemeinert. Wir untersuchen ein Data-in-the-Loop-Paradigma sowohl aus der Perspektive der Datenerstellung als auch des Framework-Designs. Wir erstellen einen umfangreichen Datensatz durch die Kombination öffentlicher Datensätze, hochwertiger synthetischer Daten aus unserem UE5-Simulator und Text-zu-Bild-Modellen sowie realer Panoramabilder aus dem Internet. Um Domänenlücken zwischen Innen-/Außenaufnahmen und synthetischen/realen Daten zu reduzieren, führen wir einen dreistufigen Pseudo-Label-Kuratierungsprozess ein, um zuverlässige Ground-Truth-Daten für unmarkierte Bilder zu generieren. Für das Modell verwenden wir DINOv3-Large als Backbone aufgrund seiner starken vortrainierten Generalisierungsfähigkeit und führen einen Plug-and-Play-Bereichsmaskenkopf, eine schärfenzentrierte Optimierung und eine geometriezentrierte Optimierung ein, um die Robustheit gegenüber variierenden Entfernungen zu verbessern und die geometrische Konsistenz über verschiedene Blickwinkel hinweg zu erzwingen. Experimente auf mehreren Benchmarks (z.B. Stanford2D3D, Matterport3D und Deep360) demonstrieren eine hohe Leistungsfähigkeit und Zero-Shot-Generalisierung, mit besonders robusten und stabilen metrischen Vorhersagen in verschiedenen realen Szenen. Die Projektseite ist unter folgender Adresse zu finden: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}

Generative Refokusierung: Flexible Schärfentiefenkontrolle aus einem einzigen Bild
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

Die Schärfentiefenkontrolle ist in der Fotografie entscheidend, doch die perfekte Fokussierung erfordert oft mehrere Versuche oder spezielle Ausrüstung. Die Nachfokussierung aus einem Einzelbild bleibt schwierig. Sie umfasst die Wiederherstellung scharfer Bildinhalte und die Erzeugung realistischer Bokeh-Effekte. Bestehende Methoden weisen erhebliche Nachteile auf: Sie benötigen durchgängig scharfe Eingabebilder, basieren auf synthetischen Daten aus Simulatoren und bieten nur begrenzte Kontrolle über die Blende. Wir stellen Generative Refocusing vor, einen zweistufigen Prozess, der DeblurNet zur Wiederherstellung allumfassend scharfer Bilder aus verschiedenen Eingaben und BokehNet zur Erzeugung steuerbarer Bokeh-Effekte nutzt. Unsere wichtigste Innovation ist das semi-überwachte Training. Diese Methode kombiniert synthetische gepaarte Daten mit ungepaarten realen Bokeh-Bildern und nutzt EXIF-Metadaten, um reale optische Eigenschaften zu erfassen, die über die Möglichkeiten von Simulatoren hinausgehen. Unsere Experimente zeigen, dass wir Spitzenleistungen in den Bereichen Defokus-Entschärfung, Bokeh-Synthese und Nachfokussierung erreichen. Zusätzlich ermöglicht unser Generative Refocusing textgesteuerte Anpassungen und benutzerdefinierte Blendenformen.

DeContext als Verteidigung: Sicheres Bildbearbeiten in Diffusion Transformern
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Kontextbasierte Diffusionsmodelle ermöglichen es Nutzern, Bilder mit bemerkenswerter Leichtigkeit und Realismus zu verändern. Diese Fähigkeit wirft jedoch ernsthafte Datenschutzbedenken auf: Persönliche Bilder können ohne Einwilligung der Eigentümer leicht zur Identitätsnachahmung, zur Verbreitung von Fehlinformationen oder für andere böswillige Zwecke manipuliert werden. Während frühere Arbeiten Eingabeperturbationen zum Schutz vor Missbrauch in der personalisierten Text-zu-Bild-Generierung untersucht haben, ist die Robustheit moderner, großskalierender, auf DiT basierender Kontextmodelle weitgehend unerforscht. In diesem Artikel stellen wir DeContext vor, eine neue Methode zum Schutz von Eingabebildern vor unbefugter kontextbasierter Bearbeitung. Unsere zentrale Erkenntnis ist, dass Kontextinformationen aus dem Quellbild sich hauptsächlich über multimodale Attention-Schichten zur Ausgabe fortpflanzen. Durch das Einbringen kleiner, gezielter Perturbationen, die diese Cross-Attention-Pfade schwächen, unterbricht DeContext diesen Fluss und entkoppelt effektiv die Verbindung zwischen Eingabe und Ausgabe. Diese einfache Verteidigung ist sowohl effizient als auch robust. Wir zeigen weiter, dass frühe Entrauschungsschritte und spezifische Transformer-Blöcke die Kontextausbreitung dominieren, was es uns ermöglicht, Perturbationen dort zu konzentrieren, wo sie am wichtigsten sind. Experimente mit Flux Kontext und Step1X-Edit zeigen, dass DeContext unerwünschte Bildbearbeitungen konsistent blockiert und dabei die visuelle Qualität erhält. Diese Ergebnisse unterstreichen die Wirksamkeit von auf Attention basierenden Perturbationen als wirksamen Schutz gegen Bildmanipulation.

Alchemist: Steigerung der Effizienz beim Training von Text-zu-Bild-Modellen durch Meta-Gradienten-basierte Datenauswahl
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

Jüngste Fortschritte bei Text-zu-Bild (T2I)-Generativmodellen wie Imagen, Stable Diffusion und FLUX haben zu bemerkenswerten Verbesserungen der visuellen Qualität geführt. Ihre Leistung wird jedoch grundlegend durch die Qualität der Trainingsdaten begrenzt. Aus dem Web gecrawlte und synthetische Bilddatensätze enthalten häufig qualitativ minderwertige oder redundante Stichproben, was zu verminderter visueller Treue, instabilem Training und ineffizienter Berechnung führt. Daher ist eine effektive Datenauswahl entscheidend für die Verbesserung der Dateneffizienz. Bestehende Ansätze stützen sich auf kostspielige manuelle Kuratierung oder heuristische Bewertungen basierend auf eindimensionalen Merkmalen bei der Text-zu-Bild-Datenfilterung. Obwohl meta-lernbasierte Methoden für LLM erforscht wurden, gibt es keine Anpassung für Bildmodalitäten. Zu diesem Zweck schlagen wir **Alchemist** vor, ein metagradientenbasiertes Framework zur Auswahl einer geeigneten Teilmenge aus großskaligen Text-Bild-Datenpaaren. Unser Ansatz lernt automatisch, den Einfluss jeder Stichprobe zu bewerten, indem das Modell iterativ aus einer datenzentrierten Perspektive optimiert wird. Alchemist besteht aus zwei Schlüsselphasen: Datenbewertung und Datenbereinigung. Wir trainieren einen leichtgewichtigen Rater, um den Einfluss jeder Stichprobe auf Basis von Gradienteninformationen zu schätzen, erweitert durch Multi-Granularitätswahrnehmung. Anschließend verwenden wir die Shift-G-Sampling-Strategie, um informative Teilmengen für effizientes Modelltraining auszuwählen. Alchemist ist das erste automatische, skalierbare, metagradientenbasierte Datenauswahl-Framework für das Training von Text-zu-Bild-Modellen. Experimente mit sowohl synthetischen als auch webgecrawlten Datensätzen zeigen, dass Alchemist konsistent die visuelle Qualität und die Downstream-Leistung verbessert. Das Training mit 50 % der durch Alchemist ausgewählten Daten kann das Training mit dem vollständigen Datensatz übertreffen.

Die Welt ist deine Leinwand: Erzeugung anpassbarer Ereignisse mit Referenzbildern, Trajektorien und Text
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

Wir stellen WorldCanvas vor, einen Framework für promptbare Weltereignisse, der durch die Kombination von Text, Trajektorien und Referenzbildern eine umfangreiche, benutzergeleitete Simulation ermöglicht. Im Gegensatz zu rein textbasierten Ansätzen und bestehenden trajektoriengesteuerten Bild-zu-Video-Methoden kombiniert unser multimodaler Ansatz Trajektorien – die Bewegung, Timing und Sichtbarkeit kodieren – mit natürlicher Sprache für semantische Absicht und Referenzbildern zur visuellen Verankerung von Objektidentität. Dies ermöglicht die Erzeugung kohärenter, steuerbarer Ereignisse, die Multi-Agenten-Interaktionen, Objektein-/austritt, referenzgesteuerte Erscheinung und kontraintuitive Ereignisse umfassen. Die resultierenden Videos zeigen nicht nur zeitliche Kohärenz, sondern auch emergente Konsistenz, indem Objektidentität und Szene trotz temporären Verschwindens erhalten bleiben. Durch die Unterstützung expressiver Weltereignisgenerierung erhebt WorldCanvas Weltmodelle von passiven Prädiktoren zu interaktiven, benutzergeformten Simulatoren. Unsere Projektseite ist verfügbar unter: https://worldcanvas.github.io/.

REGLUE: Verknüpfen Sie Ihre Latents mit globaler und lokaler Semantik für verschränkte Diffusion
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

Latente Diffusionsmodelle (LDMs) erzielen state-of-the-art Bildsynthese, doch ihr rekonstruktionsbasiertes Denoising-Ziel bietet nur indirekte semantische Überwachung: Hochlevel-Semantik entsteht langsam, erfordert längeres Training und begrenzt die Bildqualität. Neuere Arbeiten injizieren Semantik aus Vision Foundation Models (VFMs) entweder extern durch Repräsentationsalignment oder intern durch gemeinsame Modellierung nur eines schmalen Ausschnitts von VFM-Merkmalen innerhalb des Diffusionsprozesses, wodurch die verfügbare reiche, nichtlineare, mehrschichtige räumliche Semantik unzureichend genutzt wird. Wir stellen REGLUE (Representation Entanglement with Global-Local Unified Encoding) vor, ein vereinheitlichtes latentes Diffusionsframework, das (i) VAE-Bildlatenten, (ii) kompakte lokale (Patch-level) VFM-Semantik und (iii) einen globalen (Bild-level) [CLS]-Token gemeinsam innerhalb eines einzigen SiT-Backbones modelliert. Ein leichter konvolutionaler Semantikkompressor aggregiert nichtlinear mehrschichtige VFM-Merkmale zu einer niedrigdimensionalen, räumlich strukturierten Repräsentation, die mit den VAE-Latenten im Diffusionsprozess verschränkt wird. Ein externer Alignment-Loss regularisiert interne Repräsentationen weiter in Richtung eingefrorener VFM-Ziele. Auf ImageNet 256x256 verbessert REGLUE konsistent den FID und beschleunigt die Konvergenz im Vergleich zu SiT-B/2- und SiT-XL/2-Baselines sowie gegenüber REPA, ReDi und REG. Umfangreiche Experimente zeigen, dass (a) räumliche VFM-Semantik entscheidend ist, (b) nichtlineare Kompression der Schlüssel zur vollen Ausschöpfung ihres Nutzens ist und (c) globale Tokens und externes Alignment komplementäre, leichte Verbesserungen innerhalb unseres Global-Local-Latent-Joint-Modeling-Frameworks darstellen. Der Code ist verfügbar unter https://github.com/giorgospets/reglue.

N3D-VLM: Native 3D-Verankerung ermöglicht präzises räumliches Schließen in Vision-Language-Modellen
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

Während aktuelle multimodale Modelle Fragen auf der Grundlage von 2D-Bildern beantworten können, fehlt ihnen eine intrinsische 3D-Objekterkennung, was ihre Fähigkeit einschränkt, räumliche Beziehungen und Tiefeninformationen in 3D-Szenen zu erfassen. In dieser Arbeit stellen wir N3D-VLM vor, einen neuartigen, vereinheitlichten Rahmen, der native 3D-Objekterkennung nahtlos mit 3D-bewusstem visuellem Schließen integriert und sowohl präzises 3D-Grounding als auch interpretierbares räumliches Verständnis ermöglicht. Im Gegensatz zu konventionellen End-to-End-Modellen, die Antworten direkt aus RGB- oder RGB-D-Eingaben vorhersagen, stattet unser Ansatz das Modell mit nativen 3D-Objekterkennungsfähigkeiten aus, die es ermöglichen, Objekte direkt im 3D-Raum auf der Grundlage textueller Beschreibungen zu lokalisieren. Aufbauend auf einer präzisen 3D-Objektlokalisierung führt das Modell weiterhin explizites Schließen in 3D durch, um ein interpretierbareres und strukturierteres räumliches Verständnis zu erreichen. Um eine robuste Ausbildung dieser Fähigkeiten zu unterstützen, entwickeln wir eine skalierbare Datenkonstruktions-Pipeline, die Tiefenschätzung nutzt, um großangelegte 2D-Annotationen in den 3D-Raum zu heben. Dies erhöht die Diversität und Abdeckung von 3D-Grounding-Daten erheblich und erzeugt einen Datensatz, der mehr als sechsmal größer ist als der größte bestehende Einzelbild-3D-Erkennungsdatensatz. Darüber hinaus generiert die Pipeline räumliche Frage-Antwort-Datensätze, die auf Chain-of-Thought (CoT)-Schlussfolgerungen in 3D abzielen und das gemeinsame Training für sowohl 3D-Objektlokalisierung als auch 3D-räumliches Schließen erleichtern. Experimentelle Ergebnisse zeigen, dass unser vereinheitlichter Rahmen nicht nur state-of-the-art Leistung in 3D-Grounding-Aufgaben erreicht, sondern auch bestehende Methoden im 3D-räumlichen Schließen in Vision-Language-Modellen konsistent übertrifft.

JustRL: Skalierung eines 1,5-Milliarden-Parameter-LLMs mit einem einfachen RL-Rezept
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

Jüngste Fortschritte beim Reinforcement Learning für große Sprachmodelle konvergieren zunehmend in Richtung Komplexität: mehrstufige Trainingspipelines, dynamische Hyperparameterpläne und Curriculum-Learning-Strategien. Dies wirft eine grundlegende Frage auf: Ist diese Komplexität notwendig? Wir stellen JustRL vor, einen minimalistischen Ansatz mit einstufigem Training und festen Hyperparametern, der state-of-the-art Leistung bei zwei 1,5B-Reasoning-Modellen erzielt (54,9 % und 64,3 % durchschnittliche Genauigkeit über neun mathematische Benchmarks) und dabei 2-mal weniger Rechenleistung als ausgefeilte Ansätze benötigt. Dieselben Hyperparameter übertragen sich ohne Anpassung auf beide Modelle, und das Training zeigt über 4.000+ Schritte hinweg einen glatten, monotonen Verbesserungsverlauf ohne die Zusammenbrüche oder Plateaus, die typischerweise Interventionen motivieren. Entscheidend ist, dass Ablationstudien zeigen, dass das Hinzufügen „standardmäßiger Tricks“ wie expliziter Längenstrafen oder robuster Verifizierer die Leistung durch Kollabieren der Exploration verschlechtern kann. Diese Ergebnisse deuten darauf hin, dass das Feld möglicherweise Komplexität hinzufügt, um Probleme zu lösen, die mit einer stabilen, hochskalierten Basislinie verschwinden. Wir veröffentlichen unsere Modelle und Code, um der Community eine einfache, validierte Basislinie bereitzustellen.

AdaTooler-V: Adaptive Werkzeugnutzung für Bilder und Videos
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

Jüngste Fortschritte haben gezeigt, dass multimodale große Sprachmodelle (MLLMs) von multimodalen, verschachtelten Denkketten (Chain-of-Thought, CoT) mit Interaktionen von Vision-Tools profitieren. Allerdings zeigen bestehende Open-Source-Modelle oft blinde Tool-Use-Reasoning-Muster, bei denen Vision-Tools selbst dann aufgerufen werden, wenn sie unnötig sind, was den Inferenzaufwand erheblich erhöht und die Modellleistung beeinträchtigt. Zu diesem Zweck schlagen wir AdaTooler-V vor, ein MLLM, das adaptiven Tool-Use durchführt, indem es bestimmt, ob ein visuelles Problem tatsächlich Tools erfordert. Zunächst führen wir AT-GRPO ein, einen Reinforcement-Learning-Algorithmus, der die Belohnungsskalen basierend auf dem Tool Benefit Score jeder Stichprobe adaptiv anpasst und das Modell dazu anregt, Tools nur dann aufzurufen, wenn sie echte Verbesserungen bieten. Darüber hinaus erstellen wir zwei Datensätze zur Unterstützung des Trainings: AdaTooler-V-CoT-100k für den SFT-Kaltstart und AdaTooler-V-300k für RL mit verifizierbaren Belohnungen über Einzelbild-, Mehrbild- und Videodaten. Experimente über zwölf Benchmarks demonstrieren die starke Reasoning-Fähigkeit von AdaTooler-V, das bestehende Methoden in verschiedenen visuellen Reasoning-Aufgaben übertrifft. Bemerkenswerterweise erreicht AdaTooler-V-7B eine Genauigkeit von 89,8 % auf dem hochauflösenden Benchmark V* und übertrifft damit das kommerzielle proprietäre Modell GPT-4o und Gemini 1.5 Pro. Sämtlicher Code, Modelle und Daten werden veröffentlicht.

EasyV2V: Ein hochwertiges, befehlsgestütztes Videobearbeitungsframework
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

Während die Bildbearbeitung rasante Fortschritte gemacht hat, bleibt die Videobearbeitung weniger erforscht und steht vor Herausforderungen in Bezug auf Konsistenz, Steuerbarkeit und Generalisierung. Wir untersuchen den Gestaltungsspielraum von Daten, Architektur und Steuerung und stellen EasyV2V vor, ein einfaches und effektives Framework für instruktionsbasierte Videobearbeitung. Auf der Datenseite kombinieren wir bestehende Expertensysteme mit schnellen Inversen, um vielfältige Videopaare zu erstellen, heben Bildbearbeitungspaare durch Einzelbild-Überwachung und Pseudopaare mit gemeinsamer affiner Bewegung in Videos an, extrahieren dicht beschriftete Clips für Videopaare und fügen Übergangsüberwachung hinzu, um zu vermitteln, wie Bearbeitungen ablaufen. Auf der Modellseite beobachten wir, dass vortrainierte Text-zu-Video-Modelle über Bearbeitungsfähigkeiten verfügen, was ein vereinfachtes Design motiviert. Eine einfache Sequenzverkettung für die Konditionierung mit leichtem LoRA-Fine-Tuning reicht aus, um ein leistungsstarkes Modell zu trainieren. Für die Steuerung vereinheitlichen wir raumzeitliche Kontrolle über einen einzigen Maskenmechanismus und unterstützen optionale Referenzbilder. Insgesamt arbeitet EasyV2V mit flexiblen Eingaben, z.B. Video+Text, Video+Maske+Text, Video+Maske+Referenz+Text, und erzielt state-of-the-art Videobearbeitungsergebnisse, die gleichzeitige und kommerzielle Systeme übertreffen. Projektseite: https://snap-research.github.io/easyv2v/

FlashPortrait: 6-fach schnellere unendliche Porträtanimation mit adaptiver latenter Vorhersage
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

Aktuelle diffusionsbasierte Beschleunigungsmethoden für die Animation langer Porträtsequenzen haben Schwierigkeiten, die Identitätskonsistenz (ID) sicherzustellen. Dieser Artikel stellt FlashPortrait vor, einen end-to-end Video-Diffusion-Transformer, der in der Lage ist, identitätserhaltende, unendlich lange Videos zu synthetisieren und dabei eine bis zu 6-fache Beschleunigung der Inferenzgeschwindigkeit zu erreichen. Insbesondere beginnt FlashPortrait mit der Berechnung identitätsunabhängiger Gesichtsausdrucksmerkmale mittels eines vorgefertigten Extraktors. Anschließend wird ein normalisierter Gesichtsausdrucksblock eingeführt, um Gesichtsmerkmale mit Diffusions-Latents abzugleichen, indem diese mit ihren jeweiligen Mittelwerten und Varianzen normalisiert werden, was die Identitätsstabilität in der Gesichtsmodellierung verbessert. Während der Inferenz verwendet FlashPortrait ein dynamisches Schiebefenster-Verfahren mit gewichteter Überblendung in überlappenden Bereichen, um fließende Übergänge und ID-Konsistenz in langen Animationen zu gewährleisten. In jedem Kontextfenster nutzt FlashPortrait basierend auf der Latent-Variationsrate zu bestimmten Zeitschritten und dem Ableitungsgradverhältnis zwischen Diffusionsschichten höhergradige Latent-Ableitungen zum aktuellen Zeitschritt, um Latents zukünftiger Zeitschritte direkt vorherzusagen, wodurch mehrere Entrauschungsschritte übersprungen und eine 6-fache Geschwindigkeitssteigerung erreicht werden. Experimente auf Benchmarks zeigen die Wirksamkeit von FlashPortrait sowohl qualitativ als auch quantitativ.

Multimodales RewardBench 2: Bewertung omnimodaler Belohnungsmodelle für verschachtelten Text und Bilder
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

Belohnungsmodelle (RMs) sind entscheidend für das Training großer Sprachmodelle (LLMs), sind jedoch für Omni-Modelle, die verzahnte Bild- und Textsequenzen verarbeiten, noch unzureichend erforscht. Wir stellen Multimodal RewardBench 2 (MMRB2) vor, den ersten umfassenden Benchmark für Belohnungsmodelle für multimodales Verständnis und (verzahnte) Generierung. MMRB2 umfasst vier Aufgaben: Text-zu-Bild, Bildbearbeitung, verzahnte Generierung und multimodales Schließen („Denken-mit-Bildern“) und bietet pro Aufgabe 1.000 von Experten annotierte Präferenzpaare von 23 Modellen und Agenten aus 21 Quellaufgaben. MMRB2 ist konzipiert mit: (1) praktischen aber anspruchsvollen Prompts; (2) Antworten von state-of-the-art Modellen und Agenten; und (3) Präferenzpaaren mit starkem menschlichem Expertenkonsens, die mittels einer Ensemble-Filterstrategie kuratiert wurden. Mit MMRB2 untersuchen wir existierende Bewertungssysteme für jede Teilaufgabe, einschließlich multimodaler LLM-as-a-judge und mit menschlichen Präferenzen trainierter Modelle. Das neueste Gemini 3 Pro erreicht eine Genauigkeit von 75-80%. GPT-5 und Gemini 2.5 Pro erreichen 66-75% Genauigkeit, verglichen mit >90% für Menschen, übertreffen aber das weit verbreitete GPT-4o (59%). Das beste Open-Source-Modell Qwen3-VL-32B erreicht ähnliche Genauigkeiten wie Gemini 2.5 Flash (64%). Wir zeigen auch, dass die MMRB2-Leistung stark mit dem Erfolg bei nachgelagerten Aufgaben mittels Best-of-N-Sampling korreliert, und führen eine detaillierte Analyse durch, die Schlüsselbereiche zur Verbesserung der Belohnungsmodelle für die Zukunft aufzeigt.

Exploration vs. Exploitation: Eine Neubetrachtung von RLVR durch Clipping, Entropie und trügerische Belohnungen
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

Diese Arbeit untersucht den Exploration-Exploitation-Trade-off im Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), einem Rahmenwerk zur Verbesserung des logischen Denkens von Large Language Models (LLMs). Jüngste Studien deuten darauf hin, dass RLVR durch zwei scheinbar paradoxe Mechanismen starkes mathematisches Denken in LLMs hervorrufen kann: durch fehlerhafte Belohnungen, welche die Exploitation unterdrücken, indem Ergebnisse belohnt werden, die nicht mit der Grundwahrheit zusammenhängen, und durch Entropieminimierung, welche die Exploration unterdrückt, indem das Modell zu zuversichtlicheren und deterministischeren Ausgaben gedrängt wird. Dies verdeutlicht eine rätselhafte Dynamik: Sowohl die Unterdrückung von Exploitation als auch die Unterdrückung von Exploration verbessern die Denkleistung, doch die zugrundeliegenden Prinzipien, die diese Effekte in Einklang bringen, sind nach wie vor kaum verstanden. Wir konzentrieren uns auf zwei grundlegende Fragen: (i) wie sich die Policy-Entropie auf die Leistung auswirkt und (ii) ob fehlerhafte Belohnungen Gewinne erzielen, möglicherweise durch das Zusammenspiel von Clipping-Bias und Modellkontamination. Unsere Ergebnisse zeigen, dass der Clipping-Bias unter fehlerhaften Belohnungen die Policy-Entropie verringert, was zu zuversichtlicheren und deterministischeren Ausgaben führt, während Entropieminimierung allein für eine Verbesserung nicht ausreicht. Wir schlagen weiterhin ein Modell der Belohnungsfehlausrichtung vor, das erklärt, warum fehlerhafte Belohnungen die Leistung auch über kontaminierte Settings hinaus steigern können. Unsere Erkenntnisse klären die Mechanismen hinter den Vorteilen fehlerhafter Belohnungen auf und liefern Prinzipien für ein effektiveres RLVR-Training.

RePlan: Planungsgesteuerte Bereichsauswahl für komplexe, instruktionsbasierte Bildbearbeitung
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

Instruktionsbasierte Bildbearbeitung ermöglicht eine natürliche Sprachsteuerung visueller Modifikationen, doch bestehende Modelle versagen bei Instruction-Visual Complexity (IV-Complexity), wenn komplexe Anweisungen auf unübersichtliche oder mehrdeutige Szenen treffen. Wir stellen RePlan (Region-aligned Planning) vor, einen Plan-then-Execute-Ansatz, der einen Sprach-Vision-Planner mit einem Diffusions-Editor koppelt. Der Planner zerlegt Anweisungen durch schrittweise Reasoning-Schritte und verankert sie explizit in Zielregionen; der Editor wendet Änderungen dann mittels eines trainingsfreien Attention-Region-Injection-Mechanismus an, der präzise, parallele Multiregion-Bearbeitungen ohne iteratives Inpainting ermöglicht. Zur Verbesserung der Planung nutzen wir GRPO-basiertes Reinforcement Learning mit 1.000 reinen Anweisungsbeispielen, was zu erheblichen Steigerungen in Reasoning-Treue und Formatzuverlässigkeit führt. Wir präsentieren zudem IV-Edit, einen Benchmark für feinkörnige Verankerung und wissensintensive Bearbeitungen. In IV-Complex-Szenarien übertrifft RePlan durchgängig starke Baseline-Modelle, die mit deutlich größeren Datensätzen trainiert wurden, und verbessert regionale Präzision sowie Gesamttreue. Unsere Projektseite: https://replan-iv-edit.github.io.

ModelTables: Ein Korpus von Tabellen über Modelle
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

Wir stellen ModelTables vor, einen Benchmark für Tabellen in Modell-Lakes, der die strukturierte Semantik von Leistungs- und Konfigurationstabellen erfasst, die bei rein textbasierter Retrieval oft übersehen wird. Das Korpus wurde aus Hugging Face-Modellkarten, GitHub-READMEs und referenzierten Publikationen aufgebaut und verknüpft jede Tabelle mit ihrem umgebenden Modell- und Publikationskontext. Im Vergleich zu Tabellen aus offenen Data Lakes sind Modelltabellen kleiner, weisen jedoch dichtere Beziehungen zwischen Tabellen auf, was die eng gekoppelte Entwicklung von Modellen und Benchmarks widerspiegelt. Die aktuelle Version umfasst über 60.000 Modelle und 90.000 Tabellen. Um die Verwandtschaft von Modellen und Tabellen zu bewerten, erstellen wir eine Multi-Source-Ground-Truth mit drei komplementären Signalen: (1) Zitationsverknüpfungen zwischen Publikationen, (2) explizite Verknüpfungen und Vererbungsbeziehungen in Modellkarten sowie (3) gemeinsame Trainingsdatensätze. Wir präsentieren einen umfangreichen empirischen Anwendungsfall für den Benchmark: die Tabellensuche. Wir vergleichen kanonische Data-Lake-Suchoperatoren (unionfähig, joinfähig, keyword) und Information-Retrieval-Baselines (dichtes, sparsames und hybrides Retrieval) anhand dieses Benchmarks. Unionbasierte semantische Tabellenretrieval erreicht insgesamt 54,8 % P@1 (54,6 % bei Zitationen, 31,3 % bei Vererbung, 30,6 % bei gemeinsamen Datensätzen); tabellenbasiertes dichtes Retrieval erreicht 66,5 % P@1 und hybrides Metadaten-Retrieval erzielt 54,1 %. Diese Auswertung zeigt deutlichen Spielraum für die Entwicklung besserer Tabellensuchmethoden. Durch die Veröffentlichung von ModelTables und seinem Erstellungsprotokoll stellen wir den ersten großflächigen Benchmark für strukturierte Daten bereit, die KI-Modelle beschreiben. Unser Anwendungsfall der Tabellenentdeckung in Modell-Lakes liefert Erkenntnisse und Belege für die Entwicklung präziserer semantischer Retrievalverfahren, strukturierter Vergleichsmethoden und prinzipieller Organisationsansätze für strukturiertes Modellwissen. Quellcode, Daten und weitere Artefakte sind unter https://github.com/RJMillerLab/ModelTables verfügbar.

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grounding-Aufgaben
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

GUI-Grounding ist eine entscheidende Komponente beim Aufbau leistungsfähiger GUI-Agenten. Allerdings weisen bestehende Grounding-Benchmarks erhebliche Einschränkungen auf: Sie bieten entweder unzureichende Datenmengen und eine zu enge Domänenabdeckung oder konzentrieren sich übermäßig auf eine einzelne Plattform und erfordern hochspezialisiertes Domänenwissen. In dieser Arbeit stellen wir VenusBench-GD vor, einen umfassenden, zweisprachigen Benchmark für GUI-Grounding, der mehrere Plattformen umspannt und eine hierarchische Evaluation für reale Anwendungen ermöglicht. VenusBench-GD leistet folgende Beiträge: (i) Wir führen einen groß angelegten, plattformübergreifenden Benchmark mit umfassender Anwendungsabdeckung, diversen UI-Elementen und umfangreichen annotierten Daten ein, (ii) wir etablieren eine hochwertige Datenkonstruktions-Pipeline für Grounding-Aufgaben, die eine höhere Annotationsgenauigkeit als bestehende Benchmarks erreicht, und (iii) wir erweitern den Umfang des Element-Groundings durch eine hierarchische Aufgaben-Taxonomie, die Grounding in grundlegende und fortgeschrittene Kategorien unterteilt und sechs verschiedene Teilaufgaben umfasst, die Modelle aus komplementären Perspektiven evaluieren sollen. Unsere experimentellen Ergebnisse liefern kritische Erkenntnisse: Allgemeine multimodale Modelle erreichen oder übertreffen nun spezialisierte GUI-Modelle bei grundlegenden Grounding-Aufgaben. Im Gegensatz dazu schneiden bei fortgeschrittenen Aufgaben nach wie vor GUI-spezialisierte Modelle besser ab, obwohl diese eine signifikante Überanpassung und geringe Robustheit aufweisen. Diese Ergebnisse unterstreichen die Notwendigkeit umfassender, mehrstufiger Evaluierungsrahmen.

Hören zum Übersetzen: Die Effektivität der Integration von Sprachmodalitäten in LLMs
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

Da sich große Sprachmodelle (LLMs) über Text hinaus erweitern, hat die Integration von Sprache als native Modalität zu SpeechLLMs geführt, die gesprochene Sprache direkt übersetzen und damit herkömmliche transkriptionsbasierte Pipelines umgehen sollen. Ob diese Integration jedoch die Qualität der Sprach-zu-Text-Übersetzung gegenüber etablierten kaskadierten Architekturen verbessert, bleibt eine offene Frage. Wir präsentieren Hearing to Translate, die erste umfassende Testsuite, die 5 state-of-the-art SpeechLLMs rigoros gegen 16 starke direkte und Kaskadensysteme vergleicht, die führende Sprach-Foundation-Modelle (SFM) mit mehrsprachigen LLMs koppeln. Unsere Analyse umfasst 16 Benchmarks, 13 Sprachpaare und 9 anspruchsvolle Bedingungen, einschließlich unflüssiger, verrauschter und langformiger Sprache. In dieser umfangreichen Evaluation stellen wir fest, dass Kaskadensysteme insgesamt die zuverlässigste Lösung bleiben, während aktuelle SpeechLLMs Kaskaden nur in ausgewählten Szenarien erreichen und SFMs beiden hinterherhinken. Dies unterstreicht, dass die Integration eines LLM – entweder innerhalb des Modells oder in einer Pipeline – für hochwertige Sprachübersetzung entscheidend ist.

Unterschiede, die zählen: Überprüfung von Modellen zur Ermittlung und Behebung von Fähigkeitslücken
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

Konventionelle Evaluierungsmethoden für multimodale LLMs (MLLMs) mangelt es an Interpretierbarkeit und sie sind oft unzureichend, um signifikante Fähigkeitslücken zwischen Modellen vollständig aufzudecken. Um dieses Problem zu adressieren, stellen wir AuditDM vor, einen automatisierten Rahmen, der aktiv Versagensmodi von MLLMs aufdeckt und korrigiert, indem er ihre Divergenz überprüft. AuditDM fine-tuned ein MLLM als Prüfer mittels Reinforcement Learning, um herausfordernde Fragen und kontrafaktische Bilder zu generieren, die die Diskrepanz zwischen Zielmodellen maximieren. Nach dem Training deckt der Prüfer diverse, interpretierbare Beispiele auf, die Modellschwächen offenlegen und als annotationsfreie Daten zur Korrektur dienen. Bei der Anwendung auf State-of-the-Art-Modelle wie Gemma-3 und PaliGemma-2 entdeckt AuditDM mehr als 20 verschiedene Fehlertypen. Fine-Tuning auf Basis dieser Entdeckungen verbessert konsistent alle Modelle über 16 Benchmarks hinweg und ermöglicht es einem 3B-Modell, sein 28B-Pendant zu übertreffen. Unsere Ergebnisse deuten darauf hin, dass, wenn die Datenskalierung abnehmende Erträge liefert, gezielte Modellprüfung einen effektiven Weg zur Modelldiagnose und -verbesserung bietet.

Insight Miner: Ein Zeitreihenanalyse-Datensatz für domänenübergreifende Ausrichtung mit natürlicher Sprache
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang

Zeitreihendaten sind in vielen wissenschaftlichen und industriellen Bereichen von entscheidender Bedeutung, darunter Umweltanalyse, Landwirtschaft, Verkehr und Finanzen. Die Gewinnung von Erkenntnissen aus diesen Daten erfordert jedoch in der Regel tiefgehende Domänenexpertise – ein Prozess, der sowohl zeitaufwändig als auch arbeitsintensiv ist. In diesem Artikel stellen wir Insight Miner vor, ein großes multimodales Modell (LMM), das darauf ausgelegt ist, hochwertige, umfassende Zeitreihenbeschreibungen zu generieren, die mit domänenspezifischem Wissen angereichert sind. Um dies zu ermöglichen, führen wir TS-Insights ein, den ersten allgemeinen Datensatz zur Ausrichtung von Zeitreihen und Sprache. TS-Insights enthält 100.000 Zeitreihenfenster, die aus 20 Prognosedatensätzen stammen. Wir konstruieren diesen Datensatz mithilfe eines neuartigen agentenbasierten Workflows, bei dem wir statistische Werkzeuge verwenden, um Merkmale aus Rohzeitreihen zu extrahieren, bevor wir sie mit GPT-4 zu kohärenten Trendbeschreibungen synthetisieren. Nach Instruction-Tuning auf TS-Insights übertrifft Insight Miner state-of-the-art multimodale Modelle wie LLaVA und GPT-4 bei der Generierung von Zeitreihenbeschreibungen und -einblicken. Unsere Ergebnisse deuten auf eine vielversprechende Richtung hin, um LMMs in der Zeitreihenanalyse zu nutzen, und stellen einen grundlegenden Schritt dar, um LLMs zu befähigen, Zeitreihen als native Eingabemodalität zu interpretieren.

Trainierbare log-lineare Sparse-Attention für effiziente Diffusion-Transformer
Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

Dec 18

ByYifan Zhou, Zeqi Xiao, Tianyi Wei, Shuai Yang, Xingang Pan

Diffusion Transformer (DiTs) setzen den Maßstab in der visuellen Generierung, doch ihre quadratischen Self-Attention-Kosten begrenzen grundlegend die Skalierbarkeit auf lange Token-Sequenzen. Jüngste Top-K-Sparse-Attention-Ansätze reduzieren den Berechnungsaufwand von DiTs, indem sie Token in blockweise Darstellungen komprimieren und eine kleine Menge relevanter Schlüsselblöcke auswählen, leiden aber weiterhin unter (i) quadratischen Auswahlkosten für komprimierte Token und (ii) einem mit wachsenden Sequenzen steigenden K-Wert, um die Modellqualität zu erhalten. Wir identifizieren, dass diese Ineffizienz auf den einstufigen Aufbau zurückzuführen ist, da eine einzelne grobe Ebene unzureichend ist, um die globale Struktur abzubilden. In diesem Artikel stellen wir Log-lineare Sparse Attention (LLSA) vor, einen trainierbaren Sparse-Attention-Mechanismus für extrem lange Token-Sequenzen, der sowohl Auswahl- als auch Attention-Kosten durch Nutzung einer hierarchischen Struktur von quadratischer auf log-lineare Komplexität reduziert. LLSA führt eine hierarchische Top-K-Auswahl durch, die schrittweise eine sparse Top-K-Auswahl mit den auf der vorherigen Ebene gefundenen Indizes anwendet, und führt einen Hierarchical-KV-Enrichment-Mechanismus ein, der den globalen Kontext bewahrt, während während der Attention-Berechnung weniger Token unterschiedlicher Granularität verwendet werden. Um effizientes Training zu unterstützen, entwickeln wir eine hochperformante GPU-Implementierung, die für Vorwärts- und Rückwärtsdurchläufe ausschließlich sparse Indizes verwendet und auf dichte Attention-Masken verzichtet. Wir evaluieren LLSA für die Bildgenerierung im hochauflösenden Pixelraum ohne Verwendung von Patchifizierung und VAE-Codierung. LLSA beschleunigt die Attention-Inferenz um das 28,27-fache und das DiT-Training um das 6,09-fache auf 256x256 Pixel Token-Sequenzen, bei gleichzeitiger Beibehaltung der Generierungsqualität. Die Ergebnisse demonstrieren, dass LLSA eine vielversprechende Richtung für das effiziente Training von DiTs mit langen Sequenzen bietet. Der Code ist verfügbar unter: https://github.com/SingleZombie/LLSA

FrameDiffuser: G-Buffer-konditionierte Diffusion für neuronale Vorwärts-Bildsynthese
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Dec 18

ByOle Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

Neuronales Rendering für interaktive Anwendungen erfordert die Übersetzung geometrischer und Materialeigenschaften (G-Buffer) in fotorealistische Bilder mit realistischer Beleuchtung auf Einzelbildbasis. Während neuere diffusionsbasierte Ansätze vielversprechend für die G-buffer-konditionierte Bildsynthese sind, weisen sie kritische Einschränkungen auf: Einzelbildmodelle wie RGBX generieren Frames unabhängig ohne zeitliche Konsistenz, während Videomodelle wie DiffusionRenderer für die meisten Consumer-Gaming-Setups rechenzu teuer sind und komplette Sequenzen im Voraus benötigen, was sie für interaktive Anwendungen ungeeignet macht, bei denen zukünftige Frames von Benutzereingaben abhängen. Wir stellen FrameDiffuser vor, ein autoregressives neuronales Rendering-Framework, das zeitlich konsistente, fotorealistische Frames durch Konditionierung auf G-Buffer-Daten und die eigenen vorherigen Ausgaben des Modells generiert. Nach einem initialen Frame arbeitet FrameDiffuser rein auf eingehenden G-Buffer-Daten, bestehend aus Geometrie, Materialien und Oberflächeneigenschaften, und nutzt dabei seinen zuvor generierten Frame zur zeitlichen Führung, wodurch eine stabile, zeitlich konsistente Generierung über hunderte bis tausende Frames hinweg erhalten bleibt. Unsere Dual-Conditioning-Architektur kombiniert ControlNet für strukturelle Führung mit ControlLoRA für zeitliche Kohärenz. Eine dreistufige Trainingsstrategie ermöglicht stabiles autoregressives Generieren. Wir spezialisieren unser Modell auf individuelle Umgebungen, priorisieren Konsistenz und Inferenzgeschwindigkeit gegenüber breiter Generalisierung, und demonstrieren, dass umgebungsspezifisches Training im Vergleich zu generalisierten Ansätzen überlegene fotorealistische Qualität mit präziser Beleuchtung, Schatten und Reflexionen erreicht.

Bidirektionaler Normalisierungsfluss: Von Daten zu Rauschen und zurück
Bidirectional Normalizing Flow: From Data to Noise and Back

Dec 11

ByYiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He

Normalizing Flows (NFs) haben sich als ein prinzipieller Rahmen für generative Modellierung etabliert. Standard-NFs bestehen aus einem Vorwärtsprozess und einem Rückwärtsprozess: Der Vorwärtsprozess bildet Daten auf Rauschen ab, während der Rückwärtsprozess durch seine Invertierung Stichproben erzeugt. Typische NF-Vorwärtstransformationen sind durch explizite Invertierbarkeit eingeschränkt, um sicherzustellen, dass der Rückwärtsprozess als deren exakte analytische Inverse dienen kann. Jüngste Entwicklungen in TARFlow und seinen Varianten haben NF-Methoden durch die Kombination von Transformern und autoregressiven Flows neu belebt, haben aber auch kausale Decodierung als einen wesentlichen Engpass offengelegt. In dieser Arbeit stellen wir Bidirectional Normalizing Flow (BiFlow) vor, ein Framework, das die Notwendigkeit einer exakten analytischen Inverse aufhebt. BiFlow erlernt ein Rückwärtsmodell, das die zugrundeliegende Rauschen-zu-Daten-Inverse approximiert und so flexiblere Verlustfunktionen und Architekturen ermöglicht. Experimente auf ImageNet zeigen, dass BiFlow im Vergleich zu seinem kausal decodierenden Gegenstück die Erzeugungsqualität verbessert und gleichzeitig die Stichprobenentnahme um bis zu zwei Größenordnungen beschleunigt. BiFlow erzielt state-of-the-art Ergebnisse unter NF-basierten Methoden und eine wettbewerbsfähige Leistung unter Single-Evaluation ("1-NFE")-Methoden. Angesichts der jüngsten ermutigenden Fortschritte bei NFs hoffen wir, dass unsere Arbeit weitere Aufmerksamkeit auf dieses klassische Paradigma lenken wird.

Gekoppeltes Variational Reinforcement Learning für Allgemeines Schließen in Sprachmodellen
Coupled Variational Reinforcement Learning for Language Model General Reasoning

Dec 14

ByXueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang

Obwohl Reinforcement Learning beeindruckende Fortschritte im Sprachmodell-Rationalität erzielt hat, ist es durch die Anforderung verifizierbarer Belohnungen eingeschränkt. Neuere verifiziererfreie RL-Methoden adressieren diese Einschränkung, indem sie die intrinsischen Wahrscheinlichkeiten von LLMs für die Generierung von Referenzantworten als Belohnungssignale nutzen. Diese Ansätze sampeln jedoch typischerweise Reasoning-Traces nur auf Basis der Frage. Dieses Design entkoppelt die Reasoning-Trace-Sammlung von der Antwortinformation, was zu ineffizienter Exploration und Inkohärenz zwischen Traces und finalen Antworten führt. In diesem Paper schlagen wir \b{Coupled Variational Reinforcement Learning} (CoVRL) vor, das variationale Inferenz und Reinforcement Learning verbindet, indem es Prior- und Posterior-Verteilungen durch eine hybride Sampling-Strategie koppelt. Durch die Konstruktion und Optimierung einer zusammengesetzten Verteilung, die diese beiden Verteilungen integriert, ermöglicht CoVRL effiziente Exploration bei gleichzeitiger Bewahrung starker Gedanken-Antwort-Kohärenz. Umfangreiche Experimente auf mathematischen und allgemeinen Reasoning-Benchmarks zeigen, dass CoVRL die Leistung um 12,4\% gegenüber dem Basismodell steigert und eine zusätzliche Verbesserung von 2,3\% gegenüber starken state-of-the-art verifiziererfreien RL-Baselines erzielt, wodurch ein prinzipieller Rahmen zur Verbesserung der allgemeinen Reasoning-Fähigkeiten von Sprachmodellen bereitgestellt wird.

Make-It-Poseable: Ein vorwärtsgerichtetes latentes Posing-Modell für die Animation von 3D-Humanoid-Charakteren
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

Dec 18

ByZhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li

Das Posieren von 3D-Charakteren ist eine grundlegende Aufgabe in der Computergrafik und Computer Vision. Bisherige Methoden wie Auto-Rigging und posesensitive Generierung stoßen jedoch oft auf Herausforderungen wie ungenaue Vorhersage der Skinning-Gewichte, topologische Unzulänglichkeiten und mangelnde Pose-Konformität, was ihre Robustheit und Generalisierbarkeit einschränkt. Um diese Grenzen zu überwinden, stellen wir Make-It-Poseable vor, ein neuartiges Feedforward-System, das das Charakter-Posieren als ein Latent-Space-Transformationsproblem neu formuliert. Anstatt Mesh-Vertices wie in traditionellen Pipelines zu verformen, rekonstruiert unsere Methode den Charakter in neuen Posen durch direkte Manipulation seiner latenten Repräsentation. Kernstück unserer Methode ist ein latenter Posing-Transformer, der Shape-Tokens basierend auf Skelettbewegungen manipuliert. Dieser Prozess wird durch eine dichte Poserepräsentation für präzise Steuerung ermöglicht. Um hochwertige Geometrie zu gewährleisten und topologische Veränderungen zu berücksichtigen, führen wir außerdem eine Latent-Space-Überwachungsstrategie und ein adaptives Vervollständigungsmodul ein. Unsere Methode zeigt eine überlegene Leistung in der Posing-Qualität. Sie erstreckt sich natürlich auch auf 3D-Bearbeitungsanwendungen wie Teileaustausch und -verfeinerung.

MomaGraph: Zustandsbewusste einheitliche Szenengraphen mit Vision-Sprache-Modell für verkörpertes Aufgabenplanen
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Dec 18

ByYuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath

Mobile Manipulatoren in Haushalten müssen sowohl navigieren als auch manipulieren können. Dies erfordert eine kompakte, semantisch reiche Szenendarstellung, die erfasst, wo sich Objekte befinden, wie sie funktionieren und welche Teile aktivierbar sind. Szenengraphen sind eine naheliegende Wahl, doch bisherige Arbeiten trennen oft räumliche und funktionale Beziehungen, behandeln Szenen als statische Momentaufnahmen ohne Objektzustände oder zeitliche Aktualisierungen und übersehen Informationen, die für die Erfüllung der aktuellen Aufgabe am relevantesten sind. Um diese Einschränkungen zu adressieren, führen wir MomaGraph ein, eine vereinheitlichte Szenendarstellung für embodied Agents, die räumlich-funktionale Beziehungen und teilbezogene interaktive Elemente integriert. Die Weiterentwicklung einer solchen Darstellung erfordert jedoch sowohl geeignete Daten als auch rigorose Evaluation, die bisher weitgehend fehlten. Daher präsentieren wir MomaGraph-Scenes, den ersten groß angelegten Datensatz mit umfangreich annotierten, aufgabenorientierten Szenengraphen in Haushaltsumgebungen, sowie MomaGraph-Bench, eine systematische Testsuite, die sechs Reasoning-Fähigkeiten von High-Level-Planung bis hin zu feinkörniger Szenenanalyse abdeckt. Auf dieser Grundlage entwickeln wir weiterhin MomaGraph-R1, ein 7B-Vision-Sprach-Modell, das mit Reinforcement Learning auf MomaGraph-Scenes trainiert wurde. MomaGraph-R1 sagt aufgabenorientierte Szenengraphen vorher und dient als Zero-Shot-Aufgabenplaner unter einem Graph-then-Plan-Framework. Umfangreiche Experimente zeigen, dass unser Modell state-of-the-art Ergebnisse unter Open-Source-Modellen erzielt und eine Genauigkeit von 71,6 % auf dem Benchmark erreicht (+11,4 % gegenüber der besten Baseline), dabei generalisiert es über öffentliche Benchmarks hinweg und überträgt effektiv auf Echt-Roboter-Experimente.

Denken im Geist: Dynamische multimodale Verflechtung im latenten Raum
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Dec 14

ByChengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben das cross-modale Verständnis und die Schlussfolgerung durch die Integration von Chain-of-Thought (CoT)-Reasoning im semantischen Raum erheblich verbessert. Darauf aufbauend erweitern neuere Studien den CoT-Mechanismus auf die visuelle Modalität, wodurch Modelle in der Lage sind, visuelle Informationen während des Reasoning-Prozesses durch externe Werkzeuge oder explizite Bildgenerierung zu integrieren. Diese Methoden bleiben jedoch abhängig von explizitem schrittweisem Reasoning, instabiler Interaktion zwischen Wahrnehmung und Reasoning und erheblichem Rechenaufwand. Inspiriert von der menschlichen Kognition postulieren wir, dass sich Denken nicht linear, sondern durch dynamisches Verschachteln von Reasoning und Wahrnehmung im Geist entfaltet. Ausgehend von dieser Perspektive schlagen wir DMLR vor, ein Dynamic Multimodal Latent Reasoning Framework zur Testzeit, das konfidenzgesteuerte latente Policy-Gradienten-Optimierung einsetzt, um latente Denk-Tokens für tiefgehendes Reasoning zu verfeinern. Darüber hinaus wird eine Dynamic Visual Injection Strategy eingeführt, die die relevantesten visuellen Merkmale für jedes latente Denk-Token abruft und den Satz der besten visuellen Patches aktualisiert. Die aktualisierten Patches werden dann in das latente Denk-Token injiziert, um eine dynamische visuell-textuelle Verschachtelung zu erreichen. Experimente über sieben multimodale Reasoning-Benchmarks und verschiedene Modellarchitekturen hinweg demonstrieren, dass DMLR die Reasoning- und Wahrnehmungsleistung signifikant verbessert und dabei eine hohe Inferenzeffizienz beibehält.

Vibe-Räume für kreative Vernetzung und visuellen Konzeptausdruck
Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Dec 16

ByHuzheng Yang, Katherine Xu, Andrew Lu, Michael D. Grossberg, Yutong Bai, Jianbo Shi

Die Erstellung neuer visueller Konzepte erfordert oft die Verbindung unterschiedlicher Ideen über deren relevanteste gemeinsame Attribute – ihre "Vibe". Wir stellen Vibe Blending vor, eine neuartige Aufgabe zur Erzeugung kohärenter und bedeutungsvoller Hybride, die diese gemeinsamen Attribute zwischen Bildern aufdeckt. Die Realisierung solcher Mischungen stellt aktuelle Methoden vor Herausforderungen, da sie Schwierigkeiten haben, nichtlineare Pfade zu identifizieren und zu durchlaufen, die distante Konzepte im latenten Raum verbinden. Wir schlagen den Vibe Space vor, eine hierarchische Graph-Mannigfaltigkeit, die niedrigdimensionale Geodäten in Feature-Räumen wie CLIP lernt und so sanfte, semantisch konsistente Übergänge zwischen Konzepten ermöglicht. Zur Bewertung der kreativen Qualität entwerfen wir einen kognitiv inspirierten Rahmen, der menschliche Beurteilungen, LLM-basiertes Reasoning und einen geometrischen, pfadbasierten Schwierigkeits-Score kombiniert. Wir stellen fest, dass Vibe Space Mischungen erzeugt, die von Menschen durchgängig als kreativer und kohärenter bewertet werden als die Ergebnisse aktueller Methoden.

TabReX: Tabellarische referenzlose erklärbare Evaluierung
TabReX : Tabular Referenceless eXplainable Evaluation

Dec 17

ByTejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta

Die Bewertung der Qualität von Tabellen, die von großen Sprachmodellen (LLMs) generiert werden, bleibt eine ungelöste Herausforderung: bestehende Metriken glätten Tabellen entweder zu Text und ignorieren deren Struktur, oder sie stützen sich auf feste Referenzen, was die Generalisierbarkeit einschränkt. Wir stellen TabReX vor, ein referenzloses, eigenschaftsgetriebenes Framework zur Bewertung tabellarischer Generierung mittels graphenbasierter Reasoning-Verfahren. TabReX wandelt sowohl Quelltext als auch generierte Tabellen in kanonische Wissensgraphen um, bringt diese durch einen LLM-gesteuerten Abgleichprozess in Übereinstimmung und berechnet interpretierbare, rubrikensensitive Scores, die strukturelle und faktische Treue quantifizieren. Die resultierende Metrik ermöglicht kontrollierbare Kompromisse zwischen Sensitivität und Spezifität und führt zu menschenähnlichen Bewertungen sowie feingranularen Fehlernachverfolgungen auf Zellebene. Um die Robustheit der Metrik systematisch zu bewerten, führen wir TabReX-Bench ein, einen umfangreichen Benchmark, der sechs Domänen und zwölf planergesteuerte Störungstypen über drei Schwierigkeitsstufen hinweg abdeckt. Empirische Ergebnisse zeigen, dass TabReX die höchste Korrelation mit Expertenrankings erreicht, unter stärkeren Störungen stabil bleibt und eine feingranulare Modell-vs.-Prompt-Analyse ermöglicht, wodurch ein neues Paradigma für vertrauenswürdige, erklärbare Bewertung strukturierter Generierungssysteme etabliert wird.

Verbesserung rekursiver Transformer mit Mixture of LoRAs
Improving Recursive Transformers with Mixture of LoRAs

Dec 14

ByMohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian

Parameter-Sharing in rekurrenten Transformatoren reduziert die Modellgröße, schränkt jedoch die Ausdrucksfähigkeit pro Schicht ein. Wir stellen Mixture of LoRAs (MoL) vor, einen leichtgewichtigen Conditional-Computation-Mechanismus, der Low-Rank Adaptation (LoRA)-Experten in ein gemeinsames Feed-Forward-Netzwerk (FFN) einfügt. MoL ermöglicht eine token-konditionale Gewichtsraummodulation des gemeinsamen FFN, ohne die Parameter des Backbones zu lösen – im Gegensatz zu früheren Ansätzen, die feste oder extern angehängte Adapter hinzufügen. Wir pretrainieren eine modernisierte rekurrente Architektur, ModernALBERT, die Rotary Embeddings, GeGLU, FlashAttention und eine distilleriebasierte Initialisierung integriert. Auf GLUE, SQuAD-v2 und BEIR erzielt ModernALBERT (50M–120M) state-of-the-art Leistungen unter kompakten Modellen und übertrifft größere, vollständig parametrisierte Baselines. Wir schlagen zudem ein Verfahren zur Expertenzusammenführung vor, das MoL zur Inferenzzeit unter Wahrung der Genauigkeit in einen einzelnen Adapter komprimiert und so einen effizienten Einsatz ermöglicht. Unsere Ergebnisse zeigen, dass eine konditionale Gewichtsraummodulation die bei aggressivem Parameter-Sharing in rekurrenten Transformatoren verlorene Ausdrucksfähigkeit effektiv wiederherstellt.

EmoCaliber: Fortschritt in der zuverlässigen visuellen Emotionserkennung durch Konfidenzverbalisierung und Kalibrierung
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Dec 17

ByDaiqing Wu, Dongbao Yang, Can Ma. Yu Zhou

Visuelle Emotionserkennung (VEC) zielt darauf ab, Stimmungspolaritäten oder Emotionskategorien aus affektiven Hinweisen in Bildern abzuleiten. In den letzten Jahren haben Multimodale Large Language Models (MLLMs) ein populäres Paradigma in der VEC etabliert, indem sie ihre Generalisierbarkeit nutzen, um VEC-Aufgaben zu vereinheitlichen, die unter verschiedenen Emotionstaxonomien definiert sind. Während dieses Paradigma bemerkenswerte Erfolge erzielt, formuliert es VEC typischerweise als eine deterministische Aufgabe, die vom Modell verlangt, für jedes Bild ein einziges, definitives Emotionslabel auszugeben. Eine solche Formulierung berücksichtigt die inhärente Subjektivität der Emotionswahrnehmung unzureichend und übersieht alternative Interpretationen, die für verschiedene Betrachter gleichermaßen plausibel sein könnten. Um diese Einschränkung zu adressieren, schlagen wir vor, MLLMs mit der Fähigkeit auszustatten, ihr Vertrauen in Emotionsvorhersagen zu verbalisieren. Dieses zusätzliche Signal gibt Nutzern eine Einschätzung sowohl der Plausibilität alternativer Interpretationen als auch der selbsteingeschätzten Kompetenz der MLLMs und erhöht so die Zuverlässigkeit in der Praxis. Aufbauend auf dieser Erkenntnis führen wir ein dreistufiges Trainingsframework ein, das MLLMs schrittweise strukturiertes Reasoning verleiht, sie lehrt, Vertrauen zu verbalisieren, und den Vertrauensausdruck kalibriert. Dies gipfelt in EmoCaliber, einem vertrauensbewussten MLLM für VEC. Durch faire und umfassende Evaluierungen auf dem einheitlichen Benchmark VECBench demonstriert EmoCaliber eine insgesamt überlegene Leistung gegenüber bestehenden Methoden sowohl in der Emotionsvorhersage als auch in der Vertrauensschätzung. Diese Ergebnisse validieren die Wirksamkeit unseres Ansatzes und markieren einen machbaren Schritt hin zu zuverlässigeren VEC-Systemen. Projektseite: https://github.com/wdqqdw/EmoCaliber.

Nemotron-Math: Effiziente Distillation mathematischen Denkvermögens mit langem Kontext durch Multi-Modus-Aufsicht
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Dec 17

ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman

Hochwertige mathematische Denkfähigkeiten erfordern vielfältige Lösungsansätze, langkettige Lösungswege und effektive Werkzeugintegration – Eigenschaften, die bestehende Datensätze nur begrenzt bieten. Durch Nutzung der multimodalen Generierungsfähigkeiten von GPT-OSS-120B stellen wir Nemotron-Math vor, einen großangelegten mathematischen Denkdatensatz mit 7,5 Millionen Lösungswegen in hohen, mittleren und niedrigen Schwierigkeitsgraden, jeweils verfügbar mit und ohne Python-Werkzeugintegration (TIR). Der Datensatz vereint 85.000 kuratierte AoPS-Probleme mit 262.000 community-basierten StackExchange-Math-Problemen und kombiniert damit strukturierte Wettbewerbsaufgaben mit vielfältigen mathematischen Fragestellungen aus der Praxis. Wir führen kontrollierte Evaluationen zur Bewertung der Datensatzqualität durch. Nemotron-Math übertrifft durchgängig das ursprüngliche OpenMathReasoning bei vergleichbaren AoPS-Problemen. Die Integration von StackExchange-Math verbessert die Robustheit und Generalisierungsfähigkeit erheblich, insbesondere bei HLE-Math, bei gleichbleibender Genauigkeit auf mathematischen Wettbewerbsbenchmarks. Zur Unterstützung effizienten Langkontext-Trainings entwickelten wir eine sequenzielle Bucketing-Strategie, die Feinabstimmungen mit 128K Kontextlänge um das 2- bis 3-fache beschleunigt, ohne signifikante Genauigkeitseinbußen. Insgesamt ermöglicht Nemotron-Math Spitzenleistungen, einschließlich 100 % maj@16-Genauigkeit auf AIME 2024 und 2025 mit Python-TIR.

Zustandsverwaltung zwischen Prompts und Programmen
Sharing State Between Prompts and Programs

Dec 16

ByEllie Y. Cheng, Logan Weber, Tian Jin, Michael Carbin

Der Aufstieg großer Sprachmodelle (LLMs) hat eine neue Art der Programmierung eingeführt: die Programmierung mit natürlicher Sprache. Indem sie Prompts verfassen, die LLMs anweisen, natürliche Sprachverarbeitung, Code-Generierung, logisches Schließen usw. durchzuführen, schreiben Benutzer Code in natürlicher Sprache – Natural Language Code –, der vom LLM ausgeführt wird. Ein aufstrebendes Forschungsgebiet ermöglicht die Interoperabilität zwischen Natural Language Code und formalen Sprachen wie Python. Wir stellen eine neuartige Programmierabstraktion vor, den gemeinsamen Programmzustand (Shared Program State), der die manuelle Arbeit zur Ermöglichung der Interoperabilität zwischen Natural Language Code und dem Programmzustand überflüssig macht. Mit einem gemeinsamen Programmzustand können Programmierer natürlichen Code schreiben, der direkt Programmvariablen beschreibt, mit Programmobjekten rechnet und Kontrollfluss im Programm implementiert. Wir stellen ein Schema zur Spezifikation von Natural Function Interfaces vor, das Programmierumgebungen erweitert, um natürlichen Code zu unterstützen, und nutzen dieses Schema, um den gemeinsamen Programmzustand als ein Natural Function Interface zu spezifizieren. Wir implementieren den gemeinsamen Programmzustand im Nightjar-Programmiersystem. Nightjar ermöglicht es Programmierern, Python-Programme zu schreiben, die natürlichen Code enthalten, der sich den Python-Programmzustand teilt. Wir zeigen, dass Nightjar-Programme eine vergleichbare oder höhere Aufgabengenauigkeit erreichen als manuell geschriebene Implementierungen (+4-19 %), bei gleichzeitiger Reduzierung der Codezeilen um durchschnittlich 39,6 %. Der Kompromiss bei der Verwendung von Nightjar ist ein potenzieller Laufzeit-Overhead (0,4-4,3-fache Laufzeit manueller Implementierungen).

papers.title

papers.description

Kling-Omni Technischer Bericht
Kling-Omni Technical Report

Dec 18

122

Adaptation agentiver KI
Adaptation of Agentic AI

Dec 18

LLaDA2.0: Skalierung von Diffusions-Sprachmodellen auf 100B
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

Next-Embedding-Vorhersage macht starke visuelle Lernmodelle
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

StereoPilot: Lernen einheitlicher und effizienter Stereoumwandlung durch generative A-priori-Informationen
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

Seedance 1.5 Pro: Ein natives audiovisuelles Joint-Generation-Foundation-Modell
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

Depth Any Panoramas: Ein Grundmodell für die Panorama-Tiefenschätzung
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

Generative Refokusierung: Flexible Schärfentiefenkontrolle aus einem einzigen Bild
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

DeContext als Verteidigung: Sicheres Bildbearbeiten in Diffusion Transformern
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Alchemist: Steigerung der Effizienz beim Training von Text-zu-Bild-Modellen durch Meta-Gradienten-basierte Datenauswahl
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

Die Welt ist deine Leinwand: Erzeugung anpassbarer Ereignisse mit Referenzbildern, Trajektorien und Text
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

REGLUE: Verknüpfen Sie Ihre Latents mit globaler und lokaler Semantik für verschränkte Diffusion
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

N3D-VLM: Native 3D-Verankerung ermöglicht präzises räumliches Schließen in Vision-Language-Modellen
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

JustRL: Skalierung eines 1,5-Milliarden-Parameter-LLMs mit einem einfachen RL-Rezept
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

AdaTooler-V: Adaptive Werkzeugnutzung für Bilder und Videos
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

EasyV2V: Ein hochwertiges, befehlsgestütztes Videobearbeitungsframework
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

FlashPortrait: 6-fach schnellere unendliche Porträtanimation mit adaptiver latenter Vorhersage
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

Multimodales RewardBench 2: Bewertung omnimodaler Belohnungsmodelle für verschachtelten Text und Bilder
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

Exploration vs. Exploitation: Eine Neubetrachtung von RLVR durch Clipping, Entropie und trügerische Belohnungen
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

RePlan: Planungsgesteuerte Bereichsauswahl für komplexe, instruktionsbasierte Bildbearbeitung
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

ModelTables: Ein Korpus von Tabellen über Modelle
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grounding-Aufgaben
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

Hören zum Übersetzen: Die Effektivität der Integration von Sprachmodalitäten in LLMs
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

Unterschiede, die zählen: Überprüfung von Modellen zur Ermittlung und Behebung von Fähigkeitslücken
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

Insight Miner: Ein Zeitreihenanalyse-Datensatz für domänenübergreifende Ausrichtung mit natürlicher Sprache
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang