KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

FINEREASON: Bewertung und Verbesserung des gezielten Denkens von LLMs durch reflektives Rätsellösen
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving

Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Chaoqun Liu, Lidong Bing, Deli Zhao, Anh Tuan Luu, Yu Rong•Feb 27, 2025•242

UniTok: Ein einheitlicher Tokenizer für visuelle Erzeugung und Verständnis
UniTok: A Unified Tokenizer for Visual Generation and Understanding

Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi•Feb 27, 2025•302

Training von Konsistenzmodellen mit variationaler Rauschkopplung
Training Consistency Models with Variational Noise Coupling

Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji•Feb 25, 2025•72

CODESYNC: Synchronisierung großer Sprachmodelle mit dynamischer Code-Entwicklung im großen Maßstab
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

Chenlong Wang, Zhaoyang Chu, Zhengxiang Cheng, Xuyi Yang, Kaiyue Qiu, Yao Wan, Zhou Zhao, Xuanhua Shi, Dongping Chen•Feb 23, 2025•222

Effizientes Gauss'sches Splatting zur monokularen dynamischen Szenenrendering durch sparsame zeitvariante Attributmodellierung.
Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

Hanyang Kong, Xingyi Yang, Xinchao Wang•Feb 27, 2025•42

Über relationsspezifische Neuronen in großen Sprachmodellen
On Relation-Specific Neurons in Large Language Models

Yihong Liu, Runsheng Chen, Lea Hirlimann, Ahmad Dawar Hakimi, Mingyang Wang, Amir Hossein Kargaran, Sascha Rothe, François Yvon, Hinrich Schütze•Feb 24, 2025•72

Mobius: Generierung nahtloser Loop-Videos aus Text durch latente Verschiebung
Mobius: Text to Seamless Looping Video Generation via Latent Shift

Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao•Feb 27, 2025•192

Multimodale Repräsentationsausrichtung für die Bildgenerierung: Text-Bild-Interleaved-Steuerung ist einfacher als gedacht
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang•Feb 27, 2025•283

Model with Enhanced Contextual Understanding Abstract: In this paper, we introduce NeoBERT, a novel transformer-based language model that builds upon the BERT architecture while addressing its limitations in contextual comprehension. NeoBERT incorporates three key innovations: (1) a dynamic attention mechanism that adapts to varying context lengths, (2) a hierarchical token representation that captures both local and global dependencies, and (3) a knowledge distillation framework that enhances the model's ability to generalize across domains. Extensive experiments on benchmark datasets demonstrate that NeoBERT outperforms existing BERT variants in tasks requiring deep contextual understanding, such as question answering and text summarization. Our results suggest that NeoBERT represents a significant step forward in transformer-based language modeling, offering improved performance while maintaining computational efficiency. Keywords: Natural Language Processing, Transformer Models, Contextual Understanding, Knowledge DistillationNeoBERT: Ein BERT-Modell der nächsten Generation mit verbessertem kontextuellem Verständnis Zusammenfassung: In diesem Artikel stellen wir NeoBERT vor, ein neuartiges transformer-basiertes Sprachmodell, das auf der BERT-Architektur aufbaut und gleichzeitig deren Einschränkungen im kontextuellen Verständnis adressiert. NeoBERT integriert drei wesentliche Innovationen: (1) einen dynamischen Aufmerksamkeitsmechanismus, der sich an unterschiedliche Kontextlängen anpasst, (2) eine hierarchische Token-Darstellung, die sowohl lokale als auch globale Abhängigkeiten erfasst, und (3) ein Wissensdistillations-Framework, das die Fähigkeit des Modells zur domänenübergreifenden Generalisierung verbessert. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass NeoBERT bestehende BERT-Varianten bei Aufgaben, die ein tiefes kontextuelles Verständnis erfordern, wie z.B. Fragebeantwortung und Textzusammenfassung, übertrifft. Unsere Ergebnisse deuten darauf hin, dass NeoBERT einen bedeutenden Fortschritt im transformer-basierten Sprachmodellierung darstellt, der eine verbesserte Leistung bei gleichzeitiger Beibehaltung der Recheneffizienz bietet. Schlüsselwörter: Natürliche Sprachverarbeitung, Transformer-Modelle, Kontextuelles Verständnis, Wissensdistillation
NeoBERT: A Next-Generation BERT

Lola Le Breton, Quentin Fournier, Mariam El Mezouar, Sarath Chandar•Feb 26, 2025•396

SoRFT: Problemlösung durch subtaskorientiertes verstärktes Feintuning
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie•Feb 27, 2025•92

Hüter des agentischen Systems: Verhindern des Many Shots Jailbreaks mit dem agentischen System.
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehnaz Khaled, Ahmedul Kabir•Feb 23, 2025•102

MedVLM-R1: Förderung der medizinischen Denkfähigkeit von Vision-Language-Modellen (VLMs) durch Reinforcement Learning
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert•Feb 26, 2025•633

LongRoPE2: Nahezu verlustfreie Skalierung des Kontextfensters für LLMs
LongRoPE2: Near-Lossless LLM Context Window Scaling

Ning Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang•Feb 27, 2025•382

R2-T2: Umleitung während der Testzeit für Multimodale Mixture-of-Experts
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

Zhongyang Li, Ziyue Li, Tianyi Zhou•Feb 27, 2025•475

Selbstbelohnende Korrektur für mathematisches Denken
Self-rewarding correction for mathematical reasoning

Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang•Feb 26, 2025•846

R1-T1: Vollständige Anreizsetzung für Übersetzungsfähigkeiten in LLMs durch Reasoning-Lernen
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie•Feb 27, 2025•92

Erstellung interaktiver Repliken komplexer artikulierter Objekte mittels Gaußscher Splatting
Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Yu Liu, Baoxiong Jia, Ruijie Lu, Junfeng Ni, Song-Chun Zhu, Siyuan Huang•Feb 26, 2025•112

FlexiDiT: Ihr Diffusion Transformer kann mühelos hochwertige Samples mit weniger Rechenleistung erzeugen
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute

Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld•Feb 27, 2025•202

PlanGEN: Ein Multi-Agenten-Framework zur Generierung von Planungs- und Begründungspfaden für komplexe Problemlösungen.
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving

Mihir Parmar, Xin Liu, Palash Goyal, Yanfei Chen, Long Le, Swaroop Mishra, Hossein Mobahi, Jindong Gu, Zifeng Wang, Hootan Nakhost, Chitta Baral, Chen-Yu Lee, Tomas Pfister, Hamid Palangi•Feb 22, 2025•95

Schlank und Effizient: Entkoppelte Wertpolitikoptimierung mit globaler Wertführung
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang•Feb 24, 2025•102

Über Next-Token hinaus: Next-X Vorhersage für autoregressive visuelle Generierung
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen•Feb 27, 2025•162