KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Große Sprachmodelle und Versagen mathematischer Schlussfolgerungen
Large Language Models and Mathematical Reasoning Failures

Johan Boye, Birger Moell•Feb 17, 2025•33

EQ-VAE: Äquivarianz-regulierter Latent Space für verbesserte generative Bildmodellierung
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis•Feb 13, 2025•72

Dyve: Denken Schnell und Langsam für die Verifizierung Dynamischer Prozesse
Dyve: Thinking Fast and Slow for Dynamic Process Verification

Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu•Feb 16, 2025•72

Verbesserte Einbettungen mit gekoppeltem Adam.
Better Embeddings with Coupled Adam

Felix Stollenwerk, Tobias Stollenwerk•Feb 12, 2025•13

Die Illusion der Modellbearbeitung: Eine Neubewertung in der Praxis
The Mirage of Model Editing: Revisiting Evaluation in the Wild

Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng•Feb 16, 2025•102

Richtung dateneffizientes Vortraining für die Vorhersage atomarer Eigenschaften
Towards Data-Efficient Pretraining for Atomic Property Prediction

Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem•Feb 16, 2025•33

ReLearn: Vergessen durch Lernen für große Sprachmodelle
ReLearn: Unlearning via Learning for Large Language Models

Haoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang•Feb 16, 2025•292

Diffusionsmodelle ohne Classifier-free Guidance
Diffusion Models without Classifier-free Guidance

Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo•Feb 17, 2025•72

Speicher, Benchmark & Roboter: Ein Benchmark zur Lösung komplexer Aufgaben mit Bestärkendem Lernen
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov•Feb 14, 2025•52

Sprachkomplexitätsmessung als rauschhafter Null-Schuss-Proxy zur Bewertung der Leistung von LLM.
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

Birger Moell, Johan Boye•Feb 17, 2025•02

Zeig mir die Arbeit: Anforderungen von Faktenprüfern an erklärbares automatisiertes Faktenprüfen
Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking

Greta Warren, Irina Shklovski, Isabelle Augenstein•Feb 13, 2025•42

Diffusions-Schärfung: Feinabstimmung von Diffusionsmodellen mit Rauschunterdrückung durch Trajektorienschärfung.
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui•Feb 17, 2025•163

SAFE-SQL: Selbst-erweitertes In-Context-Lernen mit feinkörniger Beispielauswahl für Text-to-SQL
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Jimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee•Feb 17, 2025•72

Explorer: Skalierbare, explorationsgetriebene Web-Trajektorien-Synthese für multimodale Web-Agenten
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah•Feb 17, 2025•102

Aufbau eines Beweisorientierten Programmierers, der unter Datenknappheit um 64% besser ist als GPT-4o
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Dylan Zhang, Justin Wang, Tianran Sun•Feb 17, 2025•62

Ein Beispiel gezeigt, viele Konzepte bekannt! Gegenbeispiel-getriebene konzeptuelle Schlussfolgerung in mathematischen LLMs.
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs

Yinghui Li, Jiayi Kuang, Haojing Huang, Zhikun Xu, Xinnian Liang, Yi Yu, Wenlian Lu, Yangning Li, Xiaoyu Tan, Chao Qu, Ying Shen, Hai-Tao Zheng, Philip S. Yu•Feb 12, 2025•72

PhysReason: Ein umfassender Maßstab für physikbasiertes Schlussfolgern.
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu•Feb 17, 2025•72

Video-SALMONN-01: Ein Audio-visuelles Großes Sprachmodell mit verbessertem Schlussfolgern.
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang•Feb 17, 2025•82

Kuckuck: Ein IE-Freifahrer, der durch massive Ernährung im Nest von LLM ausgebrütet wurde.
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang•Feb 16, 2025•62

Fragen in jeder Modalität: Eine umfassende Übersicht zur multimodalen retrieval-augmentierten Generierung
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari•Feb 12, 2025•172

Ich denke, also ich verbreite: Ermöglichung multimodaler kontextbezogener Schlussfolgerungen in Diffusionsmodellen
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu•Feb 12, 2025•353

Wie erwerben LLMs neues Wissen? Eine Perspektive auf Wissenskreisläufe beim kontinuierlichen Vor-Training.
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen•Feb 16, 2025•226

Systemnachrichtenerstellung für Benutzervorlieben unter Verwendung von Open-Source-Modellen
System Message Generation for User Preferences using Open-Source Models

Minbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong•Feb 17, 2025•152

Lernen von Aufsteh-Policies für humanoide Roboter in der realen Welt
Learning Getting-Up Policies for Real-World Humanoid Robots

Xialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta•Feb 17, 2025•423

ILIAS: Instanzbasierte Bildsuche in großem Maßstab
ILIAS: Instance-Level Image retrieval At Scale

Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias•Feb 17, 2025•42

Natürliche Sparse Attention: Hardware-ausgerichtet und nativ trainierbare Sparse Attention
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng•Feb 16, 2025•15510

KRANICH: Schlussfolgerung mit eingeschränkter LLM-Generierung
CRANE: Reasoning with constrained LLM generation

Debangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh•Feb 13, 2025•192

IHEval: Bewertung von Sprachmodellen hinsichtlich der Einhaltung der Instruktionshierarchie
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang•Feb 12, 2025•192

Sailor2: Segeln in Südostasien mit inklusiven mehrsprachigen LLMs
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin•Feb 18, 2025•174

Kann ein einziges Modell sowohl mehrschrittige Konversationen als auch Werkzeugnutzung beherrschen? CALM: Ein einheitliches konversationelles agentenbasiertes Sprachmodell
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur•Feb 12, 2025•52

ExaGPT: Beispielbasierte Erkennung maschinell erzeugter Texte für menschliche Interpretierbarkeit
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki•Feb 17, 2025•12

Datenbewertung mittels neuronaler Netze für effizientes Instruction Fine-Tuning
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

Ishika Agarwal, Dilek Hakkani-Tür•Feb 14, 2025•12

Intuitives Verständnis der Physik entsteht aus selbstüberwachtem Pretraining an natürlichen Videos.
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun•Feb 17, 2025•192

Strukturell sprechen, hierarchisch handeln: Ein kollaborativer Rahmen für LLM-Mehragentensysteme.
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Zhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu•Feb 16, 2025•132

SWE-Lancer: Können Frontier LLMs 1 Million US-Dollar durch freiberufliche Softwaretechnik in der realen Welt verdienen?
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke•Feb 17, 2025•455

SURGE: Über das Potenzial großer Sprachmodelle als universelle Ersatzcodeausführer
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Bohan Lyu, Siqiao Huang, Zichen Liang•Feb 16, 2025•102

MagicArticulate: Machen Sie Ihre 3D-Modelle bereit für Artikulation
MagicArticulate: Make Your 3D Models Articulation-Ready

Chaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin•Feb 17, 2025•82

HermesFlow: Nahtloses Schließen der Lücke in der multimodalen Verständnis- und Generierungsfähigkeit
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui•Feb 17, 2025•162