ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Wissensbasis-Konstruktion für wissensgestütztes Text-zu-SQL
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL

Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya•May 28, 2025•11

Reverse Preference Optimization für komplexe Anweisungsbefolgung
Reverse Preference Optimization for Complex Instruction Following

Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li•May 28, 2025•31

Der Entropiemechanismus des Verstärkungslernens für schlussfolgernde Sprachmodelle
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding•May 28, 2025•1123

SWE-rebench: Eine automatisierte Pipeline zur Aufgaben-Sammlung und dekontaminierten Bewertung von Software-Engineering-Agenten
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel•May 26, 2025•842

R2R: Effiziente Navigation divergenter Denkpfade durch Token-Routing zwischen kleinen und großen Modellen
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang•May 27, 2025•682

Skywork Open Reasoner 1 Technischer Bericht
Skywork Open Reasoner 1 Technical Report

Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou•May 28, 2025•526

Sherlock: Selbstkorrigierendes Reasoning in Vision-Sprache-Modellen
Sherlock: Self-Correcting Reasoning in Vision-Language Models

Yi Ding, Ruqi Zhang•May 28, 2025•502

Unüberwachtes Nach-Training für Multi-Modales LLM-Reasoning via GRPO
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

Lai Wei, Yuting Li, Chen Wang, Yue Wang, Linghe Kong, Weiran Huang, Lichao Sun•May 28, 2025•452

Chain-of-Zoom: Extreme Super-Resolution durch Skalenautoregression und Präferenzabgleich
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye•May 24, 2025•434

SageAttention2++: Eine effizientere Implementierung von SageAttention2
SageAttention2++: A More Efficient Implementation of SageAttention2

Jintao Zhang, Xiaoming Xu, Jia Wei, Haofeng Huang, Pengle Zhang, Chendong Xiang, Jun Zhu, Jianfei Chen•May 27, 2025•412

Fortschritt im multimodalen Denken durch Reinforcement Learning mit Kaltstart
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang•May 28, 2025•362

RenderFormer: Transformer-basiertes neuronales Rendering von Dreiecksnetzen mit globaler Beleuchtung
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong•May 28, 2025•333

Förderung von Videoverständnis durch Vorhersage des nächsten Ereignisses
Fostering Video Reasoning via Next-Event Prediction

Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang•May 28, 2025•272

DeepResearchGym: Eine kostenlose, transparente und reproduzierbare Evaluationsumgebung für tiefgehende Forschung
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong•May 25, 2025•252

Hartes Negativ-Mining für domänenspezifische Retrieval in Unternehmenssystemen
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda•May 23, 2025•252

FS-DAG: Few-Shot-Domain-Adaptive Graph-Netzwerke für das Verständnis visuell reicher Dokumente
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

Amit Agarwal, Srikant Panda, Kulbhushan Pachauri•May 22, 2025•222

Universal Reasoner: Ein einzelner, komponierbarer Plug-and-Play-Reasoner für eingefrorene LLMs
Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs

Jaemin Kim, Hangeol Chang, Hyunmin Hwang, Choonghan Kim, Jong Chul Ye•May 25, 2025•212

WebDancer: Auf dem Weg zu autonomer Informationssuche-Agentur
WebDancer: Towards Autonomous Information Seeking Agency

Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou•May 28, 2025•185

Bewertung der Qualität über Sprachen hinweg: Ein mehrsprachiger Ansatz zur Vorverarbeitungsdatenfilterung mit Sprachmodellen
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models

Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting•May 28, 2025•182

Lassen wir Satz für Satz vorhersagen.
Let's Predict Sentence by Sentence

Hyeonbin Hwang, Byeongguk Jeon, Seungone Kim, Jiyeon Kim, Hoyeon Chang, Sohee Yang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo•May 28, 2025•172

Was macht die Text-zu-360-Grad-Panorama-Generierung mit Stable Diffusion aus?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang•May 28, 2025•152

SVRPBench: Ein realistischer Benchmark für das stochastische Fahrzeugroutingproblem
SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem

Ahmed Heakl, Yahia Salaheldin Shaaban, Martin Takac, Salem Lahlou, Zangir Iklassov•May 28, 2025•152

Personalisierte Sicherheit in LLMs: Ein Benchmark und ein Planungsbasierter Agentenansatz
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang•May 24, 2025•142

Token-Reduktion sollte über Effizienz in generativen Modellen hinausgehen -- Von Vision und Sprache zu Multimodalität
Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality

Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik•May 23, 2025•143

Hin zu einer dynamischen Theorie des Geistes: Bewertung der Anpassung von LLMs an die zeitliche Entwicklung menschlicher Zustände
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu•May 23, 2025•142

Denken mit generierten Bildern
Thinking with Generated Images

Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu•May 28, 2025•133

CHIMERA: Eine Wissensdatenbank zur Ideenrekombination in der wissenschaftlichen Literatur
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

Noy Sternlicht, Tom Hope•May 27, 2025•133

Verstärkung des Mehrschrittigen Denkens in LLM-Agenten durch schrittweise Kreditzuweisung
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment

Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong•May 17, 2025•132

LIMOPro: Verfeinerung des Reasoning für effiziente und effektive Skalierung zur Testzeit
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu•May 25, 2025•122

VRAG-RL: Stärkung des visuell basierten RAG für das Verständnis visuell reicher Informationen durch iteratives Schlussfolgern mit Reinforcement Learning
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao•May 28, 2025•103

EPiC: Effizientes Erlernen der Videokamerasteuerung mit präziser Anker-Video-Führung
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal•May 28, 2025•92

RICO: Verbesserung der Genauigkeit und Vollständigkeit bei der Bildbeschreibung durch visuelle Rekonstruktion
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun•May 28, 2025•72

PrismLayers: Offene Daten für hochwertige generative Modelle mehrschichtiger transparenter Bilder
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan•May 28, 2025•62

Text2Grad: Verstärkungslernen aus natürlichem Sprachfeedback
Text2Grad: Reinforcement Learning from Natural Language Feedback

Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang•May 28, 2025•62

Fallstricke regel- und modellbasierter Verifizierer – Eine Fallstudie zum mathematischen Denken
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning

Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He•May 28, 2025•62

Prot2Token: Ein einheitliches Framework für die Proteinmodellierung durch Next-Token-Vorhersage
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction

Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu•May 26, 2025•62

MangaVQA und MangaLMM: Ein Benchmark und spezialisiertes Modell für multimodales Manga-Verständnis
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa•May 26, 2025•62

One-Way Ticket: Zeitunabhängiger einheitlicher Encoder zur Destillation von Text-zu-Bild-Diffusionsmodellen
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

Senmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang•May 28, 2025•52

Genau wie Menschen Impfungen benötigen, brauchen auch Modelle sie: Modellimmunisierung zur Bekämpfung von Falschinformationen.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods

Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis•May 23, 2025•52

Styl3R: Sofortige 3D-stilisierte Rekonstruktion für beliebige Szenen und Stile
Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

Peng Wang, Xiang Liu, Peidong Liu•May 27, 2025•42

Effiziente Datenauswahl im großen Maßstab durch Einflussdestillation
Efficient Data Selection at Scale via Influence Distillation

Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni•May 25, 2025•42

GRE Suite: Geo-Lokalisierungsinferenz durch feinabgestimmte Vision-Sprache-Modelle und verbesserte Argumentationsketten
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song•May 24, 2025•42

Safe-Sora: Sichere Text-zu-Video-Generierung durch grafische Wasserzeichen
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu•May 19, 2025•42

Null-Shot-Vision-Encoder-Veredelung mittels LLM-Surrogaten
Zero-Shot Vision Encoder Grafting via LLM Surrogates

Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein•May 28, 2025•32

FastTD3: Einfaches, schnelles und leistungsfähiges Reinforcement Learning für die Steuerung von Humanoiden
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel•May 28, 2025•32

AITEE – Agentischer Tutor für Elektrotechnik
AITEE -- Agentic Tutor for Electrical Engineering

Christopher Knievel, Alexander Bernhardt, Christian Bernhardt•May 27, 2025•32

HoPE: Hybride Positions-Einbettung für Längengeneralisierung in Vision-Sprache-Modellen
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu•May 26, 2025•32

Benchmarking von Empfehlungen, Klassifizierung und Nachverfolgung basierend auf dem Hugging Face-Wissensgraphen
Benchmarking Recommendation, Classification, and Tracing Based on Hugging Face Knowledge Graph

Qiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng•May 23, 2025•32

Meta-Lernen eines In-Context-Transformer-Modells des höheren visuellen Kortex des Menschen
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo•May 21, 2025•32

Charakterisierung von Verzerrungen: Benchmarking großer Sprachmodelle in vereinfachtem versus traditionellem Chinesisch
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke•May 28, 2025•22

Rechts herum? Entschlüsselung des Orientierungsverständnisses in MLLMs durch fein abgestimmte Multi-Achsen-Wahrnehmungsaufgaben
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer•May 27, 2025•22

Enthüllung instruktionsspezifischer Neuronen und Experten: Ein analytischer Rahmen für die Befolgung von Anweisungen in großen Sprachmodellen
Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities

Junyan Zhang, Yubo Gao, Yibo Yan, Jungang Li, Zhaorui Hou, Sicheng Tao, Shuliang Liu, Song Dai, Yonghua Hei, Junzhuo Li, Xuming Hu•May 27, 2025•21

MUSEG: Stärkung des zeitlichen Verständnisses von Videos durch zeitstempelbewusste Multi-Segment-Verankerung
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding

Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu•May 27, 2025•22

Präzise In-Parameter-Konzeptlöschung in großen Sprachmodellen
Precise In-Parameter Concept Erasure in Large Language Models

Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva•May 28, 2025•12

Auf dem Weg zu skalierbarer Sprach-Bild-Vorverarbeitung für 3D-Medizinbildgebung
Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon•May 28, 2025•12

Können große Sprachmodelle kausale Zusammenhänge aus realen Texten ableiten?
Can Large Language Models Infer Causal Relationships from Real-World Text?

Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah•May 25, 2025•12

First Finish Search: Effiziente Skalierung zur Testzeit in großen Sprachmodellen
First Finish Search: Efficient Test-Time Scaling in Large Language Models

Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty•May 23, 2025•12

IQBench: Wie „intelligent“ sind Vision-Language-Modelle? Eine Studie mit menschlichen IQ-Tests
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy•May 17, 2025•02