ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
June 4th, 2025
Reflektieren, Wiederholen, Belohnen: Selbstverbessernde LLMs durch Reinforcement Learning
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh
•
May 30, 2025
•
168
4
UniWorld: Hochauflösende semantische Encoder für einheitliches visuelles Verständnis und Generierung
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
•
Jun 3, 2025
•
55
2
VS-Bench: Bewertung von VLMs für strategisches Denken und Entscheidungsfindung in Multi-Agenten-Umgebungen
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
•
Jun 3, 2025
•
55
3
SynthRL: Skalierung visueller Schlussfolgerungen durch verifizierbare Datensynthese
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
•
Jun 2, 2025
•
49
2
CSVQA: Ein chinesischer multimodaler Benchmark zur Bewertung der STEM-Argumentationsfähigkeiten von VLMs
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
•
May 30, 2025
•
47
4
GUI-Actor: Koordinatenfreie visuelle Verankerung für GUI-Agenten
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
•
Jun 3, 2025
•
37
3
FinMME: Benchmark-Datensatz für die Bewertung finanzieller Multi-Modaler Argumentation
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
•
May 30, 2025
•
34
3
OmniSpatial: Auf dem Weg zu einem umfassenden Benchmark für räumliches Denken in visuell-sprachlichen Modellen
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
•
Jun 3, 2025
•
33
2
OThink-R1: Intrinsischer Wechsel zwischen schnellem/langsamem Denkmodus zur Minderung von Überdenken
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
•
Jun 3, 2025
•
33
2
Visuelles verkörpertes Gehirn: Lassen Sie multimodale große Sprachmodelle sehen, denken und in Räumen steuern
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu
•
May 30, 2025
•
32
5
Sparse-vDiT: Die Kraft der Sparse-Attention nutzen, um Video-Diffusion-Transformer zu beschleunigen
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
•
Jun 3, 2025
•
27
2
DINGO: Eingeschränkte Inferenz für Diffusions-LLMs
DINGO: Constrained Inference for Diffusion LLMs
Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
•
May 29, 2025
•
26
2
Robot-R1: Verstärkendes Lernen zur verbesserten verkörperten Entscheidungsfindung in der Robotik
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
•
May 29, 2025
•
25
2
MotionSight: Verbesserung des feinkörnigen Bewegungsverständnisses in multimodalen LLMs
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
•
Jun 2, 2025
•
24
2
Co-Evolution von LLM-Codierer und Unit-Tester durch Reinforcement Learning
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
•
Jun 3, 2025
•
22
2
AnimeShooter: Ein Multi-Shot-Animationsdatensatz für referenzgesteuerte Videogenerierung
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
•
Jun 3, 2025
•
22
2
Negative-geführte Subjekttreue-Optimierung für null-Shot Subjektgetriebene Generierung
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon
•
Jun 4, 2025
•
21
2
LumosFlow: Bewegungsgesteuerte Erzeugung langer Videos
LumosFlow: Motion-Guided Long Video Generation
Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
•
Jun 3, 2025
•
18
2
Native-Resolution-Bildsynthese
Native-Resolution Image Synthesis
Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
•
Jun 3, 2025
•
17
3
RelationAdapter: Lernen und Übertragen visueller Beziehungen mit Diffusions-Transformern
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang
•
Jun 3, 2025
•
15
2
DCM: Dual-Expert-Konsistenzmodell für effiziente und hochwertige Videogenerierung
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
•
Jun 3, 2025
•
14
2
FlowMo: Varianzbasierte Flusssteuerung für kohärente Bewegung in der Videogenerierung
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
•
Jun 1, 2025
•
14
2
Datenblätter reichen nicht aus: DataRubrics für automatisierte Qualitätsmetriken und Rechenschaftspflicht
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
•
Jun 2, 2025
•
12
2
PCoreSet: Effektives aktives Lernen durch Wissensdistillation von Vision-Sprache-Modellen
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
•
Jun 1, 2025
•
10
3
Ctrl-Crash: Kontrollierbare Diffusion für realistische Autounfälle
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
•
May 30, 2025
•
10
3
Training von Sprachmodellen zur Erzeugung qualitativ hochwertigen Codes mit Programmanalyse-Feedback
Training Language Models to Generate Quality Code with Program Analysis Feedback
Feng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang
•
May 28, 2025
•
9
4
Selbstherausfordernde Sprachmodell-Agenten
Self-Challenging Language Model Agents
Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar
•
Jun 2, 2025
•
8
2
Bewegungsbewusste Konzeptausrichtung für konsistente Videobearbeitung
Motion-Aware Concept Alignment for Consistent Video Editing
Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
•
Jun 1, 2025
•
7
2
ORV: 4D belegungszentrierte Robotervideogenerierung
ORV: 4D Occupancy-centric Robot Video Generation
Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao
•
Jun 3, 2025
•
6
2
Beschleunigung von Diffusions-LLMs durch adaptives paralleles Decodieren
Accelerating Diffusion LLMs via Adaptive Parallel Decoding
Daniel Israel, Guy Van den Broeck, Aditya Grover
•
May 31, 2025
•
6
2
MERIT: Multilinguale semantische Abfrage mit verschachtelten Mehrfachbedingungen
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li
•
Jun 3, 2025
•
3
2
FuseLIP: Multimodale Einbettungen durch frühe Fusion diskreter Tokens
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
•
Jun 3, 2025
•
3
2
Multimodaler DeepResearcher: Generierung von Text-Diagramm-verflochtenen Berichten Von Grund auf mit agentenbasiertem Framework
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen
•
Jun 3, 2025
•
3
2
Ein fehlendes Puzzleteil für Open-Source-Modelle des logischen Schließens: Ein Datensatz zur Milderung des Kaltstartproblems bei kurzschrittigen CoT-LLMs in RL
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
•
Jun 3, 2025
•
3
2
Winkel lügen nicht: Effizientes Training in Reinforcement Learning durch die Signale des Modells selbst freischalten
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals
Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen
•
Jun 2, 2025
•
3
2
Hanfu-Bench: Ein multimodaler Benchmark für intertemporales Kulturverständnis und Transkreation
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li
•
Jun 2, 2025
•
3
2
ReFoCUS: Verstärkungsgeleitete Rahmenoptimierung für kontextuelles Verständnis
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding
Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro
•
Jun 2, 2025
•
3
2
SHARE: Ein hierarchischer Aktionskorrekturassistent für Text-zu-SQL basierend auf SLM
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL
Ge Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng
•
May 31, 2025
•
3
2
Wie viel Backtracking ist ausreichend? Untersuchung des Zusammenspiels von SFT und RL bei der Verbesserung des logischen Denkens von LLMs
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
•
May 30, 2025
•
3
2
Deep Video Discovery: Agentische Suche mit Werkzeugnutzung für das Verständnis von Langform-Videos
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
•
May 23, 2025
•
3
2
Steuerbare menschzentrierte Keyframe-Interpolation mit generativem Prior
Controllable Human-centric Keyframe Interpolation with Generative Prior
Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
•
Jun 3, 2025
•
2
2
TL;DR: Zu lang, Gewichtung neu anpassen für effiziente LLM-Rationalkompression
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
•
Jun 3, 2025
•
2
2
M^3FinMeeting: Ein mehrsprachiger, multisektoraler und multitaskfähiger Evaluierungsdatensatz für das Verständnis von Finanzmeetings
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
•
Jun 3, 2025
•
2
2
QARI-OCR: Hochpräzise arabische Texterkennung durch Adaption multimodaler großer Sprachmodelle
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation
Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila
•
Jun 2, 2025
•
2
2
Control-R: Auf dem Weg zu kontrollierbarer Skalierung zur Testzeit
Control-R: Towards controllable test-time scaling
Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
•
May 30, 2025
•
2
2
R^2ec: Auf dem Weg zu großen Empfehlungsmodellen mit logischem Denken
R^2ec: Towards Large Recommender Models with Reasoning
Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
•
May 22, 2025
•
2
2
ByteMorph: Benchmarking für instruktionsgesteuertes Bildbearbeiten mit nicht-starren Bewegungen
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
•
Jun 3, 2025
•
1
2
Neubetrachtung von LRP: Positionsbezogene Attribution als das fehlende Element für die Erklärbarkeit von Transformatoren
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability
Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf
•
Jun 2, 2025
•
1
3
Jenseits des In-Context-Lernens: Ausrichtung der langfristigen Generierung großer Sprachmodelle durch aufgabeninhärente Attributrichtlinien
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines
Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
•
Jun 2, 2025
•
1
2
Wissen vor dem Sprechen: LLM-Repräsentationen kodieren Informationen über den Erfolg von Gedankenketten vor der Vollendung
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion
Anum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser
•
May 30, 2025
•
1
2