ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

MiMo-VL Technischer Bericht
MiMo-VL Technical Report

Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia•Jun 4, 2025•652

AmbiK: Datensatz mehrdeutiger Aufgaben in der Küchenumgebung
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov•Jun 4, 2025•432

Fortschritte im multimodalen Denken: Vom optimierten Kaltstart zum gestuften Reinforcement Learning
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng•Jun 4, 2025•414

Eine kontrollierbare Untersuchung von Sprachmodellen mit langem Kontext
A Controllable Examination for Long-Context Language Models

Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov•Jun 3, 2025•302

MMR-V: Was bleibt ungesagt? Ein Benchmark für multimodales tiefes Schlussfolgern in Videos
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao•Jun 4, 2025•282

SuperWriter: Reflexionsgesteuerte Langform-Generierung mit großen Sprachmodellen
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee•Jun 4, 2025•262

OpenThoughts: Datenrezepte für Reasoning-Modelle
OpenThoughts: Data Recipes for Reasoning Models

Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt•Jun 4, 2025•252

Etablierung vertrauenswürdiger LLM-Evaluierung durch Analyse von Shortcut-Neuronen
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao•Jun 4, 2025•242

Voyager: Langstrecken- und weltkonsistente Videodiffusion zur Erzeugung explorierbarer 3D-Szenen
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation

Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo•Jun 4, 2025•212

VisCoder: Feinabstimmung von LLMs zur Generierung von ausführbarem Python-Visualisierungscode
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

Yuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen•Jun 4, 2025•202

IllumiCraft: Vereinheitlichte Geometrie- und Beleuchtungsdiffusion für kontrollierbare Videogenerierung
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang•Jun 3, 2025•203

Bildbearbeitung als Programme mit Diffusionsmodellen
Image Editing As Programs with Diffusion Models

Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang•Jun 4, 2025•192

Freisetzung des Schlussfolgerungspotenzials vortrainierter LLMs durch Kritik-basiertes Feinabstimmen an einem Problem
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen•Jun 3, 2025•162

Ψ-Sampler: Initiale Partikelabtastung für SMC-basierte Inferenzzeit-Reward-Ausrichtung in Score-Modellen
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung•Jun 2, 2025•162

LayerFlow: Ein einheitliches Modell für schichtbewusste Videogenerierung
LayerFlow: A Unified Model for Layer-aware Video Generation

Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao•Jun 4, 2025•132

DenseDPO: Fein abgestimmte zeitliche Präferenzoptimierung für Video-Diffusionsmodelle
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin•Jun 4, 2025•132

SVGenius: Benchmarking von LLMs im Verständnis, der Bearbeitung und Generierung von SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang•Jun 3, 2025•132

TimeHC-RL: Temporal-bewusstes hierarchisches kognitives Reinforcement Learning zur Steigerung der sozialen Intelligenz von LLMs
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu•May 30, 2025•112

Rectified Sparse Attention
Rectified Sparse Attention

Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei•Jun 4, 2025•92

Orak: Ein grundlegender Benchmark für das Training und die Bewertung von LLM-Agenten in verschiedenen Videospielen
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho•Jun 4, 2025•92

Jenseits der Oberfläche: Messung von Selbstpräferenz in Urteilen von LLMs
Beyond the Surface: Measuring Self-Preference in LLM Judgments

Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin•Jun 3, 2025•82

BenchHub: Eine einheitliche Benchmark-Suite für ganzheitliche und anpassbare LLM-Evaluierung
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh•May 31, 2025•82

TalkingMachines: Echtzeit-Audio-gesteuerte FaceTime-ähnliche Videos mittels autoregressiver Diffusionsmodelle
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Chetwin Low, Weimin Wang•Jun 3, 2025•72

DiffDecompose: Schichtweise Zerlegung von Alpha-komponierten Bildern mittels Diffusion-Transformatoren
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song•May 24, 2025•72

POSS: Positionsspezialist erzeugt bessere Entwürfe für spekulatives Decodieren
POSS: Position Specialist Generates Better Draft for Speculative Decoding

Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang•Jun 4, 2025•62

Robustheit in beiden Domänen: CLIP benötigt einen robusten Text-Encoder
Robustness in Both Domains: CLIP Needs a Robust Text Encoder

Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher•Jun 3, 2025•62

Critique-GRPO: Verbesserung des LLM-Denkens durch natürliche Sprach- und numerische Rückmeldungen
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng•Jun 3, 2025•62

CapSpeech: Ermöglichung nachgelagerter Anwendungen in stilbeschrifteter Text-zu-Sprache
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak•Jun 3, 2025•63

Anpassung vor kontinuierlichem Lernen
Adapt before Continual Learning

Aojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun•Jun 4, 2025•52

Video-Skill-CoT: Fähigkeitsbasierte Gedankenketten für domänenadaptive Videoanalyse
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal•Jun 4, 2025•52

RefEdit: Ein Benchmark und eine Methode zur Verbesserung von instruktionsbasierten Bildbearbeitungsmodellen bei referenziellen Ausdrücken
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions

Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral•Jun 3, 2025•42

Quantitative LLM-Bewerter
Quantitative LLM Judges

Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton•Jun 3, 2025•42

Verbesserung der Wissensdistillation bei unbekannter Kovariatenverschiebung durch vertrauensgeleitete Datenaugmentierung
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott•Jun 2, 2025•42

Folgen Sie dem Fluss: Feinmaschige Flussdiagramm-Zuordnung mit Neurosymbolischen Agenten
Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents

Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Vivek Gupta, Dinesh Manocha•Jun 2, 2025•42

DLP: Dynamisches schichtweises Pruning in großen Sprachmodellen
DLP: Dynamic Layerwise Pruning in Large Language Models

Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang•May 27, 2025•42

Freisetzung von Stundenlangem Videotraining für das Verständnis langer Video-Sprache-Zusammenhänge
Unleashing Hour-Scale Video Training for Long Video-Language Understanding

Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum•Jun 5, 2025•31

TRiSM für agentenbasierte KI: Eine Übersicht zu Vertrauens-, Risiko- und Sicherheitsmanagement in LLM-basierten agentischen Multi-Agenten-Systemen
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems

Shaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis•Jun 4, 2025•32

HTSC-2025: Ein Benchmark-Datensatz für Hochtemperatursupraleiter bei Umgebungsdruck zur KI-gestützten Vorhersage der kritischen Temperatur
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

Xiao-Qi Han, Ze-Feng Gao, Xin-De Wang, Zhenfeng Ouyang, Peng-Jie Guo, Zhong-Yi Lu•Jun 4, 2025•32

Segment Policy Optimization: Effektive Zuweisung von Gutschriften auf Segmentebene im Reinforcement Learning für große Sprachmodelle
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu•May 29, 2025•32

Rex-Thinker: Verankerte Objektreferenzierung durch Chain-of-Thought-Argumentation
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang•Jun 4, 2025•22

Neubewertung des Stabilität-Plastizität-Kompromisses im kontinuierlichen Lernen aus einer architektonischen Perspektive
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun•Jun 4, 2025•22

CRAWLDoc: Ein Datensatz für robustes Ranking bibliografischer Dokumente
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

Fabian Karl, Ansgar Scherp•Jun 4, 2025•22

VLMs können verstreute Trainings-Patches aggregieren.
VLMs Can Aggregate Scattered Training Patches

Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu•Jun 4, 2025•22

Robustes neuronales Rendering in realen Umgebungen mit asymmetrischem dualem 3D-Gauß-Splatting
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu•Jun 4, 2025•22

Lösen inverser Probleme mit FLAIR
Solving Inverse Problems with FLAIR

Julius Erbach, Dominik Narnhofer, Andreas Dombos, Bernt Schiele, Jan Eric Lenssen, Konrad Schindler•Jun 3, 2025•22

FinChain: Ein symbolischer Benchmark für verifizierbares Chain-of-Thought-Finanzdenken
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov•Jun 3, 2025•22

Kleine Sprachmodelle sind die Zukunft der agentenbasierten KI.
Small Language Models are the Future of Agentic AI

Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov•Jun 2, 2025•22

Das Objekt erklingen lassen: Interaktive objektbewusste Bild-zu-Audio-Generierung
Sounding that Object: Interactive Object-Aware Image to Audio Generation

Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang•Jun 4, 2025•12

Übersicht über Hyperparameter des aktiven Lernens: Erkenntnisse aus einem groß angelegten experimentellen Raster
Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid

Julius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner•Jun 4, 2025•12

RiOSWorld: Benchmarking des Risikos multimodaler Computer-Nutzungs-Agenten
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents

Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao•May 31, 2025•12