ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

SeedVR2: Einstufige Videorestaurierung durch diffusionsbasierte Adversarial-Post-Training
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang•Jun 5, 2025•441

ComfyUI-Copilot: Ein intelligenter Assistent für die automatisierte Workflow-Entwicklung
ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Jun 5, 2025•431

Video-Weltmodelle mit räumlichem Langzeitgedächtnis
Video World Models with Long-term Spatial Memory

Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein•Jun 5, 2025•361

RoboRefer: Auf dem Weg zur räumlichen Referenzierung mit logischem Schlussfolgern in Vision-Sprache-Modellen für die Robotik
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang•Jun 4, 2025•363

Diagonales Batching ermöglicht Parallelität in Rekurrenten Speicher-Transformern für lange Kontexte
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Danil Sivtsov, Ivan Rodkin, Gleb Kuzmin, Yuri Kuratov, Ivan Oseledets•Jun 5, 2025•333

Qwen3 Embedding: Fortschritte in Text-Embedding und Reranking durch Foundation Models
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou•Jun 5, 2025•321

Surfer-H trifft auf Holo1: Kosteneffizienter Web-Agent, betrieben durch Open Weights
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu•Jun 3, 2025•272

The Common Pile v0.1: Ein 8TB-Datensatz aus gemeinfreien und offen lizenzierten Texten
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray•Jun 5, 2025•261

VideoREPA: Physikalisches Lernen für die Videogenerierung durch relationale Ausrichtung mit Foundation-Modellen
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng•May 29, 2025•242

Ausrichtung latenter Räume mit Fluss-Priors
Aligning Latent Spaces with Flow Priors

Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Ping Luo•Jun 5, 2025•231

VideoMathQA: Benchmarking mathematischen Denkens durch multimodales Verständnis in Videos
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan•Jun 5, 2025•221

AV-Reasoner: Verbesserung und Benchmarking der Hinweis-basierten Audio-Visuellen Zählung für MLLMs
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu•Jun 5, 2025•201

Inferenzzeit-Hyper-Skalierung mit KV-Cache-Kompression
Inference-Time Hyper-Scaling with KV Cache Compression

Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti•Jun 5, 2025•191

Entfaltung räumlicher Kognition: Bewertung multimodaler Modelle anhand visueller Simulationen
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna•Jun 5, 2025•161

SparseMM: Kopfsparsamkeit entsteht aus visuellen Konzeptantworten in MLLMs
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu•Jun 5, 2025•150

StreamBP: Speichereffiziente exakte Backpropagation für das Training von LLMs mit langen Sequenzen
StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li•Jun 3, 2025•152

EOC-Bench: Können MLLMs Objekte in einer egozentrischen Welt identifizieren, sich daran erinnern und vorhersagen?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang•Jun 5, 2025•131

Search Arena: Analyse von suchverstärkten LLMs
Search Arena: Analyzing Search-Augmented LLMs

Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez•Jun 5, 2025•121

MINT-CoT: Ermöglichung verschachtelter visueller Tokens in mathematischer Chain-of-Thought-Reasoning
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li•Jun 5, 2025•121

Neubetrachtung von Tiefendarstellungen für Feed-Forward-3D-Gaussian-Splatting
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

Duochao Shi, Weijie Wang, Donny Y. Chen, Zeyu Zhang, Jia-Wang Bian, Bohan Zhuang, Chunhua Shen•Jun 5, 2025•111

Evaluation ist alles, was zählt: Strategische Übertreibung der Fähigkeiten von LLM im logischen Denken durch Evaluationsdesign
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang•Jun 5, 2025•113

FlexPainter: Flexible und multi-view-konsistente Texturgenerierung
FlexPainter: Flexible and Multi-View Consistent Texture Generation

Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen•Jun 3, 2025•112

Sprach-Bild-Ausrichtung mit festen Text-Encodern
Language-Image Alignment with Fixed Text Encoders

Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma•Jun 4, 2025•106

Autoregressive Bildwasserzeichen durch lexikalische Verzerrung: Ein Ansatz resistent gegen Regenerationsangriffe
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack

Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang•Jun 1, 2025•82

FreeTimeGS: Freie Gaußsche Verteilungen zu jeder Zeit und an jedem Ort für die Rekonstruktion dynamischer Szenen
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

Yifan Wang, Peishan Yang, Zhen Xu, Jiaming Sun, Zhanhua Zhang, Yong Chen, Hujun Bao, Sida Peng, Xiaowei Zhou•Jun 5, 2025•51

SkyReels-Audio: Omni-Audio-konditionierte sprechende Porträts in Video-Diffusionstransformatoren
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou•Jun 1, 2025•52

Geometrie-editierbare und erscheinungserhaltende Objektkomposition
Geometry-Editable and Appearance-Preserving Object Compositon

Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen•May 27, 2025•52

Kinetics: Überdenken der Skalierungsgesetze zur Testzeit
Kinetics: Rethinking Test-Time Scaling Laws

Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen•Jun 5, 2025•41

Skalierungsgesetze für den robusten Vergleich offener Foundation-Modelle für Sprache und Vision sowie Datensätze
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev•Jun 5, 2025•41

MedAgentGym: Schulung von LLM-Agenten für codebasierte medizinische Entscheidungsfindung im großen Maßstab
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi•Jun 4, 2025•41

Kontextuelle Integrität in LLMs durch logisches Denken und bestärkendes Lernen
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim•May 29, 2025•41

Rectified Point Flow: Generische Schätzung der Punktwolkenpose
Rectified Point Flow: Generic Point Cloud Pose Estimation

Tao Sun, Liyuan Zhu, Shengyu Huang, Shuran Song, Iro Armeni•Jun 5, 2025•32

Micro-Act: Wissenskonflikte in der Frage-Antwort-Interaktion durch handlungsorientiertes Selbstreflektieren reduzieren
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng•Jun 5, 2025•31

FEAT: Full-Dimensional Efficient Attention Transformer für die Generierung medizinischer Videos
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu•Jun 5, 2025•31

Bilder sind variable Längen von Repräsentationen wert.
Images are Worth Variable Length of Representations

Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang•Jun 4, 2025•32

RobustSplat: Entkopplung von Verdichtung und Dynamik für transiente freie 3DGS
RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

Chuanyu Fu, Yuqi Zhang, Kunbin Yao, Guanying Chen, Yuan Xiong, Chuan Huang, Shuguang Cui, Xiaochun Cao•Jun 3, 2025•32

MARBLE: Materialrekomposition und -vermischung im CLIP-Raum
MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani•Jun 5, 2025•21

FlowDirector: Trainingsfreie Flusssteuerung für präzise Text-zu-Video-Bearbeitung
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang•Jun 5, 2025•20

Perzeptuelle Entkopplung für skalierbares multimodales Schließen durch belohnungsoptimierte Beschriftung
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang•Jun 5, 2025•21

BEVCALIB: LiDAR-Kamera-Kalibrierung durch geometriegeführte Vogelperspektiv-Darstellungen
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu•Jun 3, 2025•22

Diffusionsbasierte generative Modelle für 3D-Okkupanzvorhersage im autonomen Fahren
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao•May 29, 2025•22

PATS: Kompetenzbewusstes Temporales Sampling für die Multi-View-Bewertung von Sportfertigkeiten
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

Edoardo Bianchi, Antonio Liotta•Jun 5, 2025•11

Wasserzeichen beeinträchtigen die Ausrichtung von Sprachmodellen: Analyse und Gegenmaßnahmen
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

Apurv Verma, NhatHai Phan, Shubhendu Trivedi•Jun 4, 2025•11

Neubewertung der Ganzkörper-CT-Bildinterpretation: Ein abnormitätszentrierter Ansatz
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

Ziheng Zhao, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie•Jun 3, 2025•12

SViMo: Synchronisierte Diffusion für Video- und Bewegungsgenerierung in Hand-Objekt-Interaktionsszenarien
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu•Jun 3, 2025•13

Was wissen selbstüberwachte Sprachmodelle über Niederländisch? Analyse der Vorteile sprachspezifischen Vor-Trainings
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum•Jun 1, 2025•12