ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

SeedVR2 : Restauration vidéo en une étape via post-entraînement adversarial par diffusion
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang•Jun 5, 2025•441

ComfyUI-Copilot : Un Assistant Intelligent pour le Développement Automatisé de Workflows
ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Jun 5, 2025•431

Modèles de Monde Vidéo avec Mémoire Spatiale à Long Terme
Video World Models with Long-term Spatial Memory

Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein•Jun 5, 2025•361

RoboRefer : Vers une référence spatiale avec raisonnement dans les modèles vision-langage pour la robotique
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang•Jun 4, 2025•363

Le Batching Diagonal Débloque le Parallélisme dans les Transformers à Mémoire Récurrente pour les Contexte Longs
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Danil Sivtsov, Ivan Rodkin, Gleb Kuzmin, Yuri Kuratov, Ivan Oseledets•Jun 5, 2025•333

Qwen3 Embedding : Progrès dans l'incorporation de texte et le réordonnancement grâce aux modèles de fondation
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou•Jun 5, 2025•321

Surfer-H rencontre Holo1 : Un agent web économe en ressources propulsé par des modèles open source
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu•Jun 3, 2025•272

Le Common Pile v0.1 : Un jeu de données de 8 To de textes du domaine public et sous licence ouverte
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray•Jun 5, 2025•261

VideoREPA : Apprentissage de la physique pour la génération de vidéos par alignement relationnel avec des modèles de fondation
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng•May 29, 2025•242

Alignement des espaces latents avec des a priori de flux
Aligning Latent Spaces with Flow Priors

Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Ping Luo•Jun 5, 2025•231

VideoMathQA : Évaluation du raisonnement mathématique via la compréhension multimodale dans les vidéos
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan•Jun 5, 2025•221

AV-Reasoner : Amélioration et évaluation comparative du décompte audio-visuel basé sur des indices pour les MLLM
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu•Jun 5, 2025•201

Mise à l'échelle hyper-optimisée au moment de l'inférence avec compression du cache KV
Inference-Time Hyper-Scaling with KV Cache Compression

Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti•Jun 5, 2025•191

Dépliement de la cognition spatiale : Évaluation des modèles multimodaux sur des simulations visuelles
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna•Jun 5, 2025•161

SparseMM : La parcimonie des têtes émerge des réponses aux concepts visuels dans les MLLM
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu•Jun 5, 2025•150

StreamBP : Rétropropagation exacte à faible consommation de mémoire pour l'entraînement de séquences longes dans les LLM
StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li•Jun 3, 2025•152

EOC-Bench : Les MLLM peuvent-ils identifier, mémoriser et prédire les objets dans un monde égocentrique ?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang•Jun 5, 2025•131

Arène de Recherche : Analyse des LLM Augmentés par la Recherche
Search Arena: Analyzing Search-Augmented LLMs

Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez•Jun 5, 2025•121

MINT-CoT : Activation des jetons visuels entrelacés dans le raisonnement en chaîne de pensée mathématique
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li•Jun 5, 2025•121

Revisiter les représentations de profondeur pour le rendu par projection de Gaussiennes 3D en propagation avant
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

Duochao Shi, Weijie Wang, Donny Y. Chen, Zeyu Zhang, Jia-Wang Bian, Bohan Zhuang, Chunhua Shen•Jun 5, 2025•111

L'évaluation est tout ce dont vous avez besoin : Surestimation stratégique des capacités de raisonnement des LLM grâce à la conception de l'évaluation
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang•Jun 5, 2025•113

FlexPainter : Génération de textures flexible et cohérente en multi-vues
FlexPainter: Flexible and Multi-View Consistent Texture Generation

Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen•Jun 3, 2025•112

Alignement Langage-Image avec Encodeurs de Texte Fixes
Language-Image Alignment with Fixed Text Encoders

Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma•Jun 4, 2025•106

Filigranage d'Images Autoregressives par Biais Lexical : Une Approche Résistante aux Attaques de Régénération
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack

Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang•Jun 1, 2025•82

FreeTimeGS : Gaussiennes libres à tout moment et en tout lieu pour la reconstruction de scènes dynamiques
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

Yifan Wang, Peishan Yang, Zhen Xu, Jiaming Sun, Zhanhua Zhang, Yong Chen, Hujun Bao, Sida Peng, Xiaowei Zhou•Jun 5, 2025•51

SkyReels-Audio : Portraits parlants conditionnés par audio omnidirectionnel dans les vidéos à base de Transformers de diffusion
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou•Jun 1, 2025•52

Composition d'objets géométriquement modifiables et préservant l'apparence
Geometry-Editable and Appearance-Preserving Object Compositon

Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen•May 27, 2025•52

Cinétique : Repenser les lois d'échelle en phase de test
Kinetics: Rethinking Test-Time Scaling Laws

Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen•Jun 5, 2025•41

Lois d'échelle pour la comparaison robuste des modèles et ensembles de données ouverts en vision et langage de fondation
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev•Jun 5, 2025•41

MedAgentGym : Entraînement d'agents LLM pour le raisonnement médical basé sur le code à grande échelle
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi•Jun 4, 2025•41

Intégrité contextuelle dans les LLM via raisonnement et apprentissage par renforcement
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim•May 29, 2025•41

Flux de Points Rectifié : Estimation Générique de la Pose des Nuages de Points
Rectified Point Flow: Generic Point Cloud Pose Estimation

Tao Sun, Liyuan Zhu, Shengyu Huang, Shuran Song, Iro Armeni•Jun 5, 2025•32

Micro-Act : Atténuer les conflits de connaissances dans les systèmes de question-réponse par un raisonnement autonome actionnable
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng•Jun 5, 2025•31

FEAT : Transformeur à Attention Efficace en Pleine Dimension pour la Génération de Vidéos Médicales
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu•Jun 5, 2025•31

Les images valent une longueur variable de représentations
Images are Worth Variable Length of Representations

Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang•Jun 4, 2025•32

RobustSplat : Découplage de la densification et de la dynamique pour une 3DGS sans transitoires
RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

Chuanyu Fu, Yuqi Zhang, Kunbin Yao, Guanying Chen, Yuan Xiong, Chuan Huang, Shuguang Cui, Xiaochun Cao•Jun 3, 2025•32

MARBLE : Recomposition et mélange de matériaux dans l'espace CLIP
MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani•Jun 5, 2025•21

FlowDirector : Pilotage de flux sans entraînement pour un montage précis de texte à vidéo
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang•Jun 5, 2025•20

Découplage perceptuel pour un raisonnement multimodal évolutif via la génération de légendes optimisée par récompense
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang•Jun 5, 2025•21

BEVCALIB : Calibration LiDAR-Caméra via des Représentations en Vue de Dessus Guidées par la Géométrie
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu•Jun 3, 2025•22

Modèles génératifs basés sur la diffusion pour la prédiction d'occupation 3D dans la conduite autonome
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao•May 29, 2025•22

PATS : Échantillonnage Temporel Conscient de la Maîtrise pour l'Évaluation des Compétences Sportives Multi-Vues
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

Edoardo Bianchi, Antonio Liotta•Jun 5, 2025•11

Le tatouage dégrade l'alignement des modèles de langage : analyse et atténuation
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

Apurv Verma, NhatHai Phan, Shubhendu Trivedi•Jun 4, 2025•11

Repenser l'interprétation des images CT du corps entier : une approche centrée sur les anomalies
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

Ziheng Zhao, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie•Jun 3, 2025•12

SViMo : Diffusion synchronisée pour la génération de vidéos et de mouvements dans des scénarios d'interaction main-objet
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu•Jun 3, 2025•13

Que savent les modèles de parole auto-supervisés sur le néerlandais ? Analyse des avantages du pré-entraînement spécifique à la langue
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum•Jun 1, 2025•12