ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Réfléchir, Réessayer, Récompenser : Amélioration autonome des LLM via l'apprentissage par renforcement
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh•May 30, 2025•1684

UniWorld : Encodeurs sémantiques haute résolution pour une compréhension et une génération visuelles unifiées
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan•Jun 3, 2025•552

VS-Bench : Évaluation des VLMs pour le raisonnement stratégique et la prise de décision dans des environnements multi-agents
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang•Jun 3, 2025•553

SynthRL : Mise à l'échelle du raisonnement visuel grâce à la synthèse de données vérifiables
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh•Jun 2, 2025•492

CSVQA : Un benchmark multimodal chinois pour évaluer les capacités de raisonnement STEM des modèles de langage visuel
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song•May 30, 2025•474

GUI-Actor : Ancrage visuel sans coordonnées pour les agents d'interface graphique
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao•Jun 3, 2025•373

FinMME : Base de données de référence pour l'évaluation du raisonnement multi-modal en finance
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo•May 30, 2025•343

OmniSpatial : Vers un Benchmark Exhaustif de Raisonnement Spatial pour les Modèles de Vision et Langage
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi•Jun 3, 2025•332

OThink-R1 : Commutation intrinsèque entre modes de pensée rapide/lente pour l'atténuation de la sur-réflexion
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang•Jun 3, 2025•332

Cerveau Visuel Incarné : Faire Voir, Penser et Contrôler dans les Espaces aux Modèles de Langage Multimodaux à Grande Échelle
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu•May 30, 2025•325

Sparse-vDiT : Libérer la puissance de l'attention parcimonieuse pour accélérer les Transformers de Diffusion Vidéo
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen•Jun 3, 2025•272

DINGO : Inférence contrainte pour les modèles de langage à diffusion
DINGO: Constrained Inference for Diffusion LLMs

Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh•May 29, 2025•262

Robot-R1 : Apprentissage par Renforcement pour un Raisonnement Embodi Amélioré en Robotique
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo•May 29, 2025•252

MotionSight : Amélioration de la compréhension fine du mouvement dans les modèles de langage multimodaux
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai•Jun 2, 2025•242

Co-évolution d'un codeur LLM et d'un testeur unitaire via l'apprentissage par renforcement
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang•Jun 3, 2025•222

AnimeShooter : Un ensemble de données d'animation multi-tirs pour la génération de vidéos guidée par référence
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu•Jun 3, 2025•222

Optimisation de la Fidélité au Sujet Guidée par Négatif pour la Génération Pilotée par Sujet en Zéro-Shot
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon•Jun 4, 2025•212

LumosFlow : Génération de vidéos longues guidée par le mouvement
LumosFlow: Motion-Guided Long Video Generation

Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su•Jun 3, 2025•182

Synthèse d'images en résolution native
Native-Resolution Image Synthesis

Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang•Jun 3, 2025•173

RelationAdapter : Apprentissage et transfert de relations visuelles avec des Transformers de diffusion
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang•Jun 3, 2025•152

DCM : Modèle de Cohérence à Double Expert pour une Génération de Vidéos Efficace et de Haute Qualité
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu•Jun 3, 2025•142

FlowMo : Guidage de flux basé sur la variance pour un mouvement cohérent dans la génération vidéo
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer•Jun 1, 2025•142

Les fiches techniques ne suffisent pas : les DataRubrics pour des métriques de qualité automatisées et une responsabilisation accrue
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury•Jun 2, 2025•122

PCoreSet : Apprentissage actif efficace par distillation de connaissances à partir de modèles vision-langage
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang•Jun 1, 2025•103

Ctrl-Crash : Diffusion contrôlée pour des accidents de voiture réalistes
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal•May 30, 2025•103

Entraîner des modèles de langage à générer du code de qualité avec un retour d'analyse de programme
Training Language Models to Generate Quality Code with Program Analysis Feedback

Feng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang•May 28, 2025•94

Agents de Modèles de Langage Auto-Défiants
Self-Challenging Language Model Agents

Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar•Jun 2, 2025•82

Alignement de concepts sensibles au mouvement pour une édition vidéo cohérente
Motion-Aware Concept Alignment for Consistent Video Editing

Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem•Jun 1, 2025•72

ORV : Génération de vidéos robotiques centrée sur l'occupation 4D
ORV: 4D Occupancy-centric Robot Video Generation

Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao•Jun 3, 2025•62

Accélération des LLMs de diffusion via un décodage parallèle adaptatif
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

Daniel Israel, Guy Van den Broeck, Aditya Grover•May 31, 2025•62

MERIT : Récupération Sémantique Multilingue avec Requête Multi-Conditions Entrelacées
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li•Jun 3, 2025•32

FuseLIP : Incorporation multimodale par fusion précoce de tokens discrets
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein•Jun 3, 2025•32

Multimodal DeepResearcher : Génération de rapports entrelaçant texte et graphiques à partir de zéro avec un cadre agentique
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen•Jun 3, 2025•32

Une pièce manquante pour les modèles de raisonnement open-source : un jeu de données pour atténuer le démarrage à froid des LLMs à chaînes de pensée courtes en apprentissage par renforcement
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee•Jun 3, 2025•32

Les Angles Ne Mentent Pas : Débloquer l'Apprentissage Efficace par Renforcement grâce aux Signaux Internes du Modèle
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen•Jun 2, 2025•32

Hanfu-Bench : Un benchmark multimodal pour la compréhension et la transcréation culturelles trans-temporelles
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li•Jun 2, 2025•32

ReFoCUS : Optimisation de cadres guidée par renforcement pour la compréhension contextuelle
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro•Jun 2, 2025•32

SHARE : Un Assistant Hiérarchique de Correction d'Actions basé sur SLM pour Text-to-SQL
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

Ge Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng•May 31, 2025•32

Quelle quantité de retour en arrière est suffisante ? Explorer l'interaction entre l'apprentissage supervisé fin (SFT) et l'apprentissage par renforcement (RL) dans l'amélioration du raisonnement des grands modèles de langage (LLM).
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra•May 30, 2025•32

Découverte approfondie de vidéos : Recherche agentive avec utilisation d'outils pour la compréhension de vidéos longues
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu•May 23, 2025•32

Interpolation contrôlée d'images clés centrée sur l'humain avec un a priori génératif
Controllable Human-centric Keyframe Interpolation with Generative Prior

Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy•Jun 3, 2025•22

TL;DR : Trop long, réajustez les pondérations pour une compression efficace du raisonnement des LLM.
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu•Jun 3, 2025•22

M^3FinMeeting : Un ensemble de données d'évaluation pour la compréhension des réunions financières multilingues, multisectorielles et multitâches
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen•Jun 3, 2025•22

QARI-OCR : Reconnaissance haute fidélité de texte arabe grâce à l'adaptation de modèles de langage multimodaux de grande taille
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila•Jun 2, 2025•22

Control-R : Vers un ajustement contrôlable en phase de test
Control-R: Towards controllable test-time scaling

Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou•May 30, 2025•22

R^2ec : Vers des modèles de recommandation à grande échelle avec raisonnement
R^2ec: Towards Large Recommender Models with Reasoning

Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie•May 22, 2025•22

ByteMorph : Évaluation de l'édition d'images guidée par instructions avec des mouvements non rigides
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang•Jun 3, 2025•12

Revisiter LRP : L'attribution positionnelle comme ingrédient manquant pour l'explicabilité des Transformers
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf•Jun 2, 2025•13

Au-delà de l'apprentissage en contexte : Aligner la génération de textes longs des grands modèles de langage grâce à des directives basées sur les attributs inhérents à la tâche
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen•Jun 2, 2025•12

Savoir avant de dire : Les représentations des LLM encodent des informations sur la réussite du raisonnement en chaîne avant la complétion
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

Anum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser•May 30, 2025•12