ChatPaper.ai
Ouvrir le menu
Accueil
Articles du Jour
arXiv
HuggingFace
Tarifs
Compte
Espace de travail
🇫🇷
Français
Loading...
•
•
•
•
•
•
•
•
•
•
Articles de Recherche en IA Quotidiens
Articles de recherche en IA sélectionnés quotidiennement avec traductions
June 10th, 2024
Le Modèle de Mélange d'Agents Améliore les Capacités des Grands Modèles de Langage
Mixture-of-Agents Enhances Large Language Model Capabilities
Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
•
Jun 7, 2024
•
60
3
CRAG - Benchmark complet pour RAG
CRAG -- Comprehensive RAG Benchmark
Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
•
Jun 7, 2024
•
49
7
WildBench : Évaluation des LLM sur des tâches complexes issues d'utilisateurs réels en conditions réelles
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
•
Jun 7, 2024
•
31
1
GenAI Arena : Une plateforme ouverte d'évaluation pour les modèles génératifs
GenAI Arena: An Open Evaluation Platform for Generative Models
Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
•
Jun 6, 2024
•
23
0
Estimation de la confiance des grands modèles de langage via un accès en boîte noire
Large Language Model Confidence Estimation via Black-Box Access
Tejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri
•
Jun 1, 2024
•
23
0
Correction instantanée : résolvez toutes les erreurs en un seul clic
Proofread: Fixes All Errors with One Tap
Renjie Liu, Yanxiang Zhang, Yun Zhu, Haicheng Sun, Yuanbo Zhang, Michael Xuelin Huang, Shanqing Cai, Lei Meng, Shumin Zhai
•
Jun 6, 2024
•
15
0
NATURAL PLAN : Évaluation des LLM sur la planification en langage naturel
NATURAL PLAN: Benchmarking LLMs on Natural Language Planning
Huaixiu Steven Zheng, Swaroop Mishra, Hugh Zhang, Xinyun Chen, Minmin Chen, Azade Nova, Le Hou, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou
•
Jun 6, 2024
•
14
0
Pourquoi la prédiction des capacités en aval des modèles d'IA de pointe avec l'échelle reste-t-elle insaisissable ?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo
•
Jun 6, 2024
•
9
0
Amélioration de l'efficacité de l'entraînement parallèle à grande échelle avec C4 : Une approche pilotée par la communication
Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach
Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu
•
Jun 7, 2024
•
8
0