Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

GuardReasoner : Vers des Garde-fous LLM basés sur le Raisonnement
GuardReasoner: Towards Reasoning-based LLM Safeguards

Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi•Jan 30, 2025•873

Les pensées sont partout : Sur la sous-réflexion des LLM de type o1
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu•Jan 30, 2025•6111

Diffusion en continu de DiLoCo avec communication superposée : Vers un Déjeuner Gratuit Distribué
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Arthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham•Jan 30, 2025•307

o3-mini vs DeepSeek-R1 : Lequel est le plus sûr ?
o3-mini vs DeepSeek-R1: Which One is Safer?

Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura•Jan 30, 2025•243

Les grands modèles de langage pensent trop rapidement pour explorer efficacement.
Large Language Models Think Too Fast To Explore Effectively

Lan Pan, Hanbo Xie, Robert C. Wilson•Jan 29, 2025•243

MedXpertQA : Évaluation du raisonnement médical de niveau expert et de la compréhension.
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou•Jan 30, 2025•222

WILDCHAT-50M : Une plongée approfondie dans le rôle des données synthétiques dans l'après-formation
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Benjamin Feuer, Chinmay Hegde•Jan 30, 2025•204

SANA 1.5 : Mise à l'échelle efficace du calcul du temps d'entraînement et du temps d'inférence dans le transformateur linéaire de diffusion
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han•Jan 30, 2025•192

PhysBench : Évaluation et Amélioration des Modèles Vision-Language pour la Compréhension du Monde Physique
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang•Jan 27, 2025•193

CowPilot : Un cadre pour la navigation web autonome et collaborative entre humains et agents.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig•Jan 28, 2025•72