ChatPaper.ai
Apri menu
Home
Articoli del Giorno
arXiv
HuggingFace
Prezzi
Account
Spazio di lavoro
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
Articoli di Ricerca IA Giornalieri
Articoli di ricerca IA selezionati quotidianamente con traduzioni
January 31st, 2025
GuardReasoner: Verso le Protezioni LLM basate sul Ragionamento
GuardReasoner: Towards Reasoning-based LLM Safeguards
Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi
•
Jan 30, 2025
•
87
3
I Pensieri Sono Ovunque: Sull'Insufficiente Riflessione dei LLM simili a o1
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
•
Jan 30, 2025
•
61
11
Streaming DiLoCo con comunicazione sovrapposta: Verso un Pranzo Gratuito Distribuito
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch
Arthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham
•
Jan 30, 2025
•
30
7
o3-mini vs DeepSeek-R1: Quale è più sicuro?
o3-mini vs DeepSeek-R1: Which One is Safer?
Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
•
Jan 30, 2025
•
24
3
I modelli linguistici di grandi dimensioni pensano troppo velocemente per esplorare in modo efficace.
Large Language Models Think Too Fast To Explore Effectively
Lan Pan, Hanbo Xie, Robert C. Wilson
•
Jan 29, 2025
•
24
3
MedXpertQA: Valutazione delle capacità di ragionamento e comprensione medica di livello esperto
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou
•
Jan 30, 2025
•
22
2
WILDCHAT-50M: Un Approfondimento sul Ruolo dei Dati Sintetici nel Post-Training
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
Benjamin Feuer, Chinmay Hegde
•
Jan 30, 2025
•
20
4
SANA 1.5: Scalabilità efficiente del calcolo del tempo di addestramento e del tempo di inferenza nel Transformer a diffusione lineare
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
•
Jan 30, 2025
•
19
2
PhysBench: Valutazione e Miglioramento dei Modelli Visione-Linguaggio per la Comprensione del Mondo Fisico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
•
Jan 27, 2025
•
19
3
CowPilot: Un Framework per la Navigazione Web Autonoma e Collaborativa tra Umani e Agenti
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig
•
Jan 28, 2025
•
7
2