Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

GuardReasoner: Hacia Salvaguardas de LLM basadas en Razonamiento
GuardReasoner: Towards Reasoning-based LLM Safeguards

Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi•Jan 30, 2025•873

Los pensamientos están por todas partes: Sobre la sub-reflexión de LLMs similares a o1.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu•Jan 30, 2025•6111

Transmisión de DiLoCo con comunicación superpuesta: Hacia un Almuerzo Gratis Distribuido
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Arthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham•Jan 30, 2025•307

o3-mini vs DeepSeek-R1: ¿Cuál es más seguro?
o3-mini vs DeepSeek-R1: Which One is Safer?

Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura•Jan 30, 2025•243

Los modelos de lenguaje grandes piensan demasiado rápido para explorar de manera efectiva.
Large Language Models Think Too Fast To Explore Effectively

Lan Pan, Hanbo Xie, Robert C. Wilson•Jan 29, 2025•243

MedXpertQA: Evaluación comparativa del razonamiento y comprensión médica a nivel experto
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou•Jan 30, 2025•222

WILDCHAT-50M: Un Análisis Profundo del Papel de los Datos Sintéticos en el Post-Entrenamiento
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Benjamin Feuer, Chinmay Hegde•Jan 30, 2025•204

SANA 1.5: Escalado eficiente del cálculo en tiempo de entrenamiento y tiempo de inferencia en el Transformador de Difusión Lineal.
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han•Jan 30, 2025•192

PhysBench: Evaluación y Mejora de Modelos Visión-Lenguaje para la Comprensión del Mundo Físico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang•Jan 27, 2025•193

CowPilot: Un marco para la navegación web autónoma y colaborativa entre humanos y agentes.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig•Jan 28, 2025•72