Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

NovelSeek: Cuando el Agente se Convierte en el Científico -- Construyendo un Sistema de Ciclo Cerrado desde la Hipótesis hasta la Verificación
NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification

NovelSeek Team, Bo Zhang, Shiyang Feng, Xiangchao Yan, Jiakang Yuan, Zhiyin Yu, Xiaohan He, Songtao Huang, Shaowei Hou, Zheng Nie, Zhilong Wang, Jinyao Liu, Runmin Ma, Tianshuo Peng, Peng Ye, Dongzhan Zhou, Shufei Zhang, Xiaosong Wang, Yilan Zhang, Meng Li, Zhongying Tu, Xiangyu Yue, Wangli Ouyang, Bowen Zhou, Lei Bai•May 22, 2025•861

Escalando el razonamiento, perdiendo el control: Evaluación del seguimiento de instrucciones en modelos de razonamiento a gran escala
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng•May 20, 2025•492

Tool-Star: Potenciando un Razonador Multiherramienta con Cerebro de LLM mediante Aprendizaje por Refuerzo
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen•May 22, 2025•432

Pixel Reasoner: Incentivizando el razonamiento en el espacio de píxeles con aprendizaje por refuerzo impulsado por la curiosidad
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen•May 21, 2025•372

KRIS-Bench: Evaluación de Modelos de Edición de Imágenes de Próxima Generación
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang•May 22, 2025•362

QuickVideo: Comprensión de Vídeos Largos en Tiempo Real con Co-Diseño de Sistemas y Algoritmos
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design

Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen•May 22, 2025•302

GoT-R1: Liberando la Capacidad de Razonamiento de los MLLM para la Generación Visual con Aprendizaje por Refuerzo
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu•May 22, 2025•232

LLaDA-V: Modelos de Difusión de Lenguaje a Gran Escala con Ajuste por Instrucción Visual
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li•May 22, 2025•223

Escalando Transformadores de Difusión de Manera Eficiente mediante μP
Scaling Diffusion Transformers Efficiently via μP

Chenyu Zheng, Xinyu Zhang, Rongzhen Wang, Wei Huang, Zhi Tian, Weilin Huang, Jun Zhu, Chongxuan Li•May 21, 2025•212

Aprendizaje por Refuerzo Averso al Riesgo con Pérdida de Itakura-Saito
Risk-Averse Reinforcement Learning with Itakura-Saito Loss

Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin•May 22, 2025•202

Comprensión de las capacidades de la IA generativa en tareas cotidianas de edición de imágenes
Understanding Generative AI Capabilities in Everyday Image Editing Tasks

Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen•May 22, 2025•202

AceReason-Nemotron: Avanzando en el razonamiento matemático y de código mediante aprendizaje por refuerzo
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping•May 22, 2025•182

Atención al Vacío: Cerrando la Brecha del Salto Mental para Mejorar el Ajuste de la Cadena de Pensamiento
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang•May 20, 2025•181

Permitamos que los LLM se liberen de la sobrecarga cognitiva mediante el ajuste de autofrenado.
Let LLMs Break Free from Overthinking via Self-Braking Tuning

Haoran Zhao, Yuchen Yan, Yongliang Shen, Haolei Xu, Wenqi Zhang, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang•May 20, 2025•182

VideoGameQA-Bench: Evaluación de Modelos de Visión-Lenguaje para el Aseguramiento de la Calidad en Videojuegos
VideoGameQA-Bench: Evaluating Vision-Language Models for Video Game Quality Assurance

Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer•May 21, 2025•172

Dimple: Modelo de Lenguaje Multimodal de Gran Escala con Difusión Discreta y Decodificación Paralela
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Runpeng Yu, Xinyin Ma, Xinchao Wang•May 22, 2025•142

Limpieza de puertas traseras sin orientación externa en el ajuste fino de MLLM
Backdoor Cleaning without External Guidance in MLLM Fine-tuning

Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye•May 22, 2025•142

SophiaVL-R1: Reforzando el razonamiento de MLLMs con recompensas de pensamiento
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

Kaixuan Fan, Kaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue•May 22, 2025•122

Corregir datos que afectan el rendimiento: Cascada de LLMs para reetiquetar negativos difíciles para una recuperación de información robusta
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin•May 22, 2025•123

Generación eficiente de videos sin entrenamiento mediante tallado dinámico de tokens
Training-Free Efficient Video Generation via Dynamic Token Carving

Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia•May 22, 2025•122

SpatialScore: Hacia una Evaluación Unificada para la Comprensión Espacial Multimodal
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie•May 22, 2025•102

LaViDa: Un gran modelo de lenguaje de difusión para la comprensión multimodal
LaViDa: A Large Diffusion Language Model for Multimodal Understanding

Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover•May 22, 2025•102

TinyV: Reducir los falsos negativos en la verificación mejora el aprendizaje por refuerzo para el razonamiento en LLM
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

Zhangchen Xu, Yuetai Li, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran•May 20, 2025•102

¿Pensar o no pensar? Razonamiento selectivo mediante aprendizaje por refuerzo para modelos de visión y lenguaje
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou•May 22, 2025•72

WebAgent-R1: Entrenamiento de Agentes Web mediante Aprendizaje por Refuerzo Multiturno de Extremo a Extremo
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li•May 22, 2025•72

Razonamiento y Reflexión sin Entrenamiento en MLLMs
Training-Free Reasoning and Reflection in MLLMs

Hongchen Wei, Zhenzhong Chen•May 22, 2025•73

GRIT: Enseñando a los MLLMs a Pensar con Imágenes
GRIT: Teaching MLLMs to Think with Images

Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang•May 21, 2025•72

AGENTIF: Evaluación del Seguimiento de Instrucciones en Modelos de Lenguaje de Gran Escala en Escenarios Agentes
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li•May 22, 2025•62

VLM-R^3: Reconocimiento de Regiones, Razonamiento y Refinamiento para una Cadena de Pensamiento Multimodal Mejorada
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang•May 22, 2025•62

OViP: Aprendizaje de Preferencias en Línea para Visión y Lenguaje
OViP: Online Vision-Language Preference Learning

Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei•May 21, 2025•62

Entrenamiento de Verificadores de Razonamiento a Nivel de Paso con Herramientas de Verificación Formal
Training Step-Level Reasoning Verifiers with Formal Verification Tools

Ryo Kamoi, Yusen Zhang, Nan Zhang, Sarkar Snigdha Sarathi Das, Rui Zhang•May 21, 2025•62

SafeKey: Amplificando las percepciones del momento "¡Ajá!" para el razonamiento de seguridad
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning

Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang•May 22, 2025•52

El Aprendizaje por Refuerzo Afina Subredes Pequeñas en Modelos de Lenguaje de Gran Escala
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng•May 16, 2025•52

Think-RM: Habilitando el razonamiento de largo horizonte en modelos generativos de recompensa
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao•May 22, 2025•42

Deja que los androides sueñen con ovejas eléctricas: Un marco de implicación, comprensión y razonamiento de imágenes con características humanas
Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

Chenhao Zhang, Yazhe Niu•May 22, 2025•33

Multi-SpatialMLLM: Comprensión Espacial Multi-Marcos con Modelos de Lenguaje Grande Multi-Modales
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

Runsen Xu, Weiyao Wang, Hao Tang, Xingyu Chen, Xiaodong Wang, Fu-Jen Chu, Dahua Lin, Matt Feiszli, Kevin J. Liang•May 22, 2025•32

Robo2VLM: Respuesta a Preguntas Visuales a partir de Conjuntos de Datos de Manipulación Robótica a Gran Escala en Entornos No Controlados
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg•May 21, 2025•32

Dirigiendo Modelos de Lenguaje de Gran Escala para la Personalización de Traducción Automática
Steering Large Language Models for Machine Translation Personalization

Daniel Scalena, Gabriele Sarti, Arianna Bisazza, Elisabetta Fersini, Malvina Nissim•May 22, 2025•22

¿Cuándo los LLM admiten sus errores? Comprendiendo el papel de la creencia del modelo en la retractación
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction

Yuqing Yang, Robin Jia•May 22, 2025•22

Fragmentos de Fecha: Un Cuello de Botella Oculto en la Tokenización para el Razonamiento Temporal
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning

Gagan Bhatia, Maxime Peyrard, Wei Zhao•May 22, 2025•22

¿Cómo perciben los modelos grandes de visión y lenguaje el texto en las imágenes? Revelando el papel distintivo de los cabezales OCR.
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee•May 21, 2025•22

RAVENEA: Un Punto de Referencia para la Comprensión de la Cultura Visual Aumentada por Recuperación Multimodal
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie•May 20, 2025•22

MUG-Eval: Un Marco de Evaluación Proxy para Capacidades de Generación Multilingüe en Cualquier Idioma
MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh•May 20, 2025•22

RoPECraft: Transferencia de Movimiento sin Entrenamiento con Optimización de RoPE Guiada por Trayectoria en Transformadores de Difusión
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

Ahmet Berke Gokmen, Yigit Ekin, Bahri Batuhan Bilecen, Aysegul Dundar•May 19, 2025•22

SPhyR: Punto de Referencia para el Razonamiento Espacial-Físico sobre la Distribución de Materiales
SPhyR: Spatial-Physical Reasoning Benchmark on Material Distribution

Philipp D. Siedler•May 21, 2025•12

gen2seg: Los modelos generativos permiten la segmentación de instancias generalizable
gen2seg: Generative Models Enable Generalizable Instance Segmentation

Om Khangaonkar, Hamed Pirsiavash•May 21, 2025•12

SAKURA: Sobre el razonamiento multi-salto de los grandes modelos de audio-lenguaje basados en información de habla y audio
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee•May 19, 2025•02