ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
June 2nd, 2025
ProRL: El Aprendizaje por Refuerzo Prolongado Amplía los Límites del Razonamiento en Modelos de Lenguaje a Gran Escala
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
•
May 30, 2025
•
112
3
AlphaOne: Modelos de razonamiento que piensan lento y rápido en el momento de la prueba
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
•
May 30, 2025
•
86
2
Ceguera Temporal: ¿Por Qué los Modelos de Video-Lenguaje No Pueden Ver lo que los Humanos Sí?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
•
May 30, 2025
•
72
3
Modelos de Lenguaje a Gran Escala para la Síntesis de Datos
Large Language Models for Data Synthesis
Yihong Tang, Menglin Kong, Lijun Sun
•
May 20, 2025
•
47
2
HardTests: Síntesis de Casos de Prueba de Alta Calidad para Codificación con LLM
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
•
May 30, 2025
•
41
2
No mires solo una vez: hacia el razonamiento interactivo multimodal con revisión visual selectiva
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu
•
May 24, 2025
•
35
2
ViStoryBench: Suite Integral de Evaluación para la Visualización de Historias
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang
•
May 30, 2025
•
30
2
DINO-R1: Incentivizando la Capacidad de Razonamiento en Modelos Fundamentales de Visión
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
•
May 29, 2025
•
23
3
EXP-Bench: ¿Puede la IA realizar experimentos de investigación en IA?
EXP-Bench: Can AI Conduct AI Research Experiments?
Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen
•
May 30, 2025
•
22
3
Open CaptchaWorld: Una Plataforma Web Integral para Pruebas y Evaluación de Agentes Multimodales de Modelos de Lenguaje Grande
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
•
May 30, 2025
•
21
2
CoDA: Optimización Coordinada del Ruido de Difusión para la Manipulación de Objetos Articulados con Todo el Cuerpo
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
•
May 27, 2025
•
20
2
MoDoMoDo: Mezclas de Datos Multidominio para el Aprendizaje por Refuerzo de Modelos de Lenguaje Multimodales
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
•
May 30, 2025
•
18
3
Los Modelos de Lenguaje Visual están Sesgados
Vision Language Models are Biased
An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim
•
May 29, 2025
•
17
2
EmergentTTS-Eval: Evaluación de Modelos de TTS en Desafíos Complejos de Prosodia, Expresividad y Lingüística Utilizando Modelo-como-Juez
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola
•
May 29, 2025
•
17
2
MetaFaith: Expresión Fiel de Incertidumbre en Lenguaje Natural en Modelos de Lenguaje de Gran Escala
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs
Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan
•
May 30, 2025
•
16
2
UniGeo: Domando la Difusión de Video para la Estimación Unificada de Geometría Consistente
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi
•
May 30, 2025
•
15
2
¿Más pensamiento, menos visión? Evaluando la alucinación amplificada en modelos de razonamiento multimodal
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
•
May 23, 2025
•
14
2
CLaSp: Omisión de Capas en Contexto para Decodificación Auto-Especulativa
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
•
May 30, 2025
•
13
6
EasyText: Transformador de Difusión Controlable para la Representación Multilingüe de Texto
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
•
May 30, 2025
•
12
2
Los Modelos de Lenguaje de Gran Escala son Mapeos Lineales Locales
Large Language Models are Locally Linear Mappings
James R. Golden
•
May 30, 2025
•
11
4
ReasonGen-R1: CoT para modelos de generación de imágenes autoregresivos mediante SFT y RL
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
•
May 30, 2025
•
10
2
Decodificación Fork-Merge: Mejorando la Comprensión Multimodal en Modelos de Lenguaje de Gran Escala Audio-Visuales
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung
•
May 27, 2025
•
10
2
Aprovechando Señales Negativas: Distilación de Refuerzo a partir de Datos del Profesor para el Razonamiento en Modelos de Lenguaje de Gran Escala
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
•
May 30, 2025
•
9
3
DexUMI: Utilización de la mano humana como interfaz universal de manipulación para la manipulación diestra
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation
Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song
•
May 28, 2025
•
9
2
ChARM: Modelado de Recompensas Adaptativas por Actos Basado en Caracteres para Agentes de Lenguaje de Rol Avanzados
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
•
May 29, 2025
•
7
2
Evaluación de Juego de Roles para Modelos de Lenguaje de Gran Escala
Role-Playing Evaluation for Large Language Models
Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
•
May 19, 2025
•
7
2
Evaluación y Dirección de las Preferencias de Modalidad en Modelos de Lenguaje Multimodales de Gran Escala
Evaluating and Steering Modality Preferences in Multimodal Large Language Model
Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang
•
May 27, 2025
•
6
2
SiLVR: Un Marco Simple de Razonamiento Basado en Lenguaje para Videos
SiLVR: A Simple Language-based Video Reasoning Framework
Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius
•
May 30, 2025
•
5
2
Aprovechamiento de Modelos de Lenguaje a Gran Escala para la Detección de Novedades Científicas
Harnessing Large Language Models for Scientific Novelty Detection
Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
•
May 30, 2025
•
5
2
un^2CLIP: Mejora de la capacidad de captura de detalles visuales de CLIP mediante la inversión de unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
•
May 30, 2025
•
5
2
¿Ajustar un SLM o utilizar un LLM con indicaciones? El caso de la generación de flujos de trabajo de bajo código.
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows
Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen
•
May 30, 2025
•
5
2
Point-MoE: Hacia la Generalización Transdominio en la Segmentación Semántica 3D mediante Mezcla de Expertos
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts
Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng
•
May 29, 2025
•
5
2
Habilitando la Integración Flexible de Múltiples LLM para la Agregación Escalable de Conocimiento
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation
Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang
•
May 28, 2025
•
5
2
Revisitando las Transiciones de Estado Bilineales en Redes Neuronales Recurrentes
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks
M. Reza Ebrahimi, Roland Memisevic
•
May 27, 2025
•
4
2
TRIDENT: Mejorando la Seguridad de los Modelos de Lenguaje a Gran Escala con Síntesis de Datos de Red-Teaming Tri-Dimensional Diversificada
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li
•
May 30, 2025
•
3
2
GATE: Incrustación de Texto Árabe General para una Similitud Semántica Textual Mejorada con Aprendizaje de Representación Matryoshka y Entrenamiento con Pérdida Híbrida
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
•
May 30, 2025
•
3
2
Gramáticas de la Incertidumbre Formal: Cuándo Confiar en los LLM en Tareas de Razonamiento Automatizado
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
Debargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary
•
May 26, 2025
•
3
2
El Juego Automatizado pero Arriesgado: Modelando Negociaciones y Transacciones entre Agentes en Mercados de Consumo
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets
Shenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei
•
May 29, 2025
•
2
3
OMNIGUARD: Un enfoque eficiente para la moderación de seguridad en IA a través de modalidades
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh
•
May 29, 2025
•
2
2
LegalSearchLM: Replanteando la Recuperación de Casos Legales como Generación de Elementos Jurídicos
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation
Chaeeun Kim, Jinu Lee, Wonseok Hwang
•
May 28, 2025
•
2
1
El contexto es oro para encontrar el pasaje clave: Evaluación y entrenamiento de incrustaciones de documentos contextuales
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings
Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo
•
May 30, 2025
•
1
2
El Estado de la Investigación en Seguridad de los LLM Multilingües: Desde la Medición de la Brecha Lingüística Hacia su Mitigación
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It
Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer
•
May 30, 2025
•
1
2