ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Reflexionar, Reintentar, Recompensar: Mejora Autónoma de Modelos de Lenguaje mediante Aprendizaje por Refuerzo
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Shelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh•May 30, 2025•1684

UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan•Jun 3, 2025•552

VS-Bench: Evaluación de VLMs para el razonamiento estratégico y la toma de decisiones en entornos multiagente
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang•Jun 3, 2025•553

SynthRL: Escalando el razonamiento visual con síntesis de datos verificable
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh•Jun 2, 2025•492

CSVQA: Un punto de referencia multimodal en chino para evaluar las capacidades de razonamiento STEM en modelos de lenguaje visual
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song•May 30, 2025•474

GUI-Actor: Fundamentación Visual Independiente de Coordenadas para Agentes de Interfaz Gráfica
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao•Jun 3, 2025•373

FinMME: Conjunto de Datos de Referencia para la Evaluación del Razonamiento Multi-Modal en el Ámbito Financiero
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo•May 30, 2025•343

OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi•Jun 3, 2025•332

OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang•Jun 3, 2025•332

Cerebro Visual Encarnado: Permitir que los Modelos de Lenguaje Multimodales a Gran Escala Vean, Piensen y Controlen en Espacios
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu•May 30, 2025•325

Sparse-vDiT: Liberando el Poder de la Atención Dispersa para Acelerar Transformadores de Difusión de Video
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen•Jun 3, 2025•272

DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión
DINGO: Constrained Inference for Diffusion LLMs

Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh•May 29, 2025•262

Robot-R1: Aprendizaje por Refuerzo para el Razonamiento Embebido Mejorado en Robótica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo•May 29, 2025•252

MotionSight: Potenciando la Comprensión de Movimientos de Granularidad Fina en Modelos de Lenguaje Multimodales
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai•Jun 2, 2025•242

Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang•Jun 3, 2025•222

AnimeShooter: Un Conjunto de Datos de Animación Multi-Shot para la Generación de Vídeos Guiada por Referencia
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu•Jun 3, 2025•222

Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon•Jun 4, 2025•212

LumosFlow: Generación de Videos Largos Guiada por Movimiento
LumosFlow: Motion-Guided Long Video Generation

Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su•Jun 3, 2025•182

Síntesis de Imágenes en Resolución Nativa
Native-Resolution Image Synthesis

Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang•Jun 3, 2025•173

RelationAdapter: Aprendizaje y transferencia de relaciones visuales con Transformadores de Difusión
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang•Jun 3, 2025•152

DCM: Modelo de Consistencia de Doble Experto para la Generación Eficiente y de Alta Calidad de Videos
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu•Jun 3, 2025•142

FlowMo: Guía de Flujo Basada en Varianza para Movimiento Coherente en la Generación de Videos
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer•Jun 1, 2025•142

Las hojas de datos no son suficientes: Rúbricas de datos para métricas de calidad automatizadas y rendición de cuentas
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury•Jun 2, 2025•122

PCoreSet: Aprendizaje Activo Efectivo mediante Distilación de Conocimiento de Modelos Visión-Lenguaje
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang•Jun 1, 2025•103

Ctrl-Crash: Difusión Controlable para Colisiones de Automóviles Realistas
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal•May 30, 2025•103

Entrenamiento de Modelos de Lenguaje para Generar Código de Calidad con Retroalimentación de Análisis de Programas
Training Language Models to Generate Quality Code with Program Analysis Feedback

Feng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang•May 28, 2025•94

Agentes de Modelos de Lenguaje con Autodesafío
Self-Challenging Language Model Agents

Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar•Jun 2, 2025•82

Alineación de Conceptos Consciente del Movimiento para la Edición Consistente de Videos
Motion-Aware Concept Alignment for Consistent Video Editing

Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem•Jun 1, 2025•72

ORV: Generación de Vídeo Robótico Centrado en Ocupación 4D
ORV: 4D Occupancy-centric Robot Video Generation

Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao•Jun 3, 2025•62

Aceleración de LLMs de Difusión mediante Decodificación Paralela Adaptativa
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

Daniel Israel, Guy Van den Broeck, Aditya Grover•May 31, 2025•62

MERIT: Recuperación Semántica Multilingüe con Consultas de Múltiples Condiciones Intercaladas
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Wei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li•Jun 3, 2025•32

FuseLIP: Incrustaciones Multimodales mediante Fusión Temprana de Tokens Discretos
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein•Jun 3, 2025•32

Multimodal DeepResearcher: Generación de Informes Intercalados de Texto y Gráficos desde Cero con un Marco Agéntico
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen•Jun 3, 2025•32

Una pieza faltante para los modelos de razonamiento de código abierto: un conjunto de datos para mitigar el arranque en frío de LLMs con cadenas de pensamiento cortas en RL.
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee•Jun 3, 2025•32

Los Ángulos No Mienten: Desbloqueando el Aprendizaje por Refuerzo Eficiente en Entrenamiento a Través de las Señales del Propio Modelo
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen•Jun 2, 2025•32

Hanfu-Bench: Un punto de referencia multimodal para la comprensión y transcreación cultural a través del tiempo
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li•Jun 2, 2025•32

ReFoCUS: Optimización de Marcos Guiada por Refuerzo para la Comprensión Contextual
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro•Jun 2, 2025•32

SHARE: Un Asistente Jerárquico de Corrección de Acciones basado en SLM para Texto-a-SQL
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

Ge Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng•May 31, 2025•32

¿Cuánto retroceso es suficiente? Explorando la interacción entre SFT y RL en la mejora del razonamiento de los LLM
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra•May 30, 2025•32

Descubrimiento Profundo en Videos: Búsqueda Agéntica con Uso de Herramientas para la Comprensión de Videos de Larga Duración
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu•May 23, 2025•32

Interpolación Controlable de Fotogramas Clave Centrada en Humanos con Prior Generativo
Controllable Human-centric Keyframe Interpolation with Generative Prior

Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy•Jun 3, 2025•22

TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu•Jun 3, 2025•22

M^3FinMeeting: Un Conjunto de Datos de Evaluación para la Comprensión de Reuniones Financieras Multilingüe, Multisectorial y de Múltiples Tareas
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen•Jun 3, 2025•22

QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Ahmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila•Jun 2, 2025•22

Control-R: Hacia un escalado controlable en tiempo de prueba
Control-R: Towards controllable test-time scaling

Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou•May 30, 2025•22

R^2ec: Hacia Modelos de Recomendación a Gran Escala con Razonamiento
R^2ec: Towards Large Recommender Models with Reasoning

Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie•May 22, 2025•22

ByteMorph: Evaluación de la Edición de Imágenes Guiada por Instrucciones con Movimientos No Rígidos
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang•Jun 3, 2025•12

Revisitando LRP: La Atribución Posicional como el Ingrediente Faltante para la Explicabilidad de los Transformers
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf•Jun 2, 2025•13

Más allá del aprendizaje en contexto: Alineación de la generación de texto extenso en modelos de lenguaje de gran escala mediante directrices de atributos inherentes a la tarea
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen•Jun 2, 2025•12

Saber antes de decir: Las representaciones de los LLM codifican información sobre el éxito de la cadena de pensamiento antes de la finalización.
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

Anum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser•May 30, 2025•12