ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
June 5th, 2025
Informe Técnico de MiMo-VL
MiMo-VL Technical Report
Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
•
Jun 4, 2025
•
65
2
AmbiK: Conjunto de Datos de Tareas Ambiguas en Entornos de Cocina
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
•
Jun 4, 2025
•
43
2
Avanzando en el razonamiento multimodal: desde el arranque en frío optimizado hasta el aprendizaje por refuerzo por etapas
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning
Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
•
Jun 4, 2025
•
41
4
Una Evaluación Controlable para Modelos de Lenguaje de Contexto Extendido
A Controllable Examination for Long-Context Language Models
Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
•
Jun 3, 2025
•
30
2
MMR-V: ¿Qué queda por decir? Un punto de referencia para el razonamiento profundo multimodal en videos.
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
Kejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
•
Jun 4, 2025
•
28
2
SuperWriter: Generación de textos extensivos basada en reflexión con modelos de lenguaje a gran escala
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
•
Jun 4, 2025
•
26
2
OpenThoughts: Recetas de Datos para Modelos de Razonamiento
OpenThoughts: Data Recipes for Reasoning Models
Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
•
Jun 4, 2025
•
25
2
Establecimiento de Evaluaciones Confiables de LLM mediante Análisis de Neuronas de Atajo
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis
Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao
•
Jun 4, 2025
•
24
2
Voyager: Difusión de Video de Largo Alcance y Consistencia Mundial para la Generación de Escenas 3D Explorables
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
•
Jun 4, 2025
•
21
2
VisCoder: Ajuste fino de LLMs para la generación de código ejecutable en Python para visualización
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
Yuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen
•
Jun 4, 2025
•
20
2
IllumiCraft: Difusión Unificada de Geometría e Iluminación para la Generación Controlable de Videos
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang
•
Jun 3, 2025
•
20
3
Edición de imágenes como programas con modelos de difusión
Image Editing As Programs with Diffusion Models
Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
•
Jun 4, 2025
•
19
2
Liberando el Potencial de Razonamiento de los LLM Preentrenados mediante Ajuste Fino Basado en Críticas en un Solo Problema
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen
•
Jun 3, 2025
•
16
2
Ψ-Muestreador: Muestreo Inicial de Partículas para Alineación de Recompensas en Tiempo de Inferencia Basada en SMC en Modelos de Puntuación
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models
Taehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung
•
Jun 2, 2025
•
16
2
LayerFlow: Un Modelo Unificado para la Generación de Videos Consciente de Capas
LayerFlow: A Unified Model for Layer-aware Video Generation
Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao
•
Jun 4, 2025
•
13
2
DenseDPO: Optimización de Preferencias Temporales de Granularidad Fina para Modelos de Difusión de Video
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin
•
Jun 4, 2025
•
13
2
SVGenius: Evaluación de Modelos de Lenguaje en la Comprensión, Edición y Generación de SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
•
Jun 3, 2025
•
13
2
TimeHC-RL: Aprendizaje por Refuerzo Cognitivo Jerárquico con Conciencia Temporal para Mejorar la Inteligencia Social de los Modelos de Lenguaje Grande (LLMs)
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
•
May 30, 2025
•
11
2
Atención Dispersa Rectificada
Rectified Sparse Attention
Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei
•
Jun 4, 2025
•
9
2
Orak: Un punto de referencia fundamental para entrenar y evaluar agentes de LLM en videojuegos diversos
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
•
Jun 4, 2025
•
9
2
Más allá de la superficie: Medición de la autopreferencia en los juicios de los LLM
Beyond the Surface: Measuring Self-Preference in LLM Judgments
Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
•
Jun 3, 2025
•
8
2
BenchHub: Un Conjunto Unificado de Pruebas de Referencia para la Evaluación Holística y Personalizable de Modelos de Lenguaje Grande (LLM)
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation
Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
•
May 31, 2025
•
8
2
TalkingMachines: Video en tiempo real estilo FaceTime impulsado por audio mediante modelos de difusión autorregresivos
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
Chetwin Low, Weimin Wang
•
Jun 3, 2025
•
7
2
DiffDecompose: Descomposición Capa por Capa de Imágenes Alfa-Compositadas mediante Transformadores de Difusión
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers
Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song
•
May 24, 2025
•
7
2
POSS: El Especialista en Posición Genera Mejores Borradores para la Decodificación Especulativa
POSS: Position Specialist Generates Better Draft for Speculative Decoding
Langlin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang
•
Jun 4, 2025
•
6
2
Robustez en Ambos Dominios: CLIP Necesita un Codificador de Texto Robusto
Robustness in Both Domains: CLIP Needs a Robust Text Encoder
Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
•
Jun 3, 2025
•
6
2
Critique-GRPO: Mejorando el razonamiento de modelos de lenguaje con retroalimentación en lenguaje natural y numérica
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
•
Jun 3, 2025
•
6
2
CapSpeech: Habilitando aplicaciones posteriores en síntesis de voz con subtítulos de estilo
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
Helin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak
•
Jun 3, 2025
•
6
3
Adaptar antes del Aprendizaje Continuo
Adapt before Continual Learning
Aojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun
•
Jun 4, 2025
•
5
2
Video-Skill-CoT: Cadena de Pensamientos Basada en Habilidades para el Razonamiento Adaptativo de Dominio en Videos
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
•
Jun 4, 2025
•
5
2
RefEdit: Un punto de referencia y método para mejorar los modelos de edición de imágenes basados en instrucciones mediante expresiones referenciales
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
•
Jun 3, 2025
•
4
2
Evaluadores Cuantitativos de Modelos de Lenguaje Grande
Quantitative LLM Judges
Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
•
Jun 3, 2025
•
4
2
Mejora de la Distilación de Conocimiento Bajo Cambio Covariante Desconocido Mediante Aumento de Datos Guiado por Confianza
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation
Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
•
Jun 2, 2025
•
4
2
Sigue el Flujo: Atribución Detallada de Diagramas de Flujo con Agentes Neurosimbólicos
Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents
Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Vivek Gupta, Dinesh Manocha
•
Jun 2, 2025
•
4
2
DLP: Poda Dinámica por Capas en Modelos de Lenguaje de Gran Escala
DLP: Dynamic Layerwise Pruning in Large Language Models
Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
•
May 27, 2025
•
4
2
Liberando el Entrenamiento de Videos a Escala Horaria para la Comprensión de Videos-Lenguaje de Larga Duración
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
•
Jun 5, 2025
•
3
1
TRiSM para IA Agéntica: Una Revisión de la Gestión de Confianza, Riesgo y Seguridad en Sistemas Multiagente Basados en Modelos de Lenguaje de Gran Escala
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems
Shaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis
•
Jun 4, 2025
•
3
2
HTSC-2025: Un Conjunto de Datos de Referencia de Superconductores de Alta Temperatura a Presión Ambiental para la Predicción de Temperatura Crítica Basada en IA
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction
Xiao-Qi Han, Ze-Feng Gao, Xin-De Wang, Zhenfeng Ouyang, Peng-Jie Guo, Zhong-Yi Lu
•
Jun 4, 2025
•
3
2
Optimización de Políticas por Segmentos: Asignación Efectiva de Crédito a Nivel de Segmento en Aprendizaje por Refuerzo para Modelos de Lenguaje a Gran Escala
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
•
May 29, 2025
•
3
2
Rex-Thinker: Referencia a Objetos Fundamentada mediante Razonamiento en Cadena de Pensamiento
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
•
Jun 4, 2025
•
2
2
Replanteando el equilibrio entre estabilidad y plasticidad en el aprendizaje continuo desde una perspectiva arquitectónica
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
•
Jun 4, 2025
•
2
2
CRAWLDoc: Un Conjunto de Datos para la Clasificación Robusta de Documentos Bibliográficos
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
Fabian Karl, Ansgar Scherp
•
Jun 4, 2025
•
2
2
Los modelos de lenguaje visual (VLMs) pueden agregar parches de entrenamiento dispersos.
VLMs Can Aggregate Scattered Training Patches
Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
•
Jun 4, 2025
•
2
2
Renderizado Neural Robusto en Entornos Reales con Splatting de Gaussianas 3D Asimétricas Duales
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
•
Jun 4, 2025
•
2
2
Resolución de Problemas Inversos con FLAIR
Solving Inverse Problems with FLAIR
Julius Erbach, Dominik Narnhofer, Andreas Dombos, Bernt Schiele, Jan Eric Lenssen, Konrad Schindler
•
Jun 3, 2025
•
2
2
FinChain: Un punto de referencia simbólico para el razonamiento financiero verificable en cadena de pensamiento
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
•
Jun 3, 2025
•
2
2
Los Modelos de Lenguaje Pequeños son el Futuro de la IA Agéntica.
Small Language Models are the Future of Agentic AI
Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
•
Jun 2, 2025
•
2
2
Sonificando ese Objeto: Generación Interactiva de Audio a partir de Imágenes con Conciencia del Objeto
Sounding that Object: Interactive Object-Aware Image to Audio Generation
Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang
•
Jun 4, 2025
•
1
2
Estudio de los Hiperparámetros del Aprendizaje Activo: Perspectivas de una Rejilla Experimental a Gran Escala
Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid
Julius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner
•
Jun 4, 2025
•
1
2
RiOSWorld: Evaluación del Riesgo de Agentes de Uso de Computación Multimodal
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents
Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
•
May 31, 2025
•
1
2