ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

ScienceBoard: Evaluación de Agentes Autónomos Multimodales en Flujos de Trabajo Científicos Realistas
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu•May 26, 2025•962

Paper2Poster: Hacia la Automatización Multimodal de Pósters a partir de Artículos Científicos
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr•May 27, 2025•821

MME-Reasoning: Un punto de referencia integral para el razonamiento lógico en MLLMs
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue•May 27, 2025•783

OmniConsistency: Aprendizaje de Consistencia Independiente del Estilo a partir de Datos de Estilización Emparejados
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Yiren Song, Cheng Liu, Mike Zheng Shou•May 24, 2025•622

SynLogic: Síntesis de Datos de Razonamiento Verificables a Escala para el Aprendizaje de Razonamiento Lógico y Más Allá
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He•May 26, 2025•572

Explorando la Capacidad Latente de los LLM para la Generación de Texto en un Solo Paso
Exploring the Latent Capacity of LLMs for One-Step Text Generation

Gleb Mezentsev, Ivan Oseledets•May 27, 2025•561

OpenS2V-Nexus: Un punto de referencia detallado y un conjunto de datos a escala millonaria para la generación de sujeto a video
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan•May 26, 2025•523

No lo pienses demasiado. Prefiriendo cadenas de pensamiento más cortas para mejorar el razonamiento en modelos de lenguaje grandes.
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz•May 23, 2025•494

MMMR: Evaluación de Tareas de Razonamiento Multimodal Masivo
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun•May 22, 2025•444

Guiado por el Intuición: Escalado Eficiente en Tiempo de Prueba con Confianza Intrínseca Reforzada
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu•May 23, 2025•422

VerIPO: Cultivando el razonamiento prolongado en Video-LLMs mediante la Optimización Iterativa de Políticas Guiada por Verificador
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang•May 25, 2025•385

Sparse VideoGen2: Aceleración de la generación de videos con atención dispersa mediante permutación semántica
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica•May 24, 2025•372

MME-VideoOCR: Evaluación de capacidades basadas en OCR de modelos de lenguaje multimodal en escenarios de video
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang•May 27, 2025•361

UI-Genie: Un enfoque de auto-mejora para potenciar iterativamente agentes de GUI móviles basados en MLLM
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li•May 27, 2025•351

GraLoRA: Adaptación Granular de Bajo Rango para el Ajuste Fino Eficiente en Parámetros
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park•May 26, 2025•332

Video-Holmes: ¿Puede MLLM Pensar como Holmes para el Razonamiento Complejo en Videos?
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan•May 27, 2025•272

SweEval: ¿Los LLM realmente juran? Un punto de referencia de seguridad para probar los límites en el uso empresarial
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use

Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae•May 22, 2025•273

Reforzamiento del Razonamiento General sin Verificadores
Reinforcing General Reasoning without Verifiers

Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du•May 27, 2025•252

rStar-Coder: Escalando el Razonamiento Competitivo en Código con un Conjunto de Datos Verificado a Gran Escala
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang•May 27, 2025•254

MetaMind: Modelando Pensamientos Sociales Humanos con Sistemas Multiagente Metacognitivos
MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

Xuanming Zhang, Yuxuan Chen, Min-Hsuan Yeh, Yixuan Li•May 25, 2025•244

Modelo de Grafo de Código (CGM): Un Modelo de Lenguaje de Gran Escala Integrado con Grafos para Tareas de Ingeniería de Software a Nivel de Repositorio
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks

Hongyuan Tao, Ying Zhang, Zhenhao Tang, Hongen Peng, Xukun Zhu, Bingchang Liu, Yingguang Yang, Ziyin Zhang, Zhaogui Xu, Haipeng Zhang, Linchao Zhu, Rui Wang, Hang Yu, Jianguo Li, Peng Di•May 22, 2025•192

HoliTom: Fusión Holística de Tokens para Modelos de Lenguaje de Gran Escala en Vídeo Rápido
HoliTom: Holistic Token Merging for Fast Video Large Language Models

Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang•May 27, 2025•182

MotionPro: Un Controlador de Movimiento Preciso para la Generación de Imagen a Video
MotionPro: A Precise Motion Controller for Image-to-Video Generation

Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei•May 26, 2025•183

Más allá de la destilación: llevando al límite el razonamiento de los LLM médicos con un enfoque minimalista de RL basado en reglas
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci•May 23, 2025•182

¿Cómo mejora la alineación las capacidades multilingües de los LLM? Una perspectiva desde las neuronas del lenguaje.
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective

Shimao Zhang, Zhejian Lai, Xiang Liu, Shuaijie She, Xiao Liu, Yeyun Gong, Shujian Huang, Jiajun Chen•May 27, 2025•172

NOVA: Un punto de referencia para la localización de anomalías y el razonamiento clínico en resonancias magnéticas cerebrales
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler•May 20, 2025•172

Frame In-N-Out: Generación Ilimitada y Controlable de Imagen a Video
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng•May 27, 2025•162

ImgEdit: Un Conjunto de Datos Unificado y Punto de Referencia para la Edición de Imágenes
ImgEdit: A Unified Image Editing Dataset and Benchmark

Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan•May 26, 2025•163

DetailFlow: Generación Autoregresiva de Imágenes de 1D de Grueso a Fino mediante Predicción del Siguiente Detalle
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu•May 27, 2025•132

Active-O3: Potenciando los Modelos de Lenguaje Multimodales de Gran Escala con Percepción Activa mediante GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen•May 27, 2025•132

Más allá de la ingeniería de prompts: Control robusto del comportamiento en LLMs mediante la dirección de átomos objetivo
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang•May 23, 2025•132

FinTagging: Un punto de referencia listo para LLM para la extracción y estructuración de información financiera
FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information

Yan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie•May 27, 2025•122

ViewSpatial-Bench: Evaluación de la Localización Espacial Multiperspectiva en Modelos de Visión-Lenguaje
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang•May 27, 2025•102

Thinker: Aprendiendo a pensar rápido y despacio
Thinker: Learning to Think Fast and Slow

Stephen Chung, Wenyu Du, Jie Fu•May 27, 2025•92

Aprendizaje por Refuerzo Consciente del Renderizado para la Generación de Gráficos Vectoriales
Rendering-Aware Reinforcement Learning for Vector Graphics Generation

Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli•May 27, 2025•93

VisualToolAgent (VisTA): Un Marco de Aprendizaje por Refuerzo para la Selección de Herramientas Visuales
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee•May 26, 2025•92

Ataques Adversariales contra MLLMs de Código Cerrado mediante Alineación Óptima de Características
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu•May 27, 2025•82

SeePhys: ¿Ayuda ver a pensar? -- Evaluación del razonamiento físico basado en visión
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang•May 25, 2025•83

MMMG: Un Conjunto de Evaluación Integral y Confiable para la Generación Multitarea y Multimodal
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu•May 23, 2025•82

MMPerspective: ¿Entienden los MLLMs la perspectiva? Un punto de referencia integral para la percepción, el razonamiento y la robustez de la perspectiva
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu•May 26, 2025•61

Alita: Agente Generalista que Permite Razonamiento Agéntico Escalable con Mínima Predefinición y Máxima Autoevolución
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang•May 26, 2025•64

VideoGameBench: ¿Pueden los modelos de visión y lenguaje completar videojuegos populares?
VideoGameBench: Can Vision-Language Models complete popular video games?

Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press•May 23, 2025•63

Escalando la Entrada de Conocimiento Externo más allá de las Ventanas de Contexto de los LLM mediante Colaboración Multi-Agente
Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration

Zijun Liu, Zhennan Wan, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu•May 27, 2025•52

¡Camina antes de correr! Razonamiento conciso en LLM mediante aprendizaje por refuerzo
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

Mingyang Song, Mao Zheng•May 27, 2025•52

Videos de un Minuto con Paralelismos Duales
Minute-Long Videos with Dual Parallelisms

Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang•May 27, 2025•52

Más allá de lo markoviano: Exploración reflexiva mediante RL Bayes-adaptativo para el razonamiento en LLM
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

Shenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li•May 26, 2025•52

¿Pueden los LLM comprimidos realmente actuar? Una evaluación empírica de las capacidades agentivas en la compresión de LLM
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li•May 26, 2025•51

BiomedSQL: Texto a SQL para razonamiento científico en bases de conocimiento biomédico
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri•May 23, 2025•52

R1-Searcher++: Incentivizando la Adquisición Dinámica de Conocimiento en LLMs mediante Aprendizaje por Refuerzo
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen•May 22, 2025•52

Búsqueda y Refinamiento Durante el Pensar: Razonamiento Autónomo Aumentado por Recuperación en Modelos de Lenguaje de Gran Escala
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang•May 16, 2025•51

Sci-Fi: Restricción Simétrica para la Interpolación de Fotogramas
Sci-Fi: Symmetric Constraint for Frame Inbetweening

Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan•May 27, 2025•42

SoloSpeech: Mejora de la inteligibilidad y calidad en la extracción de voz objetivo mediante un pipeline generativo en cascada
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak•May 25, 2025•42

Los MLLM se ven profundamente afectados por el sesgo de modalidad.
MLLMs are Deeply Affected by Modality Bias

Xu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu•May 24, 2025•42

Síntesis Multimodal Guiada por Grafos de Conocimiento Espacial
Spatial Knowledge Graph-Guided Multimodal Synthesis

Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang•May 28, 2025•31

Prueba Virtual Inversa: Generación de Imágenes de Estilo de Productos Multi-Categoría a partir de Individuos Vestidos
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe•May 27, 2025•31

VLM-3R: Modelos de Visión-Lenguaje Potenciados con Reconstrucción 3D Alineada a Instrucciones
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan•May 26, 2025•32

Leyes de Escalado Basadas en Capacidades para la Evaluación de Riesgos en LLM
Capability-Based Scaling Laws for LLM Red-Teaming

Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping•May 26, 2025•32

DFIR-Metric: Un Conjunto de Datos de Referencia para Evaluar Modelos de Lenguaje a Gran Escala en Forensia Digital y Respuesta a Incidentes
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi•May 26, 2025•32

Curación de Modalidades: Construcción de Incrustaciones Universales para la Recuperación Avanzada de Información Multimodal
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou•May 26, 2025•32

ComfyMind: Hacia la generación de propósito general mediante planificación basada en árboles y retroalimentación reactiva
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen•May 23, 2025•33

AdInject: Ataques de caja negra en el mundo real a agentes web mediante la entrega de publicidad
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang•May 27, 2025•22

SATORI-R1: Incentivización del razonamiento multimodal con fundamentación espacial y recompensas verificables
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng•May 25, 2025•22

PreMoe: Aligeramiento de MoEs en memoria restringida mediante poda y recuperación de expertos
PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval

Zehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu•May 23, 2025•22

R1-ShareVL: Incentivizando la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala mediante Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang•May 22, 2025•22

Las Coordenadas Absolutas Facilitan la Generación de Movimiento
Absolute Coordinates Make Motion Generation Easy

Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang•May 26, 2025•12

CoreMatching: Un Marco de Inferencia Escasa Co-adaptativo con Poda de Tokens y Neuronas para la Aceleración Integral de Modelos de Visión-Lenguaje
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen•May 25, 2025•11

Explicando las Fuentes de Incertidumbre en la Verificación Automatizada de Hechos
Explaining Sources of Uncertainty in Automated Fact-Checking

Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein•May 23, 2025•11

Atención Tropical: Razonamiento Algorítmico Neuronal para Algoritmos Combinatorios
Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms

Baran Hashemi, Kurt Pasque, Chris Teska, Ruriko Yoshida•May 22, 2025•11

Mejorando la comprensión química de los LLM mediante el análisis de SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing

Yunhui Jang, Jaehyung Kim, Sungsoo Ahn•May 22, 2025•12

¿Los sistemas RAG sufren de sesgo posicional?
Do RAG Systems Suffer From Positional Bias?

Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri•May 21, 2025•12

Transformadores de Visión con Registros de Auto-Destilación
Vision Transformers with Self-Distilled Registers

Yinjie Chen, Zipeng Yan, Chong Zhou, Bo Dai, Andrew F. Luo•May 27, 2025•02

Ankh3: Pretrenamiento Multitarea con Desenmascaramiento y Completado de Secuencias Mejora las Representaciones de Proteínas
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

Más allá de la concatenación simple: Evaluación justa de arquitecturas de modelos de lenguaje preentrenados para la predicción de interacciones proteína-proteína de múltiples cadenas
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

Un Marco Diagnóstico Explicable para Demencias Neurodegenerativas mediante Razonamiento Optimizado por Refuerzo en Modelos de Lenguaje de Gran Escala
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning

Andrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe•May 26, 2025•02