ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

En el camino hacia un generalista multimodal: Nivel General y General-Bench
On Path to Multimodal Generalist: General-Level and General-Bench

Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang•May 7, 2025•22

Modelos Unificados de Comprensión y Generación Multimodal: Avances, Desafíos y Oportunidades
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang•May 5, 2025•594

ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang•May 7, 2025•403

HunyuanCustom: Una arquitectura impulsada por multimodalidad para la generación de videos personalizados
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu•May 7, 2025•253

Más allá del reconocimiento: Evaluación de la toma de perspectiva visual en modelos de lenguaje y visión
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński•May 3, 2025•211

PrimitiveAnything: Generación de Ensamblajes de Primitivas 3D Creadas por Humanos con Transformadores Auto-Regresivos
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

Jingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han•May 7, 2025•171

R&B: Regrupamiento de Dominios y Equilibrio de Mezcla de Datos para el Entrenamiento Eficiente de Modelos Fundacionales
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala•May 1, 2025•171

Evaluación comparativa de la inteligencia de enjambre en modelos de lenguaje grandes
Benchmarking LLMs' Swarm intelligence

Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun•May 7, 2025•130

OpenVision: Una Familia Totalmente Abierta y Rentable de Codificadores Visuales Avanzados para el Aprendizaje Multimodal
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie•May 7, 2025•111

Más allá de la demostración de teoremas: formulación, marco de trabajo y referencia para la resolución formal de problemas
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

Qi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan•May 7, 2025•101

OmniGIRL: Un punto de referencia multilingüe y multimodal para la resolución de incidencias en GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng•May 7, 2025•61

RAG Adaptativo Independiente de LLM: Deja que la Pregunta Hable por Sí Misma
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

Maria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii•May 7, 2025•61

OpenHelix: Un Análisis Breve, Evaluación Empírica y Modelo de Sistema Dual VLA de Código Abierto para Manipulación Robótica
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang•May 6, 2025•61

OSUniverse: Punto de referencia para agentes de IA de navegación GUI multimodal
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan•May 6, 2025•51

Resolución de Problemas Complejos Aumentada con Conocimiento mediante Modelos de Lenguaje de Gran Escala: Una Revisión
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

Da Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen•May 6, 2025•51

RAIL: Aprendizaje Instructivo Consciente de la Región para la Segmentación Semisupervisada de Dientes en CBCT
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

Chuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu•May 6, 2025•21

AutoLibra: Inducción de Métricas de Agente a partir de Retroalimentación Abierta
AutoLibra: Agent Metric Induction from Open-Ended Feedback

Hao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang•May 5, 2025•22

Fusión multimodal imagen-evento ponderada por incertidumbre para la detección de anomalías en video
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

Sungheon Jeong, Jihong Park, Mohsen Imani•May 5, 2025•21

Cognitio Emergens: Agencia, Dimensiones y Dinámicas en la Co-Creación de Conocimiento Humano-IA
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

Xule Lin•May 6, 2025•11

COSMOS: Adaptación Predecible y Rentable de Modelos de Lenguaje de Gran Escala
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Jiayu Wang, Aws Albarghouthi, Frederic Sala•Apr 30, 2025•11