ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
February 25th, 2025
Investigación del Impacto de los Métodos de Cuantización en la Seguridad y Fiabilidad de los Modelos de Lenguaje a Gran Escala
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models
Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev
•
Feb 18, 2025
•
7
2
Planificación Reflexiva: Modelos Visión-Lenguaje para la Manipulación Robótica de Largo Horizonte en Múltiples Etapas
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
•
Feb 23, 2025
•
13
2
VideoGrain: Modulación de la Atención Espacio-Temporal para la Edición de Vídeo Multigranular
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
•
Feb 24, 2025
•
79
5
Stable-SPAM: Cómo entrenar en 4 bits con mayor estabilidad que Adam en 16 bits
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam
Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu
•
Feb 24, 2025
•
18
2
Hagamos que LoRA vuelva a ser genial: Potenciando LoRA con valores singulares adaptativos y alineación de optimización mediante mezcla de expertos
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
•
Feb 24, 2025
•
29
4
Mobile-Agent-V: Aprendizaje de Operaciones en Dispositivos Móviles mediante Colaboración Multiagente Guiada por Video
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration
Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang
•
Feb 24, 2025
•
13
2
X-Dancer: Generación de videos de danza humana a partir de música expresiva
X-Dancer: Expressive Music to Human Dance Video Generation
Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
•
Feb 24, 2025
•
11
3
InductionBench: Los LLM fallan en la clase de complejidad más simple
InductionBench: LLMs Fail in the Simplest Complexity Class
Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
•
Feb 20, 2025
•
7
2
Generalización Lingüística del Escalado en Tiempo de Prueba en Razonamiento Matemático
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning
Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
•
Feb 24, 2025
•
26
2
MutaGReP: Búsqueda de Planes Basada en Repositorios sin Ejecución para el Uso de Código
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use
Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta
•
Feb 21, 2025
•
5
2
Slamming: Entrenamiento de un Modelo de Lenguaje de Voz en una GPU en un Día
Slamming: Training a Speech Language Model on One GPU in a Day
Gallil Maimon, Avishai Elmakies, Yossi Adi
•
Feb 19, 2025
•
69
2
MONSTER: Repositorio de Evaluación de Series Temporales Escalable de Monash
MONSTER: Monash Scalable Time Series Evaluation Repository
Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb
•
Feb 21, 2025
•
3
2
Evaluación Comparativa del Razonamiento Temporal y Alineación a través de las Dinastías Chinas
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties
Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
•
Feb 24, 2025
•
8
4
¡Atención a la brecha! Evaluaciones estáticas e interactivas de modelos de audio de gran escala
Mind the Gap! Static and Interactive Evaluations of Large Audio Models
Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang
•
Feb 21, 2025
•
4
2
Más allá del lanzamiento: Consideraciones de acceso para sistemas de IA generativa
Beyond Release: Access Considerations for Generative AI Systems
Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask
•
Feb 23, 2025
•
16
4
La serpiente en la esfera browniana
The snake in the Brownian sphere
Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont
•
Feb 18, 2025
•
2
2
TAG: Un Marco Descentralizado para el Aprendizaje por Refuerzo Jerárquico en Sistemas Multiagente
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning
Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl
•
Feb 21, 2025
•
9
2
CodeCriticBench: Un Benchmark Integral de Crítica de Código para Modelos de Lenguaje a Gran Escala
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
•
Feb 23, 2025
•
27
3
Pandora3D: Un Marco Integral para la Generación de Formas 3D y Texturas de Alta Calidad
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
•
Feb 20, 2025
•
6
2
Abstract: We present DICEPTION, a novel generalist diffusion model designed for a wide range of visual perceptual tasks. Unlike task-specific models, DICEPTION leverages the power of diffusion processes to handle diverse visual challenges through a unified architecture. Our model demonstrates superior performance across multiple benchmarks, including image classification, object detection, and semantic segmentation. The key innovation lies in its ability to adaptively learn task-specific features while maintaining a shared representation space. Extensive experiments validate the effectiveness of DICEPTION in both supervised and unsupervised settings, showcasing its potential as a versatile tool for computer vision applications. We also provide insights into the model's interpretability and discuss its implications for future research in generalist AI systems.
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
•
Feb 24, 2025
•
53
3
Estimación de Calidad de Traducción con Salida Temprana y Confianza Instantánea
Early-Exit and Instant Confidence Translation Quality Estimation
Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues
•
Feb 20, 2025
•
4
2
MegaLoc: Un único sistema de recuperación para ubicarlos a todos
MegaLoc: One Retrieval to Place Them All
Gabriele Berton, Carlo Masone
•
Feb 24, 2025
•
3
2
Diagnóstico de la gravedad de COVID-19 a partir de imágenes de radiografías de tórax utilizando arquitecturas ViT y CNN
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures
Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield
•
Feb 23, 2025
•
2
2
Razonamiento de Inconsistencia Multimodal (MMIR): Un Nuevo Benchmark para Modelos de Razonamiento Multimodal
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models
Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
•
Feb 22, 2025
•
18
2
Pronóstico del Crecimiento de Modelos de IA de Código Abierto en Hugging Face
Forecasting Open-Weight AI Model Growth on Hugging Face
Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
•
Feb 21, 2025
•
10
3
RIFLEx: Una solución sin coste adicional para la extrapolación de longitud en transformadores de difusión de video
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
•
Feb 21, 2025
•
20
3
GCC: Constancia de Color Generativa mediante la Difusión de una Carta de Colores
GCC: Generative Color Constancy via Diffusing a Color Checker
Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu
•
Feb 24, 2025
•
28
2
Audio-FLAN: Una Versión Preliminar
Audio-FLAN: A Preliminary Release
Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
•
Feb 23, 2025
•
37
2
Agente Autodidacta de Comprensión de Contexto Extendido
Self-Taught Agentic Long Context Understanding
Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
•
Feb 21, 2025
•
3
2
M3-AGIQA: Evaluación Multimodal, Multironda y Multiaspecto de la Calidad de Imágenes Generadas por IA
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu
•
Feb 21, 2025
•
2
2
Así Habló el Modelo de Lenguaje de Gran Contexto
Thus Spake Long-Context Large Language Model
Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
•
Feb 24, 2025
•
73
6
Generación de Lenguaje Persuasivo Fundamentado para Marketing Automatizado
Grounded Persuasive Language Generation for Automated Marketing
Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu
•
Feb 24, 2025
•
12
3
¿Pueden las notas comunitarias reemplazar a los verificadores de hechos profesionales?
Can Community Notes Replace Professional Fact-Checkers?
Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein
•
Feb 19, 2025
•
6
2