ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
April 23rd, 2025
Kuwain 1.5B: Un modelo de lenguaje pequeño en árabe mediante inyección lingüística
Kuwain 1.5B: An Arabic SLM via Language Injection
Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
•
Apr 21, 2025
•
113
7
TTRL: Aprendizaje por Refuerzo en Tiempo de Prueba
TTRL: Test-Time Reinforcement Learning
Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
•
Apr 22, 2025
•
95
4
La dura lección aprendida de más de 2,000 benchmarks multilingües
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
•
Apr 22, 2025
•
61
2
Describe Anything: Generación Detallada y Localizada de Descripciones para Imágenes y Videos
Describe Anything: Detailed Localized Image and Video Captioning
Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui
•
Apr 22, 2025
•
58
4
Aprendizaje de Razonamiento Paralelo Adaptativo con Modelos de Lenguaje
Learning Adaptive Parallel Reasoning with Language Models
Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
•
Apr 21, 2025
•
42
2
LiveCC: Aprendizaje de Video LLM con Transcripción de Voz en Streaming a Gran Escala
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
•
Apr 22, 2025
•
32
2
BookWorld: De novelas a sociedades de agentes interactivos para la generación creativa de historias
BookWorld: From Novels to Interactive Agent Societies for Creative Story Generation
Yiting Ran, Xintao Wang, Tian Qiu, Jiaqing Liang, Yanghua Xiao, Deqing Yang
•
Apr 20, 2025
•
26
2
IV-Bench: Un punto de referencia para la percepción y razonamiento de video basado en imágenes en modelos de lenguaje multimodal (LLMs)
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
•
Apr 21, 2025
•
22
2
Los LLM son agentes codiciosos: Efectos del ajuste fino con RL en las capacidades de toma de decisiones
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
•
Apr 22, 2025
•
20
3
Escalado Eficiente de la Duración del Pretrenamiento
Efficient Pretraining Length Scaling
Bohong Wu, Shen Yan, Sijun Zhang, Jianqiao Lu, Yutao Zeng, Ya Wang, Xun Zhou
•
Apr 21, 2025
•
19
2
WALL-E 2.0: Alineación Mundial mediante Aprendizaje NeuroSimbólico mejora los Agentes de Modelos del Mundo basados en LLM
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
•
Apr 22, 2025
•
18
4
Generación Personalizada de Texto a Imagen con Modelos Auto-Regresivos
Personalized Text-to-Image Generation with Auto-Regressive Models
Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
•
Apr 17, 2025
•
18
3
CheXWorld: Exploración del Modelado de Mundos de Imágenes para el Aprendizaje de Representaciones en Radiografías
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
•
Apr 18, 2025
•
17
2
De la reflexión a la perfección: Escalando la optimización en tiempo de inferencia para modelos de difusión de texto a imagen mediante ajuste por reflexión
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
•
Apr 22, 2025
•
15
2
Vidi: Modelos Multimodales de Gran Escala para la Comprensión y Edición de Videos
Vidi: Large Multimodal Models for Video Understanding and Editing
Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
•
Apr 22, 2025
•
15
2
RealisDance-DiT: Una línea base simple pero sólida hacia la animación de personajes controlable en entornos no controlados
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
•
Apr 21, 2025
•
9
2
Progent: Control Programable de Privilegios para Agentes de LLM
Progent: Programmable Privilege Control for LLM Agents
Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
•
Apr 16, 2025
•
7
2
MR. Video: "MapReduce" es el principio para la comprensión de videos largos.
MR. Video: "MapReduce" is the Principle for Long Video Understanding
Ziqi Pang, Yu-Xiong Wang
•
Apr 22, 2025
•
6
2
CAPTURe: Evaluación del razonamiento espacial en modelos de lenguaje visual mediante el conteo de objetos ocluidos
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
•
Apr 21, 2025
•
5
2
IPBench: Evaluación del Conocimiento de los Modelos de Lenguaje de Gran Escala en Propiedad Intelectual
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
•
Apr 22, 2025
•
4
2
DiffVox: Un Modelo Diferenciable para Capturar y Analizar Distribuciones de Efectos Profesionales
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions
Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
•
Apr 20, 2025
•
2
2