ChatPaper.ai
Abrir menú
Inicio
Artículos Diarios
arXiv
HuggingFace
Precios
Cuenta
Espacio de trabajo
🇪🇸
Español
Loading...
•
•
•
•
•
•
•
•
•
•
Artículos de Investigación en IA Diarios
Artículos de investigación en IA seleccionados diariamente con traducciones
June 6th, 2024
Block Transformer: Modelado de Lenguaje de Global a Local para Inferencia Rápida
Block Transformer: Global-to-Local Language Modeling for Fast Inference
Namgyu Ho, Sangmin Bae, Taehyeon Kim, Hyunjik Jo, Yireun Kim, Tal Schuster, Adam Fisch, James Thorne, Se-Young Yun
•
Jun 4, 2024
•
41
1
Parrot: Ajuste de Instrucción Visual Multilingüe
Parrot: Multilingual Visual Instruction Tuning
Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
•
Jun 4, 2024
•
39
2
Mobile-Agent-v2: Asistente de Operaciones en Dispositivos Móviles con Navegación Efectiva mediante Colaboración Multiagente
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
•
Jun 3, 2024
•
35
2
Ouroboros3D: Generación de imágenes a 3D mediante difusión recursiva consciente del 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
•
Jun 5, 2024
•
22
2
Audio Mamba: Modelo de Espacio de Estado Bidireccional para el Aprendizaje de Representaciones de Audio
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
•
Jun 5, 2024
•
21
1
PosterLLaVa: Construyendo un Generador Unificado de Diseños Multi-modales con LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
•
Jun 5, 2024
•
18
2
LiveSpeech: Síntesis de voz de texto a voz de baja latencia y cero disparos mediante modelado autorregresivo de códigos discretos de audio
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
•
Jun 5, 2024
•
16
2
La Búsqueda de Priores Mejora la Síntesis de Texto a Video
Searching Priors Makes Text-to-Video Synthesis Better
Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu
•
Jun 5, 2024
•
14
2
Leyes de Escalado para la Sobreoptimización de Modelos de Recompensa en Algoritmos de Alineación Directa
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum
•
Jun 5, 2024
•
14
0
Modelo de Lenguaje Basado en Ítems para Recomendación Conversacional
Item-Language Model for Conversational Recommendation
Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
•
Jun 5, 2024
•
12
1
PLaD: Distilación de Modelos de Lenguaje de Gran Escala Basada en Preferencias con Pares de Pseudo-Preferencias
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs
Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
•
Jun 5, 2024
•
11
1
Informe Técnico de Xmodel-LM
Xmodel-LM Technical Report
Yichuan Wang, Yang Liu, Yu Yan, Xucheng Huang, Ling Jiang
•
Jun 5, 2024
•
11
1