ChatPaper.ai
Ouvrir le menu
Accueil
Articles du Jour
arXiv
HuggingFace
Tarifs
Compte
Espace de travail
🇫🇷
Français
Loading...
•
•
•
•
•
•
•
•
•
•
Articles de Recherche en IA Quotidiens
Articles de recherche en IA sélectionnés quotidiennement avec traductions
June 6th, 2024
Block Transformer : Modélisation du langage global-local pour une inférence rapide
Block Transformer: Global-to-Local Language Modeling for Fast Inference
Namgyu Ho, Sangmin Bae, Taehyeon Kim, Hyunjik Jo, Yireun Kim, Tal Schuster, Adam Fisch, James Thorne, Se-Young Yun
•
Jun 4, 2024
•
41
1
Parrot : Réglage d'instructions visuelles multilingues
Parrot: Multilingual Visual Instruction Tuning
Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
•
Jun 4, 2024
•
39
2
Mobile-Agent-v2 : Assistant d'opération sur appareils mobiles avec navigation efficace grâce à une collaboration multi-agent
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
•
Jun 3, 2024
•
35
2
Ouroboros3D : Génération d'images en 3D via une diffusion récursive consciente de la 3D
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
•
Jun 5, 2024
•
22
2
Audio Mamba : Modèle d'espace d'état bidirectionnel pour l'apprentissage de représentations audio
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
•
Jun 5, 2024
•
21
1
PosterLLaVa : Construction d'un générateur de mise en page multimodale unifié avec un LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
•
Jun 5, 2024
•
18
2
LiveSpeech : Synthèse vocale à faible latence et zero-shot via modélisation autorégressive de codes audio discrets
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes
Trung Dang, David Aponte, Dung Tran, Kazuhito Koishida
•
Jun 5, 2024
•
16
2
L'exploration des connaissances préalables améliore la synthèse texte-vidéo
Searching Priors Makes Text-to-Video Synthesis Better
Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu
•
Jun 5, 2024
•
14
2
Lois d'échelle pour la sur-optimisation des modèles de récompense dans les algorithmes d'alignement direct
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum
•
Jun 5, 2024
•
14
0
Modèle de Langage basé sur les Items pour la Recommandation Conversationnelle
Item-Language Model for Conversational Recommendation
Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
•
Jun 5, 2024
•
12
1
PLaD : Distillation de modèles de langage de grande taille basée sur les préférences avec des paires de pseudo-préférences
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs
Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang
•
Jun 5, 2024
•
11
1
Rapport Technique sur Xmodel-LM
Xmodel-LM Technical Report
Yichuan Wang, Yang Liu, Yu Yan, Xucheng Huang, Ling Jiang
•
Jun 5, 2024
•
11
1