Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

MM1 : Méthodes, analyses et enseignements issus du pré-entraînement de modèles de langage multimodaux
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang•Mar 14, 2024•12812

Quiet-STaR : Les modèles de langage peuvent apprendre à réfléchir avant de parler
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman•Mar 14, 2024•787

Débloquer la conversion de captures d'écran web en code HTML avec le jeu de données WebSight
Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

Hugo Laurençon, Léo Tronchon, Victor Sanh•Mar 14, 2024•564

GiT : Vers un Transformateur Visionnaire Généraliste via une Interface Langagière Universelle
GiT: Towards Generalist Vision Transformer through Universal Language Interface

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang•Mar 14, 2024•2811

StreamMultiDiffusion : Génération interactive en temps réel avec contrôle sémantique basé sur les régions
StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee•Mar 14, 2024•273

Montage vidéo via distillation de diffusion factorisée
Video Editing via Factorized Diffusion Distillation

Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman•Mar 14, 2024•242

BurstAttention : Un cadre d'attention distribué efficace pour des séquences extrêmement longues
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, Shengnan Wang, Teng Su•Mar 14, 2024•232

Glyph-ByT5 : Un encodeur de texte personnalisé pour un rendu visuel précis du texte
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan•Mar 14, 2024•181

Griffon v2 : Progrès dans la perception multimodale grâce à la mise à l'échelle haute résolution et à la coréférence visuo-linguistique
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang•Mar 14, 2024•163

Suite Video Mamba : Le modèle d'espace d'état comme alternative polyvalente pour la compréhension vidéo
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang•Mar 14, 2024•151

3D-VLA : Un modèle génératif monde 3D intégrant vision, langage et action
3D-VLA: A 3D Vision-Language-Action Generative World Model

Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan•Mar 14, 2024•101

VisionGPT-3D : Un agent multimodal généralisé pour une compréhension améliorée de la vision 3D
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou•Mar 14, 2024•101

Veagle : Progrès dans l'apprentissage de représentations multimodales
Veagle: Advancements in Multimodal Representation Learning

Rajat Chawla, Arkajit Datta, Tushar Verma, Adarsh Jha, Anmol Gautam, Ayush Vatsal, Sukrit Chaterjee, Mukunda NS, Ishaan Bhola•Jan 18, 2024•101

LocalMamba : Modèle d'espace d'états visuel avec balayage sélectif fenêtré
LocalMamba: Visual State Space Model with Windowed Selective Scan

Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu•Mar 14, 2024•91