ChatPaper.ai
Ouvrir le menu
Accueil
Articles du Jour
arXiv
HuggingFace
Tarifs
Compte
Espace de travail
🇫🇷
Français
Loading...
•
•
•
•
•
•
•
•
•
•
Articles de Recherche en IA Quotidiens
Articles de recherche en IA sélectionnés quotidiennement avec traductions
April 9th, 2024
Ferret-UI : Compréhension des interfaces utilisateur mobiles ancrée avec des LLM multimodaux
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
•
Apr 8, 2024
•
83
3
MagicTime : Modèles de génération de vidéos accélérées en tant que simulateurs métamorphiques
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
•
Apr 7, 2024
•
35
2
SwapAnything : Permettant l'échange arbitraire d'objets dans l'édition visuelle personnalisée
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang
•
Apr 8, 2024
•
27
0
ByteEdit : Améliorer, Conformer et Accélérer l'Édition d'Images Générées
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
•
Apr 7, 2024
•
27
1
UniFL : Améliorer Stable Diffusion grâce à un apprentissage unifié par rétroaction
UniFL: Improve Stable Diffusion via Unified Feedback Learning
Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li
•
Apr 8, 2024
•
26
1
SpatialTracker : Suivi de n'importe quel pixel 2D dans l'espace 3D
SpatialTracker: Tracking Any 2D Pixels in 3D Space
Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
•
Apr 5, 2024
•
26
1
BeyondScene : Génération de scènes centrées sur l'humain à plus haute résolution avec des modèles de diffusion pré-entraînés
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun
•
Apr 6, 2024
•
24
0
MA-LMM : Modèle Multimodal de Grande Taille Augmenté par Mémoire pour la Compréhension de Vidéos à Long Terme
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
•
Apr 8, 2024
•
23
0
PhysAvatar : Apprentissage de la physique des avatars 3D habillés à partir d'observations visuelles
PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations
Yang Zheng, Qingqing Zhao, Guandao Yang, Wang Yifan, Donglai Xiang, Florian Dubost, Dmitry Lagun, Thabo Beeler, Federico Tombari, Leonidas Guibas, Gordon Wetzstein
•
Apr 5, 2024
•
18
0
YaART : Encore une autre technologie de rendu ART
YaART: Yet Another ART Rendering Technology
Sergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov
•
Apr 8, 2024
•
17
0
MoMA : Adaptateur Multimodal pour LLM permettant une Génération Rapide d'Images Personnalisées
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
•
Apr 8, 2024
•
15
2
Alignement des modèles de diffusion par optimisation de l'utilité humaine
Aligning Diffusion Models by Optimizing Human Utility
Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
•
Apr 6, 2024
•
15
1
Diffusion-RWKV : Mise à l'échelle d'architectures de type RWKV pour les modèles de diffusion
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang
•
Apr 6, 2024
•
13
0
DATENeRF : Édition textuelle consciente de la profondeur pour les NeRFs
DATENeRF: Depth-Aware Text-based Editing of NeRFs
Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall
•
Apr 6, 2024
•
11
0
Koala : Modèle de langage vidéo long conditionné par des images clés
Koala: Key frame-conditioned long video-LLM
Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko
•
Apr 5, 2024
•
7
2