Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

LlamaFactory : Réglage fin unifié et efficace de plus de 100 modèles de langage
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo•Mar 20, 2024•934

Mora : Permettre la génération vidéo généraliste via un cadre multi-agent
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun•Mar 20, 2024•797

Optimisation évolutive des recettes de fusion de modèles
Evolutionary Optimization of Model Merging Recipes

Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha•Mar 19, 2024•544

SceneScript : Reconstruction de scènes avec un modèle de langage structuré autorégressif
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas•Mar 19, 2024•322

Quand n'avons-nous pas besoin de modèles de vision plus grands ?
When Do We Not Need Larger Vision Models?

Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell•Mar 19, 2024•262

IDAdapter : Apprentissage de caractéristiques mixtes pour la personnalisation sans réglage des modèles de génération d'images à partir de texte
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Siying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng•Mar 20, 2024•241

RewardBench : Évaluation des modèles de récompense pour le traitement du langage
RewardBench: Evaluating Reward Models for Language Modeling

Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi•Mar 20, 2024•232

RadSplat : Projection Gaussienne Informée par les Champs de Radiance pour un Rendu Robuste en Temps Réel à plus de 900 IPS
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Michael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari•Mar 20, 2024•181

ZigMa : Modèle de diffusion Mamba en zigzag
ZigMa: Zigzag Mamba Diffusion Model

Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer•Mar 20, 2024•182

HyperLLaVA : Réglage dynamique des experts visuels et linguistiques pour les modèles de langage multimodaux de grande taille
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang•Mar 20, 2024•181

DepthFM : Estimation rapide de la profondeur monoculaire par correspondance de flux
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer•Mar 20, 2024•171

Magic Fixup : Rationaliser l'édition de photos en observant des vidéos dynamiques
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi•Mar 19, 2024•151

Entraînement inversé pour remédier à la malédiction de l'inversion
Reverse Training to Nurse the Reversal Curse

Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar•Mar 20, 2024•131

Be-Your-Outpainter : Maîtriser l'extrapolation vidéo grâce à une adaptation spécifique à l'entrée
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li•Mar 20, 2024•111

VSTAR : Génération temporelle assistée pour la synthèse de vidéos dynamiques de longue durée
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva•Mar 20, 2024•93

Vers une interprétation 3D molécule-texte dans les modèles de langage
Towards 3D Molecule-Text Interpretation in Language Models

Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian•Jan 25, 2024•91

Compress3D : un espace latent compressé pour la génération 3D à partir d'une seule image
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao•Mar 20, 2024•82

Évaluation des modèles de pointe pour leurs capacités dangereuses
Evaluating Frontier Models for Dangerous Capabilities

Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane•Mar 20, 2024•71