ChatPaper.ai
Ouvrir le menu
Accueil
Articles du Jour
arXiv
HuggingFace
Tarifs
Compte
Espace de travail
🇫🇷
Français
Loading...
•
•
•
•
•
•
•
•
•
•
Articles de Recherche en IA Quotidiens
Articles de recherche en IA sélectionnés quotidiennement avec traductions
August 12th, 2024
VITA : Vers un modèle de langage multimodal omni interactif open-source
VITA: Towards Open-Source Interactive Omni Multimodal LLM
Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
•
Aug 9, 2024
•
49
3
Portée de Gemma : Des autoencodeurs éparses ouverts partout et simultanément sur Gemma 2
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda
•
Aug 9, 2024
•
40
2
mPLUG-Owl3 : Vers la compréhension de longues séquences d'images dans les modèles de langage multi-modaux de grande taille
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
•
Aug 9, 2024
•
35
2
UniBench : Le raisonnement visuel nécessite de repenser la vision-langage au-delà de la simple mise à l'échelle
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling
Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim
•
Aug 9, 2024
•
25
2
ToolSandbox : Un benchmark d'évaluation conversationnel, interactif et à état pour les capacités d'utilisation d'outils des LLM
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang
•
Aug 8, 2024
•
18
4
Propagation de caractéristiques inspirée de Kalman pour la super-résolution de visages en vidéo
Kalman-Inspired Feature Propagation for Video Face Super-Resolution
Ruicheng Feng, Chongyi Li, Chen Change Loy
•
Aug 9, 2024
•
10
3
BRAT : Token Bonus Orthogonal pour l'Inversion Textuelle Agnostic à l'Architecture
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
James Baker
•
Aug 8, 2024
•
9
2
MooER : Modèles de reconnaissance vocale et de traduction basés sur LLM de Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
•
Aug 9, 2024
•
8
2
MulliVC : Conversion vocale multilingue avec cohérence cyclique
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency
Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
•
Aug 8, 2024
•
8
2
Génération d'hypothèses expérimentales novatrices à partir de modèles de langage : Une étude de cas sur la généralisation trans-dative
Generating novel experimental hypotheses from language models: A case study on cross-dative generalization
Kanishka Misra, Najoung Kim
•
Aug 9, 2024
•
6
1