ChatPaper.ai
Ouvrir le menu
Accueil
Articles du Jour
arXiv
HuggingFace
Tarifs
Compte
Espace de travail
🇫🇷
Français
Loading...
•
•
•
•
•
•
•
•
•
•
Articles de Recherche en IA Quotidiens
Articles de recherche en IA sélectionnés quotidiennement avec traductions
July 8th, 2024
Révélation des modèles vision-langage sans encodeur
Unveiling Encoder-Free Vision-Language Models
Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
•
Jun 17, 2024
•
55
4
FunAudioLLM : Modèles Fondamentaux de Compréhension et de Génération Vocale pour une Interaction Naturelle entre les Humains et les LLM
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
Tongyi SpeechTeam
•
Jul 4, 2024
•
40
1
AriGraph : Apprentissage de modèles de monde sous forme de graphes de connaissances avec mémoire épisodique pour agents LLM
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents
Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Mikhail Burtsev, Evgeny Burnaev
•
Jul 5, 2024
•
34
2
Apprendre à (Apprendre au Moment du Test) : RNNs avec des États Cachés Expressifs
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin
•
Jul 5, 2024
•
32
2
RULE : RAG Multimodal Fiable pour la Véracité dans les Modèles de Vision-Langue Médicaux
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao
•
Jul 6, 2024
•
28
3
ChartGemma : Réglage visuel par instructions pour le raisonnement sur les graphiques en conditions réelles
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
•
Jul 4, 2024
•
27
6
Stark : Conversation sociale multi-modale à long terme avec personnalité et connaissances de sens commun
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
•
Jul 4, 2024
•
22
1
DotaMath : Décomposition de la pensée avec assistance par le code et auto-correction pour le raisonnement mathématique
DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning
Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu
•
Jul 4, 2024
•
21
3
LLM-jp : Un projet interorganisationnel pour la recherche et le développement de modèles de langage japonais entièrement ouverts
LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs
LLM-jp, Akiko Aizawa, Eiji Aramaki, Bowen Chen, Fei Cheng, Hiroyuki Deguchi, Rintaro Enomoto, Kazuki Fujii, Kensuke Fukumoto, Takuya Fukushima, Namgi Han, Yuto Harada, Chikara Hashimoto, Tatsuya Hiraoka, Shohei Hisada, Sosuke Hosokawa, Lu Jie, Keisuke Kamata, Teruhito Kanazawa, Hiroki Kanezashi, Hiroshi Kataoka, Satoru Katsumata, Daisuke Kawahara, Seiya Kawano, Atsushi Keyaki, Keisuke Kiryu, Hirokazu Kiyomaru, Takashi Kodama, Takahiro Kubo, Yohei Kuga, Ryoma Kumon, Shuhei Kurita, Sadao Kurohashi, Conglong Li, Taiki Maekawa, Hiroshi Matsuda, Yusuke Miyao, Kentaro Mizuki, Sakae Mizuki, Yugo Murawaki, Ryo Nakamura, Taishi Nakamura, Kouta Nakayama, Tomoka Nakazato, Takuro Niitsuma, Jiro Nishitoba, Yusuke Oda, Hayato Ogawa, Takumi Okamoto, Naoaki Okazaki, Yohei Oseki, Shintaro Ozaki, Koki Ryu, Rafal Rzepka, Keisuke Sakaguchi, Shota Sasaki, Satoshi Sekine, Kohei Suda, Saku Sugawara, Issa Sugiura, Hiroaki Sugiyama, Hisami Suzuki, Jun Suzuki, Toyotaro Suzumura, Kensuke Tachibana, Yu Takagi, Kyosuke Takami, Koichi Takeda, Masashi Takeshita, Masahiro Tanaka, Kenjiro Taura, Arseny Tolmachev, Nobuhiro Ueda, Zhen Wan, Shuntaro Yada, Sakiko Yahata, Yuya Yamamoto, Yusuke Yamauchi, Hitomi Yanaka, Rio Yokota, Koichiro Yoshino
•
Jul 4, 2024
•
19
1
Flash-VStream : Compréhension en temps réel basée sur la mémoire pour les flux vidéo longs
Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams
Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin
•
Jun 12, 2024
•
17
1
Sur la supervision scalable avec des LLM faibles évaluant des LLM puissants
On scalable oversight with weak LLMs judging strong LLMs
Zachary Kenton, Noah Y. Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah D. Goodman, Rohin Shah
•
Jul 5, 2024
•
15
1
Désapprentissage sécurisé : une solution étonnamment efficace et généralisable pour se protéger contre les attaques de jailbreak
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks
Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang
•
Jul 3, 2024
•
13
1
HEMM : Évaluation holistique des modèles de base multimodaux
HEMM: Holistic Evaluation of Multimodal Foundation Models
Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
•
Jul 3, 2024
•
12
1
CRiM-GS : Modélisation continue par splines gaussiennes prenant en compte le mouvement rigide à partir d'images floues de mouvement
CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion Blur Images
Junghe Lee, Donghyeong Kim, Dogyoon Lee, Suhwan Cho, Sangyoun Lee
•
Jul 4, 2024
•
9
1
Contrôle granulaire de la confidentialité pour la géolocalisation avec des modèles de langage visuel
Granular Privacy Control for Geolocation with Vision Language Models
Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
•
Jul 6, 2024
•
7
1