KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

LayerSkip: Ermöglichen von frühzeitigem Beenden der Inferenz und selbstspekulatives Decodieren
LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti, Liangzhen Lai, Anas Mahmoud, Bilge Acun, Saurabh Agarwal, Ahmed Roman, Ahmed A Aly, Beidi Chen, Carole-Jean Wu•Apr 25, 2024•8012

Wie weit sind wir von GPT-4V entfernt? Die Kluft zu kommerziellen multimodalen Modellen mit Open-Source-Suiten schließen.
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao•Apr 25, 2024•585

Nutzen Sie den vollen Kontext Ihres LLM voll aus.
Make Your LLM Fully Utilize the Context

Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou•Apr 25, 2024•552

Interaktiv3D: Erschaffen Sie, was Sie wollen durch interaktive 3D-Generierung.
Interactive3D: Create What You Want by Interactive 3D Generation

Shaocong Dong, Lihe Ding, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu•Apr 25, 2024•211

KonsistentID: Porträtgenerierung mit multimodaler feingranularer Identitätserhaltung
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang•Apr 25, 2024•201

Technischer Bericht zu Tele-FLM
Tele-FLM Technical Report

Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang•Apr 25, 2024•181

Liste die Elemente nacheinander auf: Eine neue Datenquelle und Lernparadigma für multimodale LLMs.
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang•Apr 25, 2024•182

Neubewertung der Text-zu-Bild-Bewertung mit Gecko: Über Metriken, Aufforderungen und menschliche Bewertungen
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh•Apr 25, 2024•172

NeRF-XL: Skalierung von NeRFs mit mehreren GPUs
NeRF-XL: Scaling NeRFs with Multiple GPUs

Ruilong Li, Sanja Fidler, Angjoo Kanazawa, Francis Williams•Apr 24, 2024•151

SEED-Bench-2-Plus: Benchmarking von multimodalen großen Sprachmodellen mit textreicher visueller Verständnisfähigkeit
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan•Apr 25, 2024•91