ChatPaper.aiChatPaper

Voorspelling van het volgende token richting multimodale intelligentie: Een uitgebreid overzicht

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

December 16, 2024
Auteurs: Liang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang
cs.AI

Samenvatting

Voortbouwend op de fundamenten van taalmodellering in natuurlijke taalverwerking, is Next Token Prediction (NTP) geëvolueerd tot een veelzijdig trainingsdoel voor machine learning taken over verschillende modaliteiten, met aanzienlijk succes. Aangezien Large Language Models (LLMs) zijn gevorderd om begrips- en generatietaken binnen de tekstuele modaliteit te verenigen, heeft recent onderzoek aangetoond dat taken uit verschillende modaliteiten ook effectief kunnen worden ingekapseld binnen het NTP-kader, waarbij multimodale informatie wordt omgezet in tokens en de volgende voorspellen gegeven de context. Deze survey introduceert een uitgebreide taxonomie die zowel begrip als generatie binnen multimodaal leren verenigt door de lens van NTP. De voorgestelde taxonomie behandelt vijf belangrijke aspecten: Multimodale tokenisatie, MMNTP modelarchitecturen, verenigde taakrepresentatie, datasets \& evaluatie, en open uitdagingen. Deze nieuwe taxonomie heeft als doel onderzoekers te helpen bij hun verkenning van multimodale intelligentie. Een bijbehorend GitHub repository dat de nieuwste papers en repositories verzamelt, is beschikbaar op https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
English
Building on the foundations of language modeling in natural language processing, Next Token Prediction (NTP) has evolved into a versatile training objective for machine learning tasks across various modalities, achieving considerable success. As Large Language Models (LLMs) have advanced to unify understanding and generation tasks within the textual modality, recent research has shown that tasks from different modalities can also be effectively encapsulated within the NTP framework, transforming the multimodal information into tokens and predict the next one given the context. This survey introduces a comprehensive taxonomy that unifies both understanding and generation within multimodal learning through the lens of NTP. The proposed taxonomy covers five key aspects: Multimodal tokenization, MMNTP model architectures, unified task representation, datasets \& evaluation, and open challenges. This new taxonomy aims to aid researchers in their exploration of multimodal intelligence. An associated GitHub repository collecting the latest papers and repos is available at https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
PDF582December 30, 2024