ChatPaper.aiChatPaper

MARS2 2025 멀티모달 추론 챌린지: 데이터셋, 방법론, 결과, 논의 및 전망

MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

September 17, 2025
저자: Peng Xu, Shengwu Xiong, Jiajun Zhang, Yaxiong Chen, Bowen Zhou, Chen Change Loy, David A. Clifton, Kyoung Mu Lee, Luc Van Gool, Ruiming He, Ruilin Yao, Xinwei Long, Jirui Huang, Kai Tian, Sa Yang, Yihua Shao, Jin Feng, Yue Zhong, Jiakai Zhou, Cheng Tang, Tianyu Zou, Yifang Zhang, Junming Liang, Guoyou Li, Zhaoxiang Wang, Qiang Zhou, Yichen Zhao, Shili Xiong, Hyeongjin Nam, Jaerin Lee, Jaeyoung Chung, JoonKyu Park, Junghun Oh, Kanggeon Lee, Wooseok Lee, Juneyoung Ro, Turghun Osman, Can Hu, Chaoyang Liao, Cheng Chen, Chengcheng Han, Chenhao Qiu, Chong Peng, Cong Xu, Dailin Li, Feiyu Wang, Feng Gao, Guibo Zhu, Guopeng Tang, Haibo Lu, Han Fang, Han Qi, Hanxiao Wu, Haobo Cheng, Hongbo Sun, Hongyao Chen, Huayong Hu, Hui Li, Jiaheng Ma, Jiang Yu, Jianing Wang, Jie Yang, Jing He, Jinglin Zhou, Jingxuan Li, Josef Kittler, Lihao Zheng, Linnan Zhao, Mengxi Jia, Muyang Yan, Nguyen Thanh Thien, Pu Luo, Qi Li, Shien Song, Shijie Dong, Shuai Shao, Shutao Li, Taofeng Xue, Tianyang Xu, Tianyi Gao, Tingting Li, Wei Zhang, Weiyang Su, Xiaodong Dong, Xiao-Jun Wu, Xiaopeng Zhou, Xin Chen, Xin Wei, Xinyi You, Xudong Kang, Xujie Zhou, Xusheng Liu, Yanan Wang, Yanbin Huang, Yang Liu, Yang Yang, Yanglin Deng, Yashu Kang, Ye Yuan, Yi Wen, Yicen Tian, Yilin Tao, Yin Tang, Yipeng Lin, Yiqing Wang, Yiting Xi, Yongkang Yu, Yumei Li, Yuxin Qin, Yuying Chen, Yuzhe Cen, Zhaofan Zou, Zhaohong Liu, Zhehao Shen, Zhenglin Du, Zhengyang Li, Zhenni Huang, Zhenwei Shao, Zhilong Song, Zhiyong Feng, Zhiyu Wang, Zhou Yu, Ziang Li, Zihan Zhai, Zijian Zhang, Ziyang Peng, Ziyun Xiao, Zongshu Li
cs.AI

초록

본 논문은 다중모드 추론(Multimodal Reasoning)에 관한 MARS2 2025 챌린지를 검토합니다. 우리는 대규모 벤치마크를 통해 다중모드 기계 학습과 대형 언어 모델(LLMs)의 다양한 접근법을 통합하고자 합니다. 이를 통해 연구자들이 이 매우 역동적인 분야의 최신 기술 동향을 더 잘 따라갈 수 있기를 기대합니다. 한편, 점점 더 많은 테스트베드가 범용 대형 언어 모델의 진화를 촉진하고 있습니다. 따라서 올해의 MARS2는 실생활 및 특수한 시나리오에 초점을 맞춰 다중모드 언어 모델(MLLMs)의 응용 범위를 확장하고자 합니다. 우리 조직 팀은 일반 추론을 위한 12가지 일상 시나리오와 광고 영역 특화 추론을 지원하는 맞춤형 데이터셋인 Lens와 AdsQA를 테스트 세트로 공개했습니다. 우리는 범용 MLLMs와 작업 특화 모델을 포함한 40개 이상의 베이스라인을 평가하고, 실생활 시나리오에서의 시각적 근거(VG-RS), 공간 인식을 통한 시각적 질의응답(VQA-SA), 창의적 광고 영상에서의 시각적 추론(VR-Ads) 등 세 가지 경쟁 트랙을 개설했습니다. 마지막으로, 유명 학계 및 산업 기관에서 76개 팀이 등록했으며, 1200건 이상의 제출물 중 40건 이상의 유효한 제출물이 우리의 순위표에 포함되었습니다. 우리의 데이터셋, 코드 세트(40개 이상의 베이스라인과 15개 이상의 참가자 방법), 그리고 순위표는 MARS2 워크숍 웹사이트와 GitHub 조직 페이지(https://github.com/mars2workshop/)에서 공개적으로 제공되며, 향후 이벤트에 대한 업데이트와 공지사항도 지속적으로 제공될 예정입니다.
English
This paper reviews the MARS2 2025 Challenge on Multimodal Reasoning. We aim to bring together different approaches in multimodal machine learning and LLMs via a large benchmark. We hope it better allows researchers to follow the state-of-the-art in this very dynamic area. Meanwhile, a growing number of testbeds have boosted the evolution of general-purpose large language models. Thus, this year's MARS2 focuses on real-world and specialized scenarios to broaden the multimodal reasoning applications of MLLMs. Our organizing team released two tailored datasets Lens and AdsQA as test sets, which support general reasoning in 12 daily scenarios and domain-specific reasoning in advertisement videos, respectively. We evaluated 40+ baselines that include both generalist MLLMs and task-specific models, and opened up three competition tracks, i.e., Visual Grounding in Real-world Scenarios (VG-RS), Visual Question Answering with Spatial Awareness (VQA-SA), and Visual Reasoning in Creative Advertisement Videos (VR-Ads). Finally, 76 teams from the renowned academic and industrial institutions have registered and 40+ valid submissions (out of 1200+) have been included in our ranking lists. Our datasets, code sets (40+ baselines and 15+ participants' methods), and rankings are publicly available on the MARS2 workshop website and our GitHub organization page https://github.com/mars2workshop/, where our updates and announcements of upcoming events will be continuously provided.
PDF61September 18, 2025