ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik
ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
12
2
既存の大規模多文化モデル(LMMs)は一般的に、ごく一部の地域と言語に焦点を当てています。LMMsが改良を続ける中で、文化的な文脈を理解し、地域の感受性を尊重し、資源の乏しい言語をサポートすることがますます重要になっています。これらの要素を効果的に統合しつつ、対応する視覚的手がかりを取り入れることが求められます。文化的に多様なグローバルな多文化モデルを追求する中で、提案されたAll Languages Matter Benchmark(ALM-bench)は、100言語を対象としたLMMsの評価において、これまでで最も大規模かつ包括的な取り組みを表しています。ALM-benchは、既存のモデルに挑戦し、様々な言語でのテキストと画像を組み合わせた文化的に多様な画像を理解し、推論する能力をテストします。これには、LMM研究で従来不十分だった多くの資源の乏しい言語も含まれます。このベンチマークは、真偽、多肢選択、および記述式の質問形式を備えた堅牢で微妙な評価フレームワークを提供し、さらに、短文と長文の回答カテゴリに分けられています。ALM-benchの設計は、視覚的および言語的推論の難易度の様々なレベルを扱うモデルの能力を包括的に評価することを保証します。グローバルな文化の豊かな多様性を捉えるために、ALM-benchは、伝統や儀式から有名人や祝祭までの13の異なる文化的側面からコンテンツを慎重にキュレーションしています。これにより、ALM-benchは、最先端のオープンソースおよびクローズドソースのLMMsの厳格なテスト環境を提供するだけでなく、文化的および言語的包括性の重要性を強調し、多様なグローバル人口に効果的に役立つモデルの開発を奨励しています。当該ベンチマークは一般に公開されています。
Chain-of-Thought(CoT)がLLM(Large Language Models)の複雑なタスクにおける性能を著しく向上させることはよく知られています。ただし、それは推論速度を遅くし、計算コストを高めるため、多くの研究者がLLMが中間ステップを明示的に生成する必要がない暗黙のCoTを使用しようと試みてきました。しかし、その効果と典型的な明示的CoT方法との間にはまだ差があります。これにより、暗黙のCoTは本当に明示的なCoTと同等なのかという疑念が残ります。したがって、本研究ではこの問いに実験を通じて取り組みます。LLMが暗黙のCoTを行う際に、モデルの隠れた状態から中間ステップの情報を調査します。驚くべき結果は、LLMが中間ステップについてほとんど考えていないことを示唆し、彼らが厳密な段階的推論ではなく経験に頼っている可能性があることを示しています。さらに、LLMの暗黙の推論能力が影響を受けやすく不安定であることがわかり、複雑なタスクを効果的にサポートするためには明示的なCoTの必要性を再確認しています。