Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff
363
テキスト埋め込みモデルの評価は通常、言語、ドメイン、タスクの多様性によって制約された限定的なタスクセットで行われます。これらの制限を克服し、より包括的な評価を提供するため、我々はMassive Multilingual Text Embedding Benchmark(MMTEB)を導入しました。これはMTEBを大規模かつコミュニティ主導で拡張したもので、250以上の言語にわたる500以上の品質管理された評価タスクを網羅しています。MMTEBには、指示追従、長文書検索、コード検索といった多様で挑戦的な新規タスクが含まれており、埋め込みモデル向けの評価タスクとしてはこれまでで最大の多言語コレクションを形成しています。このコレクションを用いて、我々はいくつかの高度に多言語なベンチマークを開発し、代表的なモデルセットを評価しました。その結果、数十億のパラメータを持つ大規模言語モデル(LLM)が特定の言語サブセットやタスクカテゴリで最先端の性能を達成できる一方で、公開されているモデルの中で最も優れた性能を示したのはわずか5億6000万パラメータのmultilingual-e5-large-instructでした。アクセシビリティを向上させ、計算コストを削減するため、我々はタスク間相関に基づく新しいダウンサンプリング手法を導入し、相対的なモデル順位を維持しながら多様な選択を可能にしました。さらに、検索タスクを最適化するためにハードネガティブサンプリングを行い、より小さくても効果的なスプリットを作成しました。これらの最適化により、計算需要を大幅に削減したベンチマークを導入することができました。例えば、新たに導入したゼロショット英語ベンチマークは、フルスケール版と同様の順位付けを維持しながら、計算コストを大幅に削減しています。
3D分子生成は、創薬や材料設計において極めて重要です。これまでの研究では、連続的な3D構造をモデル化する利点から3D拡散モデルに焦点が当てられてきましたが、100%有効な分子を生成可能で、数十億規模の1D分子データセットを活用できる1D SELFIESベースの言語モデル(LM)の利点が見落とされていました。これらの利点を3D分子生成に統合するため、我々は基盤モデル「NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation」を提案します。NExT-Molは、広範に事前学習された分子LMを使用して1D分子を生成し、その後3D拡散モデルで生成された分子の3D構造を予測します。NExT-Molの性能を向上させるため、LMのモデルサイズを拡大し、拡散ニューラルアーキテクチャを改良し、1Dから3Dへの転移学習を適用しました。特に、我々の1D分子LMは、有効性を保証しつつ分布類似性においてベースラインを大幅に上回り、3D拡散モデルは構造予測において最先端の性能を達成しました。これらの1Dおよび3Dモデリングの改善により、NExT-MolはGEOM-DRUGSにおけるde novo 3D生成で3D FCDにおいて26%の相対的改善を、QM9-2014における条件付き3D生成で平均13%の相対的向上を達成しました。我々のコードと事前学習済みチェックポイントはhttps://github.com/acharkq/NExT-Molで公開されています。
Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
52
大規模言語モデル(LLM)を関連性評価に活用することは、情報検索(IR)、自然言語処理(NLP)、および関連分野の改善に向けた有望な機会を提供します。実際、LLMはIR実験者が現在必要とされる手作業の一部で評価コレクションを構築することを可能にする可能性を秘めています。これは、まだ知識が限られている新しいトピックに対処するのに役立ち、人間のアノテーターを見つけることが難しい低リソース環境でのランキングシステムの評価における課題を軽減する可能性があります。この分野の急速な進展を踏まえると、LLMを評価者として使用する際の多くの疑問がまだ未解決です。さらに調査が必要な側面として、プロンプトの選択や使用するLLMなど、関連性判断生成パイプラインにおけるさまざまなコンポーネントの影響が挙げられます。
本論文では、SIGIR 2024で開催されたLLMJudgeチャレンジにおける大規模な自動関連性判断評価の結果をベンチマークし、報告します。具体的には、TREC 2023 Deep Learningトラックの関連性判断に対して、8つの国際チームが生成した42のLLMベースのラベルを公開し、ベンチマークを行いました。これらの自動生成された関連性判断は、その多様性から、コミュニティがLLMによって引き起こされる系統的なバイアスを調査するだけでなく、アンサンブルモデルの有効性を探求し、異なるモデルと人間の評価者の間のトレードオフを分析し、自動評価技術を改善する方法論を進展させるのに役立ちます。公開されたリソースは以下のリンクから利用可能です:
https://llm4eval.github.io/LLMJudge-benchmark/