翻訳付きの日次キュレーションされたAI研究論文
Qwen2.5-VLを紹介します。これはQwen視覚言語シリーズの最新フラッグシップモデルであり、基礎能力と革新的な機能の両面で大きな進化を遂げています。Qwen2.5-VLは、強化された視覚認識、精密な物体位置特定、堅牢な文書解析、長尺動画理解を通じて、世界を理解し対話する能力において大きな飛躍を達成しました。Qwen2.5-VLの特筆すべき特徴は、バウンディングボックスやポイントを使用して物体を正確に位置特定できる点です。また、請求書、フォーム、表からの堅牢な構造化データ抽出や、チャート、図表、レイアウトの詳細な分析を提供します。複雑な入力を処理するために、Qwen2.5-VLは動的解像度処理と絶対時間エンコーディングを導入し、さまざまなサイズの画像や長時間(数時間に及ぶ)の動画を秒単位のイベント位置特定とともに処理できるようにしました。これにより、モデルは従来の正規化手法に依存せずに、空間スケールと時間的ダイナミクスを自然に認識できます。ネイティブな動的解像度のVision Transformer(ViT)をゼロからトレーニングし、Window Attentionを組み込むことで、計算オーバーヘッドを削減しながらネイティブ解像度を維持しています。その結果、Qwen2.5-VLは静的な画像や文書の理解だけでなく、コンピュータやモバイルデバイスの操作といった現実世界のシナリオにおいて、推論、ツール使用、タスク実行が可能なインタラクティブな視覚エージェントとしても優れています。Qwen2.5-VLは3つのサイズで提供され、エッジAIから高性能コンピューティングまで多様なユースケースに対応します。フラッグシップモデルであるQwen2.5-VL-72Bは、GPT-4oやClaude 3.5 Sonnetなどの最先端モデルに匹敵し、特に文書や図表の理解において優れた性能を発揮します。さらに、Qwen2.5-VLは、Qwen2.5 LLMのコア言語能力を維持しつつ、堅牢な言語性能を保持しています。
生成基盤モデル(GenFMs)は、変革をもたらすツールとして登場しました。しかし、その広範な採用は、信頼性に関する重要な懸念を引き起こしています。本論文では、これらの課題に対処するための包括的なフレームワークを3つの主要な貢献を通じて提示します。まず、政府や規制機関によるグローバルなAIガバナンスの法律や政策、および業界の実践と標準を体系的にレビューします。この分析に基づき、技術的、倫理的、法的、社会的な視点を統合した多分野の協力を通じて、GenFMsのための一連のガイドライン原則を提案します。次に、テキストから画像、大規模言語、視覚言語モデルなど、複数の次元とモデルタイプにわたる信頼性を評価するために設計された初の動的ベンチマークプラットフォームであるTrustGenを紹介します。TrustGenは、メタデータのキュレーション、テストケースの生成、文脈の変動といったモジュールコンポーネントを活用し、静的評価手法の限界を克服する適応的かつ反復的な評価を可能にします。TrustGenを使用して、信頼性における重要な進展を明らかにするとともに、持続的な課題を特定します。最後に、信頼性のあるGenFMsの課題と将来の方向性について詳細に議論し、信頼性の複雑で進化する性質を明らかにし、有用性と信頼性の間の微妙なトレードオフや、さまざまな下流アプリケーションに対する考慮事項を強調し、持続的な課題を特定し、将来の研究のための戦略的なロードマップを提供します。この研究は、GenAIの信頼性を向上させるための包括的なフレームワークを確立し、GenFMsを重要なアプリケーションに安全かつ責任を持って統合する道を開きます。コミュニティの進歩を促進するために、動的評価のためのツールキットを公開します。
テキストから楽曲を生成するタスク、すなわちテキスト入力を基にボーカルと伴奏を作成する作業は、その領域の複雑さとデータの不足により、大きな課題を抱えています。既存のアプローチでは、多段階の生成プロセスを採用することが多く、その結果、煩雑なトレーニングと推論のパイプラインが生じています。本論文では、制御可能な楽曲生成のために設計された、完全にオープンソースの単一段階自己回帰型トランスフォーマーであるSongGenを提案します。提案モデルは、歌詞や楽器編成、ジャンル、ムード、音色などのテキスト記述を含む多様な音楽的属性に対するきめ細かい制御を可能にし、さらに3秒間の参照クリップを用いたボイスクローニングのオプションも提供します。統一された自己回帰型フレームワーク内で、SongGenは2つの出力モードをサポートします:ボーカルと伴奏を直接ミックスして生成するミックスモードと、それらを別々に合成して下流アプリケーションでの柔軟性を高めるデュアルトラックモードです。各モードに対して多様なトークンパターン戦略を探求し、顕著な改善と貴重な知見を得ました。さらに、効果的な品質管理を備えた自動化されたデータ前処理パイプラインを設計しました。コミュニティの参加と将来の研究を促進するため、モデルの重み、トレーニングコード、注釈付きデータ、前処理パイプラインを公開します。生成されたサンプルはプロジェクトページ(https://liuzh-19.github.io/SongGen/)で公開され、コードは(https://github.com/LiuZH-19/SongGen)で利用可能になります。
既存のエンドツーエンド自動運転(AD)アルゴリズムは、通常、模倣学習(IL)のパラダイムに従っていますが、これには因果関係の混乱やオープンループギャップといった課題が存在します。本研究では、3DGSベースのクローズドループ強化学習(RL)トレーニングパラダイムを確立します。3DGS技術を活用することで、現実の物理世界をフォトリアルなデジタルレプリカとして構築し、ADポリシーが状態空間を広範に探索し、大規模な試行錯誤を通じて分布外シナリオに対処する方法を学習できるようにします。安全性を向上させるために、ポリシーが安全クリティカルなイベントに効果的に対応し、現実世界の因果関係を理解するよう導く特別な報酬を設計します。人間の運転行動との整合性を高めるため、ILをRLトレーニングに正則化項として組み込みます。多様な未見の3DGS環境からなるクローズドループ評価ベンチマークを導入します。ILベースの手法と比較して、RADはほとんどのクローズドループ指標で優れた性能を発揮し、特に衝突率が3倍低くなります。豊富なクローズドループ結果はhttps://hgao-cv.github.io/RADに掲載されています。
大規模言語モデル(LLM)は複雑な推論タスクにおいて優れた性能を発揮し、その推論能力をより小さなモデルに蒸留することは有望なアプローチとして注目されています。しかし、我々は「Small Model Learnability Gap(小型モデルの学習可能性ギャップ)」と呼ばれる興味深い現象を発見しました。具体的には、パラメータ数が3B以下の小型モデルは、長い連鎖的思考(CoT)推論や大規模モデルからの蒸留から一貫して恩恵を受けるわけではないことが明らかになりました。むしろ、これらの小型モデルは、その内在的な学習能力に適した、より短くシンプルな推論連鎖でファインチューニングした場合に、より良い性能を発揮します。この問題に対処するため、我々は「Mix Distillation(混合蒸留)」を提案します。これは、長いCoT例と短いCoT例、あるいは大規模モデルと小型モデルの推論を組み合わせることで、推論の複雑さをバランスさせるシンプルかつ効果的な戦略です。実験の結果、Mix Distillationは、単一のデータのみでトレーニングした場合と比較して、小型モデルの推論性能を大幅に向上させることが示されました。これらの知見は、強力なモデルからの直接的な蒸留の限界を浮き彫りにし、効果的な推論能力の転送のためには推論の複雑さを適応させることが重要であることを強調しています。
線形シーケンスモデリング手法、例えば線形アテンション、状態空間モデリング、線形RNNなどは、訓練と推論の複雑さを低減することで、大幅な効率改善を提供します。しかし、これらの手法は通常、入力シーケンス全体を単一の固定サイズのメモリ状態に圧縮するため、リコール集約型の下流タスクでは最適な性能を発揮しません。神経科学、特に脳が「メモリ干渉」を軽減しながら堅牢な長期記憶を維持する能力に着想を得て、我々はMixture-of-Memories(MoM)と呼ばれる新しいアーキテクチャを提案します。MoMは複数の独立したメモリ状態を利用し、ルーターネットワークが入力トークンを特定のメモリ状態に振り分けます。このアプローチにより、メモリ干渉を最小化しつつ、全体的なメモリ容量を大幅に向上させます。その結果、MoMはリコール集約型タスクで優れた性能を発揮し、既存の線形シーケンスモデリング技術を凌駕します。複数のメモリ状態を組み込んでいるにもかかわらず、各メモリ状態の計算は線形の複雑さを維持しており、MoMは訓練中に線形複雑性の利点を保持しつつ、推論時には定数複雑性を実現します。実験結果は、MoMが現在の線形シーケンスモデルを下流の言語タスク、特にリコール集約型タスクで大幅に上回り、Transformerモデルに匹敵する性能を達成することを示しています。コードはhttps://github.com/OpenSparseLLMs/MoMで公開されており、https://github.com/OpenSparseLLMs/Linear-MoEの一部としても公開されています。
テキスト埋め込みモデルの評価は通常、言語、ドメイン、タスクの多様性によって制約された限定的なタスクセットで行われます。これらの制限を克服し、より包括的な評価を提供するため、我々はMassive Multilingual Text Embedding Benchmark(MMTEB)を導入しました。これはMTEBを大規模かつコミュニティ主導で拡張したもので、250以上の言語にわたる500以上の品質管理された評価タスクを網羅しています。MMTEBには、指示追従、長文書検索、コード検索といった多様で挑戦的な新規タスクが含まれており、埋め込みモデル向けの評価タスクとしてはこれまでで最大の多言語コレクションを形成しています。このコレクションを用いて、我々はいくつかの高度に多言語なベンチマークを開発し、代表的なモデルセットを評価しました。その結果、数十億のパラメータを持つ大規模言語モデル(LLM)が特定の言語サブセットやタスクカテゴリで最先端の性能を達成できる一方で、公開されているモデルの中で最も優れた性能を示したのはわずか5億6000万パラメータのmultilingual-e5-large-instructでした。アクセシビリティを向上させ、計算コストを削減するため、我々はタスク間相関に基づく新しいダウンサンプリング手法を導入し、相対的なモデル順位を維持しながら多様な選択を可能にしました。さらに、検索タスクを最適化するためにハードネガティブサンプリングを行い、より小さくても効果的なスプリットを作成しました。これらの最適化により、計算需要を大幅に削減したベンチマークを導入することができました。例えば、新たに導入したゼロショット英語ベンチマークは、フルスケール版と同様の順位付けを維持しながら、計算コストを大幅に削減しています。
大規模言語モデル(LLMs)は、事前学習とアラインメントを通じて顕著な能力を発揮してきた。しかし、短いコンテキストにおいて優れた性能を示すLLMsは、長いコンテキストのシナリオでは十分な長文アラインメントが不足しているため、性能が低下する可能性がある。このアラインメントプロセスは、長いコンテキストに対する人間のアノテーションが非現実的であることや、短いコンテキストと長いコンテキストの性能のバランスを取ることが難しいことから、依然として課題となっている。これらの課題に対処するため、我々はLongPOを提案する。LongPOは、短いコンテキストのLLMsが内部で短いコンテキストの能力を転移させることで、長いコンテキストのタスクにおいて優れた性能を発揮するように自己進化することを可能にする。LongPOは、LLMsが自己生成した短いコンテキストから長いコンテキストへの選好データから学習することを活用する。この選好データは、同じ指示に対して長いコンテキストの入力とその圧縮された短いコンテキストの入力に対して生成された応答のペアで構成される。この選好は、短いコンテキストのアラインメント中に培われたLLMsの能力と潜在能力を示し、アラインメントが不十分な長いコンテキストのシナリオではその能力が低下する可能性があることを明らかにする。さらに、LongPOは、長いコンテキストのアラインメント中に短いコンテキストの性能が低下するのを防ぐために、短いコンテキストから長いコンテキストへのKL制約を組み込んでいる。Mistral-7B-Instruct-v0.2に128Kから512Kのコンテキスト長で適用した場合、LongPOは短いコンテキストの性能を完全に保持し、長いコンテキストと短いコンテキストの両方のタスクにおいて、単純なSFTやDPOを大きく上回る性能を示す。具体的には、\ourMethodでトレーニングされたモデルは、広範な長文アラインメントとより大きなパラメータスケールを必要とする優れたLLMs(例:GPT-4-128K)と同等かそれ以上の結果を長文ベンチマークで達成することができる。
ウェブクロールは大規模言語モデル(LLM)の事前学習データの主要なソースですが、データ品質が低いため、クロールされたウェブページの大部分は事前学習で破棄されます。本論文では、LLM事前学習の選好に基づいてウェブグラフを探索する効率的なウェブクロール手法「Crawl4LLM」を提案します。具体的には、ウェブページのLLM事前学習への影響度をウェブクローラのスケジューラの優先度スコアとして活用し、標準的なグラフ接続性に基づく優先度を置き換えます。商用検索エンジンのインデックスから取得した9億のウェブページを含むウェブグラフでの実験により、Crawl4LLMが高品質な事前学習データを効率的に取得できることを実証しました。わずか21%のURLをクロールするだけで、Crawl4LLMのデータで事前学習したLLMは従来のクロールと同等の下流タスク性能を達成し、クロールの無駄を大幅に削減し、ウェブサイトへの負担を軽減します。コードはhttps://github.com/cxcscmu/Crawl4LLMで公開されています。
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェント型プログラムへと進化しています。これらのプログラムは、LLMの呼び出しと出力トークンをスケーリングし、AIエージェントが推論、探索、複雑なタスクの解決を支援します。しかし、既存のLLM提供システムは、プログラム間および呼び出し間の依存関係を無視しており、最適化の重要な機会を逃しています。私たちの分析によると、LLM提供エンジンに送信されるプログラムは、個々のLLMリクエストおよびプログラムレベルでのヘッドオブラインブロッキングにより、累積的な待ち時間が長くなることが明らかになりました。この問題に対処するため、私たちはAutellixを導入します。Autellixは、プログラムを第一級市民として扱い、エンドツーエンドの遅延を最小化するLLM提供システムです。Autellixは、プログラムによって送信されたLLM呼び出しをインターセプトし、スケジューラにプログラムレベルのコンテキストを追加します。私たちは、シングルスレッドおよび分散プログラム向けの2つのスケジューリングアルゴリズムを提案します。これらのアルゴリズムは、プログラムの以前に完了した呼び出しに基づいてLLM呼び出しをプリエンプトし、優先順位を付けます。評価の結果、多様なLLMおよびエージェント型ワークロードにおいて、Autellixは、vLLMなどの最先端システムと比較して、同じ遅延でプログラムのスループットを4~15倍向上させることが示されました。
教師ありファインチューニング(SFT)は、比較的小規模な大規模言語モデル(LLM)において、長い連鎖的思考(CoT)推論を強化するための有効な手法として広く用いられてきました。これは、より大規模なLLMから得られた長いCoT応答を用いてモデルをファインチューニングすることで実現されます。推論能力を継続的に向上させるためには、新たな高品質な長いCoT推論SFTデータを収集するか、既存のSFTデータセットを繰り返し学習する方法が考えられます。しかし、新たな長いCoT SFTデータを取得するにはコストがかかり、また限界があります。一方で、繰り返し学習を行うと性能が頭打ちになるか、むしろ低下する場合が少なくありません。SFTデータを用いてさらなる性能向上を図るため、我々はThinking Preference Optimization(ThinkPO)を提案します。これは、新たな長いCoT応答を必要とせずに長いCoT推論を強化する、シンプルでありながら効果的なポストSFT手法です。ThinkPOでは、同じ質問に対して、容易に入手可能な短いCoT推論応答を拒否回答とし、長いCoT応答を選択回答として利用します。そして、直接選好最適化を適用することで、モデルがより長い推論出力を好むように促します。実験結果によると、ThinkPOはSFT済みモデルの推論性能をさらに向上させ、例えば数学的推論の精度を8.6%、出力長を25.9%向上させることが示されました。特に、ThinkPOは公開されている蒸留SFTモデルの性能を継続的に向上させる能力を持ち、例えばDeepSeek-R1-Distill-Qwen-7BのMATH500における公式性能を87.4%から91.2%に引き上げることができました。
大規模言語モデル(LLM)は一般的な領域で顕著な能力を示す一方で、専門知識を必要とするタスクではしばしば苦戦することがあります。従来の検索拡張生成(RAG)技術は、通常、静的知識ベースから外部情報を取得しますが、これらは時代遅れであったり不完全であったりすることが多く、正確な医療質問応答に不可欠な詳細な臨床情報が欠落している場合があります。本研究では、これらの制約を克服するために、リアルタイム検索エンジンを活用した新しいフレームワークであるSearchRAGを提案します。本手法は、複雑な医療質問を検索エンジンに適したクエリに変換するための合成クエリ生成を採用し、不確実性に基づく知識選択を用いて、最も関連性が高く有益な医療知識をフィルタリングし、LLMの入力に組み込みます。実験結果から、本手法が医療質問応答タスクにおける応答精度を大幅に向上させることが示されました。特に、詳細かつ最新の知識を必要とする複雑な質問においてその効果が顕著でした。
大規模言語モデル(LLM)は、優れたタスク汎化能力により自然言語処理を大幅に進化させてきました。Low-Rank Adaption(LoRA)は、元のモデルパラメータを凍結し、軽量な低ランクアダプタ行列のみを訓練する、コスト効率の良いファインチューニング手法を提供します。しかし、LoRAのメモリ使用量は主に元のモデルパラメータによって支配されています。この問題を緩和するため、我々はLoRAMを提案します。これは、過剰パラメータ化されたLLMにおいて多くのニューロンが訓練時の有用性は低いが推論時には不可欠であるという直観に基づいた、メモリ効率の良いLoRA訓練スキームです。LoRAMは独自のアプローチを採用しています:プルーニングされた(小規模な)モデルで訓練を行い、プルーニングされた低ランク行列を取得し、それを元の(大規模な)モデルで復元して推論に使用します。さらに、モデル提供者が事前に行う最小コストの継続事前学習により、プルーニングモデルと元のモデル間の知識の不一致を調整します。我々の広範な実験は、様々なプルーニング戦略と下流タスクにおいてLoRAMの有効性を実証しています。700億パラメータのモデルに対して、LoRAMは20G HBMのGPUでの訓練を可能にし、LoRA訓練用のA100-80G GPUと、完全なファインチューニング用の15個のGPUを置き換えます。具体的には、構造化プルーニングと4ビット量子化を組み合わせたQLoRAMは、LLaMA-3.1-70B(LLaMA-2-70B)において、低ランク行列訓練のメモリ使用量を支配するパラメータストレージコストを15.81倍(16.95倍)削減しつつ、元のLLaMA-3.1-70B(LLaMA-2-70B)およびLoRA訓練されたLLaMA-3.1-8B(LLaMA-2-13B)を上回る性能向上を達成しました。
名前は人間のアイデンティティと深く結びついている。それは個人性、文化的遺産、そして個人史のマーカーとして機能し得る。しかし、アイデンティティの核心的な指標として名前を使用することは、複雑なアイデンティティを過度に単純化する結果を招く可能性がある。大規模言語モデル(LLM)とのインタラクションにおいて、ユーザー名はパーソナライゼーションのための重要な情報ポイントである。名前は、チャットボットが要求する直接的なユーザー入力、CVレビューなどのタスクコンテキストの一部、あるいはパーソナライゼーションのためにユーザー情報を保存する組み込みメモリ機能を通じて、チャットボットの会話に登場する。我々は、LLMが提示された一般的な提案要望クエリに対して生成する応答における文化的な前提を測定することで、名前に関連するバイアスを研究する。これらのクエリは、ユーザーについての仮定を伴う可能性がある。我々の分析は、複数の文化にわたるLLMの生成において、名前に関連する文化的アイデンティティについての強い前提が存在することを示している。本研究は、ステレオタイプを強化することなく、意味のあるカスタマイズを維持する、よりニュアンスのあるパーソナライゼーションシステムの設計に示唆を与えるものである。
大規模言語モデル(LLM)の安全性アライメントは依然として脆弱であり、比較的単純な攻撃によっても初期の動作が容易に「ジェイルブレイク」される可能性があります。既存のLLMでは、入力指示と初期モデル出力の間に固定テンプレートを埋め込むことが一般的な慣行であるため、このテンプレートが脆弱性の主要な要因であると仮定します。LLMの安全性に関する意思決定は、テンプレート領域からの集約情報に過度に依存しており、これがモデルの安全性行動に大きく影響を与えています。この問題を「テンプレート固定型安全性アライメント」と呼びます。本論文では、広範な実験を行い、テンプレート固定型安全性アライメントが様々なアライメントされたLLMに広く存在することを検証します。メカニズム分析を通じて、これが推論時のジェイルブレイク攻撃に対するモデルの脆弱性を引き起こす仕組みを明らかにします。さらに、安全性メカニズムをテンプレート領域から切り離すことが、ジェイルブレイク攻撃に対する脆弱性を軽減する上で有望であることを示します。今後の研究において、テンプレート領域への依存を減らすより堅牢な安全性アライメント技術の開発を推奨します。
現在のプロセス報酬モデル(PRM)のトレーニング手法では、多くの場合、事前に定義されたプレースホルダートークンの使用や、推論ステップの長さを固定サイズに設定するなど、ルールベースの技術を用いて応答を複数の推論ステップに分割しています。これらの手法は、特定の単語がテキスト内の真の意思決定ポイントを通常は示さないという事実を見落としています。この問題に対処するため、我々はAdaptiveStepを提案します。これは、次の単語を予測する際のモデルの信頼度に基づいて推論ステップを分割する方法です。この分割方法により、各ステップでより多くの意思決定情報が提供され、報酬モデルの学習などの下流タスクが強化されます。さらに、我々の手法は手動のアノテーションを必要としません。数学的推論とコード生成タスクにおけるAdaptiveStepでトレーニングされたPRMの実験を通じて、その有効性を実証します。実験結果は、結果として得られたPRMが、トークンレベルの価値誘導デコードを用いた貪欲探索戦略を上回る、最先端のBest-of-N性能を達成し、既存のオープンソースPRMと比較して構築コストを30%以上削減することを示しています。さらに、PRMの性能、転移性、および汎化能力に関する詳細な分析とケーススタディを提供します。
3D分子生成は、創薬や材料設計において極めて重要です。これまでの研究では、連続的な3D構造をモデル化する利点から3D拡散モデルに焦点が当てられてきましたが、100%有効な分子を生成可能で、数十億規模の1D分子データセットを活用できる1D SELFIESベースの言語モデル(LM)の利点が見落とされていました。これらの利点を3D分子生成に統合するため、我々は基盤モデル「NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation」を提案します。NExT-Molは、広範に事前学習された分子LMを使用して1D分子を生成し、その後3D拡散モデルで生成された分子の3D構造を予測します。NExT-Molの性能を向上させるため、LMのモデルサイズを拡大し、拡散ニューラルアーキテクチャを改良し、1Dから3Dへの転移学習を適用しました。特に、我々の1D分子LMは、有効性を保証しつつ分布類似性においてベースラインを大幅に上回り、3D拡散モデルは構造予測において最先端の性能を達成しました。これらの1Dおよび3Dモデリングの改善により、NExT-MolはGEOM-DRUGSにおけるde novo 3D生成で3D FCDにおいて26%の相対的改善を、QM9-2014における条件付き3D生成で平均13%の相対的向上を達成しました。我々のコードと事前学習済みチェックポイントはhttps://github.com/acharkq/NExT-Molで公開されています。
大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(MLLM)は、推論能力において大きな進展を遂げてきました。しかし、依然として高い計算需要やプライバシーに関する課題が存在します。本論文では、競争力のある推論能力を維持しつつ、効率的な小型言語モデル(SLM)およびマルチモーダル小型言語モデル(MSLM)の開発に焦点を当てています。我々は、推論能力を向上させ、エッジデバイスへの展開を容易にする新しいトレーニングパイプラインを提案し、開発コストを最小化しながら最先端の性能を達成しました。\InfR~は、より小さなモデルサイズを通じて推論能力の向上、採用障壁の低減、プライバシー問題の解決を図ることで、AIシステムの進化を目指しています。リソースはhttps://github.com/Reallm-Labs/InfiRで公開されています。
現代人工知能の基盤である機械学習は、世界を根本的に変革するイノベーションを推進してきました。しかし、その進歩の裏側には、労力と計算資源を要する複雑でしばしば退屈な反復と実験のプロセスが存在します。機械学習モデルを開発するエンジニアや科学者は、革新的なソリューションや研究仮説を構想する代わりに、試行錯誤のタスクに多くの時間を費やしています。この課題に対処するため、我々は大規模言語モデル(LLM)を活用した機械学習エンジニアリングエージェントであるAI-Driven Exploration(AIDE)を提案します。AIDEは機械学習エンジニアリングをコード最適化問題として捉え、試行錯誤を潜在的な解の空間における木探索として定式化します。有望な解を戦略的に再利用し、洗練させることで、AIDEは計算資源を性能向上と効果的に交換し、Kaggle評価、OpenAI MLE-Bench、METRs RE-Benchを含む複数の機械学習エンジニアリングベンチマークで最先端の結果を達成しています。
TESS 2を紹介します。これは一般的な指示追従型拡散言語モデルであり、現代の指示チューニングされた拡散モデルを上回り、強力な自己回帰(AR)モデルに匹敵し、時にはそれを超える性能を発揮します。TESS 2のトレーニングは、まず強力なARモデルを拡散損失として通常のクロスエントロピーを用いて継続事前学習により適応させ、その後さらに指示チューニングを行うことで行います。適応トレーニングおよびベースモデルの選択が、優れた指示追従型拡散モデルのトレーニングにおいて重要であることがわかりました。さらに、基盤となるモデルをトレーニングすることなくモデル出力を整合させるための、新規でモジュール型の推論時ガイダンス手順である報酬ガイダンスを提案します。最後に、TESS 2が推論時の計算量の増加に伴ってさらに改善されることを示し、拡散言語モデルが推論時に使用する計算量を細かく制御できる有用性を強調します。コードとモデルはhttps://github.com/hamishivi/tess-2で公開されています。
長期的かつオープンドメインの対話能力は、過去のやり取りを想起し、感情知能(EI)を示すことを目指すチャットボットにとって不可欠である。しかし、既存の研究の多くは、合成されたLLM生成データに依存しており、現実世界の会話パターンに関する疑問を残している。このギャップを埋めるため、我々はREALTALKを導入する。これは21日間にわたる実際のメッセージングアプリの対話コーパスであり、本物の人間のやり取りに対する直接的なベンチマークを提供する。 まず、データセット分析を行い、EI属性とペルソナの一貫性に焦点を当て、現実世界の対話がもたらす独特の課題を理解する。LLM生成の会話と比較することで、多様な感情表現やペルソナの安定性の変動など、合成対話では捉えられない重要な違いを明らかにする。 これらの知見に基づき、2つのベンチマークタスクを導入する:(1)特定のユーザーの代わりに、過去の対話文脈を基に会話を続けるペルソナシミュレーション;(2)過去のやり取りの長期記憶を必要とする特定の質問に答えるメモリプロービング。 我々の調査結果は、モデルが対話履歴のみからユーザーをシミュレートするのに苦労する一方、特定のユーザーのチャットに微調整を行うことでペルソナの模倣が改善されることを明らかにしている。さらに、既存のモデルは、現実世界の会話における長期文脈の想起と活用に大きな課題を抱えている。
大規模言語モデル(LLM)を関連性評価に活用することは、情報検索(IR)、自然言語処理(NLP)、および関連分野の改善に向けた有望な機会を提供します。実際、LLMはIR実験者が現在必要とされる手作業の一部で評価コレクションを構築することを可能にする可能性を秘めています。これは、まだ知識が限られている新しいトピックに対処するのに役立ち、人間のアノテーターを見つけることが難しい低リソース環境でのランキングシステムの評価における課題を軽減する可能性があります。この分野の急速な進展を踏まえると、LLMを評価者として使用する際の多くの疑問がまだ未解決です。さらに調査が必要な側面として、プロンプトの選択や使用するLLMなど、関連性判断生成パイプラインにおけるさまざまなコンポーネントの影響が挙げられます。 本論文では、SIGIR 2024で開催されたLLMJudgeチャレンジにおける大規模な自動関連性判断評価の結果をベンチマークし、報告します。具体的には、TREC 2023 Deep Learningトラックの関連性判断に対して、8つの国際チームが生成した42のLLMベースのラベルを公開し、ベンチマークを行いました。これらの自動生成された関連性判断は、その多様性から、コミュニティがLLMによって引き起こされる系統的なバイアスを調査するだけでなく、アンサンブルモデルの有効性を探求し、異なるモデルと人間の評価者の間のトレードオフを分析し、自動評価技術を改善する方法論を進展させるのに役立ちます。公開されたリソースは以下のリンクから利用可能です: https://llm4eval.github.io/LLMJudge-benchmark/
大規模言語モデル(LLMs)は、職場環境において幅広いタスクに使用されるようになり、個別の問題を単独で解決する能力に優れています。しかし、長期的な相互作用においても効果的に協力できるのでしょうか?これを調査するため、私たちはMemoryCodeを導入しました。これは、LLMsが無関係な情報の中から単純なコーディング指示を追跡し実行する能力をテストするために設計された、合成マルチセッションデータセットです。これにより、現実的な設定をシミュレートしています。テストしたすべてのモデルは、個別の指示をうまく処理しますが、GPT-4oのような最先端のモデルでさえ、指示がセッションにまたがる場合には性能が低下します。私たちの分析によると、これは長い指示チェーンにわたる情報の検索と統合に失敗するためです。この結果は、現在のLLMsの基本的な限界を示しており、長期的な相互作用において効果的に協力する能力を制限していることが明らかになりました。
生成的レコメンデーション(GR)は、ユーザーの行動を離散的なトークンパターンにトークン化し、自己回帰的に予測として生成する新たなパラダイムです。しかし、既存のGRモデルでは、各行動を独立してトークン化し、すべてのシーケンスで同じ行動に固定されたトークンを割り当てており、文脈的な関係を考慮していません。この文脈認識の欠如は、同じ行動でもその周囲の文脈によって異なる意味を持つ可能性があるため、最適でないパフォーマンスを引き起こす可能性があります。この問題に対処するため、我々はActionPieceを提案し、行動シーケンスのトークン化時に明示的に文脈を組み込みます。ActionPieceでは、各行動はアイテムの特徴セットとして表現され、これが初期トークンとして機能します。行動シーケンスのコーパスを基に、特徴パターンを新しいトークンとして統合し、個々のセット内および隣接するセット間での共起頻度に基づいて語彙を構築します。特徴セットの順序なしの性質を考慮し、さらにセット順列正則化を導入し、同じ意味を持つ複数の行動シーケンスのセグメンテーションを生成します。公開データセットでの実験により、ActionPieceが既存の行動トークン化手法を一貫して上回り、NDCG@10を6.00%から12.82%向上させることが示されました。
大規模言語モデル(LLM)の出力における幻覚(hallucination)は、質問応答などの知識集約型タスクにおける信頼性を著しく制限する。この課題に対処するため、我々はREFIND(Retrieval-augmented Factuality hallucINation Detection)を提案する。これは、検索された文書を直接活用してLLM出力内の幻覚スパンを検出する新しいフレームワークである。REFINDの一部として、LLM出力の検索エビデンスに対する感度を定量化する新たな指標であるContext Sensitivity Ratio(CSR)を提案する。この革新的なアプローチにより、REFINDは既存の手法と一線を画し、効率的かつ正確に幻覚を検出することが可能となる。評価において、REFINDは低リソース環境を含む9つの言語にわたる堅牢性を示し、ベースラインモデルを大幅に上回り、幻覚スパンの識別において優れたIoUスコアを達成した。本研究は、幻覚検出における文脈感度の定量化の有効性を強調し、多様な言語におけるより信頼性の高いLLMアプリケーションの道を開くものである。
多肢選択式質問応答(MCQA)は、その簡便さと人間らしいテスト形式から大規模言語モデル(LLM)の評価に広く用いられていますが、私たちはその改革を提唱します。まず、MCQAの形式には以下のような欠点があることを明らかにします:1)生成能力や主観性のテストが困難であること、2)LLMのユースケースに合致しないこと、3)知識を完全にテストできないこと。代わりに、人間のテストに基づく生成的フォーマットを推奨します。このフォーマットでは、LLMが回答を構築し説明するため、ユーザーのニーズや知識をより適切に捉えつつ、採点が容易であるという利点があります。さらに、MCQAが有用な形式である場合でも、そのデータセットには以下の問題があることを示します:リーク、回答不可能性、ショートカット、飽和。これらの問題に対して、教育分野から得られる解決策を提示します。例えば、MCQ作成をガイドするルーブリック、推測を抑制する採点方法、より難しいMCQを作成するための項目反応理論などです。最後に、MCQAにおけるLLMのエラー(頑健性、バイアス、不誠実な説明)について議論し、私たちが提案した解決策がこれらの問題をより適切に測定または対処する方法を示します。MCQAを完全に放棄する必要はありませんが、教育テストに基づいてタスクを改良し、評価を進化させるためのさらなる努力を奨励します。
大規模視覚言語モデル(LVLM)は、その卓越した性能と幅広い適用可能性から最近注目を集めています。これまで、非西洋文脈を含む使用シナリオにおける有効性が不十分であることが示されてきましたが、既存の研究は範囲が限定的で、少数の文化にしか及んでおらず、特定の文化的側面にのみ焦点を当てているか、単一のタスクにおいて限られたモデルのみを評価しています。グローバルに包括的なLVLM研究に向けて、我々はGIMMICKを導入します。これは、6つのグローバルマクロ地域を代表する144カ国にわたる広範な文化的知識を評価するために設計された大規模なマルチモーダルベンチマークです。GIMMICKは、728のユニークな文化的イベントまたは側面にまたがる3つの新しいデータセットに基づいて構築された6つのタスクで構成されており、20のLVLMと11のLLM(5つのプロプライエタリモデルと26のオープンウェイトモデルを含む)を評価しました。我々は系統的に、(1)地域的な文化的バイアス、(2)モデルサイズの影響、(3)入力モダリティ、(4)外部の手がかりを検証しました。分析の結果、モデルやタスク全体で西洋文化に対する強いバイアスが明らかになり、モデルサイズと性能の強い相関、マルチモーダル入力と外部の地理的手がかりの有効性が強調されました。さらに、モデルは無形の側面(例:儀式)よりも有形の側面(例:料理)に関する知識をより多く持っており、広範な文化的起源を認識する能力に優れている一方で、より微妙な理解には苦戦することがわかりました。
既存の多言語視覚言語(VL)ベンチマークは、しばしば限られた言語しかカバーしていない。その結果、大規模視覚言語モデル(LVLM)の評価は主に高リソース言語を対象としており、低リソース言語の評価データの必要性が強調されている。この制約に対処するため、我々はMVL-SIBを導入する。これは205の言語にわたるクロスモーダルおよびテキストのみのトピックマッチングを評価する大規模多言語視覚言語ベンチマークであり、既存の最も多言語なVLベンチマークよりも100言語以上多い。次に、我々は一連のオープンウェイトLVLMとGPT-4o(-mini)をMVL-SIBでベンチマークした。その結果、LVLMは低リソース言語におけるクロスモーダルトピックマッチングに苦戦し、N'Kooのような言語ではランダムな性能を超えられないことが明らかになった。さらに、クロスモーダルとテキストのみのトピックマッチング性能の比較により、LVLMのVLサポートは低リソース言語においてテキストサポートに比べて不均衡に低下することが示された。また、オープンウェイトLVLMは、トピックを複数の画像で表現しても性能向上が見られず、これらのモデルがまだマルチイメージタスクを十分に効果的に処理できていないことが示唆された。MVL-SIBの性能を他の多言語VLベンチマークと相関させることで、MVL-SIBがLVLMの多言語VL理解を包括的に探るプローブとして機能することを強調する。
新視点合成(NVS)における最近の進展にもかかわらず、単一または疎な観測から高忠実度の視点を生成することは依然として大きな課題です。既存のスプラッティングベースのアプローチでは、スプラッティングエラーによる歪んだ幾何学が生成されることがよくあります。一方、拡散ベースの手法は豊富な3D事前情報を活用して改善された幾何学を実現しますが、テクスチャの幻覚化に悩まされることが多いです。本論文では、単一画像から高忠実度の新視点を合成するために設計された、ピクセルスプラッティングガイド付きビデオ拡散モデルであるSplatDiffを紹介します。具体的には、ターゲット視点の正確な制御と幾何学的一貫性のある視点合成のための整列合成戦略を提案します。テクスチャの幻覚化を軽減するために、適応的特徴融合を通じて高忠実度のテクスチャ生成を可能にするテクスチャブリッジモジュールを設計します。このようにして、SplatDiffはスプラッティングと拡散の強みを活用し、一貫した幾何学と高忠実度のディテールを持つ新視点を生成します。広範な実験により、SplatDiffの単一視点NVSにおける最先端の性能が検証されました。さらに、追加のトレーニングなしで、SplatDiffは疎視点NVSやステレオビデオ変換を含む多様なタスクにおいて顕著なゼロショット性能を示します。
半教師あり異種ドメイン適応(SHDA)は、異なる特徴表現と分布を持つドメイン間での学習を扱う手法であり、ソースサンプルはラベル付けされているが、ターゲットサンプルの大部分はラベルなしで、ごく一部のみがラベル付けされている。さらに、ソースサンプルとターゲットサンプルの間に一対一の対応関係はない。この問題に対処するためにさまざまなSHDA手法が開発されてきたが、異種ドメイン間で転移される知識の本質は依然として不明確である。本論文は、この疑問を実証的な観点から探求する。約330のSHDAタスクにおいて、2つの教師あり学習手法と7つの代表的なSHDA手法を用いて広範な実験を行った。驚くべきことに、ソースサンプルのカテゴリ情報や特徴情報は、ターゲットドメインの性能に大きな影響を与えないことが観察された。さらに、単純な分布から抽出されたノイズをソースサンプルとして使用した場合でも、転移可能な知識が含まれている可能性がある。この洞察に基づき、SHDAにおける転移可能な知識の基本原理を明らかにするために一連の実験を行った。具体的には、SHDAのための統一的な知識転移フレームワーク(KTF)を設計した。KTFに基づいて、SHDAにおける転移可能な知識は主にソースドメインの転移可能性と識別可能性に由来することがわかった。したがって、ソースサンプルの起源(例えば、画像、テキスト、ノイズ)に関わらず、これらの特性を確保することで、SHDAタスクにおける知識転移の効果を高めることができる。コードとデータセットはhttps://github.com/yyyaoyuan/SHDAで公開されている。
自然言語の質問からSPARQLクエリを生成する能力は、知識グラフ(KG)から構造化データを効率的かつ正確に取得するために極めて重要です。大規模言語モデル(LLM)はSPARQLクエリ生成に広く採用されていますが、内部のパラメトリック知識に基づいてUniform Resource Identifier(URI)などのKG要素を生成する際に、幻覚や分布外エラーが発生しやすい傾向があります。これにより、一見もっともらしいが事実上誤った内容が生成され、現実世界の情報検索(IR)アプリケーションでの使用に重大な課題を引き起こしています。この問題に対処するため、そのようなエラーを検出し軽減することを目的とした研究が増えています。本論文では、PGMR(Post-Generation Memory Retrieval)を紹介します。これは、非パラメトリックなメモリモジュールを組み込むことでKG要素を取得し、LLMベースのSPARQLクエリ生成を強化するモジュール型フレームワークです。実験結果から、PGMRは多様なデータセット、データ分布、およびLLMにおいて一貫して優れた性能を発揮することが示されています。特に、PGMRはURIの幻覚を大幅に軽減し、いくつかのシナリオではほぼ完全に問題を解消しています。