翻訳付きの日次キュレーションされたAI研究論文
現在のユニバーサルセグメンテーション手法は、ピクセルレベルの画像および動画理解において強力な能力を示しています。しかし、それらには推論能力が欠けており、テキスト指示による制御ができません。一方、大規模な視覚-言語マルチモーダルモデルは、視覚に基づく会話と推論能力を備えていますが、ピクセルレベルの理解が不足しており、柔軟なユーザーインタラクションのための視覚的プロンプトを受け入れるのが困難です。本論文では、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいエレガントなフレームワーク、OMG-LLaVAを提案します。これは、様々な視覚的およびテキストのプロンプトを受け入れて、柔軟なユーザーインタラクションを可能にします。具体的には、ユニバーサルセグメンテーション手法を視覚エンコーダーとして使用し、画像情報、知覚事前情報、および視覚的プロンプトをLLMに提供される視覚トークンに統合します。LLMは、ユーザーのテキスト指示を理解し、視覚情報に基づいてテキスト応答とピクセルレベルのセグメンテーション結果を提供する役割を担います。知覚事前情報を画像特徴とより良く統合するために、知覚事前埋め込みを提案します。OMG-LLaVAは、単一のモデルで画像レベル、オブジェクトレベル、およびピクセルレベルの推論と理解を実現し、複数のベンチマークで専門手法の性能に匹敵またはそれを上回ります。各専門家をLLMで接続するのではなく、本手法は1つのエンコーダー、1つのデコーダー、および1つのLLMに対するエンドツーエンドのトレーニングを目指しています。コードとモデルは、さらなる研究のために公開されています。
数学的推論は、正確性を保つために広範かつ精密な推論の連鎖を必要とするため、大規模言語モデル(LLM)にとって重要な課題となっています。各推論ステップの正確性を確保することが極めて重要です。この課題に対処するため、我々は人間のフィードバックから学習することでLLMの堅牢性と事実性を向上させることを目指しています。しかし、直接選好最適化(DPO)は、長い連鎖的な数学的推論において限定的な効果しか示さず、DPOを採用したモデルは誤った回答における詳細なエラーを特定するのに苦労します。この制約は、細かいプロセス監視の欠如に起因しています。我々は、Step-DPOと呼ばれるシンプルで効果的かつデータ効率の良い手法を提案します。この手法は、回答を全体的に評価するのではなく、個々の推論ステップを選好最適化の単位として扱います。さらに、Step-DPOのためのデータ構築パイプラインを開発し、10,000のステップごとの選好ペアを含む高品質なデータセットの作成を可能にしました。また、DPOにおいて、自己生成データは人間やGPT-4によって生成されたデータよりも効果的であることが観察されました。これは、後者が分布外の性質を持つためです。我々の研究結果は、70B以上のパラメータを持つモデルにおいて、わずか10,000の選好データペアと500未満のStep-DPOトレーニングステップで、MATHにおける精度が約3%向上することを示しています。特に、Qwen2-72B-InstructにStep-DPOを適用した場合、MATHとGSM8Kのテストセットでそれぞれ70.8%と94.0%のスコアを達成し、GPT-4-1106、Claude-3-Opus、Gemini-1.5-Proを含む一連のクローズドソースモデルを上回りました。我々のコード、データ、モデルはhttps://github.com/dvlab-research/Step-DPOで公開されています。
私たちは、テキストと画像が交互に配置された「<男性の写真>男性とその<犬の写真>犬が<漫画の写真>アニメ風に描かれた」といったマルチモーダルプロンプトから画像を生成するモデルを訓練しました。合成生成されたテキスト画像データと公開されているテキスト画像データのキャプションに対応する意味的に意味のある画像クロップを抽出することで、マルチモーダルデータセットをブートストラップします。私たちのモデル、MUMUは、ビジョン言語モデルエンコーダと拡散デコーダで構成され、単一の8xH100 GPUノードで訓練されます。同じ画像からのクロップのみで訓練されているにもかかわらず、MUMUは異なる画像からの入力を一貫した出力に構成することを学習します。例えば、リアルな人物と漫画の入力は、その人物を漫画風に出力し、立っている被写体とスクーターの入力は、その被写体がスクーターに乗っている様子を出力します。その結果、私たちのモデルはスタイル転送やキャラクターの一貫性といったタスクに一般化します。私たちの結果は、マルチモーダルモデルを画像生成の汎用コントローラーとして使用する可能性を示しています。
大規模言語モデル(LLM)は、教育支援のための様々な知的タスクに活用されてきた。これまでの予備的な探求は、特定の教育タスクにおける独立したLLMエージェントに焦点を当ててきたが、実際のユーザー参加を伴う教室をシミュレートするためのマルチエージェント協調フレームワーク内でのLLMの可能性は未開拓のままである。本研究では、ユーザー参加型のマルチエージェント教室シミュレーションフレームワークであるSimClassを提案する。代表的なクラス役割を認識し、自動教室授業のための新しいクラス制御メカニズムを導入し、2つの実世界のコースでユーザー実験を実施した。教育分析におけるフランダース相互作用分析システムと探究コミュニティ理論フレームワークを活用し、LLMが伝統的な教室相互作用パターンを効果的にシミュレートしながらユーザー体験を向上させることを実証した。また、SimClass内のエージェント間で創発的なグループ行動が観察され、エージェントが協力して教室での活気ある相互作用を創出し、ユーザーの学習プロセスを改善することが確認された。本研究が、LLMを活用したマルチエージェントシステムの仮想教室授業への応用の先駆けとなることを期待する。
本論文では、Self-aware Knowledge Retrieval (SeaKR) を紹介する。これは、大規模言語モデル(LLM)の内部状態から自己認識された不確実性を抽出する新しい適応型RAGモデルである。SeaKRは、LLMが生成において高い自己認識不確実性を示す場合に検索を活性化する。検索された知識スニペットを効果的に統合するため、SeaKRはLLMの自己認識不確実性に基づいてそれらを再ランク付けし、不確実性を最大限に低減するスニペットを保持する。複数の検索を必要とする複雑なタスクの解決を容易にするため、SeaKRは自己認識不確実性を利用して異なる推論戦略の中から選択する。複雑な質問応答データセットと単純な質問応答データセットの両方での実験により、SeaKRが既存の適応型RAG手法を上回ることを示す。コードはhttps://github.com/THU-KEG/SeaKRで公開している。
大規模言語モデル(LLM)は、様々なタスクにおけるコパイロットとして大きな可能性を示しています。プライバシーに敏感なデータやレイテンシに敏感なタスクを扱う場合、エッジデバイス上でのLLMのローカルデプロイメントが必要となります。しかし、こうしたデバイスの計算リソースの制約により、大規模なLLMを直接デプロイすることは現実的ではなく、大規模モデルから軽量モデルへの知識蒸留が必要となります。これまで、LLMから多様性と品質の高いトレーニング例を引き出すための研究は多く行われてきましたが、教育学における「レスポンシブ・ティーチング」のように、学生の好みに基づいて教師の指導内容を調整することにはほとんど注目が集まっていませんでした。そこで我々は、ARTE(Aligning TeacheR with StudenT PreferencEs)というフレームワークを提案します。これは、教師モデルを学生の好みに合わせて調整し、知識蒸留のためのカスタマイズされたトレーニング例を生成するものです。具体的には、教師モデルから草案となる質問とその論理を引き出し、それらの質問と論理に対する学生の好みを、インコンテキスト学習における学生のパフォーマンスを代理として収集し、最後に教師モデルを学生の好みに合わせて調整します。最終的には、調整された教師モデルを用いて最初のステップを繰り返し、ターゲットタスクにおける学生モデルのためのカスタマイズされたトレーニング例を引き出します。学術的なベンチマークでの大規模な実験により、ARTEが強力なLLMから蒸留された既存の指示チューニングデータセットを凌駕することを実証しました。さらに、ARTEの汎化能力について徹底的に調査し、ファインチューニングされた学生モデルの推論能力の汎化、および調整された教師モデルがタスクや学生を跨いでカスタマイズされたトレーニングデータを生成する能力の汎化を検証しました。要約すると、我々の貢献は、カスタマイズされたトレーニング例生成のための新しいフレームワークを提案し、その有効性を実験で実証し、ARTEにおける学生モデルと調整された教師モデルの両方の汎化能力を調査した点にあります。
テストセットの汚染、すなわちベンチマークのテストデータが新しいモデルのトレーニングセットに混入してしまう現象は、公平なLLM評価におけるよく知られた障害であり、ベンチマークを急速に陳腐化させることがあります。これを緩和するため、最近の多くのベンチマークでは、人間やLLMの審判から新しいプロンプトや評価をクラウドソーシングしています。しかし、これらは重大なバイアスを導入する可能性があり、難しい質問の採点において破綻することがあります。本研究では、テストセットの汚染とLLM審判や人間のクラウドソーシングの落とし穴の両方に対して免疫を持つように設計された新しいLLMベンチマークを紹介します。私たちはLiveBenchをリリースします。これは、(1) 最新の情報源から頻繁に更新される質問を含み、(2) 客観的な正解値に基づいて回答を自動的に採点し、(3) 数学、コーディング、推論、言語、指示の遵守、データ分析など、多様な挑戦的なタスクを含む初のベンチマークです。これを実現するため、LiveBenchには、最近リリースされた数学コンテスト、arXiv論文、ニュース記事、データセットに基づく質問が含まれており、Big-Bench Hard、AMPS、IFEvalなどの以前のベンチマークからのタスクのより難しく、汚染のないバージョンも含まれています。私たちは多くの著名なクローズドソースモデル、および0.5Bから110Bまでの数十のオープンソースモデルを評価しました。LiveBenchは難易度が高く、トップモデルでも65%以下の精度しか達成できませんでした。すべての質問、コード、モデルの回答を公開します。質問は毎月追加・更新され、新しいタスクやより難しいバージョンのタスクを随時リリースするため、LiveBenchは将来LLMの能力が向上するにつれてその違いを識別できるようになります。ベンチマークタスクとモデルの拡大に向けたコミュニティの参加と協力を歓迎します。
学生モデルを改善するための教育(例:知識蒸留)は、LLM(大規模言語モデル)において広く研究されている方法論です。しかし、人間にとって教育は学生を向上させるだけでなく、教師自身も向上させます。そこで私たちは問います:LLMも「教えることで学ぶ(Learning by Teaching, LbT)」ことができるのか?もし可能であれば、人間が生成したデータやより強力なモデルに依存することなく、モデルを継続的に進化させる可能性を開くことができるかもしれません。本論文では、この野心的なアジェンダに対する予備的な探求を提供します。LbTのアイデアが既存のLLMのトレーニング/プロンプト設計パイプラインに組み込まれ、顕著な改善をもたらすことを示します。具体的には、人間のLbTの3つのレベルを模倣した3つの方法を設計しました:学生のフィードバックを観察する、フィードバックから学ぶ、そして反復的に学ぶことで、トレーニングなしで回答精度を向上させたり、ファインチューニングを通じてモデルの本質的な能力を向上させたりすることを目指します。結果は有望です。例えば、人間のLbTと同様に、以下のことが観察されました:(1) LbTは弱いモデルから強いモデルへの一般化を誘発する可能性がある:強いモデルが他の弱いモデルを教えることで自身を改善できる。(2) 学生の多様性が役立つ可能性がある:複数の学生を教えることは、1人の学生や教師自身を教えるよりも効果的かもしれない。この初期の成果が、LbTに関する将来の研究や、教育分野の先進的な技術をLLMの改善に広く適用することを刺激することを願っています。コードはhttps://github.com/imagination-research/lbtで公開されています。
モデル逆変換攻撃とメンバーシップ推論攻撃は、モデルが学習に使用したデータを再構築し検証することを目的としています。しかし、これらの攻撃は学習セットのサイズを知らないため、すべての学習サンプルを見つけることは保証されていません。本論文では、モデルの重みから直接、学習に使用されたサンプル数を特定することを目的とした新しいタスク、データセットサイズ復元を紹介します。そして、LoRAを使用したファインチューニングが一般的なケースにおいて、ファインチューニングに使用された画像数を復元する方法であるDSiReを提案します。LoRA行列のノルムとスペクトルがファインチューニングデータセットのサイズと密接に関連していることを発見し、この知見を活用してシンプルかつ効果的な予測アルゴリズムを提案します。LoRA重みのデータセットサイズ復元を評価するために、2000以上の多様なLoRAファインチューニングモデルから得られた25000以上の重みスナップショットからなる新しいベンチマーク、LoRA-WiSEを開発し公開します。私たちの最良の分類器は、ファインチューニング画像数を平均絶対誤差0.36画像で予測することができ、この攻撃の実現可能性を確立しました。
スパースアテンションは、長文脈における大規模言語モデル(LLM)のメモリとスループットの大幅な要求を効果的に緩和することができます。既存の手法では、通常、均一なスパースアテンションマスクを使用し、異なるアテンションヘッドや入力長に対して同じスパースパターンを適用します。しかし、この均一なアプローチでは、LLMに内在する多様なアテンションパターンを捉えることができず、それらの異なる精度とレイテンシのトレードオフを無視してしまいます。この課題に対処するため、我々はMixture of Attention(MoA)を提案します。MoAは、異なるヘッドやレイヤーに対して個別のスパースアテンション設定を自動的に調整します。MoAは、様々なアテンションパターンとそれらの入力シーケンス長に対するスケーリングルールの探索空間を構築し、ナビゲートします。モデルをプロファイリングし、潜在的な設定を評価し、最適なスパースアテンション圧縮計画を特定します。MoAは、入力サイズの変化に適応し、一部のアテンションヘッドが長いシーケンスに対応するために焦点を拡大する一方で、他のヘッドは固定長のローカルコンテキストに一貫して集中することを明らかにします。実験では、MoAが同じ平均アテンションスパンで有効なコンテキスト長を3.9倍に増加させ、Vicuna-7B、Vicuna-13B、Llama3-8Bモデルにおいて、均一アテンションベースラインに対して検索精度を1.5~7.1倍向上させることが示されました。さらに、MoAはスパースモデルと密モデルの間の能力ギャップを狭め、2つの長文脈理解ベンチマークにおいて、最大の相対的性能低下を9%~36%から5%以内に抑えました。MoAは、7Bおよび13Bの密モデルにおいて、単一GPU上で1.2~1.4倍のGPUメモリ削減を達成し、デコードスループットを5.5~6.7倍向上させ、性能への影響を最小限に抑えました。
プログラミング・バイ・エグザンプル(PBE)は、入力と出力の例からアルゴリズムを生成することを目的としています。このようなシステムは、実用的にも理論的にも重要です。エンドユーザーの観点からは、何百万人もの人々に展開されており、AIの観点からは、PBEは非常に一般的な形式の少数ショット帰納推論に対応しています。大規模言語モデル(LLM)がコード生成タスクで成功を収めていることを踏まえ、本論文ではLLMがPBEを「解決」したと言える程度を調査します。リストや文字列といった古典的なドメインに加え、典型的な事前学習データでは十分に表現されていないグラフィックスプログラミングのドメインについても実験を行います。事前学習済みモデルはPBEにおいて有効ではないものの、テスト問題が分布内にある場合には、ファインチューニングによって大幅に性能を向上させられることがわかりました。これらのモデルが成功する要因と失敗する要因を実証的に分析し、分布外の汎化性能を向上させるための理解に向けて一歩を踏み出します。これらの結果を総合すると、LLMは典型的なPBEタスクの解決に向けて大きな進歩を遂げており、PBEシステムの柔軟性と適用可能性を高める可能性がある一方で、LLMがまだ不足している点も明らかになりました。
トークナイザーは大規模言語モデルにおける情報の符号化に不可欠ですが、その開発は近年停滞しており、本質的な弱点を抱えています。主な制約として、計算オーバーヘッド、語彙の非効率的な使用、不必要に大きな埋め込み層とヘッド層が挙げられます。さらに、その性能は参照コーパスに偏っており、低資源言語に対する有効性が低下しています。 これらの問題を解決するため、我々はT-FREEを提案します。T-FREEは文字トリプレットに対するスパースな活性化パターンを通じて単語を直接埋め込み、参照コーパスを必要としません。T-FREEは形態論的類似性を本質的に活用し、埋め込み層の強力な圧縮を可能にします。我々の徹底的な実験的評価では、これらの層において85%以上のパラメータ削減を達成しつつ、競争力のある下流タスク性能を実現しました。さらに、T-FREEはクロスリンガルトランスファー学習において大幅な改善を示しています。
大規模視覚言語モデル(LVLM)は幻覚を起こす:画像内の特定の文脈手がかりが、言語モジュールの過信や異常または仮想的な対象に関する誤った推論を引き起こす可能性がある。LVLMの幻覚を調査するためのいくつかのベンチマークが開発されているが、それらは主に手作りされたコーナーケースに依存しており、その失敗パターンは一般化しにくく、それらに基づくファインチューニングはその妥当性を損なう可能性がある。これらを踏まえ、我々は最初の自動ベンチマーク生成アプローチであるAUTOHALLUSIONを開発した。これは、多様な幻覚例を作成するためにいくつかの主要な戦略を活用するものである。AUTOHALLUSIONは、LVLMの言語モジュールを文脈手がかりに対してプローブし、それらを使用して画像を合成する。具体的には、(1) 文脈手がかりに対して異常なオブジェクトを追加する、(2) 共起する2つのオブジェクトのうち1つを保持し、もう1つを除外する、または(3) 文脈手がかりに密接に関連するオブジェクトを削除する。その後、言語モジュールの事前知識と矛盾するグラウンドトゥルース回答を持つ画像ベースの質問を生成する。モデルは、文脈バイアスや注意散漫を克服して正しい回答に到達する必要があり、誤ったまたは一貫しない回答は幻覚を示す。AUTOHALLUSIONは、最小限のコストで新しいベンチマークを作成することを可能にし、手作りベンチマークの脆弱性を克服する。また、一般的な失敗パターンとその理由を明らかにし、幻覚を検出、回避、または制御するための重要な洞察を提供する。GPT-4V(ision)、Gemini Pro Vision、Claude 3、LLaVA-1.5などのトップクラスのLVLMに対する包括的な評価では、AUTOHALLUSIONの合成データセットと実世界データセットにおいて、幻覚誘導の成功率がそれぞれ97.7%と98.7%を示し、幻覚との長い戦いへの道を開いた。
グラフィカルユーザーインターフェース(GUI)は、デジタルデバイスとのインタラクションにおいて中心的な役割を果たしています。最近では、さまざまなGUI理解タスクのためのモデルを構築する取り組みが増えています。しかし、これらの取り組みは、重要なGUI参照タスクである、ユーザーが指定したポイントに基づく画面読み上げ(Screen Point-and-Read: SPRタスク)をほとんど見落としています。このタスクは、主に硬直的なアクセシブル画面読み上げツールによって処理されており、マルチモーダル大規模言語モデル(MLLM)の進歩に基づく新しいモデルが強く求められています。本論文では、SPRタスクに対処するために、新たなTree-of-Lens(ToL)グラウンディングメカニズムを利用したToLエージェントを提案します。入力されたポイント座標と対応するGUIスクリーンショットに基づいて、ToLエージェントは階層的レイアウトツリーを構築します。このツリーに基づいて、ToLエージェントは指定された領域の内容を理解するだけでなく、要素間のレイアウトと空間的関係を明確に説明します。このようなレイアウト情報は、画面上の情報を正確に解釈するために重要であり、ToLエージェントを他の画面読み上げツールと区別する特徴です。また、新たに提案されたSPRベンチマーク(モバイル、ウェブ、オペレーティングシステムのGUIを含む)において、ToLエージェントを他のベースラインと徹底的に評価します。最後に、ToLエージェントをモバイルGUIナビゲーションタスクでテストし、エージェント実行軌跡のパスに沿った誤ったアクションを特定する有用性を実証します。コードとデータ: screen-point-and-read.github.io
検索拡張生成(RAG)は、大規模言語モデル(LLM)の幻覚問題を緩和する効果を実証してきました。しかし、多様なLLMの知識選好と検索器を整合させる難しさは、信頼性の高いRAGシステムを開発する上で避けられない課題となっています。この問題に対処するため、我々はDPA-RAGを提案します。これは、RAGシステム内の多様な知識選好を整合させるための汎用フレームワークです。具体的には、まず選好知識構築パイプラインを導入し、選好データの不足を緩和するために5つの新しいクエリ拡張戦略を組み込みます。選好データに基づいて、DPA-RAGは外部と内部の選好整合を実現します:1)ペアワイズ、ポイントワイズ、および対照的な選好整合能力をリランカーに統合し、RAGコンポーネント間の外部選好整合を達成します。2)通常の教師ありファインチューニング(SFT)の前に事前整合段階を導入し、LLMがその推論選好に整合した知識を暗黙的に捕捉できるようにし、LLMの内部整合を実現します。4つの知識集約型QAデータセットでの実験結果は、DPA-RAGが全てのベースラインを上回り、ブラックボックスおよびオープンソースのLLMリーダーをシームレスに統合することを示しています。さらに、質的分析と議論は、信頼性の高いRAGシステムを実現するための実証的なガイダンスを提供します。我々のコードはhttps://github.com/dongguanting/DPA-RAGで公開されています。
近年、エジプトアラビア語と英語の間でのコードスイッチング現象が広く増加していることを動機として、本論文では、機械翻訳(MT)と自動音声認識(ASR)システムの複雑さを探求し、コードスイッチングされたエジプトアラビア語-英語を英語またはエジプトアラビア語に翻訳することに焦点を当てます。私たちの目標は、LLamaやGemmaなどの大規模言語モデルを活用して、これらのシステムを開発するために採用された方法論を提示することです。ASRの分野では、Whisperモデルを利用したコードスイッチングされたエジプトアラビア語の認識について探求し、データの前処理やトレーニング技術を含む実験手順を詳細に説明します。ASRとMTを統合した連続的な音声からテキストへの翻訳システムを実装することで、限られたリソースやエジプトアラビア語方言の独特な特性によって生じる課題を克服することを目指します。確立された指標に対する評価は、私たちの方法論が最先端の技術に対して英語翻訳で56%、アラビア語翻訳で9.3%の大幅な改善をもたらすことを示しています。コードスイッチングは話し言葉に深く内在しているため、ASRシステムがこの現象を効果的に処理できることが重要です。この能力は、ビジネス交渉、文化交流、学術的議論など、さまざまな分野でのシームレスな相互作用を可能にするために不可欠です。私たちのモデルとコードはオープンソースリソースとして利用可能です。コード: http://github.com/ahmedheakl/arazn-llm, モデル: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
オンライン採用プラットフォームへの依存度の高まりとAI技術の採用により、効率的な履歴書分類手法の重要性が浮き彫りになっています。しかし、小規模なデータセット、標準化された履歴書テンプレートの欠如、プライバシーに関する懸念といった課題が、既存の分類モデルの精度と効果を妨げています。本研究では、これらの課題に対処するため、包括的な履歴書分類アプローチを提案します。多様なソースから13,389件の履歴書を収集した大規模データセットを構築し、BERTやGemma1.1 2Bなどの大規模言語モデル(LLM)を分類に活用しました。その結果、従来の機械学習アプローチを大幅に上回る成果を示し、最良のモデルではトップ1精度92%、トップ5精度97.5%を達成しました。これらの知見は、データセットの品質と高度なモデルアーキテクチャが履歴書分類システムの精度と堅牢性を向上させる上で重要であることを強調し、オンライン採用実践の分野を前進させるものです。
言語モデル(LM)の生成性能を評価する研究は、心の理論(Theory of Mind)推論を必要とするタスクにおいて数多く行われてきたが、モデル内部における心的状態の表現に関する研究は限られている。最近の研究では、プロービングを用いて、LMが自己や他者の信念を表現できることを示している。しかし、これらの主張は限定的な評価に基づいており、モデルの設計やトレーニングの選択が心的状態の表現にどのような影響を与えるかを評価することが困難である。本論文では、モデルサイズ、ファインチューニング手法、プロンプト設計が異なる様々なタイプのLMを用いた広範なベンチマークを報告し、心的状態の表現の頑健性とプローブ内の記憶化問題を調査する。その結果、モデル内部における他者の信念の表現の質は、モデルサイズの増加と、より重要な点としてファインチューニングによって向上することが示された。また、心の理論タスクにおけるプロービング性能にプロンプトのバリエーションがどのように影響するかを初めて調査し、モデルの表現がプロンプトのバリエーションに敏感であることを示す。さらに、心の理論タスクにおける活性化編集実験を補完し、プローブをトレーニングすることなく活性化を誘導することで、モデルの推論性能を向上させることが可能であることを示す。