翻訳付きの日次キュレーションされたAI研究論文
最近の研究では、高品質な指示データセットでファインチューニングを行うことで、幅広いタスクに対応する印象的な能力を獲得できることが示されています。しかし、既存の指示データ生成手法では、重複データが生成されることが多く、データ品質の制御が十分ではありません。本論文では、指示データを4つのコード関連タスクに分類することで指示チューニングの汎化性能を拡張し、オープンソースコードから多様で高品質な指示データを生成するためのLLMベースのGenerator-Discriminatorデータ処理フレームワークを提案します。これにより、指示チューニングの効果を高め、ファインチューニングされたモデルの汎化能力を向上させることを目的とした、4つの汎用コード関連タスクにわたる20,000の指示インスタンスを含むデータセット「CodeOcean」を紹介します。さらに、コード言語モデル(LLM)の指示チューニングを強化するために特別に設計された、Widespread And Versatile Enhanced指示チューニングを施したコードLLM「WaveCoder」を提示します。実験結果から、WaveCoderモデルは、同じファインチューニング規模において、他のオープンソースモデルを上回る汎化能力を示し、従来のコード生成タスクにおいても高い効率性を発揮することが明らかになりました。本論文は、指示データ生成とファインチューニングモデルの分野に重要な貢献を提供し、コード関連タスクにおける性能向上のための新たな洞察とツールを提供します。
大規模言語モデル(LLM)の指数関数的な成長は、マルチモーダルAGIシステムの可能性を大きく広げました。しかし、マルチモーダルAGIの重要な要素である視覚および視覚-言語基盤モデルの進展は、LLMに追いついていません。本研究では、大規模視覚-言語基盤モデル(InternVL)を設計し、視覚基盤モデルを60億パラメータまでスケールアップし、様々なソースからのウェブスケールの画像-テキストデータを用いて、大規模言語モデルと段階的に整合させます。このモデルは、画像レベルまたはピクセルレベルの認識といった視覚知覚タスク、ゼロショット画像/動画分類、ゼロショット画像/動画-テキスト検索といった視覚-言語タスク、そしてLLMと連携したマルチモーダル対話システムの構築など、幅広く適用可能であり、最先端の性能を達成します。本研究がマルチモーダル大規模モデルの発展に貢献することを願っています。コードとモデルはhttps://github.com/OpenGVLab/InternVLで公開されています。
人間として、私たちは常に他者との相互作用を行い、自然言語の形でフィードバックを受け取ります。この言語的フィードバックにより、私たちは自身の行動を振り返り、適切な行動を維持し、誤りを修正することができます。ここで自然に生じる疑問は、言語的フィードバックを用いて大規模言語モデル(LLM)をアライメント(整合)させることができるかどうかです。これまでの研究では、報酬や選好データを用いてLLMをアライメントさせてきましたが、本研究では、言語的フィードバック(すなわち、判断)を通じたアライメントの最初の体系的探求を提示します。まず、判断を用いてLLMをアライメントさせるために適応可能な潜在的な手法を詳細に調査し、これらの手法が判断を十分に活用できないことを明らかにします。判断をより効果的に活用するために、判断に基づく細粒度の不適切な内容の検出と修正を可能にする新しいフレームワーク、Contrastive Unlikelihood Training(CUT)を提案します。オフラインアライメントの結果、わずか1317の既存の判断データを用いて、CUT(LLaMA2-13b)は175BのDaVinci003を上回り、AlpacaEvalにおいて最良のベースラインを52.34ポイント上回りました。オンラインアライメントの結果は、CUTがモデル固有の判断データを用いて反復的にLLM(LLaMA2-chat-13b)をアライメントさせ、AlpacaEvalのスコアを81.09から91.36へと着実に向上させられることを示しています。さらに、分析により、判断は報酬よりもLLMアライメントにおいてより大きな可能性を示し、今後の研究の価値があることが示唆されています。
人間は、視覚世界を理解し、それを通じて推論を行うための驚くべき能力である視覚知覚(Visual Perception)を持っています。近年、マルチモーダル大規模言語モデル(MLLM)は、視覚質問応答や画像キャプション生成から視覚推論や画像生成に至るまで、視覚と言語のタスクにおいて印象的な性能を達成しています。しかし、与えられた画像内のエンティティを識別またはカウント(知覚)するように促された場合、既存のMLLMシステムは失敗します。知覚と推論のための正確なMLLMシステムの開発に向けて、我々はマルチモーダルLLMの知覚の目としてVersatile vision enCoders(VCoder)を使用することを提案します。VCoderにセグメンテーションや深度マップなどの知覚モダリティを入力することで、MLLMの知覚能力を向上させます。次に、COCOの画像と既存の視覚知覚モデルの出力を活用して、オブジェクト知覚タスクにおけるMLLMのトレーニングと評価のためのCOCO Segmentation Text(COST)データセットを作成します。第三に、COSTデータセット上でMLLMのオブジェクト知覚能力を評価するための指標を導入します。最後に、VCoderがGPT-4Vを含む既存のマルチモーダルLLMを上回るオブジェクトレベルの知覚スキルを持つことを証明する広範な実験的証拠を提供します。研究を促進するために、データセット、コード、およびモデルをオープンソースとして公開します。コードはhttps://github.com/SHI-Labs/VCoderで公開しています。
人工知能(AI)エージェントを作成するための主要な方法として、強化学習(RL)が挙げられます。しかし、知覚を直接行動にマッピングするスタンドアロンのRLポリシーを構築することは、複数のタスクにわたる汎用性の欠如や、大量の訓練データの必要性など、深刻な問題に直面します。その主な原因は、ポリシーを考案する際に、知覚-行動サイクルに事前情報を効果的に統合できないことにあります。大規模言語モデル(LLM)は、AIエージェントにクロスドメインの知識を組み込む基本的な方法として登場しましたが、特定の意思決定問題に対する学習と適応が欠けています。本論文では、AIエージェントのポリシーに構造化された推論を統合し学習するための一般的なフレームワークモデルを提示します。私たちの方法論は、人間の脳に見られるモジュール性に基づいています。このフレームワークは、内在的および外在的関数の構築を利用して、推論構造に関する事前の理解を追加します。また、認知プロセスのモジュール構造と一致するように、各モジュールまたは関数内でモデルを学習する適応能力を提供します。私たちはこのフレームワークを詳細に説明し、他のAIパイプラインや既存のフレームワークと比較します。本論文では、私たちの方法の有効性を示す実験を含む実用的な応用について探求します。私たちの結果は、組織化された推論と事前知識が組み込まれた場合、AIエージェントがより優れたパフォーマンスと適応能力を発揮することを示しています。これにより、より強靭で汎用的なAIエージェントシステムへの道が開かれます。
自然言語処理の最新の進展として、大規模言語モデル(LLM)は多くの現実世界のタスクにおいて人間レベルの言語理解と生成能力を達成し、人工汎用知能への潜在的な道筋としても見なされるようになっています。LLMの研究をより促進するため、Llama 2やFalconなどの多くのオープンソースLLMが最近提案され、プロプライエタリモデルに匹敵する性能を獲得しています。しかし、これらのモデルは主に英語のシナリオ向けに設計されており、中国語のコンテキストでは性能が低いことが指摘されています。本技術レポートでは、300億パラメータを持つYAYI 2を提案します。YAYI 2は、事前学習データ処理パイプラインによってフィルタリングされた2.65兆トークンを含む多言語コーパスからスクラッチで事前学習されています。ベースモデルは、数百万の指示による教師ありファインチューニングと人間のフィードバックからの強化学習を通じて、人間の価値観に沿うように調整されています。MMLUやCMMLUなどの複数のベンチマークでの広範な実験により、提案されたYAYI 2が他の同規模のオープンソースモデルを一貫して上回ることが示されています。
言語モデル攻撃は通常、2つの極端な脅威モデルのいずれかを想定しています:モデルの重みへの完全なホワイトボックスアクセス、またはテキスト生成APIに限定されたブラックボックスアクセスです。しかし、現実世界のAPIは、単なるテキスト生成よりも柔軟であることが多く、これらのAPIは「グレーボックス」アクセスを提供し、新たな脅威ベクトルを生み出します。これを探るため、私たちはGPT-4 APIで公開された3つの新機能(ファインチューニング、関数呼び出し、知識検索)をレッドチームしました。その結果、わずか15の有害な例または100の無害な例でモデルをファインチューニングすることで、GPT-4のコアセーフガードを解除し、さまざまな有害な出力を可能にすることがわかりました。さらに、GPT-4アシスタントは関数呼び出しスキーマを容易に漏洩させ、任意の関数呼び出しを実行させることができることがわかりました。最後に、知識検索は、検索ドキュメントに命令を注入することでハイジャックできることがわかりました。これらの脆弱性は、APIによって公開される機能の追加が新たな脆弱性を生み出す可能性があることを強調しています。
単一視点からの3D再構成は、単眼視覚の曖昧さと遮蔽領域に関する情報の欠如により困難な課題です。ニューラルラジアンスフィールド(NeRF)は、視点合成や3D再構成において人気がありますが、通常は多視点画像に依存しています。NeRFを用いた単一視点3D再構成の既存手法は、遮蔽領域の視点を想像するためにデータ事前分布に依存するか、RGBカメラで観測される影に依存しています。前者は物理的に正確でない可能性があり、後者は環境光や低アルベド背景では検出が困難です。私たちは、これらの制限を克服するために、単一光子アバランシェダイオードで取得した飛行時間データを使用することを提案します。本手法では、NeRFを用いて二回反射光路をモデル化し、LiDARの過渡データを教師信号として利用します。NeRFとLiDARで測定された二回反射光の利点を活用することで、データ事前分布や制御された環境照明、シーンのアルベドに依存せずに、可視および遮蔽された幾何学を再構成できることを実証します。さらに、センサーの空間分解能と時間分解能に関する実用的な制約下での汎化性能の向上も示します。単一光子LiDARがスマートフォン、タブレット、ヘッドセットなどの消費者向けデバイスに普及するにつれ、本手法は有望な方向性であると考えています。
CLIPは数多くの視覚-言語アプリケーションの基盤モデルであるにもかかわらず、深刻なテキストスポッティングバイアスに悩まされています。このバイアスにより、CLIPモデルは画像に埋め込まれた視覚的テキストを「オウム返し」し、本来の視覚的意味を無視してしまいます。私たちは、最も人気のある画像-テキストデータセットであるLAION-2Bにおいて、キャプションも画像に埋め込まれたテキストを密集してオウム返し(スペルアウト)していることを発見しました。分析によると、約50%の画像に視覚的テキストコンテンツが埋め込まれており、そのキャプションの90%が多かれ少なかれ視覚的テキストをオウム返ししています。この観察に基づき、私たちはCLIPモデルの異なるリリースバージョンを徹底的に調査し、これらのモデルにおいてLAIONスタイルの画像-テキスト類似度を測定する際に視覚的テキストが支配的な要因であることを確認しました。これらのオウム返しキャプションがテキストスポッティングバイアスを形成するかどうかを検証するため、異なるオウム返しキャプション指向の基準でキュレーションされたLAIONサブセットを用いて一連のCLIPモデルをトレーニングしました。その結果、オウム返しキャプションを用いたトレーニングは容易にそのようなバイアスを形成しますが、CLIPモデルにおける期待される視覚-言語表現学習を損なうことがわかりました。これは、CLIPのようなモデルの設計や、CLIPスコアフィルタリングに基づいて構築された既存の画像-テキストデータセットのキュレーションパイプラインを見直すことが急務であることを示唆しています。
テキストから画像(T2I)生成のための拡散モデルの普及により、テキスト記述から高品質な画像を生成することが可能になりました。しかし、参照となる視覚的属性を備えた多様なカスタマイズ画像を生成することは依然として課題です。本研究では、T2I拡散モデルをより抽象的な概念やカテゴリレベルでパーソナライズすることに焦点を当て、一連の参照画像から共通性を適応させつつ、十分なバリエーションを持つ新しいインスタンスを生成します。我々は、事前学習済みのT2I拡散モデルが一連のソフトプロンプトを学習し、学習された分布からプロンプトをサンプリングすることで新しい画像を生成できるソリューションを提案します。これらのプロンプトは、テキストガイドによる編集機能を提供し、複数の分布間でのバリエーションや混合を制御するための追加の柔軟性を提供します。また、学習されたプロンプト分布がテキストから3D生成などの他のタスクにも適応可能であることを示します。最後に、自動評価と人間による評価を含む定量的分析を通じて、我々のアプローチの有効性を実証します。プロジェクトウェブサイト: https://briannlongzhao.github.io/DreamDistribution
単一画像からのゼロショット3D形状再構成の問題を研究する。最近の研究では、3Dアセットの生成モデリングを通じてゼロショット形状再構成を学習しているが、これらのモデルは学習時と推論時に計算コストが高い。一方、この問題に対する従来のアプローチは回帰ベースであり、決定論的モデルを訓練して直接オブジェクト形状を回帰させる。このような回帰手法は、生成手法よりもはるかに高い計算効率を有している。これにより、高性能を達成するために生成モデリングは必要か、あるいは逆に、回帰ベースのアプローチはまだ競争力があるのかという自然な疑問が生じる。この疑問に答えるため、我々はこの分野での収束する知見と新たな洞察に基づいて、ZeroShapeと呼ばれる強力な回帰ベースのモデルを設計する。また、3つの異なる実世界の3Dデータセットからオブジェクトを選び、大規模な実世界評価ベンチマークを構築した。この評価ベンチマークは、先行研究がモデルを定量的に評価するために使用するものよりも多様で、一桁大きい規模を有しており、我々の分野における評価のばらつきを低減することを目指している。我々は、ZeroShapeが最先端の手法を上回る性能を達成するだけでなく、計算効率とデータ効率が大幅に高いことを示す。
略語展開は、タイピング量を制限し、言語モデルを用いて展開候補を提案することで、コミュニケーションを高速化する戦略です。ここでは、特にユーザーデータが少量(約1000サンプル)の場合に、過去の会話に基づいて大規模言語モデル(LLM)の提案をパーソナライズし、予測の関連性を高める方法を検討します。具体的には、略語入力に対する展開テキストの提案において、ファインチューニング、プロンプトチューニング、および検索拡張生成を比較します。ALSを患う実在のユーザーに対して展開された8BパラメータのLLMのケーススタディと、映画キャラクターのパーソナライゼーションに関する実験から、以下のことが示されました:(1) 一部のシナリオではカスタマイズが必要であり、プロンプトチューニングがそれらにうまく汎化する、(2) ドメイン内データ(600サンプル程度)でのファインチューニングでもある程度の効果が見られるが、(3) 検索拡張による少数ショット選択はファインチューニングを上回る、(4) パラメータ効率的なチューニングにより、効率的かつスケーラブルなパーソナライゼーションが可能である。また、プロンプトチューニングにおいて、学習された「ソフトプロンプト」をユーザー関連の概念トークンで初期化すると、ランダム初期化よりも精度が高くなることがわかりました。
大規模生成AIモデルの開発がテキスト(1D)生成から画像(2D)や動画(3D)生成へと進化するにつれ、空間的および時間的情報の処理は、品質、性能、効率性において独自の課題を提示します。本論文では、マルチモーダルなテキストから画像(TTI)およびテキストから動画(TTV)生成モデルのための新しいシステム設計空間を理解するための最初の取り組みを紹介します。現在のモデルアーキテクチャ設計は、DiffusionベースとTransformerベースの2つのカテゴリに分かれています。代表的な8つのTTI/TTVモデルに対する体系的な性能評価により、Flash Attentionなどの最先端の最適化技術を適用した後、DiffusionベースのTTIモデルではConvolutionが実行時間の最大44%を占め、TransformerベースのモデルではLinear層が実行時間の最大49%を消費することが明らかになりました。さらに、DiffusionベースのTTIモデルはLLM推論のPrefill段階に類似しており、Flash Attentionによる速度向上がTransformerベースのTTIモデル(Decode段階に類似)よりも1.1~2.5倍大きいことが観察されました。LLM向けに設計された最適化がTTI/TTVモデルに直接適用できないため、これらのワークロードを徹底的に評価し、新しい最適化の機会を探る必要があります。その過程で、TTI/TTVモデルの文脈におけるシーケンス長を定義し、Diffusionモデル推論ではシーケンス長が最大4倍変動することを観察しました。さらに、TTVワークロードの時間的側面が独自のシステムボトルネックを引き起こし、Temporal Attentionが総Attention時間の60%以上を占めることがわかりました。全体として、この詳細なシステム性能評価は、新興のTTI/TTVワークロード向けに効率的で展開可能なシステムを設計するための重要な第一歩です。
物体の物理的特性、特に質量は、私たちが手でそれを操作する方法に大きく影響します。驚くべきことに、これまでの3Dモーション合成に関する研究では、この側面が見過ごされてきました。本論文では、合成された3D手と物体のモーションの自然さを向上させるため、初の質量条件付き3D手と物体モーション合成手法であるMACSを提案します。私たちのアプローチはカスケード型拡散モデルに基づいており、物体の質量と相互作用のタイプに応じて適切に調整される相互作用を生成します。MACSはまた、手動で描かれた3D物体軌道を入力として受け取り、物体の質量に基づいて自然な3D手のモーションを合成します。この柔軟性により、MACSはMLタスクのための合成トレーニングデータの生成、グラフィックスワークフローのための手の高速アニメーション、コンピュータゲームのためのキャラクター相互作用の生成など、さまざまな下流アプリケーションに使用することができます。実験的に、小規模なデータセットでもMACSがトレーニング中に見られなかった補間および外挿された物体質量に対して合理的に一般化できることを示します。さらに、MACSは、表面接触合成モデルConNetによって生成された質量条件付き接触ラベルのおかげで、未見の物体に対して中程度の一般化を示します。私たちの包括的なユーザー調査は、合成された3D手と物体の相互作用が非常に説得力があり現実的であることを確認しています。
本論文では、資産運用業界向けに特別に設計された100億パラメータ規模の大規模言語モデル「Shai」を紹介する。このモデルはオープンソースの基盤モデルをベースに構築され、対象分野に特化したコーパスを用いた継続的な事前学習とファインチューニングを経て、ベースラインモデルを上回るドメイン関連タスクでの性能向上を示している。本研究では、専門資格試験、カスタマイズタスク、自由回答形式の質問応答、安全性評価を統合した革新的な評価フレームワークを開発し、Shaiの能力を包括的に評価している。さらに、GPT-4のような大規模言語モデルを資産運用におけるパフォーマンス評価に活用する際の課題と意義について議論し、自動評価と人間の判断を組み合わせることを提案する。Shaiの開発は、金融分野における100億パラメータ規模の大規模言語モデルの可能性と汎用性を示し、優れた性能と控えめな計算要件を実現することで、業界の同僚たちが同様の取り組みを行う際の実践的な洞察と方法論を提供することを目指している。
近年、研究者たちは大規模言語モデル(LLM)が動画を扱う能力を調査しようと試み、いくつかの動画LLMモデルを提案してきた。しかし、LLMがビデオグラウンディング(VG)を扱う能力、すなわち与えられたテキストクエリに一致する動画内の時間的な瞬間の開始および終了タイムスタンプを正確に特定することを要求する重要な時間関連の動画タスクについては、依然として不明瞭であり、文献上も未探求のままである。このギャップを埋めるため、本論文ではLLM4VGベンチマークを提案し、異なるLLMのビデオグラウンディングタスクにおける性能を体系的に評価する。提案したLLM4VGに基づき、ビデオグラウンディングに関する2つのグループの動画LLMモデルを検証するための広範な実験を設計した:(i)テキストと動画のペアで訓練された動画LLM(VidLLMと表記)、および(ii)事前訓練された視覚記述モデル(例えば、動画/画像キャプションモデル)と組み合わせたLLMである。VGの指示と、キャプションベースのジェネレータによる直接的な視覚記述やVQAベースのジェネレータによる情報強化を含む、異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。また、様々なVidLLMの包括的な比較を提供し、視覚モデル、LLM、プロンプト設計などの異なる選択の影響も探求する。我々の実験的評価から得られた結論は以下の2点である:(i)既存のVidLLMは、満足のいくビデオグラウンディング性能を達成するには程遠く、これらのモデルをさらに微調整するためにより多くの時間関連の動画タスクを含めるべきであること、(ii)LLMと視覚モデルの組み合わせは、ビデオグラウンディングにおいて予備的な能力を示し、より信頼性の高いモデルとプロンプト指示のさらなるガイダンスによって改善の余地が大きいことである。