翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの時代において、Mixture-of-Experts(MoE)は、モデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャです。しかし、GShardのような従来のMoEアーキテクチャは、N個のエキスパートから上位K個を活性化するため、エキスパートの専門化、すなわち各エキスパートが重複しない焦点を絞った知識を獲得することを保証する上で課題に直面しています。これに対応して、我々は究極のエキスパート専門化を目指すDeepSeekMoEアーキテクチャを提案します。これには2つの主要な戦略が含まれます:(1)エキスパートをmN個に細分化し、その中からmK個を活性化することで、活性化されるエキスパートの組み合わせをより柔軟にすること;(2)K_s個のエキスパートを共有エキスパートとして分離し、共通知識を捕捉し、ルーティングされるエキスパートの冗長性を軽減することです。2Bパラメータという控えめな規模から始め、DeepSeekMoE 2Bが、エキスパートパラメータと計算量が1.5倍のGShard 2.9Bと同等の性能を達成することを示します。さらに、DeepSeekMoE 2Bは、総パラメータ数が同じ密なモデルの性能にほぼ近づき、これはMoEモデルの上限を設定します。その後、DeepSeekMoEを16Bパラメータにスケールアップし、計算量が約40%しかないにもかかわらず、LLaMA2 7Bと同等の性能を達成することを示します。さらに、DeepSeekMoEを145Bパラメータにスケールアップする我々の予備的な取り組みは、GShardアーキテクチャに対するその大きな優位性を一貫して検証し、計算量が28.5%(場合によっては18.2%)しか使用されないにもかかわらず、DeepSeek 67Bと同等の性能を示します。
コンテンツクリエイターは、従来のテキストから画像へのモデルの能力を超えた、個人の被写体を用いたパーソナライズされた画像の作成を目指すことが多い。さらに、生成された画像が特定の場所、スタイル、雰囲気などを包含することを望む場合もある。既存のパーソナライゼーション手法では、パーソナライゼーション能力や複雑なテキストプロンプトとの整合性が損なわれる可能性がある。このトレードオフは、ユーザープロンプトの実現や被写体の忠実度を妨げる要因となり得る。我々は、この問題に対処するため、単一のプロンプトに焦点を当てた新しいパーソナライゼーション手法を提案する。我々はこのアプローチを「プロンプト整合型パーソナライゼーション」と呼ぶ。これは制限的に見えるかもしれないが、我々の手法はテキストの整合性を向上させることに優れており、現在の技術では難しい複雑で入り組んだプロンプトを用いた画像の作成を可能にする。特に、我々の手法は、追加のスコア蒸留サンプリング項を用いて、パーソナライズされたモデルをターゲットプロンプトと整合させたままにする。我々は、マルチショットおよびシングルショット設定における手法の汎用性を示し、さらに、複数の被写体を組み合わせたり、芸術作品などの参照画像からインスピレーションを得たりできることを示す。我々のアプローチを、既存のベースラインや最先端技術と定量的・定性的に比較する。
人間のフィードバックによる強化学習(RLHF)は、言語モデルを人間の価値観や意図に整合させるための重要な技術となり、モデルがより有用で無害な応答を生成することを可能にしています。報酬モデルは、人間の選好を代理するものとして訓練され、強化学習の最適化を推進します。報酬モデルは高い性能を達成するために中心的な役割を果たすとされていますが、実際の応用においては以下の課題に直面しています:(1)データセット内の誤った曖昧な選好ペアが、報酬モデルが人間の意図を正確に捉えることを妨げる可能性があります。(2)特定の分布に基づくデータで訓練された報酬モデルは、その分布外の例に一般化するのが難しく、反復的なRLHF訓練には適していません。 本報告書では、これらの2つの課題に対処することを試みます。(1)データの観点から、複数の報酬モデルの投票メカニズムに基づいて、データ内の選好の強さを測定する方法を提案します。実験結果は、選好の強さが異なるデータが報酬モデルの性能に異なる影響を与えることを確認しています。データセット内の誤った曖昧な選好の影響を軽減し、高品質な選好データを最大限に活用するための一連の新しい方法を導入します。(2)アルゴリズムの観点から、選ばれた応答と拒否された応答を区別する報酬モデルの能力を強化するために、コントラスティブ学習を導入し、モデルの一般化を改善します。さらに、メタ学習を採用して、報酬モデルが分布外サンプルにおける微妙な違いを区別する能力を維持できるようにし、このアプローチを反復的なRLHF最適化に利用します。
ポイントベースのラジアンスフィールドレンダリングは、新規視点合成において印象的な結果を示し、レンダリング品質と計算効率の魅力的な融合を提供しています。しかし、この分野の最新のアプローチにも欠点はあります。3Dガウシアンスプラッティング[Kerbl and Kopanas et al. 2023]は、高度に詳細なシーンのレンダリングにおいて、ぼやけや雲状のアーティファクトが生じるため苦戦しています。一方、ADOP[Rückert et al. 2022]はより鮮明な画像を生成できますが、ニューラル再構築ネットワークが性能を低下させ、時間的な不安定性に悩まされ、ポイントクラウドの大きなギャップを効果的に解決できません。 本論文では、ガウシアンスプラッティングとADOPの両方のアイデアを組み合わせたアプローチであるTRIPS(Trilinear Point Splatting)を提案します。私たちの新しい技術の基本的な概念は、ポイントをスクリーンスペースの画像ピラミッドにラスタライズし、投影されたポイントサイズによってピラミッドレイヤーを選択することです。このアプローチにより、単一のトリリニア書き込みを使用して任意に大きなポイントをレンダリングできます。その後、軽量なニューラルネットワークを使用して、スプラット解像度を超えた詳細を含む穴のない画像を再構築します。重要なことに、私たちのレンダリングパイプラインは完全に微分可能であり、ポイントサイズと位置の自動最適化を可能にします。 評価の結果、TRIPSは既存の最先端の手法を凌駕するレンダリング品質を実現し、一般的に入手可能なハードウェア上で60フレーム/秒のリアルタイムフレームレートを維持します。この性能は、複雑なジオメトリ、広大な風景、自動露出された映像を含む挑戦的なシナリオにも及びます。
最近の研究では、品質報酬を用いた強化学習(RL)がテキストから画像(T2I)生成における生成画像の品質を向上させることが示されています。しかし、複数の報酬を単純に集約すると、特定の指標で過剰最適化が発生し、他の指標で劣化が生じる可能性があり、最適な重みを手動で見つけることは困難です。T2I生成における複数の報酬を共同で最適化する効果的な戦略が強く求められています。本論文では、T2I生成のための新しい多報酬RLフレームワークであるParrotを紹介します。Parrotは、バッチ単位のパレート最適選択を用いることで、T2I生成のRL最適化中に異なる報酬間の最適なトレードオフを自動的に特定します。さらに、ParrotはT2Iモデルとプロンプト拡張ネットワークの共同最適化アプローチを採用し、品質を意識したテキストプロンプトの生成を促進し、最終的な画像品質をさらに向上させます。プロンプト拡張による元のユーザープロンプトの破滅的な忘却を防ぐために、推論時に元のプロンプトを中心としたガイダンスを導入し、生成された画像がユーザー入力に忠実であることを保証します。広範な実験とユーザー調査により、Parrotが美的感覚、人間の好み、画像感情、テキストと画像の整合性など、さまざまな品質基準において複数のベースラインメソッドを上回ることが実証されています。
大規模言語モデル(LLM)の隠れ表現にエンコードされた情報を調査することで、モデルの挙動を説明し、人間の価値観との整合性を検証することが可能です。LLMが人間が理解可能なテキストを生成する能力を考慮し、モデル自体を活用してその内部表現を自然言語で説明することを提案します。本論文では、Patchscopesと呼ばれるフレームワークを紹介し、LLMの計算に関する幅広い研究課題に答えるためにどのように使用できるかを示します。従来の解釈可能性手法が、表現を語彙空間に投影し、LLMの計算に介入することを基にしていることを示し、それらがこのフレームワークの特殊なインスタンスと見なせることを示します。さらに、初期層の調査に失敗したり、表現力が不足したりするといった従来手法の欠点は、Patchscopeによって緩和できることを示します。従来の調査技術を統合するだけでなく、Patchscopesは、より能力の高いモデルを使用して小さなモデルの表現を説明するといった新たな可能性を開き、マルチホップ推論における自己修正といった新たな応用を可能にします。
ウェブ上の膨大なデータコーパスで訓練された大規模言語モデルは、機密性の高いデータやプライベートなデータを記憶し再現する可能性があり、法的・倫理的な懸念を引き起こします。アンラーニング、つまりモデルを調整して訓練データに含まれる情報を忘れさせることは、訓練後にプライベートデータを保護する方法を提供します。このようなアンラーニングのためのいくつかの手法が存在しますが、それらがどの程度、忘れるべきデータを最初から学習しなかったモデルと同等の結果をもたらすかは不明です。この課題に対処するため、私たちはTOFU(Task of Fictitious Unlearning)を提案します。これは、アンラーニングの理解を深めるためのベンチマークです。200の多様な合成著者プロファイルからなるデータセットを提供し、各プロファイルは20の質問応答ペアで構成されています。また、これらのプロファイルの一部を「忘れるべきセット」として指定し、アンラーニングの対象とします。アンラーニングの効果を包括的に評価するための一連の指標をまとめ、既存のアンラーニングアルゴリズムによるベースライン結果を提供します。重要なことに、私たちが検討したベースラインのいずれも効果的なアンラーニングを示さず、忘れるべきデータを全く訓練されていないかのようにモデルが振る舞うよう効果的に調整するアンラーニング手法の開発に向けた継続的な努力の必要性が示唆されています。
医療の核心には医師と患者の対話があり、熟練した病歴聴取が正確な診断、効果的な治療、そして持続的な信頼関係への道を開きます。診断対話が可能な人工知能(AI)システムは、医療へのアクセス性、一貫性、そして質の向上をもたらす可能性があります。しかし、臨床医の専門性を近似することは未解決の大きな課題です。本論文では、診断対話に最適化された大規模言語モデル(LLM)ベースのAIシステム、AMIE(Articulate Medical Intelligence Explorer)を紹介します。 AMIEは、多様な疾患状態、専門分野、状況にわたる学習を拡張するための自動フィードバックメカニズムを備えた、新規の自己対戦型シミュレーション環境を使用しています。我々は、病歴聴取、診断精度、治療計画の推論、コミュニケーションスキル、共感力など、臨床的に意味のあるパフォーマンス軸を評価するためのフレームワークを設計しました。AMIEのパフォーマンスを、カナダ、英国、インドの臨床提供者から得た149の症例シナリオ、20人のプライマリケア医(PCPs)、そして専門医と患者役による評価を用いて、ランダム化二重盲検クロスオーバー研究で比較しました。この研究は、Objective Structured Clinical Examination(OSCE)のスタイルで、検証済みの患者役とのテキストベースの相談を基に行われました。 専門医による評価では、AMIEは32の評価軸のうち28で、患者役による評価では26のうち24で優れたパフォーマンスを示しました。本研究にはいくつかの限界があり、適切な注意を払って解釈する必要があります。臨床医は、大規模なLLMと患者の相互作用を可能にするが、通常の臨床実践を代表しない、不慣れな同期テキストチャットに限定されていました。AMIEが実世界の設定に適用されるためにはさらなる研究が必要ですが、この結果は会話型診断AIに向けたマイルストーンを示しています。
マルチモーダル大規模言語モデルは、様々なモダリティにおける多岐にわたるタスクで印象的な性能を発揮してきました。しかし、既存のマルチモーダルモデルは主に各モダリティ内のグローバル情報の捕捉に重点を置いており、モダリティ間のローカル情報の知覚の重要性を軽視しています。その結果、これらのモデルは入力データの細部を効果的に理解する能力に欠けており、より微妙な理解を必要とするタスクでの性能が制限されています。この制限に対処するため、複数のモダリティにわたる細粒度の理解を可能にするモデルの開発が強く求められています。これにより、幅広いタスクへの適用性が向上します。本論文では、言語を強化したマルチモーダルグラウンディングモデルであるLEGOを提案します。他のマルチモーダルモデルと同様にグローバル情報を捕捉するだけでなく、提案モデルは入力内のローカル情報の詳細な理解を要求するタスクに優れています。画像内の特定の領域やビデオ内の特定の瞬間を正確に識別し、位置特定することができます。この目的を達成するために、多様なデータセット構築パイプラインを設計し、モデルトレーニング用のマルチモーダルでマルチグラニュラリティのデータセットを作成しました。モデルのコード、データセット、デモはhttps://github.com/lzw-lzw/LEGOで公開しています。
拡散モデルに基づく動画編集は、テキスト編集プロンプトに従って、与えられた動画入力のグローバルなスタイル、ローカルな構造、属性を変換する際に、印象的な品質を達成しています。しかし、そのような手法は通常、時間的に一貫したフレームを生成するために、拡散逆変換やクロスフレームアテンションの形で、重いメモリと計算コストを伴います。本論文では、このような非効率性を分析し、品質を維持しながら大幅な高速化を可能にする、シンプルかつ効果的な修正を提案します。さらに、知覚品質にとってより重要であるとされる前景編集領域に計算リソースを集中させることで、さらなるレイテンシ削減を図る「Object-Centric Diffusion」(OCD)を導入します。これを実現するために、2つの新しい提案を行います:i) Object-Centric Sampling(オブジェクト中心サンプリング)では、注目領域と背景の拡散ステップを分離し、モデル容量の大部分を前者に割り当てます。ii) Object-Centric 3D Token Merging(オブジェクト中心3Dトークン結合)では、重要でない背景領域の冗長なトークンを融合することで、クロスフレームアテンションのコストを削減します。どちらの技術も、再学習なしで既存の動画編集モデルに適用可能であり、メモリと計算コストを劇的に削減できます。提案手法を逆変換ベースおよび制御信号ベースの編集パイプラインで評価し、同等の合成品質を維持しながら最大10倍のレイテンシ削減を実現することを示します。
動的な新規視点合成は、ビデオ内の視覚的コンテンツの時間的変化を捉えることを目的としています。既存の手法では、特にカメラポーズが未知であるか、物体の動きに比べて制約されているシナリオにおいて、動きと構造を区別することが困難です。さらに、参照画像からの情報のみでは、与えられたビデオで隠蔽されているか部分的に観察されている未見の領域を推測することは極めて困難です。これらの課題に対処するため、まず事前学習済みのRGB-D拡散モデルをカスタマイズ技術を用いてビデオフレームに微調整します。その後、微調整されたモデルから、動的および静的なNeural Radiance Fields(NeRF)コンポーネントを含む4D表現へと知識を蒸留します。提案されたパイプラインは、シーンの同一性を保ちながら幾何学的な一貫性を実現します。提案手法の有効性を定性的および定量的に評価するために徹底的な実験を行います。結果は、挑戦的なケースにおいても提案手法の堅牢性と有用性を示し、動的な新規視点合成をさらに進展させます。
ウェブ上のコンテンツは、しばしば多数の言語に翻訳されていることがわかります。これらの多言語間翻訳の低品質さは、機械翻訳(MT)によって作成された可能性が高いことを示唆しています。多言語並列の機械生成コンテンツは、リソースの少ない言語における翻訳を支配しているだけでなく、それらの言語におけるウェブコンテンツ全体の大部分を占めています。また、多数の言語に翻訳されるコンテンツの種類には選択バイアスがある証拠も見つかりました。これは、低品質の英語コンテンツがMTを介して大量にリソースの少ない言語に翻訳されていることと一致しています。私たちの研究は、ウェブからスクレイピングされた単一言語および二言語データを用いて多言語大規模言語モデルなどのモデルを訓練することに対する重大な懸念を提起しています。
本論文では、大規模言語モデル(LLM)における機械翻訳(MT)の2つの課題に対処するため、対照的アライメント指示(AlignInstruct)を紹介する。1つ目の課題は、未対応言語への対応範囲の拡大であり、2つ目の課題は低リソース言語におけるデータ不足である。MT指示(MTInstruct)によるモデルのファインチューニングは、1つ目の課題に対する直接的なアプローチである。しかし、MTInstructは2つ目の課題に内在する弱い言語間シグナルによって制限される。AlignInstructは、統計的単語アライメントを用いて構築された言語間識別器を通じて、言語間の監督を強調する。BLOOMZモデル(1b1、3b、7b1)を最大24の未対応言語でファインチューニングした結果、以下のことが明らかになった:(1)LLMはMTInstructを使用して未対応言語を効果的に翻訳できる;(2)AlignInstructは、英語を含む48の翻訳方向において翻訳品質の一貫した向上をもたらした;(3)識別器ベースの指示は、生成ベースの指示よりも言語間指示として優れていた;(4)AlignInstructは30のゼロショット方向において性能を向上させた。