翻訳付きの日次キュレーションされたAI研究論文
アライメント問題の複雑さは、既存の手法が不安定であるという事実に起因しています。研究者たちはこの欠点を解決するために、さまざまな工夫を継続的に考案しています。例えば、言語モデルのアライメントにおける基本的な手法である「人間のフィードバックからの強化学習(RLHF)」では、報酬の最大化に加えて、学習可能なポリシーとSFT(Supervised Fine-Tuning)ポリシー間のカルバック・ライブラー(KL)ダイバージェンスを最小化します。この追加により、モデルが報酬モデル(RM)に過剰適合し、RMのドメイン外のテキストを生成することを防ぎます。「直接選好最適化(DPO)」手法は、RLHFの最適化タスクを再定式化し、報酬モデルを排除しながら、ポリシーがSFTポリシーに近いという要件を暗黙的に維持します。本論文では、DPO手法におけるこの暗黙的な制限が最適でない結果をもたらすと主張します。我々は、トレーニング中に参照ポリシーを更新する新しい手法「Trust Region DPO(TR-DPO)」を提案します。このシンプルな更新により、TR-DPOがAnthropic HHおよびTLDRデータセットにおいてDPOを上回る有効性を実証します。GPT-4を用いた自動評価では、TR-DPOがDPOを最大19%上回ることを示します。我々が提案する新しいアライメント手法により、一貫性、正確性、詳細度、有用性、無害性など、複数のパラメータにわたってモデルの品質を同時に向上させることが可能となります。
Transformerの二次複雑度と弱い長さ外挿能力は、長いシーケンスへのスケーリングを制限しており、線形注意や状態空間モデルなどの準二次的な解決策が存在するものの、それらは事前学習効率と下流タスクの精度においてTransformerに劣ることが実証されています。本論文では、無制限のコンテキスト長を可能にする効率的なシーケンスモデリングのためのニューラルアーキテクチャ、Megalodonを紹介します。MegalodonはMega(指数移動平均とゲート付き注意)のアーキテクチャを継承し、複素指数移動平均(CEMA)、タイムステップ正規化層、正規化注意メカニズム、および2ホップ残差構成を持つ事前正規化など、その能力と安定性を向上させるための複数の技術的コンポーネントをさらに導入しています。Llama2との制御された直接比較において、Megalodonは70億パラメータと2兆トレーニングトークンのスケールでTransformerよりも優れた効率を達成します。Megalodonは1.70のトレーニング損失に到達し、Llama2-7B(1.75)と13B(1.67)の中間に位置します。コード: https://github.com/XuezheMax/megalodon
Transformerは深層学習に革命をもたらしましたが、その二次的な注意機構の計算複雑性が、無限に長い入力の処理能力を妨げています。本論文では、フィードバックループを活用してネットワークが自身の潜在表現に注意を向けられるようにする新しいTransformerアーキテクチャ、Feedback Attention Memory(FAM)を提案します。この設計により、Transformer内にワーキングメモリが自然に形成され、無限に長いシーケンスの処理が可能になります。TransformerFAMは追加の重みを必要としないため、事前学習済みモデルとのシームレスな統合が可能です。実験結果から、TransformerFAMが様々なモデルサイズ(1B、8B、24B)において、長文脈タスクでのTransformerの性能を大幅に向上させることが示されました。これらの結果は、大規模言語モデル(LLM)が無制限の長さのシーケンスを処理できる可能性を示しています。
高品質でインタラクティブな仮想環境(ゲームやシミュレーターなど)の作成には、複雑でコストのかかる手動のモデリングプロセスがしばしば必要とされます。本論文では、現実世界のシーンのビデオをリアルでインタラクティブなゲーム環境に自動的に変換する新しいアプローチであるVideo2Gameを紹介します。私たちのシステムの中核には、以下の3つの主要コンポーネントがあります:(i) シーンの幾何学と視覚的な外観を効果的に捉えるニューラルラジアンスフィールド(NeRF)モジュール、(ii) NeRFから知識を抽出して高速なレンダリングを実現するメッシュモジュール、(iii) オブジェクト間の相互作用と物理的なダイナミクスをモデル化する物理モジュールです。このように設計されたパイプラインに従うことで、現実世界のインタラクティブでアクション可能なデジタルレプリカを構築することができます。私たちは、室内シーンと大規模な屋外シーンの両方でシステムをベンチマークしました。その結果、リアルタイムで非常にリアルなレンダリングを生成できるだけでなく、その上にインタラクティブなゲームを構築できることを示しました。
優れた圧縮を学ぶことが知能につながるという考え方がある。最近、言語モデリングが圧縮と等価であることが示され、大規模言語モデル(LLM)の成功に説得力のある根拠を提供している。より高度な言語モデルの開発は、本質的に圧縮を向上させ、それが知能を促進するというものである。このような魅力的な議論がある一方で、圧縮と知能の相互作用に関する実証的な証拠はほとんど存在しない。本研究では、LLMをデータ圧縮器として扱い、その文脈における両者の関係を検証する。「知能」という抽象的な概念を扱うにあたり、知識や常識、コーディング、数学的推論に関連する知能を対象として、平均的な下流ベンチマークスコアを代理指標として採用する。12のベンチマークにわたって、多様な組織に由来する30の公開LLMを集めた研究において、LLMの知能(平均ベンチマークスコアで反映される)が外部テキストコーパスの圧縮能力とほぼ線形に相関していることが明らかになった。これらの結果は、優れた圧縮がより高い知能を示すという考えを支持する具体的な証拠を提供する。さらに、本研究の結果は、生のテキストコーパスから導出される教師なし指標としての圧縮効率が、モデルの能力と線形に関連する信頼性の高い評価尺度として機能することを示唆している。今後の研究者が適切に圧縮を評価できるよう、圧縮データセットとデータ収集パイプラインをオープンソースとして公開する。
ControlNetは、深度マップ、キャニーエッジ、人間のポーズなど、さまざまな条件を用いて画像生成に空間的制御を加えるために広く使用されています。しかし、事前学習済みの画像用ControlNetを制御された動画生成に活用する際にはいくつかの課題があります。第一に、事前学習済みのControlNetは、特徴空間の不一致により新しいバックボーンモデルに直接組み込むことができず、新しいバックボーンのためのControlNetの学習コストが大きな負担となります。第二に、異なるフレームに対するControlNetの特徴は、時間的な一貫性を効果的に扱えない可能性があります。これらの課題に対処するため、我々はCtrl-Adapterを提案します。これは、事前学習済みのControlNetを適応させ(動画の時間的整合性を向上させ)、任意の画像/動画拡散モデルに多様な制御を追加する効率的で汎用的なフレームワークです。Ctrl-Adapterは、画像制御、動画制御、スパースフレームを用いた動画制御、複数条件の制御、異なるバックボーンとの互換性、未見の制御条件への適応、動画編集といった多様な機能を提供します。Ctrl-Adapterでは、ControlNetと拡散モデルのパラメータを固定したまま、事前学習済みのControlNetの特徴を異なる画像/動画拡散モデルに融合するアダプタ層を学習します。Ctrl-Adapterは時間的モジュールと空間的モジュールで構成されており、動画の時間的整合性を効果的に扱うことができます。また、ロバストな適応とスパース制御のため、潜在スキップと逆タイムステップサンプリングを提案します。さらに、Ctrl-Adapterは、複数の条件からの制御を、ControlNetの出力の(重み付き)平均を取るだけで実現します。多様な画像/動画拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)を用いて、Ctrl-Adapterは画像制御においてControlNetと同等の性能を発揮し、動画制御においてはすべてのベースラインを上回り(DAVIS 2017データセットでSOTA精度を達成)、大幅に低い計算コスト(10 GPU時間未満)で実現します。
本研究では、約20万件の編集を含む高品質な指示ベースの画像編集データセット「HQ-Edit」を紹介します。従来の属性ガイダンスや人間のフィードバックに依存したデータセット構築手法とは異なり、GPT-4VやDALL-E 3といった先進的な基盤モデルを活用したスケーラブルなデータ収集パイプラインを考案しました。高品質を保証するため、まずオンラインで多様な例を収集し、それを拡張した後、詳細なテキストプロンプト付きの入力画像と出力画像を特徴とする高品質なディプティクを作成し、ポストプロセスを通じて正確な整合を確保しました。さらに、GPT-4Vを用いて画像編集ペアの品質を定量的に評価するための2つの評価指標「Alignment」と「Coherence」を提案しました。HQ-Editの高解像度画像は詳細に富み、包括的な編集プロンプトを伴うため、既存の画像編集モデルの能力を大幅に向上させます。例えば、HQ-EditでファインチューンされたInstructPix2Pixは、人間が注釈を付けたデータでファインチューンされたモデルを凌ぐ、最先端の画像編集性能を達成できます。プロジェクトページはhttps://thefllood.github.io/HQEdit_webです。
マルチモーダル大規模言語モデル(MLLM)の推論は、その大規模言語モデルバックボーンがメモリ帯域幅のボトルネックに悩まされ、かつトークンを自己回帰的に生成するため、遅いという課題があります。本論文では、LLaVA 7Bモデルを対象として、推論効率を向上させるためのSpeculative Decodingの応用を探ります。我々は、言語のみのモデルがLLaVA 7BのSpeculative Decodingにおいて良好なドラフトモデルとして機能し、画像トークンやそれに関連する処理コンポーネントをドラフトモデルから除外できることを示します。3つの異なるタスクでの実験により、我々がゼロから訓練した1億1500万パラメータの言語モデルを使用することで、最大2.37倍のメモリバウンドな高速化が達成できることを実証しました。さらに、画像アダプタを組み込んだコンパクトなLLaVAドラフトモデルを導入し、画像キャプショニングタスクではわずかな性能向上を示しつつ、他のタスクでも同等の結果を維持することを確認しました。
生成的多モーダルコンテンツは、多くのコンテンツ制作分野でますます普及しており、アーティストやメディア関係者がアイデアを迅速に形にし、制作前のモックアップを作成する可能性を秘めています。テキストプロンプトからの音声生成は、音楽や映画産業におけるこうしたプロセスの重要な側面です。最近の拡散モデルベースのテキストtoオーディオモデルの多くは、プロンプトとオーディオのペアからなる大規模なデータセットを用いて、ますます洗練された拡散モデルの訓練に焦点を当てています。これらのモデルは、出力オーディオにおける概念やイベントの存在、およびそれらの時間的順序が入力プロンプトとどのように関連しているかについて、明示的には注目していません。我々の仮説は、これらの音声生成の側面に焦点を当てることが、限られたデータの状況下での音声生成性能を向上させる可能性があるというものです。そこで本研究では、既存のテキストtoオーディオモデルTangoを用いて、各プロンプトに対して勝者となるオーディオ出力と敗者となるオーディオ出力を人工的に作成した選好データセットを構築しました。敗者となる出力は、理論的にはプロンプトの一部の概念が欠落していたり、順序が誤っていたりするものです。我々は、この選好データセットに対して拡散-DPO(直接選好最適化)損失を用いて公開されているTangoテキストtoオーディオモデルをファインチューニングし、自動評価指標と手動評価指標の両方において、TangoやAudioLDM2を上回る改善されたオーディオ出力が得られることを示しました。
マルチモーダル大規模言語モデル(MLLM)は、さまざまなマルチモーダルタスクで印象的な結果を示しています。しかし、既存のMLLMの多くは、細かな画像認識と情報圧縮を必要とするドキュメント指向のタスクには適していません。本論文では、MLLMの一般的な能力を維持しつつ、ドキュメント指向のタスクに特化して設計されたTextHawkを紹介します。TextHawkは、4つの専用コンポーネントを設計することで、効率的な細粒度認識を探求することを目的としています。まず、ドキュメントテキストの冗長性を削減し、MLLMの計算コストを低減するために、ReSampling and ReArrangement(ReSA)モジュールを提案します。さまざまな画像サイズのスケーラビリティを維持できるScalable Positional Embeddings(SPE)を提示することで、各ローカル特徴の位置をエンコードする方法を探ります。次に、Query Proposal Network(QPN)を採用し、異なるサブ画像間でクエリを動的に初期化します。さらに、MLLMの細粒度視覚認識能力を強化するために、ドキュメント画像の階層構造と意味的関係を捉えるMulti-Level Cross-Attention(MLCA)メカニズムを設計します。さらに、Gemini Proを使用してマルチモーダルドキュメントデータを充実させることで、ドキュメント指向タスクのための新しい命令チューニングデータセットを作成します。一般的なMLLMベンチマークとドキュメント指向のMLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法を上回り、細粒度ドキュメント認識と一般的な能力においてその有効性と優位性を示すことを実証します。
Neural Radiance Field (NeRF) は、多視点画像からの3D再構成のための表現手法です。最近の研究では、拡散モデルを事前分布として用いて再構成されたNeRFを編集することに一定の成功を収めていますが、完全に未観測の領域において合理的な形状を合成することには依然として苦戦しています。その主な理由の一つは、拡散モデルから生成される内容の多様性が高すぎるため、放射場が鮮明で決定論的な形状に収束するのを妨げていることです。さらに、実データに対して潜在拡散モデルを適用すると、オートエンコーディングの誤差により、画像条件と整合性のないテクスチャのシフトが生じることがよくあります。これらの問題は、ピクセル距離損失を使用することでさらに悪化します。これらの課題に対処するため、我々はシーンごとのカスタマイズによって拡散モデルの確率性を調整し、マスク付き敵対的学習によってテクスチャのシフトを軽減することを提案します。分析の過程で、NeRFのインペインティングタスクにおいて一般的に使用されるピクセル損失や知覚損失が有害であることも明らかになりました。厳密な実験を通じて、我々のフレームワークは様々な実世界のシーンにおいて最先端のNeRFインペインティング結果を達成しました。プロジェクトページ: https://hubert0527.github.io/MALD-NeRF
ガウススプラッティングは、その卓越したレンダリング品質と効率性で知られ、3Dシーン表現における主要な技術として台頭してきました。しかし、ガウススプラッティングの膨大なデータ量は、実世界での実用性を妨げています。本論文では、Compressed Gaussian Splatting(CompGS)と呼ばれる効率的な3Dシーン表現を提案します。これは、コンパクトなガウスプリミティブを活用して、データサイズを大幅に削減しながら忠実な3Dシーンモデリングを実現します。ガウスプリミティブのコンパクト性を確保するため、相互間の予測関係を捉えるハイブリッドプリミティブ構造を考案しました。さらに、少数のアンカープリミティブを予測に利用し、大多数のプリミティブを高度にコンパクトな残差形式に封じ込めることを可能にします。また、ビットレート消費と表現効率の最適なトレードオフに向けて、ハイブリッドプリミティブ内の冗長性を排除するレート制約付き最適化スキームを開発しました。実験結果は、提案するCompGSが既存の手法を大幅に上回り、モデルの精度やレンダリング品質を損なうことなく、3Dシーン表現の優れたコンパクト性を達成することを示しています。今後の研究のために、コードをGitHubで公開する予定です。