翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)を下流タスクに適応させるためには、効率的なファインチューニングが不可欠です。しかし、異なるモデルに対してこれらの手法を実装するには多大な労力が必要です。本論文では、最先端の効率的なトレーニング手法を統合した統一フレームワーク「LlamaFactory」を提案します。このフレームワークは、組み込みのWeb UI「LlamaBoard」を通じて、100以上のLLMのファインチューニングをコーディングなしで柔軟にカスタマイズすることを可能にします。我々は、言語モデリングとテキスト生成タスクにおいて、本フレームワークの効率性と有効性を実証的に検証しました。本フレームワークはhttps://github.com/hiyouga/LLaMA-Factoryで公開されており、すでに13,000以上のスターと1,600以上のフォークを獲得しています。
Soraは、社会全体で大きな注目を集めた初の大規模汎用ビデオ生成モデルである。2024年2月にOpenAIによって発表されて以来、Soraの性能や幅広いビデオ生成タスクをサポートする能力に匹敵するビデオ生成モデルは存在しない。さらに、完全に公開されているビデオ生成モデルはごく少数であり、そのほとんどがクローズドソースである。このギャップを埋めるため、本論文では、Soraが示した汎用ビデオ生成を再現するために、複数の先進的な視覚AIエージェントを組み込んだ新しいマルチエージェントフレームワークMoraを提案する。特に、Moraは複数の視覚エージェントを活用し、(1)テキストからビデオを生成、(2)テキスト条件付き画像からビデオを生成、(3)生成されたビデオを拡張、(4)ビデオからビデオを編集、(5)ビデオを接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、Soraのビデオ生成能力を模倣することに成功している。我々の広範な実験結果は、Moraが様々なタスクにおいてSoraに近い性能を達成することを示している。しかし、全体的に評価すると、我々の研究とSoraの間には明らかな性能差が存在する。要約すると、我々はこのプロジェクトが、協調的なAIエージェントを通じてビデオ生成の将来の方向性を導くことを期待している。
我々は、進化的アルゴリズムを活用して強力な基盤モデルの作成を自動化する新たなアプリケーションを提案する。モデルマージは、そのコスト効率の良さからLLM開発において有望なアプローチとして注目されているが、現状では人間の直感とドメイン知識に依存しており、その潜在能力が制限されている。本論文では、この制約を克服する進化的アプローチを提案する。このアプローチでは、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、大規模な追加学習データや計算資源を必要とせずに、それらの集合知を活用する。我々のアプローチはパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重みだけでなく、それ以上の最適化を可能にする。このアプローチは、数学的推論能力を備えた日本語LLMのような、クロスドメインのモデルマージも可能にする。驚くべきことに、我々の日本語数学LLMは、そのようなタスクを明示的に学習していないにもかかわらず、様々な確立された日本語LLMベンチマークにおいて最先端の性能を達成し、パラメータ数が大幅に多いモデルを凌駕した。さらに、我々のアプローチを通じて生成された文化的に意識した日本語VLMは、日本文化固有のコンテンツを記述する際の有効性を示し、従来の日本語VLMを上回る性能を発揮した。本研究は、オープンソースコミュニティに新たな最先端モデルを提供するだけでなく、自動化されたモデル構成の新たなパラダイムを導入し、基盤モデル開発のための効率的な代替アプローチを探求する道を切り開くものである。
SceneScriptを紹介します。これは、自己回帰型のトークンベースアプローチを用いて、完全なシーンモデルを構造化された言語コマンドのシーケンスとして直接生成する手法です。提案するシーン表現は、トランスフォーマーや大規模言語モデル(LLM)の最近の成功に着想を得ており、メッシュ、ボクセルグリッド、ポイントクラウド、放射輝度場など、より伝統的な方法でシーンを記述する手法から離れています。本手法では、シーン言語エンコーダーデコーダーアーキテクチャを使用して、符号化された視覚データから直接構造化言語コマンドのセットを推論します。SceneScriptを訓練するために、10万の高品質な屋内シーンからなる大規模な合成データセット「Aria Synthetic Environments」を生成・公開しました。このデータセットには、フォトリアルなエゴセントリックシーンウォークスルーのグラウンドトゥルースアノテーション付きレンダリングが含まれています。本手法は、建築レイアウト推定において最先端の結果を示し、3D物体検出においても競争力のある結果を達成します。最後に、SceneScriptの利点として、構造化言語への簡単な追加によって新しいコマンドに容易に適応できる能力を探り、粗い3Dオブジェクトパーツ再構成などのタスクでその例を示します。
視覚モデルのサイズをスケールアップすることは、より強力な視覚表現を得るための事実上の標準となってきました。本研究では、より大きな視覚モデルが必要とされるポイントを超えた点について議論します。まず、事前学習済みで凍結された小さな視覚モデル(例:ViT-BやViT-L)を複数の画像スケールで実行するScaling on Scales(S^2)の力を示し、分類、セグメンテーション、深度推定、マルチモーダルLLM(MLLM)ベンチマーク、およびロボット操作において、より大きなモデル(例:ViT-HやViT-G)を凌駕できることを実証します。特に、S^2はV*ベンチマークにおけるMLLMの詳細理解において、GPT-4Vなどのモデルを上回る最先端の性能を達成します。我々は、S^2がモデルサイズのスケーリングに比べて好ましいアプローチとなる条件を検証します。より大きなモデルは難しい例に対する汎化性能が優れているという利点がありますが、より大きな視覚モデルの特徴は、マルチスケールの小さなモデルによって十分に近似できることを示します。これは、現在の大規模事前学習モデルによって学習された表現のほとんど、あるいはすべてが、マルチスケールの小さなモデルからも得られることを示唆しています。我々の結果は、マルチスケールの小さなモデルがより大きなモデルと同等の学習能力を持ち、S^2を用いて小さなモデルを事前学習することで、より大きなモデルの利点に匹敵し、あるいはそれを上回ることができることを示しています。我々は、任意の視覚モデルにS^2を1行のコードで適用できるPythonパッケージを公開しました: https://github.com/bfshi/scaling_on_scales。
安定拡散モデルを活用したパーソナライズドポートレート生成は、ユーザーが特定のプロンプトに基づいて高精細でカスタマイズされたキャラクターアバターを作成するための強力かつ注目すべきツールとして登場している。しかし、既存のパーソナライゼーション手法は、テスト時の微調整、複数の入力画像の必要性、アイデンティティの低い保存率、生成結果の多様性の限界といった課題に直面している。これらの課題を克服するため、我々はIDAdapterを提案する。これは、単一の顔画像からパーソナライズされた画像生成において、多様性とアイデンティティの保存を向上させるチューニング不要のアプローチである。IDAdapterは、テキストと視覚的な注入、および顔のアイデンティティ損失を組み合わせることで、生成プロセスにパーソナライズされた概念を統合する。トレーニングフェーズでは、特定のアイデンティティの複数の参照画像から混合された特徴を取り入れ、アイデンティティに関連するコンテンツの詳細を豊かにし、モデルが以前の研究と比較してより多様なスタイル、表情、角度を持つ画像を生成するよう導く。広範な評価により、我々の手法が生成画像において多様性とアイデンティティの忠実度の両方を達成する有効性が実証された。
報酬モデル(RMs)は、事前学習済みモデルを人間の好みに合わせるためのRLHF(人間によるフィードバックを用いた強化学習)の成功において重要な役割を果たしていますが、これらの報酬モデルの評価に焦点を当てた研究は比較的少ないのが現状です。報酬モデルの評価は、言語モデルのアラインメントに使用される不透明な技術や、それらに埋め込まれた価値観を理解する機会を提供します。これまで、能力の記述、トレーニング方法、またはオープンソースの報酬モデルに関する情報はほとんど存在していません。本論文では、報酬モデルの科学的理解を深めるためのベンチマークデータセットとコードベースであるRewardBenchを紹介します。RewardBenchデータセットは、チャット、推論、安全性にわたるプロンプト-勝利-敗北のトリオを集めたもので、報酬モデルが挑戦的で構造化された、分布外のクエリに対してどのように機能するかをベンチマークします。私たちは、微妙ではあるが検証可能な理由(例:バグ、誤った事実)で一方の回答が他方よりも好まれるべきである特定の比較データセットを報酬モデル用に作成しました。RewardBenchリーダーボードでは、分類器の直接的なMLE(最尤推定)トレーニングやDirect Preference Optimization(DPO)の暗黙的な報酬モデリングなど、さまざまな方法でトレーニングされた報酬モデルを、多様なデータセットで評価します。私たちは、拒否の傾向、推論の限界、指示追従の欠点など、さまざまな報酬モデルの特性について多くの知見を提示し、RLHFプロセスのより良い理解に向けて貢献します。
最近の進展によると、マルチモーダル大規模言語モデル(MLLM)のスケールアップは、下流のマルチモーダルタスクにおける性能を効果的に向上させることが示されています。現在主流のMLLMパラダイム、例えばLLaVAは、静的な視覚-言語マッパーを使用して視覚的特徴をテキストのようなトークンに変換し、それによって静的なLLMが視覚情報を理解する能力を視覚的指示チューニングを通じて開発できるようにします。有望ではあるものの、静的なチューニング戦略(静的なパラメータを持つ訓練済みモデルを指す)は、異なる下流のマルチモーダルタスク間での性能を制約する可能性があります。これを踏まえて、我々はHyperLLaVAを導入します。これは、プロジェクターとLLMのパラメータを適応的にチューニングし、それぞれ動的な視覚エキスパートと言語エキスパートと組み合わせるものです。これらのエキスパートは、視覚と言語のガイダンスを通じて適応的なパラメータシフトを生成するHyperNetworksから派生しており、二段階の訓練において動的なプロジェクターとLLMのモデリングを可能にします。 我々の実験は、我々のソリューションがMME、MMBench、SEED-Bench、LLaVA-Benchを含む既存のMLLMベンチマークにおいてLLaVAを大幅に上回ることを示しています。我々のプロジェクトは以下のリンクで利用可能です:https://github.com/DCDmllm/HyperLLaVA。
最近のビュー合成とリアルタイムレンダリングの進展により、驚異的なレンダリング速度でフォトリアルな品質が実現されています。ラディアンスフィールドベースの手法は、野外キャプチャや大規模シーンといった困難なシナリオにおいて最先端の品質を達成しますが、体積レンダリングに伴う過度な計算負荷に悩まされることが多いです。一方、ガウススプラッティングベースの手法はラスタライゼーションに依存し、自然にリアルタイムレンダリングを実現しますが、より困難なシーンでは最適化ヒューリスティックが脆弱で性能が低下する傾向があります。本研究では、複雑なシーンの堅牢なリアルタイムレンダリングを実現する軽量な手法であるRadSplatを提案します。主な貢献は3つあります。第一に、ラディアンスフィールドを事前情報および教師信号として活用し、ポイントベースのシーン表現の最適化を行うことで、品質の向上とより堅牢な最適化を実現します。次に、高品質を維持しながら総ポイント数を削減する新規のプルーニング技術を開発し、より小さくコンパクトなシーン表現と高速な推論速度を実現します。最後に、レンダリングをさらに加速し、家サイズの大規模シーンへのスケーリングを可能にする新規のテスト時フィルタリング手法を提案します。本手法により、900FPS以上の速度で複雑なキャプチャの最先端合成が可能になることを確認しました。
拡散モデルは長らく、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な計算複雑性の問題に悩まされてきた。本研究では、State-Space Modelの一種であるMambaの長いシーケンスモデリング能力を活用し、視覚データ生成への適用性を拡張することを目指す。まず、現在のMambaベースの視覚手法の多くに見られる重大な見落とし、すなわちMambaのスキャンスキームにおける空間的連続性の考慮不足を指摘する。次に、この洞察に基づいて、シンプルでプラグアンドプレイ、パラメータ不要の手法であるZigzag Mambaを提案し、Mambaベースのベースラインを上回る性能を示し、トランスフォーマーベースのベースラインと比較して速度とメモリ使用効率の向上を実証する。最後に、Zigzag MambaをStochastic Interpolantフレームワークと統合し、FacesHQ 1024×1024やUCF101、MultiModal-CelebA-HQ、MS COCO 256×256などの大解像度視覚データセットにおけるモデルのスケーラビリティを調査する。コードはhttps://taohu.me/zigma/で公開予定である。
単眼深度推定は、多くの下流の視覚タスクやアプリケーションにおいて重要です。この問題に対する現在の識別的なアプローチは、ぼやけたアーティファクトのため制限されています。一方、最先端の生成的手法は、そのSDE(確率微分方程式)の性質によりサンプリングが遅いという課題を抱えています。ノイズから始めるのではなく、我々は入力画像から深度マップへの直接的なマッピングを追求します。これは、解空間を通る直線的な軌跡が効率性と高品質を提供するため、フローマッチングを用いて効果的に定式化できることを観察しました。本研究では、事前学習済みの画像拡散モデルがフローマッチング深度モデルの適切な事前分布として機能し、合成データのみで効率的に学習することで実画像に一般化できることを示します。さらに、補助的な表面法線損失が深度推定をさらに改善することがわかりました。我々のアプローチの生成的な性質により、モデルは深度推定の信頼度を確実に予測します。複雑な自然シーンの標準ベンチマークにおいて、我々の軽量なアプローチは、わずかな合成データで学習されたにもかかわらず、有利な低計算コストで最先端の性能を示します。
粗編集された画像を入力として、指定されたレイアウトに従ったフォトリアルな出力を合成する生成モデルを提案します。本手法は、元画像から細部を転写し、その部分の同一性を保持します。しかしながら、新しいレイアウトで定義された照明やコンテキストに適応させます。本手法の重要な洞察は、ビデオがこのタスクにとって強力な教師信号源であるということです。物体やカメラの動きは、視点、照明、物理的相互作用によって世界がどのように変化するかを多くの観測データとして提供します。我々は、各サンプルが同じビデオからランダムな時間間隔で抽出されたソースフレームとターゲットフレームのペアで構成される画像データセットを構築します。テスト時のユーザー編集を模倣する2つのモーションモデルを使用して、ソースフレームをターゲットに向かってワープさせます。事前学習済みの拡散モデルを出発点として、ワープされた画像をグラウンドトゥルースに変換するようにモデルを教師します。本モデルの設計は、ユーザー指定のレイアウトに忠実に従いながら、ソースフレームから生成画像への細部の転送を明示的に可能にします。単純なセグメンテーションと粗い2D操作を使用することで、ユーザーの入力に忠実なフォトリアルな編集を合成しつつ、照明の調和や編集されたオブジェクト間の物理的相互作用といった二次的な効果に対処できることを示します。
大規模言語モデル(LLM)には驚くべき欠陥が存在します。「Aは特徴Bを持つ」というデータで学習させた場合、それらは「BはAの特徴である」という逆の表現に一般化できないのです。これは「反転の呪い(Reversal Curse)」と呼ばれています。たとえ数兆トークンのデータで学習させたとしても、ジップの法則によりこの問題は依然として発生します。つまり、インターネット全体を学習データとして使用した場合でも同様です。本研究では、代替的な学習手法として「逆方向学習(reverse training)」を提案します。この手法では、すべての単語を2回使用することで、利用可能なトークン量を倍増させます。LLMは、エンティティなどの特定の部分文字列を保持(つまり反転させず)したまま、学習文字列を反転させることで、順方向と逆方向の両方で学習されます。我々は、データ量を一致させた逆方向学習モデルが標準タスクにおいて標準モデルよりも優れた性能を示すこと、そして計算量を一致させた逆方向学習モデルが反転タスクにおいてはるかに優れた性能を示し、反転の呪いの問題を解決することを実証しました。
ビデオアウトペインティングは、入力ビデオのビューポート外のコンテンツを生成しつつ、フレーム間およびフレーム内の一貫性を維持することを目指す挑戦的なタスクです。既存の手法は、生成品質または柔軟性のいずれかにおいて不十分です。本論文では、MOTIA(Mastering Video Outpainting Through Input-Specific Adaptation)を紹介します。これは、拡散モデルに基づくパイプラインであり、ソースビデオの固有のデータ固有パターンと画像/ビデオ生成の事前知識を活用して効果的なアウトペインティングを実現します。MOTIAは、入力固有の適応とパターン認識型アウトペインティングの2つの主要なフェーズで構成されています。入力固有の適応フェーズでは、シングルショットのソースビデオに対して効率的かつ効果的な疑似アウトペインティング学習を行います。このプロセスにより、モデルはソースビデオ内のパターンを識別し学習するとともに、標準的な生成プロセスとアウトペインティングの間のギャップを埋めます。続くパターン認識型アウトペインティングフェーズでは、これらの学習済みパターンを一般化してアウトペインティング結果を生成します。さらに、拡散モデルの生成事前知識とソースビデオから取得したビデオパターンをより効果的に活用するために、空間認識型挿入やノイズトラベルなどの追加戦略を提案します。広く認知されたベンチマークにおいて、MOTIAは既存の最先端手法を上回る優位性を示し、その評価結果が裏付けられています。特に、これらの進展は、大規模なタスク固有のチューニングを必要とせずに達成されています。
テキストからビデオ(T2V)合成の分野における大きな進展にもかかわらず、オープンソースのT2V拡散モデルは、動的に変化し進化するコンテンツを含む長いビデオを生成するのに苦戦しています。これらのモデルは、テキストプロンプトに含まれる時間経過に伴う視覚的変化を無視し、準静的なビデオを合成する傾向があります。同時に、より長くダイナミックなビデオ合成を可能にするためにこれらのモデルをスケーリングすることは、しばしば計算上不可能です。この課題に対処するため、我々は「Generative Temporal Nursing(GTN)」という概念を導入し、推論中に生成プロセスを動的に変更することで、時間的ダイナミクスに対する制御を改善し、より長いビデオの生成を可能にします。我々はGTNの手法として「VSTAR」を提案し、これには2つの主要な要素が含まれます:1) Video Synopsis Prompting(VSP)—元の単一プロンプトを基にLLMを活用してビデオのシノプシスを自動生成し、長いビデオの異なる視覚的状態に対する正確なテキストガイダンスを提供する、2) Temporal Attention Regularization(TAR)—事前学習済みのT2V拡散モデルの時間的注意ユニットを洗練する正則化技術で、ビデオのダイナミクスを制御可能にします。我々は実験的に、提案手法が既存のオープンソースT2Vモデルよりも長く視覚的に魅力的なビデオを生成する優位性を示します。さらに、VSTARの適用前後の時間的注意マップを分析し、望ましい視覚的変化の無視を軽減するために本手法を適用することの重要性を実証します。
言語モデル(LM)は多様な領域に大きな影響を与えてきた。しかし、3D分子構造を理解するという本質的な制約により、生体分子領域での可能性が大きく制限されてきた。このギャップを埋めるため、我々は3D分子-テキスト解釈に焦点を当て、3D-MoLM: 3D-Molecular Language Modelingを提案する。具体的には、3D-MoLMはLMに3D分子エンコーダを組み込むことで、LMが3D分子を解釈・分析できるようにする。この統合は、3D分子エンコーダの表現空間とLMの入力空間を橋渡しする3D分子-テキストプロジェクタによって実現される。さらに、3D-MoLMのクロスモーダル分子理解能力と指示追従能力を強化するため、3D分子中心の指示チューニングデータセット「3D-MoIT」を慎重に作成した。3D分子-テキストアラインメントと3D分子中心の指示チューニングを通じて、3D-MoLMは3D分子エンコーダとLMの統合を確立する。これにより、分子-テキスト検索、分子キャプショニング、そして特に3D依存特性に焦点を当てたより挑戦的なオープンテキスト分子QAタスクなど、下流タスクにおいて既存のベースラインを大幅に上回る性能を発揮する。
3D生成技術は大きな進歩を遂げてきたものの、単一画像から高品質な3Dアセットを効率的に生成することは依然として課題となっている。本論文では、3Dモデルをコンパクトなトライプレーン潜在空間にエンコードすることで、3Dジオメトリとテクスチャ情報の両方を効果的に圧縮するトライプレーンオートエンコーダを提案する。オートエンコーダのフレームワーク内では、3D-awareなクロスアテンションメカニズムを導入し、低解像度の潜在表現を用いて高解像度の3D特徴ボリュームから特徴をクエリすることで、潜在空間の表現能力を向上させる。その後、この洗練された潜在空間上で拡散モデルを学習する。画像埋め込みのみに依存する3D生成とは異なり、提案手法では画像埋め込みと形状埋め込みの両方を条件として同時に利用することを提唱する。具体的には、形状埋め込みは画像埋め込みを条件とした拡散事前モデルによって推定される。包括的な実験を通じて、提案手法が最先端のアルゴリズムを上回り、より少ない学習データと時間で優れた性能を達成することを示す。本アプローチにより、単一のA100 GPU上でわずか7秒で高品質な3Dアセットを生成することが可能となる。
新たなAIシステムがもたらすリスクを理解するためには、そのシステムが何をでき、何ができないかを理解する必要がある。先行研究を基盤として、我々は新たな「危険な能力」評価プログラムを導入し、Gemini 1.0モデルにおいてそのパイロット評価を実施した。我々の評価は以下の4つの領域をカバーしている:(1) 説得と欺瞞、(2) サイバーセキュリティ、(3) 自己増殖、(4) 自己推論。評価したモデルにおいて強い危険な能力の証拠は見つからなかったが、早期警告の兆候を指摘した。我々の目標は、将来のモデルに備えて、危険な能力評価の厳密な科学を進展させることに貢献することである。