翻訳付きの日次キュレーションされたAI研究論文
現代のTransformerにおける高コストなセルフアテンションレイヤーは、シーケンス長に対して二次的なメモリと計算を必要とします。既存の近似手法は通常、性能が劣り、実際の高速化を実現できません。本論文では、SwitchHeadを提案します。これは、計算量とメモリ要件を削減し、実時間での高速化を達成しながら、同じパラメータ予算を持つベースラインTransformerの言語モデリング性能に匹敵する新しい手法です。SwitchHeadは、値と出力の射影にMixture-of-Experts(MoE)レイヤーを使用し、標準的なTransformerよりも4倍から8倍少ないアテンションマトリックスを必要とします。この新しいアテンションは、MoE MLPレイヤーと組み合わせることも可能で、効率的な完全MoE「SwitchAll」Transformerモデルを実現します。私たちのコードは公開されています。
拡散モデルに基づく動画生成は急速な進歩を遂げているものの、既存モデルの推論結果は依然として時間的な一貫性に欠け、不自然なダイナミクスを示すことが課題となっている。本論文では、動画拡散モデルのノイズ初期化について深く掘り下げ、推論品質の不満足さに寄与する暗黙の訓練-推論ギャップを発見した。主な発見は以下の2点である:1)推論時の初期潜在変数の時空間周波数分布は、訓練時のそれと本質的に異なること、2)ノイズ除去プロセスは初期ノイズの低周波成分に大きく影響を受けること。これらの観察に基づき、我々は簡潔でありながら効果的な推論サンプリング戦略「FreeInit」を提案する。FreeInitは、推論中に初期潜在変数の時空間低周波成分を反復的に洗練することで、訓練と推論の間の初期化ギャップを補償し、生成結果の被写体の外観と時間的一貫性を効果的に改善する。大規模な実験により、FreeInitが追加の訓練なしに様々なテキストから動画を生成するモデルの生成結果を一貫して向上させることが実証された。
視覚言語モデル(VLM)は、大規模言語モデルの最近の成功に伴い急速に進化しています。視覚入力をLLMに拡張するための視覚指示チューニングに関する取り組みが増えていますが、モデルが両モダリティに対して共同モデリングを学習する視覚言語事前学習プロセスの詳細な研究は不足しています。本研究では、LLMを段階的にVLMへ拡張するための設計オプションを、制御可能な比較を通じて検証します。主な発見として、(1) 事前学習中にLLMを凍結することで適切なゼロショット性能が得られるが、コンテキスト内学習能力にはLLMの凍結解除が必要であること、(2) インタリーブされた事前学習データが有益であり、画像-テキストペアのみでは最適ではないこと、(3) 指示ファインチューニング中にテキストのみの指示データを画像-テキストデータに再ブレンドすることで、テキストのみのタスクの性能低下を防ぐだけでなく、VLMタスクの精度も向上することが挙げられます。これらの強化された事前学習レシピを用いて、VILAという視覚言語モデルファミリーを構築しました。VILAは、主要なベンチマークにおいてLLaVA-1.5などの最先端モデルを一貫して上回り、余計な工夫なしで優れた性能を発揮します。さらに、マルチモーダル事前学習は、VILAの魅力的な特性を明らかにするのに役立ちます。これには、複数画像推論、強化されたコンテキスト内学習、およびより優れた世界知識が含まれます。
拡散モデルは、従来の生成モデルを凌駕する驚異的な画像生成品質を実現しています。しかし、GANと比較した際の拡散モデルの顕著な制限として、高度に非構造化された潜在空間のため、2つの画像サンプル間を滑らかに補間することが困難である点が挙げられます。このような滑らかな補間は、多くの応用が可能な画像モーフィングタスクの自然な解決策として興味深いものです。本研究では、拡散モデルを用いて滑らかで自然な画像補間を可能にする初のアプローチであるDiffMorpherを提案します。私たちの鍵となるアイデアは、2つの画像のセマンティクスをそれぞれLoRAで捉え、LoRAパラメータと潜在ノイズの両方を補間することで滑らかな意味的遷移を確保し、アノテーションを必要とせずに対応関係が自然に生まれるようにすることです。さらに、連続する画像間の滑らかさをさらに向上させるために、アテンション補間と注入技術、および新しいサンプリングスケジュールを提案します。広範な実験により、DiffMorpherが様々なオブジェクトカテゴリにおいて、従来の手法よりもはるかに優れた画像モーフィング効果を達成し、拡散モデルとGANを区別していた重要な機能的なギャップを埋めることが実証されました。
最近のControlNetなどのアプローチは、テキストから画像(T2I)生成の拡散モデルに対して、ユーザーにきめ細かい空間的制御を提供します。しかし、空間的条件の種類、モデルアーキテクチャ、チェックポイントごとに補助モジュールを訓練する必要があり、これが人間のデザイナーがAIモデルに伝えたい多様な意図や好みと対立しています。本研究では、複数の条件、アーキテクチャ、チェックポイントを同時にサポートする、訓練不要の制御可能なT2I生成手法であるFreeControlを提案します。FreeControlは、ガイダンス画像との構造整合性を促進するための構造ガイダンスと、同じシードを使用して生成された画像間の外観共有を可能にする外観ガイダンスを設計します。広範な定性的および定量的な実験により、FreeControlが様々な事前訓練済みT2Iモデルにおいて優れた性能を発揮することが実証されています。特に、FreeControlは多くの異なるアーキテクチャやチェックポイントに対して便利な訓練不要の制御を可能にし、既存の訓練不要手法のほとんどが失敗する難しい入力条件を許容し、訓練ベースのアプローチと競合する合成品質を達成します。
大規模言語モデル(LLMs)の評価は、その性能を測定し、潜在的なセキュリティリスクを軽減するために重要です。本論文では、LLMsを評価するための統一ライブラリであるPromptBenchを紹介します。PromptBenchは、研究者が容易に使用および拡張できるいくつかの主要コンポーネントで構成されています:プロンプト構築、プロンプトエンジニアリング、データセットとモデルのロード、敵対的プロンプト攻撃、動的評価プロトコル、および分析ツールです。PromptBenchは、新しいベンチマークの作成、ダウンストリームアプリケーションの展開、新しい評価プロトコルの設計といったオリジナル研究を促進するための、オープンで汎用的かつ柔軟なコードベースとして設計されています。コードはhttps://github.com/microsoft/promptbenchで公開されており、継続的にサポートされます。
本調査では、ロボティクスにおける事前学習済み基盤モデルの応用について概観する。従来のロボティクスにおける深層学習モデルは、特定のタスクに特化した小規模なデータセットで学習されるため、多様なアプリケーションへの適応性が制限されていた。これに対し、インターネット規模のデータで事前学習された基盤モデルは、優れた汎化能力を示し、場合によっては学習データに存在しない問題に対するゼロショット解決能力を発現することがある。基盤モデルは、知覚から意思決定、制御に至るロボット自律スタックの様々な要素を強化する可能性を秘めている。例えば、大規模言語モデルはコード生成や常識推論を提供し、視覚言語モデルはオープン語彙の視覚認識を可能にする。しかし、ロボット関連の学習データの不足、安全性の保証と不確実性の定量化、リアルタイム実行といった重要な研究課題が残されている。本調査では、ロボティクス問題の解決に基盤モデルを利用または構築した最近の論文を研究し、知覚、意思決定、制御の領域において基盤モデルがどのようにロボット能力の向上に貢献しているかを探る。また、ロボット自律における基盤モデルの採用を妨げる課題について議論し、今後の進展のための機会と潜在的な道筋を提供する。本論文に対応するGitHubプロジェクト(暫定リリース。品質と関連性を確保するため、さらなる改善と更新に努めている)はこちらで確認できる:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
大規模言語モデル(LLM)の膨大な規模ゆえに、従来の圧縮手法を直接適用することは現実的ではありません。最小限の勾配更新でさえも、特にコンシューマーグレードのハードウェアにおいては、計算上の課題を引き起こします。本論文では、特徴空間における低ランク分解と重み空間における再パラメータ化を伴う縮小次元モデリングに基づいた、LLMのパラメトリックかつ実用的な圧縮のための革新的なアプローチを提案します。特に、この圧縮技術は層ごとに動作し、GPUデバイスを必要とせず、メモリと時間の厳しい制約下でも数十億規模のモデルの圧縮を可能にします。我々の手法は、行列分解を活用することでモデル圧縮における重要な進展を示し、現在の最先端の構造化プルーニング手法と比較して優れた効果を実証しています。
近年の研究では、人間の意図に沿って大規模言語モデル(LLM)の有用性と無害性を向上させるためのアライメント技術の適用が大きく進展しています。本論文では、LLMが知識を欠く場合に積極的に質問に答えないようにする一方で、過度に保守的にならないよう、誠実さのためのアライメントの重要性を主張します。しかし、誠実さのためのアライメントの重要な側面は、LLMの知識の限界を見極めることであり、これは決して単純な課題ではありません。この課題は、メトリクスの開発、ベンチマークの作成、トレーニング手法の観点から包括的な解決策を必要とします。本論文では、まず正確な問題定義を確立し、『論語』に着想を得た「誠実さ」を定義することで、これらの課題に取り組みます。これは、アライメント後の進捗を定量化することでLLMの誠実さを効果的に測定するメトリクスを開発するための基盤となります。さらに、他のタスクの性能を犠牲にすることなく誠実さを重視する、いくつかの効率的なファインチューニング技術によって具体化される柔軟なトレーニングフレームワークを導入します。私たちの広範な実験は、提案されたメトリクスによって示されるように、これらのアライメントされたモデルが誠実さの大幅な向上を示すことを明らかにしています。今後の研究を促進するため、https://github.com/GAIR-NLP/alignment-for-honesty にて、誠実さにアライメントされたモデル、誠実さアライメントのためのトレーニングおよび評価データセット、概念用語集、および関連するすべてのソースコードを含む豊富なリソースをオープンソースとして公開しています。
我々は、基盤モデルの埋め込みを整列させるための汎用インターフェースであるFINDを提案する。ティーザー図に示すように、基盤モデルの重みを調整することなく、軽量なトランスフォーマーインターフェースを用いることで、画像(セグメンテーション)とデータセットレベル(検索)の統一的な理解が可能である。提案するインターフェースは以下のような利点を持つ:(1) 汎用性。同一のアーキテクチャと重みで、検索、セグメンテーションなど様々なタスクに適用可能。(2) プロトタイプ化可能。異なるタスクは、アテンションマスクと埋め込みタイプのプロトタイピングを通じて実装可能。(3) 拡張性。提案するインターフェースは新しいタスクやモデルに適応可能。(4) インターリーブ可能。マルチタスク・マルチモーダルトレーニングの利点を活かし、提案するインターフェースはインターリーブされた共有埋め込み空間を生成する。このインターリーブされた埋め込み空間に基づき、我々はFIND-Benchを導入し、COCOデータセットにインターリーブセグメンテーションと検索のための新しいトレーニングおよび評価アノテーションを追加した。我々のアプローチは、FIND-Benchにおいて最先端の性能を達成し、標準的な検索およびセグメンテーション設定においても競争力のある性能を示す。トレーニング、評価、デモコードおよびデータセットはhttps://github.com/UX-Decoder/FINDで公開されている。
ニューラルレンダリングはシーン再構成や新視点合成において目覚ましい進歩をもたらしましたが、正確に事前計算されたカメラポーズに大きく依存しています。この制約を緩和するため、事前処理されたカメラポーズなしでNeural Radiance Fields(NeRF)を学習するための複数の試みがなされてきました。しかし、NeRFの暗黙的な表現は、3D構造とカメラポーズを同時に最適化する際に追加の課題を提供します。一方、最近提案された3D Gaussian Splattingは、その明示的な点群表現により新たな可能性を提供します。本論文では、明示的な幾何表現と入力ビデオストリームの連続性の両方を活用し、SfM前処理なしで新視点合成を実行します。入力フレームを逐次的に処理し、一度に1つの入力フレームを取り込むことで3Dガウシアン集合を段階的に成長させ、カメラポーズを事前計算する必要はありません。私たちの手法は、大きなモーション変化下での視点合成とカメラポーズ推定において、従来のアプローチを大幅に改善します。プロジェクトページはhttps://oasisyang.github.io/colmap-free-3dgsです。
一貫性モデル(Consistency Models, CMs)は、視覚コンテンツを効率的かつ高品質に生成する可能性を示しています。しかし、事前学習済みのCMに新しい条件制御を追加する方法はまだ検討されていません。本技術レポートでは、ControlNetのような条件制御をCMに追加するための代替戦略を検討し、3つの重要な知見を提示します。1) 拡散モデル(Diffusion Models, DMs)向けに学習されたControlNetは、高レベルの意味的制御には直接適用可能ですが、低レベルの詳細やリアリズムの制御には課題があります。2) CMは独立した生成モデルのクラスとして機能し、Songらが提案したConsistency Trainingを用いてControlNetをゼロから学習させることが可能です。3) 軽量なアダプターを複数の条件下でConsistency Trainingを通じて共同最適化することで、DMsベースのControlNetをCMに迅速に転移させることができます。これらの3つの解決策を、エッジ、深度、人間のポーズ、低解像度画像、テキストから画像への潜在一貫性モデルを用いたマスク画像など、さまざまな条件制御において検証しました。
本論文では、Contrastive Activation Addition(CAA)という革新的な手法を提案する。CAAは、言語モデルのフォワードパス中に活性化を変更することでモデルの挙動を制御する方法である。CAAは、事実に基づく応答と虚構の応答といった特定の挙動の正例と負例の間の残差ストリーム活性化の差分を平均化することで「ステアリングベクトル」を計算する。推論時には、これらのステアリングベクトルをユーザーのプロンプト後の全てのトークン位置に正または負の係数で加算し、目標とする挙動の程度を精密に制御する。我々は、Llama 2 Chatを用いて、多肢選択式の行動質問データセットと自由生成タスクの両方でCAAの有効性を評価した。その結果、CAAがモデルの挙動を大きく変化させ、ファインチューニングやFew-shotプロンプティングといった従来手法を上回り、能力の低下を最小限に抑えることを実証した。さらに、様々な活性化空間解釈手法を用いることで、CAAのメカニズムについてより深い洞察を得た。CAAは、モデルの出力を正確に制御するだけでなく、大規模言語モデル(LLM)において高レベルの概念がどのように表現されているかを明らかにするものである。
マルチモーダル大規模言語モデル(MLLMs)において、ビジュアルプロジェクターは、事前学習済みの視覚エンコーダーとLLMsを橋渡しする重要な役割を果たし、LLMsの強力な能力を活用しながら深い視覚理解を可能にします。ビジュアルプロジェクターの重要性にもかかわらず、これまで比較的あまり研究されてきませんでした。本研究では、まず2つの重要なプロジェクターの特性を特定します:(i) 視覚トークンの数を管理する柔軟性(MLLMsの全体的な効率にとって重要)と、(ii) 視覚特徴からローカルコンテキストを保持すること(空間理解にとって重要)。これらの知見に基づき、我々は柔軟性と局所性を強化した新しいプロジェクターデザインを提案し、これら2つの望ましい特性を効果的に満たします。さらに、複数の多面的な指示データセットを効果的に活用するための包括的な戦略を提示します。広範な実験を通じて、個々の設計選択の影響を検証します。最後に、我々が提案するMLLM「Honeybee」は、MME、MMBench、SEED-Bench、LLaVA-Benchなどの様々なベンチマークにおいて、従来の最先端手法を大幅に上回る性能を発揮し、著しく高い効率を達成します。コードとモデルはhttps://github.com/kakaobrain/honeybeeで公開されています。
最近、テキストから動画を生成する技術が大きく進歩し、最先端のモデルは高品質でリアルな動画を生成できるようになりました。しかし、これらのモデルにはユーザーがインタラクティブに制御して動画を生成する機能が欠けており、これが新たな応用分野の可能性を秘めています。この目標に向けた第一歩として、我々は拡散ベースの動画生成モデルに、出力に対するインタラクティブな時空間制御を付与する問題に取り組みます。この目的のために、最近のセグメンテーション研究の進展に着想を得て、新しい時空間マスク付きアテンションモジュール「Peekaboo」を提案します。このモジュールは、既存の動画生成モデルに追加可能で、トレーニング不要かつ推論時のオーバーヘッドなしに時空間制御を可能にします。また、インタラクティブな動画生成タスクのための評価ベンチマークを提案します。広範な定性的および定量的評価を通じて、Peekabooが制御可能な動画生成を実現し、ベースラインモデルに対して最大3.8倍のmIoU向上を達成することを確認しました。
機械学習において、分布シフトに対する汎化能力——つまり、展開環境が学習シナリオから乖離する状況下での適応性——は、気候モデリング、生物医学、自動運転などの分野で特に重要です。大規模な事前学習とタスクの汎用性を特徴とする基盤モデルの登場により、これらのモデルの分布シフトへの適応性に対する関心が高まっています。GPT-4V(ision)は、現在公開されている最も先進的なマルチモーダル基盤モデルであり、異常検知、映像理解、画像生成、医療診断など、さまざまな領域で広範に応用されています。しかし、データ分布に対するその頑健性は、まだ十分に検証されていません。このギャップを埋めるため、本研究では、GPT-4Vの動的環境における適応性と汎化能力を厳密に評価し、CLIPやLLaVAなどの主要なモデルと比較します。自然、医療、分子領域にわたる13の多様なデータセットにおけるGPT-4Vのゼロショット汎化能力を詳細に検証します。さらに、制御されたデータ摂動への適応性を調査し、その適応を強化するためのツールとしてのインコンテキスト学習の有効性を検討します。本研究の結果は、GPT-4Vの分布シフトにおける能力の境界を明らかにし、さまざまなシナリオでの強みと限界を浮き彫りにします。重要なことに、この調査は、AI基盤モデルが分布シフトにどのように汎化するかについての理解を深め、その適応性と頑健性に関する重要な洞察を提供します。コードはhttps://github.com/jameszhou-gl/gpt-4v-distribution-shiftで公開されています。
Diffusion Transformersは最近、高品質な3Dポイントクラウドの生成において顕著な効果を示しています。しかし、高解像度の3Dボクセルに対するボクセルベースの拡散モデルの訓練は、ボクセルの追加次元に起因するAttention演算子の立方体複雑度のため、依然として非常に高コストです。3Dが2Dに比べて本質的に冗長であることに着目し、我々は効率的な3Dポイントクラウド生成に特化した新しいマスク拡散TransformerであるFastDiT-3Dを提案し、訓練コストを大幅に削減します。具体的には、マスクされたボクセル化ポイントクラウド上でノイズ除去プロセスを動的に操作するために、マスクオートエンコーダからインスピレーションを得ています。また、ボクセル化ポイントクラウドから背景/前景情報を適応的に集約するための新しいボクセル認識マスキング戦略を提案します。我々の手法は、約99%という極端なマスキング比率で最先端の性能を達成します。さらに、多カテゴリ3D生成を改善するために、3D拡散モデルにMixture-of-Expert(MoE)を導入します。各カテゴリは異なる専門家とともに個別の拡散経路を学習でき、勾配の衝突を緩和します。ShapeNetデータセットでの実験結果は、我々の手法が最先端の高忠実度かつ多様な3Dポイントクラウド生成性能を達成することを示しています。我々のFastDiT-3Dは、128解像度のボクセルポイントクラウドを生成する際に、1-Nearest Neighbor AccuracyとCoverageの指標を向上させ、元の訓練コストのわずか6.5%しか使用しません。
意思決定支援システムの成功において重要な要素は、ユーザーの嗜好を正確にモデル化することです。心理学研究によれば、ユーザーは嗜好を明らかにするプロセスの中で嗜好を形成することが多く、パーソナライズされたシステムを開発する上でシステムとユーザーの相互作用が重要な役割を果たすことが示されています。本論文では、大規模言語モデル(LLMs)と制約プログラミングを組み合わせた新しいアプローチを紹介し、インタラクティブな意思決定支援を促進します。このハイブリッドフレームワークを、多くの情報労働者が日常的に直面する時間のかかる活動である会議スケジューリングを通じて研究します。本研究では、新しいフレームワークを評価するために3つの研究を実施しました。これには、文脈に基づくスケジューリングの嗜好を特徴づけるための日記調査(n=64)、システムのパフォーマンスを定量的に評価する研究、およびプロトタイプシステムを用いたユーザー調査(n=10)が含まれます。本研究は、反復的な嗜好の明らかにするためのLLMと最適化のハイブリッドアプローチの可能性、および人間とシステムの協調的な意思決定プロセスを支援するシステムを構築するための設計上の考慮事項を強調しています。