翻訳付きの日次キュレーションされたAI研究論文
最適化は至る所で行われている。導関数ベースのアルゴリズムは様々な問題に対して強力なツールとなってきたが、勾配が存在しないことは多くの現実世界のアプリケーションにおいて課題を課している。本研究では、最適化タスクを自然言語で記述し、大規模言語モデル(LLM)を最適化器として活用する、シンプルで効果的なアプローチである「PROmptingによる最適化(OPRO)」を提案する。各最適化ステップにおいて、LLMは以前に生成された解とその値を含むプロンプトから新しい解を生成し、その新しい解が評価され、次の最適化ステップのためのプロンプトに追加される。まず、線形回帰と巡回セールスマン問題においてOPROを紹介し、その後、タスクの精度を最大化する命令を見つけることを目的としたプロンプト最適化に移行する。様々なLLMを用いて、OPROによって最適化された最良のプロンプトが、GSM8Kでは人間が設計したプロンプトを最大8%、Big-Bench Hardタスクでは最大50%上回ることを実証する。
大規模言語モデル(LLMs)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めています。しかし、これらの成功にもかかわらず、その開発には2つの主要な課題があります:(i) 高い計算コスト、(ii) 公平かつ客観的な評価の難しさです。LLMsは非常に高価であり、その訓練を実施できるのは少数の主要プレイヤーに限られるため、研究と応用の機会が制約されています。これは、コスト効率の良いLLM訓練の重要性を強調しています。本論文では、成長戦略を活用してLLM訓練コストを大幅に削減します。101Bパラメータと0.31TBトークンを有するLLMを100Kの予算で訓練できることを実証します。また、既存の知識指向能力に焦点を当てた評価を補完するため、LLMのIQ評価に対する体系的な評価パラダイムを採用します。シンボリックマッピング、ルール理解、パターンマイニング、および干渉耐性といった知能の重要な側面を含む評価を導入します。このような評価は、暗記の潜在的な影響を最小化します。実験結果は、100Kの予算で訓練された我々のモデルFLM-101Bが、特に訓練データに見られない文脈を含むIQベンチマーク評価において、GPT-3やGLM-130Bといった強力で有名なモデルと同等の性能を達成することを示しています。FLM-101Bのチェックポイントはhttps://huggingface.co/CofeAI/FLM-101Bでオープンソース化されます。
大規模言語モデル(LLM)はその驚異的な能力にもかかわらず、事前学習中に見た事実から逸脱した内容を生成する「幻覚」現象に陥りやすい。本論文では、外部知識の検索に依存せず、追加のファインチューニングも必要としない、事前学習済みLLMの幻覚を低減するためのシンプルなデコーディング戦略を提案する。我々のアプローチは、LLMにおける事実知識が特定のTransformer層に局在化しているという特性を利用し、後続層と初期層を語彙空間に投影して得られるロジットの差異を対比することで、次のトークンの分布を取得する。この「層間対比によるデコーディング(Decoding by Contrasting Layers: DoLa)」アプローチは、事実知識をより効果的に表面化させ、誤った事実の生成を低減できることがわかった。DoLaは、複数選択タスクや自由記述生成タスクにおいて一貫して真実性を向上させ、例えばLLaMAファミリーモデルのTruthfulQAにおける性能を12-17%ポイント絶対値で向上させ、LLMが信頼性の高い真実を生成する可能性を示している。
ビデオセグメンテーションのためのトレーニングデータは、アノテーションに多大なコストがかかります。これにより、エンドツーエンドアルゴリズムを新しいビデオセグメンテーションタスクに拡張することが妨げられており、特に大規模語彙設定においてその影響が顕著です。個々のタスクごとにビデオデータでトレーニングすることなく「何でも追跡」するために、我々は分離型ビデオセグメンテーションアプローチ(DEVA)を開発しました。これは、タスク固有の画像レベルセグメンテーションと、クラス/タスクに依存しない双方向時間伝播で構成されています。この設計により、対象タスクのための画像レベルモデル(トレーニングコストが低い)と、一度トレーニングすればタスク間で汎化する普遍的時間伝播モデルのみが必要となります。これら2つのモジュールを効果的に統合するために、異なるフレームからのセグメンテーション仮説を(半)オンラインで融合し、一貫したセグメンテーションを生成するために双方向伝播を使用します。この分離型の定式化が、大規模語彙ビデオパノプティックセグメンテーション、オープンワールドビデオセグメンテーション、参照ビデオセグメンテーション、教師なしビデオオブジェクトセグメンテーションを含むいくつかのデータ不足タスクにおいて、エンドツーエンドアプローチよりも優れていることを示します。コードは以下で利用可能です: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
フローベースの伝播と時空間Transformerは、ビデオインペインティング(VI)における2つの主流メカニズムです。これらのコンポーネントは有効であるものの、性能に影響を与えるいくつかの制限が依然として存在します。従来の伝播ベースのアプローチは、画像領域または特徴領域のいずれかで個別に実行されていました。学習から切り離されたグローバルな画像伝播は、不正確なオプティカルフローによる空間的な位置ずれを引き起こす可能性があります。さらに、メモリや計算上の制約により、特徴伝播とビデオTransformerの時間範囲が制限され、遠くのフレームからの対応情報の探索が妨げられています。これらの問題に対処するため、我々はProPainterと呼ばれる改良されたフレームワークを提案します。これは、強化された伝播(ProPagation)と効率的なTransformerを組み合わせたものです。具体的には、画像ワープと特徴ワープの利点を組み合わせたデュアルドメイン伝播を導入し、グローバルな対応関係を確実に活用します。また、マスク誘導型のスパースビデオTransformerを提案し、不要で冗長なトークンを破棄することで高い効率性を実現します。これらのコンポーネントにより、ProPainterはPSNRにおいて1.46 dBという大きな差で従来技術を上回り、魅力的な効率性を維持しています。
私たちは、ImageBindを介した大規模言語モデル(LLM)のマルチモダリティ命令チューニング手法であるImageBind-LLMを提案します。既存の研究は主に言語と画像の命令チューニングに焦点を当てていますが、それとは異なり、私たちのImageBind-LLMは、音声、3D点群、ビデオ、およびそれらの埋め込み空間演算を含むマルチモダリティ条件に応答することができます。これらは、画像とテキストのアライメント訓練のみによって実現されます。訓練中、私たちはLLaMAとImageBindの画像エンコーダーの間の埋め込み空間を整列させるために学習可能なバインドネットワークを採用します。その後、バインドネットワークによって変換された画像特徴量は、LLaMAのすべての層の単語トークンに追加され、アテンションフリーかつゼロ初期化されたゲーティングメカニズムを介して視覚的指示を段階的に注入します。ImageBindの共同埋め込みの助けを借りて、単純な画像とテキストの訓練により、私たちのモデルは優れたマルチモダリティ命令追従能力を示します。推論中、マルチモダリティ入力は対応するImageBindエンコーダーに供給され、提案されたビジュアルキャッシュモデルによってさらにクロスモーダル埋め込みが強化されます。訓練不要のキャッシュモデルは、ImageBindによって抽出された300万の画像特徴量から検索を行い、訓練と推論のモダリティの不一致を効果的に軽減します。特に、私たちのアプローチにより、ImageBind-LLMは多様なモダリティの命令に応答し、重要な言語生成品質を示すことができます。コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されています。
我々は、コンピュータビジョンタスクと人間の指示を統合する汎用的なフレームワークであるInstructDiffusionを提案する。既存のアプローチでは、各ビジョンタスクに対して事前知識を統合し、出力空間(例えば、カテゴリや座標)を事前に定義するが、我々は多様なビジョンタスクを、出力空間が柔軟でインタラクティブなピクセル空間である人間直感的な画像操作プロセスに変換する。具体的には、このモデルは拡散プロセスに基づいて構築され、ユーザーの指示に従ってピクセルを予測するように訓練される。例えば、男性の左肩を赤で囲む、左の車に青いマスクを適用するなどである。InstructDiffusionは、セグメンテーションやキーポイント検出などの理解タスク、編集やエンハンスメントなどの生成タスクを含む多様なビジョンタスクを扱うことができる。さらに、未見のタスクを処理する能力を示し、新しいデータセットにおいて従来の手法を上回る性能を発揮する。これは、ビジョンタスクのための汎用モデリングインターフェースに向けた重要な一歩であり、コンピュータビジョン分野における人工汎用知能の進展を促進するものである。
本論文では、単一視点画像から多視点整合性のある画像を生成する新たな拡散モデルを提案する。事前学習済みの大規模2D拡散モデルを用いた最近の研究Zero123は、物体の単一視点画像からもっともらしい新規視点を生成する能力を示している。しかし、生成された画像の幾何学と色の整合性を維持することは依然として課題である。この問題に対処するため、我々は多視点画像の同時確率分布をモデル化し、単一の逆プロセスで多視点整合性のある画像を生成可能にする同期型多視点拡散モデルを提案する。SyncDreamerは、3Dを意識した特徴量注意機構を通じて、逆プロセスの各ステップにおいて生成される全ての画像の中間状態を同期させる。これにより、異なる視点間の対応する特徴量を関連付ける。実験結果から、SyncDreamerは異なる視点間で高い整合性を持つ画像を生成することが示され、新規視点合成、テキストから3D、画像から3Dといった様々な3D生成タスクに適していることが確認された。
ControlNetなどの拡散モデルの最近の進展により、幾何学的に制御可能で高精細なテキストから画像への生成が可能になりました。しかし、そのような制御性をテキストから3D生成に追加するという課題にはまだ取り組まれていません。これに対応して、私たちはText2Control3Dを提案します。これは、手持ちカメラで気軽に撮影された単眼動画を基に、顔の表情を制御可能なテキストから3Dアバターを生成する手法です。私たちの主な戦略は、ControlNetから生成された視点対応画像のセットを用いてNeural Radiance Fields(NeRF)で3Dアバターを構築することです。ControlNetの条件入力は、入力動画から抽出された深度マップです。視点対応画像を生成する際、クロスリファレンスアテンションを活用し、クロスアテンションを通じて制御された参照的な顔の表情と外観を注入します。また、拡散モデルのガウシアン潜在変数に対してローパスフィルタリングを実施し、私たちの実証分析で観察された視点非依存のテクスチャ問題を改善します。この問題では、視点対応画像が3Dでは理解できない同一ピクセル位置に同一テクスチャを含んでいます。最後に、視点対応でありながら幾何学的に厳密に一貫していない画像を用いてNeRFを訓練するために、私たちのアプローチでは、画像ごとの幾何学的変動を共有の3D正規空間からの変形として考慮します。その結果、変形場テーブルを通じて画像ごとの変形セットを学習することで、変形可能なNeRFの正規空間に3Dアバターを構築します。私たちは実証結果を示し、本手法の有効性について議論します。
大規模言語モデル(LLMs)は、様々な領域で広く普及し、情報との相互作用や研究の進め方を変革しています。しかし、高性能なLLMsの多くは依然としてプロプライエタリな壁に囲まれており、科学の進歩を妨げています。一方、オープンソースのLLMsのほとんどは、入力コンテキストに対する推論を必要とする多くのタスクにおいて重要な要件である、長いシーケンス長をサポートする能力が限られています。この問題に対処するため、我々は最大8Kのシーケンス長で最大1.5Tトークンまで訓練した7BパラメータモデルのシリーズであるXGenを開発しました。また、XGenモデルをパブリックドメインの指示データでファインチューニングし、指示調整版(XGen-Inst)を作成しました。我々は、研究の進展と商業的応用の両方のために、これらのモデルをオープンソースとして公開します。標準ベンチマークでの評価では、XGenモデルは最先端のオープンソースLLMsと比較して同等またはそれ以上の結果を達成しています。長いシーケンスモデリングタスクに対するターゲット評価では、8Kシーケンスモデルが2KシーケンスのオープンソースLLMsよりも優れていることが示されています。
我々は、過去の研究において人間との間で数百回の卓球ラリーを可能にし、ボールを所望のターゲットに正確に返す能力を有することが示された実世界のロボット学習システムについて、詳細な分析を提示する。このシステムは、高度に最適化された知覚サブシステム、高速で低遅延のロボット制御装置、現実世界での損傷を防ぎつつゼロショット転移のためのポリシーを訓練できるシミュレーションパラダイム、そして物理ロボット上での自律的な訓練と評価を可能にする自動化された現実世界環境リセットを統合している。我々は、通常広く公開されない数多くの設計決定を含む完全なシステム記述に加えて、様々な遅延源の軽減の重要性、訓練と展開の分布シフトの考慮、知覚システムの堅牢性、ポリシーハイパーパラメータに対する感度、およびアクション空間の選択を明らかにする一連の研究を補完する。システムの構成要素と実験結果の詳細を示すビデオは、https://youtu.be/uFcnWjB42I0 で閲覧可能である。
画像合成におけるLatent Diffusion Models(LDMs)の顕著な成功に触発され、本論文ではテキストからビデオ生成へのLDMの応用を研究します。これは、モデルの学習と推論の両方において計算資源とメモリの制約が大きいため、非常に困難な課題です。単一のLDMでは通常、ごく限られた数のビデオフレームしか生成できません。既存の研究では、より多くのビデオフレームを生成するために別々の予測モデルに焦点を当てていますが、これには追加の学習コストやフレームレベルのジッタが伴います。本論文では、LDMによって既に生成されたフレームに続いて、より多くのフレームを生成するための「Reuse and Diffuse」というフレームワーク、VidRDを提案します。少数のフレームを含む初期ビデオクリップを条件として、元の潜在特徴を再利用し、前回の拡散プロセスに従って追加のフレームを反復的に生成します。さらに、ピクセル空間と潜在空間の間の変換に使用されるオートエンコーダに対して、デコーダに時間層を注入し、これらの層を微調整して時間的な一貫性を高めます。また、アクション認識のためのビデオデータセットや画像-テキストデータセットなど、複数の既存データセットから多様なコンテンツを含むビデオ-テキストデータを構成するための一連の戦略を提案します。大規模な実験により、本手法が定量的および定性的な評価の両方で良好な結果を達成することが示されています。プロジェクトページはhttps://anonymous0x233.github.io/ReuseAndDiffuse/で公開されています。