翻訳付きの日次キュレーションされたAI研究論文
人物と別の人物が着用している衣服を描いた2枚の画像が与えられたとき、私たちの目標は、その衣服が入力された人物にどのように見えるかを可視化することです。重要な課題は、衣服のフォトリアルなディテールを保ちながら、被写体間の大幅な身体のポーズと形状の変化に対応するために衣服を変形させることです。従来の手法では、効果的なポーズと形状の変化を伴わずに衣服のディテールを保持することに焦点を当てるか、望ましい形状とポーズでの試着を可能にするが衣服のディテールを欠くかのいずれかでした。本論文では、2つのUNetを統合した拡散ベースのアーキテクチャ(Parallel-UNetと呼ぶ)を提案し、単一のネットワークで衣服のディテールを保持しつつ、大幅なポーズと身体の変化に対応するために衣服を変形させることが可能です。Parallel-UNetの背後にある主要なアイデアは次のとおりです:1)衣服はクロスアテンションメカニズムを介して暗黙的に変形され、2)衣服の変形と人物のブレンドは、2つの別々のタスクのシーケンスではなく、統一されたプロセスの一部として行われます。実験結果は、TryOnDiffusionが質的および量的に最先端の性能を達成していることを示しています。
人間の目が持つ反射特性は、私たちの周囲の世界の様子を知るための情報源として過小評価されている。移動する人物の目を撮影することで、カメラの直接的な視野外にあるシーンの複数の視点を、目の反射を通じて収集することができる。本論文では、目の反射を含むポートレート画像を用いて、カメラの視野外にある3Dシーンを再構築する。この課題は、1) 目の姿勢を正確に推定する難しさと、2) 目の虹彩とシーンの反射が絡み合った外観という2つの点で困難を伴う。我々の手法では、角膜の姿勢、シーンを描写する放射輝度場、および観察者の虹彩テクスチャを同時に精緻化する。さらに、再構築品質を向上させるために、虹彩テクスチャパターンに対するシンプルな正則化事前分布を提案する。さまざまな目の色を持つ人物を対象とした合成データおよび実世界のキャプチャを用いた実験を通じて、目の反射を用いて3Dシーンを復元する我々のアプローチの実現可能性を実証する。
StarCoderのようなコード大規模言語モデル(Code LLMs)は、コード関連タスクで卓越した性能を発揮しています。しかし、既存のモデルの多くは、広範な生のコードデータのみで事前学習されており、指示ファインチューニングが施されていません。本論文では、Evol-Instruct手法をコード領域に適応させることで、複雑な指示ファインチューニングをCode LLMsに施したWizardCoderを紹介します。HumanEval、HumanEval+、MBPP、DS-1000という4つの主要なコード生成ベンチマークでの包括的な実験を通じて、我々のモデルの卓越した能力を明らかにしました。このモデルは、他のすべてのオープンソースCode LLMsを大幅に上回っています。さらに、HumanEvalとHumanEval+において、AnthropicのClaudeやGoogleのBardといった最大規模のクローズドLLMsをも凌駕する性能を示しています。我々のコード、モデル重み、データはhttps://github.com/nlpxucan/WizardLMで公開されています。
大規模言語モデル(LLMs)に関する最近の研究は、汎用NLP AIアシスタントにおいて顕著な進展をもたらしました。一部の研究では、より一般的なマルチモーダルなユーザークエリに対応するために、LLMsを活用した計画立案やモデル・APIの呼び出しについてさらに探求されています。しかし、このような進展にもかかわらず、複雑な視覚ベースのタスクは、その多様性ゆえに依然として課題として残っています。この多様性は2つの側面に反映されています:1)推論パス。多くの実世界のアプリケーションでは、クエリ自体を単に検討するだけで正確に分解することは困難です。特定の視覚コンテンツと各ステップの結果に基づいた計画立案が通常必要となります。2)柔軟な入力と中間結果。現実世界のケースでは、入力形式は柔軟であり、単一の画像やビデオだけでなく、ビデオと画像の混合(例えば、ユーザービュー画像と参照ビデオ)を含む場合があります。さらに、複雑な推論プロセスは、ビデオナレーションやセグメント化されたビデオクリップなど、多様なマルチモーダルな中間結果を生成します。このような一般的なケースに対応するために、我々はマルチモーダルAIアシスタント「AssistGPT」を提案し、Plan, Execute, Inspect, and Learn(PEIL)と呼ばれるコードと言語の交互推論アプローチを用いて、LLMsと様々なツールを統合します。具体的には、Plannerは自然言語を使用して、現在の推論の進捗に基づいてExecutorのどのツールを次に使用すべきかを計画できます。Inspectorは効率的なメモリマネージャーとして、Plannerが特定のツールに適切な視覚情報をフィードするのを支援します。最後に、推論プロセス全体が複雑で柔軟であるため、Learnerはモデルが自律的に最適な解決策を探索・発見できるように設計されています。我々はA-OKVQAおよびNExT-QAベンチマークで実験を行い、最先端の結果を達成しました。さらに、デモンストレーションでは、ベンチマークで見られるものよりもはるかに複雑な質問を処理するシステムの能力を示しています。
知識蒸留(KD)は、大規模言語モデル(LLM)の高い計算需要を削減するための有望な技術です。しかし、従来のKD手法は主にホワイトボックスの分類モデルに適用されるか、ChatGPTのようなブラックボックスモデルAPIを模倣するために小さなモデルを訓練するために使用されてきました。ホワイトボックスの生成型LLMから効果的に知識を蒸留する方法はまだ十分に検討されておらず、LLMの普及に伴い、その重要性が高まっています。本研究では、生成型の大規模言語モデルから小さな言語モデルを蒸留するMiniLLMを提案します。まず、標準的なKDアプローチにおける順方向のカルバック・ライブラー・ダイバージェンス(KLD)目的関数を、生成型言語モデルに適した逆方向KLDに置き換え、学生モデルが教師分布の低確率領域を過大評価するのを防ぎます。次に、この目的関数を学習するための効果的な最適化手法を導出します。命令追従設定での広範な実験により、MiniLLMモデルがより正確な応答を生成し、全体的な品質が高く、露出バイアスが低く、キャリブレーションが良好で、長文生成性能が高いことが示されました。また、120Mから13Bパラメータまでの異なるモデルファミリーに対してスケーラブルであることも確認しました。コードとモデルチェックポイントはhttps://aka.ms/MiniLLMで公開予定です。
大規模言語モデル(LLM)の前例のない性能は、評価方法の改善を必要としています。LLMの能力の幅を単に探求するだけでなく、徹底的で偏りのない、かつ適用可能な評価を行うためには、慎重かつ思慮深い設計が不可欠であると考えます。LLMにとって世界の知識が重要であることを踏まえ、我々は知識指向のLLM評価ベンチマーク(KoLA)を構築しました。このベンチマークでは、以下の3つの重要な要素を慎重に設計しています。(1) 能力モデリングにおいて、人間の認知を模倣し、知識関連能力の4段階の分類体系を形成し、19のタスクを網羅しています。(2) データに関しては、公平な比較を確保するため、LLMが広く事前学習しているWikipediaと、継続的に収集される新興コーパスの両方を使用し、未知のデータや進化する知識を扱う能力を評価することを目指しています。(3) 評価基準では、対照的なシステムを採用し、タスクやモデル間の数値的な比較を容易にするための全体的な標準スコアと、知識の幻覚を自動的に評価するための独自の自己対照メトリックを含めています。我々は21のオープンソースおよび商用LLMを評価し、いくつかの興味深い知見を得ました。KoLAデータセットとオープン参加型リーダーボードはhttps://kola.xlore.cnで公開されており、LLMや知識関連システムの開発のための参考として継続的に更新されます。
GPT-4のような基盤大規模言語モデル(LLM)は、自然言語処理を通じた実世界での応用により、AIにおける革命を象徴しています。しかし、これらのモデルは、偏見のある、プライベートな、または有害なテキストの存在や、著作権で保護された素材の無許可使用など、多くの重大なリスクも抱えています。 私たちは、Generative Pretrained Transformers(GPT)に基づく大規模言語モデル(LLM)の作成と使用のためのオープンソースコードリポジトリスイートであるh2oGPTを紹介します。このプロジェクトの目標は、クローズドソースのGPTに対する世界最高の真のオープンソース代替品を作成することです。驚異的で止められないオープンソースコミュニティとの協力の一環として、商用利用可能な7Bから40Bパラメータまでの複数のファインチューニング済みh2oGPTモデルを、完全に許諾的なApache 2.0ライセンスの下でオープンソース化します。私たちのリリースには、自然言語を使用した100%プライベートなドキュメント検索も含まれています。 オープンソースの言語モデルは、AI開発を促進し、よりアクセスしやすく信頼できるものにするのに役立ちます。これらは参入障壁を下げ、個人やグループがこれらのモデルを自分のニーズに合わせてカスタマイズすることを可能にします。この開放性は、イノベーション、透明性、公平性を高めます。AIの恩恵を公平に共有するためにはオープンソース戦略が必要であり、H2O.aiはAIとLLMの民主化を続けていきます。
私たちは、テキスト記述のみから現実的なアニメーション可能な3D人間アバターモデルを生成する方法であるDreamHumanを紹介します。最近のテキストから3Dを生成する手法は大きな進歩を遂げていますが、重要な側面でまだ不足しています。制御性や空間解像度は依然として限られており、既存の手法は固定された3D人間モデルを生成するだけで、アニメーション可能なモデルではありません。また、人間のような複雑な構造における人体計測の一貫性は依然として課題です。DreamHumanは、大規模なテキストから画像を合成するモデル、ニューラルラジアンスフィールド、統計的人体モデルを新たなモデリングと最適化フレームワークで結びつけます。これにより、高品質なテクスチャとインスタンス固有の表面変形を学習した動的な3D人間アバターを生成することが可能になります。私たちの手法が、テキストから多様なアニメーション可能で現実的な3D人間モデルを生成できることを実証します。私たちの3Dモデルは、多様な外見、服装、肌の色、体型を持ち、一般的なテキストから3Dを生成するアプローチや以前のテキストベースの3Dアバター生成器を視覚的な忠実度で大幅に上回ります。さらなる結果やアニメーションについては、私たちのウェブサイトhttps://dream-human.github.ioをご覧ください。
命令チューニングされた大規模言語モデル(LLM)は、様々なNLPタスクで顕著な能力を示しているものの、テキスト以外のデータモダリティに対する有効性は十分に研究されていません。本研究では、視覚、音声、テキスト情報をシームレスに統合する新しいマルチモーダルLLMであるMacaw-LLMを提案します。Macaw-LLMは、マルチモーダルデータをエンコードするモダリティモジュール、事前学習済みLLMを活用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントで構成されています。私たちの新しいアライメントモジュールは、マルチモーダル特徴をテキスト特徴にシームレスに橋渡しし、モダリティモジュールから認知モジュールへの適応プロセスを簡素化します。さらに、69Kの画像インスタンスと50Kの動画インスタンスを含む、マルチターン対話形式の大規模マルチモーダル命令データセットを構築しました。私たちは、データ、コード、モデルを公開しており、これがマルチモーダルLLMの将来の研究の道を開き、LLMが多様なデータモダリティを処理し、複雑な現実世界のシナリオに対処する能力を拡張することを期待しています。
大規模言語モデル(LLM)は、文脈学習を通じて論理的推論からコード記述まで、多様な新たな能力を獲得する上で目覚ましい進展を示してきました。ロボティクス研究者たちも、ロボット制御の能力を向上させるためにLLMを活用する方法を探求してきました。しかし、低レベルのロボット動作はハードウェアに依存し、LLMの学習コーパスでは十分に表現されていないため、これまでのLLMをロボティクスに応用する試みは、主にLLMを意味論的プランナーとして扱うか、人間が設計した制御プリミティブを介してロボットとインターフェースするものでした。一方、報酬関数は、多様なタスクを達成するために制御ポリシーを最適化できる柔軟な表現として示されており、その意味論的豊かさからLLMによって指定するのに適しています。本研究では、この認識を活かし、LLMを利用して報酬パラメータを定義し、それを最適化することで多様なロボットタスクを達成する新しいパラダイムを提案します。LLMによって生成される中間インターフェースとして報酬を使用することで、高レベルの言語指示や修正を低レベルのロボット動作に効果的に橋渡しすることができます。同時に、これをリアルタイム最適化ツールであるMuJoCo MPCと組み合わせることで、ユーザーが即座に結果を観察し、システムにフィードバックを提供できるインタラクティブな行動作成体験を実現します。提案手法の性能を体系的に評価するために、シミュレーション環境における四足歩行ロボットと器用なマニピュレータロボットに対して合計17のタスクを設計しました。提案手法は設計されたタスクの90%を確実に達成する一方で、Code-as-policiesを用いたプリミティブスキルをインターフェースとするベースラインは50%のタスクしか達成できませんでした。さらに、実機のロボットアームにおいても本手法を検証し、非把持的なプッシュなどの複雑な操作スキルがインタラクティブシステムを通じて出現することを示しました。
現実世界における物体の多様性はほぼ無限であり、固定されたカテゴリセットで訓練されたモデルでは捉えきれない。その結果、近年ではオープン・ボキャブラリ手法がコミュニティの関心を集めている。本論文では、ゼロショット・オープン・ボキャブラリセグメンテーションのための新たな手法を提案する。従来の研究は主に、画像とテキストのペアを用いたコントラスティブ訓練に依存し、言語と整合し、かつ良好に局所化された画像特徴を学習するためにグループ化メカニズムを活用してきた。しかし、これでは類似したキャプションを持つ画像の視覚的外観がしばしば異なるため、曖昧さが生じる可能性がある。代わりに、我々は大規模なテキストから画像への拡散モデルの生成特性を活用し、与えられたテキストカテゴリに対するサポート画像セットをサンプリングする。これにより、与えられたテキストに対する外観の分布が提供され、曖昧さの問題を回避する。さらに、サンプリングされた画像の文脈的背景を考慮するメカニズムを提案し、物体をより良く局所化し、背景を直接セグメント化する。我々の手法は、既存の事前訓練された自己教師あり特徴抽出器を自然言語に基づいて接地し、サポートセット内の領域にマッピングすることで説明可能な予測を提供できることを示す。提案手法は訓練不要であり、事前訓練済みのコンポーネントのみに依存しているにもかかわらず、様々なオープン・ボキャブラリセグメンテーションベンチマークで強力な性能を発揮し、Pascal VOCベンチマークでは10%以上のリードを獲得している。
意思決定タスクを解決する際、人間は通常2つの主要な情報源に依存します。(1) 環境からのインタラクションのリプレイを提供する過去のポリシーデータ、(2) 貴重な思考プロセスや戦略的考察を明らかにする自然言語形式の分析的洞察です。しかしながら、これまでの研究の大半は1つの情報源にのみ焦点を当てています。つまり、ポリシーや価値関数を直接学習するために過去のリプレイデータのみを使用するか、あるいは言語コーパスだけを利用して言語モデルのトレーニングを行うかのいずれかです。本論文では、強力な自律エージェントはこれら両方の情報源をカバーすべきであると主張します。そこで、チェスゲームにおけるこれら2つの情報源のデータを統合することで、ポリシー学習と言語モデリングを橋渡しするGPTモデルであるChessGPTを提案します。具体的には、チェスに関連する大規模なゲームと言語データセットを構築します。このデータセットを活用して、ポリシー学習と言語モデリングを統合した2つのモデル例、ChessCLIPとChessGPTを紹介します。最後に、言語モデルのチェス能力を評価するための完全な評価フレームワークを提案します。実験結果は、私たちのモデルとデータセットの有効性を検証します。コード、モデル、データセットをhttps://github.com/waterhorse1/ChessGPTでオープンソースとして公開しています。
MITの数学および電気工学・コンピュータサイエンス(EECS)の学位取得に必要な全コースから、問題集、中間試験、期末試験に基づく4,550問の質問と解答を網羅したデータセットを構築しました。我々は、大規模言語モデルがMITの数学およびEECS専攻の卒業要件を満たす能力を評価します。その結果、GPT-3.5はMITカリキュラム全体の3分の1を成功裏に解決し、プロンプトエンジニアリングを施したGPT-4は、画像に基づく問題を除いたテストセットにおいて完全な正答率を達成しました。このデータセットを用いて、オープンソースの大規模言語モデルをファインチューニングしました。GPT-4を活用してモデルの回答を自動採点し、コース、質問、回答タイプごとの詳細なパフォーマンス分析を提供します。質問を低次元空間に埋め込むことで、質問、トピック、クラス間の関係性を探り、few-shot学習を通じて他の質問やクラスを解決するために必要な質問とクラスを特定しました。本分析は、コースの前提条件とカリキュラム設計に関する貴重な洞察を提供し、言語モデルが数学およびEECS教育の学習と改善に果たす可能性を明らかにしています。
本論文では、アンティシペーション(anticipation)という手法を導入します。これは、第二の相関プロセス(制御プロセス)の実現値に非同期で条件付けられた時系列点過程(イベントプロセス)の制御可能な生成モデルを構築する方法です。これを実現するために、イベントと制御のシーケンスを交互に配置し、制御がイベントシーケンス内の停止時間の後に現れるようにします。この研究は、シンボリック音楽生成の制御において生じる問題に動機づけられています。我々は、制御がイベント自体の部分集合であるインフィリング制御タスクに焦点を当て、固定された制御イベントが与えられた下でイベントシーケンスを完成させる条件付き生成を行います。アンティシペーションを用いたインフィリングモデルは、大規模で多様なLakh MIDI音楽データセットを使用して訓練されます。これらのモデルは、プロンプト付き音楽生成において自己回帰モデルと同等の性能を示し、さらに伴奏を含むインフィリング制御タスクを実行する能力を備えています。人間の評価者は、アンティシペーションモデルが生成する伴奏が、20秒のクリップにおいて人間が作曲した音楽と同等の音楽性を持つと報告しています。
入力動画に対して音楽を推薦する方法を提案します。この方法では、ユーザーが自由形式の自然言語を用いて音楽選択をガイドできるようにします。この問題設定における主要な課題は、既存のミュージックビデオデータセットが(動画、音楽)のトレーニングペアを提供しているものの、音楽のテキスト記述が欠如している点です。本研究では、以下の3つの貢献を通じてこの課題に取り組みます。 第一に、アナロジーベースのプロンプト手法を利用したテキスト合成アプローチを提案します。この手法では、事前学習済みの音楽タガーの出力と少数の人間によるテキスト記述を基に、大規模言語モデル(BLOOM-176B)を用いて自然言語による音楽記述を生成します。第二に、これらの合成された音楽記述を使用して、テキストと動画の入力表現を融合し、音楽サンプルをクエリする新しいトリモーダルモデルを訓練します。訓練においては、モデルの性能に重要なテキストドロップアウト正則化メカニズムを導入します。提案するモデル設計により、検索された音楽オーディオが、動画に描かれた視覚的スタイルと、自然言語クエリで記述された音楽のジャンル、ムード、または楽器編成の両方に一致するようになります。 第三に、提案手法を評価するために、YT8M-MusicVideoデータセットから4,000クリップのサブセットを選び、自然言語による音楽記述を付与したテストデータセットを収集し、公開します。提案手法が、従来の動画から音楽を検索する方法の性能に匹敵またはそれを上回り、テキストガイダンスを使用した場合の検索精度を大幅に向上させることを示します。
我々はアジャイルロボティクスにおけるベンチマークタスクとして、高速で投げられた物体をキャッチする課題に取り組む。これは、物体の視覚観測とロボットの自己受容感覚のみを利用し、1秒未満の時間内で物体を追跡、迎撃、受け止めるという挑戦的な課題である。我々は、根本的に異なる2つの解決戦略の相対的なメリットを提示する:(i) 加速された制約付き軌道最適化を用いたモデル予測制御、(ii) ゼロ次最適化を用いた強化学習。サンプル効率、シミュレーションから実機への転移、分布シフトに対するロバスト性、全身のマルチモーダリティなど、様々な性能トレードオフについて、広範な実機実験を通じて洞察を提供する。最後に、アジャイルロボット制御のための「古典的」手法と「学習ベース」手法を融合させる提案を行う。実験の動画はhttps://sites.google.com/view/agile-catchingで閲覧可能である。
事前学習済みのマルチモーダル視覚言語モデル(VLM)は、特に少数ショットやゼロショット設定における下流視覚タスクでの優れた性能により、ますます注目を集めています。しかし、特定の下流アプリケーションにおいて最適なVLMを選択することは容易ではなく、データセットやタスクに依存します。一方、新しいアプリケーションに対して利用可能なすべてのVLMを網羅的に評価することは、時間と計算リソースを要するだけでなく、評価用のラベル付きデータセットの収集も必要とします。オープンソースのVLMバリアントが増える中、評価用データセットへのアクセスを必要としない効率的なモデル選択戦略が求められています。本論文では、下流タスクのデータセットにアクセスすることなく、VLMのゼロショット性能を効率的に評価するための新しいタスクとベンチマークを提案します。具体的には、LOVM(Language-Only Vision Model Selection)という新しいタスクを導入し、所望の下流アプリケーションのテキスト記述のみに基づいてモデル選択と性能予測を行う手法を期待します。さらに、35の事前学習済みVLMと23のデータセットに対する真の評価からなる大規模なLOVMベンチマークを構築し、手法が事前学習済みVLMをランク付けし、そのゼロショット性能を予測することを期待します。
近年、拡散モデルに基づく生成モデルは画像生成と編集において顕著な成功を収めています。しかし、ビデオ編集への応用では依然として重要な制約が存在します。本論文では、時間的および空間的な一貫性を強く保証するゼロショットテキストベースのビデオ編集手法であるVidEditを紹介します。まず、アトラスベースのモデルと事前学習済みのテキストから画像への拡散モデルを組み合わせることで、トレーニング不要で効率的な編集手法を提案し、設計上時間的な滑らかさを実現します。次に、既存のパノプティックセグメンターとエッジ検出器を活用し、条件付き拡散ベースのアトラス編集に適応させます。これにより、対象領域の細かな空間制御を可能にしつつ、元のビデオの構造を厳密に保持します。定量的および定性的な実験により、VidEditがDAVISデータセットにおいて、意味的忠実性、画像保存性、時間的一貫性の指標において最先端の手法を凌駕することが示されています。このフレームワークでは、単一のビデオ処理に約1分しかかからず、一意のテキストプロンプトに基づいて複数の互換性のある編集を生成することが可能です。プロジェクトのウェブページはhttps://videdit.github.ioにあります。
3Dシーン理解における最近の進展により、多様なシーンからなる大規模データセットにわたる表現のスケーラブルな学習が可能となった。その結果、未見のシーンやオブジェクトへの一般化、単一または少数の入力画像からの新規視点のレンダリング、編集をサポートする制御可能なシーン生成が実現できるようになった。しかし、多数のシーンを共同で学習することは、通常、NeRFのような単一シーン最適化モデルと比較してレンダリング品質を損なう。本論文では、拡散モデルの最近の進展を活用し、3Dシーン表現学習モデルに高忠実度の新規視点レンダリング能力を付与しつつ、オブジェクトレベルのシーン編集といった利点を大幅に保持する。特に、オブジェクト中心のスロットベースのシーン表現を条件とした3Dシーン生成のためにビデオ拡散アーキテクチャを適応させたDORSalを提案する。複雑な合成マルチオブジェクトシーンと実世界の大規模ストリートビューデータセットの両方において、DORSalがオブジェクトレベルの編集を伴う3Dシーンのスケーラブルなニューラルレンダリングを可能にし、既存のアプローチを改善することを示す。
ビデオから新しい照明条件下でのシーンの現実的な自由視点レンダリングを可能にするモデルの構築方法を示します。本手法「UrbanIR: Urban Scene Inverse Rendering」は、ビデオから逆グラフィックス表現を計算します。UrbanIRは、未知の照明条件下での無制限な屋外シーンの単一ビデオから、形状、アルベド、可視性、太陽および天空照明を同時に推定します。UrbanIRは、車載カメラからのビデオを使用します(典型的なNeRFスタイルの推定における同じポイントの多数のビューとは対照的です)。その結果、標準的な手法では(例えば屋根などの)幾何学推定が不十分であり、多数の「フローティングオブジェクト」が発生します。逆グラフィックス推定の誤差は、強いレンダリングアーティファクトを引き起こす可能性があります。UrbanIRは、これらの誤差源やその他の誤差を制御するための新しい損失関数を使用します。UrbanIRは、元のシーンのシャドウボリュームを非常に正確に推定するための新しい損失関数を使用します。結果として得られる表現は、制御可能な編集を容易にし、再照明されたシーンや挿入されたオブジェクトのフォトリアルな自由視点レンダリングを実現します。定性的評価により、最先端技術に対する大幅な改善が示されています。
本論文では、自律的な情報探索型視覚質問応答フレームワークであるAVISを提案する。本手法は、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に策定し、その出力を調査することで、提示された質問に答えるために必要な知識を獲得する。「この画像に写っている建物はどの出来事を記念しているのか?」といった外部知識を必要とする視覚質問に応答することは、複雑な課題である。この課題は、APIの呼び出し、その応答の分析、情報に基づいた意思決定といった一連のアクションを必要とする組み合わせ探索空間を提示する。我々は、この課題に直面した際の人間の意思決定の多様な事例を収集するためにユーザー調査を実施した。このデータを用いて、次にどのツールを使用するかを動的に決定するLLM駆動のプランナー、ツールの出力から重要な情報を分析・抽出するLLM駆動の推論器、プロセス全体を通じて獲得した情報を保持するワーキングメモリの3つのコンポーネントからなるシステムを設計した。収集したユーザーの行動は、我々のシステムを導く2つの重要な方法で活用される。まず、ユーザーが行った意思決定のシーケンスを分析して遷移グラフを作成する。このグラフは、異なる状態を定義し、各状態で利用可能なアクションのセットを制限する。次に、ユーザーの意思決定の事例を用いて、LLM駆動のプランナーと推論器に関連する文脈事例を提供し、情報に基づいた意思決定を行う能力を強化する。我々は、AVISがInfoseekやOK-VQAといった知識集約型視覚質問応答ベンチマークにおいて、最先端の結果を達成することを示す。
最近のニューラル再構成技術の進展により、カジュアルに撮影された画像コレクションから高品質な3Dオブジェクトの再構成が可能になりました。現在の技術は、主にStructure-from-Motion(SfM)技術がグラウンドトゥルース(GT)カメラポーズを提供できる比較的単純な画像コレクションで進捗を分析しています。しかし、SfM技術は、背景や照明が異なる画像検索結果のような「in-the-wild」な画像コレクションでは失敗しがちです。カジュアルな画像キャプチャからの3D再構成に関する体系的な研究進展を可能にするため、我々はNAVIを提案します。これは、高品質な3Dスキャンと各画像の2D-3Dアラインメントを提供するカテゴリに依存しない画像コレクションの新しいデータセットであり、ほぼ完璧なGTカメラパラメータを提供します。これらの2D-3Dアラインメントにより、密なピクセル対応、深度マップ、セグメンテーションマップなどの正確な派生アノテーションを抽出できます。我々は、NAVI画像コレクションをさまざまな問題設定で使用し、NAVIが既存のデータセットでは不可能だったより徹底的な評価を可能にすることを示します。NAVIは、3D再構成と対応推定に関する体系的な研究進展に有益であると信じています。プロジェクトページ: https://navidataset.github.io
本研究では、大規模言語モデル(LLM)がYouTube動画の自動音声認識(ASR)に与える影響を調査します。YouTube動画は長文ASRのソースとして使用されます。米国英語(en-us)とコードスイッチングされたインド英語(en-in)の長文ASRテストセットにおいて、最大8%の相対的な単語誤り率(WER)の低減を示し、最大エントロピーに基づく言語モデルを使用した強力なファーストパスベースラインと比較して、重要語誤り率(STER)では最大30%の相対的な低減を達成しました。適切な(非木構造の)有向グラフトポロジーを持つラティスを生成し、前のセグメントの1-best仮説からコンテキストを引き継ぐ改良されたラティス処理は、LLMを用いたリスコアリングにおいて大きな成果をもたらします。また、C4のような大量の利用可能なデータで訓練されたLLMと従来のニューラル言語モデルを組み合わせることで、性能向上が加算的であり、最大エントロピー言語モデルを使用した強力なファーストパスベースラインを大幅に上回ることも明らかになりました。
様々な照明条件下での物体やシーンの再構築とリライティングは困難な課題です。既存のニューラルレンダリング手法では、材料と光の複雑な相互作用を扱うことができない場合が多く見られます。事前計算された放射伝達技術を取り入れることでグローバルイルミネーションを実現できますが、表面下散乱効果を持つ材料には依然として苦戦しています。本研究では、ボリュームレンダリングを通じて放射伝達場を学習し、様々な外観の手がかりを活用してジオメトリをエンドツーエンドで洗練する新しいフレームワークを提案します。このフレームワークは、リライティングと再構築の能力を拡張し、データ駆動型のアプローチでより広範な材料を扱えるようにします。結果として得られるモデルは、既存および新しい条件下で説得力のあるレンダリング結果を生成します。私たちは、コードと表面下散乱効果を持つ物体の新しいライトステージデータセットを公開する予定です。
慎重に組み立てられたレゴのスポーツカーが置かれた机を片付ける任務を負ったロボットを考えてみましょう。人間なら、そのスポーツカーを分解して片付けることが社会的に適切でないと認識するかもしれません。では、ロボットはどのようにしてその結論に達することができるでしょうか?大規模言語モデル(LLM)が最近、社会的推論を可能にするために使用されていますが、この推論を現実世界に根ざすことは困難でした。現実世界で推論するためには、ロボットはLLMを受動的に問い合わせるだけでなく、正しい決定をするために必要な情報を環境から*積極的に収集*する必要があります。例えば、隠れた車を検出した後、ロボットはその車がレゴで作られた高度なモデルカーなのか、幼児が作ったおもちゃの車なのかを知るために、積極的にその車を認識する必要があるかもしれません。我々は、ロボットが根ざした社会的推論を行うために環境を積極的に認識するのを助けるために、LLMと視覚言語モデル(VLM)を活用するアプローチを提案します。我々のフレームワークを大規模に評価するために、70の現実世界の表面の画像を含むMessySurfacesデータセットを公開します。さらに、我々のアプローチを2つの慎重に設計された表面でロボットを用いて説明します。積極的な認識を使用しないベースラインと比較して、MessySurfacesベンチマークで平均12.9%、ロボット実験で平均15%の改善が見られました。我々のアプローチのデータセット、コード、およびビデオはhttps://minaek.github.io/groundedsocialreasoningで見つけることができます。
深層学習モデルのハイパーパラメータチューニングは、同じ計算量で桁違いの性能向上をもたらす可能性があります。しかし、体系的にチューニングを行うことは稀であり、特に大規模モデルでは評価コストが高く、多くのハイパーパラメータを抱えるため、トレードオフ、予算、探索範囲に関する難しい判断が必要となります。これらの課題に対処し、大規模モデルを堅牢にチューニングする実用的な方法を提案するため、我々はCost-Aware Pareto Region Bayesian Search(CARBS)を紹介します。これは、性能とコストのパレートフロンティア周辺で局所探索を行うベイズ最適化アルゴリズムです。CARBSは、多くのハイパーパラメータを持つ無制限の探索空間でも良好に機能し、スケーリング関係を学習することでモデルがスケールアップされてもチューニングを継続し、チューニングの「ブラックマジック」の多くを自動化します。我々の結果の中には、単純なベースライン(ProcGen論文で提供されたPPO)をチューニングするだけでProcGenベンチマーク全体を効果的に解決した例があります。また、Chinchillaプロジェクト(Hoffmann et al. 2022)のモデルサイズとトレーニングトークンのスケーリング結果を再現しつつ、他のすべてのハイパーパラメータのスケーリング法則を発見しました。これは、大幅に少ない計算量で行える簡単な自動化プロセスであり、言語モデルに限らず、あらゆる深層学習問題に適用可能です。