翻訳付きの日次キュレーションされたAI研究論文
我々は、新しいタイプのビデオ表現としてコンテンツ変形場CoDeFを提案する。CoDeFは、ビデオ全体の静的なコンテンツを集約する正準コンテンツ場と、正準画像(すなわち正準コンテンツ場からレンダリングされた画像)から各フレームへの時間軸に沿った変形を記録する時間変形場で構成される。対象ビデオが与えられると、これら2つの場は慎重に設計されたレンダリングパイプラインを通じてビデオを再構築するために共同で最適化される。我々は、最適化プロセスにいくつかの正則化を意図的に導入し、正準コンテンツ場がビデオから意味(例えば、物体の形状)を継承するように促す。この設計により、CoDeFは自然に画像アルゴリズムをビデオ処理にリフトアップすることをサポートする。つまり、画像アルゴリズムを正準画像に適用し、時間変形場の助けを借りて結果をビデオ全体に容易に伝播させることができる。我々は実験的に、CoDeFが画像間変換をビデオ間変換に、キーポイント検出をキーポイント追跡に、いかなるトレーニングもなしにリフトアップできることを示す。さらに重要なことに、アルゴリズムを1つの画像にのみ適用する我々のリフトアップ戦略のおかげで、既存のビデオ間変換アプローチと比較して処理されたビデオのフレーム間一貫性が優れており、水や煙のような非剛体オブジェクトの追跡さえ可能である。プロジェクトページはhttps://qiuyu96.github.io/CoDeF/で見つけることができる。
GPT-4やPaLM-2のような大規模言語モデル(LLMs)の最近の進展は、数学的推論問題の解決において大きな進歩をもたらしました。特に、OpenAIの最新バージョンであるGPT-4 Code Interpreterは、難しい数学データセットで顕著な性能を示しています。本論文では、GPT-4 Code Interpreterのコード使用頻度に異なる制約を導入することで、コードがLLMsの推論能力をどのように強化するかを探ります。その成功は、コードの生成と実行、コード実行の出力の評価、そして不合理な出力を受け取った際に解を修正する強力なスキルに大きく起因していることがわかりました。この洞察に基づき、GPT-4 Code Interpreterの数学的推論能力をさらに向上させるために、新しい効果的なプロンプト手法である明示的なコードベースの自己検証(CSV)を提案します。この手法は、GPT-4 Code Interpreterにゼロショットプロンプトを使用して、コードを使って自身の答えを自己検証するよう促します。検証状態が「False」と記録された場合、モデルは自動的に解を修正します。これは、数学の試験中に誤りを修正するアプローチに似ています。さらに、検証結果の状態は解の信頼度を示しており、多数決の効果を向上させることができることを認識しています。GPT-4 Code InterpreterとCSVを使用することで、MATHデータセットで印象的なゼロショット精度(53.9%から84.3%)を達成しました。
本論文では、検索拡張型エンコーダ・デコーダ言語モデルの文脈内学習能力を調査する。まず、最先端のATLASモデルを包括的に分析し、事前学習とテストのミスマッチ、および制限された文脈長が主な原因となる文脈内学習の限界を明らかにする。これらの課題に対処するため、検索拡張型マスク言語モデリングとプレフィックス言語モデリングを組み合わせたRAVENモデルを提案する。さらに、追加の学習やモデルの変更を必要とせずに、より多くの文脈内の例を活用できるようにするFusion-in-Context Learningを導入し、few-shot性能を向上させる。大規模な実験を通じて、RAVENがATLASを大幅に上回り、特定のシナリオでは最も先進的な言語モデルに匹敵する結果を達成することを示す。本研究成果は、検索拡張型エンコーダ・デコーダ言語モデルの文脈内学習における可能性を強調し、この方向性でのさらなる研究を促すものである。
文脈から新規概念を学習し、適切な応答を返す能力は、人間の会話において不可欠である。現在のマルチモーダル大規模言語モデル(MLLM)や大規模言語モデル(LLM)は、大規模なデータセットで訓練されているにもかかわらず、未見の画像を認識したり、訓練なしで新規概念を理解したりすることは依然として課題である。インコンテクスト学習(ICL)は、訓練なしの少数ショット学習を探求し、モデルが限られたタスクから「学習することを学び」、未見のタスクに一般化することを促す。本研究では、MLLMの学習能力を強化するために「原因と結果から推論する」ことに重点を置いたリンクコンテクスト学習(LCL)を提案する。LCLは、従来のICLを超えて、サポートセットとクエリセット間の因果関係を明示的に強化する。因果リンクを伴うデモンストレーションを提供することで、LCLはモデルが類推だけでなくデータポイント間の根底にある因果関係も識別するよう導き、MLLMが未見の画像を認識し、新規概念をより効果的に理解することを可能にする。この新しいアプローチの評価を容易にするために、リンクコンテクスト学習のために設計された未見の生成画像-ラベルペアで構成されるISEKAIデータセットを導入する。大規模な実験により、我々のLCL-MLLMが、従来のMLLMに比べて新規概念に対する強力なリンクコンテクスト学習能力を示すことが明らかになった。コードとデータはhttps://github.com/isekai-portal/Link-Context-Learningで公開される。
本論文は、未知の照明条件下で動的な人物を撮影したスパースビュー(または単眼)ビデオから、再照明可能かつアニメーション可能なニューラルアバターを作成するという課題に取り組む。スタジオ環境と比較して、この設定はより実用的でアクセスしやすいが、非常に困難な不良設定問題を引き起こす。従来のニューラルヒューマン再構築手法は、変形した符号付き距離場(SDF)を使用してスパースビューからアニメーション可能なアバターを再構築できるが、再照明のための材質パラメータを回復することはできない。一方、微分可能な逆レンダリングベースの手法は静的な物体の材質回復に成功しているが、動的な人物に拡張するのは容易ではなく、逆レンダリングのために変形したSDF上のピクセル-表面交差と光の可視性を計算するのは計算集約的である。この課題を解決するため、我々は任意の人物ポーズ下でのワールド空間距離を近似する階層的距離クエリ(HDQ)アルゴリズムを提案する。具体的には、パラメトリックな人体モデルに基づいて粗い距離を推定し、SDFの局所変形不変性を利用して細かい距離を計算する。HDQアルゴリズムに基づき、球面トレーシングを活用して表面交差と光の可視性を効率的に推定する。これにより、スパースビュー(または単眼)入力からアニメーション可能かつ再照明可能なニューラルアバターを回復する初のシステムを開発した。実験により、我々のアプローチが最先端の手法と比較して優れた結果を生成できることが示された。再現性のために我々のコードを公開する予定である。
深層強化学習(DRL)に関する最近の研究では、実行された行動に関する明示的な情報が欠如しているオフラインデータから、良好なポリシーに関するアルゴリズム的情報を抽出できることが指摘されています。例えば、人間やロボットの映像は、報酬をもたらす行動シーケンスに関する多くの暗黙的な情報を伝える可能性がありますが、そのような映像から利益を得ようとするDRLマシンは、まず関連する状態/行動/報酬を識別し認識する方法を自ら学習する必要があります。私たちの新しい手法「Deep State Identifier」は、グラウンドトゥルースのアノテーションに依存せず、映像としてエンコードされたエピソードからリターンを予測することを学習します。その後、マスクベースの感度分析を用いて重要なクリティカルな状態を抽出・識別します。大規模な実験により、この手法がエージェントの行動を理解し改善するための潜在能力を有していることが示されています。ソースコードと生成されたデータセットはhttps://github.com/AI-Initiative-KAUST/VideoRLCSで公開されています。
自動音声認識(ASR)におけるテキストインジェクションは、ペアになっていないテキストのみのデータを、音声とテキストのペアデータを補完するために使用する手法であり、単語誤り率の改善において有望な成果を示しています。本研究では、ASR以外の補助タスク(エンドツーエンドモデルがしばしば行う非ASRタスク)におけるテキストインジェクションの利用を検討します。本論文では、共同エンドツーエンドおよび内部言語モデルトレーニング(JEIT)をテキストインジェクションアルゴリズムとして使用し、2つの補助タスクを実行するASRモデルをトレーニングします。1つ目は、デノーマライゼーションタスクである大文字化です。2つ目は、デジタルアシスタントのインタラクションにおいて、ユーザーが会話のターンを終了したかどうかを識別しようとするターンテイキング予測です。我々のテキストインジェクション手法が、ロングテールデータに対する大文字化の性能を向上させ、ターンテイキング検出の再現率を改善することを示す結果を提示します。