翻訳付きの日次キュレーションされたAI研究論文
現代の大規模言語モデル(LLM)が、強化学習や意思決定における中核的な能力である探索にどの程度関与できるかを調査します。本研究では、既存のLLMのネイティブな性能に焦点を当て、トレーニング介入を行わずに検証します。LLMをエージェントとして単純な多腕バンディット環境に配置し、環境の説明とインタラクション履歴を完全にコンテキスト内(つまり、LLMのプロンプト内)で指定します。GPT-3.5、GPT-4、およびLlama2を使用し、さまざまなプロンプト設計を実験した結果、モデルは大幅な介入なしには堅牢な探索を行わないことがわかりました。i) すべての実験の中で、満足のいく探索行動が得られたのは1つの設定のみでした:GPT-4に連鎖思考(chain-of-thought)推論と外部で要約されたインタラクション履歴(十分統計量として提示)を組み合わせた場合です。ii) 他のすべての設定、特に連鎖思考推論を使用したが履歴が要約されていない場合では、堅牢な探索行動は得られませんでした。これらの結果は肯定的に解釈できるものの、より複雑な設定では不可能かもしれない外部要約が、LLMエージェントから望ましい行動を引き出すために重要であることを示唆しています。結論として、複雑な設定においてLLMベースの意思決定エージェントを強化するためには、ファインチューニングやデータセットのキュレーションといった非自明なアルゴリズム的介入が必要となる可能性があります。
事前学習済みの大規模言語モデル(LLM)は、現在、自然言語処理タスクの大半において最先端の技術として位置づけられています。多くの実世界のアプリケーションでは、満足のいく性能レベルに達するためにファインチューニングが必要とされますが、その多くは低データ領域にあり、ファインチューニングが困難です。この問題に対処するため、我々はLLM2LLMを提案します。これは、教師LLMを使用して特定のタスクに特化したファインチューニングに利用できる追加データを生成し、小さなシードデータセットを拡張する、ターゲットを絞った反復的なデータ拡張戦略です。LLM2LLMは、(1) 初期シードデータに基づいてベースラインの学生LLMをファインチューニングし、(2) モデルが誤ったデータポイントを評価・抽出し、(3) 教師LLMを使用してこれらの誤ったデータポイントに基づく合成データを生成し、それをトレーニングデータに再統合します。このアプローチにより、トレーニング中にLLMが誤って予測したデータポイントからの信号を増幅し、より困難な例に焦点を当てるためにデータセットに再統合します。我々の結果は、LLM2LLMが低データ領域におけるLLMの性能を大幅に向上させ、従来のファインチューニングや他のデータ拡張ベースラインを上回ることを示しています。LLM2LLMは、労力を要するデータキュレーションへの依存を軽減し、よりスケーラブルで高性能なLLMソリューションへの道を開き、データ制約のあるドメインやタスクに取り組むことを可能にします。LLaMA2-7B学生モデルを使用した低データ領域において、GSM8Kデータセットで24.2%、CaseHOLDで32.6%、SNIPSで32.0%、TRECで52.6%、SST-2で39.8%の改善を達成しました。
私たちは、行動認識、ビデオテキストタスク、ビデオ中心の対話において最先端の性能を達成する新しいビデオ基盤モデル(ViFM)であるInternVideo2を紹介します。私たちのアプローチは、マスクされたビデオトークンの再構築、クロスモーダルコントラスティブラーニング、および次のトークン予測という異なる自己または弱教師あり学習フレームワークを統合する段階的なトレーニングパラダイムを採用しています。異なるトレーニング段階は、異なるプレテキストタスクを通じて、モデルが異なるレベルの構造と意味情報を捕捉することを導きます。データレベルでは、ビデオを意味的にセグメント化し、ビデオ-オーディオ-音声キャプションを生成することで、時空間的一貫性を優先します。これにより、ビデオとテキストの整合性が向上します。私たちはInternVideo2のデータとモデルサイズをスケールアップしました。広範な実験を通じて、私たちの設計を検証し、60以上のビデオおよびオーディオタスクにおいて最先端の性能を実証しました。特に、私たちのモデルは、さまざまなビデオ関連のキャプション作成、対話、および長いビデオ理解のベンチマークで他のモデルを上回り、長い時間的文脈を推論し理解する能力を強調しています。コードとモデルはhttps://github.com/OpenGVLab/InternVideo2/で利用可能です。
本研究では、3D人体パラメトリックモデルを潜在拡散フレームワーク内で活用し、現行の人物生成技術における形状アライメントとモーションガイダンスを強化するための人間画像アニメーション手法を提案します。本手法では、3D人体パラメトリックモデルとしてSMPL(Skinned Multi-Person Linear)モデルを採用し、身体形状とポーズの統一的な表現を確立します。これにより、ソースビデオから複雑な人体ジオメトリとモーション特性を正確に捕捉することが可能となります。具体的には、SMPLシーケンスから得られたレンダリング深度画像、法線マップ、セマンティックマップを、スケルトンベースのモーションガイダンスと共に組み込み、潜在拡散モデルに対する条件付けを包括的な3D形状と詳細なポーズ属性で強化します。空間領域において形状とモーションの潜在表現を融合するために、自己注意機構を統合した多層モーションフュージョンモジュールを採用します。3D人体パラメトリックモデルをモーションガイダンスとして表現することで、参照画像とソースビデオのモーション間における人体のパラメトリック形状アライメントを実行できます。ベンチマークデータセットで実施した実験的評価により、本手法がポーズと形状の変動を正確に捉えた高品質な人間アニメーションを生成する優れた能力を実証しました。さらに、提案手法は提案されたワイルドデータセットにおいても優れた汎化能力を示しています。プロジェクトページ: https://fudan-generative-vision.github.io/champ
現実世界のアプリケーションでは、一貫したテーマを共有する大量の3Dアセットが必要とされることが多い。テキストや画像からの一般的な3Dコンテンツ作成においては目覚ましい進展が見られるものの、入力された3Dサンプルと共通のテーマに従ったカスタマイズされた3Dアセットを合成することは、未解決かつ困難な課題として残されている。本研究では、テーマを意識した3D-to-3D生成のための新しいアプローチであるThemeStationを提案する。ThemeStationは、与えられた少数のサンプルに基づいてカスタマイズされた3Dアセットを合成し、以下の2つの目標を達成する:1)与えられたサンプルとテーマ的に整合する3Dアセットを生成する「統一性」、2)高いバリエーションを持つ3Dアセットを生成する「多様性」。これを実現するため、我々はまずコンセプト画像を描画し、その後参照情報を活用した3Dモデリングを行う2段階のフレームワークを設計した。さらに、入力サンプルと合成されたコンセプト画像の両方から事前知識を活用するために、新しいデュアルスコア蒸留(DSD)損失を提案する。大規模な実験とユーザスタディを通じて、ThemeStationが多様なテーマを意識した3Dモデルを高品質で生成する点において、従来の手法を凌駕することが確認された。ThemeStationは、制御可能な3D-to-3D生成など、さまざまな応用も可能にする。
本論文では、大規模なビデオと言語のアラインメントを行うためのアプローチであるVidLAを提案する。従来のビデオと言語のアラインメント手法には2つの主要な制限がある。第一に、短期的および長期的な時間的依存関係を捉えることができず、通常、複雑な階層的ディープネットワークアーキテクチャを採用しているため、既存の事前学習済み画像-テキスト基盤モデルとの統合が困難である。この制限を効果的に解決するため、我々はネットワークアーキテクチャをシンプルに保ち、ビデオの時間的階層性を考慮して異なる時間解像度で動作するデータトークンのセットを階層的に使用する。シンプルなツータワーアーキテクチャを採用することで、事前学習済み画像-テキスト基盤モデルを用いてビデオと言語モデルを初期化し、最終的な性能を向上させることができる。第二に、既存のビデオと言語のアラインメント手法は、意味的に整合した大規模な訓練データの不足に悩まされている。これを克服するため、我々は最近の大規模言語モデル(LLM)を活用して、これまでで最大かつ視覚的基盤が強化されたビデオと言語データセットを構築した。さらに、既存のビデオ-テキストデータセットが短いクリップしか含まないのに対し、我々のデータセットは様々な長さのビデオクリップを豊富に含んでおり、時間的階層的なデータトークンが異なる時間スケールでより良い表現を抽出するのに役立つ。全体として、実験結果は、提案手法が複数の検索ベンチマークで最先端の手法を凌駕し、特に長いビデオにおいて優れた性能を発揮し、分類ベンチマークでも競争力のある性能を示すことを示している。
Transformerは、シーケンス混合のためのアテンションネットワークとチャネル混合のためのMLPを広く採用し、さまざまな領域でのブレークスルーを達成する上で重要な役割を果たしてきました。しかし、最近の研究では、アテンションネットワークの低い帰納的バイアスや入力シーケンス長に対する二次的な複雑性といった問題が指摘されています。これらの問題に対処し、より長いシーケンス長を扱うために、S4やその他のState Space Models(SSMs)(Hippo、Global Convolutions、liquid S4、LRU、Mega、Mambaなど)が登場しました。Mambaは最先端のSSMですが、コンピュータビジョンのデータセットに対して大規模なネットワークにスケールアップする際に安定性の問題があります。我々は、SiMBAという新しいアーキテクチャを提案します。SiMBAは、特定の固有値計算によるチャネルモデリングのためにEinstein FFT(EinFFT)を導入し、シーケンスモデリングのためにMambaブロックを使用します。画像および時系列ベンチマークでの広範な性能研究により、SiMBAが既存のSSMを上回り、最先端のTransformerとの性能差を埋めることが示されています。特に、SiMBAはImageNetやStanford Car、Flowerなどの転移学習ベンチマーク、および7つの時系列ベンチマークデータセットにおいて、新しい最先端のSSMとしての地位を確立しました。プロジェクトページは以下のウェブサイトで利用可能です:~https://github.com/badripatro/Simba。
本論文では、DragAPartという手法を提案する。この手法は、画像と一連のドラッグ操作を入力として受け取り、そのドラッグ操作の作用と整合する新しい状態の物体画像を生成することができる。従来の物体の位置変更に焦点を当てた研究とは異なり、DragAPartは引き出しの開閉といった部品レベルの相互作用を予測する。我々はこの問題を、特定の運動構造や物体カテゴリーに限定されない汎用的な運動モデルの学習の代理課題として研究する。この目的のために、事前学習済みの画像生成器を出発点とし、新たに導入する合成データセットDrag-a-Moveでファインチューニングを行う。新しいドラッグ操作のエンコーディングとデータセットのランダム化を組み合わせることで、この新しいモデルは実画像や異なるカテゴリーに対して良好な汎化性能を示す。従来の運動制御型生成器と比較して、我々の手法は部品レベルの運動理解において大幅に優れた性能を実証する。
現代の大規模言語モデル(LLMs)は、多様なユーザータスクを可能にする長く複雑な指示に従う能力を持っています。しかし、情報検索(IR)モデルがそのアーキテクチャの基盤としてLLMsを使用しているにもかかわらず、ほとんどすべてのモデルは依然としてクエリのみを入力として受け取り、指示を含んでいません。指示を受け取る最近の少数のモデルについても、それらがどのように指示を使用しているかは不明です。私たちは、FollowIRというデータセットを紹介します。このデータセットには、IRモデルが現実世界の指示をより良く理解するためのトレーニングセットと、厳密な指示評価ベンチマークが含まれています。FollowIRは、TREC会議の長い歴史に基づいて構築されています。TRECでは、人間のアノテーターに文書の関連性を決定するための指示(ナラティブとも呼ばれる)を提供していますが、IRモデルもこれらの詳細な指示に基づいて関連性を理解し決定できるべきです。私たちの評価ベンチマークは、3つの深く評価されたTRECコレクションから始まり、アノテーターの指示を変更して関連文書を再アノテーションします。このプロセスを通じて、新しいペアワイズ評価フレームワークを使用して、IRモデルが指示にどれだけ従うかを測定できます。私たちの結果は、既存の検索モデルが指示を正しく使用できず、基本的なキーワードとして使用し、長文の情報を理解するのに苦労していることを示しています。しかし、IRモデルが複雑な指示に従うことを学ぶことは可能です。私たちの新しいFollowIR-7Bモデルは、トレーニングセットでのファインチューニング後に大幅な改善(13%以上)を示しています。
逐語的なフィードバックは、ソフトウェア開発に不可欠なユーザー体験、意見、要件の貴重なリポジトリを構成します。このようなデータから価値ある洞察を効果的かつ効率的に抽出することは、困難な課題です。本論文では、大規模言語モデル(LLM)を活用した自然言語インターフェースによる大規模フィードバック分析のための革新的な分析フレームワーク「Allhands」を紹介します。Allhandsは、従来のフィードバック分析ワークフローに従い、最初にフィードバックの分類とトピックモデリングを行い、それらを構造的に強化された形式に変換します。これにより、LLMを活用して精度、堅牢性、汎用性、ユーザーフレンドリー性を向上させます。その後、LLMエージェントを使用して、フィードバックに関するユーザーの多様な自然言語質問を解釈し、それらをPythonコードに変換して実行し、テキスト、コード、表、画像を含む包括的なマルチモーダル応答を提供します。 Allhandsを3つの異なるフィードバックデータセットで評価しました。実験結果は、Allhandsが分類やトピックモデリングを含む分析の全段階で優れた効果を発揮し、最終的にユーザーに包括的で正確かつ人間が読みやすい応答を提供する「何でも聞いてください」体験を実現することを示しています。私たちの知る限り、Allhandsは、自然言語インターフェースを通じて多様でカスタマイズされた洞察抽出の要件をサポートする最初の包括的なフィードバック分析フレームワークです。
最近のテキストから3D生成へのアプローチは、印象的な3D結果を生み出しますが、プロンプトごとに最大1時間かかる時間のかかる最適化を必要とします。ATT3Dのような償却法は、複数のプロンプトを同時に最適化して効率を向上させ、高速なテキストから3D合成を可能にします。しかし、高周波のジオメトリやテクスチャの詳細を捉えることができず、大規模なプロンプトセットに拡張するのが難しいため、一般化が不十分です。私たちはLATTE3Dを導入し、これらの制限を克服して、大幅に大規模なプロンプトセットにおいて高速で高品質な生成を実現します。私たちの手法の鍵は、1)スケーラブルなアーキテクチャを構築すること、2)3D対応の拡散事前分布、形状正則化、モデル初期化を通じて最適化中に3Dデータを活用し、多様で複雑なトレーニングプロンプトに対するロバスト性を達成することです。LATTE3Dは、ニューラルフィールドとテクスチャ付きサーフェス生成の両方を償却し、単一のフォワードパスで高度に詳細なテクスチャ付きメッシュを生成します。LATTE3Dは400ミリ秒で3Dオブジェクトを生成し、高速なテスト時最適化でさらに強化することができます。
我々は、大規模言語モデル(LLM)とコンパイラフィードバックを活用した新しいコンパイラ最適化パラダイムを提案する。このモデルは、最適化されていないLLVM中間表現(IR)を入力として受け取り、最適化されたIR、最適な最適化パス、および最適化前後のIRの命令数を出力する。次に、生成された最適化パスを用いて入力コードをコンパイルし、予測された命令数が正しいか、生成されたIRがコンパイル可能か、そしてコンパイルされたコードに対応しているかを評価する。このフィードバックをLLMに返し、コードを再度最適化する機会を与える。このアプローチにより、元のモデルに対して-Ozを上回る0.53%の改善が追加された。フィードバックによりより多くの情報を追加することは直感的に思えるが、10回以上のサンプルを考慮した単純なサンプリング手法の方がはるかに高い性能を達成することがわかった。