翻訳付きの日次キュレーションされたAI研究論文
StarCraft IIは、最も挑戦的なシミュレーション強化学習環境の一つである。これは部分的に観測可能で、確率的であり、マルチエージェント環境であり、StarCraft IIをマスターするには、長期的な戦略的計画とリアルタイムの低レベル実行が要求される。また、活発なプロフェッショナル競技シーンも存在する。StarCraft IIは、オフライン強化学習アルゴリズムの進歩に特に適しており、その挑戦的な性質と、Blizzardが公開した人間プレイヤーによる数百万のStarCraft IIゲームの大規模なデータセットがその理由である。本論文では、これを活用し、AlphaStar Unpluggedと呼ばれるベンチマークを確立し、オフライン強化学習に前例のない課題を導入する。我々は、データセット(Blizzardの公開データの一部)、機械学習手法のためのAPIを標準化するツール、および評価プロトコルを定義する。また、行動クローニング、アクター・クリティックおよびMuZeroのオフライン変種を含むベースラインエージェントを提示する。我々は、オフラインデータのみを使用してエージェントの最先端を改善し、以前に公開されたAlphaStarの行動クローニングエージェントに対して90%の勝率を達成した。
大規模言語モデル(LLM)は、従来の自然言語処理タスクを超えた現実世界の実用的なミッションを対象として、ますます知的で自律的になってきています。その結果、インタラクティブな環境における挑戦的なタスクにおいて、LLMをエージェントとして評価する必要性が急務となっています。本論文では、AgentBenchを紹介します。これは、多面的で進化するベンチマークであり、現在8つの異なる環境から構成され、多ターンのオープンエンド生成設定におけるLLMエージェントの推論および意思決定能力を評価します。25のLLM(APIおよびオープンソースモデルを含む)に対する広範なテストの結果、トップクラスの商用LLMは複雑な環境においてエージェントとしての強い能力を示す一方で、それらとオープンソースの競合モデルとの間には性能に大きな隔たりがあることが明らかになりました。また、AgentBenchは、より広範なカバレッジと体系的なLLM評価に向けた深い考察を伴う進行中のプロジェクトの一環としても機能します。AgentBenchのデータセット、環境、および統合評価パッケージは、https://github.com/THUDM/AgentBench で公開されています。
高度にカスタマイズされたテキスト記述とポーズガイダンスから、表現力豊かで多様性に富み、高品質な3Dアバターを作成することは、詳細と様々なスタイル(リアル、フィクションなど)を保証する3Dモデリングとテクスチャリングの複雑さから、困難な課題です。本論文では、テキスト記述とポーズガイダンスのみから表現力豊かな高品質3Dアバターを生成する安定したパイプラインであるAvatarVerseを提案します。具体的には、DensePose信号に基づく2D拡散モデルを導入し、2D画像を通じてアバターの3Dポーズ制御を確立することで、部分的に観測されたシナリオからの視点一貫性を向上させます。これにより、有名なJanus問題に対処し、生成プロセスを大幅に安定化します。さらに、プログレッシブな高解像度3D合成戦略を提案し、作成された3Dアバターの品質を大幅に向上させます。これにより、提案されたAvatarVerseパイプラインは、従来の研究よりも表現力豊かで、高品質かつ高忠実度の3Dアバターのゼロショット3Dモデリングを実現します。厳密な定性的評価とユーザスタディは、AvatarVerseが高忠実度3Dアバターの合成において優位性を持つことを示し、高品質で安定した3Dアバター作成の新たな基準を確立します。プロジェクトページはこちらです: https://avatarverse3d.github.io
最近のテキストから画像を生成するモデルにより、私たちは言葉を鮮やかで魅力的なイメージに変換できるようになりました。それに続くパーソナライゼーション技術の急増により、新しいシーンで独自の概念を想像することも可能になりました。しかし、興味深い疑問が残っています:これまでに見たことのない新しい想像上の概念をどのように生成できるでしょうか?本論文では、創造的なテキストから画像を生成するタスクを提示します。ここでは、広範なカテゴリの新しいメンバー(例えば、既存のペットとは異なるペットを生成する)を生成することを目指します。私たちは、これまであまり研究されていないDiffusion Priorモデルを活用し、創造的生成問題をDiffusion Priorの出力空間における最適化プロセスとして定式化し、一連の「事前制約」を導出します。生成された概念が既存のメンバーに収束しないようにするために、最適化問題に適応的に新しい制約を追加する質問応答モデルを組み込み、モデルがますますユニークな創造物を発見することを促します。最後に、私たちの事前制約が強力な混合メカニズムとしても機能し、生成された概念間のハイブリッドを作成することで、創造的プロセスにさらなる柔軟性を導入できることを示します。
大規模言語モデル(LLM)は、任意のエンティティや関係を理解するなど、驚異的な汎化能力を示しています。命令チューニングは、LLMをAlpacaやVicunaのようなよりコスト効率の高いモデルに蒸留するのに有効であることが証明されています。しかし、そのような学生モデルは、下流のアプリケーションにおいて依然として元のLLMに大きく遅れを取っています。本論文では、特定のミッションに焦点を当てた命令チューニングを用いたターゲット蒸留を探求し、オープン情報抽出などの広範なアプリケーションクラスで優れた性能を発揮する学生モデルを訓練します。ケーススタディとして固有表現認識(NER)を使用し、ChatGPTをオープンNER用のはるかに小さいUniversalNERモデルに蒸留する方法を示します。評価のために、生物医学、プログラミング、ソーシャルメディア、法律、金融など9つの多様なドメインにわたる43のデータセットからなる最大のNERベンチマークを構築しました。直接的な教師データを使用せずに、UniversalNERは数万のエンティティタイプにわたって驚異的なNER精度を達成し、AlpacaやVicunaのような一般的な命令チューニングモデルを平均で30ポイント以上の絶対F1スコアで上回りました。パラメータ数が非常に少ないにもかかわらず、UniversalNERはChatGPTの任意のエンティティタイプを認識する能力を獲得するだけでなく、そのNER精度を平均で7-9ポイントの絶対F1スコアで上回りました。さらに驚くべきことに、UniversalNERは、教師付きNER例を使用するInstructUIEのような最先端のマルチタスク命令チューニングシステムを大きく上回りました。また、蒸留アプローチにおけるさまざまなコンポーネントの影響を評価するために、徹底的なアブレーション研究を実施しました。今後のターゲット蒸留研究を促進するために、蒸留レシピ、データ、およびUniversalNERモデルを公開する予定です。
百聞は一見に如かず、しかしながら、人間の視覚的知覚がどのように認知と絡み合っているのか、その根本的なメカニズムは依然として謎に包まれています。神経科学と人工知能の最近の進展のおかげで、視覚的に誘発された脳活動を記録し、計算論的アプローチを通じて視覚知覚能力を模倣することが可能になりました。本論文では、ポータブルにアクセス可能な脳信号、すなわち脳波(EEG)データに基づいて観察された画像を再構築することによる視覚刺激の再構成に注目します。EEG信号は時系列形式で動的であり、ノイズが多いことで知られているため、有用な情報を処理・抽出するためにはより専念した取り組みが必要です。本論文では、EEG信号から視覚刺激画像を再構築するための包括的なパイプライン「NeuroImagen」を提案します。具体的には、与えられたEEGデータから多粒度の出力を引き出すために、新たなマルチレベル知覚情報デコーディングを組み込みます。その後、潜在拡散モデルが抽出された情報を活用して高解像度の視覚刺激画像を再構築します。実験結果は、画像再構成の有効性と提案手法の優れた定量的性能を示しています。
近年の自然言語処理の進展に伴い、大規模言語モデル(LLMs)は様々な実世界のアプリケーションにおいて強力なツールとして登場しています。しかし、その能力にもかかわらず、LLMsの内在的な生成能力は、タスク計画と外部ツールの使用を組み合わせる必要がある複雑なタスクを扱うには不十分である可能性があります。本論文では、まずLLMベースのAIエージェントに特化した構造化フレームワークを提案し、複雑な問題に対処するために必要な重要な能力について議論します。このフレームワーク内で、推論プロセスを実行するために2つの異なるタイプのエージェント(すなわち、ワンステップエージェントとシーケンシャルエージェント)を設計します。その後、様々なLLMsを用いてこのフレームワークを具体化し、典型的なタスクにおけるタスク計画とツール使用(TPTU)能力を評価します。主要な発見と課題を強調することで、研究者や実務者がAIアプリケーションでLLMsの力を活用するための有用なリソースを提供することを目指します。本研究は、これらのモデルの大きな可能性を強調すると同時に、さらなる調査と改善が必要な領域を特定しています。
機械学習モデルの可視性を向上させ、関連するリスクを理解し軽減するために、重要な情報源となる可能性があるのは、どのトレーニング事例が特定の挙動に最も寄与しているかという点です。影響関数(influence functions)は、ある反事実的な問いに答えることを目指しています:もし特定のシーケンスがトレーニングセットに追加された場合、モデルのパラメータ(そしてその出力)はどのように変化するか?影響関数は小規模なモデルに対して洞察を提供してきましたが、逆ヘッセ行列ベクトル積(IHVP)の計算が困難であるため、大規模言語モデル(LLM)にスケールアップするのは難しいとされています。本研究では、Eigenvalue-corrected Kronecker-Factored Approximate Curvature(EK-FAC)近似を用いて、最大520億パラメータのLLMまで影響関数をスケールアップします。実験では、EK-FACは従来の影響関数推定器と同等の精度を達成しつつ、IHVPの計算速度が桁違いに高速です。候補トレーニングシーケンスの勾配計算コストを削減するために、TF-IDFフィルタリングとクエリバッチ処理という2つのアルゴリズム技術を検討します。影響関数を用いて、LLMの汎化パターンを調査し、影響パターンのスパース性、スケールに伴う抽象化の増加、数学およびプログラミング能力、クロスリンガル汎化、ロールプレイ行動などを分析します。多くの一見洗練された汎化形式があるにもかかわらず、驚くべき限界を特定しました:キーフレーズの順序が反転すると、影響がほぼゼロに減衰するのです。全体として、影響関数はLLMの汎化特性を研究するための強力な新たなツールを提供します。
モーション拡大法は、微細で知覚しにくい動きを可視化するのに役立ちます。しかし、従来の手法は固定カメラで撮影された2D動画にしか適用できませんでした。本研究では、移動するカメラで撮影されたシーンから微細な動きを拡大し、新規視点レンダリングも可能にする3Dモーション拡大法を提案します。時間変化する放射輝度フィールドでシーンを表現し、モーション拡大のためのオイラー原理を活用して、固定点の埋め込みの時間変化を抽出・増幅します。提案する3Dモーション拡大原理を、暗黙的およびトライプレーン型放射輝度フィールドを基盤とした3Dシーン表現を用いて検証します。様々なカメラ設定で撮影された合成シーンと実世界シーンにおいて、本手法の有効性を評価します。
大規模視覚言語モデル(LVLM)の最近の進展は、複雑なマルチモーダルタスクへの取り組みにおいて大きな進歩を示しています。これらの最先端の開発の中でも、GoogleのBardはその卓越したマルチモーダル能力で際立っており、さまざまな領域における包括的な理解と推論を促進しています。本研究では、LVLMのマルチモーダル能力を早期かつ包括的に評価するために、LVLM-eHubの軽量版であるTiny LVLM-eHubを提案し、特にBardに焦点を当てています。従来のバージョンと比較して、Tiny LVLM-eHubにはいくつかの魅力的な特性があります。まず、42の標準的なテキスト関連視覚ベンチマークの定量的評価を通じて、視覚知覚、視覚知識獲得、視覚推論、視覚常識、物体幻覚、および具現化知能の6つのカテゴリーのマルチモーダル能力を体系的に評価します。次に、ChatGPTアンサンブル評価(CEE)を使用してLVLMの予測を詳細に分析し、単語マッチングアプローチと比較して、より堅牢で正確な評価を実現し、人間の評価との整合性を向上させます。第三に、わずか2.1Kの画像-テキストペアで構成されており、実務者が自身のオフラインLVLMを容易に評価できるようにしています。広範な実験的分析を通じて、本研究は、Bardが物体幻覚を除くほとんどのマルチモーダル能力において従来のLVLMを上回ることを示しています。Tiny LVLM-eHubは、さまざまなLVLMのベースライン評価として機能し、マルチモーダル技術を進歩させるための革新的な戦略を奨励します。私たちのプロジェクトはhttps://github.com/OpenGVLab/Multi-Modality-Arenaで公開されています。
既存の大規模言語モデルは、K個のトークンからなるシーケンスを生成するためにK回実行する必要がある。本論文では、RecycleGPTを提案する。これは、モデル全体を複数ステップで実行することなく、事前に生成されたモデル状態を再利用することで高速なデコード速度を実現する生成型言語モデルである。我々のアプローチは、シーケンス内の隣接するトークンは通常強い相関関係を持ち、シーケンス内の次のトークンは先行するトークンに基づいて合理的に推測または推論できるという観察に基づいている。理論的評価と下流のテキスト生成タスクにおける実践的なテストを通じて、我々のアプローチが推論遅延を低減し、高性能を維持しながら最大1.4倍の高速化を達成する有効性を実証する。
近年、Neural Radiance Fields (NeRF) は新規視点合成や表面再構成などの分野で大きな成功を収めています。しかし、そのレンダリングパイプラインでは物理的な反射が考慮されていないため、NeRF は鏡の中の反射を別の仮想シーンと誤認し、鏡の不正確な再構成や、鏡内の多視点間で一貫しない反射を引き起こします。本論文では、Mirror-NeRF と名付けた新しいニューラルレンダリングフレームワークを提案します。このフレームワークは、鏡の正確な形状と反射を学習し、新しいオブジェクトや鏡をシーンに追加してそれらの反射を合成したり、鏡の粗さを制御するなど、鏡を用いた様々なシーン操作アプリケーションをサポートします。この目標を達成するために、反射確率を導入し、Whitted Ray Tracing の光輸送モデルに従って光線を追跡する統一された放射場を提案し、学習プロセスを促進するためのいくつかの技術を開発しました。合成データセットと実データセットの両方での実験と比較により、本手法の優位性が実証されています。コードと補足資料はプロジェクトのウェブページで公開されています: https://zju3dv.github.io/Mirror-NeRF/
産業制御において、少ないサンプル数と低い技術的負債で高性能なコントローラを開発することは魅力的です。インターネット規模のコーパスを用いた事前学習から得られた豊富な事前知識を持つファウンデーションモデルは、適切なプロンプトを与えることで優れたコントローラとなる可能性があります。本論文では、HVAC(暖房、換気、空調)の建物制御を例として、第一線級のファウンデーションモデルであるGPT-4の制御能力を検証します。HVACを制御するために、タスクの短い説明、いくつかの選択されたデモンストレーション、および現在の観測値を含むテキストを各ステップでGPT-4に提供し、GPT-4が応答したアクションを実行するという言語ゲームとしてタスクをラップします。以下の質問に答えるために一連の実験を行います:1) GPT-4はHVACをどの程度うまく制御できるか? 2) GPT-4はHVAC制御の異なるシナリオにどの程度汎化できるか? 3) テキストコンテキストの異なる部分が性能にどのように影響するか? 全般的に、GPT-4は少ないサンプル数と低い技術的負債でRL(強化学習)手法に匹敵する性能を達成し、ファウンデーションモデルを産業制御タスクに直接適用する可能性を示唆しています。
ディープラーニングソフトウェアライブラリの開発は、ユーザーがモデリングに集中できるようにし、現代のハードウェアアクセラレータ向けの実行最適化という面倒で時間のかかるタスクをライブラリに任せることで、この分野に大きな進展をもたらしました。しかし、これはTransformerのような特定のタイプのディープラーニングモデルにのみ恩恵をもたらしました。これらのモデルのプリミティブは、ベクトル化された計算に容易にマッピングできるためです。一方で、木構造やセグメンテーションなどの構造化されたオブジェクトを明示的に考慮するモデルは、ベクトル化形式で実装することが難しいカスタムアルゴリズムを必要とするため、同等の恩恵を受けられませんでした。 SynJaxは、アラインメント、タグ付け、セグメンテーション、構成木、およびスパニングツリーをカバーする構造化分布の推論アルゴリズムの効率的なベクトル化実装を提供することで、この問題に直接取り組んでいます。SynJaxを使用することで、データ内の構造を明示的にモデル化する大規模な微分可能モデルを構築できます。コードはhttps://github.com/deepmind/synjaxで公開されています。
量子化は、現代のディープニューラルネットワーク(DNN)のモデルサイズ、計算要件、エネルギー消費を削減するための主流の圧縮技術となっています。最近のハードウェアでは、整数や浮動小数点の複数のバリエーションを含む数値サポートが向上しており、高品質な結果を低いモデルコストで達成するために混合精度量子化が必要となっています。従来の混合精度量子化手法は、精度を犠牲にするポストトレーニング量子化探索を行うか、分岐によるメモリ使用量が増大する微分可能量子化探索を行っていました。そこで、我々は、整数および低精度浮動小数点モデルの両方で再トレーニングを不要とする初のワンショット混合精度量子化探索を提案します。我々は、複数の畳み込みネットワークおよびビジョントランスフォーマーモデルに対して浮動小数点および整数量子化探索(FLIQS)を評価し、パレート最適なモデルを発見します。我々のアプローチは、均一精度、手動混合精度、および最近の整数量子化探索手法を上回るモデルを発見します。提案された整数量子化探索により、ResNet-18のImageNetでの精度を1.31%、ResNet-50の精度を0.90%向上させ、同等のモデルコストで従来の手法を上回ります。さらに、初めて混合精度浮動小数点探索を探求し、MobileNetV2の精度を従来の最先端FP8モデルと比較して最大0.98%向上させます。最後に、FLIQSを拡張して量子化とニューラルアーキテクチャの同時探索を行い、MobileNetV2探索空間で同様のモデルコストでImageNetの精度を2.69%向上させます。
深層生成モデルは、様々な種類の表現(例:メルスペクトログラム、メル周波数ケプストラム係数(MFCC))を条件として高忠実度の音声を生成することができます。最近では、このようなモデルが高度に圧縮された表現を条件として音声波形を合成するために使用されています。これらの手法は印象的な結果を生み出しますが、条件付けが不完全または欠陥がある場合、聴覚上のアーティファクトを生成しやすいという問題があります。別のモデリングアプローチとして、拡散モデルを使用する方法があります。しかし、これらは主に音声ボコーダー(例:メルスペクトログラムを条件とする)として使用されるか、比較的低いサンプリングレートの信号を生成するために使用されてきました。本研究では、低ビットレートの離散表現からあらゆる種類の音声モダリティ(例:音声、音楽、環境音)を生成する高忠実度のマルチバンド拡散ベースのフレームワークを提案します。同等のビットレートにおいて、提案手法は知覚品質の点で最先端の生成技術を上回ります。トレーニングおよび評価コード、ならびに音声サンプルは、facebookresearch/audiocraftのGithubページで公開されています。