翻訳付きの日次キュレーションされたAI研究論文
言語エージェントは、定義された設定と短いタイムラインの中で、印象的な問題解決能力を示してきました。しかし、オープンワールドシミュレーションの複雑さが進化し続ける中で、複雑な環境に柔軟に適応し、一貫した長期記憶を維持して首尾一貫した行動を確保できるエージェントが求められています。言語エージェントとオープンワールドゲームのギャップを埋めるために、私たちは「Language Agent for Role-Playing (LARP)」を紹介します。LARPは、記憶処理と意思決定アシスタントを含む認知アーキテクチャ、フィードバック駆動の学習可能なアクション空間を持つ環境相互作用モジュール、そしてさまざまな性格の整合性を促進する後処理方法を備えています。LARPフレームワークは、ユーザーとエージェントの間の相互作用を洗練させ、独自の背景と性格を事前に定義することで、オープンワールドコンテキストでのゲーム体験を向上させます。さらに、エンターテイメント、教育、さまざまなシミュレーションシナリオなど、言語モデルの多様な用途を強調しています。プロジェクトページはhttps://miao-ai-lab.github.io/LARP/で公開されています。
拡散モデルは画像間(I2I)合成に革命をもたらし、現在では動画領域にも浸透しつつあります。しかし、動画間(V2V)合成の進展は、ビデオフレーム間の時間的一貫性を維持するという課題によって妨げられてきました。本論文では、ソースビデオ内の空間的条件と時間的光フロー情報を共同で活用することで、一貫性のあるV2V合成フレームワークを提案します。従来の手法が光フローに厳密に従うのとは対照的に、我々のアプローチは光フロー推定の不完全性を扱いながらその利点を活用します。最初のフレームからのワープによって光フローを符号化し、拡散モデルにおける補助的な参照として機能させます。これにより、既存のI2Iモデルで最初のフレームを編集し、その編集を後続のフレームに伝播させることで、ビデオ合成を可能にします。我々のV2Vモデル「FlowVid」は以下の顕著な特性を示します:(1)柔軟性:FlowVidは既存のI2Iモデルとシームレスに連携し、スタイル化、オブジェクト交換、ローカル編集など様々な変更を容易にします。(2)効率性:30FPS、512x512解像度の4秒間のビデオ生成に要する時間はわずか1.5分で、これはCoDeF、Rerender、TokenFlowと比較してそれぞれ3.1倍、7.2倍、10.5倍高速です。(3)高品質:ユーザスタディでは、FlowVidは45.7%の支持率を獲得し、CoDeF(3.5%)、Rerender(10.2%)、TokenFlow(40.4%)を上回りました。
本論文では、SynCLRという新しいアプローチを紹介します。これは、実データを一切使用せず、合成画像と合成キャプションのみから視覚表現を学習する手法です。まず、大規模言語モデル(LLM)を用いて大量の画像キャプションデータセットを合成し、次に既存のテキスト画像生成モデルを使用して、各合成キャプションに対応する複数の画像を生成します。これらの合成画像に対して、同じキャプションを共有する画像を正例ペアとして扱い、コントラスティブ学習による視覚表現学習を行います。その結果得られた表現は、多くの下流タスクにうまく転移し、画像分類タスクにおいてCLIPやDINO v2などの汎用視覚表現学習手法と好成績を競います。さらに、セマンティックセグメンテーションなどの密な予測タスクでは、SynCLRは従来の自己教師あり手法を大きく上回り、例えばADE20kデータセットにおけるViT-B/16のmIoUで、MAEやiBOTに対してそれぞれ6.2ポイントと4.3ポイントの改善を示します。
近年の大規模言語モデル(LLMs)のトレンドは、モデルサイズ(すなわちパラメータ数)とデータセットの規模を拡大することで、より優れた生成能力を達成することにあります。これは、有名なGPTやLlamaなどの多くの研究によって明確に証明されています。しかし、大規模モデルはしばしば膨大な計算コストを伴い、実用的なアプリケーションではそのような高コストを負担することができません。一方で、LLMsのための強力なモデルアーキテクチャを構築する方法については、ほとんど議論されていません。我々はまず、最先端の言語モデルアーキテクチャを分析し、特徴の崩壊問題を観察しました。理論的な分析に基づいて、非線形性が言語モデルにおいても非常に重要であることを提案します。これは通常、視覚タスクのための畳み込みニューラルネットワークで研究されているものです。その後、計算量が無視できるほど小さいシリーズインフォームド活性化関数を導入し、モデルの非線形性をさらに強化するために拡張ショートカットを使用しました。我々は、慎重に設計されたアブレーション実験を通じて、提案されたアプローチがモデルの非線形性を大幅に向上させることを実証し、現代的な効率的なモデルアーキテクチャであるPanGu-piを提示します。その後、同じデータセットとトレーニング戦略を使用して、PanGu-piと最先端のLLMsを比較する実験を行いました。その結果、PanGu-pi-7Bはベンチマークと同等の性能を達成し、推論速度が約10%向上し、PanGu-pi-1Bは精度と効率の両面で最先端の性能を達成することが示されました。さらに、我々はPanGu-pi-7Bを金融や法律などの高価値ドメインに展開し、実用的なアプリケーション向けのLLMであるYunShanを開発しました。その結果、YunShanは類似スケールの他のモデルをベンチマークで上回ることが示されました。
マルチモーダル大規模言語モデル(MLLM)に対する関心が急速に高まっており、OpenAIのGPT-4V(ision)などのモデルは、学術界と産業界の両方に大きな影響を与えています。これらのモデルは、大規模言語モデル(LLM)に高度な視覚理解能力を付加し、さまざまなマルチモーダルタスクへの応用を可能にしています。最近、Googleはマルチモーダル統合に特化した最先端のMLLMであるGeminiを発表しました。その進歩にもかかわらず、初期のベンチマークでは、Geminiは常識推論タスクにおいてGPTモデルに遅れをとっていることが示されています。しかし、この評価は限られたデータセット(例:HellaSWAG)に基づいており、Geminiの真の常識推論能力を完全には捉えていません。このギャップを埋めるため、本研究では、モダリティを超えた常識知識の統合を必要とする複雑な推論タスクにおけるGeminiの性能を徹底的に評価します。私たちは、一般的なタスクからドメイン固有のタスクまで、12の常識推論データセットを包括的に分析します。これには、言語のみに焦点を当てた11のデータセットと、マルチモーダル要素を取り入れた1つのデータセットが含まれます。4つのLLMと2つのMLLMを対象とした実験を通じて、Geminiの競争力のある常識推論能力を実証しました。さらに、現在のLLMとMLLMが常識問題に対処する際に直面する共通の課題を特定し、これらのモデルの常識推論能力を向上させるためのさらなる進歩の必要性を強調しています。