翻訳付きの日次キュレーションされたAI研究論文
言語モデルのロールプレイ能力を評価するための新しいベンチマークを紹介します。当該手法は、言語モデル自体を活用して、動的でマルチターンの会話においてユーザーを模倣し、その結果の対話を評価します。このフレームワークは、特定のキャラクターロールを担うプレイヤーモデル、ユーザーの振る舞いをシミュレートする尋問者モデル、そして会話の品質を評価する判定者モデルの3つの主要コンポーネントから構成されています。我々は、自動評価と人間の注釈を比較する実験を行い、複数の基準にわたる強い相関を示すことで、当該手法の妥当性を検証しました。この研究は、インタラクティブなシナリオにおけるモデルの能力を堅牢かつ動的に評価するための基盤を提供します。
医療応用向けの大規模言語モデル(LLM)の急速な発展により、頻繁に引用されるUSMLEなどのベンチマークを超えた包括的な評価が求められています。実世界のパフォーマンスをより適切に反映するためには、実世界の評価が重要な指標である一方、LLMの進化のペースに遅れることが多く、展開時には結果が陳腐化する可能性が高いです。この時間的な不一致から、特定の臨床応用に向けたモデル選択を導く包括的な事前評価が必要とされます。私たちは、MEDICという枠組みを導入し、臨床能力の5つの重要な側面である医学的推論、倫理と偏り、データと言語理解、文脈に即した学習、臨床安全性を評価するものです。MEDICは、カバレッジや幻覚検出などの領域でLLMのパフォーマンスを定量化する新しい対照的な枠組みを特徴とし、参照出力を必要としません。私たちは、MEDICを用いて、医療問答、安全性、要約、ノート生成などのタスクでLLMを評価します。結果は、モデルサイズ、基準と医学的に微調整されたモデル、および特定のモデル強みを必要とするアプリケーションのモデル選択に対する影響を示し、幻覚の少なさや推論コストの低さなどの特定のモデル強みを必要とするアプリケーションに対するモデル選択に関する示唆を与えます。MEDICの多面的評価は、これらのパフォーマンスのトレードオフを明らかにし、理論的な能力と医療設定における実用的な実装とのギャップを埋め、最も有望なモデルが特定され、多様な医療応用に適応されることを確実にします。
言語モデルベースのエージェントがWebナビゲーションなどの実世界の課題を解決する潜在能力にもかかわらず、現在の手法は依然として複雑なアクション経路を持つ長期的な課題に苦労しています。一方、人間は過去の経験から再利用可能なタスクワークフローを学習し、それを活用して将来の行動をガイドすることで柔軟に複雑なタスクを解決できます。このプロセスから同様に利益を得るエージェントを構築するために、我々はエージェントワークフローメモリ(AWM)を導入します。これは、一般的に再利用されるルーチン、つまりワークフローを誘導し、エージェントに選択的に提供して後続の世代をガイドします。AWMは、事前にトレーニング例からワークフローを誘導するオフラインおよびオンラインシナリオの両方に柔軟に適用されます。我々は、旅行、ショッピング、ソーシャルメディアなどの領域を含む200以上のドメインから1000以上のタスクをカバーする2つの主要なWebナビゲーションベンチマーク、Mind2WebとWebArenaで実験を行いました。AWMは、WebArenaのタスクを成功裏に解決するために必要なステップ数を削減しつつ、Mind2WebとWebArenaでベースライン結果をそれぞれ24.6%と51.1%改善します。さらに、オンラインAWMは、トレーニングとテストのタスク分布のギャップが拡大するにつれて、クロスタスク、ウェブサイト、およびドメインの評価で8.9から14.0の絶対ポイントを超えるベースラインを堅牢に汎化します。
画像から3D生成において莫大な進歩があるにもかかわらず、既存の手法は、特に3D認識を欠く2D拡散のパラダイムにおいて、高解像度の詳細なテクスチャを持つマルチビュー一貫性のある画像を生成するのに苦労しています。本研究では、新しいビデオ拡散ベースのパラダイムである高解像度画像から3Dモデル(Hi3D)を提案し、単一の画像を3D認識のある連続画像生成(すなわち、軌道ビデオ生成)として再定義します。この手法は、ビデオ拡散モデル内の基本的な時間的一貫性知識に掘り下げ、3D生成において複数のビュー間でジオメトリの一貫性を一般化するものです。技術的には、Hi3Dはまず、事前にトレーニングされたビデオ拡散モデルに3D認識の事前条件(カメラポーズ条件)を付与し、低解像度のテクスチャ詳細を持つマルチビュー画像を生成します。3D認識ビデオからビデオへのリファイナーが学習され、高解像度のテクスチャ詳細を持つマルチビュー画像をさらに拡大します。このような高解像度のマルチビュー画像は、3Dガウススプラッティングを介して新しいビューで拡張され、最終的に3D再構築を通じて高品質なメッシュを得るために活用されます。新しいビュー合成と単一ビュー再構築の両方での広範な実験により、当社のHi3Dは、高度に詳細なテクスチャを持つ優れたマルチビュー一貫性画像を生成することに成功していることが示されています。ソースコードとデータは、https://github.com/yanghb22-fdu/Hi3D-Official で入手可能です。
線形注意トランスフォーマーとそのゲート付きバリアントは、並列トレーニングと効率的な再帰推論を可能にすることで称賛されていますが、従来のトランスフォーマーと比較して、記憶集中型のタスクではまだ力不足であり、ゼロからのトレーニングには大きなリソースを要求します。本論文では、ゲート付きスロット注意(GSA)を紹介し、ゲート付き線形注意(GLA)に触発されたゲーティングメカニズムを取り入れることで、境界付きメモリ制御(ABC)で注意を強化します。基本的に、GSAは、ソフトマックスを介してリンクされた2層のGLAから構成され、コンテキストに応じたメモリ読み取りと適応的な忘却を利用してメモリ容量を向上させながら、コンパクトな再帰状態サイズを維持します。この設計により、GLAのハードウェア効率の良いトレーニングアルゴリズムと縮小された状態サイズを通じて、トレーニングと推論の効率が大幅に向上します。さらに、ソフトマックス演算を保持することは、「事前学習されたトランスフォーマーをRNNに微調整する」(T2R)設定において特に有益であり、ゼロからの広範なトレーニングの必要性を軽減します。包括的な実験により、GSAがコンテキスト内のリコールとT2R設定で優れたパフォーマンスを発揮することが確認されました。
Chain-of-Thought (CoT)プロンプティングは、大規模言語モデルが中間ステップを介して複雑な推論を行う能力を示すことができることを明らかにします。CoTプロンプティングは、主に3つのアプローチに分類されます。最初のアプローチは、「ステップごとに考えてみましょう」といった簡単なプロンプトを使用して、回答を出す前に順次思考プロセスを生成します。2番目のアプローチは、人間が作成した段階的なデモンストレーションを使用して、モデルの推論プロセスを誘導します。3番目のアプローチは、「ステップごとに考えてみましょう」を用いて推論されたデモンストレーションの生成を自動化します。このアプローチは時に推論エラーを引き起こすことがあり、その誤解を軽減するためにデモンストレーションを多様化する必要性が示されます。しかし、多様なデモンストレーションは効果的な表現に対する課題を提起します。本研究では、自己調和型のChain-of-Thoughtプロンプティング手法であるECHOを提案します。ECHOは、異なる解決経路を均一かつ効果的な解決パターンに統合します。ECHOは、3つの推論ドメイン全体で最も優れたパフォーマンスを示しています。
gsplatは、ガウススプラッティング手法のトレーニングと開発を目的としたオープンソースライブラリです。PythonバインディングとPyTorchライブラリと互換性のあるフロントエンドと、高度に最適化されたCUDAカーネルを備えたバックエンドが特徴です。gsplatには、ガウススプラッティングモデルの最適化を向上させる多数の機能が提供されており、速度、メモリ、収束時間の最適化改善が含まれています。実験結果によると、gsplatは元の実装よりもトレーニング時間を最大10%短縮し、メモリ使用量を4倍削減しています。いくつかの研究プロジェクトで利用されており、GitHubで積極的にメンテナンスされています。ソースコードはApache License 2.0の下でhttps://github.com/nerfstudio-project/gsplat で利用可能です。オープンソースコミュニティからの貢献を歓迎します。
「アイデアとは、新しい組み合わせに過ぎない古い要素の新たな組み合わせである」とYoung, J.W.は述べています。大規模言語モデル(LLMs)の広範な採用と一般に利用可能なChatGPTは、人々の日常生活への人工知能(AI)の統合において重要な転換点を示しています。本研究では、研究論文からの情報に基づいて新しい研究アイデアを生成するLLMsの能力を探究しています。化学、コンピュータ、経済学、医学、物理学の5つの領域で4つのLLMsを徹底的に調査しました。その結果、Claude-2とGPT-4によって生成された将来の研究アイデアは、GPT-3.5とGeminiよりも著者の視点とより一致していることが分かりました。また、Claude-2はGPT-4、GPT-3.5、Gemini 1.0よりも多様な将来の研究アイデアを生成することが分かりました。さらに、生成された将来の研究アイデアの新規性、関連性、実現可能性を人間による評価も行いました。この調査は、アイデア生成におけるLLMsの進化する役割についての示唆を提供し、その能力と限界の両方を強調しています。私たちの研究は、将来の研究アイデアを生成するために言語モデルを評価し活用する取り組みに貢献しています。データセットとコードは公開されています。
私たちは、物理ベースの顔のアセットを効率的にアニメーション化およびレンダリングするために特化した革新的なガウススプラッティング表現であるGauFaceを提案します。強力な幾何学的先行条件と制約付き最適化を活用することで、GauFaceは整然とした構造のガウス表現を確実にし、Snapdragon 8 Gen 2モバイルプラットフォームで1440pの30fpsの高忠実度かつリアルタイムな顔のインタラクションを提供します。 次に、物理ベースの顔のアセットを対応するGauFace表現に即座に変換する拡散トランスフォーマーであるTransGSを紹介します。具体的には、広範な数のガウス関数を効果的に処理するためにパッチベースのパイプラインを採用します。また、UV位置符号化を用いた新しいピクセル整列サンプリング方式を導入し、TransGSによって生成されたGauFaceアセットのスループットとレンダリング品質を確保します。訓練を終えると、TransGSは照明条件を伴う顔のアセットを即座にGauFace表現に変換できます。豊富な条件モダリティを備えており、従来のCGパイプラインを思わせる編集およびアニメーション機能も可能です。 私たちは、従来のオフラインおよびオンラインレンダラー、最近のニューラルレンダリング手法と比較して、顔のアセットのレンダリングに対するアプローチの優れた性能を示す、広範な評価とユーザースタディを実施します。また、TransGSアプローチとGauFace表現を用いた顔のアセットの多様な没入型アプリケーションを、PC、携帯電話、さらにはVRヘッドセットなどのさまざまなプラットフォームで紹介します。
ビデオ入力から背景音楽を生成するためのフレームワークを提案します。既存の手法が数量や多様性に制限がある象徴的な音楽アノテーションに依存しているのに対し、当社の手法は背景音楽が付属する大規模なウェブビデオを活用しています。これにより、当社のモデルはリアルかつ多様な音楽を生成することを学習します。この目標を達成するために、新しい意味論的ビデオ-音楽アライメント方式を備えた生成ビデオ-音楽Transformerを開発します。当社のモデルは、高レベルのビデオコンテンツに整合する音楽の生成を促す共同自己回帰とコントラスティブ学習目的を使用しています。また、生成された音楽のビートをビデオ内の低レベルの動きに一致させるための新しいビデオ-ビートアライメント方式を導入しています。最後に、リアルな背景音楽生成に必要なビデオ内の細かい視覚的手がかりを捉えるために、新しい時間的ビデオエンコーダアーキテクチャを導入しています。これにより、多数の密にサンプリングされたフレームから構成されるビデオを効率的に処理できます。当社の新しくキュレーションされたDISCO-MVデータセットでフレームワークをトレーニングしました。このデータセットには2.2Mのビデオ-音楽サンプルが含まれており、これはビデオ音楽生成に使用された以前のデータセットよりも桁違いに大きいです。当社の手法は、DISCO-MVおよびMusicCapsデータセットで、人間の評価を含むさまざまな音楽生成評価メトリクスにおいて既存の手法を上回っています。結果は以下のリンクからご覧いただけます:https://genjib.github.io/project_page/VMAs/index.html
近年、タンパク質基盤モデルの開発が急速に進み、タンパク質予測や3D構造予測、タンパク質設計、構造力学などの生成タスクにおける性能が著しく向上しています。しかしながら、これらのモデルに関連する能力と制限は、統一された評価フレームワークの欠如により不明瞭なままです。このギャップを埋めるために、我々はProteinBenchを導入し、タンパク質基盤モデルの透明性を向上させるための包括的な評価フレームワークを設計しました。当該アプローチには、以下の3つの主要な要素が含まれます:(i) 異なるタンパク質モダリティ間の関係に基づく、タンパク質領域における主要な課題を広く包括するタスクの分類、(ii) 品質、新規性、多様性、堅牢性の4つの主要次元にわたる性能評価を行う多指標評価アプローチ、および(iii) ユーザー目的に基づくさまざまな詳細な分析により、モデルの性能を包括的に把握します。タンパク質基盤モデルの包括的な評価により、現在の能力と制限に関するいくつかの重要な知見が明らかになりました。透明性を促進し、さらなる研究を支援するために、評価データセット、コード、および一般的なモジュール化ツールキットを一般に公開することで、ProteinBenchを生きたベンチマークとし、タンパク質基盤モデルの標準化された詳細な評価フレームワークを確立し、その開発と応用を促進し、分野内の協力を促進することを意図しています。
大規模言語モデル(LLMs)がコードの執筆において大きな進歩を遂げていることを考慮すると、これらは今や研究リポジトリからの結果を自律的に再現するために使用できるでしょうか?この能力は研究コミュニティにとって大きな利益となり、研究者が以前の研究を検証し理解し拡張するのに役立ちます。この目標に向けて進むために、私たちは、LLMsの能力を評価するために設計された最初のベンチマークであるSUPERを紹介します。SUPERは、機械学習(ML)および自然言語処理(NLP)の研究リポジトリで作業する研究者が直面する現実的な課題を捉えることを目指しています。当社のベンチマークには、アノテーション付きの専門家ソリューションを持つ45のエンドツーエンド問題、専門家セットから派生した特定の課題に焦点を当てた152のサブ問題(例:トレーナーの設定)、および大規模な開発のために自動生成された602の問題が含まれています。我々は、タスクの成功と進捗を評価するためにさまざまな評価尺度を導入し、可能な場合はゴールドソリューションを使用し、それ以外の場合は近似値を使用します。最高のモデル(GPT-4o)でもエンドツーエンドセットの16.3%、シナリオの46.1%しか解決できないことを示しました。これはこのタスクの難しさを示しており、SUPERがコミュニティにとって進歩を遂げるための貴重なリソースとなり得ることを示唆しています。
本論文では、新しい視点合成タスク向けに設計された知能エージェントであるMVLLaVAを紹介します。MVLLaVAは、複数のマルチビュー拡散モデルを統合した大規模なマルチモーダルモデルLLaVAを活用し、幅広いタスクを効率的に処理する能力を備えています。MVLLaVAは、単一の画像、記述キャプション、または視点生成のための言語指示によって導かれる、視点生成に適応する多様な入力タイプを表現します。私たちは、タスク固有の指示テンプレートを慎重に作成し、それらを使用してLLaVAを微調整します。その結果、MVLLaVAはユーザーの指示に基づいて新しい視点画像を生成する能力を獲得し、多様なタスクにわたる柔軟性を示します。実験を実施して、MVLLaVAの効果を検証し、多様な新しい視点合成の課題に対処する際の堅牢なパフォーマンスと汎用性を示します。
規模で訓練された生成モデルは、テキスト、ビデオ、そしてより最近では、結晶構造などの科学データを生成することができるようになりました。生成手法を材料科学、特に結晶構造へ応用する際、ドメイン専門家からの指導が高レベルの指示として自動システムが後段の研究に適した候補結晶を出力するために不可欠であることがあります。本研究では、言語から構造への生成を多目的最適化問題として定式化し、制御可能な結晶構造の生成のためにGenerative Hierarchical Materials Search (GenMS)を提案します。GenMSは、(1) 高レベルの自然言語を入力として受け取り、結晶に関する中間テキスト情報(化学式など)を生成する言語モデル、および (2) 中間情報を入力として受け取り、低レベルの連続値結晶構造を生成する拡散モデルから構成されています。GenMSは、生成された結晶構造から特性(生成エネルギーなど)を予測するためにグラフニューラルネットワークも利用します。推論時には、GenMSは可能な構造の空間に対して前向き木探索を行うためにこれらの3つのコンポーネントを活用します。実験結果は、GenMSがユーザー要求を満たす点や低エネルギー構造を生成する点で、言語モデルを直接使用する他の代替手法を上回ることを示しています。GenMSが、自然言語の入力だけから二重ペロブスカイトやスピネルなどの一般的な結晶構造を生成できることを確認し、これにより将来的により複雑な構造生成の基盤となり得ることを確認しています。