翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)が高度化するにつれ、その品質を正確に評価する能力が追いつかなくなってきている。特定のモデル特性を十分に探るためのデータを見つけることが難しいだけでなく、モデルの自由形式生成の正確性を評価すること自体が課題となっている。この問題に対処するため、現在では多くの評価において、他のLLMの出力品質をスコア付けするためにLLM自体を審査員として使用することが一般的になっている。評価では最も一般的にGPT4のような単一の大規模モデルが使用される。この方法は普及してきているものの、コストがかかり、モデル内バイアスを導入することが示されており、本研究では、非常に大規模なモデルがしばしば不要であることを明らかにしている。代わりに、我々はLLM評価者パネル(PoLL)を使用してモデルを評価することを提案する。3つの異なる審査設定と6つの異なるデータセットにわたる実験において、より多くの小型モデルで構成されたPoLLを使用することが、単一の大規模審査員を上回り、互いに異なるモデルファミリーで構成されているためモデル内バイアスが少なく、かつ7倍以上コスト効率が良いことを明らかにした。
推測デコードは、大規模言語モデルの推論を加速しつつ、一貫したサンプリング分布を維持する効果を実証してきました。しかし、満足のいくトークン受理率を達成するために別途ドラフトモデルを訓練する従来のアプローチは、コストがかかる場合があります。早期終了に着想を得て、我々は新しい自己推測デコードフレームワーク「Kangaroo」を提案します。これは、固定された浅いサブネットワークを自己ドラフトモデルとして使用し、残りの層をより大きなターゲットモデルとして機能させます。サブネットワークと完全モデルの表現能力のギャップを埋めるために、サブネットワーク上に軽量で効率的なアダプターモジュールを訓練します。注目すべきは、自己ドラフトモデルの推論遅延が大規模モデルと比較して無視できなくなる可能性があり、トークン受理率を増やしつつ小規模モデルのドラフトステップを最小化する戦略が必要となる点です。この課題に対処するため、ドラフトトークンを生成するための追加の早期終了メカニズムを導入します。具体的には、ドラフトフェーズ中に現在のトークンの信頼度が一定の閾値を下回った場合、小規模モデルのそれ以降の予測を停止します。Spec-Benchでの広範な実験により、Kangarooの有効性が実証されました。単一シーケンス検証の下で、KangarooはSpec-Benchにおいて最大1.68倍の高速化を達成し、Medusa-1を上回りながら追加パラメータを88.7%削減しました(67M対591M)。Kangarooのコードはhttps://github.com/Equationliu/Kangarooで公開されています。
多様な医療応用における卓越性は、AIにとって大きな課題を提起し、高度な推論能力、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解を必要とします。マルチモーダルおよび長文脈推論において強力な汎用能力を持つGeminiモデルは、医療分野でエキサイティングな可能性を提供します。Geminiのこれらのコア強みを基盤として、我々はMed-Geminiを紹介します。これは、ウェブ検索をシームレスに利用でき、カスタムエンコーダを使用して新しいモダリティに効率的に適応可能な、医療に特化した高度なマルチモーダルモデルのファミリーです。Med-Geminiを14の医療ベンチマークで評価し、そのうち10で新たな最先端(SoTA)性能を確立し、直接比較が可能なすべてのベンチマークでGPT-4モデルファミリーを上回り、しばしば大幅な差をつけました。人気のあるMedQA(USMLE)ベンチマークでは、最良のMed-Geminiモデルが不確実性誘導検索戦略を使用して91.1%の精度でSoTA性能を達成しました。NEJM Image ChallengesやMMMU(健康・医学)を含む7つのマルチモーダルベンチマークでは、Med-GeminiはGPT-4Vに対して平均44.5%の相対的な差で改善を示しました。長文脈能力の有効性を、長い匿名化された健康記録からの針探し検索タスクや医療ビデオ質問応答におけるSoTA性能を通じて実証し、従来の専用手法を文脈内学習のみで上回りました。最後に、Med-Geminiの性能は、医療テキスト要約などのタスクで人間の専門家を上回り、マルチモーダル医療対話、医療研究、教育における有望な潜在能力を示すことで、実世界での有用性を示唆しています。全体として、我々の結果はMed-Geminiの潜在能力を強く示唆していますが、この安全性が重要な領域での実世界での展開の前に、さらなる厳格な評価が不可欠です。
大規模言語モデル(LLMs)や大規模マルチモーダルモデル(LMMs)の進展にもかかわらず、言語に基づいた人間のようなエンボディエージェントへの統合は未完成であり、物理環境における複雑な現実世界のタスクの遂行を妨げています。既存の統合は、オープンソース化が限定的であることが多く、この分野の集団的な進歩を困難にしています。私たちは、LLMsとLMMsを使用してエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームであるLEGENTを紹介します。LEGENTは、双方向のアプローチを提供します:コミュニケーション可能で行動可能なエージェントを備えた豊富なインタラクティブな3D環境とユーザーフレンドリーなインターフェース、そしてシミュレートされた世界からの大規模な監督を活用する高度なアルゴリズムを使用した洗練されたデータ生成パイプラインです。私たちの実験では、LEGENTで生成されたデータで訓練された初期段階の視覚-言語-行動モデルが、エンボディタスクにおいてGPT-4Vを上回り、有望な汎化能力を示しています。
グラフィックデザインは、映画制作やゲームデザインなど、さまざまなアプリケーションにおいて重要です。高品質なシーンを作成するためには、デザイナーは通常、Blenderのようなソフトウェアで何時間も費やし、マテリアルノードを接続するなどの操作を何百回も繰り返す必要があります。さらに、わずかに異なるデザイン目標でも、全く異なる操作シーケンスが必要となるため、自動化が困難です。本論文では、GPT-4VのようなVision-Language Models(VLM)を活用し、ユーザーの意図を満たす答えに到達するためにデザインアクション空間をインテリジェントに探索するシステムを提案します。具体的には、視覚ベースの編集ジェネレータと状態評価器を設計し、目標を達成するための正しい操作シーケンスを見つけるために連携させます。人間のデザインプロセスにおける視覚的想像力の役割に着想を得て、VLMの視覚的推論能力を、画像生成モデルからの「想像された」参照画像で補完し、抽象的な言語記述を視覚的に根拠付けます。本論文では、テキストや参照画像からのプロシージャルマテリアルの編集や、複雑なシーンでの製品レンダリングの照明設定の調整などのタスクに対して、私たちのシステムが単純だが煩雑なBlender編集シーケンスを生成できることを示す実証的な証拠を提供します。
ベースモデルをより多くのデータやパラメータでスケーリングする方法に加えて、ファインチューニングされたアダプターは、コストを削減しながら高忠実度のカスタム画像を生成する代替手段を提供します。そのため、アダプターはオープンソースコミュニティで広く採用され、10万以上のアダプターのデータベースが蓄積されていますが、そのほとんどは高度にカスタマイズされており、十分な説明が不足しています。本論文では、プロンプトを一連の関連アダプターにマッチングする問題を探求し、アダプターを組み合わせることで性能が向上するという最近の研究を基に構築しています。我々はStylusを紹介します。これは、プロンプトのキーワードに基づいてタスク固有のアダプターを効率的に選択し、自動的に組み合わせるものです。Stylusは、まずアダプターを改善された説明と埋め込みで要約し、関連するアダプターを検索し、その後、プロンプトのキーワードに基づいてアダプターをさらに組み立て、プロンプトにどれだけ適合するかをチェックするという3段階のアプローチを概説します。Stylusを評価するために、75Kのアダプターと事前計算されたアダプター埋め込みを特徴とするキュレーションデータセットStylusDocsを開発しました。人とマルチモーダルモデルを評価者として、人気のStable Diffusionチェックポイントでの評価において、Stylusはベースモデルよりも優れたCLIP-FIDパレート効率を達成し、2倍の選好を得ました。詳細はstylus-diffusion.github.ioをご覧ください。
新たな操作タスクを学習可能な自律ロボットシステムは、製造業からサービス自動化に至るまで、産業を変革する可能性を秘めています。しかし、現代の手法(例えばVIPやR3M)は依然として重大な課題に直面しており、特にロボットの実装形態間のドメインギャップや、特定の行動空間内での成功したタスク実行の希薄さが、タスク表現の不整合や曖昧さを引き起こしています。本論文では、これらの課題を克服するためのフレームワークとしてAg2Manip(Agent-Agnostic representations for Manipulation)を提案します。Ag2Manipは、以下の2つの主要な革新を通じてこれらの課題に対処します:1) 人間の操作動画から導出された、実装形態の詳細を隠蔽することで汎用性を高めた新しいエージェント非依存の視覚表現、2) ロボットの運動学を普遍的なエージェントプロキシに抽象化し、エンドエフェクタと物体間の重要な相互作用に焦点を当てたエージェント非依存の行動表現。Ag2Manipは、FrankaKitchen、ManiSkill、PartManipなどのシミュレーションベンチマークにおいて、ドメイン固有のデモンストレーションなしで325%の性能向上を示しました。アブレーションスタディは、この成功における視覚表現と行動表現の本質的な貢献を強調しています。さらに、実世界での評価を拡張した結果、Ag2Manipは模倣学習の成功率を50%から77.5%に大幅に向上させ、シミュレーション環境と物理環境の両方での有効性と汎用性を実証しました。
衣服が人間の外見において重要な役割を果たすことから、デジタルヒューマン作成における衣服のデジタル化の重要性が強調されています。近年の3Dコンテンツ作成の進展は、デジタルヒューマン作成において極めて重要です。しかしながら、テキストガイダンスに基づく衣服生成はまだ初期段階にあります。本論文では、テキスト駆動型の3D衣服生成フレームワーク「DressCode」を紹介します。このフレームワークは、初心者向けのデザインの民主化を目指し、ファッションデザイン、バーチャル試着、デジタルヒューマン作成において大きな可能性を提供します。本フレームワークでは、まずSewingGPTを導入します。これは、GPTベースのアーキテクチャであり、テキスト条件付きの埋め込みとクロスアテンションを統合して、テキストガイダンスに基づく縫製パターンを生成します。また、高品質なタイルベースのPBRテクスチャ生成のために、事前学習済みのStable Diffusionをカスタマイズしました。大規模言語モデルを活用することで、本フレームワークは自然言語インタラクションを通じてCG向けの衣服を生成します。さらに、本手法はパターンの補完やテクスチャ編集を容易にし、ユーザーフレンドリーなインタラクションを通じてデザイナーの作業を簡素化します。包括的な評価と他の最先端手法との比較を通じて、本手法は最高品質と入力プロンプトとの整合性を示しています。ユーザー調査により、高品質なレンダリング結果が実用的な有用性と生産環境における潜在的可能性を裏付けています。