翻訳付きの日次キュレーションされたAI研究論文
ロボティック操作における堅牢で修正可能な視覚運動ポリシーを開発することは、失敗からの自己回復メカニズムの欠如と、単純な言語指示の制約により困難です。これらの課題に対処するため、我々は、エキスパートのデモンストレーションを自動的に拡張し、失敗回復軌跡と細かい言語注釈をトレーニングするためのスケーラブルなデータ生成パイプラインを提案します。次に、リッチ言語による失敗回復(RACER)という、失敗回復データを豊富な言語記述と組み合わせてロボット制御を強化するスーパーバイザー・アクターフレームワークを紹介します。RACERには、オンラインスーパーバイザーとして機能するビジョン言語モデル(VLM)があり、エラー修正とタスク実行のための詳細な言語ガイダンスを提供し、次のアクションを予測するアクターとして言語条件付きの視覚運動ポリシーがあります。実験結果によると、RACERは、RLbench上での様々な評価設定において、標準の長期タスク、動的なゴール変更タスク、ゼロショット未知タスクを含む、シミュレートおよび実世界環境の両方で優れた性能を達成し、最先端のRobotic View Transformer(RVT)を上回ることが示されました。ビデオとコードは以下で入手可能です:https://rich-language-failure-recovery.github.io.
大規模言語モデル(LLMs)は、さまざまな領域やタスクで驚異的な能力を示し、学習と認知の知識の限界を押し広げてきました。最新モデルであるOpenAIのo1は、内部化された思考の連鎖技術を用いた最初のLLMとして際立っており、強化学習戦略を使用しています。o1は、さまざまな一般言語タスクで驚くほど強力な能力を示していますが、医学などの専門分野での性能は未知です。この報告書では、o1の医学シナリオにおける包括的な探索を提供し、理解、推論、多言語性の3つの主要な側面を検討します。具体的には、New England Journal of Medicine(NEJM)およびThe Lancetからの専門医学クイズに基づく、より難解な2つの新しい質問応答(QA)タスクを含む37の医学データセットからのデータを使用して6つのタスクを評価します。これらのデータセットは、MedQAなどの標準的な医学QAベンチマークよりも臨床的な関連性が高く、現実世界での臨床的有用性により効果的に翻訳されます。o1の分析から、LLMsの強化された推論能力が、さまざまな医学的指示を理解し、複雑な臨床シナリオを推論する能力に大きく貢献する可能性があることが示唆されます。特に、o1は、19のデータセットと2つの新しく作成された複雑なQAシナリオ全体で、平均してGPT-4を6.2%と6.6%上回っています。しかし一方で、モデルの能力と既存の評価プロトコルにいくつかの弱点が特定されており、幻覚、一貫性のない多言語能力、および評価のための食い違った指標が含まれています。将来の研究のために、当社はhttps://ucsc-vlaa.github.io/o1_medicine/で生データとモデルの出力を公開しています。
視覚指示チューニングの成功は、大規模言語およびビジョンモデル(LLVMs)の開発を加速させました。大規模言語モデル(LLMs)の指示に従うスケーリング則に従い、LLVMsはさらにサイズを拡大し、26B、34B、さらには80Bのパラメータに達しました。モデルサイズの増加は、大幅な性能向上をもたらしていますが、トレーニングと推論の両方においてかなりのハードウェアリソースを要求します。その結果、より小さなサイズでありながら大きなモデルの性能を達成する効率的なLLVMsへの強い需要が自然に存在しています。このニーズを満たすために、我々は、0.5B、1.8B、3.8B、および7Bのパラメータを持つ新しい効率的なLLVMファミリー、Phantomを提案します。Phantomは、限られた構造内で学習能力を大幅に向上させるもので、マルチヘッドセルフアテンション(MHSA)中に潜在的な隠れ次元を一時的に増やすことで、LLVMsが物理的モデルサイズを大幅に増やさずに、潜在的により多くのビジョン言語知識を見ることや理解する準備をします。その利点を最大限に活用するために、我々は、自己回帰教師付き微調整(SFT)およびダイレクトプリファレンス最適化(DPO)のような概念を使用したPhantom最適化(PO)を導入し、効果的に正しい回答に従いながら、不正確であったり曖昧な回答を排除します。Phantomは、多数のより大きなオープンソースおよびクローズドソースのLLVMsを凌駕し、効率的なLLVMsの領域において主要なソリューションとして位置付けられます。
本論文では、自由な自然言語の指示に基づいて画像生成、操作、翻訳を行う汎用的な画像対画像ビジュアルアシスタントであるPixWizardを提案する。このために、さまざまなビジョンタスクを統一された画像テキスト対画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuning Datasetを編纂する。自然言語で詳細な指示テンプレートを構築することで、テキストから画像生成、画像修復、画像グラウンディング、密な画像予測、画像編集、制御可能な生成、インペインティング/アウトペインティングなど、多様なビジョンタスクを包括的に取り入れる。さらに、基本モデルとしてDiffusion Transformers(DiT)を採用し、柔軟な解像度メカニズムを導入して、入力のアスペクト比に基づいて画像を動的に処理することが可能となり、人間の知覚プロセスに密接に合致する。モデルは、入力画像からの情報の効果的な融合を促進するために、構造認識および意味認識ガイダンスも組み込んでいる。実験では、PixWizardが異なる解像度を持つ画像に対して印象的な生成能力と理解能力を示すだけでなく、未知のタスクや人間の指示に対する有望な汎化能力も示すことが示された。コードおよび関連リソースは、https://github.com/AFeng-x/PixWizard で入手可能である。
大規模言語モデル(LLMs)は、臨床応用を変革する上で著しい潜在能力を示しています。本研究では、LLMsを臨床応用ケースに適応させるための4つの技術の有効性を調査します。それらの技術は、連続事前学習、インストラクトファインチューニング、NEFTune、およびプロンプトエンジニアリングです。私たちは、Mistral 7BとMixtral 8x7Bモデルにこれらの手法を適用し、500億トークンの大規模な臨床事前学習データセットと5億トークンのインストラクトファインチューニングデータセットを活用します。様々な臨床タスクでの評価により、各技術の影響が明らかになります。2500億トークンを超える連続事前学習は単独ではわずかな改善しかもたらしませんが、インストラクトファインチューニングの強力な基盤を築きます。特に、主に生成品質を向上させるために設計されたNEFTuneは、私たちのベンチマークで追加の利益を驚くほど示します。複雑なプロンプトエンジニアリング手法は、パフォーマンスをさらに向上させます。これらの知見は、ファインチューニング戦略を適合させ、革新的な技術を探求することが、臨床領域におけるLLMのパフォーマンスを最適化する上で重要であることを示しています。
私たちは、拡散ベースの生成モデルを使用して、高度にリアルでありながら信憑性のあるミラー反射を生成する問題に取り組んでいます。この問題を画像修復のタスクとして定式化し、生成プロセス中にミラーの配置をよりユーザーが制御できるようにしています。これを実現するために、SynMirrorという多様な合成シーンの大規模データセットを作成しました。SynMirrorには、ミラーの前に配置されたオブジェクトを含む約198Kのサンプルが収録されており、66Kのユニークな3Dオブジェクトからレンダリングされています。また、シーンの関連する幾何学的特性を捉えるために、それらに関連する深度マップ、法線マップ、およびインスタンスごとのセグメンテーションマスクも含まれています。このデータセットを使用して、入力画像とミラー領域を示すマスクを与えられた場合に、高品質で幾何学的に整合性があり写真のようなミラー反射を生成する新しい深度条件付き修復手法であるMirrorFusionを提案します。SynMirrorにおいて、MirrorFusionは包括的な定量的および定性的分析によって証明されるように、最先端の手法を上回っています。私たちの知る限りでは、拡散ベースのモデルを使用してシーン内のオブジェクトの制御された忠実なミラー反射を生成する難しい問題に初めて成功したものです。SynMirrorとMirrorFusionは、実務家や研究者の両方にとって、画像編集や拡張現実のアプリケーションに新たな可能性を切り開いています。
最近の逆レンダリングの研究では、オブジェクトの多視点画像を使用して形状、アルベド、および素材を回復することが有望であることが示されています。ただし、回復されたコンポーネントは、入力画像からアルベドと素材の特性を分離するという固有の課題により、新しい照明条件下で正確にレンダリングされることがしばしばありません。この課題に対処するために、私たちはMaterialFusionを導入します。これは、テクスチャと素材の特性に関する2D事前情報を組み込んだ強化された従来の3D逆レンダリングパイプラインです。私たちは、与えられた入力外観から最も可能性の高いアルベドと素材を推定するために、マルチライトデータを洗練する2D拡散モデル事前情報であるStableMaterialを提案します。このモデルは、BlenderVaultと呼ばれる約12,000のアーティストが設計した合成Blenderオブジェクトのキュレーションデータセットから派生したアルベド、素材、および再照明画像データでトレーニングされています。私たちは、この拡散事前情報を逆レンダリングフレームワークに組み込み、スコア蒸留サンプリング(SDS)を使用してアルベドと素材の最適化をガイドし、以前の研究と比較して再照明のパフォーマンスを向上させています。私たちは、MaterialFusionの再照明パフォーマンスを、多様な照明条件下での合成および実際のオブジェクトの4つのデータセットで検証し、私たちの拡散支援アプローチが新しい照明条件下で再構築されたオブジェクトの外観を大幅に改善することを示しています。この分野でのさらなる研究を支援するために、BlenderVaultデータセットを公開する予定です。
2022年11月にChatGPTがリリースされ、ポストトレーニングと新しい優先度最適化(PO)手法の爆発的な関心が引き起こされました。これらの手法は、しばしばLLM判定者によって測定される人間のペアワイズな選好とのより良い対応によって、優れた整合性を主張しています。本研究では、LLM判定者の選好が他のより具体的な整合性メトリクスにどのように変換されるか、そしてそうでない場合はなぜかについての問いに取り組みます。我々は整合性の具体的なメトリクスを定義し、これまでで最大の標準化された再現可能なLLMメタベンチマークであるSOS-Benchを紹介します。我々は次のことを発見しました:(1)LLM判定は安全性、世界知識、および指示の遵守といった具体的なメトリクスと相関しない;(2)LLM判定者は、事実よりもスタイルや安全性を優先する強力な暗黙のバイアスを持っている;そして(3)ポストトレーニングの監督されたファインチューニング(SFT)段階が整合性に最も大きな影響を与え、データのスケーリングとプロンプトの多様性が駆動要因であることがわかりました。我々のコードベースと完全な結果は、https://github.com/penfever/sos-bench で入手できます。
本論文では、マルチリンガルテキスト読み上げ(TTS)システムにシームレスに統合できるゼロショット音声転送(VT)モジュールを紹介します。このモジュールは、個人の声を言語間で転送することが可能です。提案されたVTモジュールには、参照音声を処理するスピーカーエンコーダー、ボトルネック層、および既存のTTS層に接続された残差アダプタが含まれています。これらのコンポーネントのさまざまな構成のパフォーマンスを比較し、言語間の平均意見スコア(MOS)と話者類似性を報告します。1人あたり1つの英語参照音声を使用して、9つの対象言語間で73%の平均音声転送類似性スコアを達成しました。声の特性は、個人のアイデンティティの構築と認識に大きく貢献します。身体的または神経学的な状態による自分の声の喪失は、核となるアイデンティティに深い喪失感をもたらす可能性があります。事例として、典型的な音声だけでなく、非典型的な音声サンプルしか利用できない場合でも、disarthriaを持つ個人の声を回復できることを示しました。これは、典型的な音声を持ったことがないか、声をバンクに預けたことがない人々にとって貴重なユーティリティです。クロスリンガルな典型的なオーディオサンプルと、disarthriaスピーカーの声の回復をデモンストレーションしたビデオはこちらでご覧いただけます(google.github.io/tacotron/publications/zero_shot_voice_transfer)。
幅広いシナリオでインタラクティブなキャラクターに命を吹き込むことができる単一で多目的な物理ベースのコントローラを作成することは、キャラクターアニメーションの刺激的なフロンティアを表しています。理想的なコントローラは、疎なターゲットキーフレーム、テキスト指示、シーン情報など、多様な制御モダリティをサポートすべきです。従来の研究では、物理シミュレーションされた、シーンを認識する制御モデルが提案されてきましたが、これらのシステムは主に、特定の一連のタスクと制御モダリティに特化したコントローラの開発に焦点を当ててきました。本研究では、MaskedMimicという新しいアプローチを提案し、物理ベースのキャラクターコントロールを一般的なモーションインペインティング問題として定式化します。私たちの主要な洞察は、マスクされたキーフレーム、オブジェクト、テキストの説明など、部分的な(マスクされた)モーション記述からモーションを合成するために単一の統合モデルをトレーニングすることです。これは、モーショントラッキングデータを活用し、多様なモーション記述を効果的に利用して整合性のあるアニメーションを生成するためのスケーラブルなトレーニング方法を設計することによって達成されます。このプロセスを通じて、私たちのアプローチは、興味の対象とするすべての行動に対して煩わしい報酬エンジニアリングを必要とせずに直感的な制御インターフェースを提供する物理ベースのコントローラを学習します。その結果得られるコントローラは、幅広い制御モダリティをサポートし、異なるタスク間でシームレスな遷移を可能にします。モーションインペインティングを通じてキャラクターコントロールを統一することで、MaskedMimicは多目的な仮想キャラクターを作成します。これらのキャラクターは、複雑なシーンに動的に適応し、要求に応じて多様なモーションを構成することができ、よりインタラクティブで没入感のある体験を可能にします。
糖尿病は重大な世界的な健康負担をもたらす慢性疾患であり、糖尿病管理の最適化には複数の利害関係者の協力が必要です。大規模言語モデル(LLMs)はさまざまな医療シナリオで有望な成果を示していますが、多様な糖尿病タスクにおける効果は未確認です。本研究では、糖尿病特化のLLMを訓練および検証するためのフレームワークを紹介しました。まず、データ収集、フィルタリング、拡張、および改良を含む包括的なデータ処理パイプラインを開発しました。このアプローチは、高品質の糖尿病特化データセットおよびいくつかの評価基準をゼロから作成するのに貢献します。収集した訓練データセットを活用して、他のLLMsと比較してさまざまな糖尿病タスクの理解と処理において最先端の能力を示す糖尿病特化LLMファミリーを微調整しました。さらに、臨床研究では、当社のモデルが個別化された医療の提供、医療教育の支援、および臨床タスクの効率化など、糖尿病ケアにおける潜在的な応用を示しました。結論として、本研究は糖尿病特化LLMファミリーを開発および評価するためのフレームワークを紹介し、臨床実践の向上と、異なるエンドユーザーに対応する際の糖尿病サポートのための個別化されたデータ駆動型サポートの可能性を強調しました。コードはGitHubで提供されています:https://github.com/waltonfuture/Diabetica.
最近、生成AIを使用して仮想現実(VR)アプリケーション向けの3D空間を作成することに関心が高まっています。しかし、現在のモデルは人工的な環境を生成するにとどまり、ユーザーの物理的な状況を取り入れた共同作業をサポートするのには不十分です。VRテレプレゼンスをサポートする環境を生成するために、我々はSpaceBlenderを導入します。これは、ユーザーの物理的な環境を統合された仮想空間にブレンドするために生成AI技術を活用する革新的なパイプラインです。このパイプラインは、ユーザー提供の2D画像を、深度推定、メッシュ整列、幾何学的事前条件と適応的なテキストプロンプトによって誘導された拡散ベースの空間補完からなる反復プロセスを通じて、コンテキスト豊かな3D環境に変換します。20人の参加者がペアで協力してVRアフィニティ図式作成タスクを行った予備的な被験者間研究では、SpaceBlenderを一般的な仮想環境や最先端のシーン生成フレームワークと比較し、協力に適した仮想空間を作成する能力を評価しました。参加者はSpaceBlenderによって提供される向上した馴染みやコンテキストを評価しましたが、タスクの焦点をそらす可能性のある生成環境の複雑さも指摘しました。参加者のフィードバックをもとに、パイプラインの改善方向を提案し、異なるシナリオ向けのブレンドされた空間の価値とデザインについて議論します。
本論文では、OpenAIの最新の推論モデルであるo1-previewとo1-miniによるコーディングタスクの事例研究を他の先端モデルと比較して示す。o1モデルは、単一タスクのベンチマークであるWebApp1KにおいてSOTAの結果を提供する。このために、タスク数とテストケースを倍にした難易度の高いベンチマークであるWebApp1K-Duoを導入する。新しいベンチマークにより、o1モデルの性能が著しく低下し、Claude 3.5を下回る結果となった。さらに、非典型的であるが正しいテストケースに直面した際に一貫して失敗し、非推論モデルが時折回避する罠に陥る。我々は、性能の変動が指示の理解に起因すると仮説を立てている。具体的には、推論メカニズムは、すべての期待が捉えられた際に性能を向上させる一方で、重要な期待が見落とされた際に誤りを悪化させ、入力の長さに影響を受ける可能性がある。このように、推論モデルのコーディング成功は、優れたベースモデルとSFTによる入念な指示への厳密な遵守にかかっていると主張する。
音声はシーンについて多くの情報を伝え、残響から追加の環境音までさまざまな効果をもたらします。本論文では、音声入力を操作して、その音声がそのシーンから記録されたと思われるような音に聞こえるようにします。そのために、そのシーンから記録されたオーディオビジュアル条件付きの例を使用します。当モデルは自己監督を通じて学習し、自然なビデオには繰り返し発生する音のイベントやテクスチャが含まれているという事実を利用します。ビデオからオーディオクリップを抽出し、音声の向上を適用します。次に、別のビデオ内の別のオーディオビジュアルクリップを条件ヒントとして使用して、元の音声を回復するための潜在的な拡散モデルをトレーニングします。このプロセスを通じて、モデルは入力音声に条件付き例の音の特性を転送することを学習します。当モデルは、未ラベルの野生のビデオを使用して成功裏にトレーニングでき、さらにビジュアル信号を使用することで音声予測能力を向上させることができることを示します。ビデオの結果については、以下のプロジェクトウェブページをご覧ください:https://tinglok.netlify.app/files/avsoundscape/