翻訳付きの日次キュレーションされたAI研究論文
Transformerは機械学習に革命をもたらしましたが、その内部動作は多くの人にとって不透明なままです。本論文では、非専門家がGPT-2モデルを通じてTransformerを学ぶためのインタラクティブな可視化ツール「Transformer Explainer」を紹介します。本ツールは、モデルの概要を統合し、数学的操作やモデル構造の抽象化レベル間をスムーズに移行できるようにすることで、複雑なTransformerの概念を理解するのに役立ちます。ユーザーのブラウザ上でローカルにGPT-2のライブインスタンスを実行し、ユーザーが独自の入力を試して、Transformerの内部コンポーネントとパラメータがどのように連携して次のトークンを予測するかをリアルタイムで観察できるようにします。本ツールはインストールや特別なハードウェアを必要とせず、現代の生成AI技術への一般の教育アクセスを広げます。オープンソースの本ツールはhttps://poloclub.github.io/transformer-explainer/で利用可能です。ビデオデモはhttps://youtu.be/ECR4oAwocjsでご覧いただけます。
大規模視覚言語モデル(LVLMs)は、画像、テキスト、生理学的信号など多様なデータタイプを扱うことが可能であり、様々な分野で応用が期待されています。医療分野においては、LVLMsが診断や治療に大きな支援を提供する可能性が高いです。その前に、様々な医療応用におけるLVLMsの有効性を評価するためのベンチマークを開発することが重要です。現在のベンチマークは、特定の学術文献に基づいて構築されることが多く、主に単一のドメインに焦点を当てており、異なる知覚的粒度を欠いています。そのため、臨床的関連性の限界、不完全な評価、インタラクティブなLVLMsのための不十分なガイダンスといった特定の課題に直面しています。これらの制限を解決するために、我々はGMAI-MMBenchを開発しました。これは、これまでで最も包括的な一般医療AIベンチマークであり、よく分類されたデータ構造と多知覚的粒度を備えています。285のデータセットから構築され、39の医療画像モダリティ、18の臨床関連タスク、18の診療科、および4つの知覚的粒度を視覚質問応答(VQA)形式でカバーしています。さらに、ユーザーが評価タスクをカスタマイズできる語彙ツリー構造を実装し、様々な評価ニーズに対応し、医療AIの研究と応用を大幅に支援します。50のLVLMsを評価した結果、先進的なGPT-4oでさえ52%の精度しか達成できず、改善の余地が大きいことが示されました。さらに、より優れた医療アプリケーションの開発を進めるために、現在の最先端LVLMsにおける5つの主要な不足点を特定しました。我々は、GMAI-MMBenchがコミュニティを刺激し、次世代のLVLMsをGMAIに向けて構築することを期待しています。 プロジェクトページ: https://uni-medical.github.io/GMAI-MMBench.github.io/
3Dコンテンツ生成は、ビデオゲーム、映画制作、仮想現実(VR)および拡張現実(AR)など、多くのコンピュータグラフィックスアプリケーションの中核をなす技術です。本論文では、ユーザーのカジュアルなプロンプト(例えば手描きのスケッチ)から、インタラクティブでプレイ可能な3Dゲームシーンを自動生成するための新しい深層学習ベースのアプローチを提案します。スケッチベースの入力は、コンテンツ作成プロセスにおいてユーザーのデザイン意図を伝える自然で便利な方法を提供します。学習におけるデータ不足の課題(すなわち、大規模な3Dシーンのトレーニングデータの欠如)を回避するため、我々の手法は事前学習済みの2Dノイズ除去拡散モデルを活用して、シーンの概念的なガイダンスとして2D画像を生成します。このプロセスでは、等角投影モードを採用して未知のカメラポーズを排除しつつ、シーンレイアウトを取得します。生成された等角画像からは、事前学習済みの画像理解手法を用いて、地面から離れたオブジェクト、木、建物などの意味のある部分に画像をセグメント化し、2Dシーンレイアウトを抽出します。これらのセグメントとレイアウトは、その後、UnityやUnrealなどの3Dビデオゲームエンジンのようなプロシージャルコンテンツ生成(PCG)エンジンに供給され、3Dシーンが作成されます。結果として得られる3Dシーンは、ゲーム開発環境にシームレスに統合可能で、すぐにプレイ可能な状態になります。広範なテストにより、我々の手法がユーザーの意図に忠実なレイアウトで、高品質でインタラクティブな3Dゲームシーンを効率的に生成できることが実証されています。
大規模言語モデル(LLM)が一般に広く利用可能になったことで、機械生成テキスト(MGT)の普及が大幅に加速しています。プロンプト操作の進歩により、テキストの出所(人間が作成したものか機械生成されたものか)を判別することがますます困難になっています。これにより、特に教育や学術分野におけるMGTの悪用に対する懸念が高まっています。本論文では、細粒度のMGT検出を目的としたシステム「LLM-DetectAIve」を提案します。このシステムは、テキストを4つのカテゴリに分類することができます:人間が書いたもの、機械生成されたもの、機械が書いて人間が修正したもの、人間が書いて機械が磨き上げたものです。従来のMGT検出器が二値分類を行っていたのに対し、LLM-DetectAIveでは2つの追加カテゴリを導入することで、テキスト作成過程におけるLLMの介入の度合いを詳細に把握することが可能です。これは、教育などの分野で有用かもしれません。教育分野では、通常、LLMの介入は禁止されています。実験結果から、LLM-DetectAIveがテキストコンテンツの著者を効果的に識別できることが示されており、教育、学術、その他の分野における信頼性向上に役立つことが証明されています。LLM-DetectAIveは、https://huggingface.co/spaces/raj-tomar001/MGT-New で公開されています。また、システムの説明動画は https://youtu.be/E8eT_bE7k8c で視聴可能です。
低・中リソース言語における単一言語モデルの開発は、高品質なトレーニングデータの収集が困難であることから、依然として阻害されています。本研究では、この課題に取り組み、より効率的な言語適応を可能にするための新しいクロスリンガル語彙転送戦略である「トランストークン化」を提案します。私たちのアプローチは、高リソースの単一言語LLMを未見のターゲット言語に適応させることに焦点を当て、ターゲット言語のトークン埋め込みを、ソース言語の意味的に類似したトークン埋め込みの加重平均で初期化します。これには、ソース言語とターゲット言語の両方をカバーする翻訳リソースを活用します。私たちは、トランストークン化されたLLMシリーズである「Tweeties」を用いてこの手法を検証し、少数ながら多様な言語セットにおける様々な下流タスクでの競争力のある性能を実証しました。さらに、複数の交換可能な言語モデリングヘッドと埋め込みテーブルを持つ「Hydra LLM」を導入し、トランストークン化戦略の能力をさらに拡張します。多言語モデル「TowerInstruct」に基づいてHydra LLMを設計することで、高品質な並列データを完全に回避し、ゼロショット方式でタタール語の最先端機械翻訳モデルを開発しました。このブレークスルーは、タタール語のような低リソース言語にとって特に重要です。なぜなら、高品質な並列データが入手困難なためです。高品質なモデルのトレーニングに必要なデータと時間の要件を下げることで、私たちのトランストークン化戦略は、特にリソースが限られた言語を含む、より広範な言語のLLM開発を可能にします。私たちの研究が、クロスリンガル語彙転送の分野におけるさらなる研究と協力を刺激し、グローバル規模での言語のエンパワーメントに貢献することを願っています。
我々は、大規模言語モデル(LLM)のアラインメントに向けた世界知識に基づく高品質な合成データを構築するための新たな手法、インストラクション・バックアンドフォース翻訳を提案する。ウェブコーパスから得たドキュメントを基に、Li et al.(2023a)が提案したバックトランスレーションアプローチを用いて合成インストラクションを生成・キュレーションし、初期ドキュメントに基づいて応答をリライトすることでその品質をさらに向上させる。得られた(バックトランスレーションされたインストラクション、リライトされた応答)ペアを用いたファインチューニングは、Humpback、ShareGPT、Open Orca、Alpaca-GPT4、Self-instructなどの他の一般的なインストラクションデータセットを使用する場合よりも、AlpacaEvalにおいて高い勝率を示す。また、LLMを用いて応答をリライトすることが直接蒸留を上回る性能を発揮し、生成された2つのテキスト分布は埋め込み空間において顕著な差異を示すことを実証する。さらなる分析により、我々のバックトランスレーションされたインストラクションは他の合成インストラクション源よりも高品質であり、我々の応答は蒸留から得られたものよりも多様性と複雑性に富んでいることが明らかになった。全体として、インストラクション・バックアンドフォース翻訳は両方の利点を組み合わせていることがわかる——ウェブ上に見られる情報の多様性と量を活用しつつ、効果的なアラインメントに必要な応答の品質を確保している。
高性能なマルチモーダル大規模言語モデル(MLLM)は、データの品質に大きく依存しています。本研究では、コントラスト学習と画像差分キャプショニングの知見を活用して、MLLMの細粒度画像認識を強化するために設計された新しいデータセット「Img-Diff」を紹介します。類似画像間のオブジェクトの差異を分析することで、モデルに一致する部分と異なる部分の両方を識別することを求めます。Stable-Diffusion-XLモデルと高度な画像編集技術を利用して、オブジェクトの置換を強調した類似画像ペアを作成します。私たちの手法には、オブジェクトの差異を特定するための「Difference Area Generator」と、詳細な差異の説明を生成する「Difference Captions Generator」が含まれます。その結果、比較的小規模ながら高品質な「オブジェクト置換」サンプルのデータセットが得られます。提案されたデータセットを使用して、MGM-7Bなどの最先端(SOTA)MLLMをファインチューニングし、大規模データセットでトレーニングされたSOTAモデルを上回る性能スコアの包括的な改善を、多数の画像差分および視覚的質問応答タスクで達成しました。例えば、私たちのトレーニング済みモデルは、MMVPベンチマークにおいてSOTAモデルであるGPT-4VやGeminiを顕著に上回りました。さらに、「オブジェクト削除」を通じて画像差分データを生成する代替方法を調査し、データセットの多様性、品質、堅牢性を確認するための徹底的な評価を行い、そのようなコントラストデータセットの合成に関するいくつかの洞察を提示します。マルチモーダルデータ合成とMLLMの画像理解の基本的な能力の向上を促進するため、私たちはコードとデータセットをhttps://github.com/modelscope/data-juicer/tree/ImgDiffで公開しています。
本論文では、パートレベルのダイナミクスに対するモーションプライアとして機能するインタラクティブなビデオ生成モデル「Puppet-Master」を提案します。テスト時には、単一の画像と疎なモーショントラジェクトリ(ドラッグ操作)が与えられると、Puppet-Masterは与えられたドラッグ操作に忠実な現実的なパートレベルの動きを描いたビデオを合成できます。これを実現するために、大規模な事前学習済みビデオ拡散モデルをファインチューニングし、ドラッグ制御を効果的に注入するための新しい条件付けアーキテクチャを提案します。さらに重要なことに、広く採用されている空間的注意モジュールの代替として「all-to-first注意メカニズム」を導入し、既存モデルの外観と背景の問題に対処することで生成品質を大幅に向上させます。他のモーション条件付きビデオ生成器が一般的なビデオで学習され、主にオブジェクト全体を動かすのに対し、Puppet-Masterはキュレーションされたパートレベルモーションクリップの新しいデータセット「Objaverse-Animation-HQ」から学習されます。最適でないアニメーションを自動的にフィルタリングし、意味のあるモーショントラジェクトリで合成レンダリングを拡張する戦略を提案します。Puppet-Masterは、さまざまなカテゴリの実画像にうまく一般化し、実世界のベンチマークにおいて既存の手法をゼロショット方式で上回ります。詳細な結果についてはプロジェクトページをご覧ください:vgg-puppetmaster.github.io。
人間の頭部検出、キーポイント推定、および3D頭部モデルフィッティングは、多くの応用が可能な重要なタスクです。しかし、従来の実世界のデータセットは、バイアス、プライバシー、倫理的な懸念に悩まされることが多く、また実験室環境で記録されているため、訓練されたモデルの汎化が困難です。ここでは、人間の頭部検出と3Dメッシュ推定のための拡散モデルを用いて生成された大規模な合成データセットであるVGGHeadsを紹介します。私たちのデータセットは、100万枚以上の高解像度画像で構成され、それぞれに詳細な3D頭部メッシュ、顔のランドマーク、バウンディングボックスが注釈付けされています。このデータセットを使用して、単一の画像から頭部検出と頭部メッシュ再構築を同時に行う新しいモデルアーキテクチャを提案します。広範な実験的評価を通じて、私たちの合成データで訓練されたモデルが実画像において高い性能を発揮することを実証します。さらに、私たちのデータセットの汎用性により、幅広いタスクに適用可能であり、人間の頭部の一般的で包括的な表現を提供します。加えて、合成データ生成パイプラインに関する詳細な情報を提供し、他のタスクやドメインで再利用できるようにしています。
物理的な3D環境における自然言語の接地は、具現化された人工知能の進歩にとって不可欠である。現在の3D視覚的接地のためのデータセットとモデルは、主に静的で物体中心の記述から物体を識別し位置特定することに焦点を当てている。これらのアプローチは、実用的なアプリケーションに必要なタスク指向の接地の動的かつ連続的な性質を十分に扱っていない。本研究では、新しいタスクを提案する:3Dシーンにおけるタスク指向の逐次接地。このタスクでは、エージェントが詳細なステップバイステップの指示に従い、屋内シーンで一連のターゲットオブジェクトを見つけることで日常活動を完了しなければならない。このタスクを促進するため、SG3Dという大規模なデータセットを導入する。このデータセットは、4,895の実世界の3Dシーンにわたる22,346のタスクと112,236のステップを含んでいる。データセットは、さまざまな3DシーンデータセットからのRGB-Dスキャンと自動化されたタスク生成パイプラインを組み合わせて構築され、品質保証のために人間による検証が行われた。我々は、3つの最先端の3D視覚的接地モデルを逐次接地タスクに適応させ、SG3Dでの性能を評価した。結果は、これらのモデルが従来のベンチマークでは良好な性能を示すものの、タスク指向の逐次接地においては重大な課題に直面しており、この分野でのさらなる研究の必要性を強調している。
分子表現は、物理世界を理解する上での基礎的な要素です。その重要性は、化学反応の基本原理から新たな治療法や材料の設計にまで及びます。従来の分子機械学習モデルでは、文字列、フィンガープリント、グローバル特徴量、そして本質的に情報が希薄な単純な分子グラフが用いられてきました。しかし、予測タスクの複雑さが増すにつれ、分子表現はより高精度な情報を符号化する必要があります。本研究では、立体電子効果を介して量子化学的に豊富な情報を分子グラフに注入する新たなアプローチを提案します。立体電子相互作用を明示的に追加することで、分子機械学習モデルの性能が大幅に向上することを示します。さらに、立体電子情報を注入した表現は、カスタマイズされた二重グラフニューラルネットワークのワークフローで学習および展開可能であり、任意の下流分子機械学習タスクに適用できます。最後に、学習された表現により、タンパク質全体のような従来扱いにくかった系の立体電子評価が容易になり、分子設計の新たな道が開かれることを示します。
プログラムの挙動を実行せずに予測することは、ソフトウェア工学において本質的かつ困難な課題である。従来のモデルは、コード内の動的な依存関係や相互作用を捉えることにしばしば苦戦してきた。本論文では、Dynamic Dependencies Learningを通じてコードカバレッジを予測し、ランタイムエラーを検出する新しい機械学習ベースのフレームワーク「CodeFlowrepresents」を提案する。CodeFlowrepresentsは、制御フローグラフ(CFG)を利用して、すべての可能な実行パスと異なるステートメント間の関係を表現し、プログラムの挙動を包括的に理解する。CFGを構築して実行パスを描き、CFGノードのベクトル表現を学習することで、静的な制御フローの依存関係を捉える。さらに、実行トレースを通じて動的な依存関係を学習し、実行中のステートメント間の影響を反映する。このアプローチにより、コードカバレッジの正確な予測とランタイムエラーの特定が可能となる。実証評価では、コードカバレッジ予測の精度が大幅に向上し、ランタイムエラーの効果的なローカライズが実現され、既存のモデルを凌駕する結果が示された。
言語モデル(LM)を用いて複雑な問題を解決する際、人間はLMが生成した解決策を理解し、欠陥のある部分を修正することに苦労する可能性があります。人間が修正を行うのを支援するため、私たちは複雑な解決策を特定のサブタスクに対応する複数の単純な部分に自動的に分解することを提案します。タスク分解を学習するための新しい目的関数として、Assistive Value(AssistV)を導入します。これは、分解された解決策を人間が修正する際の実現可能性と速度を測定するものです。私たちは、異なる分解された解決策に対する人間の修正経験のデータセットを収集しました。収集したデータをコンテキスト内の例として活用し、分解された解決策を批判、改良、ランク付けすることで、AssistVを向上させることを学習します。私たちの手法を競技プログラミングの問題で検証した結果、177時間に及ぶ人間の研究において、非専門家が33.3%多くの問題を解決し、解決速度が3.3倍向上し、支援なしの専門家と同等の能力を発揮できることが確認されました。