翻訳付きの日次キュレーションされたAI研究論文
Retrieval-Augmented Generation(RAG)は、LLMの知識能力を向上させ、幻覚問題を緩和することが示されています。Webは、RAGシステムで使用される外部知識の主要な情報源であり、ChatGPTやPerplexityなどの多くの商用システムが、Web検索エンジンを主要な検索システムとして使用しています。通常、このようなRAGシステムは検索結果を取得し、結果のHTMLソースをダウンロードしてから、HTMLソースからプレーンテキストを抽出します。プレーンテキストの文書やチャンクは、LLMに供給され、生成を補完します。ただし、プレーンテキストに基づくRAGプロセスでは、HTMLに固有の構造的および意味論的情報の多く、例えば見出しや表の構造などが失われます。この問題を緩和するために、私たちはHtmlRAGを提案します。これは、RAGにおいて取得された知識の形式としてプレーンテキストの代わりにHTMLを使用します。私たちは、HTMLが外部文書の知識をモデル化する際にプレーンテキストよりも優れていると考えており、ほとんどのLLMがHTMLを理解するための堅牢な能力を持っていると信じています。ただし、HTMLを利用することには新たな課題があります。HTMLには、タグ、JavaScript、CSSの仕様などの追加コンテンツが含まれており、これらはRAGシステムに追加の入力トークンとノイズをもたらします。この問題に対処するために、HTMLのクリーニング、圧縮、および剪定戦略を提案し、HTMLを短縮しながら情報の損失を最小限に抑えます。具体的には、無用なHTMLブロックを剪定し、HTMLの関連部分のみを保持する2段階のブロックツリーベースの剪定方法を設計しています。6つのQAデータセットでの実験は、RAGシステムでHTMLを使用することの優位性を確認しています。
大規模言語モデル(LLMs)は、指示チューニングにより顕著な汎化および指示遵守能力を示しています。LLMsと指示チューニングの進歩は、大規模ビジョン言語モデル(LVLMs)の開発につながっています。ただし、LLMsと指示チューニングの能力は、分子領域であまり探求されていません。そのため、我々はLLaMoを提案します。これは、大規模分子グラフ言語モデルであり、エンドツーエンドでトレーニングされた大規模分子グラフ言語モデルです。言語とグラフのモダリティ間の不一致を埋めるために、各GNNレイヤーとモチーフ表現の出力表現を抽象化し、クロスアテンションメカニズムでグラフ表現をグラフトークンに変換するマルチレベルグラフプロジェクタを提案します。また、一般的な分子および言語理解のために大規模分子グラフ言語モデルを指示チューニングするための機械生成分子グラフ指示データを導入します。我々の包括的な実験は、LLaMoが分子記述生成、特性予測、IUPAC名予測などの多様なタスクで最良のパフォーマンスを示すことを示しています。LLaMoのコードは、https://github.com/mlvlab/LLaMo で入手可能です。
大規模生成モデルの能力が向上し、ますます広範囲に展開されることにより、信頼性、安全性、および潜在的な誤用に関する懸念が高まっています。これらの問題に対処するため、最近の研究では、生成された出力における概念や振る舞いの出現を効果的に誘発または防止するために、モデルの生成を制御することが提案されています。本論文では、最適輸送理論によって誘導されるアクティベーションを誘導するための一般的なフレームワークであるActivation Transport(AcT)を紹介します。AcTはモダリティに依存せず、計算オーバーヘッドが無視できる程度でモデルの振る舞いを細かく制御し、モデルの能力にほとんど影響を与えません。実験により、LLM(大規模言語モデル)およびT2I(テキストから画像への拡散モデル)における主要な課題に取り組むことで、アプローチの効果と汎用性を示します。LLMでは、AcTが有害性を効果的に軽減し、任意の概念を誘発し、真実性を高めることができることを示します。T2Iでは、AcTが細かいスタイル制御や概念の否定を可能にする方法を示します。
現在のビジョンシステムは通常、情報内容に関係なく画像に固定長の表現を割り当てます。これは人間の知能や大規模言語モデルとは対照的であり、エントロピー、コンテキスト、および馴染みに基づいて変動する表現能力を割り当てます。この着想に基づき、私たちは2次元画像の可変長トークン表現を学習するアプローチを提案します。私たちのエンコーダーデコーダーアーキテクチャは、再帰的に2次元画像トークンを処理し、複数の再帰ロールアウトを通じてそれらを1次元潜在トークンに蒸留します。各反復は2次元トークンを洗練し、既存の1次元潜在トークンを更新し、新しいトークンを追加することで表現能力を適応的に増やします。これにより、画像を32から256までの可変数のトークンに圧縮することが可能となります。再構成損失とFIDメトリクスを使用してトークナイザーを検証し、トークン数が画像のエントロピー、馴染み、および下流タスクの要件と一致することを示します。各反復で表現能力が増加する再帰的トークン処理により、トークンの特殊化の兆候が現れ、オブジェクト/部位の発見の可能性が示されます。
MLLMは、複雑な言語と視覚データに対する驚異的な理解力と推論能力を示しています。これらの進歩は、複雑な人間の指示を理解し、さまざまな具体的なタスクを遂行することに長けた一般的なロボットMLLMの構築のビジョンを促進しています。ただし、実世界のロボット用にMLLMを開発することは、通常のロボットプラットフォームで利用可能な計算能力とメモリ容量が限られているため、困難です。一方、MLLMの推論には数十億のパラメータを保存し、膨大な計算を行う必要があり、膨大なハードウェア要件が課せられます。本論文では、特定の状況に応じてアクティブ化されるMLLMのサイズを自動的に調整するロボティックビジョン言語アクションモデル(DeeR-VLA、または単にDeeR)のためのダイナミックアーリーエグジットフレームワークを提案しています。この手法は、MLLMにマルチエグジットアーキテクチャを活用し、モデルの適切なサイズが特定の状況にアクティブ化された後に処理を終了させることで、さらなる冗長な計算を回避します。さらに、DeeRのための早期終了基準を確立する新しいアルゴリズムを開発し、平均計算コスト(つまり、消費電力)、ピーク計算消費(つまり、レイテンシ)、およびGPUメモリ使用量などの事前定義された要求に応じて条件付けます。これらの改良により、DeeRは競争力のある性能を維持しながら、さまざまなリソース制約下で効率的に動作します。CALVINロボット操作ベンチマークでは、DeeRは、性能を損なうことなく、LLMの計算コストを5.2〜6.5倍、LLMのGPUメモリを2〜6倍削減することを示しています。コードとチェックポイントは、https://github.com/yueyang130/DeeR-VLA で入手可能です。
大規模言語モデル(LLM)を人間の好みと効率的に整合させる方法について、予算の制約を受けたオンラインフィードバックを考慮して研究しています。まず、LLMの整合化問題を文脈におけるデュエリングバンディットの枠組みで定式化します。この定式化は、オンラインRLHFやオンラインDPOなどの最近のパラダイムを包含し、オンラインアクティブ探索を組み込んだサンプル効率のアルゴリズムを求めるものです。バンディット理論からの示唆を活用し、Thompsonサンプリングに基づく統一されたアルゴリズムを導入し、その応用を2つの異なるLLM整合化シナリオで強調します。このアルゴリズムを効率的に実装する実用的エージェントであるSEA(Sample-Efficient Alignment)は、3つのモデルスケール(1B、2.8B、6.9B)と3つの好み学習アルゴリズム(DPO、IPO、SLiC)を対象とした包括的な実験を通じて経験的に検証されます。その結果、SEAはオラクルの好みと非常にサンプル効率のよい整合性を達成し、LLM向けの最近のアクティブ探索方法を凌駕しています。さらに、LLMのオンライン整合化のために設計された効率的なコードベースとともにSEAの実装を公開し、この分野の将来の研究を加速することを目指しています。
DreamPolishというテキストから3D生成モデルを紹介します。このモデルは洗練されたジオメトリと高品質なテクスチャの生成に優れています。ジオメトリ構築段階では、当社の手法は複数のニューラル表現を活用して合成プロセスの安定性を向上させます。新しいサンプリングされたビューにおけるジオメトリックサーフェスの望ましくないアーティファクトをよく引き起こすビュー条件つき拡散事前分布だけに頼る代わりに、我々は異なる視野を持つ視点に基づいてジオメトリ詳細を磨くための追加の法線推定器を組み込んでいます。以前の段階からの限られたガイダンスに起因するアーティファクトを効果的に洗練し、より望ましいジオメトリを持つ3Dオブジェクトを生成するために、わずかなトレーニングステップで表面磨き段階を追加することを提案します。事前学習されたテキストから画像へのモデルを使用したテクスチャ生成の主題は、これらのモデルの広範な潜在分布の中で写実的で一貫性のあるレンダリングを含む適切なドメインを見つけることです。テクスチャ生成段階では、ニューラル表現をそのようなドメインに誘導するための新しいスコア蒸留目的であるドメインスコア蒸留(DSD)を導入します。テキスト条件つき画像生成タスクにおける分類器フリーガイダンス(CFG)からインスピレーションを得て、CFGと変分分布ガイダンスが勾配ガイダンスの異なる側面を表し、テクスチャ品質の向上にとって重要なドメインであることを示します。包括的な実験は、提案されたモデルが洗練された表面と写実的なテクスチャを持つ3Dアセットを生成し、既存の最先端技術を凌駕することを示しています。
ニューラル暗黙関数は、複数または単一の画像から衣服を着た人物のデジタル化の最先端技術に驚くべき進展をもたらしています。しかし、進歩があるにもかかわらず、現在のアートは複雑な布の変形や体のポーズを持つ未知の画像に一般化するのに依然として難しさを抱えています。本研究では、1 枚の制約のない画像から高精細な 3D 衣服再構築において前例のない堅牢性を実現するための道を開拓する新しいデータセットおよびフレームワークである GarVerseLOD を提案します。大規模生成モデルの最近の成功に触発され、一般化の課題に対処する鍵の 1 つは、3D 衣服データの量と質にあると考えています。この目的に向け、GarVerseLOD は、プロのアーティストによって手作業で作成された細かいジオメトリの詳細を持つ 6,000 個の高品質な布モデルを収集しています。トレーニングデータの規模に加えて、ジオメトリの分離された粒度を持つことが、学習モデルの一般化能力と推論精度の向上に重要な役割を果たすことを観察しています。そのため、GarVerseLOD を、詳細のないスタイル化された形状からピクセルに整列された詳細を持つポーズにブレンドされた衣服までのレベルの詳細 (LOD) を持つ階層的データセットとして構築しています。これにより、この高度に制約の少ない問題を、推論をより簡単なタスクに分解し、それぞれをより小さな探索空間で絞り込むことで扱いやすくしています。GarVerseLOD が野外の画像にうまく一般化するために、高い写実性を持つ各衣服モデルのための豊富なペア画像を生成するための条件付き拡散モデルに基づく新しいラベリングパラダイムを提案しています。我々の手法を大量の野外画像で評価しました。実験結果は、GarVerseLOD が従来の手法よりもはるかに優れた品質で独立した衣服ピースを生成できることを示しています。プロジェクトページ: https://garverselod.github.io/
ビジョン言語モデル(VLMs)は、さまざまな視覚理解および推論タスクで強力な能力を示しています。ただし、LLMによって大量の入力トークン(主に画像から)を処理するために必要な計算量が多いため、推論中の遅延が高く、実世界での展開が制約されることがしばしばあります。推論コストを削減するためには、LLMを縮小するか、入力画像トークンの数を減らすことができます。後者は、トークンの圧縮を中心にした多くの最近の研究の焦点となっています。ただし、どちらが最適なトレードオフであるかは不明です。なぜなら、両方の要因がVLMのパフォーマンスに直接影響を与えるからです。我々は、これらの2つの要因によるパフォーマンスの変動を捉えるスケーリング則を確立することにより、視覚トークンの数とLLMパラメータとの間の最適なトレードオフを最初に特徴付けます。我々の結果は、驚くべきトレンドを示しています。視覚推論タスクにおいて、VLMにおける推論最適な振る舞い、つまり、任意の固定推論計算において最小のダウンストリームエラーが達成されるのは、推論予算内に収まる最大のLLMを使用することであり、視覚トークン数を最小限に抑えることです。トークンの削減に関する文献は、基本モデルのパフォーマンスをわずかに向上させることに主に焦点を当ててきましたが、我々の結果は、計算最適な推論領域では、より高いトークン圧縮比率で運用する必要があることを示しています。これらの知見に基づき、高度なトークン圧縮設定に適したアプローチの構築に向けて初期段階の取り組みを行っています。コードは以下のURLから入手できます:https://github.com/locuslab/llava-token-compression.
希少疾患は、診断の遅れや断片化された情報環境など、医療において独自の課題を抱えています。これらの状況における信頼できる知識の不足は、大規模言語モデル(LLMs)にとって、臨床管理をサポートし、正確な患者情報を提供する際の独自の課題をもたらします。これらの「ゼブラ」ケースに焦点を当てた研修の必要性を強調します。私たちは、Ehlers-Danlos症候群(EDS)を事例研究として取り上げ、高精度の検索増強生成(RAG)機能を備えた特化型コンテキスト認識言語モデルであるZebra-Llamaを提案します。EDSは5,000人に1人の割合で発症し、多様な症状、複数のサブタイプ、進化する診断基準を有する希少疾患の複雑さを示しています。医学文献、患者体験、臨床資料から導かれた質問に基づく新しいコンテキスト認識微調整手法を実装し、専門家が厳選した回答とともに、Zebra-LlamaはEDSに関連するクエリの処理能力において前例のない能力を示しています。EDS患者と臨床医から収集された実世界の質問セットを用いたテストでは、医学専門家が両モデルが生成した回答を評価し、Zebra-Llamaが基本モデル(Llama 3.1-8B-Instruct)に比べて、徹底性(77.5%対70.1%)、正確性(83.0%対78.8%)、明瞭さ(74.7%対72.0%)、および引用信頼性(70.6%対52.3%)において著しい改善を示した。オープンソースリソースとして公開されたZebra-Llamaは、よりアクセスしやすく信頼性の高いEDS情報を提供するだけでなく、他の希少疾患に特化したAIソリューションの開発のためのフレームワークを確立しています。この取り組みは、希少疾患管理における専門家レベルの知識を民主化する重要な一歩を示し、医療提供者や患者が希少疾患の複雑な状況をどのように航海するかを変革する可能性を秘めています。
物体検出技術が進化を続ける中、補完的な視覚タスクとの関係を理解することは、モデルアーキテクチャや計算リソースを最適化する上で重要です。本論文では、物体検出精度と2つの基本的な視覚タスク、深度予測と視覚的際立ち予測との相関を調査しています。COCOおよびPascal VOCデータセット上で、最先端のモデル(DeepGaze IIE、Depth Anything、DPT-Large、Ittiのモデル)を用いた包括的な実験を通じて、視覚的際立ちが物体検出精度と一貫して強い相関を示すことを発見しました(Pascal VOCにおいてmArhoが最大0.459)。一方、深度予測は(mArhoが最大0.283となる)より弱い相関を示しました。我々の分析により、異なる物体カテゴリ間でこれらの相関に大きな変動があることが明らかとなり、大きな物体ほど小さな物体よりも相関値が最大3倍高いことが示されました。これらの知見から、物体検出アーキテクチャに視覚的際立ち特徴を組み込むことが、特定の物体カテゴリにとって深度情報よりも有益である可能性が示唆されます。観察されたカテゴリ固有の変動は、対象となる特徴量エンジニアリングやデータセット設計の改善に向けた洞察を提供し、より効率的で正確な物体検出システムへとつながる可能性があります。