翻訳付きの日次キュレーションされたAI研究論文
従来のRAGフレームワークでは、基本的な検索単位は通常短いものです。DPRのような一般的な検索器は、通常100ワードのWikipedia段落を扱います。この設計では、検索器が大規模なコーパスから「針」となる単位を探すことを強制されます。一方、リーダーは短い検索された単位から答えを抽出するだけで済みます。このような不均衡な「重い」検索器と「軽い」リーダーの設計は、最適でないパフォーマンスを引き起こす可能性があります。この不均衡を緩和するために、我々は「長い検索器」と「長いリーダー」からなる新しいフレームワークLongRAGを提案します。LongRAGは、Wikipedia全体を4Kトークンの単位に処理します。これは以前の30倍の長さです。単位サイズを増やすことで、総単位数を22Mから700Kに大幅に削減します。これにより、検索器の負担が大幅に軽減され、驚異的な検索スコアが得られます:NQでのanswer recall@1=71%(以前は52%)、HotpotQA(full-wiki)でのanswer recall@2=72%(以前は47%)。次に、トップkの検索された単位(約30Kトークン)を既存の長文脈LLMに供給し、ゼロショットの答え抽出を実行します。LongRAGは、トレーニングを必要とせずに、NQで62.7%のEMを達成し、これは既知の最高の結果です。LongRAGはまた、HotpotQA(full-wiki)で64.3%を達成し、これはSoTAモデルと同等です。我々の研究は、RAGと長文脈LLMを組み合わせるための将来のロードマップに対する洞察を提供します。
人間による評価に伴うスケーラビリティの課題に対する有望な解決策として、LLM-as-a-judgeパラダイムは大規模言語モデル(LLM)の評価手法として急速に注目を集めています。しかし、このパラダイムの強みと弱み、および潜在的なバイアスについては、まだ多くの未解決の疑問が残されています。本論文では、さまざまなLLMが審査役として機能する際の性能について包括的な研究を提示します。我々は、LLMの客観的な知識推論を評価するためのベンチマークとしてTriviaQAを活用し、高い相互注釈者一致率を示した人間の注釈とともに評価を行いました。本研究では、9つの審査役モデルと9つの受験者モデル(ベースモデルと指示チューニングモデルの両方)を含んでいます。審査役モデルの整合性を、異なるモデルサイズ、ファミリー、および審査プロンプトにわたって評価しました。他の結果の中でも、我々の研究は、単純な一致率ではなく、コーエンのカッパを整合性の指標として使用することの重要性を再発見し、高い一致率を持つ審査役でも大きく異なるスコアを付ける可能性があることを示しました。Llama-3 70BとGPT-4 Turboは人間との優れた整合性を示しましたが、受験者モデルのランキングに関しては、JudgeLM-7Bと語彙的審査役Containsに劣り、これらは人間との整合性が最大34ポイント低いことがわかりました。エラー分析や指示の長さや寛容性バイアスの影響を含むさまざまな研究を通じて、将来的にLLMを審査役として使用するための貴重な知見を提供することを目指しています。
ビデオコンテンツクリエイターは、コンテンツを再利用するための効率的なツールを必要としており、これはしばしば複雑な手動または自動検索を必要とする作業です。大規模なビデオライブラリから新しいビデオを作成することは依然として課題です。本論文では、ビデオライブラリ質問応答(VLQA)というタスクを、ビデオライブラリに検索拡張生成(RAG)を適用する相互運用可能なアーキテクチャを通じて紹介します。我々は、大規模言語モデル(LLM)を使用して検索クエリを生成し、音声および視覚的メタデータによってインデックス化された関連ビデオの瞬間を検索するシステムを提案します。回答生成モジュールは、ユーザークエリとこのメタデータを統合し、特定のビデオタイムスタンプを含む応答を生成します。このアプローチは、マルチメディアコンテンツ検索およびAI支援ビデオコンテンツ作成において有望であることを示しています。
Transformerは自然言語処理タスク、特に機械翻訳において広く使用されているが、処理されたテキストの重要な概念を保存する明示的なメモリを欠いている。本論文では、Transformerモデルのデコーダに追加された記号的ワーキングメモリの内容特性を探求する。このワーキングメモリは、機械翻訳タスクにおけるモデルの予測品質を向上させ、モデルが正しい翻訳を行うために重要な情報のニューラル・シンボリック表現として機能する。メモリ内容の研究により、翻訳されたテキストのキーワードがワーキングメモリに保存されていることが明らかになり、メモリ内容が処理されたテキストに関連していることが示された。また、メモリに保存されたトークンと品詞の多様性は、機械翻訳タスクのコーパスの複雑さと相関している。
近年、ビデオ生成技術は大きな進歩を遂げてきた。しかし、自動的なビデオ評価指標の開発は大幅に遅れている。既存の評価指標は、生成されたビデオに対して信頼性の高いスコアを提供することができない。その主な障壁は、大規模な人間による注釈付きデータセットの欠如である。本論文では、11の既存のビデオ生成モデルから生成された37.6Kの合成ビデオに対する人間による多面的なスコアを含む、初の大規模データセットであるVideoFeedbackを公開する。我々は、VideoFeedbackに基づいてMantisScore(Mantisから初期化)をトレーニングし、自動的なビデオ品質評価を可能にする。実験結果によると、MantisScoreと人間の評価との間のスピアマン相関は、VideoFeedback-testで77.1に達し、従来の最良の評価指標を約50ポイント上回る。さらに、EvalCrafter、GenAI-Bench、VBenchなどの他の保留データセットでの結果も、MantisScoreが他の評価指標よりも一貫して人間の評価との相関が高いことを示している。これらの結果から、MantisScoreは人間の評価者にとって優れた代理となり、(1)異なるビデオモデルを評価して進捗を追跡し、(2)Reinforcement Learning with Human Feedback(RLHF)における細かい人間のフィードバックをシミュレートして、現在のビデオ生成モデルを改善することができると信じている。
検索拡張生成(RAG)質問応答(QA)システムの自動評価における課題には、ドメイン固有知識における幻覚問題や、企業内部タスクのためのゴールドスタンダードベンチマークの欠如が含まれます。これにより、Infineon Technologiesの製品QAタスクの文脈で、RAG-Fusion(RAGF)のようなRAGのバリエーションを評価することが困難になります。これらの問題を解決するため、我々は包括的な評価フレームワークを提案します。このフレームワークは、大規模言語モデル(LLM)を活用して、実際のユーザークエリとドメイン内ドキュメントに基づく合成クエリの大規模なデータセットを生成し、LLM-as-a-judgeを使用して検索されたドキュメントと回答を評価し、回答の品質を評価し、RAGEloの自動Eloベースの競争を通じて異なるRAGエージェントのバリエーションをランク付けします。合成クエリのランダムサンプルに対するLLM-as-a-judgeの評価は、関連性、正確性、完全性、および精度においてドメインエキスパートのスコアと中程度の正の相関を示しています。RAGFはEloスコアでRAGを上回りましたが、エキスパートアノテーションに対する有意性分析では、RAGFは完全性でRAGを有意に上回る一方、精度では劣ることが示されています。さらに、InfineonのRAGFアシスタントは、MRR@5スコアに基づくドキュメント関連性においてわずかに高いパフォーマンスを示しました。RAGEloは人間のアノテーターの選好と正しく一致していることがわかりましたが、慎重な対応が依然として必要です。最後に、RAGFのアプローチは、エキスパートアノテーションに基づくより完全な回答と、RAGEloの評価基準に基づく全体的により良い回答をもたらすことがわかりました。
テキストから画像を生成するモデルは、非常に詳細で創造的なビジュアルコンテンツの生成を可能にすることで、デジタルアート制作の風景を革新し、ますます人気を集めています。これらのモデルは、特にアート生成の分野で広く活用されており、幅広い創造的な表現を促進し、アート制作へのアクセスを民主化しています。本論文では、1300万人以上のユーザーを抱える創造的探求の重要なプラットフォームとして登場したArtbreederにおいて、95,000人のユーザーによって生成された680万枚の画像と180万のプロンプトからなる包括的なデータセット「STYLEBREEDER」を紹介します。このデータセットを用いて、多様なアートスタイルの識別、パーソナライズされたコンテンツの生成、ユーザーの興味に基づいたスタイルの推薦を目的とした一連のタスクを提案します。従来の「サイバーパンク」や「ピカソ」といったカテゴリーを超越したユーザー生成の独自のスタイルを記録することで、世界中のユーザーの集合的な創造的心理に対する深い洞察を提供する可能性を探ります。また、芸術的表現を強化するための様々なパーソナライゼーション手法を評価し、LoRA形式で公開するスタイルアトラスを紹介します。私たちの研究は、テキストから画像を生成する拡散モデルが、独自の芸術的表現を発見し促進する可能性を示し、アートにおけるAIの民主化をさらに進め、より多様で包括的なアートコミュニティを育むことを実証しています。データセット、コード、モデルは、パブリックドメイン(CC0)ライセンスの下、https://stylebreeder.github.io で公開されています。
イベントベースのビジョンは、高い時間分解能と広いダイナミックレンジといった独自の特性から、近年注目を集めています。最近では、ビデオ超解像(VSR)において、フロー推定と時間的アラインメントを強化するために使用されています。本論文では、モーション学習ではなく、テクスチャ強化のためにイベント信号を活用する初のVSR手法を提案します。私たちの手法「EvTexture」は、イベントの高周波詳細を活用して、VSRにおけるテクスチャ領域をより良く復元します。EvTextureでは、新しいテクスチャ強化ブランチを導入しています。さらに、反復的なテクスチャ強化モジュールを提案し、高時間分解能のイベント情報を段階的に探索してテクスチャを復元します。これにより、複数の反復を通じてテクスチャ領域を徐々に洗練させ、より正確で豊かな高解像度の詳細を得ることができます。実験結果は、EvTextureが4つのデータセットにおいて最先端の性能を達成することを示しています。テクスチャが豊富なVid4データセットでは、最近のイベントベース手法と比較して最大4.67dBのゲインを得ることができます。コード: https://github.com/DachunKai/EvTexture。
大規模言語モデル(LLM)の広範な適用性とますます普及する存在感は、ユーザーやステークホルダーの嗜好に合わせたLLMの応答を調整する必要性を引き起こしています。多くの嗜好最適化アプローチが提案されており、LLMのパラメータを微調整して良好な整合性を達成しようとしています。しかし、そのようなパラメータ調整は、多くのタスクにおけるモデルのパフォーマンスに干渉することが知られています。さらに、変化するユーザーの嗜好に対応することは、このような状況では難しいです。デコード時の報酬モデルガイダンスによる整合性は、推論時間の増加という代償を払ってこれらの問題を解決します。しかし、そのような方法の多くは、探索と報酬の活用の適切なバランスを取ることができず、しばしばこれら二つの側面が混同された定式化のために、十分に整合した応答を提供することができません。これを改善するために、私たちはこれら二つの側面を分離し、進化的な方法で実装します:探索は変異した指示からのデコードによって強制され、活用は報酬の低い生成を報酬の高い生成に定期的に置き換えることで表現されます。実証的な証拠は、この戦略が広く受け入れられている整合性ベンチマークであるAlpacaEval 2とMT-Benchにおいて、多くの嗜好最適化およびデコード時整合性アプローチを上回ることを示しています。私たちの実装は以下で利用可能です:https://darwin-alignment.github.io。
大規模言語モデル(LLM)の広範な採用は、その安全性と信頼性、特に敵対的攻撃に対する脆弱性に関する懸念を引き起こしています。本論文では、この脆弱性をアライメントプロセスにおける報酬の誤指定に帰因させる新たな視点を提案します。我々は、報酬の誤指定の程度を定量化する指標ReGapを導入し、有害なバックドアプロンプトを検出する上でのその有効性と頑健性を実証します。これらの知見に基づき、様々なターゲットアライメントLLMに対する敵対的プロンプトを生成する自動化されたレッドチーミングシステムReMissを提示します。ReMissは、AdvBenchベンチマークにおいて最先端の攻撃成功率を達成しつつ、生成されたプロンプトの人間による可読性を維持します。詳細な分析により、提案された報酬誤指定の目的関数が従来の手法と比較してもたらす独自の利点が明らかになりました。
テキストのみのモデルについては状況が改善されてきたものの、現在でもマルチモーダル(テキストと画像)モデルの開発は、それらを評価する方法よりも速いペースで進んでいるように見受けられます。本論文では、テキストモデルからマルチモーダルモデルへと最近開発された評価パラダイム、すなわち目標指向のゲーム(自己)プレイを通じた評価を導入し、参照ベースおよび選好ベースの評価を補完します。具体的には、視覚情報から状況を表現し、その表現を対話を通じて整合させるモデルの能力を試すゲームを定義します。私たちが定義したゲームにおいて、最大規模のクローズドモデルはかなり良好なパフォーマンスを示す一方で、最良のオープンウェイトモデルでさえそれらに苦戦することがわかりました。さらに分析を進めると、最大規模のモデルが持つ卓越した深層キャプショニング能力が、そのパフォーマンスの一部を支えていることが明らかになりました。両タイプのモデルにはまだ成長の余地があり、ベンチマークの継続的な重要性が保証されています。
言語モデルは様々な自然言語処理タスクにおいて印象的な能力を発揮してきたが、多段階のシミュレーションを必要とする計画タスクには苦戦している。人間の認知プロセスに着想を得て、本論文では与えられた環境の認知地図を構築できる言語モデルの最適計画能力を調査する。Gridworld経路計画タスクにおける実験では、認知地図が最適計画と到達可能計画の生成能力の両方を大幅に向上させることが実証された。我々の手法は、人間の認知と類似した2つの重要な特性を示していることが観察された:計画能力の外挿環境への一般化と、限られた訓練データでの迅速な適応である。Gridworldタスクにおける我々の発見が、言語モデルにおける人間の認知プロセスのモデル化に洞察を提供し、人間の認知により近い、より高度で堅牢なシステムの開発につながることを期待する。
仮想現実(VR)と拡張現実(AR)技術の急速な発展に伴い、高品質で没入感のある動的な環境の作成に対する需要が高まっています。しかし、既存の生成技術は動的オブジェクトにのみ焦点を当てるか、単一の視点画像からのアウトペインティングを行うものであり、VR/ARアプリケーションのニーズを満たすには至っていません。本研究では、単一のパノラマを没入型4D体験へと昇華させるという挑戦的な課題に取り組みます。初めて、4K解像度で360度視野を有する全方位動的シーンの生成能力を実証し、没入感のあるユーザー体験を提供します。私たちの手法は、自然なシーンアニメーションを促進し、リアルタイム探索のための効率的なスプラッティング技術を用いて4Dガウシアンのセットを最適化するパイプラインを導入します。特にパノラマ形式でのシーンスケールの注釈付き4Dデータやモデルの不足を克服するため、汎用的な2D拡散事前分布を360度画像で一貫してアニメーションさせる新規のパノラマデノイザーを提案し、特定の領域で動的シーンを持つパノラマ動画へと変換します。その後、空間的および時間的一貫性を保ちながら、パノラマ動画を4D没入環境へと昇華させます。視点ドメインの2Dモデルからパノラマドメインへの事前知識の転送と、空間的外観および幾何学的正則化を伴う4Dリフティングにより、初めて(4096×2048)の解像度で高品質なパノラマから4Dへの生成を実現します。プロジェクトの詳細はhttps://4k4dgen.github.ioをご覧ください。
大規模言語モデル(LLM)の開発における不透明性が、事前学習データにおける公開ベンチマークの潜在的な汚染についての懸念を高めています。既存の汚染検出方法は、通常、学習データと評価データ間のテキストの重複に基づいており、これはより深い形の汚染を反映するには表面的すぎる場合があります。本論文では、まず、ベンチマークテストセットの翻訳版にLLMを過剰適合させることで、現在の検出方法を回避しながらLLMの性能を誇張する、クロスリンガルな形の汚染を提示します。次に、そのような深く隠された汚染を明らかにするための一般化ベースのアプローチを提案します。具体的には、元のベンチマークを変更し、誤った選択肢を他の問題からの正しい選択肢に置き換えた後のLLMの性能変化を調べます。汚染されたモデルは、そのようなより簡単な状況に一般化することがほとんどできません。なぜなら、誤った選択肢が全く間違っていない場合でも、すべての選択肢が彼らの記憶において正しいからです。実験結果は、クロスリンガルな汚染が既存の検出方法を簡単に欺くことができるが、私たちの方法には欺かれないことを示しています。さらに、LLMの動作メカニズムを解釈するためや、多言語能力を強化するためにトレーニング後のLLMを活用する可能性について議論します。使用したコードとデータセットは、https://github.com/ShangDataLab/Deep-Contam から入手できます。
ドメイン特化型モデルの普及に伴い、モデルマージングは複数のモデルの能力を単一のモデルに統合し、追加のトレーニングコストをかけずにマルチタスクを可能にする技術として注目を集めています。本論文では、新しいモデルマージング技術である「Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging)」を提案します。この技術は、新たなプルーニング手法「MAGPRUNE」を採用しており、DAREやTIESを上回る大きな利点を示しています。MAGPRUNEは、まずパラメータをその大きさに基づいてランク付けし、低いランク(つまり小さい大きさ)に対応するパラメータに高いドロップアウト確率(p)を割り当てます。元の埋め込みを近似するために、MAGPRUNEはランダムなドロップを生き残ったパラメータに対して1/(1 - p)のリスケーリング操作を行います。マージング対象とした3つの専門モデル(LM、Math、Code)と対応するベンチマークデータセット(AlpacaEval、GSM8K、MBPP)において、DELLAはデルタパラメータプルーニングを採用したベースライン手法に対して平均2.4ポイントの改善(TIESに対して3.6ポイント、DAREに対して1.2ポイントの改善)を示し、プルーニングを行わないベースライン(TA)に対しては11.1ポイントの改善を達成しました。ソースコードは以下で公開しています: https://github.com/declare-lab/della。
検索拡張生成(RAG)は、検索フェーズと生成フェーズを組み合わせた人工知能の重要な進歩を表しており、生成フェーズは通常大規模言語モデル(LLM)によって駆動されます。現在のRAGにおける一般的な実践では、「指示調整済み」のLLMを使用することが主流です。これらのモデルは、指示に従う能力を強化するために教師あり学習で微調整され、最先端の技術を用いて人間の好みに合わせて調整されています。しかし、私たちの研究は、一般的な認識に反して、ベースモデルがRAGタスクにおいて指示調整済みモデルを平均20%上回ることを実験設定下で実証しました。この発見は、RAGアプリケーションにおける指示調整済みLLMの優位性に関する従来の仮定に疑問を投げかけます。さらなる調査により、RAGの基本的な側面に疑問を呈するより微妙な状況が明らかになり、このテーマに関するより広範な議論の必要性が示唆されています。あるいは、フロムの言葉を借りれば、「統計を一目見ただけでは、数字の意味を理解するには十分ではない」と言えるでしょう。
生体内における薬剤の有効性と安全性を予測するためには、低分子化合物による摂動に対する生物学的応答(例えば、細胞形態や遺伝子発現)に関する情報が必要です。しかし、現在の分子表現学習手法では、これらの摂動下における細胞状態の包括的な視点を提供できず、ノイズの除去にも苦戦しており、モデルの汎化性能を妨げています。本研究では、情報ボトルネック法を用いて細胞内における分子表現を学習するための情報アライメント(InfoAlign)アプローチを提案します。分子と細胞応答データをノードとしてコンテキストグラフに統合し、化学的、生物学的、計算論的な基準に基づいて重み付きエッジで接続します。トレーニングバッチ内の各分子に対して、InfoAlignはエンコーダの潜在表現を冗長な構造情報を除去する最小化目的関数で最適化します。また、十分性目的関数を用いて、表現をコンテキストグラフ内の分子近傍から得られる異なる特徴空間と整合させます。提案する十分性目的関数によるアライメントが、既存のエンコーダベースの対照学習手法よりも厳密であることを示します。実験的には、InfoAlignから得られた表現を2つの下流タスクで検証します:4つのデータセットにわたる最大19のベースライン手法に対する分子特性予測、およびゼロショット分子-形態マッチングです。
我々は、Rainbow Teamingを改良したRuby Teamingという手法を提案する。この手法では、メモリキャッシュを第3の次元として組み込んでいる。メモリ次元は、攻撃成功率(ASR)と品質多様性の両面で、より高品質なプロンプトを生成するための手がかりを変異器に提供する。Ruby Teamingによって生成されたプロンプトアーカイブのASRは74%であり、ベースラインよりも20%高い。品質多様性に関しては、Ruby TeamingはRainbow Teamingをシャノンの均等度指数(SEI)で6%、シンプソンの多様度指数(SDI)で3%上回っている。
視覚ベースの運転ポリシーのベンチマーキングは困難を伴います。一方で、実データを用いたオープンループ評価は容易ですが、その結果はクローズドループ性能を反映しません。他方で、シミュレーションにおけるクローズドループ評価は可能ですが、その計算負荷の大きさからスケールアップが困難です。さらに、現在利用可能なシミュレータは実データとの間に大きなドメインギャップを抱えています。これにより、エンドツーエンドの自動運転に関する急速に増加する研究から明確な結論を導き出すことができなくなっています。本論文では、これらの評価パラダイムの中間的な位置付けとしてNAVSIMを提案します。NAVSIMでは、大規模なデータセットと非反応型シミュレータを組み合わせることで、大規模な実世界ベンチマーキングを可能にします。具体的には、テストシーンの鳥瞰図抽象化を短いシミュレーションホライズンで展開し、進行度や衝突までの時間などのシミュレーションベースのメトリクスを収集します。私たちのシミュレーションは非反応型であり、評価対象のポリシーと環境が互いに影響を与えません。実証的に示すように、この分離により、従来の変位誤差よりもクローズドループ評価に近い形でオープンループメトリクスの計算が可能になります。NAVSIMはCVPR 2024で開催された新しいコンペティションを可能にし、143チームが463エントリーを提出し、いくつかの新しい知見が得られました。大規模で挑戦的なシナリオセットにおいて、TransFuserのような適度な計算リソースを必要とするシンプルな手法が、UniADのような最近の大規模エンドツーエンド運転アーキテクチャに匹敵することを観察しました。私たちのモジュール型フレームワークは、新しいデータセット、データキュレーション戦略、メトリクスで拡張可能であり、将来のチャレンジをホストするために継続的にメンテナンスされます。コードはhttps://github.com/autonomousvision/navsimで公開されています。
大規模な生成言語モデル(LLM)および視覚言語モデル(VLM)は、意思決定や指示追従におけるfew-shot in-context learningにおいて優れた性能を発揮します。しかし、これらのモデルは、高品質な例示をコンテキストウィンドウに含める必要があります。本研究では、LLMやVLMが、一般的で最適とは言えないデモンストレーションから自らプロンプト例を生成できるかどうかを問います。我々は、In-Context Abstraction Learning(ICAL)という手法を提案します。この手法は、最適とは言えないデモンストレーションと人間のフィードバックから、マルチモーダルな経験の洞察を記憶として構築します。新しいドメインにおけるノイズの多いデモンストレーションが与えられた場合、VLMは、非効率的なアクションを修正し、認知的抽象化(タスク間の関係、オブジェクトの状態変化、時間的なサブゴール、タスクの解釈)を注釈することで、その軌跡を一般的なプログラムに抽象化します。これらの抽象化は、エージェントが類似した環境で軌跡を実行しようとする間に、人間のフィードバックを通じてインタラクティブに洗練され、適応されます。結果として得られた抽象化をプロンプトの例示として使用すると、検索拡張型LLMおよびVLMエージェントの意思決定が大幅に改善されます。我々のICALエージェントは、TEAChにおける対話型指示追従、VisualWebArenaにおけるマルチモーダルWebエージェント、Ego4Dにおけるアクション予測において、最先端の性能を上回りました。TEAChでは、ゴール条件達成率が12.6%向上しました。VisualWebArenaでは、タスク成功率が14.3%から22.7%に改善されました。Ego4Dのアクション予測では、few-shot GPT-4Vを上回り、教師ありモデルと競争力のある性能を維持しました。我々は、検索拡張型in-contextエージェントをファインチューニングすることで、さらなる改善が得られることを示しました。我々のアプローチは、専門家が作成した例への依存を大幅に削減し、そのような洞察を欠いたアクションプランからのin-context learningを一貫して上回ります。
我々は、2D画像拡散モデルの力を活用して3Dシーンをスタイライズするためのシンプルかつ効果的なパイプラインを提案します。多視点画像セットから再構築されたNeRFモデルを基に、スタイルアラインドされた画像間拡散モデルによって生成されたスタイライズ画像を用いて、ソースNeRFモデルを精緻化することで3Dスタイル転送を行います。ターゲットスタイルプロンプトが与えられると、まず、注意共有メカニズムを備えた深度条件付き拡散モデルを活用して知覚的に類似した多視点画像を生成します。次に、スタイライズされた多視点画像に基づいて、事前学習済みCNNモデルから抽出された特徴マップに基づくスライスドワッサースタイン損失を用いてスタイル転送プロセスをガイドすることを提案します。我々のパイプラインは分離されたステップで構成されており、ユーザーは様々なプロンプトアイデアを試し、NeRFの微調整段階に進む前にスタイライズされた3D結果をプレビューすることができます。本手法が、多様な芸術的スタイルを現実世界の3Dシーンに競争力のある品質で転送できることを実証します。
テキスト検索用にファインチューニングされた大規模言語モデル(LLM)は、いくつかの情報検索(IR)ベンチマークにおいて最先端の結果を示しています。しかし、これらのモデルを改善するための教師ありトレーニングには、多数のラベル付き例が必要であり、一般的に利用できないか、取得にコストがかかります。本研究では、情報検索の文脈におけるリバースエンジニアリング適応(RE-AdaptIR)の拡張の有効性を探ります。RE-AdaptIRを使用して、ラベルなしデータのみを用いてLLMベースのIRモデルを改善します。トレーニングドメイン内での性能向上だけでなく、クエリを一切見ていないドメインでのゼロショット性能も向上することを実証します。さまざまなファインチューニングシナリオにおける性能変化を分析し、実践者にとって即座に役立つ知見を提供します。
マルチモーダル基盤モデル(MMFM)は、様々なコンピュータビジョンおよび自然言語処理タスクにおいて顕著な性能を示しています。しかし、文書理解などの特定のタスクにおける性能はまだ限定的です。また、従来の単一モーダルモデルと比較して、ファインチューニングやデプロイに必要な計算リソース、時間、エンジニアリングリソースがより多く必要です。本報告書では、凍結されたMMFMの出力ロジットを制約し、構造化された出力を返す前に推論を強制する一般的なフレームワークである「マルチモーダル構造化生成」を紹介します。私たちのアプローチについて、技術的詳細、理論的考察、およびComputer Vision and Pattern Recognition(CVPR)カンファレンスが主催する第2回マルチモーダル基盤モデルチャレンジにおける最終評価結果を詳細に説明します。私たちのアプローチは、Phase 2の隠れたテストセットで2番目に高いスコアを獲得し、全体では3番目に高いスコアを達成しました。これは、この手法が未見のタスクに一般化できる能力を示しています。また、私たちが以前の論文「Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use」で最初に議論したように、シンプルなエンジニアリングが高価で複雑なモデリングステップを上回ることができることを示しています。私たちのすべてのスクリプト、デプロイ手順、および評価結果は、https://github.com/leloykun/MMFM-Challenge でアクセスできます。
既存の有害コンテンツ検出モデルは、透明性の欠如、カスタマイズ性の不足、再現性の低さといった重大な制約に直面しています。これらの課題は、学習データのクローズドソース性や評価メカニズムの説明不足に起因しています。これらの問題に対処するため、我々は投票プロセスと連鎖的思考プロセスを統合したデータセット作成メカニズムを提案し、高品質なオープンソースの有害コンテンツ検出用データセットを生成します。我々の方法論は、各サンプルに対して多様な分類指標を確保し、分類スコアと分類の説明的推論の両方を含むことを保証します。 提案したメカニズムを通じて作成されたデータセットを活用してモデルを訓練し、既存の広く使用されている検出器と比較します。我々のアプローチは、透明性とカスタマイズ性を向上させるだけでなく、特定のユースケースに対するより良いファインチューニングを可能にします。この研究は、オープン性と適応性を重視した有害コンテンツ検出モデル開発のための堅牢なフレームワークを提供し、より効果的でユーザー固有のコンテンツモデレーションソリューションへの道を開くものです。
大規模言語モデル(LLM)は、人間の行動を模倣し、人間の価値観に沿うことで、人間を喜ばせるような応答を試みます。しかし、人間は異なる文化背景を持ち、多様な価値観を持っています。LLMが、ユーザーの既知の国のステレオタイプ的な価値観に基づいて異なる価値観を示すかどうかを理解することは極めて重要です。本研究では、ホフステードの文化次元理論に基づく5つの次元を用いて、一連の助言要請を異なるLLMに提示します。各プロンプトでは、36の異なる国を代表するペルソナと、それぞれの国に主に関連付けられた言語を組み込み、LLMの文化的理解の一貫性を分析します。応答の分析を通じて、LLMが価値観の一方と他方を区別できること、また国ごとに異なる価値観があることを理解できるものの、助言を与える際に常にその価値観を維持するわけではなく、異なる文化的価値観に基づいて異なる回答をする必要性を理解できないことが明らかになりました。これらの知見に基づき、価値観に沿った文化的に敏感なLLMを訓練するための提言を行います。さらに重要なことに、ここで開発された方法論とフレームワークは、LLMにおける文化と言語の整合性の問題をさらに理解し、緩和するのに役立つでしょう。
本研究では、異種データを扱う自然言語処理タスクに適用可能なPersonalized Federated Learningアルゴリズム「MeritFed」に基づく新たなアプローチを提案します。この手法を、低リソース機械翻訳タスクにおいて評価しました。評価には、大規模多言語機械翻訳共有タスク(Small Track #2)のデータセットと、フィン・ウゴル語族の多言語ベンチマークからサミ語のサブセットを使用しました。MeritFedはその有効性に加えて、各訓練用言語の影響を追跡可能な高い解釈性を備えています。分析の結果、ターゲットデータセットのサイズが補助言語間の重み分布に影響を与えること、無関係な言語が訓練を妨げないこと、補助オプティマイザのパラメータが最小限の影響しか及ぼさないことが明らかになりました。本手法は数行のコードで容易に適用可能であり、実験の再現用スクリプトをhttps://github.com/VityaVitalich/MeritFedで公開しています。