翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の急速な進歩は、複雑な推論タスクにおける著しい進歩を示しています。しかし、ベンチマークのパフォーマンスと実世界の応用との間には、重要な不一致が依然として存在しています。我々は、このギャップが主に現在の評価プロトコルと指標に起因しており、LLMの能力の全スペクトルを適切に捉えておらず、特に複雑な推論タスクにおいて精度と一貫性の両方が重要である点から来ていると特定しています。この研究は2つの主要な貢献を行っています。まず、複数のサンプリング試行を通じてモデルのパフォーマンスを連続的に評価し、モデルのピークパフォーマンスの可能性と安定性の両方を定量化する新しい評価尺度であるG-Pass@kを導入しています。次に、データ漏洩リスクを最小限に抑えるよう設計された、難解で現代的な数学問題から構成される動的ベンチマークであるLiveMathBenchを提案しています。最先端のLLMsをLiveMathBenchでG-Pass@kを用いて広範な実験を行うことで、それらの最大の能力と操作上の一貫性について包括的な洞察を提供しています。我々の研究結果は、LLMsの「現実的な」推論能力において改善の余地が大きいことを示し、より堅牢な評価手法の必要性を浮き彫りにしています。ベンチマークと詳細な結果は以下から入手可能です:https://github.com/open-compass/GPassK.
大規模言語モデル(LLM)の典型的かつ実用的な応用として、Retrieval-Augmented Generation(RAG)技術は、特にLLMがドメイン固有の知識を欠いている垂直領域で広範な注目を集めています。本論文では、金融領域における全方位かつ自動的なRAGベンチマークであるOmniEvalを紹介します。当該ベンチマークは、(1) 5つのタスククラスと16の金融トピックにクエリを分類する行列ベースのRAGシナリオ評価システムを含む多次元評価フレームワークを特徴とし、多様なクエリシナリオの構造化された評価を実現します。(2) GPT-4ベースの自動生成と人間による注釈を組み合わせた多次元評価データ生成手法を採用し、生成されたインスタンスにおいて人間の評価において87.47%の受容率を達成します。(3) 検索と生成の両方のパフォーマンスを評価する多段階評価システムを導入し、RAGパイプラインの包括的な評価を実現します。(4) ルールベースとLLMベースの評価メトリクスから導出される頑健な評価メトリクスを採用し、LLM評価者の手動注釈と監督付きファインチューニングを通じて評価の信頼性を向上させます。当該実験は、OmniEvalの包括性を実証し、多様なトピックとタスクにわたるRAGシステムのパフォーマンスの変動を示し、垂直領域におけるRAGモデルの能力向上の重要な機会を明らかにします。当該ベンチマークのコードは、https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval} でオープンソース化されています。
急速に発展している大規模多モーダルモデル(LMMs)の分野は、優れた能力を持つ多様なモデルの出現をもたらしています。しかしながら、既存のベンチマークは、LMMsが現実世界のシナリオにおける人間の多様なニーズと整合しているかを包括的かつ客観的かつ正確に評価することに失敗しています。このギャップを埋めるために、私たちはMulti-Dimensional Insights(MDI)ベンチマークを提案します。このベンチマークには、人間の生活の六つの一般的なシナリオをカバーする500以上の画像が含まれています。特筆すべきは、MDIベンチマークが既存の評価に比べて二つの重要な利点を提供していることです。第一に、各画像には、画像の理解を評価するための簡単な質問と、基本的な内容を超えた分析と推論能力を評価する複雑な質問の二種類の質問が添付されています。第二に、同じシナリオに直面した際に異なる年齢層の人々が異なるニーズと視点を持っていることを認識し、私たちのベンチマークは質問を若者、中年、高齢の三つの年齢カテゴリに分類しています。この設計により、LMMsが異なる年齢層の好みやニーズにどのように対応するかを詳細に評価することが可能となっています。MDIベンチマークにより、GPT-4などの強力なモデルが年齢に関連するタスクで79%の精度を達成しており、既存のLMMsには現実世界のアプリケーションに対処するための改善余地がまだかなりあることが示されています。今後、MDIベンチマークがLMMsにおける現実世界の個人化を整合させる新しい道を開くことが期待されます。MDIベンチマークのデータと評価コードは、https://mdi-benchmark.github.io/ で入手可能です。
Chain-of-thought (CoT) デコーディングは、推論性能を向上させるために言語モデルが採用するが、デコーディングにおいて生成の遅延が高いというコストがかかる。最近の提案では、推論中に追加の計算を可能にするために使用される特別なトークンを指す「考慮トークン」の変種が探求されてきた。これまでの研究では、離散的な埋め込みの固定長シーケンスを考慮トークンとして使用してきた。ここでは、可変長のシーケンスを持つ内容豊かで連続した考慮トークンを生成するためのフレームワークである「Compressed Chain-of-Thought (CCoT)」を提案する。生成された考慮トークンは、明示的な推論チェーンの圧縮表現であり、当該手法は汎用のデコーダー言語モデルに適用できる。実験を通じて、CCoTが密な内容豊かな表現上で追加の推論を可能にし、それに応じて精度の向上を達成する方法を示す。さらに、推論の改善は、生成される考慮トークンの数を制御することで、必要に応じて適応的に変更することができる。
人間は、複雑な経験を基本的な抽象化にまとめて、迅速な学習と適応を可能にします。同様に、自己回帰トランスフォーマーは、文脈学習を通じて適応的学習を示し、そのメカニズムについて問いかけます。本論文では、概念符号化・復号メカニズムを提案し、トランスフォーマーが内部の抽象化を形成し利用する過程を調査することで、文脈学習を説明します。合成的な文脈学習タスクにおいて、小規模なトランスフォーマーの訓練ダイナミクスを分析し、概念符号化と復号の相互作用が報告されました。モデルが異なる潜在的な概念(例:「文中の最初の名詞を見つける」)を異なる、分離可能な表現に符号化する方法を学習するにつれて、条件付き復号アルゴリズムを構築し、文脈学習の性能を向上させていきます。我々は、さまざまなスケールの事前学習モデル(Gemma-2 2B/9B/27B、Llama-3.1 8B/70B)でこのメカニズムの存在を検証します。さらに、メカニズム的介入と制御されたファインチューニングを通じて、概念符号化の質が文脈学習の性能と因果関係があり、予測可能であることを示します。我々の経験的知見は、大規模言語モデルの表現を通じて、その成功と失敗モードをよりよく理解する手助けとなります。
複数の文書からの情報を理解することは、視覚的に豊かな要素を持つ文書において特に重要であり、文書に基づく質問応答の評価のために設計された初の包括的なベンチマークであるVisDoMBenchを紹介する。このベンチマークは、表やチャート、プレゼンテーションスライドなど、豊富なマルチモーダルコンテンツを備えた複数文書設定でQAシステムを評価することを目的としている。我々は、視覚的およびテキストのRAGを同時に利用し、強力な視覚検索能力を洗練された言語的推論と組み合わせる革新的なマルチモーダルRetrieval Augmented Generation(RAG)アプローチであるVisDoMRAGを提案する。VisDoMRAGは、証拠のキュレーションと思考の連鎖推論を包括する複数段階の推論プロセスを採用し、同時にテキストと視覚のRAGパイプラインを活用する。VisDoMRAGの重要な革新点は、推論プロセスをモダリティ間で整合させ、一貫した最終回答を生成するための整合性制約付きモダリティ融合メカニズムである。これにより、重要な情報が複数のモダリティに分散しているシナリオにおいて精度が向上し、暗黙のコンテキストの帰属を通じて回答の検証可能性が向上する。オープンソースおよびプロプライエタリの大規模言語モデルを用いた包括的な実験を通じて、VisDoMBench上で最先端の文書QA手法をベンチマークに掛けた。多数の結果から、VisDoMRAGは、エンドツーエンドのマルチモーダル文書QAにおいて、単一モーダルおよび長文脈のLLMベースラインを12-20%上回ることが示された。
最近のビジョン言語モデルの高速化に関する研究では、視覚情報を高度に圧縮しても、さまざまなビジョン言語タスクで強力なパフォーマンスが維持されることが示されています。本研究では、言語モデル内の視覚トークンの早期剪定という人気のある高速化手法を検証し、その強力なパフォーマンスが多くのタスクで維持される理由は、視覚情報を圧縮する特別な能力にあるのではなく、ベンチマークが微細な視覚能力を評価する能力が限られているためであることを明らかにします。具体的には、画像の上部に位置するほとんどのトークンが剪定されるという高速化手法の中核的な問題を示しました。しかし、この問題は、位置特定などの一部のタスクにのみパフォーマンスに反映されます。他の評価されたタスクでは、欠陥のある剪定戦略でも強力なパフォーマンスが維持されます。研究された高速化技術の視覚能力の限界を考慮し、私たちはFEATHER(Fast and Effective Acceleration wiTH Ensemble cRiteria)を提案します。これは、(1)早期層の剪定で特定された問題を解決し、(2)すべての画像領域をカバーするために均一なサンプリングを組み込み、(3)剪定を2段階で行い、後の層で基準がより効果的になるようにしながらも、早期層の剪定を通じて大幅な高速化を実現します。計算上の節約が同等である中で、FEATHERは、元の高速化手法と比較して、ビジョン中心の位置特定のベンチマークで5倍以上のパフォーマンス改善が見られました。
広範囲にわたる能力を持ち、目標を持つエージェントのビジョン、例えばデジタル世界のインターネット閲覧エージェントや物理世界の家庭用ヒューマノイドなどは、基盤モデルの一般化能力のおかげで急速に進化しています。このような汎用エージェントは、2つの旅行先の間の経路を見つけたり、インターネットから特定のアイテムを購入したりするなど、多岐にわたるスキルを持つ必要があります。各スキルを人手で固定された一連の人間注釈付きの指示を通じて明示する必要がある場合、エージェントのスキルレパートリーは、人間注釈付きの指示の量と多様性のために必然的に制限されることになります。本研究では、この課題に取り組み、基盤モデルエージェントが野生でスキルを自律的に発見して練習できる効果的な学習システムである「提案者-エージェント-評価者(PAE)」を提案しています。PAEの中心には、環境のコンテキスト情報(ユーザーデモやインターネット閲覧エージェントのウェブサイト名など)を用いて、エージェントが練習するタスクを自律的に提案するコンテキストに敏感なタスク提案者があります。その後、エージェントポリシーは、実際の世界での思考と具体的な操作を伴うこれらのタスクに取り組み、その結果の軌跡は自律VLMベースの成功評価者によって評価されます。成功評価は、エージェントがRLを通じてポリシーを改良するための報酬信号として機能します。私たちは、WebVoyagerおよびWebArenaからの実世界および自己ホスト型のウェブサイトを使用して、挑戦的なビジョンベースのWebナビゲーションでPAEを検証します。私たちの知る限りでは、この研究は、SOTAのパフォーマンスを持つ実世界の人間注釈付きベンチマークを一般化するエージェントのための自律的なタスク提案とRLを適用する初の効果的な学習システムを表しています。私たちのオープンソースのチェックポイントとコードは、https://yanqval.github.io/PAE/ で入手できます。
深度補完は、疎な深度測定を密な深度マップにアップグレードするために、従来の画像によってガイドされます。この高度に不良条件なタスクのための既存の手法は、厳密に制約された設定で動作し、トレーニングドメイン外の画像に適用される場合や、利用可能な深度測定が疎かつ不規則に分布している場合、または密度が異なる場合に苦労する傾向があります。最近の単眼深度推定の進歩に触発され、深度補完を、疎な測定によってガイドされた画像条件付きの深度マップ生成として再構築します。当社の手法、Marigold-DCは、単眼深度推定のための事前学習された潜在拡散モデルに基づき、深度観測をテスト時のガイダンスとして注入し、デノイジング拡散の反復推論と並行して実行される最適化スキームによってガイドされます。この手法は、さまざまな環境にわたって優れたゼロショット汎化を示し、極めて疎なガイダンスにさえ効果的に対処します。私たちの結果は、現代の単眼深度事前分布が深度補完を非常に強固にすることを示唆しています:密な画像ピクセルから疎な深度によってガイドされた密な深度の回復をタスクとして見る方が良いかもしれません。プロジェクトのウェブサイト:https://MarigoldDepthCompletion.github.io/
現実のソフトウェア開発において、不適切または不足の例外処理はコードの堅牢性と信頼性に深刻な影響を与える可能性があります。例外処理メカニズムは、開発者が高い基準に従って例外を検出し、キャプチャし、管理することを要求しますが、多くの開発者がこれらのタスクに苦労しており、脆弱なコードを生み出しています。この問題はオープンソースプロジェクトに特に顕著であり、ソフトウェアエコシステム全体の品質に影響を与えています。この課題に対処するために、私たちは大規模言語モデル(LLMs)の活用を通じてコードの例外処理を改善することを探求しています。徹底的な分析を通じて、以下の3つの主要な問題を特定しました:脆弱なコードの感知の不十分、例外ブロックの不正確なキャプチャ、および歪んだ処理解決策。これらの問題は現実のリポジトリ全体に広く存在しており、堅牢な例外処理の実践がしばしば見落とされたり誤処理されたりしていることを示しています。これに対応して、例外処理のためのエキスパート開発者の戦略に着想を得たマルチエージェントフレームワークであるSeekerを提案します。Seekerは、スキャナー、ディテクター、プレデター、ランカー、ハンドラーというエージェントを使用し、LLMsが例外をより効果的に検出、キャプチャ、解決するのを支援します。私たちの研究は、実際の開発シナリオにおける例外処理の実践を向上させるためにLLMsを活用する初の体系的研究であり、今後のコード信頼性の向上に向けた貴重な示唆を提供しています。
私たちは、主題駆動型ビデオカスタマイズのためのゼロショット手法であるSUGARを提案します。 入力画像が与えられると、SUGARは画像に含まれる主題に対してビデオを生成し、ユーザー入力のテキストで指定されたスタイルやモーションなどの任意の視覚属性と整合させることができます。テスト時の微調整が必要ないか、テキストに整列したビデオを生成できない従来の手法とは異なり、SUGARはテスト時に追加コストが不要で優れた結果を達成します。ゼロショット機能を実現するために、主題駆動型カスタマイズ向けに特別に設計された合成データセットを構築するためのスケーラブルなパイプラインを導入し、250万の画像-ビデオ-テキストの三つ組を生成します。さらに、特別な注意設計、改善されたトレーニング戦略、洗練されたサンプリングアルゴリズムを含む、モデルを強化するためのいくつかの手法を提案します。包括的な実験が行われました。従来の手法と比較して、SUGARは主題駆動型ビデオカスタマイゼーションにおいて、アイデンティティの保存、ビデオダイナミクス、ビデオ-テキストの整列において最先端の結果を達成し、提案手法の効果を示しています。
最近のAIに基づくビデオ編集は、単純なテキストプロンプトを通じてユーザーがビデオを編集できるようにし、編集プロセスを大幅に簡素化しています。ただし、最近のゼロショットビデオ編集技術は主にグローバルまたは単一オブジェクトの編集に焦点を当てており、これはビデオの他の部分に意図しない変更をもたらす可能性があります。複数のオブジェクトに局所的な編集が必要な場合、既存の方法は、忠実でない編集、編集漏れ、適切な評価データセットやメトリクスの不足などの課題に直面しています。これらの制限を克服するために、私たちはゼロショットMulti-Instance Video Editing(MIVE)フレームワークを提案します。MIVEは、特定のオブジェクト(例:人物)に特化していない汎用のマスクベースのフレームワークです。MIVEは、編集漏れを防ぐためのDisentangled Multi-instance Sampling(DMS)と、正確な局所化と忠実な編集を確保するためのInstance-centric Probability Redistribution(IPR)という2つの重要なモジュールを導入しています。さらに、多様なビデオシナリオを特徴とする新しいMIVEデータセットを紹介し、マルチインスタンスビデオ編集タスクにおける編集漏れを評価するためのCross-Instance Accuracy(CIA)スコアを導入しています。私たちの包括的な定性的、定量的、およびユーザースタディの評価は、MIVEが編集の忠実さ、精度、および漏れの防止の観点で最近の最先端の方法を大幅に上回ることを示し、マルチインスタンスビデオ編集の新たな基準を設定しています。プロジェクトページはhttps://kaist-viclab.github.io/mive-site/でご覧いただけます。
大規模言語モデル(LLMs)は、事前学習された知識(つまり、パラメトリック知識)と外部知識(つまり、文脈知識)の両方を活用することで、さまざまなタスクで優れたパフォーマンスを示しています。これまでに、両方の形式の知識を活用するための多大な努力がなされてきましたが、モデルが関連する知識を持たない状況については未だに探求されていません。このような制限は、幻覚などの問題を引き起こし、高リスクなアプリケーションにおいて信頼性が低下し、潜在的なリスクを引き起こす可能性があります。このような制限に対処するために、本論文では、ユーザーのリクエストが関連する知識の不足のために達成できない場合を含むタスク範囲を拡大します。このために、私たちは、教師なし学習のデコーディング手法である対照的デコーディングと棄却(CDA)を導入します。これにより、LLMsは関連する知識が利用可能な場合に応答を生成し、それ以外の場合には棄却することができます。CDAは、与えられたクエリに対する各知識の関連性を評価し、どの知識を優先すべきか、完全に無視すべきかを適応的に決定します。3つの質問応答データセットで4つのLLMsを用いた包括的な実験により、CDAが正確な生成と棄却を同時に効果的に行うことが示されました。これらの結果は、CDAのLLMsの適用範囲を広げ、信頼性を向上させ、ユーザーの信頼を維持する潜在能力を示しています。