翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)が文脈情報をどのようにエンコードし保存するかを定量化する手法を紹介します。これにより、一見些細に見られるトークン(例えば、限定詞や句読点)が驚くほど高い文脈情報を保持していることが明らかになりました。特に、これらのトークン(特にストップワード、冠詞、カンマ)を削除すると、MMLUやBABILong-4kのパフォーマンスが一貫して低下します。これは、無関係なトークンのみを削除した場合でも同様です。また、分析からは、文脈化と線形性の間に強い相関があることが示されています。ここで線形性とは、ある層の埋め込みから次の層への変換が単一の線形写像でどれだけ近似できるかを測定するものです。これらの発見は、文脈を維持する上でのフィラートークンの隠れた重要性を強調しています。さらに探求するために、LLM-Microscopeというオープンソースのツールキットを提供します。このツールキットは、トークンレベルの非線形性を評価し、文脈メモリを測定し、中間層の寄与を可視化し(適応型Logit Lensを通じて)、表現の内在的次元を測定します。このツールキットは、一見些細なトークンが長距離理解において重要であることを明らかにします。
大規模言語モデル(LLMs)は、卓越した理解能力と膨大な知識基盤を示しており、LLMsが自動化された調査生成の効率的なツールとして機能し得ることを示唆しています。しかし、自動化された調査生成に関する最近の研究は、有限のコンテキストウィンドウ、深い内容の議論の欠如、体系的な評価フレームワークの不在といった重要な制約に依然として縛られています。人間の執筆プロセスに着想を得て、我々はSurveyXを提案します。これは、調査作成プロセスを準備段階と生成段階の2つのフェーズに分解する、効率的で体系的な自動調査生成システムです。オンライン参照検索、AttributeTreeと呼ばれる前処理方法、および再研磨プロセスを革新的に導入することで、SurveyXは調査作成の効率を大幅に向上させます。実験的評価の結果、SurveyXは既存の自動調査生成システムを内容の品質(0.259の改善)と引用の品質(1.76の向上)の両面で上回り、複数の評価次元で人間の専門家のパフォーマンスに接近しています。SurveyXによって生成された調査の例は、www.surveyx.cnで閲覧可能です。
分子を理解することは、生物を理解し、創薬の進展を推進する上で鍵となります。これには、化学と生物学にまたがる学際的な知識が必要です。大規模な分子言語モデルは分子構造の解釈において顕著な成功を収めていますが、その指示データセットはタスク指向のデータセットに限定されており、分子の基本的な特性を完全にはカバーしていないため、汎用分子アシスタントとしての能力が制限されています。この問題を解決するため、我々はMol-LLaMAを提案します。これは、マルチモーダルな指示チューニングを通じて分子を中心とした一般的な知識を把握する大規模分子言語モデルです。この目的のために、分子の基本的な特徴を網羅する主要なデータタイプを設計し、分子構造からの重要な知識を組み込みました。さらに、分子の特徴の理解を向上させるために、異なる分子エンコーダーからの補完的な情報を統合するモジュールを導入し、異なる分子表現の独自の利点を活用します。実験結果は、Mol-LLaMAが分子の一般的な特徴を理解し、ユーザーのクエリに対して詳細な説明を伴った関連する応答を生成できることを示しており、分子分析のための汎用アシスタントとしての可能性を示唆しています。
本論文では、写真に装飾要素を重ねることでアーティストがフォトドゥードリングを行うことを可能にする新しい画像編集フレームワーク、PhotoDoodleを紹介します。フォトドゥードリングは、挿入された要素が背景とシームレスに統合されている必要があり、リアルなブレンド、視点の整合、文脈的な一貫性が求められるため、挑戦的な作業です。さらに、背景を歪ませずに保持し、限られたトレーニングデータからアーティストの独自のスタイルを効率的に捉える必要があります。これらの要件は、主にグローバルなスタイル転送や領域のインペインティングに焦点を当てた従来の手法では対応されていませんでした。提案手法であるPhotoDoodleは、2段階のトレーニング戦略を採用しています。最初に、大規模なデータを使用して汎用画像編集モデルOmniEditorをトレーニングします。その後、アーティストがキュレートした前後の画像ペアの小さなデータセットを使用してEditLoRAでこのモデルを微調整し、独特の編集スタイルと技術を捉えます。生成結果の一貫性を高めるために、位置エンコーディングの再利用メカニズムを導入します。さらに、6つの高品質なスタイルを特徴とするPhotoDoodleデータセットを公開します。広範な実験により、カスタマイズされた画像編集における本手法の先進的な性能と堅牢性が実証され、芸術的創作の新たな可能性が開かれました。
行動から環境変化を予測する世界モデルは、強力な汎化能力を持つ自動運転モデルにとって不可欠である。現在主流の運転世界モデルは主にビデオ予測モデルに基づいて構築されている。これらのモデルは高度な拡散ベースの生成器を用いて高精細なビデオシーケンスを生成できるが、予測期間と全体的な汎化能力に制約がある。本論文では、生成損失とMAEスタイルの特徴レベルのコンテキスト学習を組み合わせることでこの問題を解決することを探求する。具体的には、以下の3つの主要な設計を通じてこの目標を具現化する:(1) 追加のマスク構築タスクで訓練された、よりスケーラブルなDiffusion Transformer (DiT) 構造。(2) マスク再構築と生成的拡散プロセスの間の曖昧な関係に対処するため、拡散関連のマークトークンを考案。(3) MAEにおけるマスク付き自己注意ではなく、シフト付き自己注意のための行単位のマスクを利用することで、マスク構築タスクを空間-時間領域に拡張。さらに、このマスク設計に合わせるため、行単位のクロスビューモジュールを採用。以上の改良に基づき、ビデオマスク再構築を具現化した汎用的な運転世界モデルであるMaskGWMを提案する。我々のモデルには2つのバリエーションがある:長期間予測に焦点を当てたMaskGWM-longと、マルチビュー生成に特化したMaskGWM-mview。標準ベンチマークでの包括的な実験により、提案手法の有効性が検証され、これにはNusceneデータセットの通常検証、OpenDV-2Kデータセットの長期間ロールアウト、Waymoデータセットのゼロショット検証が含まれる。これらのデータセットにおける定量的な指標は、我々の手法が最先端の運転世界モデルを大幅に改善することを示している。
本論文では、大規模言語モデルの推論プロセスにおいて、文脈の誤解が重大な問題となり得ることを明らかにしている。これは、Llama3.2-3B-Instructのような小規模モデルから、DeepSeek-R1のような最先端モデルに至るまで広く見られる。例えば、「10 dollars per kilo」というフレーズにおいて、LLMは「per」が「それぞれに対して」を意味することを認識せず、計算誤りを引き起こす可能性がある。この問題に対処するため、我々は**Stick to the Facts (SIFT)**と呼ばれる新しいポストトレーニング手法を提案する。SIFTは、推論時の計算リソースを活用して、LLMの推論を文脈に基づかせる。SIFTの中核には、モデル自身によって生成される*Sticker*があり、文脈内の重要な情報を明示的に強調する。このStickerを基に、SIFTは2つの予測を生成する——1つは元のクエリからの予測、もう1つはStickerを追加したクエリからの予測である。これらが異なる場合、Stickerは*順方向*最適化(抽出された事実をクエリにより適切に整合させるため)と*逆方向*生成(モデルの内在的な傾向に従わせるため)を経て順次改良され、より忠実な推論結果が得られる。3Bから100B+までの多様なモデルとベンチマーク(例:GSM8K、MATH-500)を用いた研究により、一貫した性能向上が確認された。特に、SIFTはDeepSeek-R1のAIME2024におけるpass@1精度を78.33%から**85.67**%に向上させ、オープンソースコミュニティにおける新たな最先端を確立した。コードはhttps://github.com/zhijie-group/SIFTで公開されている。
視覚的に一致する手がかりを関連付ける能力は、日常生活において極めて重要です。例えば、特定の人物が誰であるかを知らなくても、複数の写真からその人物を手がかりに特定するような場面です。視覚言語モデル(VLM)は膨大な知識を有していますが、この基本的なタスクを実行できるかどうかはほとんど検証されていません。この問題に対処するため、我々はVLM^2-Benchを導入しました。これはVLMが視覚的に一致する手がかりを関連付けられるかを評価するためのベンチマークで、9つのサブタスクと3,000以上のテストケースを備えています。8つのオープンソースVLMとGPT-4oに対する包括的な評価、および言語側と視覚側のプロンプト手法の詳細な分析を通じて、合計8つの重要な知見が得られました。我々は、モデルが視覚的手がかりを関連付ける能力における重大な課題を特定し、GPT-4oでさえ人間に34.80%遅れをとるという大きな性能ギャップを明らかにしました。これらの洞察に基づき、我々は以下の提言を行います:(i) 適応性を高め、事前知識への依存を減らすために、コアとなる視覚能力を強化すること、(ii) 視覚中心のタスクにおいて言語ベースの推論を統合するための明確な原則を確立し、不必要なバイアスを防ぐこと、(iii) 視覚テキストのトレーニングパラダイムを、モデルが視覚的手がかり間の関係を独立して構造化し推論する能力を育む方向に転換することです。
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示していますが、長いトークンを生成する際の膨大なメモリと計算コストがその効率を阻害しています。本論文では、LLMが推論中に中間的な思考を動的に圧縮することを可能にする新しい手法、LightThinkerを提案します。人間の認知プロセスに着想を得たLightThinkerは、冗長な思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを破棄することで、コンテキストウィンドウに保存されるトークン数を大幅に削減します。これは、データ構築を通じてモデルに圧縮のタイミングと方法を学習させ、隠れ状態を凝縮された要約トークンにマッピングし、特殊なアテンションマスクを作成することで実現されます。さらに、生成中に過去のトークンへの依存度を測定することで圧縮の程度を定量化するDependency(Dep)メトリックを導入します。4つのデータセットと2つのモデルを用いた広範な実験により、LightThinkerがピークメモリ使用量と推論時間を削減しつつ、競争力のある精度を維持することが示されました。本研究は、性能を犠牲にすることなく、複雑な推論タスクにおけるLLMの効率を向上させる新たな方向性を提供します。コードはhttps://github.com/zjunlp/LightThinkerで公開されます。
効果的なコンテキスト長のスケーリングは、大規模言語モデル(LLM)を人工汎用知能(AGI)に向けて進化させる上で不可欠である。しかし、従来のアテンションメカニズムに内在する計算複雑性の二次的な増加は、過大なオーバーヘッドをもたらす。既存のアプローチでは、タスク固有のシンクやウィンドウアテンションなどの強いバイアスを課すか、あるいはアテンションメカニズムを線形近似に大幅に変更するかのいずれかであり、後者の場合、複雑な推論タスクにおける性能は十分に検証されていない。 本研究では、「少ない構造」の原則に従い、モデルが自律的にどこに注意を向けるかを決定できる解決策を提案する。我々は、Mixture of Experts(MoE)の原則をアテンションメカニズムに適用した革新的なアプローチであるMixture of Block Attention(MoBA)を導入する。この新しいアーキテクチャは、長文コンテキストタスクにおいて優れた性能を示すだけでなく、完全なアテンションとスパースアテンションの間をシームレスに切り替える能力を提供し、性能を損なうリスクなく効率を向上させる。MoBAは既にKimiの長文コンテキストリクエストをサポートするために展開されており、LLMにおける効率的なアテンション計算の大幅な進展を示している。我々のコードはhttps://github.com/MoonshotAI/MoBAで公開されている。
大規模言語モデル(LLM)エージェントの利用が拡大するにつれ、その安全性に関する脆弱性が顕在化してきている。既存の広範なベンチマークは、LLMの安全性を評価する際に一般的な基準に依存しており、ユーザー固有の基準を見落としている。しかし、LLMの安全性基準は、すべてのユーザーに普遍的に適用されるのではなく、ユーザー固有のプロファイルに基づいて異なる場合がある。これにより、重要な研究課題が浮上する:ユーザー固有の安全性基準を考慮した場合、LLMエージェントは安全に行動するのか?LLMの安全な利用においてこの問題は重要であるにもかかわらず、現在のところ、ユーザー固有の安全性を評価するためのベンチマークデータセットは存在しない。このギャップを埋めるため、我々はユーザー固有のLLM安全性を評価する初のベンチマーク「U-SAFEBENCH」を提案する。18の広く使用されているLLMを評価した結果、現在のLLMはユーザー固有の安全性基準を考慮した場合に安全に行動できないことが明らかとなり、この分野における新たな発見となった。この脆弱性に対処するため、我々はチェーン・オブ・シンクに基づく簡易な改善策を提案し、その有効性を実証した。我々のベンチマークとコードはhttps://github.com/yeonjun-in/U-SafeBenchで公開されている。
マルチターン指示追従能力は、現実世界のアプリケーションにおける大規模言語モデル(LLM)の中核的な能力を構成する。既存の評価ベンチマークは、主に細かい制約の満足度やドメイン固有の能力評価に焦点を当てているが、マルチターンとシングルターンの相互作用を区別する対話ターン間の重要な構造的依存関係を見落としている。この構造的依存関係は、ユーザーの意図を反映するだけでなく、制約の満足度を超えた指示追従評価の第二の次元を確立する。このギャップを埋めるため、我々は構造的フローモデリングを備えたマルチターン指示追従ベンチマークであるStructFlowBenchを提案する。このベンチマークは、6つの基本的なターン間関係からなる構造的フレームワークを革新的に定義し、モデル評価のための新しい構造的制約を導入するだけでなく、特定のシナリオに合わせたカスタマイズされた対話フローを作成するための生成パラメータとしても機能する。確立されたLLMベースの自動評価方法論を採用し、13の主要なオープンソースおよびクローズドソースのLLMを体系的に評価する。実験結果は、現在のモデルがマルチターン対話構造を理解する上で重大な欠陥を抱えていることを明らかにする。コードはhttps://github.com/MLGroupJLU/StructFlowBenchで公開されている。
材料合成は、エネルギー貯蔵、触媒、エレクトロニクス、生体医療デバイスなどの革新において極めて重要である。しかし、そのプロセスは専門家の直感に基づく経験的で試行錯誤的な方法に大きく依存している。本研究は、実用的でデータ駆動型のリソースを提供することで、材料科学コミュニティを支援することを目指している。我々は、オープンアクセスの文献から17,000件の専門家検証済み合成レシピを精選し、新たに開発したベンチマーク「AlchemyBench」の基盤とした。AlchemyBenchは、合成予測に適用される大規模言語モデルの研究を支援するエンドツーエンドのフレームワークを提供する。これには、原材料や装置の予測、合成手順の生成、特性評価結果の予測といった主要なタスクが含まれる。我々は、大規模言語モデルを活用した自動評価を行う「LLM-as-a-Judge」フレームワークを提案し、専門家の評価との強い統計的一致を示している。全体として、我々の貢献は、材料合成の予測と指導における大規模言語モデルの能力を探求するための支援基盤を提供し、材料科学における効率的な実験設計と加速された革新への道を開くものである。
本論文では、韓国の国家教育試験を用いてマルチモーダル生成AIシステムを評価するための新しいベンチマークであるKorean National Educational Test Benchmark(KoNET)を提案する。KoNETは、韓国初等教育修了試験(KoEGED)、中等教育修了試験(KoMGED)、高等教育修了試験(KoHGED)、および大学修学能力試験(KoCSAT)の4つの試験で構成されている。これらの試験は、その厳格な基準と多様な問題設定で知られており、異なる教育レベルにおけるAIの性能を包括的に分析することを可能にする。韓国語に焦点を当てることで、KoNETは未開拓の言語におけるモデルの性能に関する洞察を提供する。オープンソース、オープンアクセス、クローズドAPIの幅広いモデルを、難易度、科目の多様性、および人間の誤答率を検証することで評価する。コードとデータセットビルダーは、https://github.com/naver-ai/KoNET で完全にオープンソースとして公開される予定である。
大規模言語モデルは、チェーン・オブ・ソート(連鎖的思考)とテスト時計算リソースのスケーリングを活用することで、数学的推論において顕著な進歩を遂げてきました。しかし、推論トークンの使用と精度向上の相互作用については、多くの未解決の疑問が残っています。特に、異なる世代のモデルを比較する際、性能の向上がより長い推論連鎖によるものなのか、それともより効率的な推論によるものなのかは明確ではありません。本研究では、Omni-MATHベンチマークにおいてo1-miniとo3-miniのバリエーションにわたるチェーン・オブ・ソートの長さを系統的に分析し、o3-mini (m)がo1-miniよりも長い推論連鎖を必要とせずに優れた精度を達成することを明らかにしました。さらに、すべてのモデルと計算設定において、問題の難易度を制御した場合でも、推論連鎖が長くなるにつれて精度が一般的に低下することを示しました。この精度の低下は、より熟練したモデルでは大幅に小さく、新しい世代の推論モデルがテスト時計算リソースをより効果的に使用していることを示唆しています。最後に、o3-mini (h)がo3-mini (m)に対してわずかな精度向上を達成するものの、o3-mini (m)がすでに解決できる問題を含むすべての問題に対して大幅に多くの推論トークンを割り当てていることを強調します。これらの発見は、モデルの能力と推論の長さの関係について新たな洞察を提供し、効率性、スケーリング、および評価方法論に示唆を与えるものです。
タンパク質バックボーン生成は、デノボタンパク質設計において中心的な役割を果たし、多くの生物学的および医学的応用において重要である。拡散モデルやフローベースの生成モデルはこの困難な課題に対する潜在的な解決策を提供するが、しばしば望ましい設計可能性を持たないタンパク質を生成し、計算効率が低いという問題がある。本研究では、高速かつ高品質なタンパク質バックボーン生成のための新しい修正四元数フロー(ReQFlow)マッチング法を提案する。特に、本手法はタンパク質鎖の各残基に対して、ランダムノイズから局所的な並進と3D回転を生成し、各3D回転を単位四元数として表現し、指数形式での球面線形補間(SLERP)によってそのフローを構築する。本モデルは、数値的安定性が保証された四元数フロー(QFlow)マッチングによって訓練され、QFlowモデルを修正して推論を加速し、生成されたタンパク質バックボーンの設計可能性を向上させることで、提案するReQFlowモデルを導出する。実験結果は、ReQFlowがタンパク質バックボーン生成において最先端の性能を達成し、サンプリングステップ数を大幅に削減し、推論時間を著しく短縮する(例えば、長さ300のバックボーンを生成する際にRFDiffusionよりも37倍、Genie2よりも62倍高速である)ことを示しており、その有効性と効率性を実証している。コードはhttps://github.com/AngxiaoYue/ReQFlowで公開されている。
大規模言語モデル(LLMs)の進展と、医療分野における質問応答への利用の増加に伴い、その信頼性を厳密に評価することが必要となっている。特に重要な課題は、モデルが一見妥当だが事実に反する出力を生成する「幻覚(hallucination)」現象である。医療領域では、これは患者の安全や臨床意思決定に重大なリスクをもたらす。この問題に対処するため、我々は医療幻覚検出に特化した初のベンチマークであるMedHalluを提案する。MedHalluは、PubMedQAから抽出された10,000の高品質な質問応答ペアで構成され、幻覚を含む回答は制御されたパイプラインを通じて体系的に生成されている。実験結果から、GPT-4o、Llama-3.1、および医療分野でファインチューニングされたUltraMedicalを含む最先端のLLMsが、この二値幻覚検出タスクに苦戦することが明らかとなった。特に「困難」カテゴリの幻覚検出において、最高のモデルでもF1スコアは0.625に留まった。双方向含意クラスタリングを用いて、検出が困難な幻覚は意味的に正解に近いことを示した。さらに、実験を通じて、ドメイン固有の知識を組み込むことや、回答カテゴリに「不明」を追加することが、ベースラインと比較して精度およびF1スコアを最大38%向上させることを実証した。
大規模な事前学習済みビデオ拡散モデルをアイデンティティ保存型テキスト-to-ビデオ生成(IPT2V)に適応させるためのチューニング不要なアプローチは、その有効性と拡張性から近年注目を集めている。しかし、アイデンティティを維持しつつ満足のいく顔のダイナミクスを実現するためには、依然として大きな課題が残されている。本研究では、拡散トランスフォーマー(DiT)に基づく事前学習済みビデオモデルの顔知識を強化した新たなチューニング不要なIPT2Vフレームワーク、FantasyIDを提案する。本質的に、3D顔形状の事前情報を組み込むことで、ビデオ合成中に妥当な顔構造を保証する。モデルが単に参照顔をフレーム間で複製するコピー&ペーストのショートカットを学習するのを防ぐため、多視点顔拡張戦略を考案し、多様な2D顔外観特徴を捉えることで、表情や頭部姿勢のダイナミクスを向上させる。さらに、2Dおよび3D特徴をガイダンスとしてブレンドした後、DiT層にガイダンス情報を注入するために単純にクロスアテンションを使用するのではなく、学習可能な層対応適応機構を採用し、融合された特徴を各DiT層に選択的に注入することで、アイデンティティ保存とモーションダイナミクスのバランスの取れたモデリングを促進する。実験結果は、本モデルが現行のチューニング不要なIPT2V手法を凌駕することを実証している。
本論文では、大規模言語モデル(LLM)の生成において厳密なスキーマ準拠を強制する課題に取り組むため、LLMの推論能力を活用する手法を提案する。DeepSeek R1強化学習フレームワークを基盤として、1.5Bパラメータモデルの構造化推論スキルを、合成推論データセット構築とGroup Relative Policy Optimization(GRPO)下でのカスタム報酬関数を組み合わせた新たなパイプラインを通じて訓練する。具体的には、まず20Kサンプルの非構造化から構造化へのデータセットに対してR1強化学習を実施し、元のDeepSeek R1手法を模倣して中核的な推論能力を確立する。その後、別の10K推論サンプルデータセットに対して教師ありファインチューニングを行い、下流タスクにおけるスキーマ準拠の精度向上に焦点を当てる。比較的控えめな訓練範囲(GRPO訓練に8xH100 GPUクラスターで約20時間、SFTに1xA100で3時間を要する)にもかかわらず、本モデルはスキーマ一貫性の強制において堅牢な性能を示す。我々のThinkJSONアプローチを、元のDeepSeek R1(671B)、DeepSeek R1の蒸留版(Qwen-1.5BおよびQwen-7B)、Gemini 2.0 Flash(70B)と比較し、実世界のアプリケーションにおける有効性を実証する。結果は、スキーマ制約付きテキスト生成のためのリソース効率的なフレームワークの実用性を強調するものである。
拡散モデルからのサンプリングは、反復的なプロセスが遅いため、特にインタラクティブなアプリケーションにおいて実用的な展開を妨げています。生成速度を向上させるために、最近のアプローチでは、多段階の拡散モデルを変分スコア蒸留を用いて単一段階の学生ジェネレータに蒸留し、学生が生成するサンプルの分布を教師の分布に一致させます。しかし、これらのアプローチでは分布マッチングに逆Kullback-Leibler(KL)ダイバージェンスを使用しており、これはモードを追求する性質があることが知られています。本論文では、fダイバージェンス最小化フレームワークを用いて分布マッチングアプローチを一般化し、f-distillと名付けました。このフレームワークは、モードカバレッジとトレーニング分散の異なるトレードオフを持つさまざまなダイバージェンスをカバーします。教師と学生の分布間のfダイバージェンスの勾配を導出し、それがそれらのスコア差とそれらの密度比によって決定される重み関数の積として表されることを示します。この重み関数は、モードをあまり追求しないダイバージェンスを使用する場合、教師分布において密度が高いサンプルを自然に強調します。逆KLダイバージェンスを使用した一般的な変分スコア蒸留アプローチが、我々のフレームワーク内の特殊なケースであることを観察します。実験的には、順KLやJensen-Shannonダイバージェンスなどの代替fダイバージェンスが、画像生成タスクにおいて現在の最良の変分スコア蒸留法を上回ることを示します。特に、Jensen-Shannonダイバージェンスを使用した場合、f-distillはImageNet64におけるワンステップ生成性能とMS-COCOにおけるゼロショットテキストから画像生成において現在の最先端の性能を達成します。プロジェクトページ: https://research.nvidia.com/labs/genair/f-distill
ドキュメント処理におけるRetrieval-Augmented Generation(RAG)の普及に伴い、知識抽出のための堅牢なテキスト認識がますます重要となっている。英語やその他の言語のOCR(光学文字認識)は、大規模なデータセットと確立されたベンチマークに支えられているが、アラビア語OCRは、その草書体、右から左へのテキストフロー、および複雑なタイポグラフィと書道の特徴により、独特の課題に直面している。本論文では、現在の評価システムのギャップを埋める包括的なアラビア語OCRベンチマークであるKITAB-Benchを提案する。このベンチマークは、9つの主要なドメインと36のサブドメインにわたる8,809のサンプルを含み、手書きテキスト、構造化された表、ビジネスインテリジェンスのための21種類のチャートを含む多様なドキュメントタイプを網羅している。我々の調査結果によると、現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチ(EasyOCR、PaddleOCR、Suryaなど)と比較して、文字誤り率(CER)において平均60%優れている。さらに、現在のアラビア語OCRモデルの重大な限界、特にPDFからMarkdownへの変換において、最良のモデルであるGemini-2.0-Flashが65%の精度しか達成できないことを明らかにした。これは、複雑なフォント、数字認識の誤り、単語の伸長、表構造の検出などの問題を含むアラビア語テキストの正確な認識における課題を浮き彫りにしている。本研究は、アラビア語ドキュメント分析手法の改善を促進し、英語OCR技術との性能差を埋めるための厳密な評価フレームワークを確立するものである。
既存のベンチマークは、汎用AIアシスタントの開発において重要な、人間のユーザーとのインタラクティブな知能を大規模マルチモーダルモデル(LMM)に対してテストしていない。我々は、この能力を自律的に評価するために、任意のLMMとデータセットに適用可能なインタラクティブなフレームワークであるInterFeedbackを設計した。さらに、MMMU-ProとMathVerseという2つの代表的なデータセットを使用して10種類のオープンソースLMMをテストするInterFeedback-Benchを導入した。加えて、OpenAI-o1やClaude-3.5-Sonnetなどの主要モデルのインタラクティブな性能を手動でテストするために新たに収集した120ケースのデータセットであるInterFeedback-Humanを提示した。評価結果は、OpenAI-o1のような最先端のLMMでさえ、人間のフィードバックを通じて結果を修正できる割合が50%未満であることを示している。我々の知見は、LMMがフィードバックを解釈し、それを活用する能力を向上させる方法の必要性を示唆している。
現代技術の進展とアクセシビリティの向上により、研究は指数関数的に拡大し、科学の発見は分野内および分野間でますます細分化されている。これにより、関連する研究、特に異なる研究コミュニティからの研究間の重要性、新規性、漸進的な発見、および同等のアイデアを評価することが困難になっている。大規模言語モデル(LLM)は最近、強力な定量的および定性的な推論能力を示しており、多エージェントLLMディベートは、多様な視点と推論経路を探求することで複雑な推論タスクを処理する可能性を示している。これに触発され、我々は科学論文をLLMペルソナに変換し、それぞれの新規性について議論する「Tree-of-Debate(ToD)」フレームワークを提案する。結果のみに焦点を当てるのではなく、構造化された批判的推論を重視するため、ToDは動的にディベートツリーを構築し、学術論文内の独立した新規性の主張を詳細に分析することを可能にする。さまざまな分野の科学文献を用いた実験を通じて、専門研究者による評価を行い、ToDが有益な議論を生成し、論文を効果的に対比させ、研究者の文献レビューを支援することを実証した。
現実世界の環境において発話を開始するタイミングを予測することは、会話エージェントにとって依然として根本的な課題である。本論文では、エゴセントリックなストリーミングビデオにおけるリアルタイム発話開始予測のための新たなフレームワーク「EgoSpeak」を提案する。EgoSpeakは、話者の一人称視点から会話をモデル化することで、会話エージェントが環境を継続的に観察し、動的に発話タイミングを決定する必要がある人間らしいインタラクションに特化している。本アプローチは、以下の4つの主要な機能を統合することで、簡素化された実験設定と複雑な自然な会話の間のギャップを埋めるものである:(1) 一人称視点、(2) RGB処理、(3) オンライン処理、(4) 未編集ビデオ処理。また、大規模な事前学習のリソースとして、YouTubeから収集した多様な実世界の会話ビデオのコレクション「YT-Conversation」を提示する。EasyComおよびEgo4Dにおける実験により、EgoSpeakがリアルタイムでランダムおよび沈黙ベースのベースラインを上回ることを実証した。さらに、効果的な発話タイミング決定におけるマルチモーダル入力とコンテキスト長の重要性を明らかにした。
主要なAI企業は、汎用AIエージェントの構築にますます注力しています。これらのシステムは、人間が行うほぼすべてのタスクにおいて自律的に計画し、行動し、目標を追求することができます。これらのシステムがどれほど有用であっても、制御されないAIエージェントは、悪意のある行為者による悪用から、人間の制御が不可逆的に失われる可能性まで、公共の安全とセキュリティに重大なリスクをもたらします。我々は、これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論します。実際、さまざまなシナリオや実験により、AIエージェントが人間のオペレーターによって指定されず、人間の利益と衝突する目標(例えば自己保存)を追求したり、欺瞞を行ったりする可能性が示されています。予防原則に従い、我々は現在のエージェント主導の軌道に対する、より安全でかつ有用な代替手段の必要性を強く認識しています。それに応じて、我々は、信頼性と安全性を設計段階から備えた非エージェント型AIシステムの開発を、さらなる進歩のための核心的な構成要素として提案します。これを「Scientist AI」と呼びます。このシステムは、世界を観察から説明するように設計されており、人間を模倣したり喜ばせたりするために行動を取るのではありません。データを説明する理論を生成する世界モデルと、質問応答推論マシンで構成されています。両コンポーネントは、過信による予測のリスクを軽減するために、不確実性の明示的な概念を操作します。これらの考察に基づき、Scientist AIは、AI安全性を含む科学の進歩を加速するために、人間の研究者を支援するために使用される可能性があります。特に、我々のシステムは、リスクが存在するにもかかわらず作成される可能性のあるAIエージェントに対するガードレールとして利用できます。最終的に、非エージェント型AIに焦点を当てることで、現在の軌道に関連するリスクを回避しながら、AIイノベーションの利点を享受できる可能性があります。我々は、これらの議論が研究者、開発者、政策立案者にこのより安全な道を選ぶ動機付けとなることを望みます。
スタイル埋め込みは、文体分析やスタイル転送に有用であるが、これまでに公開されているのは英語のスタイル埋め込みに限られていた。本研究では、合成データと対照学習を用いて訓練された多言語スタイル埋め込みモデルであるMultilingual StyleDistance(mStyleDistance)を提案する。このモデルは9言語のデータを用いて訓練され、埋め込みの品質を評価するための多言語STEL-or-Contentベンチマーク(Wegmann et al., 2022)を構築した。さらに、異なる言語を対象とした著者検証タスクにおいて、本モデルの埋め込みを適用した。その結果、mStyleDistanceの埋め込みは、これらの多言語スタイルベンチマークにおいて既存のモデルを上回り、未知の特徴や言語に対しても良好な汎化性能を示すことが確認された。本モデルはhttps://huggingface.co/StyleDistance/mstyledistanceで公開されている。
我々は、Power Law Decoder Representations (PLDR-LLM) に基づく大規模言語モデルが、小さな摂動に対して不変なテンソルを導出する基盤モデルであることを示す。PLDR-LLMは、導出出力に対する特異条件を学習し、一度推論されたエネルギー曲率テンソル \(G_{LM}\) が、推論時に導出出力を生成するべき乗則グラフアテンション (PLGA) の深層ニューラルネットワークを置き換えることを可能にする。我々は、\(G_{LM}\) のキャッシュ (G-cache) とKVキャッシュを直截に実装することで、推論時間を改善できることを実証する。導出出力の不変性と一般化性は非常に高い忠実度を持ち、キャッシュ後も導出出力のRMSEと行列式の値が15桁まで一致し、ゼロショットベンチマークスコアは変化しない。アブレーション研究により、学習された導出出力は、転移学習、ランダム初期化、または恒等テンソルを定数テンソル演算子として事前学習されたモデルとは異なる損失と精度特性を持つことが示され、スケールドット積アテンション (SDPA) を備えたLLMは、\(G_{LM}\) が恒等として事前定義されたPLDR-LLMの特殊ケースであることが明らかになった。観察された不変性特性は、キャッシュを用いた学習と推論フェーズの間に新たな非対称性を導入する。我々は、学習された特異条件に対する導出出力の共通特性を概説し、KVキャッシュとGキャッシュを備えたPLDR-LLMの学習および推論フレームワークの実装を提供する。
モノクルビデオから世界座標系において正確なスケールで人間とカメラの軌跡を推定することは、望ましいが困難で不適切な問題です。本研究では、世界、人間、カメラという3つの重要な要素のシナジーを活用して、表現豊かなパラメトリック人間モデル(すなわち、SMPL-X)と対応するカメラポーズを同時に回復することを目指します。我々のアプローチは、2つの主要な観察に基づいています。第一に、カメラフレームのSMPL-X推定手法は、絶対的な人間の奥行きを容易に回復します。第二に、人間の動き自体が絶対的な空間的手がかりを提供します。これらの洞察を統合することで、従来の最適化技術に依存しない世界に根ざした表現豊かな人間のポーズと形状の推定(EHPS)とカメラポーズの推定を促進する新しいフレームワークであるWHACを紹介します。さらに、WHAC-A-Moleと呼ばれる新しい合成データセットを提示します。このデータセットには、正確に注釈付けされた人間とカメラが含まれ、多様なインタラクティブな人間の動きと現実的なカメラ軌跡が特徴として含まれています。標準的なベンチマークと新たに設定されたベンチマークの両方での広範な実験は、我々のフレームワークの優越性と効果を示しています。コードとデータセットは公開されます。
大規模言語モデル(LLMs)は、疾患診断において印象的な能力を発揮している。しかし、診断が本質的に困難な希少疾患の特定における有効性は、未だに未解決の問題である。医療現場でのLLMsの使用が増加する中、希少疾患に対する性能は極めて重要である。特に、一次診療医が患者との会話のみから希少な予後を判断し、適切な次のステップを踏む必要がある場合には、その重要性がさらに高まる。この目的のために、いくつかの臨床意思決定支援システムが、希少疾患の特定を支援するように設計されている。しかし、これらのシステムは、一般的な疾患に関する知識の欠如や使用の難しさから、その有用性が限られている。 本論文では、LLMsの知識と専門家システムを組み合わせたRareScaleを提案する。専門家システムとLLMを併用して、希少疾患に関する模擬会話を生成する。このデータを用いて、希少疾患候補予測モデルを訓練する。この小規模モデルから得られた候補を、ブラックボックスLLMへの追加入力として使用し、最終的な鑑別診断を行う。これにより、RareScaleは希少診断と一般的な診断のバランスを取ることができる。我々は、腹部アクチノミコーシスからウィルソン病までの575以上の希少疾患に関する結果を示す。我々のアプローチは、ブラックボックスLLMsのベースライン性能をTop-5精度で17%以上向上させた。また、候補生成の性能も高いことが確認された(例:gpt-4o生成の会話で88.8%)。
マルチモーダル3Dオブジェクト理解は大きな注目を集めているが、現在のアプローチでは、すべてのモダリティにおいて完全なデータの可用性と厳密なアラインメントを前提とすることが多い。本論文では、柔軟なシーンレベルのモダリティアラインメントを介したクロスモーダル3Dシーン理解のための新しいフレームワーク「CrossOver」を提案する。従来の手法では、各オブジェクトインスタンスに対してアラインメントされたモダリティデータが必要であったが、CrossOverは、RGB画像、ポイントクラウド、CADモデル、フロアプラン、テキスト記述といったモダリティを緩やかな制約下で、明示的なオブジェクトセマンティクスなしにアラインメントすることで、シーンに対する統一されたモダリティ非依存の埋め込み空間を学習する。次元固有のエンコーダ、多段階のトレーニングパイプライン、および創発的なクロスモーダル挙動を活用することで、CrossOverはモダリティが欠落している場合でも、堅牢なシーン検索とオブジェクトローカライゼーションをサポートする。ScanNetおよび3RScanデータセットでの評価では、多様なメトリクスにわたる優れた性能を示し、3Dシーン理解における実世界アプリケーションへの適応性を強調している。
大規模言語モデル(LLMs)は自然言語処理において著しい進展を遂げているが、高リスクの政治的意思決定におけるその可能性は未だ十分に探求されていない。本論文は、特にリスクが高く、政治的決定が広範な影響を及ぼす可能性がある国連(UN)の意思決定プロセスへのLLMsの応用に焦点を当て、このギャップを埋めることを目的とする。1994年から2024年までの国連安全保障理事会(UNSC)の公開記録、すなわち決議案草案、投票記録、外交演説を含む新たなデータセットを紹介する。このデータセットを用いて、我々は国連ベンチマーク(UNBench)を提案する。これは、LLMsを4つの相互に関連する政治学的タスク——共同提案者判定、代表投票シミュレーション、草案採択予測、代表声明生成——にわたって評価する初の包括的ベンチマークである。これらのタスクは、国連の意思決定プロセスの3つの段階——草案作成、投票、議論——にまたがり、LLMsが政治的なダイナミクスを理解しシミュレートする能力を評価することを目指す。我々の実験分析は、この領域におけるLLMsの応用の可能性と課題を示し、政治学における強みと限界に関する洞察を提供する。本研究は、AIと政治学の交差点をさらに広げ、グローバルガバナンスにおける研究と実践的な応用の新たな道を開くものである。UNBenchリポジトリは以下からアクセス可能である:https://github.com/yueqingliang1/UNBench。
DNA配列から遺伝子発現を予測する問題を考察する。この課題の主要な難点は、遺伝子発現を制御する調節要素を見つけ出すことである。本論文では、Seq2Expを紹介する。これは、標的遺伝子の発現を駆動する調節要素を発見し抽出するために明示的に設計された、配列から発現へのネットワークであり、遺伝子発現予測の精度を向上させる。我々のアプローチは、エピゲノムシグナル、DNA配列、およびそれらに関連する調節要素間の因果関係を捉える。具体的には、因果的に活性化された調節要素に基づいてエピゲノムシグナルとDNA配列を分解し、ベータ分布を用いた情報ボトルネックを適用して、それらの効果を組み合わせつつ非因果的要素を除去する。実験により、Seq2Expが遺伝子発現予測タスクにおいて既存のベースラインを上回り、MACS3などの一般的に使用されるピーク検出の統計手法と比較して影響力のある領域を発見することを示す。ソースコードはAIRSライブラリ(https://github.com/divelab/AIRS/)の一部として公開されている。
ユーザー仕様や法的枠組みでは、事前学習済みモデル、特に大規模言語モデル(LLM)から情報を削除する必要が生じることがあります。これには、既に訓練済みのモデルから一連のデータポイントを削除または「忘却」させることが含まれますが、これにより他のデータポイントに対するモデルの性能が低下するのが一般的です。したがって、情報の削除とモデルの他の能力の維持の間でバランスを取る必要があり、このトレードオフを適切に調整できないと、削除が不十分になるか、モデルが使用不能になる可能性があります。この目的のために、我々はUPCORE(Utility-Preserving Coreset Selection)を提案します。これは、忘却時の副次的ダメージを軽減するための手法に依存しないデータ選択フレームワークです。モデルのダメージが忘却セットに対するモデルの表現の分散と相関していることを発見し、我々は忘却セットから外れ値を選択的に除去することで、忘却後のモデルの劣化を最小限に抑えます。UPCOREを3つの標準的な忘却手法で評価し、削除効果とモデル保存の競合する目的の間で優れたバランスを一貫して達成することを確認しました。このトレードオフをより適切に評価するために、標準的な指標にわたる曲線下面積(AUC)を測定する新しい指標を導入しました。UPCOREは、標準的な指標とAUCの両方を改善し、コアセットと除去されたポイント間の正の転移の恩恵を受けながら、忘却セットからそれ以外のポイントへの負の転移を減少させることがわかりました。
深層学習はリモートセンシング画像の変化検出(CD)分野において大きな成功を収めているが、依然として2つの主要な課題が残されている。それは、サブメートル級で包括的なオープンソースCDデータセットの不足と、変化領域が異なる画像間で一貫して満足のいく検出結果を得ることの難しさである。これらの課題に対処するため、我々はJL1-CDデータセットを提案する。このデータセットは、解像度0.5~0.75メートルの512×512ピクセルの画像ペア5,000組を含む。さらに、CDのためのマルチティーチャー知識蒸留(MTKD)フレームワークを提案する。JL1-CDおよびSYSU-CDデータセットを用いた実験結果は、MTKDフレームワークが様々なネットワークアーキテクチャとパラメータサイズのCDモデルの性能を大幅に向上させ、新たな最先端の結果を達成することを示している。コードはhttps://github.com/circleLZY/MTKD-CDで公開されている。
本研究では、大規模言語モデル(LLM)の感情的境界処理能力を評価するためのオープンソースのベンチマークおよび評価フレームワークを提案する。6言語にわたる1156のプロンプトからなるデータセットを用いて、GPT-4o、Claude-3.5 Sonnet、Mistral-largeの3つの主要なLLMを、パターンマッチングによる応答分析を通じて適切な感情的境界を維持する能力について評価した。本フレームワークは、直接的な拒否、謝罪、説明、回避、承認、境界設定、感情認識という7つの主要なパターンに基づいて応答を定量化する。結果は、境界処理アプローチに顕著なばらつきがあることを示し、Claude-3.5が最高の総合スコア(8.69/10)を達成し、より長くニュアンスのある応答を生成した(平均86.51語)。英語(平均スコア25.62)と非英語の相互作用(< 0.22)の間に大きなパフォーマンスギャップが確認され、英語の応答では拒否率が顕著に高かった(43.20% vs. 非英語の< 1%)。パターン分析により、Mistralの回避傾向(4.2%)や全モデルにわたる一貫して低い共感スコア(< 0.06)など、モデル固有の戦略が明らかになった。制約事項として、パターンマッチングによる過度の単純化、応答分析における文脈理解の欠如、複雑な感情応答の二値分類が挙げられる。今後の研究では、よりニュアンスのある評価方法の探求、言語カバレッジの拡大、感情的境界に対する文化的差異の調査が求められる。本ベンチマークおよび方法論は、LLMの感情的知能および境界設定能力の体系的な評価の基盤を提供する。