翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬を用いた強化学習(RLVR)は最近、特に数学やプログラミングタスクにおいて、大規模言語モデル(LLM)の推論能力を向上させることに顕著な成功を収めています。RLVRはLLMが継続的に自己改善し、対応するベースモデルの能力を超える新たな推論能力を獲得できると広く信じられています。しかし、本研究ではこの仮定を批判的に再検証し、大きなk値でのpass@kメトリックを測定することで、様々なモデルファミリーとベンチマークにわたるモデルの推論能力の限界を探ります。驚くべきことに、RLは実際には根本的に新しい推論パターンを引き出しません。RLで訓練されたモデルは小さいk値(例:k=1)ではベースモデルを上回りますが、大きなk値ではベースモデルがRLモデルと同等またはそれ以上のpass@kスコアを達成できます。RLで訓練されたモデルが生成する推論パスは、ベースモデルのサンプリング分布に既に含まれており、RLモデルに現れる推論能力のほとんどはベースモデルによって既に獲得されていることが示唆されます。さらに分析すると、RL訓練は報酬を得る可能性が高いパスに向けてモデルの出力分布を偏らせることで性能を向上させ、正しい応答をより効率的にサンプリングします。しかし、これによりベースモデルと比較して推論能力の限界が狭まります。RLVRで訓練された視覚推論タスクでも同様の結果が観察されます。さらに、蒸留はRLVRとは異なり、モデルに真に新しい知識を導入できることが分かります。これらの発見は、LLMの推論能力を進歩させる上でのRLVRの重要な限界を強調し、推論LLMにおけるRL訓練の影響とより良いパラダイムの必要性を根本的に再考することを求めています。プロジェクトページ: https://limit-of-RLVR.github.io
検索拡張生成(RAG)は、大規模言語モデルが外部およびプライベートなコーパスにアクセスすることを可能にし、特定のドメインにおいて事実に基づいた一貫性のある応答を実現します。グラフベースのRAG手法は、コーパスの内在的な構造を活用し、知識グラフインデックスを構築し、グラフの構造的特性を利用することで、このプロセスをさらに豊かにします。しかし、現在のグラフベースのRAGアプローチでは、グラフ構造の設計が十分に重視されていません。不適切に設計されたグラフは、多様なグラフアルゴリズムのシームレスな統合を妨げるだけでなく、ワークフローの不整合や性能の低下を引き起こします。グラフのRAGにおける潜在能力をさらに引き出すために、我々はNodeRAGを提案します。これは、グラフ中心のフレームワークであり、異種グラフ構造を導入することで、グラフベースの手法をRAGワークフローにシームレスかつ包括的に統合することを可能にします。このフレームワークは、LLMの能力に密接に連携することで、完全に一貫性があり効率的なエンドツーエンドプロセスを保証します。広範な実験を通じて、NodeRAGが、GraphRAGやLightRAGなどの従来の手法に対して、インデックス作成時間、クエリ時間、ストレージ効率だけでなく、マルチホップベンチマークや最小限の検索トークンを使用したオープンエンドのヘッドツーヘッド評価においても優れた質問応答性能を示すことを実証しました。我々のGitHubリポジトリは、https://github.com/Terry-Xu-666/NodeRAG でご覧いただけます。
データの品質と多様性は、効果的な指示チューニングデータセットの構築において重要な要素です。オープンソースの指示チューニングデータセットが増えている中、大量のデータから高品質で多様なサブセットを自動的に選択することが有利です。既存の手法では、通常インスタンスの品質を優先し、多様性を維持するためにヒューリスティックなルールを使用します。しかし、コレクション全体を包括的に見ることができないため、しばしば最適ではない結果が得られます。さらに、ヒューリスティックなルールは一般に埋め込み空間内の距離やクラスタリングに焦点を当てており、意味空間における複雑な指示の意図を正確に捉えることができません。このギャップを埋めるために、データセットの情報量を定量化する統一的な手法を提案します。この手法は、ラベルグラフを構築して意味空間をモデル化し、グラフ内の情報分布に基づいて多様性を定量化します。この測定に基づいて、意味空間における情報利得(MIG)を最大化するために、データサンプルを反復的に選択する効率的なサンプリング手法をさらに導入します。様々なデータセットとベースモデルでの実験により、MIGが最先端の手法を一貫して上回ることが実証されています。特に、MIGによってサンプリングされた5%のTulu3データでファインチューニングされたモデルは、フルデータセットでトレーニングされた公式のSFTモデルと同等の性能を達成し、AlpacaEvalでは+5.73%、Wildbenchでは+6.89%の改善が見られました。
先行研究によれば、大規模言語モデルには顕著な「英語バイアス」が存在し、タスクが英語で提示された場合にしばしば優れた性能を発揮することが示されています。興味深いことに、私たちは推論タスクにおいて特定の他の言語を使用することで、英語よりも優れた性能が得られる場合があることを観察しました。しかし、この現象はまだ十分に探究されていません。本論文では、推論タスクにおける多言語活用の上限を探り、多言語推論が英語のみの推論に比べて大幅に(Acc@kポイントで約10ポイント)かつ堅牢に(翻訳品質と言語選択の変動に対する耐性)高い上限を約束することを示唆します。この上限の背後にある理由と、それに到達する際の課題を分析するだけでなく、一般的な回答選択方法がその限界とバイアスのためにこの上限を達成できないことも明らかにしました。これらの知見は、LLMにおける多言語推論の可能性を最大限に活用するための今後の研究の道を開く可能性があります。
地上視点と空中視点の混合で撮影された画像の幾何学的再構成タスクを探求する。現在の最先端の学習ベースのアプローチでは、空中-地上画像ペア間の極端な視点の変化に対処できない。我々の仮説は、高品質で共同登録された空中-地上データセットの訓練用データの不足が、この失敗の主要な原因であるという。そのようなデータは、スケーラブルな方法で再構成することが難しいため、組み立てることが困難である。この課題を克服するために、3D都市全体メッシュ(例:Google Earth)からの疑似合成レンダリングと、地上レベルのクラウドソーシングされた実画像(例:MegaDepth)を組み合わせたスケーラブルなフレームワークを提案する。疑似合成データは広範囲の空中視点をシミュレートし、実画像のクラウドソーシングデータは、メッシュベースのレンダリングが十分な詳細を欠く地上レベル画像の視覚的忠実度を向上させ、実画像と疑似合成レンダリングの間のドメインギャップを効果的に埋める。このハイブリッドデータセットを使用して、いくつかの最先端アルゴリズムをファインチューニングし、実世界のゼロショット空中-地上タスクで大幅な改善を達成した。例えば、ベースラインのDUSt3Rは、カメラ回転誤差5度以内で5%未満の空中-地上ペアを位置特定するが、我々のデータでファインチューニングすると精度が約56%に向上し、大きな視点変化の処理における主要な失敗点に対処する。カメラ推定とシーン再構成を超えて、我々のデータセットは、挑戦的な空中-地上シナリオでの新規視点合成などの下流タスクのパフォーマンスも向上させ、実世界のアプリケーションにおける我々のアプローチの実用的価値を示す。
効率的で効果的なアーキテクチャのバックボーンを設計することは、基盤モデルの能力を向上させるための研究努力の核心に位置づけられてきた。人間の認知現象である注意バイアス(特定の事象や刺激を優先する自然な傾向)に着想を得て、我々はTransformer、Titans、そして現代的な線形リカレントニューラルネットワークを含むニューラルアーキテクチャを、内部目的(注意バイアスと呼ばれる)を用いてキーと値のマッピングを学習する連想記憶モジュールとして再概念化した。驚くべきことに、既存のシーケンスモデルのほとんどが、(1) ドット積類似度、または (2) L2回帰目的のいずれかを注意バイアスとして利用していることが観察された。これらの目的を超えて、我々は代替的な注意バイアス設定とその効果的な近似法を提示し、それらの訓練手順を安定化させた。さらに、現代の深層学習アーキテクチャにおける忘却メカニズムを保持正則化の一形態として再解釈し、シーケンスモデルのための新しい忘却ゲートを提案した。これらの洞察に基づいて、我々はMirasという深層学習アーキテクチャを設計するための一般的なフレームワークを提示する。Mirasは、(i) 連想記憶アーキテクチャ、(ii) 注意バイアス目的、(iii) 保持ゲート、(iv) 記憶学習アルゴリズムの4つの選択肢に基づいて構築される。我々は、既存の線形RNNの能力を超えながら、高速で並列化可能な訓練プロセスを維持する3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。実験結果は、Mirasにおける異なる設計選択が、様々な強みを持つモデルを生み出すことを示している。例えば、Mirasの特定のインスタンスは、言語モデリング、常識推論、リコール集約型タスクなどの特殊なタスクにおいて卓越した性能を発揮し、Transformerや他の現代的な線形リカレントモデルを凌駕することさえある。
大規模言語モデル(LLM)の知識境界を理解することは、幻覚(hallucination)を防ぐ上で重要であるが、これまでのLLMの知識境界に関する研究は主に英語に焦点を当ててきた。本研究では、複数の言語における既知および未知の質問を処理する際の内部表現を探ることで、LLMが異なる言語間で知識境界をどのように認識するかを分析する初めての研究を提示する。我々の実証研究から、以下の3つの主要な知見が得られた:1)LLMの知識境界の認識は、異なる言語においても中間層から中上位層にエンコードされている。2)知識境界認識における言語間の差異は線形構造に従い、これに基づいて我々は訓練不要のアライメント手法を提案し、低リソース言語における幻覚リスクを低減するために、言語間で知識境界認識能力を効果的に転移させる。3)二言語間の質問ペア翻訳に対するファインチューニングは、LLMの言語間での知識境界認識をさらに向上させる。言語横断的な知識境界分析のための標準的なテストベッドが存在しないことを踏まえ、我々は3つの代表的な知識境界データタイプからなる多言語評価スイートを構築した。我々のコードとデータセットは、https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries で公開されている。
第一世代の大規模言語モデル——生成AIの「第一幕」(2020-2023)と呼べるもの——は、膨大なパラメータとデータのスケーリングを通じて驚異的な成功を収めましたが、知識の遅延、浅い推論、制約された認知プロセスといった根本的な限界も露呈しました。この時代において、プロンプトエンジニアリングはAIとの主要なインターフェースとして登場し、自然言語を通じた対話レベルのコミュニケーションを可能にしました。現在、私たちは「第二幕」(2024年以降)の出現を目撃しています。ここでは、モデルが(潜在空間における)知識検索システムから、テストタイムスケーリング技術を介した思考構築エンジンへと移行しつつあります。この新しいパラダイムは、言語ベースの思考を通じてAIとのマインドレベルの接続を確立します。本論文では、認知エンジニアリングの概念的基盤を明確にし、なぜこの瞬間がその発展にとって重要なのかを説明します。包括的なチュートリアルと最適化された実装を通じて、これらの先進的なアプローチを体系的に分解し、認知エンジニアリングへのアクセスを民主化し、すべての実践者がAIの第二幕に参加できるようにします。テストタイムスケーリングに関する論文の定期的に更新されるコレクションをGitHubリポジトリで提供しています:https://github.com/GAIR-NLP/cognition-engineering
相反する価値観が絡む重大なジレンマを乗り越えることは、人間にとっても困難であり、ましてやAIにとってはなおさらです。しかし、これまでの大規模言語モデル(LLM)の推論能力を評価する研究は、日常的なシナリオに限定されていました。このギャップを埋めるため、本研究ではまずCLASH(Character perspective-based LLM Assessments in Situations with High-stakes)を導入します。これは、345の高インパクトなジレンマと、多様な価値観に基づく3,795の個別の視点からなる、厳選されたデータセットです。特に、CLASHは、意思決定における葛藤や心理的不快の理解、キャラクターの視点における価値観の時間的変化の把握など、これまでの研究で欠けていた価値観に基づく意思決定プロセスの重要な側面を研究するために設計されています。10のオープンおよびクローズドなフロンティアモデルをベンチマークすることで、いくつかの重要な発見を得ました。(1) GPT-4oやClaude-Sonnetのような最強のモデルでさえ、意思決定が葛藤すべき状況を特定する精度は50%未満であり、明確なシナリオでは大幅に優れた性能を示します。(2) LLMは、人間が示す心理的不快を合理的に予測する一方で、価値観の変化を含む視点を十分に理解できておらず、複雑な価値観を推論する必要性が示されています。(3) 実験では、LLMの価値観の選好と、特定の価値観への誘導可能性との間に有意な相関があることも明らかになりました。(4) 最後に、LLMは、一人称設定と比較して、第三者視点から価値観を推論する際に、より高い誘導可能性を示しますが、特定の価値観のペアでは一人称フレーミングが独自の利点をもたらすこともわかりました。
シーンレベルの3D生成は、マルチメディアとコンピュータグラフィックスにおける重要なフロンティアである。しかし、既存のアプローチでは、オブジェクトのカテゴリが限られているか、インタラクティブアプリケーションのための編集柔軟性が欠如している。本論文では、2D画像生成と3Dオブジェクト生成のギャップを埋め、構成要素の識別性と美的シーンコンテンツを備えた高精細なシーンを提供する、新しい階層的フレームワークであるHiSceneを提案する。我々の重要な洞察は、シーンを等角投影図における階層的な「オブジェクト」として扱うことであり、部屋をさらに操作可能なアイテムに分解できる複雑なオブジェクトとして機能させる。この階層的アプローチにより、2D表現と整合する3Dコンテンツを生成しつつ、構成構造を維持することが可能となる。各分解インスタンスの完全性と空間的整合性を確保するために、オクルージョンと影を効果的に処理するビデオ拡散ベースのアモーダル補完技術を開発し、シーン内の空間的整合性を保証する形状事前注入を導入する。実験結果は、我々の手法が物理的な妥当性とユーザー入力との整合性を維持しつつ、インタラクティブアプリケーションに適したより自然なオブジェクト配置と完全なオブジェクトインスタンスを生成することを示している。
グローバルな文脈情報とローカルな詳細特徴は、かすみ除去タスクにおいて不可欠である。深層学習モデルは、小さな低解像度の画像では良好な性能を発揮するが、GPUメモリの制約により、大きな高解像度の画像では困難に直面する。妥協策として、画像のスライス化やダウンサンプリングがしばしば採用される。前者はグローバルな情報を減らし、後者は高周波の詳細を捨ててしまう。これらの課題に対処するため、我々はDehazeXLを提案する。これは、グローバルな文脈とローカルな特徴抽出を効果的にバランスさせ、主流のGPUハードウェア上で大規模画像のエンドツーエンドモデリングを可能にするかすみ除去手法である。さらに、かすみ除去性能におけるグローバルな文脈利用の効率を評価するため、かすみ除去タスクの特性に合わせた視覚的帰属手法を設計した。最後に、大規模画像のかすみ除去のためのベンチマークデータセットの不足を認識し、モデルのトレーニングとテストを支援するために超高解像度のかすみ除去データセット(8KDehaze)を開発した。これには、8192×8192ピクセルのクリアな画像とかすみ画像のペアが10000組含まれている。大規模な実験により、DehazeXLがわずか21GBのメモリで10240×10240ピクセルの画像を推論し、評価された全ての手法の中で最先端の結果を達成できることが示された。ソースコードと実験データセットはhttps://github.com/CastleChen339/DehazeXLで公開されている。
大規模推論モデル(LRM)の最近の進展により、推論能力を向上させるためにテスト時の計算をスケーリングすることの有効性が、複数のタスクで実証されています。しかし、LRMは通常「過剰思考」の問題に悩まされており、モデルが大幅に冗長な推論ステップを生成する一方で、性能向上は限定的です。既存の研究では、過剰思考を軽減するためにファインチューニングに依存していますが、これには追加のデータ、非標準的なトレーニング設定、リスクのある安全性の不整合、そして汎化性能の低さが伴います。 実証分析を通じて、私たちはLRMの動作における重要な特性を明らかにしました。それは、より小さなモデルによって生成された外部の連鎖的思考(CoT)を思考トークン(<think>と</think>)の間に配置することで、モデルがより少ない思考を生成するように効果的に操作できるというものです。これらの洞察に基づいて、私たちはThoughtManiというシンプルで効率的なパイプラインを提案し、LRMが不要な中間ステップを回避し、計算コストを大幅に削減できるようにします。ThoughtManiの有用性と効率性を検証するために、広範な実験を行いました。例えば、LiveBench/CodeデータセットでQwQ-32Bに適用した場合、ThoughtManiは元の性能を維持しつつ、出力トークン数を約30%削減し、CoTジェネレーターからのオーバーヘッドはほとんどありませんでした。さらに、ThoughtManiは安全性の整合性を平均10%向上させることがわかりました。モデルベンダーは通常、異なるサイズのモデルを同時に提供するため、ThoughtManiは実世界のアプリケーション向けにより効率的でアクセスしやすいLRMを構築するための効果的な方法を提供します。
経済におけるAIシステムの広範な採用は、その推論コストを上回る経済的価値を生み出す能力にかかっている。このトレードオフを評価するには、性能とコストの両方を考慮した指標が必要である。我々は、精度と推論コストを組み合わせて言語モデルを評価するための、生産理論に基づいたフレームワークを提案する。ここで「コスト・オブ・パス」を、正しい解を生成するための期待金銭コストとして導入する。次に、「フロンティア・コスト・オブ・パス」を、利用可能なモデル全体で達成可能な最小のコスト・オブ・パス、または専門家を雇用する際の概算コストとして定義する。我々の分析は、いくつかの明確な経済的洞察を明らかにする。第一に、軽量モデルは基本的な定量的タスクで最もコスト効率が高く、大規模モデルは知識集約型タスクで、推論モデルは複雑な定量的問題で、トークンあたりのコストが高いにもかかわらず、最もコスト効率が高い。第二に、過去1年間にわたるこのフロンティア・コスト・オブ・パスの追跡は、特に複雑な定量的タスクにおいて、数ヶ月ごとにコストがほぼ半減するという著しい進歩を示している。第三に、この進歩を牽引する主要なイノベーションを追跡するために、特定のモデルクラスがない場合のコスト効率を推定する「反事実的フロンティア」を検証する。軽量モデル、大規模モデル、推論モデルにおけるイノベーションが、それぞれ基本的な定量的タスク、知識集約型タスク、複雑な定量的タスクにおけるフロンティアを押し上げるために不可欠であったことがわかる。最後に、多数決や自己改善といった一般的な推論時技術によるコスト削減効果を評価し、それらの限界的な精度向上がコストを正当化することは稀であることを明らかにする。我々の知見は、補完的なモデルレベルのイノベーションがコスト効率の主要な推進力であることを強調し、我々の経済的フレームワークは、この進歩を測定し展開を導くための原則的なツールを提供する。
大規模ビデオ言語モデル(LVLM)の最近の進展にもかかわらず、これらのモデルは依然として細かい時間的理解に苦戦し、幻覚を起こし、単純なビデオ質問応答タスクでさえ簡単なミスを犯すことが多く、これらは実世界のアプリケーションにおける安全で信頼性の高い展開に重大な課題を提起しています。これらの制限に対処するため、我々はLVLMが自身の誤りから学習することを可能にする自己整合フレームワークを提案します。提案するフレームワークはまず、好ましい応答と好ましくない応答のペアのトレーニングセットを取得します。ここで、好ましくない応答は、不十分な時空間的理解、共起する概念間の誤った相関、視覚モダリティを無視した言語的キューへの過度の依存などによって頻繁に発生する一般的なエラーパターンを組み込んで生成されます。構築された好ましい応答と好ましくない応答のペアを用いてLVLMの自己整合を促進するために、我々はRefined Regularized Preference Optimization(RRPO)を導入します。これは、Direct Preference Optimization(DPO)の限界を解決するために、サブシーケンスレベルの洗練された報酬とトークンレベルのKL正則化を利用する新しい選好最適化手法です。我々は、RRPOがDPOと比較してより正確な整合とより安定したトレーニングを達成することを実証します。我々の実験と分析は、ビデオ幻覚、短編および長編ビデオの理解、細かい時間的推論を含む多様なビデオタスクにおけるアプローチの有効性を検証します。
言語モデル(LM)における不確実性定量化(UQ)は、その安全性と信頼性を向上させる上で極めて重要です。評価では、AUROCなどのパフォーマンス指標を用いて、UQ手法(例:負の系列確率)がタスクの正解関数(例:ROUGE-L)とどの程度相関しているかを測定することが一般的です。本論文では、広く使用されている正解関数が特定のUQ手法の性能を過大評価することで、UQ評価にバイアスをかけていることを示します。我々は、4つのデータセット×4つのモデル×6つのUQ手法に対して、語彙ベースおよび埋め込みベースの指標からLLM-as-a-judgeアプローチまで、7つの正解関数を評価しました。分析の結果、これらの正解関数の誤差における長さバイアスが、UQ手法の長さバイアスと相互作用することで、UQ評価を歪めていることが明らかになりました。我々は、LLM-as-a-judgeアプローチが最も長さバイアスの少ない選択肢の一つであり、これらのバイアスを軽減するための潜在的な解決策であることを特定しました。
低線量CTにおいて、効果的なノイズ除去は微細な構造や低コントラスト病変を強調し、診断ミスを防ぐために重要です。教師あり手法は限られたペアデータセットに苦戦し、自己教師あり手法は複数のノイズ画像を必要とし、U-Netのような深層ネットワークに依存するため、ノイズ除去メカニズムの洞察がほとんど得られません。これらの課題に対処するため、我々は解釈可能な自己教師あり単一画像ノイズ除去フレームワーク「Filter2Noise(F2N)」を提案します。本手法では、軽量なモジュールを通じて各ノイズ入力を適応させる「Attention-Guided Bilateral Filter」を導入し、空間的に変化するフィルタパラメータを予測します。これらのパラメータは可視化され、トレーニング後に調整可能で、特定の関心領域におけるユーザー制御のノイズ除去を実現します。単一画像でのトレーニングを可能にするため、新しいダウンサンプリングシャッフル戦略と、Noise2Noiseの概念を単一画像に拡張し、空間的に相関するノイズに対処する新しい自己教師あり損失関数を導入します。Mayo Clinic 2016低線量CTデータセットにおいて、F2Nは主要な自己教師あり単一画像手法(ZS-N2N)を4.59 dB PSNRで上回り、透明性、ユーザー制御、パラメータ効率を向上させます。これらの特徴は、精密で解釈可能なノイズ除去を必要とする医療アプリケーションにおいて重要な利点を提供します。我々のコードはhttps://github.com/sypsyp97/Filter2Noise.gitで公開されています。