翻訳付きの日次キュレーションされたAI研究論文
Text-to-SQLは、自然言語クエリをSQL文に変換することを目的としており、誰でも簡単にデータベースから必要な情報を取得できるようにする実用的な技術である。近年、多くの既存のアプローチが大規模言語モデル(LLMs)を活用してこの問題に取り組んでおり、ユーザークエリの理解と対応するSQLコードの生成における強力な能力を利用している。しかし、LLMsのパラメトリックな知識は、多様でドメイン固有のクエリをカバーするには限界があり、特にさまざまなデータベーススキーマに基づくクエリに対しては、生成されるSQLの精度が低くなる場合がある。この問題に対処するため、我々はText-to-SQLのための知識ベースを構築し、与えられたクエリに対して必要な知識を取得・生成する基盤となる知識源を提案する。特に、既存のアプローチが手動で知識を注釈付けするか、各クエリに対してわずかな知識しか生成しないのに対し、我々の知識ベースは包括的であり、利用可能なすべての質問とそれに関連するデータベーススキーマ、および関連知識を組み合わせて構築され、異なるデータセットやドメインからの未見のデータベースにも再利用可能である。我々は、複数のText-to-SQLデータセットにおいて、データベースが重複する場合と重複しない場合の両方を考慮してアプローチを検証し、関連するベースラインを大幅に上回る結果を示した。
指示追従(Instruction Following, IF)は、大規模言語モデル(LLMs)にとって重要な能力である。しかし、複数の制約を伴う複雑な指示を扱うことは依然として課題となっている。従来の手法では、通常、満たす制約の数に基づいて選好ペアを選択するが、選ばれた例が一部の制約を満たさない場合や、拒否された例が選ばれた例よりも特定の点で優れている場合にノイズが生じる。複数の選好を整合させるという課題に対処するため、我々はReverse Preference Optimization(RPO)と呼ばれるシンプルかつ効果的な手法を提案する。RPOは、指示内の制約を動的に反転させることで、選ばれた応答が完璧であることを保証し、完璧な応答を収集するための広範なサンプリングとフィルタリングの負担を軽減する。さらに、反転は選ばれた応答と拒否された応答の間のギャップを拡大し、最適化の方向を明確にし、ノイズに対するロバスト性を高める。我々はRPOを2つのマルチターンIFベンチマーク、SysbenchとMulti-IFで評価し、DPOベースラインに対してそれぞれ4.6ポイントと2.5ポイント(Llama-3.1 8Bにおいて)の平均的な改善を示した。さらに、RPOはモデルサイズ(8Bから70Bパラメータ)にわたって効果的にスケールし、70BのRPOモデルはGPT-4oを上回った。
本論文は、大規模言語モデル(LLM)を用いた推論における強化学習(RL)のスケーリングにおける主要な障害、すなわちポリシーエントロピーの崩壊を克服することを目的としています。この現象は、エントロピー介入なしの広範なRL実行において一貫して観察され、ポリシーエントロピーが訓練の初期段階で急激に低下し、この探索能力の低下は常にポリシーパフォーマンスの飽和を伴います。実際に、我々はエントロピーHと下流パフォーマンスRの間に変換式R=-a*e^H+bを確立しました。この経験則は、ポリシーパフォーマンスがポリシーエントロピーとトレードオフの関係にあり、その枯渇によってボトルネックが生じ、上限が完全に予測可能であることを強く示唆しています(H=0, R=-a+b)。この発見は、RLの計算リソースをスケールさせるための継続的な探索のためにエントロピー管理が必要であることを示しています。この目的のために、我々はエントロピー動態を理論的および経験的に調査しました。我々の導出は、ポリシーエントロピーの変化が、アクション確率とロジットの変化の共分散によって駆動され、Policy Gradientのようなアルゴリズムを使用する場合にそのアドバンテージに比例することを強調しています。経験的研究は、共分散項とエントロピー差の値が正確に一致し、理論的結論を支持することを示しています。さらに、共分散項は訓練全体を通じてほとんど正の値を保ち、ポリシーエントロピーが単調に減少する理由をさらに説明しています。エントロピー動態の背後にあるメカニズムを理解することで、我々は高共分散トークンの更新を制限することでエントロピーを制御することを動機付けました。具体的には、Clip-CovとKL-Covという2つのシンプルでありながら効果的な手法を提案し、それぞれ高共分散トークンをクリップし、KLペナルティを適用します。実験結果は、これらの手法が探索を促進し、ポリシーがエントロピー崩壊から脱却し、より良い下流パフォーマンスを達成するのに役立つことを示しています。
LLMベースのエージェントは、ソフトウェアエンジニアリング(SWE)タスクの幅広い領域で有望な能力を示しています。しかし、この分野を進展させるには、2つの重要な課題があります。第一に、高品質なトレーニングデータが不足しており、特に現実世界のSWEシナリオを反映したデータが不足しています。これらのシナリオでは、エージェントが開発環境と対話し、コードを実行し、その行動の結果に基づいて適応する必要があります。既存のデータセットは、ワンショットのコード生成に限定されているか、または小規模で手作業でキュレーションされたインタラクティブタスクのコレクションであり、スケールと多様性の両方が欠けています。第二に、新しいインタラクティブなSWEタスクの不足は、急速に進化するモデルの評価に影響を与えます。静的ベンチマークは、汚染問題によりすぐに時代遅れになるためです。これらの制限に対処するため、我々は、多様なGitHubリポジトリから現実世界のインタラクティブなSWEタスクを継続的に抽出するための新規で自動化されたスケーラブルなパイプラインを導入します。このパイプラインを使用して、我々はSWE-rebenchという公開データセットを構築しました。このデータセットは、21,000以上のインタラクティブなPythonベースのSWEタスクを含み、大規模なSWEエージェントの強化学習に適しています。さらに、SWE-rebenchの方法論を使用して収集された新鮮なタスクの継続的な供給を利用して、エージェント型ソフトウェアエンジニアリングのための汚染フリーのベンチマークを構築します。我々は、このベンチマークでのさまざまなLLMの結果をSWE-bench Verifiedの結果と比較し、いくつかの言語モデルの性能が汚染問題により過大評価されている可能性があることを示します。
大規模言語モデル(LLMs)は、驚異的な推論能力を発揮する一方で、多大な推論オーバーヘッドを伴い、実用上の大きな課題を抱えています。蒸留された小規模言語モデル(SLMs)は効率性を大幅に向上させますが、LLMsの推論経路を追従できないため、性能が低下します。幸いなことに、LLMsとSLMsの間で推論経路が真に分岐するトークンはごく一部であることが明らかになりました。生成されるトークンの大部分は同一であるか、略語や表現のわずかな違いといった中立的な差異しか示しません。この知見を活用し、我々は**Roads to Rome (R2R)**を提案します。これは、重要な経路分岐トークンに対してのみLLMsを選択的に利用し、それ以外の大部分のトークン生成はSLMに任せるニューラルトークンルーティング手法です。また、分岐トークンを特定し、軽量ルーターを訓練するためのトークンレベルルーティングラベルを生成する自動データ生成パイプラインを開発しました。R2RをDeepSeekファミリーのR1-1.5BとR1-32Bモデルに適用し、数学、コーディング、QAベンチマークで評価しました。平均活性化パラメータサイズ5.6Bにおいて、R2RはR1-7Bの平均精度を1.6倍上回り、R1-14Bモデルをも凌駕しました。R1-32Bと比較すると、同等の性能を維持しつつ2.8倍のウォールクロック速度向上を実現し、テスト時のスケーリング効率のパレートフロンティアを前進させました。コードはhttps://github.com/thu-nics/R2Rで公開されています。
DeepSeek-R1の成功は、大規模言語モデル(LLM)の推論能力を強化する上で強化学習(RL)が果たす重要な役割を浮き彫りにしています。本研究では、長いChain-of-Thought(CoT)モデルに対して効果的かつスケーラブルなRL実装であるSkywork-OR1を提案します。DeepSeek-R1-Distillモデルシリーズを基盤として、我々のRLアプローチは顕著な性能向上を達成し、32BモデルではAIME24、AIME25、LiveCodeBenchの平均精度を57.8%から72.8%(+15.0%)に、7Bモデルでは43.6%から57.5%(+13.9%)に向上させました。Skywork-OR1-32Bモデルは、AIME24およびAIME25ベンチマークにおいてDeepSeek-R1とQwen3-32Bを上回り、LiveCodeBenchでも同等の結果を達成しました。Skywork-OR1-7BおよびSkywork-OR1-Math-7Bモデルは、同サイズのモデルの中でも競争力のある推論能力を示しています。我々は、トレーニングパイプラインの主要コンポーネントに関する包括的なアブレーションスタディを実施し、その有効性を検証しました。さらに、エントロピー崩壊の現象を徹底的に調査し、エントロピー動態に影響を与える主要な要因を特定し、早期のエントロピー崩壊を緩和することがテスト性能の向上に重要であることを実証しました。コミュニティ研究を支援するため、モデルウェイト、トレーニングコード、およびトレーニングデータセットを完全にオープンソース化しています。
推論型視覚言語モデル(VLMs)は、複雑なマルチモーダルタスクにおいて有望な性能を示しています。しかし、依然として重大な課題に直面しています。これらのモデルは推論エラーに対して非常に敏感であり、大量の注釈付きデータや正確な検証器を必要とし、特定のドメインを超えた汎化に苦労します。これらの制限に対処するため、私たちは推論型VLMsを強化するための戦略として自己修正を探求します。まず、推論型VLMsの自己修正能力を詳細に分析し、主要なギャップを特定します。この分析に基づいて、自己修正および自己改善のトレーニングフレームワークであるSherlockを導入します。Sherlockは、軌跡レベルの自己修正目的関数、視覚的摂動に基づく選好データ構築方法、および選好チューニングのための動的ベータを導入します。モデルがわずか20kのランダムサンプリングされた注釈付きデータを使用して自己修正能力を獲得すると、外部の監督なしで自己改善を続けます。Llama3.2-Vision-11Bモデルを基に構築されたSherlockは、8つのベンチマークで顕著な結果を達成し、直接生成では平均精度64.1、自己修正後では65.4を達成しました。これは、LLaVA-CoT(63.2)、Mulberry(63.9)、およびLlamaV-o1(63.4)を上回り、注釈付きデータの20%未満を使用しています。
マルチモーダル大規模言語モデル(MLLM)のポストトレーニング段階での改善は、通常、教師ありファインチューニング(SFT)または強化学習(RL)に依存しています。しかし、これらの教師あり手法は、高価で手動でアノテーションされたマルチモーダルデータを必要とし、最終的には持続不可能なリソースです。最近の研究では、教師なしポストトレーニングが探求されていますが、その手法は複雑で反復が困難です。本研究では、外部の監督なしで継続的な自己改善を可能にするために、安定かつスケーラブルなオンラインRLアルゴリズムであるGRPOの使用を初めて調査します。我々は、MLLMの教師なしポストトレーニングのためのシンプルでありながら効果的なフレームワークであるMM-UPTを提案します。MM-UPTはGRPOを基盤としており、従来の報酬信号を、複数のサンプル応答に対する多数決に基づく自己報酬メカニズムに置き換えます。実験結果は、MM-UPTがQwen2.5-VL-7Bの推論能力を大幅に向上させることを示しています(例:MathVistaで66.3%→72.9%、We-Mathで62.9%→68.7%)。これは、グラウンドトゥルースラベルなしの標準データセットを使用して達成されました。MM-UPTは、従来の教師なしベースラインを上回り、教師ありGRPOの結果に近づくことさえあります。さらに、MLLM自体によって生成された合成質問を取り入れることで、パフォーマンスをさらに向上させることができることも示しており、スケーラブルな自己改善の有望なアプローチを強調しています。全体として、MM-UPTは、外部の監督なしでMLLMの継続的かつ自律的な強化のための新しいパラダイムを提供します。我々のコードはhttps://github.com/waltonfuture/MM-UPTで公開されています。
現代の単一画像超解像(SISR)モデルは、訓練されたスケールファクターにおいては写真のようなリアルな結果を提供しますが、その範囲を大幅に超えて拡大する場合には性能が低下します。このスケーラビリティのボトルネックに対処するため、我々はChain-of-Zoom(CoZ)を提案します。CoZはモデルに依存しないフレームワークであり、SISRを中間スケール状態の自己回帰的連鎖に分解し、マルチスケールを意識したプロンプトを組み込みます。CoZはバックボーンのSRモデルを繰り返し再利用し、条件付き確率を扱いやすいサブ問題に分解することで、追加の訓練なしに極端な解像度を実現します。高倍率では視覚的な手がかりが減少するため、各ズームステップにビジョン言語モデル(VLM)によって生成されたマルチスケールを意識したテキストプロンプトを追加します。このプロンプト抽出器自体は、Generalized Reward Policy Optimization(GRPO)を使用して批評家VLMで微調整され、テキストガイダンスを人間の好みに合わせます。実験では、CoZでラップされた標準的な4倍拡散SRモデルが、256倍を超える拡大において高い知覚品質と忠実度を達成することが示されています。プロジェクトページ: https://bryanswkim.github.io/chain-of-zoom/
アテンションの効率性は極めて重要です。なぜなら、その時間計算量はシーケンス長に対して二次関数的に増加するからです。SageAttention2は、アテンションにおける行列積(Matmul)を加速するために量子化を活用することでこの課題に対処しています。SageAttention2をさらに高速化するために、FP8 MatmulをFP16で累積する高速な命令を活用することを提案します。この命令は、SageAttention2で使用されているFP8 Matmulよりも2倍高速です。実験結果によると、SageAttention2++はFlashAttentionと比較して3.9倍の高速化を達成しつつ、SageAttention2と同等のアテンション精度を維持しています。これは、SageAttention2++が言語、画像、動画生成を含む様々なモデルを効果的に加速し、エンドツーエンドのメトリクスの損失を無視できるレベルに抑えられることを意味します。コードはhttps://github.com/thu-ml/SageAttentionで公開予定です。
大規模言語モデル(LLM)の最近の進展は、印象的な連鎖的思考推論能力を示しており、その進歩において強化学習(RL)が重要な役割を果たしています。「アハ体験」パターン——モデルが内省を通じて自己修正を示す現象——は、しばしばRLから生じる創発的特性に帰せられますが、我々はまず、これらのパターンがRL訓練前のマルチモーダルLLM(MLLM)にも存在するものの、必ずしも推論性能の向上と相関しないことを実証します。これらの知見を基に、我々はマルチモーダル推論を強化するための二段階アプローチに関する包括的な研究を提示します:(1)構造化された連鎖的思考推論パターンを用いた教師ありファインチューニング(SFT)によるコールドスタート、続いて(2)GRPOによる強化学習を通じてこれらの能力をさらに洗練します。我々の広範な実験は、この組み合わせアプローチが、困難なマルチモーダル推論ベンチマークにおいて、SFTのみまたはRLのみの手法を一貫して上回ることを示しています。結果として得られたモデルは、3Bおよび7BスケールのオープンソースMLLMの中で最先端の性能を達成し、7Bモデルはベースモデルに対して大幅な改善を示し(例:MathVistaで66.3%→73.4%、We-Mathで62.9%→70.4%)、3Bモデルはいくつかの7Bモデルと競合する性能を達成しました。全体として、この研究は高度なマルチモーダル推論モデルを構築するための実践的な指針を提供します。我々のコードはhttps://github.com/waltonfuture/RL-with-Cold-Startで公開されています。
本論文では、RenderFormerを紹介します。これは、三角形ベースのシーン表現から直接画像をレンダリングするニューラルレンダリングパイプラインであり、完全なグローバルイルミネーション効果を実現し、シーンごとのトレーニングやファインチューニングを必要としません。物理中心のアプローチを取る代わりに、レンダリングをシーケンス間変換として定式化します。ここでは、反射特性を持つ三角形を表すトークンのシーケンスが、ピクセルの小さなパッチを表す出力トークンのシーケンスに変換されます。RenderFormerは、2段階のパイプラインを採用しています。第1段階はビュー非依存の段階で、三角形間の光輸送をモデル化します。第2段階はビュー依存の段階で、ビームの束を表すトークンを、第1段階の三角形シーケンスに基づいて対応するピクセル値に変換します。両段階ともトランスフォーマーアーキテクチャに基づいており、最小限の事前制約で学習されます。形状と光輸送の複雑さが異なるシーンにおいて、RenderFormerを実証し評価します。
次トークン予測は、大規模言語モデル(LLM)における推論を可能にする基盤となる学習タスクである。しかし、マルチモーダル大規模言語モデル(MLLM)にビデオ入力に対する時間的推論能力を備えさせる場合、どのような学習タスクを設定すべきだろうか?既存のタスクであるビデオ質問応答は、人間やより強力なMLLMからのアノテーションに依存することが多く、一方でビデオキャプショニングは時間的推論と空間情報を混在させがちである。このギャップを埋めるため、我々は次イベント予測(Next-Event Prediction, NEP)を提案する。これは、将来のビデオセグメントを豊富な自己教師あり信号として活用し、時間的推論を促進する学習タスクである。各ビデオを過去フレームと未来フレームに分割し、MLLMは過去フレームを入力として受け取り、未来フレームから導出されたイベントの要約を予測する。これにより、タスクを完了するためにモデルに時間的推論を行うことを促す。このタスクを支援するため、我々はV1-33Kというデータセットを構築した。これは、多様な実世界のシナリオにわたる33,000の自動抽出されたビデオセグメントから構成される。さらに、時間的推論への影響を調査するため、さまざまなビデオ指示チューニング戦略を探求する。進捗を評価するために、未見の未来イベントを予測する際の一貫性を評価するFutureBenchを導入する。実験により、NEPがMLLMにおける時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供することが検証された。
ディープリサーチシステムは、複雑なクエリに対して包括的で裏付けのあるレポートを生成する、新興のエージェント型情報検索手法を代表するものです。しかし、既存のフレームワークの多くは動的な商用検索APIに依存しており、コストに加えて再現性と透明性の課題を抱えています。これらの制限に対処するため、我々はDeepResearchGymを導入しました。これは、再現可能な検索APIと、ディープリサーチシステムのベンチマークを行うための厳密な評価プロトコルを組み合わせたオープンソースのサンドボックスです。このAPIは、大規模な公開ウェブコーパス(ClueWeb22とFineWeb)を、最先端の密な検索器とDiskANNによる近似最近傍探索を用いてインデックス化します。人気のある商用APIよりも低いレイテンシを実現しつつ、実行間で安定したドキュメントランキングを保証し、研究用途で無料で利用可能です。 ディープリサーチシステムの出力を評価するために、我々はResearchy Questionsベンチマークを拡張し、LLM-as-a-judge評価を通じて自動メトリクスを導入しました。これにより、ユーザーの情報ニーズとの整合性、検索の忠実度、レポートの品質を測定します。実験結果は、DeepResearchGymと統合されたシステムが、商用APIを使用したものと同等の性能を達成し、評価メトリクス間で性能ランキングが一貫していることを示しています。人間による評価研究はさらに、我々の自動プロトコルが人間の選好と一致することを確認し、ディープリサーチシステムの制御された評価を支援するフレームワークの能力を検証しました。我々のコードとAPIドキュメントはhttps://www.deepresearchgym.aiで利用可能です。
エンタープライズ検索システムは、セマンティックなミスマッチや重複する用語体系のため、正確なドメイン固有情報の取得に苦戦することが多い。これらの問題は、ナレッジマネジメント、カスタマーサポート、検索拡張生成エージェントなどの下流アプリケーションの性能を低下させる可能性がある。この課題に対処するため、我々はドメイン固有のエンタープライズデータに特化したスケーラブルなハードネガティブマイニングフレームワークを提案する。本アプローチでは、デプロイされた再ランキングモデルを強化するために、セマンティックに挑戦的だが文脈的には無関係な文書を動的に選択する。 我々の手法は、多様な埋め込みモデルを統合し、次元削減を実行し、計算効率とセマンティック精度を確保しながら独自にハードネガティブを選択する。独自のエンタープライズコーパス(クラウドサービスドメイン)での評価では、最先端のベースラインや他のネガティブサンプリング手法と比較して、MRR@3で15%、MRR@10で19%の大幅な改善を示した。さらに、公開されているドメイン固有データセット(FiQA、Climate Fever、TechQA)での検証により、本手法の汎用性と実世界アプリケーションへの適用性が確認された。
本研究では、Few Shot Domain Adapting Graph (FS-DAG)を提案する。これは、Few-Shot設定における視覚的にリッチな文書理解(VRDU)のためのスケーラブルで効率的なモデルアーキテクチャである。FS-DAGは、モジュール型フレームワーク内でドメイン固有および言語/視覚固有のバックボーンを活用し、最小限のデータで多様な文書タイプに適応する。このモデルは、OCRエラー、誤字、ドメインシフトといった実践的な課題に対してロバストであり、実際の展開において重要な要素である。FS-DAGは9000万パラメータ未満で高い性能を発揮し、計算リソースが限られた情報抽出(IE)タスクにおける複雑な実世界アプリケーションに適している。情報抽出タスクに関する広範な実験を通じて、FS-DAGの能力を実証し、最先端の手法と比較して収束速度と性能の大幅な向上を示す。さらに、本論文は、性能を損なうことなくより小型で効率的なモデルを開発するための継続的な進展を強調する。コード: https://github.com/oracle-samples/fs-dag
大規模言語モデル(LLMs)は驚くべき汎用能力を示していますが、推論などのスキルを強化するには、しばしば膨大な計算リソースが必要であり、その汎化能力を損なう可能性があります。パラメータ効率の良いファインチューニング(PEFT)手法は、リソースを節約する代替手段を提供しますが、通常、アーキテクチャの依存性により、各LLMバックボーンごとに再トレーニングが必要です。これらの課題に対処するため、ここではUniversal Reasoner(UniR)を提案します。UniRは、単一の軽量で構成可能なプラグアンドプレイ型の推論モジュールであり、任意の凍結されたLLMと組み合わせて、専門的な推論能力を付与することができます。具体的には、UniRは報酬を独立した推論モジュールに分解し、事前に定義された報酬を使用して独立してトレーニングを行い、軌跡レベルの信号をトークンレベルのガイダンスに効果的に変換します。一度トレーニングされると、UniRは推論時に任意の凍結されたLLMと組み合わせることができ、その出力ロジットをLLMバックボーンのロジットに単純に加算するだけで済みます。この加算構造は、自然にモジュール構成を可能にします。異なるタスク用にトレーニングされた複数のUniRモジュールを、それらのロジットを合計することで共同で適用することができ、構成を通じて複雑な推論を実現します。数学的推論と機械翻訳タスクにおける実験結果は、UniRがLlama3.2モデルを使用した既存のベースラインファインチューニング手法を大幅に上回ることを示しています。さらに、UniRは強力な弱から強への汎化を示します。より小さなモデルでトレーニングされた推論モジュールが、はるかに大きなLLMを効果的にガイドします。これにより、UniRは、LLMのコア能力を損なうことなく、推論を強化するためのコスト効率が高く、適応性があり、堅牢なソリューションとなります。コードはhttps://github.com/hangeol/UniRでオープンソース化されています。
複雑な現実世界の問題に対処するためには、深い情報探索と多段階の推論が必要です。Deep Researchに代表されるようなエージェントシステムの最近の進展は、自律的な多段階研究の可能性を強調しています。本研究では、データ中心かつトレーニング段階の観点から、エンドツーエンドのエージェント型情報探索エージェントを構築するための統合的なパラダイムを提示します。私たちのアプローチは、以下の4つの主要な段階で構成されています:(1) ブラウジングデータの構築、(2) 軌跡のサンプリング、(3) 効果的なコールドスタートのための教師ありファインチューニング、(4) 汎化能力向上のための強化学習。このフレームワークをReActに基づくウェブエージェント、WebDancerとして具体化しました。挑戦的な情報探索ベンチマークであるGAIAとWebWalkerQAでの実証評価により、WebDancerの優れた性能が示され、私たちのトレーニングパラダイムの有効性が強調されました。さらに、エージェントトレーニングの詳細な分析を通じて、より能力の高いエージェントモデルを開発するための貴重な洞察と体系的な道筋が得られました。コードとデモはhttps://github.com/Alibaba-NLP/WebAgentで公開されます。
高品質な多言語トレーニングデータは、大規模言語モデル(LLM)の効果的な事前学習に不可欠です。しかし、適切なオープンソースの多言語データセットの可用性は依然として限られています。既存の最先端データセットは、主にヒューリスティックなフィルタリング手法に依存しており、そのクロスリンガル転移性とスケーラビリティの両方が制限されています。本論文では、JQLを紹介します。これは、計算需要を大幅に削減しながら、多様で高品質な多言語データを大規模に効率的にキュレーションする体系的なアプローチです。JQLは、事前学習済みの多言語埋め込みに基づく軽量なアノテーターに、LLMのアノテーション能力を蒸留します。これらのモデルは、トレーニング中に見られなかった言語やスクリプトに対しても、堅牢な多言語およびクロスリンガル性能を示します。35の言語で実証的に評価された結果、このアノテーションパイプラインは、Fineweb2のような現在のヒューリスティックフィルタリング手法を大幅に上回りました。JQLは、下流モデルのトレーニング品質を向上させ、データ保持率を増加させることに特に貢献します。本研究は、多言語データキュレーションの実践的な洞察と貴重なリソースを提供し、多言語データセット開発の基準を引き上げます。
自己回帰型言語モデル(LM)は一度に一つのトークンを生成しますが、人間の推論はより高次の抽象化レベル(文、命題、概念)で行われます。この対比から、LMも同様に生のトークン列ではなく構造化された意味単位を推論できるようになるかという中心的な疑問が生じます。本研究では、事前学習済みLMがその学習済み表現を基盤として、そのような抽象的な推論空間に昇華できるかどうかを調査します。我々は、事前学習済みのトークンレベルLMを文空間で動作させるためのフレームワークを提示します。これは、次の文の連続的な埋め込みを自己回帰的に予測することで実現されます。古典的な表現学習に着想を得た2つの埋め込みパラダイムを探求します:1)表面の意味を保存するためにオートエンコーディングを通じて学習される意味的埋め込み、2)予測的構造をエンコードするために次の文予測を通じて学習される文脈的埋め込み。これらを2つの推論体制の下で評価します:離散化推論(各予測埋め込みをテキストにデコードしてから再エンコードする)と連続推論(効率性向上のために埋め込み空間内で完全に推論を行う)。数学、論理、常識、計画の4つの領域において、連続推論下での文脈的埋め込みはChain-of-Thought(CoT)と競合する性能を示し、推論時のFLOPsを平均して半分に削減します。また、スケーラビリティとモジュール適応の初期兆候も提示します。最後に、潜在的な軌跡を可視化するために、中間モデル状態を解釈可能な文にデコードする診断ツールSentenceLensを導入します。全体として、我々の結果は、事前学習済みLMが潜在埋め込み空間内で効果的に抽象的で構造化された推論に移行できることを示唆しています。
近年、Stable Diffusionに代表されるテキストから画像を生成する拡散モデルの隆盛は、360度パノラマ生成への適応研究を刺激してきた。先行研究では、事前学習済みの拡散モデルに対して従来の低ランク適応技術を用いることで、パノラマ画像を生成する可能性が示されている。しかし、透視投影画像とパノラマ画像の間には大きな領域ギャップが存在し、この経験的な成功を可能にする根本的なメカニズムについて疑問が提起されている。本研究では、学習可能なパラメータがパノラマデータに微調整された際に異なる振る舞いを示し、その適応が事前学習済み拡散モデル内の事前知識を活用する何らかの内在的メカニズムを隠蔽しているという仮説を検証する。分析の結果、以下のことが明らかになった:1)注意機構におけるクエリ行列とキー行列は、パノラマ領域と透視投影領域の間で共有可能な共通情報を担っており、パノラマ生成にはあまり関連がないこと、2)バリュー行列と出力重み行列は、事前学習済みの知識をパノラマ領域に適応させることに特化しており、パノラマ生成のための微調整においてより重要な役割を果たすこと。これらの知見を実証するため、UniPanoと呼ばれるシンプルなフレームワークを提案し、将来の研究のための優れたベースラインを確立することを目指す。UniPanoは既存の手法を凌駕するだけでなく、従来のデュアルブランチアプローチと比較してメモリ使用量と学習時間を大幅に削減し、高解像度でのエンドツーエンドのパノラマ生成をスケーラブルに実現する。コードは公開予定である。
人間の革新の特徴は、既存のメカニズムや概念の要素を統合することで独創的なアイデアを生み出す「再結合」のプロセスにある。本研究では、科学文献を自動的に収集し、再結合の事例を大規模に集積した知識ベース(KB)であるCHIMERAを構築した。CHIMERAは、科学者がどのように概念を再結合し、異なる分野からインスピレーションを得ているかを大規模に実証的に探るために利用できるほか、新しい創造的なクロスドメインの方向性を予測する教師あり機械学習モデルの訓練にも使用できる。このKBを構築するために、科学論文のアブストラクトから再結合を抽出する新たな情報抽出タスクを提案し、数百の手動注釈付きアブストラクトからなる高品質なコーパスを収集し、それを用いてLLMベースの抽出モデルを訓練した。このモデルをAI分野の大規模な論文コーパスに適用し、28,000以上の再結合事例を含むKBを生成した。CHIMERAを分析し、AIの異なるサブ領域における再結合の特性を探る。最後に、KBを用いて科学的仮説生成モデルを訓練し、現実世界の研究者がインスピレーションを得る新しい再結合の方向性を予測する。データとコードはhttps://github.cs.huji.ac.il/tomhope-lab/CHIMERAで公開されている。
不確実性下での堅牢なルーティングは現実世界の物流において中心的な課題であるが、ほとんどのベンチマークは静的で理想化された設定を前提としている。本論文では、都市規模での車両ルーティングにおける高精度な確率的ダイナミクスを捉えた初のオープンベンチマークであるSVRPBenchを紹介する。500以上のインスタンスと最大1000の顧客をカバーするこのベンチマークは、現実的な配送条件をシミュレートする:時間依存の渋滞、対数正規分布の遅延、確率的な事故、そして住宅および商業顧客向けの経験に基づいた時間枠である。我々のパイプラインは、複数のデポや複数の車両設定を含む、多様で制約の多いシナリオを生成する。ベンチマークの結果、POMOやAMのような最先端の強化学習ソルバーは分布シフト下で20%以上性能が低下する一方、古典的およびメタヒューリスティックな手法は堅牢性を維持することが明らかになった。再現可能な研究を可能にするため、データセットと評価スイートを公開する。SVRPBenchは、合成された仮定を超えて一般化し、現実世界の不確実性に適応するソルバーの設計をコミュニティに挑戦するものである。
大規模言語モデル(LLM)は、通常、同じプロンプトに対してすべてのユーザーに同一または類似の応答を生成するため、ユーザーの脆弱性が大きく異なる高リスクアプリケーションにおいて重大な安全性リスクを引き起こします。既存の安全性評価は主に、事実性、バイアス、有害性などの文脈に依存しない指標に依存しており、同じ応答がユーザーの背景や状況によって異なるリスクをもたらす可能性があることを見落としています。このギャップを埋めるため、我々はパーソナライズドセーフティを導入し、7つのセンシティブなドメインにわたる14,000のシナリオを含むPENGUINベンチマークを提示します。これには、文脈豊かなバージョンと文脈に依存しないバージョンの両方が含まれます。6つの主要なLLMを評価した結果、パーソナライズされたユーザー情報が安全性スコアを43.2%向上させることが示され、安全性アラインメントにおけるパーソナライゼーションの有効性が確認されました。しかし、すべての文脈属性が同等に安全性向上に寄与するわけではありません。これを解決するため、我々はRAISEを開発しました。これは、ユーザー固有の背景を戦略的に取得するトレーニング不要の2段階エージェントフレームワークです。RAISEは、6つの標準LLMに対して最大31.6%の安全性スコア向上を実現し、平均わずか2.7回のユーザークエリという低いインタラクションコストを維持します。我々の研究結果は、安全性が重要なドメインにおける選択的情報収集の重要性を強調し、モデルの再トレーニングなしにLLMの応答をパーソナライズする実用的なソリューションを提供します。この研究は、普遍的な危害基準を仮定するのではなく、個々のユーザーコンテキストに適応する安全性研究の基盤を確立します。
Transformerアーキテクチャにおいて、トークン\textemdash 生データから導出される離散単位\textemdash は、入力を固定長のチャンクに分割することで形成されます。各トークンはその後、埋め込みにマッピングされ、入力の本質的な情報を保ちつつ並列的な注意計算を可能にします。Transformerの自己注意機構の二次的な計算複雑性のため、トークン削減は主に効率化戦略として用いられてきました。これは特に単一の視覚と言語の領域において、計算コスト、メモリ使用量、推論遅延のバランスを取るのに役立っています。これらの進歩にもかかわらず、本論文では、大規模生成モデルの時代において、トークン削減は従来の効率重視の役割を超えるべきだと主張します。代わりに、我々はそれを生成モデリングにおける基本原理として位置づけ、モデルアーキテクチャと幅広い応用に重大な影響を与えるものとします。具体的には、視覚、言語、マルチモーダルシステムにわたって、トークン削減が以下のことを可能にすると主張します:(i) より深いマルチモーダル統合とアラインメントを促進、(ii) 「過剰思考」や幻覚を軽減、(iii) 長い入力にわたって一貫性を維持、(iv) 訓練の安定性を向上、など。我々はトークン削減を単なる効率化手段以上のものとして再定義します。これにより、アルゴリズム設計、強化学習に基づくトークン削減、文脈内学習のためのトークン最適化、そしてより広範な機械学習や科学分野を含む有望な将来の方向性を概説します。我々は、堅牢性を向上させ、解釈可能性を高め、生成モデリングの目的により良く整合する新しいモデルアーキテクチャと学習戦略を推進する可能性を強調します。
大規模言語モデル(LLMs)が人間とAIの相互作用にますます参加する中、その心の理論(Theory of Mind, ToM)能力、特に動的な心的状態を追跡する能力を評価することが重要となっています。既存のベンチマークは基本的なToM能力を評価していますが、主に心的状態の静的なスナップショットに焦点を当てており、現実世界の社会的相互作用を特徴づける時間的進化を見落としています。本論文では、DynToMという新しいベンチマークを提案します。これは、LLMsが相互に関連するシナリオにおける心的状態の時間的進行を理解し追跡する能力を評価するために特別に設計されています。体系的な4段階のフレームワークを通じて、5,500のシナリオと78,100の質問を含む1,100の社会的コンテキストを生成し、それぞれが現実性と品質について検証されています。10の最先端LLMsを包括的に評価した結果、その平均性能は人間よりも44.7%低く、特に心的状態の変化を追跡し推論する際に性能が大幅に低下することが明らかになりました。この性能のギャップは、現在のLLMsが人間の心的状態の動的な性質をモデル化する能力に根本的な限界があることを示しています。
私たちは「生成画像を用いた思考」という新しいパラダイムを提案します。これは、大規模マルチモーダルモデル(LMM)が視覚的推論に取り組む方法を根本的に変革し、中間的な視覚的思考ステップを自発的に生成することで、テキストと視覚のモダリティを横断して自然に思考できるようにするものです。現在のLMMを用いた視覚的推論は、ユーザーが提供した固定画像を処理するか、テキストベースの連鎖思考(CoT)のみを通じて推論することに制限されています。「生成画像を用いた思考」は、モデルが中間的な視覚的思考を積極的に構築し、自身の視覚的仮説を批判し、それを推論プロセスの不可欠な要素として洗練するという、新たな認知能力の次元を開拓します。私たちは、以下の2つの補完的なメカニズムを通じてこのアプローチの有効性を実証します:(1)中間的な視覚的サブゴールを用いた視覚生成。ここでは、モデルが複雑な視覚タスクを管理可能なコンポーネントに分解し、それらを段階的に生成・統合します。(2)自己批判を用いた視覚生成。ここでは、モデルが最初の視覚的仮説を生成し、テキストベースの推論を通じてその欠点を分析し、自身の批判に基づいて洗練された出力を生成します。視覚生成ベンチマークでの実験では、ベースラインアプローチに対して大幅な改善が見られ、複雑なマルチオブジェクトシナリオの処理において最大50%(38%から57%)の相対的改善を達成しました。生化学者が新しいタンパク質構造を探求したり、建築家が空間デザインを繰り返し検討したり、法科学者が犯罪現場を再構築したり、バスケットボール選手が戦略的なプレイを構想したりする際に、私たちのアプローチはAIモデルが人間の創造的、分析的、戦略的思考を特徴づけるような視覚的想像力と反復的洗練に従事することを可能にします。私たちはオープンソーススイートをhttps://github.com/GAIR-NLP/thinking-with-generated-imagesで公開しています。
本論文は、強化学習(Reinforcement Learning, RL)を用いて大規模言語モデル(Large Language Model, LLM)エージェントの推論能力を向上させるためのアプローチを探求する。特に、マルコフ決定過程(Markov Decision Process, MDP)として自然にモデル化できる多ターンツール使用シナリオに焦点を当てる。既存のアプローチでは、バンディット設定における軌道レベルのアドバンテージ推定を用いて多ターンLLMエージェントを訓練することが多いが、複数の意思決定ステップにわたるターンレベルのクレジット割り当てに苦戦し、多ターン推論タスクでの性能が制限されている。この問題に対処するため、本論文では、多ターンエージェント間相互作用においてより正確なクレジット割り当てを可能にする、細粒度のターンレベルアドバンテージ推定戦略を提案する。この戦略は汎用的であり、Group Relative Preference Optimization(GRPO)などの様々なRLアルゴリズムに組み込むことができる。GRPO実装を用いた多ターン推論および検索ベースのツール使用タスクにおける実験的評価は、MDPフレームワークとターンレベルクレジット割り当てが、複雑な意思決定設定におけるLLMエージェントの多ターン推論能力を向上させる上で有効であることを示している。提案手法は、ツール実行において100%の成功率を達成し、正確な回答一致において50%の精度を達成し、ベースラインを大幅に上回る結果を示した。ベースラインはツールを起動できず、正確な一致精度も20-30%に留まった。
大規模言語モデル(LLM)は、テスト時のスケーリング手法を通じて顕著な推論能力を示しており、特に強力な大規模推論モデル(LRM)から蒸留された連鎖的思考(CoT)データでファインチューニングされた場合にその能力が発揮されます。しかし、これらの推論連鎖には、人間の問題解決を反映した冗長な要素が含まれることが多く、それらは進行的推論(本質的な解決策の開発経路)と機能的な要素(検証プロセス、代替解決策のアプローチ、エラー修正)に分類されます。進行的推論は重要ですが、機能的な要素はテスト時の推論において計算負荷を大幅に増加させます。本論文では、PIR(Perplexity-based Importance Refinement)を提案します。これは、各推論ステップの重要性を、回答予測の信頼度への影響に基づいて定量的に評価する原則的なフレームワークです。PIRは、低重要度の機能的なステップを体系的に識別し、選択的に刈り込みながら、進行的推論の要素を保持し、核心的な解決経路の整合性を維持しながら冗長性を削減した最適化されたトレーニングデータを生成します。PIR最適化データでファインチューニングされたモデルは、テスト時のスケーリング特性が優れており、より簡潔な推論連鎖を生成しながら、精度を向上させ(+0.9\% から +6.6\%)、トークン使用量を大幅に削減(-3\% から -41\%)することが、挑戦的な推論ベンチマーク(AIME、AMC、GPQA Diamond)で確認されました。本アプローチは、異なるモデルサイズ、データソース、トークン予算において強い汎用性を示し、効率的なテスト時のスケーリング、応答時間、計算効率が重要な制約となるシナリオでの推論能力を持つLLMの実用的なソリューションを提供します。
視覚的に豊富な情報を効果的に検索し、推論し、理解することは、RAG(Retrieval-Augmented Generation)手法にとって依然として課題である。従来のテキストベースの手法では、視覚に関連する情報を扱うことができない。一方、現在の視覚ベースのRAGアプローチは、固定されたパイプラインに制限されることが多く、モデルの基本的な能力が十分に活性化されないため、効果的な推論に苦戦することが多い。RL(強化学習)がモデルの推論に有益であることが証明されていることから、我々は視覚的に豊富な情報にわたる複雑な推論に特化した新しいRLフレームワークであるVRAG-RLを提案する。このフレームワークでは、視覚言語モデル(VLM)が検索エンジンと相互作用し、視覚知覚トークンの助けを借りて単一ターンまたは複数ターンの推論軌跡を自律的にサンプリングし、これらのサンプルに基づいて継続的に最適化を行う。我々のアプローチは、RAG領域におけるRLの主要な限界を強調している:(i)従来のマルチモーダルRAGアプローチは、単に画像をコンテキストに組み込む傾向があり、推論トークンの割り当てが不十分で、視覚固有の知覚を無視している;(ii)モデルが検索エンジンと相互作用する際、そのクエリは要件を明確に表現できないため、関連情報を検索できず、結果として最適でない性能を引き起こす。これらの課題に対処するため、我々は視覚的に豊富な入力に特化したアクション空間を定義し、クロッピングやスケーリングなどのアクションを含めることで、モデルが粗から細かい視点で情報を収集できるようにした。さらに、ユーザーの元の質問と検索エンジンの間のギャップを埋めるために、クエリの書き換えと検索性能をモデルベースの報酬と統合したシンプルかつ効果的な報酬を採用した。我々のVRAG-RLは、特別に設計されたRL戦略を使用してRAGタスクに最適化されたVLMを提供し、モデルを現実世界のアプリケーションに適合させる。コードはhttps://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}で公開されている。
近年のビデオ拡散モデル(VDMs)における3Dカメラ制御のアプローチでは、注釈付きカメラ軌跡に従って推定された点群からレンダリングすることで、構造化された事前情報として拡散モデルを導くためのアンカービデオを作成することが多い。しかし、点群推定に内在する誤差により、不正確なアンカービデオが生成されることが多い。さらに、広範なカメラ軌跡の注釈が必要となるため、リソース要求がさらに増大する。これらの制限に対処するため、本研究では、高価なカメラ軌跡注釈を必要とせずに高品質なアンカービデオを自動的に構築する、効率的かつ精密なカメラ制御学習フレームワークであるEPiCを提案する。具体的には、初フレームの可視性に基づいてソースビデオをマスキングすることで、高精度のアンカービデオをトレーニング用に作成する。このアプローチにより、高い整合性が保証され、カメラ軌跡の注釈が不要となるため、任意の実世界のビデオに容易に適用して画像からビデオ(I2V)のトレーニングペアを生成できる。さらに、アンカービデオのガイダンスを可視領域に統合する軽量な条件付けモジュールであるAnchor-ControlNetを導入し、バックボーンモデルのパラメータの1%未満で事前学習済みのVDMsに組み込む。提案されたアンカービデオデータとControlNetモジュールを組み合わせることで、EPiCは、レンダリングのミスアライメントを緩和するために通常必要とされる拡散モデルのバックボーンを変更することなく、大幅に少ないパラメータ、トレーニングステップ、およびデータで効率的なトレーニングを実現する。マスキングベースのアンカービデオでトレーニングされているにもかかわらず、本手法は推論時に点群で作成されたアンカービデオに対して頑健に一般化し、精密な3D情報に基づくカメラ制御を可能にする。EPiCは、I2Vカメラ制御タスクにおいてRealEstate10KおよびMiraDataでSOTA性能を達成し、定量的および定性的に精密かつ頑健なカメラ制御能力を示す。特に、EPiCはビデオからビデオへのゼロショット一般化においても強力な性能を発揮する。
画像再キャプションは、様々なマルチモーダルタスクのための高品質なトレーニングデータセットを生成するために広く使用されています。既存の再キャプション手法は、強力なマルチモーダル大規模言語モデル(MLLM)を利用してテキスト記述を強化するのが一般的ですが、幻覚や細部の欠落による不正確さや不完全さに悩まされることが多いです。これらの課題を解決するため、我々はRICOという新しいフレームワークを提案します。RICOは、視覚的再構築を通じてキャプションを洗練します。具体的には、テキストから画像へのモデルを活用してキャプションを参照画像に再構築し、MLLMにオリジナル画像と再構築画像の差異を特定させてキャプションを洗練します。このプロセスは反復的に行われ、より忠実で包括的な記述の生成をさらに促進します。反復プロセスによる追加の計算コストを軽減するため、DPOを使用してRICOのようにキャプションを生成するRICO-Flashを導入します。大規模な実験により、我々のアプローチがキャプションの正確性と完全性を大幅に向上させ、CapsBenchとCompreCapの両方でほとんどのベースラインを約10%上回ることが実証されました。コードはhttps://github.com/wangyuchi369/RICOで公開されています。
従来のRLHF(Reinforcement Learning from Human Feedback)は、成功や失敗の背後にある詳細な理由を隠してしまう粗いスカラー報酬を用いて言語モデルを最適化するため、学習が遅く不透明なものとなっていました。最近の研究では、プロンプトやリフレクションを通じてテキスト批評をRLに組み込むことで解釈可能性を向上させていますが、モデルのパラメータ自体は変更されていません。本論文では、自由形式のテキストフィードバックをスパンレベルの勾配に変換する強化学習パラダイムであるText2Gradを紹介します。Text2Gradは、人間(またはプログラムによる)の批評を受け取り、各フィードバックフレーズを関連するトークンスパンにアライメントし、これらのアライメントを微分可能な報酬信号に変換し、モデルのポリシーの問題部分を直接改善する勾配更新を実行します。これにより、全体的な調整ではなく、フィードバックに基づいた精密な調整が可能になります。Text2Gradは、以下の3つのコンポーネントを通じて実現されます:(1) 批評とトークンスパンをペアリングする高品質なフィードバックアノテーションパイプライン、(2) 説明付きの批評を生成しながらスパンレベルの報酬を予測する細粒度報酬モデル、(3) 自然言語勾配を逆伝播するスパンレベルポリシー最適化器。要約、コード生成、質問応答のタスクにおいて、Text2Gradはスカラー報酬RLやプロンプトのみのベースラインを一貫して上回り、より高いタスク指標と豊かな解釈可能性を提供します。我々の結果は、自然言語フィードバックが勾配に変換されるとき、細粒度のポリシー最適化のための強力な信号となることを示しています。本手法のコードはhttps://github.com/microsoft/Text2Gradで公開されています。
視覚言語モデル(VLM)は、通常、比較的小規模な視覚エンコーダと大規模言語モデル(LLM、例:Llama-70B)を組み合わせており、訓練時の主要な計算負荷はデコーダに集中する。コスト削減のため、有望な戦略として、まず小規模な言語モデルを用いて視覚エンコーダを訓練し、その後大規模モデルに転送する方法が考えられる。本研究では、大規模な目標LLMの浅い層を直接継承することで、同じ埋め込み空間と表現言語を共有する小規模な「代理モデル」を構築した。代理モデル上で訓練された視覚エンコーダは、その後、大規模モデルに直接転送可能であり、このプロセスをゼロショットグラフトと呼ぶ。完全なサイズの目標LLMに直接接続された場合、グラフトされたペアはエンコーダと代理モデルのペアを上回り、一部のベンチマークでは、目標LLMを用いた完全なデコーダ訓練と同等の性能を発揮する。さらに、Llama-70Bをデコーダとして使用する場合、本手法による代理モデル訓練はVLMの総訓練コストを約45%削減する。
テキストプロンプトから高品質な多層透明画像を生成することは、新たなレベルのクリエイティブコントロールを可能にし、ユーザーがLLMからのテキスト出力を編集するのと同じくらい簡単に各レイヤーを編集できるようにします。しかし、多層生成モデルの開発は、大規模で高品質な多層透明データのコーパスが存在しないため、従来のテキストから画像へのモデルに遅れを取っています。本論文では、この根本的な課題に対処するために、(i)正確なアルファマットを備えた200K(20K)の多層透明画像からなる初のオープンな超高精細PrismLayers(PrismLayersPro)データセットを公開し、(ii)既存の拡散モデルを使用してオンデマンドでそのようなデータを生成するトレーニング不要の合成パイプラインを導入し、(iii)現代のテキストから画像生成モデルの美学に匹敵する強力なオープンソースの多層生成モデルART+を提供します。主な技術的貢献としては、正確なアルファマットを備えた高品質な単一透明レイヤーを生成するLayerFLUXと、人間が注釈を付けたセマンティックレイアウトに基づいて複数のLayerFLUX出力を完全な画像に構成するMultiLayerFLUXが含まれます。より高い品質を確保するために、アーティファクトやセマンティックミスマッチを除去する厳格なフィルタリングステージを適用し、その後人間による選択を行います。最先端のARTモデルを私たちの合成PrismLayersProでファインチューニングすることで得られたART+は、オリジナルのARTを60%のヘッドツーヘッドユーザー調査比較で上回り、FLUX.1-[dev]モデルによって生成された画像の視覚的品質にも匹敵します。私たちの研究が、多層透明画像生成タスクのための堅固なデータセット基盤を確立し、正確で編集可能で視覚的に魅力的なレイヤー画像を必要とする研究やアプリケーションを可能にすることを期待しています。
信頼性の高い検証器は、検証可能な報酬を伴う強化学習(RLVR)の成功に不可欠であり、これはDeepSeek-R1などの大規模な推論モデルの背後にある中核的な方法論である。数学的推論のような複雑な領域では、これまでの研究においてルールベースの検証器が広く採用され、強力な推論モデルの訓練に用いられてきた。しかし、これらの検証器の信頼性と、それらがRL訓練プロセスに与える影響については十分に理解されていない。本研究では、数学的推論を事例として取り上げ、静的評価とRL訓練の両シナリオにおいて、さまざまな検証器の包括的な分析を行った。まず、現在のオープンソースのルールベース検証器は、複数の一般的に使用される数学データセットにおいて、異なる形式で提示された等価な解答を認識できないことが多く、無視できない偽陰性率を生じていることが明らかになった。この制約はRL訓練の性能に悪影響を及ぼし、ポリシーモデルが強くなるほどその影響が顕著になる。続いて、これらの制約を解決するための潜在的な解決策として、モデルベースの検証器を調査した。静的評価では、モデルベースの検証器が大幅に高い検証精度を達成することが示されたが、さらなる分析とRL訓練の結果から、特定の応答パターンを誤って正解と分類する(すなわち、偽陽性を生じる)ハッキングに対して非常に脆弱であることが示唆された。この脆弱性はポリシーモデルの最適化中に悪用され、人為的に報酬が過大評価される結果を招く。本研究の知見は、ルールベースおよびモデルベースの検証器に固有のリスクを浮き彫りにし、強化学習におけるより堅牢な報酬システムの開発に有益な洞察を提供することを目指している。
タンパク質予測タスクの多様性は、従来、専門化されたモデルを必要とし、広く適用可能で計算効率の良いタンパク質言語モデル(PLM)の開発を妨げてきました。本研究では、Prot2Tokenを紹介します。これは、配列レベルの特性や残基固有の属性から複雑なタンパク質間相互作用まで、幅広いタンパク質関連予測を標準化された次トークン予測形式に変換することで、これらの課題を克服する統一フレームワークです。Prot2Tokenの中核には、事前学習されたタンパク質エンコーダからの埋め込みと学習可能なタスクトークンに基づいて、多様な予測を行う自己回帰デコーダが採用されています。このアーキテクチャは、マルチタスク学習を独特に促進し、単一のモデルが多数のタスクを効率的に習得することを可能にします。さまざまなベンチマークでの広範な実験的検証を通じて、Prot2Tokenが異なるタイプのタンパク質予測タスクにおいて強力な予測力を発揮することを示します。主な結果には、大幅な高速化(例:AlphaFold2 with MSAに対して約1000倍)や、専門化されたアプローチに匹敵またはそれを上回る性能が含まれます。さらに、空間的に敏感なタスクの性能を向上させるための補助的な自己教師付きデコーダ事前学習アプローチを導入します。Prot2Tokenは、タンパク質モデリングのための汎用的で高スループットなパラダイムに向けた重要な一歩を提供し、生物学の発見や新規治療法の開発を加速することを約束します。コードはhttps://github.com/mahdip72/prot2tokenで利用可能です。
マンガ、または日本の漫画は、画像とテキストを複雑に融合させた豊かなマルチモーダルな物語形式です。大規模マルチモーダルモデル(LMM)にこのような物語を人間並みに理解させることは、マンガクリエイターが自身の物語を振り返り、洗練させるのに役立つ可能性があります。この目的のために、マルチモーダルなマンガ理解のための2つのベンチマークを導入します:MangaOCRはページ内のテキスト認識を対象とし、MangaVQAは視覚的質問応答を通じて文脈理解を評価する新しいベンチマークです。MangaVQAは、526の高品質な手作業で構築された質問-回答ペアで構成され、多様な物語と視覚的シナリオにわたる信頼性の高い評価を可能にします。これらのベンチマークを基に、オープンソースのLMMであるQwen2.5-VLをファインチューニングしたマンガ特化モデルMangaLMMを開発し、両タスクを同時に処理します。GPT-4oやGemini 2.5などのプロプライエタリモデルとの比較を含む広範な実験を通じて、LMMがマンガをどの程度理解しているかを評価します。私たちのベンチマークとモデルは、マンガという豊かな物語領域におけるLMMの評価と進歩のための包括的な基盤を提供します。
テキストから画像(T2I)拡散モデルは、生成モデリングにおいて顕著な進歩を遂げてきた。しかし、推論速度と画像品質の間にはトレードオフが存在し、効率的な展開に課題を残している。既存の蒸留されたT2Iモデルは、少ないサンプリングステップで高忠実度の画像を生成できるが、特にワンステップモデルでは多様性と品質に苦戦することが多い。我々の分析から、UNetエンコーダーに冗長な計算が存在することが観察された。T2I拡散モデルにおいて、デコーダーはより豊かで明示的な意味情報を捉えるのに適しており、エンコーダーは異なる時間ステップのデコーダー間で効果的に共有できることが示唆された。これらの観察に基づき、我々は学生モデルのUNetアーキテクチャ向けに、初めての時間独立型統一エンコーダー(TiUE)を提案する。これは、T2I拡散モデルの蒸留におけるループフリーな画像生成アプローチである。ワンパス方式を用いることで、TiUEは複数のデコーダー時間ステップ間でエンコーダー特徴を共有し、並列サンプリングを可能にし、推論時間の複雑さを大幅に削減する。さらに、ノイズ予測を正則化するためにKLダイバージェンス項を組み込み、生成画像の知覚的リアリズムと多様性を向上させた。実験結果は、TiUEがLCM、SD-Turbo、SwiftBrushv2などの最先端手法を上回り、計算効率を維持しながら、より多様で現実的な結果を生成することを示している。
生成AIモデルは、その学習コーパスに含まれる誤った情報を学習し、再現することが多い。本ポジションペーパーでは、生物学的免疫化(弱毒化した病原体に制御された形で曝露することで免疫を構築するプロセス)と同様に、AIモデルを明示的にラベル付けされた誤情報の小規模な隔離セットでファインチューニングし、誤情報に対する「ワクチン」として活用すべきだと主張する。これらの厳選された誤った例をファインチューニング中に定期的に注入することで、モデルが誤解を招く主張を認識し拒否する能力を強化しつつ、真実の入力に対する精度を維持する。実証的なケーススタディでは、免疫化されたモデルがベースラインと比べて大幅に少ない誤情報を生成することが示されている。私たちの知る限り、これは、入力の摂動や一般的な人間のフィードバック信号に依存するのではなく、ファクトチェックされた誤情報そのものを教師ありのワクチンとして扱い、モデルを将来の誤情報に対して強化する初めてのトレーニングフレームワークである。また、誤ったデータの安全な使用を確保するための倫理的保護策とガバナンス制御についても概説する。モデルの免疫化は、AIシステムを事実性に整合させるための先制的なパラダイムを提供する。
多視点一貫性を維持しつつ、スタイル画像に忠実に似た3Dシーンの即時スタイライズは、依然として重要な課題である。現在の最先端の3Dスタイライズ手法は、通常、計算集約的なテスト時最適化を伴い、事前学習済みの3D表現に芸術的特徴を転送するために、密なポーズ付き入力画像を必要とする。これに対し、フィードフォワード再構成モデルの最近の進展を活用し、ポーズなしの疎視点シーン画像と任意のスタイル画像を使用して、1秒未満で直接3Dスタイライズを実現する新しいアプローチを提案する。再構成とスタイライズの間の本質的な分離に対処するため、構造モデリングと外観シェーディングを分離する分岐アーキテクチャを導入し、スタイリッシュな転送が基盤となる3Dシーン構造を歪めることを効果的に防止する。さらに、新規視点合成タスクを通じてスタイライズモデルの事前学習を促進するために、同一性損失を適応させる。この戦略により、モデルはスタイライズのために微調整されながらも、元の再構成能力を保持することができる。ドメイン内およびドメイン外のデータセットを使用した包括的な評価により、本手法がスタイルとシーン外観の優れた融合を実現する高品質なスタイライズ3Dコンテンツを生成し、多視点一貫性と効率性の点で既存の手法を上回ることが示された。
現代の大規模言語モデル(LLM)の効率的な訓練において、効果的なデータ選択は極めて重要である。本論文では、第二次の情報を活用して最適な訓練サンプルの重み付けを行う、数学的に正当化された新しいデータ選択フレームワーク「Influence Distillation」を提案する。本手法では、各サンプルの目標分布への影響を蒸留することで、LLMのファインチューニングに使用する訓練データを選択するためのモデル固有の重みを割り当て、目標ドメインでの高い性能を導く。我々は、勾配降下法とAdamオプティマイザの両方に対してこれらの最適な重みを導出する。スケーラビリティを確保し、計算コストを削減するために、ランドマークベースの近似を提案する:少数の「ランドマーク」サンプルに対して影響を正確に計算し、その後、その影響を効率的に他のすべてのサンプルに伝播させて重みを決定する。Influence DistillationをTulu V2データセットの指示チューニングに適用し、GSM8k、SQuAD、MMLUなどの多様なタスクを対象として、LlamaおよびQwenファミリーの複数のモデルで検証する。実験の結果、Influence Distillationは最先端の性能を達成または上回りながら、最大3.5倍の高速な選択を実現することが示された。
視覚言語モデル(VLM)の最近の進展は、視覚的推論タスクにおいて卓越した性能を示してきました。しかし、地理的位置推定(geo-localization)は独特の課題を抱えており、画像から多粒度の視覚的手がかりを抽出し、それらを外部の世界知識と統合して体系的な推論を行う必要があります。現在の地理的位置推定タスクへのアプローチは、堅牢な推論メカニズムと説明可能性を欠いており、その有効性が制限されています。これらの課題に対処するため、我々はGeo Reason Enhancement(GRE)Suiteを提案します。これは、構造化された推論チェーンをVLMに組み込むことで、正確で解釈可能な位置推定を実現する新しいフレームワークです。GRE Suiteは、データセット、モデル、ベンチマークという3つの主要な次元にわたって体系的に開発されています。まず、細粒度の視覚的および文脈的分析を促進するために設計された高品質な地理的位置推定推論データセットであるGRE30Kを紹介します。次に、GREモデルを提示します。このモデルは、多段階の推論戦略を採用し、シーン属性、局所的な詳細、および意味的特徴を段階的に推論することで、潜在的な地理的領域を高精度に絞り込みます。最後に、Geo Reason Evaluation Benchmark(GREval-Bench)を構築します。これは、多様な都市、自然、ランドマークシーンにわたってVLMを評価し、粗粒度(例:国、大陸)および細粒度(例:都市、通り)の位置推定性能を測定する包括的な評価フレームワークです。実験結果は、GREがすべての粒度の地理的位置推定タスクにおいて既存の手法を大幅に上回ることを示しており、推論を強化したVLMの複雑な地理的推論における有効性を強調しています。コードとデータはhttps://github.com/Thorin215/GREで公開されます。
生成動画モデルの爆発的な成長に伴い、AI生成コンテンツの信頼性ある著作権保護の需要が高まっています。画像合成では一般的な不可視生成透かし技術は、動画生成においてほとんど未開拓のままです。このギャップを埋めるため、我々はSafe-Soraを提案します。これは、動画生成プロセスに直接グラフィカルな透かしを埋め込む初のフレームワークです。透かしの性能が透かしとカバーコンテンツ間の視覚的類似性に密接に関連しているという観察に基づき、階層的な粗から細への適応的マッチングメカニズムを導入しました。具体的には、透かし画像をパッチに分割し、各パッチを最も視覚的に類似した動画フレームに割り当て、さらに最適な空間領域に局所化してシームレスな埋め込みを実現します。動画フレーム間での透かしパッチの時空間的融合を可能にするため、3Dウェーブレット変換を強化したMambaアーキテクチャを開発し、新しい時空間的ローカルスキャン戦略を採用しました。これにより、透かしの埋め込みと検出における長距離依存関係を効果的にモデル化します。我々の知る限り、これは状態空間モデルを透かし技術に適用する初の試みであり、効率的で堅牢な透かし保護の新たな道を開くものです。大規模な実験により、Safe-Soraが動画品質、透かしの忠実度、堅牢性の面で最先端の性能を達成することが示されました。これは我々の提案に大きく起因しています。論文公開時にコードをリリースする予定です。
強化学習(Reinforcement Learning, RL)はロボティクス分野において大きな進展をもたらしてきたが、その複雑さと長い訓練時間が主要なボトルネックとなっている。本報告では、HumanoidBench、IsaacLab、MuJoCo Playgroundなどの人気のあるスイートにおいて、ヒューマノイドロボットの訓練を大幅に高速化する、シンプルで高速かつ高性能なRLアルゴリズムであるFastTD3を紹介する。我々のアプローチは非常に単純である:オフポリシーのTD3エージェントを、並列シミュレーション、大規模バッチ更新、分布型クリティック、そして慎重に調整されたハイパーパラメータといったいくつかの修正を加えて訓練する。FastTD3は、単一のA100 GPU上で3時間未満で一連のHumanoidBenchタスクを解決し、訓練中も安定性を維持する。さらに、ロボティクスにおけるRL研究を加速するための、軽量で使いやすいFastTD3の実装も提供する。
大規模言語モデル(LLMs)のファインチューニングは、指示追従能力を大幅に向上させてきたが、これらの改善を駆動する基盤となる計算メカニズムは未だ十分に理解されていない。本研究では、ファインチューニングがLLMの計算をどのように再構成するかを体系的に検証するため、指示特異的なスパース成分、すなわち密なモデルにおけるニューロンおよびMixture-of-Experts(MoE)アーキテクチャにおけるニューロンとエキスパートを分離・分析する。特に、6つの異なるカテゴリーにわたる慎重に選定・バランス調整された指示データセットであるHexaInstを導入し、SPARCOMという新しい分析フレームワークを提案する。SPARCOMは、(1) これらのスパース成分を特定する手法、(2) それらの機能的一般性と独自性の評価、(3) それらの変化の体系的比較という3つの主要な貢献から構成される。実験を通じて、これらの成分の機能的一般性、独自性、および指示実行における重要な役割を実証する。ファインチューニングによる適応とスパースな計算基盤との関係を解明することで、本論文はLLMが指示追従行動を内部化する仕組みについてより深い洞察を提供し、信頼できるLLMコミュニティに貢献する。
大規模言語モデルと組み合わせたインテリジェントチュータリングシステムは、学生の多様なニーズに対応し、自己効力感のある学習を促進するための有望なアプローチを提供する。大規模言語モデルは電気工学の基礎知識を有しているものの、電気回路に関する具体的な質問に対応する能力は依然として不十分である。本論文では、学生の学習プロセスを支援し、個別化されたサポートを提供し、自己主導型学習を促進するために設計されたエージェントベースの電気工学チュータリングシステム「AITEE」を提案する。AITEEは、手書きおよびデジタル回路を適応型の回路再構築プロセスを通じてサポートし、学生との自然なインタラクションを可能にする。本システムは、新しいグラフベースの類似度測定法を用いて、検索拡張生成アプローチを通じて講義資料から関連する文脈を特定し、並列Spiceシミュレーションにより解法の適用精度をさらに向上させる。また、Socraticダイアログを実装し、ガイド付き質問を通じて学習者の自律性を育む。実験的評価により、AITEEがドメイン固有の知識適用においてベースラインアプローチを大幅に上回り、中規模のLLMモデルでも許容可能な性能を示すことが実証された。本研究の結果は、エージェント型チューターが電気工学教育においてスケーラブルで個別化された効果的な学習環境を提供する可能性を強調している。
ビジョン・ランゲージモデル(VLMs)は、マルチモーダルタスクにおいて大きな進展を遂げてきました。しかし、その性能は長文脈シナリオ、特に長い動画においてしばしば低下します。ロータリーポジション埋め込み(RoPE)は大規模言語モデル(LLMs)における長文脈一般化のために広く採用されていますが、動画の複雑な時空間依存関係を捉えるために基本的なRoPEを拡張することは未解決の課題です。既存の手法では、通常、RoPE内の異なる周波数を割り当てて3D位置情報をエンコードします。しかし、これらの割り当て戦略は主にヒューリスティックに依存しており、深い理論的分析が欠けています。本論文では、まず異なる割り当て戦略がVLMsの長文脈能力にどのように影響するかを調査します。我々の分析によると、現在のマルチモーダルRoPEは、長い文脈にわたる意味的類似性を確実に捉えることができません。この問題を解決するために、我々はHoPE(Hybrid of Position Embedding)を提案します。HoPEは、任意の長さの文脈にわたる信頼性の高い意味モデリングのためのハイブリッド周波数割り当て戦略と、多様な文脈長にわたる堅牢な学習と柔軟な推論を促進する動的時間スケーリングメカニズムを導入します。長い動画の理解と検索タスクにおける4つのベンチマークでの広範な実験により、HoPEが既存の手法を一貫して上回ることを示し、その有効性を確認しました。コードはhttps://github.com/hrlics/HoPEで公開されています。
オープンソースの機械学習(ML)リソース(モデルやデータセットなど)の急速な成長は、IR(情報検索)研究を加速させてきました。しかし、Hugging Faceのような既存のプラットフォームは、構造化された表現を明示的に活用していないため、モデルの進化の追跡や関連データセットの推薦といった高度なクエリや分析が制限されています。このギャップを埋めるため、我々はHugging Faceコミュニティから構築した初の大規模な知識グラフであるHuggingKGを構築しました。260万のノードと620万のエッジを持つHuggingKGは、ドメイン固有の関係性と豊富なテキスト属性を捉えています。これにより、リソース推薦、分類、追跡といったIRタスクのための3つの新しいテストコレクションを含むマルチタスクベンチマークであるHuggingBenchをさらに提示することが可能になりました。我々の実験は、HuggingKGとそこから派生するタスクの独自の特性を明らかにしています。これらのリソースは公開されており、オープンソースリソースの共有と管理に関する研究の進展が期待されます。
高次視覚野における機能的表現を理解することは、計算神経科学における基本的な課題である。大規模データセットで事前学習された人工ニューラルネットワークは、人間の神経応答との驚くべき表現的整合性を示すが、視覚野の画像計算可能なモデルを学習するには、個別レベルの大規模fMRIデータセットに依存している。高コストで時間がかかり、しばしば非現実的なデータ取得の必要性は、エンコーダの新たな被験者や刺激への一般化を制限している。BraInCoRLは、コンテキスト内学習を用いて、新たな被験者や刺激に対する追加のファインチューニングなしに、少数の例からボクセル単位の神経応答を予測する。我々は、可変数のコンテキスト内画像刺激に柔軟に条件付けできるトランスフォーマーアーキテクチャを活用し、複数の被験者にわたる帰納的バイアスを学習する。訓練中、我々は明示的にコンテキスト内学習のためにモデルを最適化する。画像特徴とボクセル活性化を共同で条件付けることで、我々のモデルは、高次視覚野のより高性能なボクセル単位モデルを直接生成することを学習する。BraInCoRLが、完全に新しい画像で評価された場合、低データ体制において既存のボクセル単位エンコーダ設計を一貫して上回り、同時に強力なテスト時スケーリング挙動を示すことを実証する。このモデルは、異なる被験者とfMRIデータ取得パラメータを使用する、まったく新しい視覚fMRIデータセットにも一般化する。さらに、BraInCoRLは、意味的に関連する刺激に注意を向けることで、高次視覚野における神経信号の解釈可能性を向上させる。最後に、我々のフレームワークが、自然言語クエリからボクセル選択性への解釈可能なマッピングを可能にすることを示す。
大規模言語モデル(LLM)の能力は簡体字中国語と繁体字中国語の両方で研究されてきたが、LLMがこれら2つの書体の中国語でプロンプトされた際に異なる性能を示すかどうかはまだ明らかではない。この理解は重要である。なぜなら、LLMの応答品質における差異は、簡体字中国語と繁体字中国語の背後にある異なる文化的文脈を無視することで表象的害を永続させ、教育や採用などの分野におけるLLMを介した意思決定において下流の害を悪化させる可能性があるからだ。潜在的なLLMの性能差異を調査するため、我々は現実世界のシナリオを反映した2つのベンチマークタスクを設計した:地域用語選択(LLMに、中国本土と台湾で異なる名称で呼ばれる項目を命名させる)と地域名選択(LLMに、簡体字と繁体字中国語の両方で記載された名前リストから採用する人物を選択させる)。両タスクにおいて、英語、簡体字中国語、または繁体字中国語を主に訓練された11の主要な商用LLMサービスとオープンソースモデルの性能を監査した。我々の分析によると、LLMの応答におけるバイアスはタスクとプロンプト言語の両方に依存している:ほとんどのLLMは地域用語選択タスクで簡体字中国語の応答を過剰に優先したが、驚くべきことに地域名選択タスクでは繁体字中国語の名前を優先した。これらの差異は、訓練データの表現、文字の選好、および簡体字と繁体字中国語のトークン化の違いから生じる可能性があることがわかった。これらの発見は、LLMのバイアスをさらに分析する必要性を強調している。そのため、我々はオープンソースのベンチマークデータセットを提供し、将来のLLMの中国語書体間の振る舞いの再現可能な評価を促進する(https://github.com/brucelyu17/SC-TC-Bench)。
物体の向き理解は、ロボット操作や拡張現実といったアプリケーションにおいて重要な視覚知覚の基本的な課題を表しています。現在の視覚-言語ベンチマークは、この能力を単離することに失敗しており、しばしば位置関係や一般的なシーン理解と混同しています。本研究では、DORI(Discriminative Orientation Reasoning Intelligence)を導入し、物体の向き知覚を主要な評価対象とする包括的なベンチマークを確立します。DORIは、正面方向の整合性、回転変換、相対的な方向関係、および正規の向き理解という4つの次元の向き理解を評価します。合成および現実世界のシナリオにまたがる67の物体カテゴリーからなる11のデータセットを用いて慎重に選定されたタスクを通じて、DORIはマルチモーダルシステムが物体の向きをどのように理解するかについての洞察を提供します。15の最先端の視覚-言語モデルの評価により、重大な限界が明らかになりました:最良のモデルでさえ、粗いタスクでは54.2%、細かい向き判断では33.0%の精度しか達成できず、参照フレームのシフトや複合回転を必要とするタスクでは性能が低下します。これらの発見は、専用の向き表現メカニズムの必要性を示しており、モデルが正確な角度推定を行い、視点間での向き変化を追跡し、複合回転を理解する能力に系統的な欠陥があることを示唆しています。これにより、内部の3D空間表現における限界が示されています。マルチモーダルシステムにおける向き認識に特化した最初の診断フレームワークとして、DORIは、ロボット制御、3Dシーン再構築、物理環境における人間-AIインタラクションの改善に示唆を与えます。DORIデータ: https://huggingface.co/datasets/appledora/DORI-Benchmark
ビデオの時間的理解は、マルチモーダル大規模言語モデル(MLLMs)がビデオ内のイベントを推論する上で重要である。一般的なビデオ理解における最近の進展にもかかわらず、現在のMLLMsは依然として細粒度の時間的推論に苦戦している。この問題に対処するために強化学習(RL)が最近探求されているが、既存のRLアプローチは効果において限界がある。本研究では、MUSEGという新しいRLベースの手法を提案し、タイムスタンプを意識したマルチセグメントグラウンディングを導入することで時間的理解を強化する。MUSEGは、MLLMsがクエリを複数の関連ビデオセグメントと整合させることを可能にし、より包括的な時間的推論を促進する。効果的な学習を促進するために、段階的な報酬を用いたカスタマイズされたRLトレーニングレシピを設計し、モデルを時間的にグラウンディングされた推論に向けて漸進的に導く。時間的グラウンディングおよび時間敏感なビデオQAタスクにおける広範な実験により、MUSEGが既存の手法を大幅に上回り、多様な時間的理解シナリオにおいて良好に汎化することを示す。プロジェクトはhttps://github.com/THUNLP-MT/MUSEGで閲覧可能である。
大規模言語モデル(LLMs)は、事前学習中に望ましくない知識を取得することが多く、例えば機密情報や著作権保護されたコンテンツなどが含まれる。これまで、そのような知識を除去するための既存のアプローチは、ファインチューニング、低ランクアダプターのトレーニング、または事実レベルの編集に依存していたが、これらは粗すぎる、浅すぎる、または効果的でない場合があった。本研究では、PISCES(Precise In-parameter Suppression for Concept EraSure)を提案する。これは、パラメータ空間内で概念をエンコードする方向を直接編集することで、モデルパラメータから概念全体を正確に消去する新しいフレームワークである。PISCESは、解離モデルを使用してMLPベクトルを解釈可能な特徴に分解し、自動解釈技術を用いて対象概念に関連する特徴を特定し、それらをモデルパラメータから除去する。Gemma 2およびLlama 3.1を用いた様々な概念に対する実験では、PISCESが主要な消去手法よりも効果においてわずかな向上を示し、対象概念に対する精度を7.7%まで低下させると同時に、消去の特異性(最大31%)と堅牢性(最大38%)を大幅に改善した。全体として、これらの結果は、特徴ベースのパラメータ内編集が、言語モデルから概念的知識を除去するためのより正確で信頼性の高いアプローチを可能にすることを示している。
言語-画像事前学習は2次元医療画像において強力な性能を発揮しているが、CTやMRIなどの3次元モダリティでは、ボリュームデータの高い計算要求により、大規模で未整理の臨床研究に対する学習が大きな障壁となり、その成功は限られている。本研究では、3次元医療画像のためのスケーラブルな事前学習フレームワークである階層的注意機構を採用した言語-画像事前学習(HLIP)を提案する。HLIPは、放射線データの自然な階層(スライス、スキャン、研究)に着想を得た軽量な階層的注意機構を採用している。この機構は高い汎化性能を示し、例えばCT-RATEで事前学習を行った場合、Rad-ChestCTベンチマークで+4.3%のマクロAUCを達成した。さらに、HLIPの計算効率により、未整理のデータセットに対する直接的な学習が可能となる。脳MRIにおいて220,000人の患者と313万回のスキャン、頭部CTにおいて240,000人の患者と144万回のスキャンで学習を行ったHLIPは、提案された公開利用可能な脳MRIベンチマークPub-Brain-5で+32.4%のバランスドACCを、頭部CTベンチマークRSNAとCQ500でそれぞれ+1.4%と+6.9%のマクロAUCを達成し、最先端の性能を実現した。これらの結果は、HLIPを用いることで、未整理の臨床データセットに対する直接的な事前学習が、3次元医療画像における言語-画像事前学習のスケーラブルで効果的な方向性であることを示している。コードはhttps://github.com/Zch0414/hlipで公開されている。
テキストから因果関係を理解し推論することは、人間の認知の中核をなす側面であり、大規模言語モデル(LLM)を人工汎用知能に向けて進化させる上で不可欠です。既存の研究は主に、テキスト中に明示的に記述された単純な因果関係を含む合成生成テキストに焦点を当てています。これは現実世界のタスクの複雑さを反映していません。本論文では、LLMが現実世界のテキストから因果関係を推論できるかどうかを調査します。私たちは、現実世界の学術文献から抽出したベンチマークを開発しました。このベンチマークは、長さ、関係の複雑さ(明示性のレベル、イベントの数、因果関係の数)、およびドメインやサブドメインの多様性を含むテキストで構成されています。私たちの知る限り、このタスクにおける初めての現実世界のデータセットです。提案したベンチマークで評価した最先端のLLMの実験結果は、最良のモデルでも平均F1スコアが0.477に留まるなど、大きな課題を示しています。分析からは、暗黙的に述べられた情報の扱いの難しさ、関連する因果要因と周囲の文脈の詳細を区別する難しさ、長いテキストの節に散らばった因果的に重要な情報を結びつける難しさといった、共通の欠点が明らかになりました。これらの欠点を体系的に特徴づけることで、私たちのベンチマークは、LLMの因果推論を進めるための今後の研究に的を絞った洞察を提供します。
推論時の計算リソースを動的に割り当てるテストタイムスケーリング(TTS)は、大規模言語モデルの推論能力を向上させる有望な方法である。既存のTTS手法は有効であるが、長いデコードパスに依存したり、多数のサンプルを生成する必要があるため、トークン使用量や推論遅延が増加する傾向がある。我々は、推論タスクにおいて、短いトレースが長いトレースよりも正解である可能性が驚くほど高いという事実を観察した。これに基づき、n個の独立したサンプルを起動し、いずれかが完了した時点で結果を返す、トレーニング不要の並列デコード戦略であるFirst Finish Search(FFS)を提案する。FFSを、シンプルなデコード、ビームサーチ、多数決、予算強制とともに、4つの推論モデル(DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B、Phi-4-Reasoning-Plus)および4つのデータセット(AIME24、AIME25-I、AIME25-II、GPQA Diamond)で評価した。DeepSeek-R1を用いた場合、FFSはAIMEデータセットで82.23%の精度を達成し、DeepSeek-R1の単体精度を15%向上させ、OpenAIのo4-miniの性能にほぼ匹敵する結果を示した。理論的分析により、最短のトレースで停止することが正解を得る可能性が高い理由を説明し、早期停止が最適でない条件を特定した。FFSの簡潔さとシンプルさは、単純なTTS戦略が驚くほど良好に機能することを示し、推論時に単純なアプローチが持つ未開拓の可能性を明らかにした。
大規模な視覚言語モデル(VLMs)は、多様なマルチモーダルタスクにおいて顕著な性能を発揮しているものの、人間のIQテストにおける真の推論能力はまだ十分に検証されていません。VLMsの流動性知能に関する研究を進めるため、我々は標準化された視覚IQテストでVLMsを評価する新しいベンチマーク**IQBench**を導入します。我々は、最終的な予測の精度よりも、VLMsの推論能力を評価することに焦点を当てています。**我々のベンチマークは視覚中心であり、不必要なテキストコンテンツへの依存を最小化**することで、モデルが主に画像ベースの情報から答えを導き出すことを促し、学習済みのテキスト知識に頼らないように設計されています。この目的のために、我々は500の視覚IQ問題を手動で収集し、注釈を付けることで、**トレーニング中の意図しないデータ漏洩を防ぎました**。従来の研究が主に最終的な回答の精度に焦点を当てていたのに対し、我々はモデルの推論能力を評価するために、その説明と各問題を解決するために使用されたパターン、最終的な予測の精度、および人間による評価を組み合わせて分析します。我々の実験結果は、タスク間に大きな性能差があることを示しており、`o4-mini`、`gemini-2.5-flash`、`claude-3.7-sonnet`といったモデルがそれぞれ0.615、0.578、0.548の最高平均精度を達成しました。しかし、すべてのモデルが3D空間推論やアナグラム推論タスクに苦戦しており、現在のVLMsの一般的な推論能力には大きな限界があることが明らかになりました。推論スコアに関しては、`o4-mini`、`gemini-2.5-flash`、`claude-3.7-sonnet`がそれぞれ0.696、0.586、0.516のトップ平均を達成しました。これらの結果は、モデルの推論プロセスと最終的な回答の間に不一致があることを強調し、最終的な予測だけでなく、推論の精度を評価することの重要性を示しています。