翻訳付きの日次キュレーションされたAI研究論文
近年のマルチモーダル生成モデルの進展により、フォトリアルで指示に沿った画像生成が可能となったが、GPT-4o-Imageのような主要なシステムは依然としてプロプライエタリでアクセスが制限されている。これらの能力を民主化するため、我々はShareGPT-4o-Imageを提案する。これは、GPT-4oの画像生成能力を活用して合成された45,000件のテキストから画像へのデータと46,000件のテキストと画像から画像へのデータを含む初のデータセットである。このデータセットを活用し、我々はJanus-4oを開発した。これは、テキストから画像への生成とテキストと画像から画像への生成の両方が可能なマルチモーダル大規模言語モデルである。Janus-4oは、前身モデルであるJanus-Proを大幅に上回るテキストから画像への生成性能を示すだけでなく、新たにテキストと画像から画像への生成もサポートする。特に、わずか91,000件の合成サンプルと8台のA800-GPUマシンでの6時間のトレーニングで、ゼロからテキストと画像から画像への生成において印象的な性能を達成した。ShareGPT-4o-ImageとJanus-4oの公開が、フォトリアルで指示に沿った画像生成のオープンな研究を促進することを期待する。
最先端の大規模言語モデル(LLM)の事前学習には、膨大な量のクリーンで多様なテキストデータが必要です。大規模で高品質な英語の事前学習データセットのオープンな開発は近年大幅に進展していますが、高性能な多言語LLMの学習は依然として課題であり、その主な理由は、多数の言語にフィルタリングと重複排除のパイプラインを適応させることの本質的な難しさにあります。本研究では、FineWebに基づく新しい事前学習データセットのキュレーションパイプラインを導入し、あらゆる言語を自動的にサポートできるようにしました。私たちは、9つの多様な言語セットに対してパイプライン設計の選択肢を詳細に検証し、測定可能な基準に基づいた新しい選択プロセスを通じて選ばれた意味のある情報豊富な評価タスクに導かれました。最終的に、このパイプラインを使用して、従来のデータセットよりも高性能なモデルを生成する非英語コーパスを作成できることを示しました。さらに、重複カウントと品質の両方を考慮した、データセットのリバランスを行うためのシンプルで原則に基づいたアプローチを導入し、追加の性能向上を提供します。最後に、100近いCommon Crawlスナップショットを使用して、1000以上の言語にわたるパイプラインをスケールアップし、20テラバイト(50億ドキュメント)の新しい多言語データセットであるFineWeb2を生成しました。これに加えて、パイプライン、学習、および評価のコードベースも公開します。
大規模言語モデル(LLMs)における極端な活性化外れ値は、量子化性能を著しく低下させ、効率的なオンデバイス展開を妨げる。チャネル単位の操作や適応的な勾配スケーリングがその原因として認識されているが、実践的な緩和策は依然として困難である。本研究では、事後的な緩和に頼るのではなく、外れ値の形成を事前に防ぐ実用的なガイドラインであるOutlier-Safe Pre-Training(OSP)を提案する。OSPは以下の3つの主要な革新を組み合わせている:(1)Muonオプティマイザー、特権基底を排除しつつトレーニング効率を維持する;(2)Single-Scale RMSNorm、チャネル単位の増幅を防止する;(3)学習可能な埋め込み射影、埋め込み行列に起因する活性化の大きさを再分配する。OSPを検証するため、1兆トークンで1.4Bパラメータのモデルをトレーニングし、このような外れ値なしでトレーニングされた初の本番規模LLMを実現した。攻撃的な4ビット量子化の下で、OSPモデルは10のベンチマークで平均スコア35.7(Adamトレーニングモデルの26.5と比較)を達成し、トレーニングオーバーヘッドはわずか2%であった。注目すべきは、OSPモデルは標準モデルの極端な値(1818.56)と比較してほぼゼロの超過尖度(0.04)を示し、LLMの量子化挙動を根本的に変えたことである。本研究は、外れ値がLLMに固有のものではなく、トレーニング戦略の結果であることを示し、より効率的なLLM展開の道を開いた。ソースコードと事前トレーニング済みチェックポイントはhttps://github.com/dmis-lab/Outlier-Safe-Pre-Trainingで公開されている。
拡散モデルを用いた画像編集の最近の進展は、生成プロセスに対するきめ細かい制御を実現し、印象的な結果をもたらしています。しかし、これらの手法は反復的な性質のため計算コストが高いという課題があります。蒸留された拡散モデルは推論を高速化しますが、逆変換の品質が低いため編集能力が限られています。高精度な逆変換と再構築は、元画像の構造的および意味的な整合性を保つために、精密な画像編集において不可欠です。本研究では、一貫性モデルを用いて画像逆変換を強化し、わずか4ステップで高品質な編集を可能にする新しいフレームワークを提案します。本手法では、再構築精度を大幅に向上させ、編集可能性と内容保存の間の制御可能なトレードオフを実現するサイクル一貫性最適化戦略を導入しています。我々は、様々な画像編集タスクとデータセットにおいて最先端の性能を達成し、本手法が完全ステップの拡散モデルに匹敵またはそれを上回りながら、大幅に効率的であることを実証しています。本手法のコードはGitHub(https://github.com/ControlGenAI/Inverse-and-Edit)で公開されています。
異なる基盤言語モデルファミリー、例えばLlamaやQwenは、強化学習(RL)を用いたポストトレーニングにおいて、特に推論集約型タスクにおいて異なる振る舞いを示す。基盤言語モデルが強化学習に適している要因は何か?この問いに対する深い洞察を得ることは、次世代のRLスケーラブルな基盤モデルを開発する上で不可欠である。本研究では、代表的なモデルファミリーであるQwenとLlamaに焦点を当て、中間トレーニング戦略がRLダイナミクスをどのように形成するかを調査する。我々の研究は以下のことを明らかにした:(1) MegaMath-Web-Proのような高品質な数学コーパスは、基盤モデルとRLのパフォーマンスを大幅に向上させるが、既存の代替案(例:FineMath-4plus)はこれを達成できない;(2) QA形式のデータ、特に長い連鎖的思考(CoT)推論例を追加することでRLの結果が向上し、指示データがこの効果をさらに引き出す;(3) 長いCoTは推論の深さを向上させるが、モデル応答の冗長性やRLトレーニングの不安定性を引き起こす可能性もあり、データフォーマットの重要性を強調する;(4) 中間トレーニングのスケーリングは、一貫して下流のRLパフォーマンスを強化する。これらの洞察に基づき、我々は2段階の中間トレーニング戦略「Stable-then-Decay」を導入する。この戦略では、基盤モデルはまず200Bトークンに対して一定の学習率でトレーニングされ、その後20Bトークンに対して3つのCoTに焦点を当てたブランチで学習率を減衰させながらトレーニングされる。これにより、RL互換性が強く、RLに適したモデルファミリー(例:Qwen)との性能差を縮めるOctoThinkerモデルファミリーが得られる。我々の研究が、RL時代における基盤モデルの事前トレーニング戦略を形成する一助となることを願っている。さらなる研究を支援するため、我々はオープンソースモデルと70Bトークンを超える数学推論集約型コーパス(例:MegaMath-Web-Pro-Max)を公開する。
現実世界のシナリオにおいて複雑なインタラクティブタスクを実行可能なエンボディドエージェントの開発は、エンボディドAIにおける根本的な課題の一つである。近年のシミュレーションプラットフォームの進展により、エンボディド視覚言語モデル(VLMs)を訓練するためのタスクの多様性は大幅に向上したが、ほとんどのプラットフォームは簡略化されたロボット形態に依存し、低レベルの実行における確率的性質を回避しているため、現実世界のロボットへの転移性が制限されている。これらの課題に対処するため、我々はAI2-THORを拡張した物理ベースのシミュレーションプラットフォーム「DualTHOR」を提案する。このシミュレータは、現実世界のロボットアセット、双腕協調のためのタスクスイート、およびヒューマノイドロボットのための逆運動学ソルバーを含んでいる。さらに、物理ベースの低レベル実行を通じて潜在的な失敗を組み込む緊急対応メカニズムを導入し、現実世界のシナリオとのギャップを埋める。我々のシミュレータは、家庭環境におけるVLMsの頑健性と汎化能力をより包括的に評価することを可能にする。広範な評価により、現在のVLMsは双腕協調に苦戦し、緊急事態を含む現実的な環境での頑健性が限られていることが明らかになり、エンボディドタスクのためのより有能なVLMsを開発するために我々のシミュレータを使用することの重要性が強調された。コードはhttps://github.com/ds199895/DualTHOR.gitで公開されている。
シミュレーションベースのデータ合成は、現実世界のロボット操作を強化するための強力なパラダイムとして登場している。しかし、既存の合成データセットは、二つの課題により、堅牢な両手操作には不十分である:(1) 新しいタスクに対する効率的でスケーラブルなデータ生成手法の欠如、(2) 現実世界の複雑さを捉えられない過度に単純化されたシミュレーション環境。本論文では、多様で現実的なデータの自動的かつ大規模な生成を可能にするスケーラブルなシミュレーションフレームワーク「RoboTwin 2.0」を提案し、両手操作のための統一的な評価プロトコルを提供する。まず、147カテゴリーにわたる731インスタンスからなる大規模オブジェクトライブラリ「RoboTwin-OD」を構築し、各インスタンスに意味的および操作関連のラベルを付与する。この基盤を基に、マルチモーダル大規模言語モデル(MLLMs)とシミュレーションインザループの改良を組み合わせたエキスパートデータ合成パイプラインを開発し、タスクレベルの実行コードを自動生成する。シミュレーションから現実への転移を改善するため、RoboTwin 2.0は、クラッター、照明、背景、テーブル高さ、言語指示の5軸にわたる構造化されたドメインランダム化を導入し、データの多様性とポリシーの堅牢性を向上させる。このフレームワークを5つのロボットエンボディメントにわたる50の両手タスクに適用し、100,000以上のドメインランダム化されたエキスパート軌跡を事前に収集する。実験結果は、コード生成の成功率が10.9%向上し、新しい現実世界のシナリオに対する汎化性能が改善されたことを示す。本データセットでファインチューニングされたVLAモデルは、未見の現実世界タスクにおいて367%の相対的改善(42.0% vs. 9.0%)を達成し、合成データのみでトレーニングされたゼロショットモデルは228%の相対的向上を示し、現実世界の監督なしで強い汎化性能を発揮する。本論文では、堅牢な両手操作のスケーラブルな研究を支援するため、データジェネレータ、ベンチマーク、データセット、およびコードを公開する。
拡散モデルは、画像合成における主要なアプローチとして台頭し、卓越した写実性と多様性を実証している。しかし、高解像度での拡散モデルの学習は計算コストが高く、学習解像度を超える画像を合成する既存のゼロショット生成技術では、オブジェクトの重複や空間的不整合などのアーティファクトがしばしば生じる。本論文では、事前学習済みの拡散モデルを用いて超高解像度画像合成における視覚的忠実度と構造的整合性を大幅に向上させる、学習不要のゼロショットアプローチであるHiWaveを提案する。本手法は、事前学習済みモデルからベース画像を生成し、その後パッチ単位のDDIM逆変換ステップと新たなウェーブレットベースのディテールエンハンサーモジュールを適用する二段階のパイプラインを採用する。具体的には、まず逆変換手法を用いてベース画像からグローバルな整合性を保つ初期ノイズベクトルを導出する。その後、サンプリング中にウェーブレット領域のディテールエンハンサーがベース画像の低周波成分を保持して構造的一貫性を確保しつつ、高周波成分を選択的に誘導して微細なディテールとテクスチャを豊かにする。Stable Diffusion XLを用いた広範な評価により、HiWaveは従来の手法で見られる一般的な視覚的アーティファクトを効果的に軽減し、優れた知覚品質を達成することが示された。ユーザスタディでは、HiWaveが最先端の代替手法よりも80%以上の比較で好まれることが確認され、再学習やアーキテクチャの変更を必要とせずに高品質な超高解像度画像合成を実現するその有効性が強調された。
大規模言語モデル(LLMs)はコード生成において優れた能力を発揮するが、特に複雑なプログラミングタスクにおいて、その出力が機能的に正しいことを保証することは依然として大きな課題である。従来のテスト駆動開発(TDD)はコードの改良のための道筋を提供するが、LLMsとの組み合わせにおいては、高品質なテストケースの不足や、自動テスト生成の落とし穴(例えば、偏ったテストや不正確な出力予測が修正プロセスを誤った方向に導くこと)により、その有効性が損なわれることが多い。本論文では、特定の入出力例に依存するのではなく、プロパティベーステスト(PBT)を活用して高レベルのプログラム特性や不変条件を検証する新しいフレームワーク「Property-Generated Solver」を提案する。これらの特性は、網羅的なテストオラクルを直接予測するよりも定義や検証が容易であり、テストが検証対象のコードと同じ欠陥を共有する「自己欺瞞のサイクル」を打破する。Property-Generated Solverは、コード生成と反復的な改良に専念する「Generator」と、PBTのライフサイクルを管理し、プロパティ違反から意味的に豊かなフィードバックを生成する「Tester」という2つの協調的なLLMベースのエージェントを採用する。これにより得られた包括的かつ実践的なフィードバックは、Generatorの改良努力を導く。この反復的で閉ループなパラダイム内でPBTを中核的な検証エンジンとして確立することで、Property-Generated Solverは、LLMsをより正確で汎用性の高いコードへと導くための堅牢なメカニズムを提供する。複数のコード生成ベンチマークにおける広範な実験結果は、Property-Generated Solverが確立されたTDD手法に対して23.1%から37.3%の相対的なpass@1の改善を達成することを示している。
大規模言語モデル(LLM)の最近の進展により、モデルの再学習を行わずに性能を向上させるための推論時の計算リソースのスケーリングに焦点が当てられています。一般的なアプローチとして、複数の出力を並列にサンプリングし、その中から1つを最終出力として選択する方法があります。しかし、これまでの研究は英語や数学、コードなどの限られた領域に集中していました。これに対して、私たちはオープンエンドなタスク、形式的に検証可能なタスク、そして複数言語にわたって汎化する技術に最も関心を持っています。本研究では、多言語・多タスク設定におけるオープンエンドな生成タスクに対して、推論時の計算リソースを堅牢にスケーリングする方法を探ります。 私たちの調査結果は、温度変動に基づくサンプリング戦略と選択戦略の両方が、多様なドメインと言語設定を考慮して適応される必要があることを示しています。既存の選択方法を評価した結果、英語で有効な戦略が他の言語に一般化できないことが明らかになりました。私たちは、多言語・多タスク推論シナリオに特化した新しいサンプリングおよび選択戦略を提案し、これらが言語やタスクを超えて顕著な改善をもたらすことを示します。特に、私たちの組み合わせたサンプリングと選択方法は、8Bモデルにおいてm-ArenaHard-v2.0プロンプトに対してGeminiなどのプロプライエタリモデルと比較して平均+6.8の勝率向上をもたらしました。さらに大規模なCommand-A(111Bモデル)では、単一サンプルデコードと比較してわずか5サンプルで同じベンチマークにおいて+9.0の勝率向上を示し、最小限のコストで大幅な改善を実現しました。これらの結果は、推論時の計算リソースに対して言語およびタスクを意識したアプローチの必要性を強調し、特に低リソース言語における性能向上の民主化を目指すものです。
大規模言語モデルの推論能力は最近、多くの分野で最先端の性能を達成している。しかし、その長文の連鎖的思考(chain-of-thought)推論は、生成される各トークンがそれ以前のすべてのトークンに依存するため、解釈可能性に課題を生み出しており、計算を分解することが難しくなっている。我々は、文レベルで推論の軌跡を分析することが、推論プロセスを理解するための有望なアプローチであると主張する。我々は、3つの補完的な帰属手法を提示する:(1)ブラックボックス手法では、モデルが特定の文または異なる意味を持つ文を生成する条件で100回のロールアウトを行い、最終的な回答を比較することで、各文の反事実的重要性を測定する;(2)ホワイトボックス手法では、文のペア間のアテンションパターンを集約し、「受信者」アテンションヘッドを介してすべての将来の文から不均衡な注目を受ける「ブロードキャスト」文を特定する;(3)因果帰属手法では、ある文へのアテンションを抑制し、各将来の文のトークンへの影響を測定することで、文間の論理的接続を測定する。各手法は、思考のアンカー(thought anchors)の存在を示す証拠を提供する。思考のアンカーとは、不均衡な重要性を持ち、その後の推論プロセスに不釣り合いな影響を与える推論ステップであり、通常は計画やバックトラッキングの文である。我々は、これらの手法の出力を視覚化するためのオープンソースツール(www.thought-anchors.com)を提供し、モデルが多段階の推論を実行する方法をマッピングする手法間の収束パターンを示すケーススタディを提示する。手法間の一貫性は、推論モデルをより深く理解するための文レベルの分析の可能性を示している。
大規模言語モデル(LLMs)は、言語理解と生成において顕著な能力を示している。しかし、そのような印象的な能力は通常、モデルサイズの大幅な増大を伴い、展開と推論において重大な課題を提示する。モデルパラメータの構造化プルーニングは、展開時の計算コストを削減する有望な方法を提供するが、現在の手法は主に単一モデルのプルーニングに焦点を当てている。本研究では、ファインチューニングされたモデルバリアントから層を戦略的に結合または統合することにより、モデルを圧縮する新たな戦略を開発する。これにより、異なるファインチューンで強調された能力を集約することで、元のモデルの能力を維持する。これらのLLMsの最適な調整をゼロ次最適化問題として定式化し、3つの異なる操作をサポートする探索空間を採用する:(1)層の削除、(2)異なる候補モデルからの層の選択、(3)層の統合。実験結果は、このアプローチが競争力のあるモデルプルーニングをもたらすことを示しており、例えば、Llama2-13Bモデルファミリーにおいて、圧縮されたモデルは元の性能の約97.3%を維持しながら、約25%のパラメータを削除し、従来の最先端手法を大幅に上回る。コードはhttps://github.com/Guinan-Su/auto-merge-llmで公開されている。
大規模言語モデル(LLM)の計算コストとエネルギーコストは、モデルサイズの拡大と数億ユーザーによるLLMの大規模な採用によって指数関数的に増加しています。LLMの単位コストはトークンの計算です。したがって、トークナイザーはモデルの効率性において重要な役割を果たし、トレーニングコーパス内のテキストに対してトークン数を最小化するよう慎重に最適化されています。LLMの最も一般的なアプリケーションの一つは、ユーザーと対話するチャットボットです。重要な観察点として、これらのチャットボットにとって重要なのは、ユーザーのテキスト入力とチャットボットの応答におけるトークナイザーの性能です。これらはトレーニングコーパス内のテキストとは異なる可能性が高いです。したがって、すぐに浮かぶ疑問は、チャットボットの会話のためにトークナイザーを最適化することに潜在的な利点があるかどうかです。本論文では、このアイデアを異なるトークナイザーに対して探求し、公開されているチャットボット会話コーパスを使用してそれらの語彙を再設計し、この領域での性能を評価します。結果は、会話最適化されたトークナイザーが一貫してチャットボット対話におけるトークン数を減少させ、5%から10%の範囲で有意なエネルギー節約につながることを示しています。また、元のトレーニングコーパスに対するトークン化効率には最小限の、あるいはわずかにプラスの影響しか及ぼしません。
大規模言語モデル(LLMs)は、コード生成において顕著な能力を示すが、外部ライブラリAPIの頻繁な更新に適応する際に課題を抱えている。この重要な制限は、最新のドキュメントにアクセスできる場合でも、トレーニングデータに基づく古いAPI知識への依存から生じ、動的な環境での信頼性のあるコード生成を妨げている。この問題に対処するため、我々はReCode(ルールベースの強化学習によるコード更新)を提案する。これは、人間のプログラマがAPIの変更に適応するプロセスを模倣する新しいフレームワークである。具体的には、約2,000のデータエントリからなるデータセットを構築し、LLMsが更新された情報に基づいてバージョン移行を実行できるようにトレーニングする。次に、コード評価のための修正された文字列類似度メトリックを導入し、強化学習の報酬として使用する。実験結果は、ReCodeが動的APIシナリオにおけるLLMsのコード生成性能を大幅に向上させることを示しており、特に未見のCodeUpdateArenaタスクにおいて顕著である。重要な点として、教師あり微調整と比較して、ReCodeはLLMsの一般的なコード生成能力に与える影響が少ない。我々はReCodeを様々なLLMsおよび強化学習アルゴリズム(GRPOおよびDAPO)に適用し、一貫した改善を達成した。特に、トレーニング後、Qwen2.5-Coder-7Bは、32Bパラメータのコード命令チューニングモデルおよび同じアーキテクチャの推論モデルを上回る性能を示した。コードはhttps://github.com/zjunlp/ReCodeで公開されている。
アクセシビリティは、現代社会において依然として重要な課題であり、多くのテクノロジーがユーザーの多様なニーズを十分にサポートするよう開発されていない。既存のマルチエージェントシステム(MAS)は、クローズドソース設計に起因するカスタマイズの欠如により、支援を必要とするユーザーに対して包括的な支援を提供できないことが多い。その結果、障害を持つ個人は、デジタル環境との対話を試みる際に重大な障壁に直面することが頻繁にある。本論文では、ユーザーのニーズに基づいてモダリティ変換を行うマルチモーダルアクセシビリティMASであるMATEを紹介する。このシステムは、データを理解可能な形式に変換することで、障害を持つ人々を支援するのに有用である。例えば、ユーザーが視覚に問題があり画像を受け取った場合、システムはその画像を音声説明に変換する。MATEは、医療など幅広いドメイン、業界、領域に適用可能であり、様々なユーザーグループにとって有用なアシスタントとなり得る。システムは、LLM API呼び出しからカスタム機械学習(ML)分類器の使用まで、複数のタイプのモデルをサポートする。この柔軟性により、システムは様々なニーズに適応可能であり、多様なハードウェアと互換性がある。システムはローカルで動作することが期待されているため、機密情報のプライバシーとセキュリティが確保される。さらに、このフレームワークは、デジタル医療サービスなどの機関技術と効果的に統合され、リアルタイムのユーザー支援を実現する。さらに、ユーザー入力から正確なモダリティ変換タスクを抽出可能なモデルであるModCon-Task-Identifierを紹介する。数多くの実験により、ModCon-Task-Identifierは、カスタムデータにおいて他のLLMや統計モデルを一貫して上回ることが示されている。我々のコードとデータは、https://github.com/AlgazinovAleksandr/Multi-Agent-MATE で公開されている。
AI駆動型コンテンツ制作は、映画制作においてその可能性を示してきた。しかし、既存の映画生成システムは、映画制作の原則を実装するのに苦労しており、プロフェッショナル品質の映画を生成することができず、特に多様なカメラ言語や映画的なリズムが欠如している。これにより、テンプレート化されたビジュアルと魅力のないナラティブが生じている。この問題を解決するため、我々はFilMasterを紹介する。これは、プロフェッショナルグレードの映画生成のために現実世界の映画制作原則を統合したエンドツーエンドのAIシステムであり、編集可能な業界標準の出力を生成する。FilMasterは、以下の2つの主要な原則に基づいて構築されている:(1) 広範な現実世界の映画データから撮影技術を学習すること、(2) プロフェッショナルで観客中心のポストプロダクションワークフローを模倣すること。これらの原則に基づき、FilMasterは2つの段階を組み込んでいる:ユーザー入力をビデオクリップに変換するReference-Guided Generation Stageと、視覚的および聴覚的要素を調整して映画的なリズムを実現するために生の映像をオーディオビジュアル出力に変換するGenerative Post-Production Stageである。我々の生成段階では、440,000の映画クリップからなる大規模なコーパスから参照クリップを検索し、AIがプロフェッショナルなカメラ言語を生成するのを導くMulti-shot Synergized RAG Camera Language Designモジュールを強調している。我々のポストプロダクション段階では、シミュレートされた観客フィードバックに基づくRough CutとFine Cutプロセスを含むAudience-Centric Cinematic Rhythm Controlモジュールを設計し、視聴覚要素を効果的に統合して魅力的なコンテンツを実現するためにプロフェッショナルなワークフローを模倣している。このシステムは、(M)LLMsやビデオ生成モデルなどの生成AIモデルによって強化されている。さらに、我々はAI生成映画を評価するための包括的なベンチマークであるFilmEvalを紹介する。広範な実験により、FilMasterがカメラ言語設計と映画的なリズム制御において優れた性能を示し、プロフェッショナルな映画制作における生成AIの進歩を促進することが示された。
Biomed-Enrichedを紹介する。これは、PubMedから2段階のアノテーションプロセスを経て構築された生物医学テキストデータセットである。第1段階では、大規模言語モデルがPubMedの科学記事から40万段落をアノテーションし、そのタイプ(レビュー、研究、臨床症例、その他)、ドメイン(臨床、生物医学、その他)、および教育品質スコアを割り当てる。教育品質スコア(1から5で評価)は、大学レベルの学習において段落がどれほど有用であるかを推定する。これらのアノテーションは、その後、小規模言語モデルのファインチューニングに使用され、PMC-OAコーパス全体にラベルを伝播させる。結果として得られるメタデータにより、商用利用ライセンスを持つ記事から45万以上の高品質な臨床症例段落を含む200万の臨床症例段落を抽出し、品質フィルタリングとドメインアップサンプリングを通じて複数のバリエーションを構築することが可能となる。臨床テキストは通常、プライバシー制約のためアクセスが困難であり、病院記録は公開できない。したがって、本データセットは、PubMedから得られた大規模でオープンに利用可能な臨床症例の代替コレクションを提供し、生物医学および臨床NLPにとって貴重なリソースとなる。OLMo2を用いた予備的な継続的プレトレーニング実験では、これらのキュレーションされたサブセットがターゲットを絞った改善を可能にし、臨床アップサンプリングによりMMLU ProfMedのパフォーマンスが約5%向上し、教育品質フィルタリングによりMedQAとMedMCQAが約1%向上することが示された。これらの技術を組み合わせることで、より速い収束が達成され、トレーニングトークンの3分の1で同じパフォーマンスに到達し、より効率的で効果的な生物医学プレトレーニング戦略の可能性を示唆している。
AIデバッグの有効性は予測可能な指数関数的減衰パターンに従う。ほとんどのモデルでは、実用的なコード生成システムにとって重要な能力である反復的デバッグにもかかわらず、わずか2~3回の試行でデバッグ能力の60~80%を失う。本論文では、デバッグが無効になるタイミングを定量化し、介入ポイントを予測する数学的フレームワークである「デバッグ減衰指数(Debugging Decay Index, DDI)」を提案する。我々の戦略的リスタートアプローチは、デバッグプロセスの戦略的ポイントで探索から活用へとシフトし、適切なタイミングでの介入がデバッグの有効性を回復できることを実証する。DDIは、現在のAIデバッグにおける根本的な限界を明らかにし、反復的コード生成戦略を最適化するための初の定量的フレームワークを提供する。