翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルは、人工知能の多くの応用分野でのブレークスルーを可能にしましたが、その巨大さゆえに、計算コストが高く、リソースに制約のある環境での展開が困難です。本論文では、最先端の「小規模」(17億パラメータ)言語モデル(LM)であるSmolLM2の開発を文書化します。高い性能を実現するために、Webテキストと専門的な数学、コード、および命令に従うデータを混合した、約11兆トークンのデータでSmolLM2を過学習させる多段階トレーニングプロセスを採用しています。既存のデータセットが問題となるほど小さくまたは低品質であると判断された段階で、新しい専門データセット(FineMath、Stack-Edu、SmolTalk)を追加します。設計上の決定を行うために、小規模な削減実験と、前段階のパフォーマンスに基づいて各段階でデータセットの混合率を更新する手作業の改良プロセスを実施します。最終的に、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bを含む他の最近の小規模LMを凌駕することを示します。LMの開発および小規模LMの応用に関する将来の研究を促進するために、このプロジェクトの過程で準備したすべてのデータセットとともに、SmolLM2を公開します。
大規模言語モデルにおいて複雑な推論がどのようにして生じるかという理解に挑戦する基本的な発見を提供します。従来の常識では、洗練された推論タスクには多大なトレーニングデータ(>100,000の例)が必要とされると考えられていますが、我々は驚くほど少ない例で複雑な数学的推論能力を効果的に引き出すことができることを実証します。包括的な実験を通じて、提案されたモデルLIMOは数学的推論において前例のない性能を示します。わずか817の選別されたトレーニングサンプルで、LIMOはAIMEで57.1%、MATHで94.8%の精度を達成し、以前のSFTベースのモデルのそれぞれ6.5%と59.2%から向上させます。これは、従来の手法に比べて必要なトレーニングデータの1%しか使用していません。LIMOは、10の異なるベンチマークで40.5%の絶対改善を達成し、100倍のデータでトレーニングされたモデルを上回り、SFTが汎化ではなく記憶につながるという概念に挑戦します。これらの結果に基づき、我々は「Less-Is-More Reasoning Hypothesis(LIMO仮説)」を提案します。この仮説は、事前トレーニング中にドメイン知識が包括的にエンコードされた基礎モデルにおいて、洗練された推論能力が、認知プロセスの最小限のが適切に編成されたデモンストレーションを通じて生じる可能性があるというものです。この仮説は、複雑な推論の引き出しの閾値が、(1) モデルの事前トレーニング中にエンコードされた知識基盤の完全性、および(2) ポストトレーニングの例がモデルに知識ベースを活用して複雑な推論タスクを解決する方法を示す「認知テンプレート」としての効果によって決定されると仮定しています。データ効率の高い推論の再現性と将来の研究を促進するために、我々はLIMOを包括的なオープンソーススイートとしてリリースします。
推論計算のスケーリングは、大規模言語モデル(LLMs)における推論を強化し、長い思考の連鎖(CoTs)がバックトラッキングやエラー訂正などの戦略を可能にします。強化学習(RL)は、これらの能力を開発するための重要な手法として登場していますが、長いCoTsが発生する条件は依然として不明であり、RLのトレーニングには慎重な設計選択が必要です。本研究では、長いCoT推論のメカニクスを体系的に調査し、モデルが長いCoT軌跡を生成するための主要要因を特定します。包括的な教師付き微調整(SFT)とRL実験を通じて、以下の4つの主な結果を示します:(1)SFTは厳密に必要ではありませんが、トレーニングを簡素化し効率を向上させます;(2)推論能力はトレーニング計算量の増加とともに発現する傾向がありますが、その発展は保証されておらず、CoT長の成長を安定化させるために報酬の形成が重要です;(3)検証可能な報酬信号のスケーリングはRLにとって重要です。ノイズの多いWebから抽出された解決策をフィルタリングメカニズムと組み合わせることが、特にSTEM推論などの分布外タスクに対して強力な潜在能力を示すことがわかりました;そして(4)エラー訂正などの基本的な能力はベースモデルに元々備わっていますが、これらのスキルを効果的にRLによって複雑なタスクに対してインセンティブ付けするには、膨大な計算が必要であり、その発現を測定するには微妙なアプローチが必要です。これらの知見は、LLMsにおける長いCoT推論を強化するためのトレーニング戦略を最適化するための実践的なガイダンスを提供します。当該コードは以下から入手可能です:https://github.com/eddycmu/demystify-long-cot.
社会的出現の研究は長い間社会科学の中心的焦点となってきました。従来のモデリング手法、例えばルールベースのエージェントベースモデル(ABM)は、特に行動経済学で強調される非合理な要因を捉えるのに苦労しています。最近、大規模言語モデル(LLM)エージェントが、社会科学やロールプレイングアプリケーションで人間の行動をモデル化するシミュレーションツールとして注目を集めています。研究によると、LLMは認知バイアス、感情の変動、および他の非合理的な影響を考慮に入れることができ、より現実的な社会経済ダイナミクスのシミュレーションを可能にします。本研究では、LLMを活用した新しいマルチエージェントフレームワークであるTwinMarketを紹介します。具体的には、個々の行動が相互作用やフィードバックメカニズムを通じて集団ダイナミクスや新興現象を生み出す過程を調査します。シミュレートされた株式市場環境での実験を通じて、個々の行動が集団行動を引き起こし、金融バブルや不況などの新興結果につながる様子を示します。当社のアプローチは、個々の意思決定と集団社会経済パターンとの複雑な相互作用に関する貴重な示唆を提供します。
マルチモーダル大規模言語モデル(MLLMs)は印象的な能力を示していますが、複雑な視覚推論にはまだ課題があります。最近の取り組みでは、OpenAI o1のような構造化された思考を明示的な探索構造や教師による蒸留を取り入れることで、MLLMsの推論能力を向上させようとしていますが、性能と効率のバランスが難しいという課題があります。重要な制限事項は、広範なデータと探索空間に大きく依存しており、低効率な暗黙の洞察抽出とデータ利用をもたらしています。この課題に対処するために、私たちはAStarを提案します。これは、Monte Carlo Tree Search(MCTS)を介したマルチモーダル推論のための自動化された構造化思考パラダイムです。AStarは、MCTSによる階層的構造を活用して、限られたデータから高レベルの認知推論パターンを自動的に導き出します。これらの明示的なパターンを基に、モデルの内部推論能力と外部推論ガイドラインをシームレスに統合した統一された推論フレームワークを設計し、ツリーの反復を最小限に抑えつつ効率的な推論を可能にします。この新しいパラダイムは、性能と効率の間に魅力的なバランスを実現しています。幅広い実験により、AStarの効果が示され、MathVerseベンチマークで7Bバックボーンを使用して優れた精度(54.0%)を達成し、GPT-4o(50.2%)を上回りながら、大幅なデータと計算効率を維持しています。
認知に合った層状SVGの生成は、既存の手法が過度に単純化された単一層の出力または最適化による形状の冗長性のいずれかに偏る傾向があるため、依然として課題が残っています。本研究では、LayerTracerという拡散トランスフォーマーに基づくフレームワークを提案し、新しいデータセットからデザイナーの層状SVG作成プロセスを学習することで、このギャップを埋めることを目指します。当該手法は、2つの段階で操作されます。まず、テキスト条件付きのDiTが、人間のデザインワークフローをシミュレートする多段階のラスタ化された構築設計図を生成します。次に、層ごとのベクトル化とパスの重複排除により、クリーンで編集可能なSVGが生成されます。画像のベクトル化においては、参照画像を潜在トークンにエンコードする条件付き拡散メカニズムを導入し、階層的再構築をガイドしながら構造の完全性を保持します。幅広い実験により、LayerTracerは、生成品質と編集可能性の両方において、最適化ベースおよびニューラルベースラインに対して優れた性能を発揮し、AIによって生成されたベクトルを専門家のデザイン認知に効果的に整合させます。
大規模言語モデル(LLMs)は、chain-of-thought(CoT)データで訓練されると、推論や計画立案に優れています。ここでは、ステップバイステップの思考プロセスがテキストトークンによって明示的に示されます。しかしながら、これにより、多くの単語が本質的な推論情報ではなくテキストの一貫性を支えるため、入力が長大になり、これらの入力を処理するのに膨大な計算リソースが必要となります。本研究では、推論プロセスのハイブリッド表現を提案し、VQ-VAEによって生成された潜在的な離散トークンを使用して初期の推論ステップを部分的に抽象化することで、推論トレースの長さを大幅に削減します。私たちは、潜在的なトレースの抽象化の使用を、以下の2つのシナリオで探求します:1)Keys-Finding Maze問題のためにモデルをゼロから訓練すること、2)このハイブリッドデータでLLMsをファインチューニングすること。ここでは、未知の潜在トークンを含む拡張語彙を使用し、論理的および数学的推論問題に対応します。効果的な学習を促進するために、潜在トークンとテキストトークンをランダムに混合する簡単なトレーニング手順を導入し、新しい潜在トークンへの迅速な適応を可能にします。私たちのアプローチは、さまざまなベンチマークでベースライン手法を一貫して上回ることが示されています。
言語モデル(LM)の事後トレーニングは、ますます以下の2つの段階に依存するようになっています:(i)知識蒸留、つまり、LMがより大きな教師LMを模倣するようにトレーニングされる段階、および(ii)人間のフィードバックからの強化学習(RLHF)、つまり、LMが報酬モデルを最適化することで整列される段階です。第2のRLHF段階では、報酬ハッキングとして知られる課題があり、そこではLMが報酬モデルを過度に最適化します。このような現象はGoodhartの法則に沿っており、真の目的に対する性能の低下につながる可能性があります。本論文では、知識蒸留中に教師ハッキングと呼ぶ類似の現象が発生する可能性があるかどうかを調査します。これは、教師LM自体が真の分布の不完全な近似であるために起こり得ます。これを研究するために、次のような制御された実験セットアップを提案します:(i)真の分布を表すオラクルLM、(ii)オラクルから蒸留された教師LM、および(iii)教師から蒸留された生徒LM。私たちの実験は、次の洞察を明らかにします。蒸留のための固定オフラインデータセットを使用すると、教師ハッキングが発生します。さらに、最適化プロセスが多項式収束法から逸脱するときにそれを検出できます。対照的に、オンラインデータ生成技術を使用すると、教師ハッキングを効果的に緩和できます。より具体的には、データの多様性をハッキングを防ぐための主要要因として特定します。全体として、私たちの研究結果は、頑健で効率的なLMを構築するための蒸留の利点と限界についてのより深い理解を提供します。
自動コード生成は、知的コンピュータプログラミングとシステム展開において重要性を増しています。しかしながら、現行のアプローチは、計算効率の課題やコードの解析およびエラー修正のための堅牢なメカニズムの不足に直面しています。本研究では、Pythonコード生成のための効率的な自己デバッグモジュールと、シンプルかつ効果的な2つのエージェントパイプラインを備えた新しいフレームワークであるPyCapsuleを提案しています。PyCapsuleは洗練されたプロンプト推論、反復的なエラーハンドリング、およびケーステストを特徴とし、高い生成安定性、安全性、および正確性を確保します。経験的には、PyCapsuleは、HumanEvalにおいて成功率が最大5.7%、HumanEval-ETにおいて10.3%、BigCodeBenchにおいて24.4%向上し、最先端の手法と比較して正確性が向上しています。また、自己デバッグの試行回数が増えると正規化された成功率が低下する傾向が見られ、これは保持されたエラーフィードバックが限られておりノイズがあることに影響を受ける可能性があります。PyCapsuleは、人工知能システムのための軽量かつ効率的なコード生成の推進に広範な影響を示しています。
大規模言語モデル(LLMs)は、モデルサイズやデータのスケーリングを通じて著しい性能向上を達成しています。しかし、最近の証拠からは、そのようなアプローチからの収益の減少が示唆されており、推論時に費やす計算量をスケーリングする動機付けがされています。既存の推論時スケーリング手法は、通常、報酬モデルを用いて、タスクを探索問題として捉えますが、報酬モデルの近似誤差による報酬ハッキングへの脆弱性があります。本論文では、推論時スケーリングを確率推論タスクとして捉え、サンプリングベースの技術を活用して、状態空間モデルの状態分布の典型的なセットを探索し、近似尤度を用いて最適化するのではなく、そのモードを直接最適化する代わりに、新しい推論時スケーリングアプローチを提案します。我々は、このタスクに粒子ベースのモンテカルロ法を適応させることで、我々の手法がさまざまな難解な数学的推論タスクにおいて、決定論的探索手法に比べて4〜16倍のスケーリング率を持つことを実証しています。我々のアプローチを用いることで、Qwen2.5-Math-1.5B-Instructはわずか4回のロールアウトでGPT-4oの精度を上回ることができ、Qwen2.5-Math-7B-Instructはわずか32回のロールアウトでo1レベルの精度にスケーリングすることができます。本研究は、推論時スケーリングに対する効果的な手法を提示するだけでなく、確率推論の豊富な文献とLLMsの推論時スケーリングを結びつけ、将来のより堅牢なアルゴリズムの開発につながるものです。コードや詳細情報は、https://probabilistic-inference-scaling.github.io で入手可能です。
近年、大規模言語モデル(LLMs)は急速な発展を遂げ、さまざまなアプリケーションを革新し、利便性と生産性を著しく向上させています。しかしながら、その印象的な能力と並行して、倫理的懸念やジェイルブレイキングなどの新しい攻撃手法が浮上しています。ほとんどのプロンプティング技術は、個々のケースに対して敵対的な入力を最適化することに焦点を当てており、大規模データセットを扱う際にはより高い計算コストが発生します。一般的な設定で未知のタスクに転送できる普遍的な攻撃者を訓練するというより一般的な研究は少ないです。本論文では、JUMPという、普遍的なマルチプロンプトを使用してLLMsをジェイルブレイクするためのプロンプトベースの手法を紹介します。また、我々のアプローチを防御のために適応させたものをDUMPと呼びます。実験結果は、普遍的なマルチプロンプトを最適化するための我々の手法が既存の技術を凌駕していることを示しています。
モデル統合は、複数の微調整された大規模言語モデル(LLM)のパラメータと埋め込みを組み合わせる手法であり、計算効率を維持しながらさまざまなタスクでモデルの性能を向上させる有望なアプローチを提供します。本論文では、Activation-Informed Merging(AIM)という手法を紹介し、LLMの活性化空間からの情報を統合プロセスに取り込むことで性能と頑健性を向上させます。AIMは、既存の統合手法に適用可能な柔軟で補完的なソリューションとして設計されています。AIMは、基本モデルから重要な重みを保持することを目指し、継続学習(CL)とモデル圧縮の原則に基づいています。タスクに依存しないキャリブレーションセットを利用して、AIMは統合時に重要な重みを選択的に優先します。我々は実験的に示し、AIMが複数のベンチマークで統合モデルの性能を著しく向上させることを証明しています。我々の研究結果は、活性化空間情報を考慮することが、LLMのモデル統合戦略において大幅な進展をもたらし、ベンチマーク性能が最大40%向上する可能性があることを示唆しています。
Retrieval-Augmented Generation(RAG)は、外部の知識データベースを活用して、モデルパラメータを変更せずに、大規模言語モデル(LLM)が根拠のある応答を生成することを可能にします。重み調整の欠如により、モデルパラメータを介した情報漏洩を防ぐ一方で、リトリーブされた文書がモデルの文脈で悪用されるリスクが生じます。既存のメンバーシップ推論およびデータ抽出手法は、しばしばジェイルブレイキングや注意深く作成された非自然なクエリに依存しており、これらはRAGシステムで一般的なクエリ書き換え技術によって簡単に検出または阻止されます。本研究では、RAGデータストア内の文書を対象とするメンバーシップ推論手法であるInterrogation Attack(IA)を提案します。対象の文書の存在のみで回答可能な自然文のクエリを作成することにより、我々の手法は、30個のクエリだけで成功した推論を示し、かつ潜在的であり続けます。既存手法からの敵対的なプロンプトを、我々の攻撃によって生成されるものよりも約76倍多く検出する直感的な検出器が存在します。我々は、さまざまなRAG構成にわたる以前の推論攻撃に比べて、TPR@1%FPRで2倍の改善を観察し、かつ文書推論ごとに0.02ドル未満のコストで実現しています。
大規模言語モデル(LLM)の実世界への適用可能性を評価することは、ソフトウェア開発タスクでの開発と使用に関する貴重な洞察を提供します。既存のベンチマークは、独立したコーディング問題や特定のライブラリに焦点を当てており、複数のファイルやプロジェクトベースのシナリオを見落とし、一貫性の厳密な評価が欠けています。HackerRank-ASTRAベンチマークは、実世界のシナリオを反映したプロジェクトベースのコーディング問題を導入しています。これは、32回(k = 32)の実行と中央値標準偏差を通じてモデルの一貫性を評価し、サブスキルの能力を評価するために分類レベルの分析を組み込んでいます。65の問題についての初期評価では、トップ3のモデルであるo1、o1-preview、およびClaude-3.5-Sonnet-1022が、平均スコアが75%であり、パフォーマンスに統計的に有意な違いがないことが示されました。特筆すべきは、Claude-3.5-Sonnet-1022が問題全体で最も高い一貫性を示し、低い変動性(SD = 0.0497)を持っており、他のモデルと比較して統計的に有意であり、実世界のソフトウェア開発タスクにおける信頼性を強調しています。