翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)のコンテキスト制限が推論の精度と効率を妨げる問題を打破するため、我々は再帰的かつ分解的な問題解決のために訓練されたLLMファミリーであるThread Inference Model(TIM)と、コンテキスト制限を超えた長期的な構造化推論を可能にする推論ランタイムであるTIMRUNを提案する。TIMRUN上で動作するTIMは、単一の言語モデル推論内で事実上無制限の作業メモリとマルチホップツール呼び出しをサポートし、出力制限、位置埋め込みの制約、およびGPUメモリのボトルネックを克服する。この性能は、自然言語を線形シーケンスではなく長さと深さで測定される推論ツリーとしてモデル化することで達成される。推論ツリーは、Schroeder et al, 2025で提案された概念に基づくタスク、思考、再帰的サブタスク、および結論から構成される。生成中、我々はルールベースのサブタスク剪定メカニズムによって選択された最も関連性の高いコンテキストトークンのキー値状態のみを保持する作業メモリを維持し、推論全体を通じて位置埋め込みとGPUメモリページの再利用を可能にする。実験結果は、我々のシステムがGPUメモリ内のKVキャッシュの最大90%を操作する場合でも高い推論スループットを維持し、数学的タスクでの正確な推論と、長期的な推論とマルチホップツールの使用を必要とする情報検索の課題に対処できることを示している。
本論文では、産業レベルの音声理解と会話を実現するためのエンドツーエンドのマルチモーダル大規模言語モデル、Step-Audio~2を提案する。潜在音声エンコーダと推論中心の強化学習(RL)を統合することで、Step-Audio 2は自動音声認識(ASR)と音声理解において有望な性能を達成している。真のエンドツーエンド音声会話を実現するため、Step-Audio 2は離散音声トークンの生成を言語モデリングに組み込み、話し方や感情といったパラ言語情報への応答性を大幅に向上させている。現実世界のデータに含まれる豊富なテキストおよび音響知識を効果的に活用するため、Step-Audio 2は検索拡張生成(RAG)を統合し、ウェブ検索を呼び出して幻覚を軽減したり、音声検索を呼び出して音色を切り替えたりすることが可能である。数百万時間の音声および音響データで学習されたStep-Audio 2は、多様な会話シナリオにおいて知性と表現力を発揮する。評価結果は、Step-Audio 2が他のオープンソースおよび商用ソリューションと比較して、様々な音声理解および会話ベンチマークで最先端の性能を達成していることを示している。詳細については、https://github.com/stepfun-ai/Step-Audio2 を参照されたい。
科学的推論は、AI科学者の育成と人間の研究者が自然科学の発見の最前線を進める上で極めて重要です。しかし、オープンソースコミュニティは主に数学とコーディングに焦点を当てており、科学的領域を軽視してきました。これは主に、オープンで大規模かつ高品質で検証可能な科学的推論データセットの欠如によるものです。このギャップを埋めるため、まずTextbookReasoningを紹介します。これは12,000冊の大学レベルの科学教科書から抽出された真実の参照回答を特徴とするオープンデータセットで、7つの科学分野にわたる65万の推論問題を含んでいます。さらに、MegaScienceを導入します。これは1.25百万インスタンスの高品質オープンソースデータセットの大規模な混合物で、公開されている各科学データセットの最適なサブセットを特定するための体系的なアブレーション研究を通じて開発されました。一方で、15のベンチマークにわたる多様な科目と質問タイプをカバーする包括的な評価システムを構築し、正確な評価指標を確保するための包括的な回答抽出戦略を組み込みました。私たちの実験では、既存のオープンソース科学データセットと比較して、私たちのデータセットが優れた性能とトレーニング効率を達成し、より簡潔な応答長を示すことが実証されました。さらに、Llama3.1、Qwen2.5、Qwen3シリーズのベースモデルをMegaScienceでトレーニングし、対応する公式のinstructモデルを平均性能で大幅に上回りました。加えて、MegaScienceはより大きく強力なモデルに対してより効果的であり、科学的チューニングのスケーリング効果を示唆しています。私たちは、科学的推論研究を進めるため、データキュレーションパイプライン、評価システム、データセット、および7つのトレーニング済みモデルをコミュニティに公開します。
ビジョン・ランゲージ・アクション(VLA)推論タスクでは、エージェントがマルチモーダルな指示を解釈し、長期的な計画を立て、動的な環境において適応的に行動する能力が求められます。既存のアプローチでは、VLAモデルをエンドツーエンドで訓練し、入力から直接アクションにマッピングするため、明示的な推論が欠如しており、複数ステップにわたる計画や複雑なタスクのバリエーションへの適応が妨げられています。本論文では、高レベルの推論と低レベルのアクション実行を強化された視覚的潜在計画によって橋渡しするデュアルシステムフレームワーク「ThinkAct」を提案します。ThinkActは、マルチモーダルな大規模言語モデル(LLM)を訓練し、目標達成と軌道の一貫性に基づくアクション整合型の視覚的報酬に導かれた具現化された推論計画を生成します。これらの推論計画は視覚的計画潜在変数に圧縮され、下流のアクションモデルを条件付けることで、ターゲット環境におけるロバストなアクション実行を実現します。具現化推論とロボット操作のベンチマークにおける広範な実験を通じて、ThinkActが複雑な具現化AIタスクにおいて、少数ショット適応、長期的計画、自己修正行動を可能にすることが実証されました。
拡散トランスフォーマーは、高忠実度の画像および動画生成においてU-netベースの拡散モデルに代わる手法として登場し、優れたスケーラビリティを提供している。しかし、その重い計算負荷は実世界での展開における主要な障害となっている。既存の高速化手法は、主に拡散タイムステップ間でキャッシュされた特徴を再利用するなど、時間次元を活用している。本論文では、空間次元に沿って推論を高速化するトレーニング不要のフレームワークであるRegion-Adaptive Latent Upsampling (RALU)を提案する。RALUは、以下の3段階にわたる混合解像度サンプリングを実行する:1) 低解像度でのノイズ除去潜在拡散により、効率的にグローバルな意味構造を捕捉する、2) フル解像度でアーティファクトが発生しやすい特定の領域に対して領域適応型アップサンプリングを行う、3) 詳細なリファインメントのためにフル解像度で全ての潜在をアップサンプリングする。解像度遷移における生成の安定化のために、ノイズレベルを異なる解像度に適応させるためにノイズタイムステップの再スケジューリングを活用する。本手法は、FLUXで最大7.0倍、Stable Diffusion 3で3.0倍の高速化を達成し、画像品質を維持しながら計算量を大幅に削減する。さらに、RALUはキャッシュ手法などの既存の時間的高速化手法と補完的であり、生成品質を損なうことなく推論レイテンシをさらに削減するためにシームレスに統合することが可能である。
人間は複雑な問題を解決する際、図表やスケッチなどの視覚的補助をよく用います。同様のことを行うマルチモーダルモデルを訓練すること、すなわちVisual Chain of Thought(Visual CoT)は、以下の理由から困難です:(1) 既存のVisual CoTの性能が低く、強化学習を妨げること、(2) 高品質なVisual CoT訓練データの不足。我々はZebra-CoTを導入しました。これは182,384サンプルからなる多様で大規模なデータセットで、論理的に一貫したテキストと画像の交互に現れる推論の軌跡を含んでいます。我々は特にスケッチや視覚的推論が自然に適用される4つのカテゴリのタスクに焦点を当てました。これには幾何学、物理学、アルゴリズムなどの科学的問題、視覚探索やジグソーパズルなどの2D視覚推論タスク、3D多段階推論、エンボディメントやロボット計画を含む3D推論タスク、視覚的論理問題やチェスなどの戦略ゲームが含まれます。Anole-7BモデルをZebra-CoT訓練コーパスでファインチューニングした結果、テストセットの精度が+12%向上し、標準的なVLMベンチマーク評価では最大+13%の性能向上が得られました。Bagel-7Bのファインチューニングでは、高品質な交互に現れる視覚的推論チェーンを生成するモデルが得られ、Zebra-CoTがマルチモーダル推論能力の開発に有効であることが示されました。我々はデータセットとモデルをオープンソース化し、Visual CoTの開発と評価を支援します。
大規模視覚言語モデル(LVLM)に視覚的スローシンキング推論を組み込むことは、複雑なマルチモーダルタスクを解決する上で重要です。しかし、LVLMは主に視覚と言語のアラインメントで訓練されているため、初期能力によってロールアウト空間が制限されるため、スローシンキング能力を開発するためのオン・ポリシー強化学習(RL)を採用することは困難です。オフ・ポリシーRLは現在のポリシーを超える方法を提供しますが、外部モデルから直接軌跡を蒸留すると、モデル間の視覚知覚能力の不一致により視覚的幻覚が生じる可能性があります。これらの問題に対処するため、本論文ではSOPHIAを提案します。SOPHIAは、訓練可能なLVLMからのオン・ポリシー視覚理解と言語モデルからのオフ・ポリシースローシンキング推論を組み合わせてセミ・オフ・ポリシー行動モデルを構築し、推論に結果ベースの報酬を割り当て、視覚報酬を後方に伝播します。その後、LVLMはオフ・ポリシーRLアルゴリズムを使用して、得られた推論軌跡から伝播された報酬を用いてスローシンキング推論能力を学習します。8Bおよび38BサイズのInternVL2.5とInternVL3.0を用いた広範な実験により、SOPHIAの有効性が示されました。特に、SOPHIAはInternVL3.0-38Bを平均8.50%向上させ、複数のマルチモーダル推論ベンチマークでオープンソースLVLMの中でも最先端の性能を達成し、挑戦的なMathVisionとOlympiadBenchでは一部のクローズドソースモデル(例:GPT-4.1)を上回り、それぞれ49.08%と49.95%のpass@1精度を達成しました。分析によると、SOPHIAは教師あり微調整と直接オン・ポリシーRL手法を上回り、さらなるオン・ポリシー訓練のためのより良いポリシー初期化を提供します。
視覚言語モデル(VLM)は、自律的な計画を可能にするためにロボティクス分野で広く採用されている。しかし、インターネットデータで訓練されたVLMを多様な実世界のロボットに適用することは依然として課題である。本論文では、ExpTeachを提案する。これは、実世界の経験から自己生成されたメモリを構築することで、VLMを物理的なロボットに適用するフレームワークである。ExpTeachでは、VLMが自律的に行動を計画し、結果を検証し、失敗を反映し、ロボットの行動を閉ループで適応させる。このプロセス中に生成された経験は、長期的なメモリに要約され、検索拡張生成(RAG)を通じて将来のタスクを導くための学習済み知識の検索を可能にする。さらに、ExpTeachは、オンデマンドの画像注釈モジュールを用いてVLMの空間理解を強化する。実験では、4つの困難なロボットタスクにおいて、失敗の反映が成功率を36%から84%に向上させ、創造的な道具の使用を含む知的な物体相互作用の出現を観察した。12の実世界シナリオ(うち8つは未見のもの)での広範なテストを通じて、長期的なメモリを用いた適用が単一試行の成功率を22%から80%に向上させ、ExpTeachの有効性と汎用性を実証した。
大規模言語モデル(LLMs)の急速な進展に伴い、正確なガイダンスを提供するための効果的な批評モジュールの開発が重要でありながらも困難な課題となっている。本論文では、まず、批評モジュールの構築のために広く採用されている教師ありファインチューニングが、モデルの批評能力を真に向上させることに失敗し、表面的な批評しか生成せず、十分な考察と検証を欠いていることを示す。未踏の批評能力を引き出すために、我々はRefCriticを提案する。これは、二重のルールベース報酬を用いた強化学習に基づく長い連鎖思考(long-chain-of-thought)批評モジュールであり、(1) 解決策の判断におけるインスタンスレベルの正確性と、(2) 批評に基づくポリシーモデルの改善精度を報酬として、効果的なモデル改善を導くための実行可能なフィードバックを伴う高品質な評価を生成することを目指す。RefCriticをQwen2.5-14B-InstructおよびDeepSeek-R1-Distill-Qwen-14Bにおいて5つのベンチマークで評価した。批評と改善の設定において、RefCriticはすべてのベンチマークで一貫した優位性を示し、例えばAIME25においてそれぞれのベースモデルに対して6.8%および7.2%の向上を達成した。特に、多数決投票において、RefCriticによってフィルタリングされたポリシーモデルは、投票数が増えるにつれて優れたスケーリングを示した。さらに、解決策レベルの監視で訓練されているにもかかわらず、RefCriticは数学的推論における誤ったステップを特定するためのベンチマークであるProcessBenchにおいて、ステップレベルの教師ありアプローチを上回る性能を示した。
既存の画像誘導型合成手法は、前景オブジェクトをユーザー指定の背景画像領域に挿入し、その領域内で自然なブレンディングを実現しつつ、画像の他の部分を変更せずに保つことに役立つ場合があります。しかし、これらの既存手法は、人間とオブジェクトの相互作用を含むタスクにおいて、シームレスなインタラクションを考慮した合成を行う際にしばしば困難に直面することが観察されます。本論文ではまず、前景オブジェクトを人間中心の背景画像に合成しつつ、前景オブジェクトと背景人物との調和の取れた相互作用と、それらの一貫した外観を確保するための新しいアプローチであるHOCompを提案します。我々のアプローチは、以下の2つの主要な設計を含みます:(1) MLLMsを活用した領域ベースのポーズガイダンス(MRPG)。これは、MLLMsを用いて相互作用領域と相互作用タイプ(例:保持、持ち上げ)を特定し、生成されるポーズに対して粗から細までの制約を提供するとともに、人間のポーズランドマークを組み込んでアクションのバリエーションを追跡し、細かなポーズ制約を強化します。(2) 詳細一貫性のある外観保存(DCAP)。これは、形状を考慮したアテンションモジュレーション機構、マルチビュー外観損失、および背景一貫性損失を統合し、前景の形状/テクスチャの一貫性と背景人物の忠実な再現を確保します。さらに、このタスク向けに初めてのデータセットである「インタラクションを考慮した人間-オブジェクト合成(IHOC)」を提案します。我々のデータセットを用いた実験結果は、HOCompが調和の取れた人間-オブジェクト相互作用を一貫した外観で効果的に生成し、関連手法を質的・量的に上回ることを示しています。
大規模言語モデル(LLMs)の最近の進展により、学術文献検索に新たな機会が開かれました。しかし、既存のシステムはしばしば硬直的なパイプラインに依存し、限定的な推論能力しか示しません。本論文では、より柔軟で効果的な検索を可能にするため、RefChainベースのクエリ分解とクエリ進化を組み込んだマルチエージェントフレームワークであるSPARを紹介します。体系的な評価を促進するため、専門家による関連性ラベルが付与された挑戦的なベンチマークであるSPARBenchも構築しました。実験結果は、SPARが強力なベースラインを大幅に上回り、AutoScholarでは最大+56%のF1スコア、SPARBenchでは+23%のF1スコアを達成することを示しています。SPARとSPARBenchは、学術検索の研究を進めるためのスケーラブルで解釈可能かつ高性能な基盤を提供します。コードとデータは以下で公開されます: https://github.com/xiaofengShi/SPAR
量子化は、ネットワークパラメータを低精度で表現することにより、ネットワークサイズと計算複雑性を削減するための重要な技術である。従来の量子化手法は、プライバシーやセキュリティ上の懸念から制限されることが多い、元の訓練データへのアクセスに依存している。ゼロショット量子化(ZSQ)は、事前訓練済みモデルから生成された合成データを使用することで、実際の訓練データを必要としない点でこの問題に対処する。最近、ZSQは物体検出に拡張された。しかし、既存の手法では、物体検出に必要な特定の情報を欠いたラベルなしのタスク非依存の合成画像を使用しており、最適な性能が得られていない。本論文では、物体検出ネットワーク向けの新しいタスク特化型ZSQフレームワークを提案する。このフレームワークは、主に2つの段階から構成される。まず、事前訓練済みネットワークからタスク特化のキャリブレーションセットを合成するために、バウンディングボックスとカテゴリサンプリング戦略を導入し、物体の位置、サイズ、カテゴリ分布を事前知識なしで再構築する。次に、量子化された検出ネットワークの性能を回復するために、タスク特化の訓練を知識蒸留プロセスに統合する。MS-COCOおよびPascal VOCデータセットで実施した広範な実験により、本手法の効率性と最先端の性能が実証された。本手法のコードは、https://github.com/DFQ-Dojo/dfq-toolkit で公開されている。
AIシステムをパーソナライズするためには、ユーザーの好みだけでなく、その好みの背後にある理由を理解する必要がある。しかし、現在の選好モデルは、人間の判断をブラックボックスとして扱うことが一般的である。本論文では、PrefPaletteというフレームワークを紹介する。このフレームワークは、選好を属性次元に分解し、人間が理解可能な形で異なるソーシャルコミュニティの価値観に合わせて選好予測を調整する。PrefPaletteは、認知科学の原則である多属性意思決定を2つの方法で実践する:(1) 個々の属性効果(例:形式性、ユーモア、文化的価値観)を分離するために合成トレーニングデータを生成するスケーラブルな反事実的属性合成ステップ、(2) 異なるソーシャルコミュニティがこれらの属性を動的に重み付けする方法を学習するアテンションベースの選好モデリング。このアプローチは、集約的な選好モデリングを超えて、人間の判断を駆動する多様な評価フレームワークを捉える。オンラインプラットフォームRedditの45のソーシャルコミュニティで評価した結果、PrefPaletteはGPT-4oを平均予測精度で46.6%上回った。予測精度の向上に加えて、PrefPaletteは直感的でコミュニティ固有のプロファイルを明らかにした:学術的なコミュニティは詳細さと刺激を重視し、対立志向のコミュニティは皮肉と直接性を価値とし、支援ベースのコミュニティは共感を強調する。人間の判断の属性媒介構造をモデル化することで、PrefPaletteは優れた選好モデリングと透明で解釈可能な洞察を提供し、より信頼性が高く価値認識型のパーソナライズドアプリケーションに向けた第一歩となる。
3Dガウシアンスプラッティングは、その高忠実度な再構成とリアルタイムの新視点合成で知られているが、意味理解の欠如がオブジェクトレベルの知覚を制限している。本研究では、3Dシーン再構成と意味理解を統合するオブジェクト認識フレームワークであるObjectGSを提案する。ObjectGSは、シーンを統一された全体として扱うのではなく、個々のオブジェクトをローカルアンカーとしてモデル化し、ニューラルガウシアンを生成し、オブジェクトIDを共有することで、精密なオブジェクトレベル再構成を可能にする。トレーニング中、これらのアンカーを動的に成長または剪定し、その特徴を最適化する一方で、ワンホットIDエンコーディングと分類損失が明確な意味的制約を課す。広範な実験を通じて、ObjectGSがオープン語彙およびパノプティックセグメンテーションタスクにおいて最先端の手法を上回るだけでなく、メッシュ抽出やシーン編集などのアプリケーションとシームレスに統合することを示す。プロジェクトページ: https://ruijiezhu94.github.io/ObjectGS_page
最近、Zarembaらは、推論時の計算量を増やすことが大規模な専有推論LLMの頑健性を向上させることを実証した。本論文ではまず、小規模なオープンソースモデル(例:DeepSeek R1、Qwen3、Phi-reasoning)も、単純な予算強制戦略を用いることで推論時のスケーリングの恩恵を受けられることを示す。さらに重要なことに、我々は先行研究における暗黙の仮定、すなわち中間推論ステップが敵対者から隠されているという前提を明らかにし、批判的に検証する。この仮定を緩和することで、重要なセキュリティリスクを特定し、直感的に動機付けられ、経験的に検証された逆スケーリング則を明らかにする:中間推論ステップが明示的にアクセス可能になると、推論時の計算量の増加は一貫してモデルの頑健性を低下させる。最後に、推論チェーンが隠されているモデルでも、ツール統合型推論や高度な推論抽出攻撃などの攻撃に対して脆弱である実用的なシナリオについて議論する。我々の知見は、推論時のスケーリングによる頑健性の向上は、敵対的設定と展開コンテキストに大きく依存することを示している。セキュリティが重要な実世界のアプリケーションに推論時のスケーリングを適用する前に、これらの微妙なトレードオフを慎重に検討するよう実践者に強く促す。
大規模言語モデル(LLM)のファインチューニングは、意図しない分布外汎化を引き起こす可能性がある。この問題に対する標準的なアプローチは、トレーニングデータを変更することに依存しており、例えば、意図した汎化をより明確にするデータを追加するなどが挙げられる。しかし、これは常に実用的とは限らない。本研究では、トレーニングデータを変更したり、ターゲット分布のデータを使用したりすることなく、LLMの汎化を制御するために解釈可能性ツールを活用する「概念除去ファインチューニング(CAFT)」という手法を提案する。CAFTは、LLMの潜在空間内で望ましくない概念に対応する方向のセットが与えられた場合、ファインチューニング中に線形射影を用いてこれらの概念を除去し、意図しない汎化からモデルを遠ざける。我々はCAFTを3つのファインチューニングタスクに適用し、その中には、狭いタスクにファインチューニングされたLLMが一般的な質問に対して著しく不適切な応答を生成する「エマージェント・ミスアライメント」という現象も含まれる。ファインチューニングデータを変更することなく、CAFTは不適切な応答を10分の1に削減し、トレーニング分布における性能を低下させることなく成果を達成した。全体として、CAFTはトレーニングデータを変更せずにLLMの汎化を制御する新たなアプローチを提供する。