翻訳付きの日次キュレーションされたAI研究論文
アラビア語のテキスト発音記号付与は、その言語の形態的豊かさゆえに自然言語処理における持続的な課題となっている。本論文では、Kuwain 1.5B Hennara et al. [2025]から適応された、デコーダのみの言語モデルに基づく新たなアプローチであるSadeedを紹介する。Kuwain 1.5Bは、多様なアラビア語コーパスで学習されたコンパクトなモデルである。Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、高品質な発音記号付与データセットで微調整されている。限られた計算資源を利用しているにもかかわらず、Sadeedはプロプライエタリな大規模言語モデルと比較して競争力のある結果を達成し、類似のドメインで学習された従来のモデルを上回る性能を示す。さらに、現在のアラビア語発音記号付与のベンチマーク手法における主要な限界点を指摘する。これらの問題に対処するため、多様なテキストジャンルと複雑さレベルにわたって公平かつ包括的な評価を可能にする新しいベンチマークであるSadeedDiac-25を導入する。SadeedとSadeedDiac-25は、機械翻訳、テキスト読み上げ、言語学習ツールを含むアラビア語NLPアプリケーションの進展に向けた堅固な基盤を提供する。
OpenAI-o1やDeepSeek-R1などの大規模推論モデル(LRM)は、長期的な推論能力において優れた性能を発揮します。しかし、これらのモデルは静的な内部知識に依存しているため、複雑で知識集約的なタスクにおける性能が制限され、多様なウェブ情報を統合した包括的な研究レポートの作成能力が妨げられています。この問題を解決するため、我々はWebThinkerを提案します。これは、LRMが推論プロセス中に自律的にウェブを検索し、ウェブページをナビゲートし、研究レポートを起草することを可能にする深層研究エージェントです。WebThinkerは、Deep Web Explorerモジュールを統合しており、LRMが知識のギャップに遭遇した際に、動的にウェブを検索、ナビゲート、情報抽出することを可能にします。また、Autonomous Think-Search-and-Draft戦略を採用し、モデルがリアルタイムで推論、情報収集、レポート作成をシームレスに交互に行うことを可能にします。さらに、研究ツールの活用を強化するために、反復的なオンラインDirect Preference Optimization(DPO)によるRLベースのトレーニング戦略を導入します。複雑な推論ベンチマーク(GPQA、GAIA、WebWalkerQA、HLE)および科学レポート生成タスク(Glaive)における広範な実験により、WebThinkerが既存の手法や強力なプロプライエタリシステムを大幅に上回ることを実証しました。我々のアプローチは、LRMの信頼性と複雑なシナリオにおける適用性を向上させ、より有能で汎用性の高い深層研究システムへの道を開きます。コードはhttps://github.com/RUC-NLPIR/WebThinkerで公開されています。
私たちは、複雑な推論タスクにおいて強力な性能を発揮する140億パラメータの推論モデル「Phi-4-reasoning」を紹介します。このモデルは、Phi-4を教師ありファインチューニングし、適切な複雑さと多様性を持つ「教示可能な」プロンプトの厳選セットと、o3-miniを使用して生成された推論デモンストレーションを用いて訓練されています。Phi-4-reasoningは、推論時の計算を効果的に活用する詳細な推論チェーンを生成します。さらに、結果ベースの強化学習を短期的に適用して強化したバリアント「Phi-4-reasoning-plus」を開発し、より長い推論トレースを生成することで高い性能を実現しています。幅広い推論タスクにおいて、両モデルはDeepSeek-R1-Distill-Llama-70Bモデルなどの大幅に大規模なオープンウェイトモデルを大きく上回り、完全なDeepSeek-R1モデルの性能レベルに近づいています。私たちの包括的な評価は、数学や科学的推論、コーディング、アルゴリズム問題解決、計画、空間理解などのベンチマークに及びます。興味深いことに、汎用ベンチマークへの改善の非自明な転移も観察されています。本レポートでは、訓練データ、訓練方法論、評価に関する洞察を提供します。教師ありファインチューニング(SFT)のための注意深いデータキュレーションの利点が推論言語モデルにも拡張され、強化学習(RL)によってさらに増幅されることを示します。最後に、私たちの評価は、推論モデルの性能と堅牢性を評価する方法を改善する機会を示唆しています。
Chain-of-Thought(CoT)は、大規模言語モデル(LLM)が中間的な推論ステップを明示的に生成するよう訓練することで、形式的推論能力を大幅に向上させます。LLMはこのような手法から容易に恩恵を受けますが、小規模言語モデル(SLM)の推論能力の向上は、モデル容量の制約により依然として課題となっています。最近のDeepseek-R1の研究では、LLMが生成した合成データからの蒸留がSLMの推論能力を大幅に改善できることが示されました。しかし、詳細なモデリング手法は公開されていません。本研究では、SLMのための体系的な訓練手法を提案します。この手法は以下の4つのステップで構成されます:(1)多様な蒸留された長いCoTデータを用いた大規模な中間訓練、(2)高品質な長いCoTデータを用いた教師あり微調整、(3)慎重に選別された選好データセットを活用したRollout DPO、(4)検証可能な報酬を用いた強化学習(RL)。この手法を3.8BパラメータのコンパクトモデルであるPhi-4-Miniに適用し、Phi-4-Mini-Reasoningモデルを作成しました。結果として得られたモデルは、数学的推論タスクにおいて、はるかに大規模な推論モデルを上回り、例えばMath-500においてDeepSeek-R1-Distill-Qwen-7Bを3.2ポイント、DeepSeek-R1-Distill-Llama-8Bを7.7ポイント上回りました。これらの結果は、大規模で高品質なCoTデータを用いた慎重に設計された訓練手法が、リソースに制約のある小規模モデルにおいても強力な推論能力を引き出すのに有効であることを検証しています。
最近の推論言語モデル(RLM)の開発は、大規模言語モデルの新たな進化を表しています。特に、DeepSeek-R1の最近のリリースは、広範な社会的影響を生み出し、言語モデルの明示的な推論パラダイムを探求する研究コミュニティの熱意をかき立てました。しかし、DeepSeek-R1-Zero、DeepSeek-R1、および蒸留された小型モデルを含む、リリースされたモデルの実装詳細は、DeepSeekによって完全にオープンソース化されていません。その結果、DeepSeek-R1が達成した強力な性能を再現することを目指す多くの再現研究が登場し、同様のトレーニング手順と完全にオープンソースのデータリソースを通じて同等の性能に到達しようとしています。これらの研究は、検証可能な報酬からの強化学習(RLVR)と教師ありファインチューニング(SFT)のための実行可能な戦略を調査し、データ準備とメソッド設計に焦点を当て、さまざまな貴重な洞察を生み出しています。本レポートでは、今後の研究を刺激するために、最近の再現研究の概要を提供します。主にSFTとRLVRを2つの主要な方向性として、現在の再現研究のデータ構築、メソッド設計、トレーニング手順の詳細を紹介します。さらに、これらの研究が報告した実装詳細と実験結果から得られた主要な知見をまとめ、今後の研究を刺激することを期待しています。また、RLMを強化するための追加の技術について議論し、これらのモデルの適用範囲を拡大する可能性を強調し、開発における課題についても議論します。本調査を通じて、RLMの研究者と開発者が最新の進展を把握し、RLMをさらに強化するための新しいアイデアを探求することを目指しています。
我々は、Transformerのアテンションメカニズムにおけるsoftmaxの代替として、softpickを提案します。softpickは正規化された非合計1の関数であり、アテンションシンクと大規模な活性化を排除します。3億4千万パラメータのモデルを用いた実験では、softpickが標準ベンチマークにおいてsoftmaxと同等の性能を維持しつつ、0%のシンク率を達成することを示しました。softpick Transformerは、隠れ状態の尖度を大幅に低減し(340対33,510)、スパースなアテンションマップを生成します(46.97%のスパース性)。softpickを使用したモデルは、量子化時に一貫してsoftmaxを上回り、特に低ビット精度において顕著な優位性を示しました。我々の分析と議論は、softpickが量子化、低精度トレーニング、スパース性最適化、プルーニング、解釈可能性において新たな可能性を開く潜在性を持つことを示しています。コードはhttps://github.com/zaydzuhri/softpick-attentionで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、単純な視覚-言語タスクにおいて優れた性能を発揮しますが、物体の認識、数え上げ、空間関係の理解など、複数の能力を同時に必要とする複雑なタスクには苦戦しています。これは、MLLMsの重要なトレーニングステップであるVisual Instruction Tuning(VIT)が、従来、データ量のスケーリングに焦点を当ててきた一方で、トレーニング例の構成的な複雑さにはあまり注意を払ってこなかったことが一因である可能性があります。本論文では、COMPACT(COMPositional Atomic-to-complex visual Capability Tuning)を提案します。COMPACTは、トレーニング例の構成的な複雑さを明示的に制御したトレーニングデータセットを生成します。COMPACTのデータを用いることで、MLLMsは原子能力の組み合わせをトレーニングし、複雑な能力をより効率的に学習することができます。すべてのベンチマークにおいて、COMPACTはLLaVA-665k VITと同等の性能を達成しつつ、そのデータ予算の10%未満を使用し、特に複数の能力を必要とするタスクではそれを上回る性能を示しました。例えば、COMPACTは、4つ以上の原子能力を必要とする特に複雑な質問において、MMStarで83.3%、MM-Vetで94.0%の大幅な改善を達成しました。COMPACTは、複雑な視覚-言語タスクを改善するための、スケーラブルでデータ効率の良い視覚的構成チューニングのレシピを提供します。
大規模言語モデル(LLMs)は、段階的な推論を活用して複雑な問題を解決します。標準的な評価手法では、完全な推論トレースを生成し、その結論として提示される最終的な答えの正しさを評価します。本論文では、最終的な答えへの依存に疑問を投げかけ、次の2つの問いを立てます:最終的な答えは、モデルの最適な結論を確実に表しているのか?異なる推論経路は異なる結果をもたらすのか?これらの問いに答えるため、我々は中間推論ステップ(サブ思考)を分析し、その発見に基づく手法を提案します。我々のアプローチでは、言語的な手がかりに基づいて推論トレースを連続的なサブ思考に分割します。まず、各中間サブ思考の終点からモデルに継続を生成するよう促します。異なるサブ思考から生じた各完了した継続から、潜在的な答えを抽出します。これらの答えを集約し、最も頻繁に現れるもの(最頻値)を選択すると、元の完全なトレースから得られた答えにのみ依存する場合と比べて、しばしば大幅に高い精度が得られることが分かります。異なるサブ思考から得られた答えの一貫性を分析すると、モデルの信頼度と正しさと相関する特性が明らかになり、信頼性の低い答えを特定する可能性が示唆されます。様々なLLMと挑戦的な数学的推論データセット(AIME2024およびAIME2025)を用いた実験では、一貫して精度が向上し、それぞれ最大13%および10%の改善が見られました。実装は以下で利用可能です:https://github.com/hammoudhasan/SubthoughtReasoner。
生成AIは、芸術、ゲーム、そして特にアニメーションを再構築しています。基盤モデルと拡散モデルにおける最近のブレークスルーにより、アニメーションコンテンツの制作時間とコストが削減されました。キャラクターはアニメーションの中心的な要素であり、動き、感情、ジェスチャー、表情が含まれます。ここ数ヶ月の進歩の速度と幅広さにより、この分野の一貫した視点を維持することが難しくなっており、統合的なレビューの必要性が高まっています。アバター、ジェスチャー、または顔のアニメーションを個別に扱う従来の概説とは異なり、本調査はキャラクターアニメーションのための主要な生成AIアプリケーションすべてを包括的に取り上げます。まず、顔のアニメーション、表情のレンダリング、画像合成、アバター作成、ジェスチャーモデリング、モーション合成、オブジェクト生成、テクスチャ合成の最先端技術を検証します。各分野における主要な研究、実用的な展開、一般的に使用されるデータセット、新興トレンドを強調します。新規参入者を支援するため、基盤モデルと評価指標を紹介する包括的な背景セクションも提供し、読者がこの分野に入るために必要な知識を提供します。未解決の課題について議論し、将来の研究方向性をマッピングし、AI駆動のキャラクターアニメーション技術を進展させるためのロードマップを提供します。本調査は、生成AIアニメーションまたは関連分野に入る研究者や開発者向けのリソースとして意図されています。リソースは以下で利用可能です:https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey。
トランスフォーマーベースの大規模言語モデル(LLM)が社会に浸透するにつれ、ソフトウェアエンジニアリング、クリエイティブライティング、デジタルアートなどの分野に革命をもたらしています。しかし、サイバーセキュリティ分野での採用は、専門的なトレーニングデータの不足や、サイバーセキュリティ固有の知識を表現する複雑さといった課題により、依然として限定的です。これらのギャップを埋めるため、私たちはLlama 3.1アーキテクチャを基盤とし、慎重に選別されたサイバーセキュリティコーパスを用いた継続的な事前学習を経て強化された、サイバーセキュリティに特化したLLM「Foundation-Sec-8B」を提案します。Foundation-Sec-8Bを既存および新たなサイバーセキュリティベンチマークで評価した結果、特定のサイバーセキュリティタスクにおいてLlama 3.1-70BやGPT-4o-miniと同等の性能を示すことが確認されました。本モデルを公開することで、公共および民間のサイバーセキュリティ分野におけるAI駆動ツールの進展と採用を加速することを目指します。
近年、ビデオ生成技術は大きな進歩を遂げてきた。しかし、複雑な動きや相互作用を生成する上では依然として課題が残されている。これらの課題に対処するため、本研究ではReVisionを提案する。これは、事前学習済みの条件付きビデオ生成モデルにパラメータ化された3D物理知識を明示的に統合するプラグアンドプレイフレームワークであり、複雑な動きや相互作用を含む高品質なビデオ生成能力を大幅に向上させる。 具体的には、ReVisionは3つの段階で構成される。まず、ビデオ拡散モデルを使用して粗いビデオを生成する。次に、この粗いビデオから2Dおよび3Dの特徴量を抽出し、3Dオブジェクト中心の表現を構築する。その後、提案するパラメータ化された物理事前モデルによって精緻化され、正確な3Dモーションシーケンスを生成する。最後に、この精緻化されたモーションシーケンスを追加の条件として同じビデオ拡散モデルにフィードバックし、複雑なアクションや相互作用を含むシナリオでもモーションに一貫性のあるビデオを生成可能にする。 我々は、Stable Video Diffusionにおいて本アプローチの有効性を検証し、ReVisionがモーションの忠実度と一貫性を大幅に向上させることを確認した。注目すべきは、わずか1.5Bのパラメータで、13B以上のパラメータを持つ最先端のビデオ生成モデルを複雑なビデオ生成において大幅に上回る性能を示したことである。これらの結果は、3D物理知識を組み込むことで、比較的小規模なビデオ拡散モデルでも、より現実的で制御可能な複雑な動きや相互作用を生成できる可能性を示しており、物理的に妥当なビデオ生成の有望な解決策を提供するものである。
生成AIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げ、洗練され多用途なツールとして様々な分野やアプリケーションで広く採用されています。しかし、その膨大なパラメータ数によるメモリオーバーヘッドと、アテンションメカニズムの高い計算要求が相まって、LLM推論サービスの低レイテンシと高スループットの実現には大きな課題が残されています。最近の画期的な研究に牽引された進展により、この分野の進歩は大幅に加速しています。本論文では、これらの手法を包括的に調査し、基本的なインスタンスレベルのアプローチ、詳細なクラスターレベルの戦略、新興シナリオの方向性、その他重要ながらも多岐にわたる領域を網羅しています。インスタンスレベルでは、モデル配置、リクエストスケジューリング、デコード長予測、ストレージ管理、およびディスアグリゲーションパラダイムを検討します。クラスターレベルでは、GPUクラスターの展開、マルチインスタンスの負荷分散、クラウドサービスソリューションを探ります。新興シナリオについては、特定のタスク、モジュール、補助方法を中心に議論を整理します。全体像を確保するため、いくつかのニッチながらも重要な領域にも焦点を当てます。最後に、LLM推論サービスの分野をさらに前進させるための潜在的な研究方向性を概説します。
データのスケーリングと標準化された評価ベンチマークは、自然言語処理やコンピュータビジョンにおいて大きな進展をもたらしてきました。しかし、ロボティクスではデータのスケーリングと評価プロトコルの確立において独自の課題に直面しています。現実世界のデータ収集はリソース集約的で非効率的であり、現実世界のシナリオでのベンチマーキングは依然として非常に複雑です。合成データとシミュレーションは有望な代替手段を提供しますが、既存の取り組みはデータの品質、多様性、ベンチマークの標準化においてしばしば不十分です。これらの課題に対処するため、我々はRoboVerseを紹介します。これはシミュレーションプラットフォーム、合成データセット、統一されたベンチマークからなる包括的なフレームワークです。我々のシミュレーションプラットフォームは複数のシミュレータとロボットの実装をサポートし、異なる環境間のシームレスな移行を可能にします。高忠実度の物理とフォトリアルなレンダリングを特徴とする合成データセットは、複数のアプローチを通じて構築されています。さらに、模倣学習と強化学習のための統一されたベンチマークを提案し、異なるレベルの汎化能力にわたる評価を可能にします。シミュレーションプラットフォームの中核には、多様なシミュレーション環境をユニバーサルインターフェースに抽象化するMetaSimがあります。これは既存のシミュレーション環境をシミュレータに依存しない設定システムに再構築し、シミュレーション環境の起動、初期状態でのアセットのロード、物理エンジンのステップ実行など、異なるシミュレータの機能を整列させるAPIを提供します。この抽象化により、相互運用性と拡張性が確保されます。包括的な実験により、RoboVerseが模倣学習、強化学習、世界モデル学習、シミュレーションから現実への転移の性能を向上させることが実証されました。これらの結果は、我々のデータセットとベンチマークの信頼性を検証し、RoboVerseがロボット学習を進めるための堅牢なソリューションであることを確立します。
生体医用画像のマルチモーダル解釈は、生体医用画像分析において新たな可能性を切り開きます。従来のAIアプローチでは、臨床テキスト生成のための大規模言語モデル(LLM)と対象抽出のためのセグメンテーションモデルを別々に学習させることで、現実世界での柔軟な展開が難しく、生体医用情報を包括的に活用できないという課題がありました。この問題を解決するため、我々は初の汎用基盤モデルであるUniBiomedを提案します。UniBiomedは、マルチモーダル大規模言語モデル(MLLM)とSegment Anything Model(SAM)を新たに統合したもので、臨床テキストの生成と対応する生体医用オブジェクトのセグメンテーションを効果的に統合し、根拠に基づいた解釈を実現します。これにより、UniBiomedは10種類の多様な生体医用画像モダリティにわたる幅広いタスクに対応可能です。UniBiomedを開発するために、我々は10種類の画像モダリティにわたる2,700万以上の画像、アノテーション、テキスト記述からなる大規模データセットを構築しました。84の内部および外部データセットを用いた広範な検証により、UniBiomedがセグメンテーション、疾患認識、領域認識診断、視覚的質問応答、レポート生成において最先端の性能を達成することが示されました。さらに、従来のモデルとは異なり、臨床専門家による画像の事前診断や正確なテキスト・視覚プロンプトの手動作成に依存せず、生体医用画像分析のための自動化されたエンドツーエンドの根拠に基づいた解釈を提供できます。これは臨床ワークフローにおける新たなパラダイムシフトを表し、診断効率を大幅に向上させるものです。要約すると、UniBiomedは生体医用AIにおける新たなブレークスルーであり、より正確で効率的な生体医用画像分析のための強力な根拠に基づいた解釈能力を解き放つものです。
コンジョイント分析は、要因実験計画法の応用として、多次元的な選好を研究するための社会科学研究において広く用いられる手法である。政治分析の文脈におけるこのような実験では、回答者はランダムに選択された特徴(党派性、政策立場、性別、人種など)を持つ架空の政治候補者2人の間で選択を行うよう求められる。本研究では、最適な候補者プロファイルを特定する問題を考察する。典型的なコンジョイント実験では、ユニークな特徴の組み合わせの数が観測総数を大幅に上回るため、最適なプロファイルを正確に決定することは不可能である。この識別上の課題に対処するため、我々は最も好ましい平均的結果を達成することを目的とした、様々な属性の確率分布を表す最適な確率的介入を導出する。まず、1つの政党が自らの候補者選出を最適化する環境を考察し、その後、2つの政党が互いに対立しながら同時に自らの候補者選出を最適化するより現実的なケースに移行する。提案手法を、米国大統領選挙における投票選択に関する既存の候補者選択コンジョイント実験に適用する。その結果、非対立的アプローチとは対照的に、対立的な体制における期待される結果は歴史的な選挙結果の範囲内に収まり、本手法が示唆する最適戦略は、非対立的アプローチから導出された戦略と比較して、実際に観察された候補者と一致する可能性が高いことがわかった。これらの知見は、コンジョイント分析に対立的なダイナミクスを組み込むことが、実験から得られる社会科学データに対する独自の洞察をもたらす可能性を示唆している。