翻訳付きの日次キュレーションされたAI研究論文
小規模モデルが本質的に堅牢な推論能力を欠くという従来の通説に異議を申し立てる本報告書では、Spectrum-to-Signal Principle(SSP)に基づいて開発された15億パラメータの密モデル「VibeThinker-1.5B」を紹介する。これは、DeepSeek R1(671B)やKimi k2(1T超)のようなモデルに見られる、能力向上のためにモデルパラメータをスケーリングする主流のアプローチに挑戦するものである。SSPフレームワークはまず、多様な解のスペクトルを生成するための「二段階多様性探索蒸留(SFT)」を採用し、続いて正しい信号を増幅する「最大エントロピー誘導方策最適化(RL)」を実施する。総トレーニングコストがわずか7,800ドルであるにもかかわらず、VibeThinker-1.5Bは、Magistral MediumやClaude Opus 4のようなクローズドソースモデルを上回る優れた推論能力を示し、GPT OSS-20B Mediumのようなオープンソースモデルと同等の性能を発揮する。特筆すべきは、パラメータ数が400倍大きいDeepSeek R1を3つの数学ベンチマークで凌駕している点である:AIME24(80.3対79.8)、AIME25(74.4対70.0)、HMMT25(50.4対41.7)。これはベースモデルの成績(それぞれ6.7、4.3、0.6)から大幅な改善である。LiveCodeBench V6では51.1点を獲得し、Magistral Mediumの50.3点およびベースモデルの0.0点を上回った。これらの知見は、小規模モデルが大規模モデルに匹敵する推論能力を達成可能であり、トレーニングと推論のコストを劇的に削減することで、先進的なAI研究の民主化を促進することを実証している。
信頼性の高いコンピュータ操作エージェントの構築には、グラウンディング(自然言語指示と画面上の正しい要素との正確な関連付け)が不可欠です。ウェブやモバイル操作向けの大規模データセットは存在するものの、デスクトップ環境向けの高品質なリソースは限られています。このギャップを埋めるため、我々は専門家による人間の実演記録から構築した大規模デスクトップグラウンディングデータセット「GroundCUA」を提案します。本データセットは12カテゴリ87アプリケーションを網羅し、5万6千枚のスクリーンショットと、人間による検証を経た356万以上の要素注釈を含みます。これらの実演記録から、現実世界の多様なタスクを反映した豊富な指示文を生成し、モデル学習向けの高品質データを提供します。 GroundCUAを活用して開発した「GroundNext」モデルファミリーは、指示文と対象UI要素のマッピングを実現します。3Bパラメータと7Bパラメータの両規模において、教師ありファインチューニングのみで5つのベンチマークでState-of-the-artを達成し、従来研究の10分の1以下の学習データ量でこれを実現しました。強化学習による事後学習で性能がさらに向上し、OSWorldベンチマークにおけるエージェント評価(o3をプランナーとして使用)では、大幅に多いデータで学習したモデルと同等または優れた結果を示しました。これらの結果は、汎用コンピュータ操作エージェントの発展において、専門家主導の高品質データセットが決定的に重要であることを実証しています。
大規模言語モデル(LLM)は、人間らしい応答を生成することで対話システムにおいて顕著な成功を収めている。しかし特に、個人化や特定の知識を考慮する必要がある場合には、不十分な結果をもたらすことがある。現実の設定では、ユーザーがこれらの誤りを検出して新たな応答を要求することに依存するのは非現実的である。この問題に対処する一つの方法は、ユーザーに応答を返す前にそれを洗練させることである。既存のアプローチは単一のLLM内での応答改良に焦点を当てているが、この方法では効果的な対話に必要な多様な側面を考慮することが困難である。本研究では、各エージェントが特定の側面に対して役割を割り当てられるマルチエージェントフレームワークを通じた応答の改良を提案する。我々は対話の品質において重要な三つの側面、すなわち正確性、個人化、一貫性に焦点を当てる。各エージェントはこれらの側面の一つを検証し改良する責任を負い、そのフィードバックを統合して応答全体を改善する。エージェント間の協調を強化するため、動的なコミュニケーション戦略を導入する。固定されたエージェントの序列に従うのではなく、各クエリの特定の要求に基づいて最も関連性の高いエージェントを適応的に選択し調整する。我々は提案フレームワークを困難な対話データセットで検証し、特に知識やユーザーの人格、またはその両方を扱うタスクにおいて、関連するベースラインを有意に上回る性能を示すことを実証した。
マスク拡散モデルは、言語生成を含む様々なタスクで競争力のある結果を示している。しかし、その反復的な精緻化プロセスのため、推論は遅く静的なサンプリング速度によってしばしばボトルネックとなる。この問題を克服するため、我々は`KL適応型安定性サンプリング`(KLASS)を提案する。これはトークンレベルのKLダイバージェンスを利用して安定した高信頼度の予測を特定する、高速かつ効果的なサンプリング手法である。追加のモデル学習を必要とせず各反復で複数のトークンのマスクを解除することで、本手法はサンプル品質を維持しつつ生成速度を大幅に向上させる。推論ベンチマークでは、KLASSは標準的な貪欲デコーディングを上回る性能を達成しつつ、最大2.78倍の実時間高速化を実現し、拡散ベースのサンプラーの中で最先端の結果を得た。さらに我々は、テキスト、画像、分子生成など多様な領域でKLASSを検証し、異なるモデルに広く適用可能なサンプラーとしての有効性を実証した。
大規模言語モデルは多言語機械翻訳(MMT)を大幅に進展させたが、広範な言語対応、一貫した翻訳品質、英語中心バイアスといった課題は未解決である。これらの課題に対処するため、我々は中国語と英語を中核とし、60言語・234翻訳方向をカバーする大規模多言語翻訳モデル群「LMT」を提案する。開発過程で、対称的な多方向ファインチューニングデータが逆向き翻訳(X→En/Zh)を過度に強調することで、過剰な多対一マッピングと翻訳品質の劣化を招く「方向性退化」という現象を見出した。この退化を軽減するため、単純かつ効果的な手法「戦略的ダウンサンプリング」を提案する。さらに、類型論的に関連する補助言語を活用して言語間転移を強化する「並列多言語プロンプティング(PMP)」を設計した。厳格なデータ精選と洗練された適応戦略により、LMTは同等の言語対応範囲を持つモデルの中でSOTA性能を達成し、特に4Bモデル(LMT-60-4B)は遥かに大規模なAya-101-13BやNLLB-54Bモデルを大幅に上回った。包括的・拡張性の高い高品質MMTの研究促進と強力なベースライン提供のため、4サイズ(0.6B/1.7B/4B/8B)のLMTを公開する(https://github.com/NiuTrans/LMT)。
検証可能な報酬による強化学習(RLVR)は大規模言語モデルの推論性能を確実に向上させるが、ごく一部のパラメータのみが変更されているように見える。このパラドックスを再検討し、スパース性がモデル条件付き最適化バイアスの表面的な痕跡であることを示す:固定された事前学習モデルにおいて、更新は一貫して優先されるパラメータ領域に局在し、これは実行間で高度に一貫し、データセットやRL手法にほぼ不変である。我々はこれらの力学を「三つのゲート理論」で機構的に説明する:ゲートI(KLアンカー)はKL制約付き更新を課し、ゲートII(モデル幾何)は更新ステップを主方向から低曲率・スペクトル保存的な部分空間へ誘導し、ゲートIII(精度)は非優先領域での微細な更新を隠蔽し、主方向外バイアスをスパース性として見せかける。次にこの理論を検証し、RLVRの学習力学に関する初のパラメータレベルでの特性評価を提供する:RLVRは重み空間において主方向から外れて学習し、最小限のスペクトル変動、主部分空間回転の抑制、主方向外更新の整合性を通じて性能向上を達成する。対照的にSFTは主重みを標的とし、スペクトルを歪め、RLVRにすら劣る場合がある。 これらの結果は合わせて、RLVRの訓練力学に関する初のパラメータ空間での説明を提供し、パラメータがどのように進化するかにおける明確な規則性を明らかにする。決定的に、RLがSFTとは異なる最適化体制で動作することを示し、SFT時代のパラメータ効率型ファインチューニング(PEFT)手法を直接適用することが欠陥を生じうることを、先進的スパースファインチューニングやLoRA変種に関する事例研究で実証する。本論文が、RLVRのホワイトボックス理解と、SFT時代のヒューリスティックの流用ではなく、幾何学を考慮したRLVR本来の学習アルゴリズム設計への道筋を示すことを期待する。
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の性能は、その事前学習データセットの質と規模に大きく依存する。最近の研究では、画像とテキストが交互に配置された自然な文書で学習した大規模マルチモーダルモデルが、画像テキストペアのみで学習したモデルよりも、様々なベンチマークで優れた性能を示すことが明らかになっている。これらは、意味的整合性、画像シーケンスの一貫性、テキストの一貫性を強化する先進的な事前学習モデルを活用している。しかし、アラビア語に関しては、文書構造を保持した高品質なマルチモーダルデータセットの不足が進展を妨げてきた。本論文では、Common Crawlデータセットを処理して、マークダウン出力を独自に提供する新たなアラビア語マルチモーダルデータセットを構築するためのパイプライン「Wasm」を提案する。既存のアラビア語コーパスがテキスト抽出のみに焦点を当てているのに対し、我々の手法は、テキストのみの事前学習とマルチモーダル事前学習の両方のシナリオに対応する柔軟性を維持しつつ、ウェブコンテンツの構造的完全性を保持する。既存の主要データセットで使用されているデータ処理パイプラインと我々のパイプラインとの包括的な比較分析を提供し、フィルタリング戦略の共通点を明らかにするとともに、我々の特定の設計選択を正当化する。将来の研究を支援するため、代表的なデータセットダンプとアラビア語向けマルチモーダル処理パイプラインを公開する。
検証可能な報酬を用いた強化学習(RLVR)は、マルチモーダル大規模言語モデル(MLLM)の動画理解能力を大幅に進展させてきた。しかし、MLLMの急速な進歩は既存の動画データセットの複雑さを凌駕しており、新たな高品質なデータの人手による注釈付けは依然として非常に高コストである。本研究は核心的な問いを探求する:動画内に内在する豊富な情報を利用して、高品質で検証可能な訓練データを自己生成することは可能か?これを検証するため、3つの自己教師あり前課題(Anomaly Grounding、Object Counting、Temporal Jigsaw)を導入する。これらの課題の難易度を検証するため、動画内在理解ベンチマーク(VIUBench)を構築し、現在の最先端MLLMがこれらの課題に著しく苦戦することを明らかにした。これらの前課題に基づき、VideoSSR-30Kデータセットを構築し、RLVRのための新しい動画自己教師あり強化学習フレームワークであるVideoSSRを提案する。4つの主要動画領域(一般動画QA、長尺動画QA、時間的定位、複雑推論)にわたる17のベンチマークでの大規模な実験により、VideoSSRがモデル性能を一貫して向上させ、平均5%以上の改善をもたらすことが実証された。これらの結果は、VideoSSRがMLLMにおけるより高度な動画理解を開発するための強力な基盤フレームワークであることを示している。コードはhttps://github.com/lcqysl/VideoSSR で公開されている。
大規模言語モデル(LLMs)は、長文脈推論において根本的な課題に直面している。多くの文書は有限のコンテキストウィンドウを超える一方で、収まるテキストに対する性能も系列長の増加とともに低下するため、外部記憶フレームワークによる拡張が不可欠である。現在の解決策は、意味的埋め込みを用いた検索から、より高度な構造化知識グラフ表現へと進化し、意味理解と連想性を改善してきたが、これらは事実ベースの検索に特化しており、エピソード的事象を通じてエンティティを追跡するために必要な時空間に固定された物語的表現を構築できない。この課題を解決するため、我々は生成的セマンティックワークスペース(GSW)を提案する。これは神経科学にヒントを得た生成的記憶フレームワークであり、変化する状況の構造化され解釈可能な表現を構築することで、LLMsが時間的・空間的文脈や役割・行動の変化を推論することを可能にする。本フレームワークは、入力観測を中間的な意味構造に写像する「オペレーター」と、これらの構造を時間的・空間的・論理的整合性を保証する永続的ワークスペースに統合する「レコンシラー」で構成される。100kから1Mトークン規模のコーパスから成るエピソード記憶ベンチマーク(EpBench)において、GSWは既存のRAGベースのベースラインを最大20%上回る性能を示した。さらにGSWは高い効率性を有し、次点のトークン効率ベースラインと比較してクエリ時のコンテキストトークンを51%削減し、推論時間コストを大幅に低減する。より広義には、GSWはLLMsに人間的なエピソード記憶を付与する具体的な設計図を提供し、長期的な推論が可能なより高度なエージェントへの道を開くものである。
大規模言語モデル(LLM)のクエリ処理は、現在、集中型クラウドインフラ上のフロンティアモデルによって主に行われている。急速に増大する需要はこのパラダイムに負荷をかけており、クラウドプロバイダーはインフラの拡張に苦慮している。このパラダイムを再考可能にする2つの進展がある:多くのタスクにおいて小型LM(活性化パラメータ数<=20B)がフロンティアモデルに匹敵する性能を達成するようになったこと、およびローカルアクセラレータ(例:Apple M4 Max)がこれらのモデルを対話可能なレイテンシで実行できることである。これにより、ローカル推論が集中型インフラからの需要を効果的に再分配できるか、という疑問が生じる。これを検証するには、ローカルLMが実世界のクエリを正確に回答できるか、また電力制約のあるデバイス(ノートパソコンなど)で実用的な効率性を達成できるかを測定する必要がある。我々は、モデルとアクセラレータの組み合わせにおけるローカル推論の能力と効率を評価する指標として、タスク精度を電力単位で除した「ワットあたり知能(Intelligence Per Watt: IPW)」を提案する。20以上の最先端ローカルLM、8種類のアクセラレータ、およびLLMトラフィックの代表的なサブセット(実世界の単一ターンチャット及び推論クエリ100万件)を用いた大規模な実証研究を実施した。各クエリについて、精度、エネルギー消費量、レイテンシ、電力を測定した。分析により3つの知見が得られた。第一に、ローカルLMは単一ターンチャット及び推論クエリの88.7%を正確に回答可能であり、精度は分野によって異なる。第二に、2023年から2025年にかけて、IPWは5.3倍改善し、ローカルで処理可能なクエリの割合は23.2%から71.3%に上昇した。第三に、同一モデルを実行する場合、ローカルアクセラレータはクラウドアクセラレータよりも少なくとも1.4倍低いIPWを達成し、最適化に大きな余地があることが示された。これらの知見は、ローカル推論が集中型インフラからの需要を有意に再分配できる可能性を示しており、IPWがこの移行を追跡する重要な指標となる。我々は、体系的なワットあたり知能ベンチマーキングのためのIPWプロファイリングツールを公開する。
現代の逐次的意思決定システムにおいて、最適な候補行動空間の構築は効率的な推論において極めて重要である。しかし、既存の手法は、スケーラビリティに欠ける手動定義の行動空間に依存するか、網羅的探索を計算的に非現実的なものとする非構造化空間を利用している。本論文では、複雑な問題解決シナリオにおける逐次推論を強化するためのコンパクトな行動空間を自動構築するDynaActという新規フレームワークを提案する。我々の手法はまず、大規模言語モデルを用いて多様な複雑推論問題を網羅するコーパスから観測された一般的な骨子を抽出し、完全な行動空間の代理推定を行う。次に、現在の状態に対する有用性と多様性に基づいて候補行動を共同評価する劣モジュラ関数を定式化し、貪欲アルゴリズムを用いて最適な候補集合を選択する。6つの多様な標準ベンチマークによる大規模な実験により、本手法が実質的な遅延を導入することなく効率的な推論を維持しつつ、全体の性能を大幅に向上させることを実証する。実装はhttps://github.com/zhaoxlpku/DynaAct で公開されている。
背景:大規模言語モデル(LLM)は、ソフトウェア開発に革命をもたらす可能性(例:プロセスの自動化、労働力の変革)を秘めて登場した。LLMがソフトウェア開発に与える影響の認識に関する研究は始まっているものの、LLM利用による前向きな効果と後向きな効果のバランスをどう取るかを理解するには、実証研究が必要である。目的:我々は、LLMがソフトウェア開発にどのような影響を与えるか、またその影響をソフトウェア開発者の視点からどのように管理すべきかを調査した。方法:2024年10月から2025年9月にかけて、3回に分けてデータ収集と分析を実施し、ソフトウェア実務者22名へのインタビューを行った。データ分析には社会技術的グラウンデッド・セオリー(STGT)を採用し、インタビュー参加者の回答を厳密に分析した。結果:LLM利用の利点(例:ソフトウェア開発フローの維持、開発者のメンタルモデルの改善、起業家精神の促進)と欠点(例:開発者の人格への悪影響、開発者の評判の毀損)を、個人、チーム、組織、社会の各レベルで特定した。さらに、LLMをどのように導入すべきかに関するベストプラクティスも明らかにした。結論:特に重要なのは、ソフトウェア実務者、チーム、組織がLLMを扱う上で直面するトレードオフを提示した点である。本調査結果は、ソフトウェアチームリーダーやITマネージャーが自らの特定の状況下でLLMの実現可能性を評価する際に特に有用である。
アライメントにより大規模言語モデル(LLM)の出力品質は大きく向上したが、多様性が犠牲となり、生成結果が高度に類似する問題が生じている。本研究では、ベースモデルとアライメント済みモデルを動的に組み合わせ、多様性と品質の最適化を図る推論時トークンレベルモデル連携フレームワーク「Base-Aligned Model Collaboration(BACo)」を提案する。先行研究(Fei et al., 2025)に着想を得たBACoは、次トークン予測の不確実性と予測内容の意味的役割に基づき、トークン毎にデコード元のモデルを決定するルーティング戦略を採用する。再学習、プロンプトエンジニアリング、マルチサンプリング手法など従来の多様性促進手法は、多様性を向上させるものの、品質低下や高コストなデコード/事後学習を要する場合が多い。対照的に、BACoは単一パスで事後的かつ高品質な多様性を実現し、強力な制御性を提供する。3種類のオープンエンド生成タスクと多様性・品質を網羅する13指標を用いた検証により、提案する一連のルーティング戦略が、常に最先端の推論時ベースラインを凌駕することを示す。最適なルーターを用いた場合、BACoは多様性と品質の総合評価で21.3%の改善を達成した。人間評価でも同様の改善傾向が確認された。これらの結果は、ベースモデルとアライメント済みモデルの連携が、多様性と品質の最適化と制御を可能にすることを示唆している。
時間的検索は、与えられたクエリに基づいて数万フレームから最小限の関連フレームセットを特定することを目的とし、正確な長尺動画理解の基盤をなす。既存研究は検索空間を段階的に狭めることを試みているが、これらの手法は一般に手作りの検索プロセスに依存し、最適な検索戦略を学習するためのエンドツーエンド最適化が欠如している。本論文では、時間的検索をテキストと動画のインタリーブ思考として再定義し、強化学習(RL)を通じて動画クリップの検索を推論プロセスにシームレスに統合するTimeSearch-Rを提案する。しかし、Group Relative Policy Optimization(GRPO)などのRL訓練手法を動画推論に適用すると、教師なしの中間検索決定が生じ、動画コンテンツの探索不足や論理推論の不整合を引き起こす可能性がある。これらの課題に対処するため、我々は完全性自己検証付きGRPO(GRPO-CSV)を導入する。これはインタリーブ推論プロセスから検索された動画フレームを収集し、同じポリシーモデルを用いて検索フレームの十分性を検証することで、動画推論の完全性を向上させる。さらに、GRPO-CSVのSFTコールドスタートとRL訓練のために特別に設計されたデータセットを構築し、時間的依存性が弱いサンプルを除外してタスク難易度を高め、時間的検索能力を向上させる。大規模な実験により、TimeSearch-RがHaystack-LVBenchやHaystack-Ego4Dなどの時間的検索ベンチマーク、およびVideoMMEやMLVUなどの長尺動画理解ベンチマークにおいて顕著な改善を達成することが実証された。特にTimeSearch-Rは、LongVideoBenchにおいてベースモデルQwen2.5-VLを4.1%、高度な動画推論モデルVideo-R1を2.0%上回る新たな最高精度を確立した。コードはhttps://github.com/Time-Search/TimeSearch-R で公開されている。
ハードネガティブは、効果的な検索モデルの訓練に不可欠である。ハードネガティブマイニングは通常、クロスエンコーダーやコサイン距離などの類似度指標に基づく静的な埋め込みモデルを用いて文書をランキングすることに依存している。バイオメディカルや科学分野では、ソース文書とハードネガティブ文書の区別が困難であるため、ハードネガティブマイニングは困難となる。しかし、参照文書はソース文書と文脈的な関連性を自然に共有するが重複はしないため、ハードネガティブとして適している。本研究では、BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negativesを提案する。これは、ドメイン特化の小型密検索モデルを改善するため、20,000件のPubMed記事中の引用リンクを利用したハードネガティブマイニング手法である。GTE_smallおよびGTE_Baseモデルをこれらの引用情報を活用したネガティブでファインチューニングし、BEIRにおけるドメイン内・ドメイン外タスクではnDCG@10を用いたゼロショット密検索で一貫した改善を確認し、LoTTEのロングテールトピックではSuccess@5においてベースラインを上回った。我々の知見は、文書リンク構造を活用して情報量の多いネガティブを生成する可能性を示唆し、最小限のファインチューニングで最先端の性能を実現し、高いデータ効率性を持つドメイン適応への道筋を示している。