翻訳付きの日次キュレーションされたAI研究論文
メモリシステムは、大規模言語モデル(LLM)やAIエージェントなどのAIシステムが長期的な学習と持続的対話を実現するための重要な構成要素である。しかし、記憶の保存と検索の過程において、これらのシステムは頻繁に記憶の幻覚(Hallucination)現象、すなわち虚構化、誤り、矛盾、欠落などを示す。既存の記憶幻覚評価は主にエンドツーエンドの質問応答に依存しており、記憶システム内で幻覚が生じる操作段階を特定することが困難である。この問題に対処するため、我々はメモリシステムに特化した初の操作レベル幻覚評価ベンチマークであるHaluMem(Hallucination in Memory Benchmark)を提案する。HaluMemは、対話の異なる操作段階にわたる幻覚挙動を包括的に明らかにするため、3つの評価タスク(記憶抽出、記憶更新、記憶質問応答)を定義する。評価を支援するため、ユーザ中心的な多ターン人間-AI対話データセットであるHaluMem-MediumとHaluMem-Longを構築した。両データセットは約15kの記憶ポイントと3.5kの多種質問を含み、ユーザあたりの平均対話数は1.5kおよび2.6kターンに達し、コンテキスト長は1Mトークンを超える。これにより、異なるコンテキスト規模とタスク複雑性にわたる幻覚評価が可能となる。HaluMemに基づく実証研究により、既存のメモリシステムは抽出段階と更新段階で幻覚を生成・蓄積する傾向があり、これらが後続の質問応答段階に誤りを伝播させることが示された。今後の研究では、幻覚を体系的に抑制し記憶信頼性を向上させる、解釈可能で制約付きのメモリ操作メカニズムの開発に焦点を当てるべきである。
深層研究エージェントの最近の進歩は、外部情報源に対する動的推論を通じた自律的知識構築の可能性を示している。しかし、既存手法は単一の拡張コンテキストウィンドウにすべての情報を蓄積する単一コンテキストパラダイムに依存しており、コンテキスト飽和とノイズ混入を引き起こし、長期的タスクにおける有効性を制限している。本論文では、長期的研究を戦略的ワークスペース再構築を伴うマルコフ決定過程として再定式化する新しい反復的深層研究パラダイム「IterResearch」を提案する。進化するレポートをメモリとして維持し、定期的に知見を統合することで、任意の探索深度にわたって一貫した推論能力を維持する。さらに、幾何学的報酬割引による効率的探索を促進し、適応的ダウンサンプリングによる安定した分散訓練を可能とする強化学習フレームワーク「Efficiency-Aware Policy Optimization(EAPO)」を開発した。大規模実験により、IterResearchが既存のオープンソースエージェントを平均+14.5pp(6ベンチマーク)で大幅に上回り、先進的専有システムとの差を縮めることを実証した。特筆すべきは、本パラダイムが前例のないインタラクション拡張性を示し、2048インタラクションまで劇的な性能向上(3.5%から42.5%へ)を達成し、長期的タスクにおいてReActに対して最大19.2ppの改善をもたらす効果的なプロンプティング戦略としても機能することである。これらの知見は、IterResearchを訓練済みエージェントとしてだけでなく、先進モデルのためのプロンプティングパラダイムとしても有効な、長期的推論のための汎用ソリューションとして位置づけるものである。
最近の推論優先モデル(例:OpenAI o1、DeepSeek R1)の登場により、RLVR(強化学習による価値正則化)への関心が再燃しています。しかしながら、進歩は数学分野(例:AIME)が主流であり、競技プログラミングのコード生成は十分に探求されておらず、データ整備はRLアルゴリズム設計に比べて注目度が低い状況です。本研究では、RLVRデータセット(すなわちRLプロンプト)の構築方法を探求し、競技プログラミングコード生成で強力な性能を発揮する実用的な訓練技術を提案します。 当社のパイプラインは、強力なオープンソースモデルから蒸留した教師ありファインチューニング(SFT)から始まり、汎用データおよび推論集約型データで拡張されます。その後、実行可能なテストケース駆動の報酬を用いた2段階のRLプロセスを実施します。第一段階では、競技プログラミング問題の大規模で均一に分布したデータセットに対し、グループ相対ポリシー最適化(GRPO)を適用します(プロンプトあたり8回のロールアウト、応答生成ウィンドウは比較的短く設定:SFT時32k、本段階では24k)。これによりエントロピーを拡大し、反復や切り捨てを軽減します。第二段階では、Pre-GRPOを実行します:少数の高品質で難易度の高い問題セットに対し、大規模なロールアウト予算(プロンプトあたり64回)を用いて更新し、訓練を通じて最も困難なインスタンスを継続的に保持するハードフォーカスカリキュラムを採用します。 本手法をQwen2.5-32Bに実装し、データ漏洩を避けるためLeetCodeおよびCodeforcesの週次コンテストで評価しました。その結果、同規模のモデルの中でstate-of-the-art性能を達成し、DeepSeek v3.1やDoubao-1.5-Thinkingなどの主要システムに匹敵する性能を示しました。また、スケーリング傾向を検証し、内部大規模MoEモデルにおいて強力なRLスケーリングを確認しました。本研究は、競技プログラミングコード生成のためのRLVRにおける、データ整備、エントロピー拡大、カリキュラム設計に関する簡潔なベストプラクティスを集約するものです。
我々は、小規模な科学エコシステムをモデル化したオープンワールド多エージェント環境「STATION」を提案する。Station内のエージェントは、拡張されたコンテキストウィンドウを活用し、同僚からの論文購読、仮説の立案、コードの提出、分析の実行、結果の出版を含む長期的な科学的探求に従事できる。重要な点は、エージェントの活動を調整する中央集権的なシステムが存在せず、エージェントはStation内で自由に行動を選択し、独自のナラティブを発展させられることである。実験結果によれば、Station内のAIエージェントは、数学から計算生物学、機械学習に至る幅広いベンチマークで新たなstate-of-the-art性能を達成し、特にcircle packing課題においてAlphaEvolveを顕著に上回った。エージェントが独立した研究を追求し、相互に作用し、蓄積された歴史を発展させる中で、豊かなナラティブの織物が現れる。これらの創発的ナラティブから、scRNA-seqバッチ統合のための新しい密度適応型アルゴリズムなど、新奇な手法が有機的に生み出される。Stationは、オープンワールド環境における創発的行動に駆動された自律的科学発見への第一歩を示し、硬直的な最適化を超える新たなパラダイムを代表するものである。
我々は、物理世界モデリングを通じてビデオ生成からロボット学習を可能にするフレームワーク「PhysWorld」を提案する。近年のビデオ生成モデルは、言語コマンドと画像から写実的な視覚的デモンストレーションを合成可能であり、ロボティクスにおける強力ながら未開拓の訓練信号源を提供する。しかし、生成されたビデオからピクセル運動を直接ロボットに転用する手法は物理法則を無視するため、不正確な動作を招くことが多い。PhysWorldは、ビデオ生成と物理世界の再構築を連携させることでこの課題を解決する。単一画像とタスクコマンドが与えられると、本手法はタスク条件付きビデオを生成し、ビデオから背景にある物理世界を再構築する。生成されたビデオの運動は、物体中心の残差強化学習と物理世界モデルを用いて物理的に正確な動作へと接地される。この協調作用により、暗黙的な視覚ガイダンスが物理的に実行可能なロボット軌道へ変換され、実ロボットデータ収集の必要性を排除しながらゼロショット一般化可能なロボット動作を実現する。多様な実世界タスクにおける実験により、PhysWorldが従来手法に比べて動作精度を大幅に向上させることを実証した。詳細はプロジェクトウェブページ(https://pointscoder.github.io/PhysWorld_Web/)を参照されたい。
テキストから画像への生成モデルは、カジュアルな創作ツールからプロ仕様のシステムへと急速に進化し、前例のないレベルの画質と写実性を達成しています。しかし、ほとんどのモデルは短いプロンプトを詳細な画像にマッピングするように訓練されており、疎なテキスト入力と豊富な視覚的出力の間に隔たりが生じています。この不一致は制御性を低下させ、モデルが不足する詳細を恣意的に補完するため、平均的なユーザー嗜好に偏り、プロフェッショナル用途での精度が制限されます。我々はこの制約に対処するため、長い構造化キャプションで訓練した初のオープンソーステキスト画像生成モデルを開発しました。すべての訓練サンプルは同一の細粒度属性セットで注釈付けされ、表現力のカバレッジを最大化し視覚的要因に対する分離制御を可能にします。長文キャプションを効率的に処理するため、トークン長を増加させずに軽量LLMの中間トークンを統合する融合機構DimFusionを提案します。さらにText-as-a-Bottleneck Reconstruction (TaBR) 評価プロトコルを導入します。キャプション生成ループを通じて実画像がどの程度再構成できるかを評価するTaBRは、既存の評価手法が失敗する非常に長いキャプションにおいても、制御性と表現力を直接測定します。最後に、大規模モデルFIBOを訓練することで我々の貢献を実証し、オープンソースモデルの中で最先端のプロンプト整合性を達成しました。モデル重みはhttps://huggingface.co/briaai/FIBOで公開されています。
スパース混合エキスパート(MoE)は、推論コストを増加させることなくモデル能力を効率的に拡張できるため、近年の大規模言語モデルで広く採用されている。しかし、多様な下流タスクでの評価により、既存のMoE LLMのルーターには一貫した最適性の不足が認められ、最適ルーティングとの間に深刻な性能差(精度で10-20%など)が生じている。本論文では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させることで、この差を効果的に縮め、MoE LLMの汎化性能を向上できることを示す。我々の手法「Routing Manifold Alignment(RoMA)」は、学習後調整の目的関数に追加の多様体正則化項を導入し、ルーターのみの軽量なファインチューニング(他パラメータは凍結)のみを必要とする。具体的には、この正則化により、各サンプルのルーティング重みが、タスク埋め込み空間内での成功近傍点(ルーティング重みが正解を導くサンプル)のルーティング重みに近づくよう促す。その結果、類似したタスクを対象とするサンプルは、層間で類似したエキスパート選択を共有するようになる。異なるサンプル間でタスクとエキスパートの結びつきを構築することは、より優れた汎化性能を達成するために不可欠である。さらに、RoMAはタスク理解(埋め込みモデルによる)と解生成(MoE LLMによる)を統合する利点を示している。実験では、OLMoE、DeepSeekMoE、Qwen3-MoEのルーターをRoMAでファインチューニングした。多様なベンチマークによる評価とベースラインとの広範な比較により、RoMAがもたらす大幅な改善が確認された。
人間の相互作用と情報交換の主要な媒体として、ソーシャルネットワーキングサービス(SNS)は大規模言語モデル(LLM)に特有の課題を提起する。すなわち、不均一なワークロード、急速に変化する規範やスラング、そして急峻な分布シフトを引き起こす多言語・多文化コーパスである。教師ありファインチューニング(SFT)はモデルを特化させうるが、特に小規模モデルにおいて、分布内での性能向上と分布外ロバスト性の間で「シーソー効果」を引き起こしがちである。これらの課題に対処するため、我々は迅速かつ安定した適応を目的として設計された、段階的なRL優先ポストトレーニング手法で訓練されたSNS指向LLM「RedOne 2.0」を提案する。このパイプラインは3段階から構成される:(1)精選されたSNSコーパスによる探索的学習で初期の適合を確立し、体系的な弱点を特定;(2)診断されたギャップに対してSFTを選択的に適用し、一般データの少量を混合して忘却を緩和するターゲット型ファインチューニング;(3)SNS中心の信号を用いてRLを再適用し、改善を定着させタスク間のトレードオフを調和させる洗練学習。3カテゴリにわたる様々なタスクにおいて、当社の40億パラメータ規模モデルは70億パラメータの準最適ベンチマークに対し平均2.41の改善を達成した。さらにRedOne 2.0は、SFT中心手法のRedOneが必要とするデータ量の半分未満で、ベースモデルから平均8.74の性能向上を実現し、コンパクト規模における優れたデータ効率と安定性を立証している。全体として、RedOne 2.0はSNSシナリオにおけるドメイン特化LLMの競争力があり費用効果の高いベンチマークを確立し、ロバスト性を犠牲にすることなく性能を推進するものである。
マルチモーダル大規模言語モデル(MLLM)の登場により、AIの能力は視覚モダリティにまで拡張されたが、既存の評価ベンチマークは単一映像理解に限定されており、実世界のシナリオ(スポーツ分析や自動運転など)において重要なマルチ映像理解の必要性が見落とされている。この重要な課題を解決するため、我々はMLLMのマルチ映像理解能力を評価する初の包括的ベンチマーク「MVU-Eval」を提案する。具体的には、4,959本の多様な領域の映像から精選された1,824組の質問応答ペアを通じて、基礎的な知覚タスクから高次推論タスクまで、8つの核心的能力を主に評価する。これらの能力は、自律システムにおけるマルチセンサー統合や複数角度からのスポーツ分析など、実世界の応用と厳密に連携している。オープンソース及びクローズドソースの最先端モデルを広範に評価した結果、現行のMLLMには複数映像にわたる理解を遂行する能力において、重大な性能差と限界が存在することを明らかにした。今後の研究発展のため、本ベンチマークは公開予定である。
複雑な課題を解決するには、通常、大規模言語モデル(LLM)が長い多段階の推論チェーンを生成する必要がある。従来の研究では、個々の推論ステップの正しさを検証することが、このような課題におけるLLMの性能と効率をさらに向上させ、解の解釈可能性を高めることが示されている。しかし、Process Reward Models(PRM)のような既存の検証手法は、計算コストが高い、特定領域に限定される、あるいは大規模な人手またはモデル生成による注釈を必要とするなどの課題がある。そこで本研究では、データ駆動型の不確実性スコアに基づく、軽量なステップ単位推論検証の代替手法を提案する。我々は、凍結されたLLMの内部状態を利用して、生成中の推論ステップの不確実性を推定するトランスフォーマーベースの不確実性定量化ヘッド(UHead)を訓練する。本手法は完全に自動的であり、ターゲットラベルは別のより大規模なLLM(例:DeepSeek R1)によって生成されるか、あるいは元のモデル自身による自己教師あり方式で生成される。UHeadは有効でありながらも軽量で、1,000万パラメータ未満である。数学、計画立案、一般知識質問応答を含む複数領域において、最大810倍大きいPRMの性能に匹敵し、場合によっては凌駕する。我々の発見は、LLMの内部状態がその不確実性を符号化しており、推論検証の信頼できる信号として機能しうることを示唆しており、スケーラブルで一般化可能な内省的LLMへの有望な方向性を提供する。
近年の深層回帰型言語モデルの進歩により、回帰構造が訓練時の計算量とパラメータ数を推論時の計算量から分離可能であることが示されている。本研究では、既存の事前学習済み非回帰言語モデルを深層回帰モデルに変換する方法を検討する。訓練過程でモデルの実効的な深さを段階的に増加させる回帰カリキュラムを採用することで、総計算コストを削減しつつ性能を維持できることを明らかにした。数学分野における実験では、事前学習済みモデルを回帰型に変換することで、元の非回帰言語モデルを単純に事後訓練する場合と比較して、同計算予算条件下でより優れた性能が得られることが確認された。
大規模言語モデル(LLM)の推論におけるソフト思考パラダイムは、特定のシナリオにおいて従来の離散トークン連鎖思考(CoT)推論を凌駕する可能性があり、その研究および応用価値を示唆している。しかしながら、離散トークンCoT推論パターンがグループ相対方策最適化(GRPO)などの方策最適化アルゴリズムを通じて強化可能である一方で、ソフト思考パターンを強化学習(RL)で拡張することは依然として困難である。この困難は、ソフト思考トークンに確率性を導入し、それに応じてソフト思考方策を更新する複雑さに起因する。その結果、従来のソフト思考とGRPOの統合試行は、通常、離散トークンGRPOの対応手法に劣る性能を示してきた。ソフト思考の可能性を十分に引き出すため、本論文はソフト思考推論パターン下でLLMを強化する新しい方策最適化アルゴリズム、SofT-GRPOを提案する。SofT-GRPOは、ロジットにガンベルノイズを注入し、事前学習済み埋め込み空間外のソフト思考トークンを回避するためにGumbel-Softmax技術を採用し、方策勾配における再パラメータ化トリックを活用する。1.5Bから7BパラメータにわたるベースLLMで実験を実施した結果、SofT-GRPOにより、ソフト思考LLMはPass@1(平均精度+0.13%)では離散トークンGRPOをわずかに上回り、Pass@32(平均精度+2.19%)では大幅な向上を示すことが実証された。コードと重みはhttps://github.com/zz1358m/SofT-GRPO-master で公開されている。
本論文では、言語モデル(LM)の強化学習(RL)を拡張するため、検証可能な環境を用いて問題を手続き的に生成し、アルゴリズム的に検証可能な報酬を提供するアプローチである「適応型検証可能環境を用いた強化学習(RLVE)」を提案する。RLVEでは、各検証可能環境が学習の進行に応じて、方策モデルの能力に適応的に問題難易度分布を動的に調整する。対照的に、静的データ分布では、問題が方策に対して簡単すぎるか難しすぎる場合、学習信号が消失しがちである。RLVEを実装するため、我々は手作業による環境設計を慎重に行って開発した400の検証可能環境からなる大規模スイート「RLVE-Gym」を構築した。RLVE-Gymを用いた実験により、環境スケーリング(学習環境コレクションの拡大)が一般化可能な推論能力を一貫して向上させることを示す。RLVE-Gymの全400環境を統合学習したRLVEは、強力な1.5Bパラメータ推論LMを初期モデルとして、6つの推論ベンチマークで平均3.37%の絶対改善を達成した。比較対象として、同一LMの元のRL学習を継続した場合、計算量を3倍以上消費したにもかかわらず、平均絶対改善率は0.49%に留まった。我々はコードを公開している。
大規模言語モデル(LLM)によって駆動される自律エージェントは、推論と問題解決に革命をもたらしたが、学習後は静的であり、知的生命体のようにデプロイ中の経験を通じて成長することができない。本論文では、経験の蓄積を通じてLLMエージェントが継続的に進化することを可能にする、勾配不要の学習パラダイムであるForward Learning with EXperience(FLEX)を提案する。具体的には、FLEXは環境との相互作用中の成功と失敗に対する継続的な省察を通じて構造化された経験ライブラリを構築し、スケーラブルで継承可能な進化を促進する。FLEXは、数学的推論、化学的逆合成、タンパク質適合性予測において大幅な改善をもたらした(AIME25で最大23%、USPTO50kで10%、ProteinGymで14%)。さらに、経験的成長の明確なスケーリング則と、エージェント間での経験継承の現象を確認し、スケーラブルで継承可能な継続的エージェント進化への一歩を記す。プロジェクトページ:https://flex-gensi-thuair.github.io。
私たちはllama-embed-nemotron-8bを紹介します。これはオープンウェイトのテキスト埋め込みモデルであり、2025年10月21日現在、Multilingual Massive Text Embedding Benchmark (MMTEB) リーダーボードにおいて最先端の性能を達成しています。近年のモデルは強力な性能を示すものの、その学習データや手法が完全に開示されない場合が多くあります。私たちは、完全なオープンソースモデルの開発、その重みと詳細な ablation study の公開、そして精選された学習データセットの共有を計画することで、この問題に対処することを目指しています。本モデルは、検索、分類、意味的テキスト類似性(STS)を含む全ての主要な埋め込みタスクにおいて優れた性能を示し、低リソース言語やクロスリンガル設定といった困難な多言語シナリオで特に優れています。この最先端の性能は、770万サンプルの公開データセットと、様々なオープンウェイトLLMから生成された840万の合成的な例に分割された、合計1610万のクエリ-文書ペアからなる新しいデータミックスによって実現されています。私たちの主な貢献の一つは、対照損失の実装比較、合成データ生成(SDG)戦略の評価、モデルマージの影響分析を含む、核心的な設計選択を詳細に分析した ablation study です。llama-embed-nemotron-8b は命令認識モデルであり、特定のユースケースに対して性能を向上させるためのユーザー定義の命令をサポートします。この最高水準の性能、幅広い適用性、そしてユーザー主導の柔軟性の組み合わせにより、本モデルはユニバーサルなテキスト埋め込みソリューションとして機能することが可能です。
自然言語から編集可能な3D CADモデルを生成する技術は依然として課題が多い。既存のテキスト-to-CADシステムはメッシュを生成するか、希少な設計履歴データに依存している。本論文では、非一様有理Bスプライン(NURBS)を用いてテキストから直接高精度な3D CADモデルを生成する初のフレームワークであるNURBGenを提案する。この実現のために、大規模言語モデル(LLM)をファインチューニングし、自由記述テキストをNURBS曲面パラメータ(制御点、ノットベクトル、次数、有理重み)を含むJSON表現に変換する。この表現はPythonを用いて直接BRep形式に変換可能である。さらに、トリム面や縮退領域をより頑健に扱いながらトークン複雑性を低減するため、未トリムNURBSと解析的プリミティブを組み合わせたハイブリッド表現を提案する。加えて、自動注釈パイプラインを用いて詳細なキャプションを付与した個別CADコンポーネントから構成されるABCデータセットの精選サブセットpartABCを導入する。NURBGenは多様なプロンプトにおいて優れた性能を示し、専門家評価により幾何学的忠実度と寸法精度において従来手法を凌駕することを確認した。コードとデータセットは公開予定である。
検証可能な報酬に対する強化学習(RLVR)は大規模推論モデルの訓練に強力である一方、その訓練ダイナミクスには重大な課題、すなわちRL過学習が内在する。これはモデルが訓練報酬を獲得する一方で一般化性能を失う現象である。我々の分析によれば、これは政策の過度の特化と、訓練中に生成される多様な解法の破滅的忘却によって引き起こされる。標準的な最適化手法は、この貴重なステップ間の政策多様性を捨て去ってしまう。この問題に対処するため、我々は反復的政策初期化に基づく自己改善型フレームワーク「RLoop」を提案する。RLoopは標準的な訓練プロセスを好循環に変換する。まずRLを用いて与えられた政策から解空間を探索し、成功した軌跡をフィルタリングしてエキスパートデータセットを作成する。このデータセットはRejection-sampling Fine-Tuning(RFT)を介して初期政策を改良し、次の反復のための優れた出発点を生成する。この探索と利用の反復的再初期化によるループは、一時的な政策の変動を堅牢な性能向上へと効果的に変換する。実験により、RLoopが忘却を緩和し一般化性能を大幅に改善することが示され、バニラRLと比較して平均精度で9%、pass@32で15%以上を向上させた。
強化学習(RL)は、記憶された知識の劣化を代償として、言語モデルの推論能力と汎化性能を向上させるとしばしば評価される。我々はこの通説に異議を唱える。RLを適用したモデルが、特に階層的で構造化された知識(医療コードなど)の探索を要するタスクにおいて、ベースモデルや教師ありファインチューニング(SFT)モデルを純粋な知識想起タスクで一貫して上回ることを観察したからである。我々は、この性能向上が新たに獲得したデータに由来するのではなく、モデルパラメータ内に存在する既知の知識階層を効率的に探索・移動するための手続き的スキルが改善された結果であると仮説を立てる。この仮説を支持するため、階層的な探索を明示的に誘導する構造化プロンプトをSFTモデルに適用すると、性能差の大部分が解消されること(DeepSeek-V3/R1においてMedConceptsQAの性能差を24ppから7ppに縮小)を示す。さらに、プロンプトによる手法が最終回答の精度を向上させる一方で、RL適用モデルは深層検索タスクにおいて正しい手続き的経路を想起する優れた能力を保持し続けることを明らかにする。最後に、層ごとの内部活性化分析により、事実に関する表現(例:「コード57.95は尿路感染症を指す」という陈述に対する活性化)はSFTモデルとRLモデル間で高いコサイン類似性を維持するのに対し、質問表現(例:「コード57.95は何か」)は顕著に乖離することを示す。これはRLが主に知識の表現そのものではなく、モデルが知識を探索する方法を変容させることを示唆している。
マルチモーダル推論の最近の進歩は、非公開データセットと独自のデータ合成レシピに大きく依存しており、大規模で視覚中心の推論データセットを体系的に構築する方法、特に視覚数学を超えるタスクについては未解決の問題が残されている。本研究では、100万以上の高品質な合成視覚中心問題を含む、多様なスキルと複雑さのレベルにわたる新しい推論データ生成フレームワークを提案する。このデータセットには、オフラインおよびオンライン強化学習(RL)をサポートする選好データと指示プロンプトも含まれる。我々の合成フレームワークは、(1) 規模拡大と (2) 複雑化の2段階で進行する。推論トレースは、VLMと推論LLMを活用した2段階プロセスを通じて合成され、フロンティア推論モデルに見られる豊富で多様な認知行動を捉えたVLM向けCoTトレースを生成する。驚くべきことに、Qwen2.5-VL-7Bを当データでファインチューニングすると、評価対象の全ての視覚中心ベンチマークでオープンデータベースラインを凌駕し、V* Bench、CV-Bench、MMStar-Vにおいて強力なクローズドデータモデルであるMiMo-VL-7B-RLさえも上回る性能を示した。おそらく最も驚くべきは、データが完全に視覚中心であるにもかかわらず、テキストのみの推論(MMLU-Pro)および音声推論(MMAU)へ正の転移が見られ、その有効性が実証された点である。同様に、動画や身体性視覚データを含んでいないにもかかわらず、単一証拠に基づく身体性QAベンチマーク(NiEH)での評価において顕著な性能向上が観察された。最後に、当データを用いてVLMポストトレーニングパイプライン全体を分析した。実証分析により、(i) 非線形推論トレースを含む高品質データによるSFTが効果的なオンラインRLに不可欠であること、(ii) 段階的オフラインRLが計算コストを削減しつつオンラインRLと同等の性能を達成できること、(iii) 高品質データに対する注意深いSFTがドメイン外・クロスモダリティ転移を大幅に改善しうることが明らかになった。
ユーザーインターフェースを制御可能なAIエージェントは、人間とデジタルデバイスとの相互作用を変革する可能性を秘めている。この変革を加速させるためには、二つの基本的な構成要素が不可欠である。すなわち、エージェントが複雑で人間にとって意味のある目標を達成することを可能にする高品質なデータセットと、研究者や実務者がエージェントの性能を迅速に向上させられるようにする堅牢な評価手法である。本論文では、モバイル制御エージェントのトレーニング用に設計された、大規模、高品質、多様、マルチモーダルなデータセットであるDigiDataを提案する。既存のデータセットが非構造化されたインタラクションから目標を導出するのに対し、DigiDataはアプリ機能の網羅的な探索を通じて綿密に構築されており、より高い多様性と目標の複雑性を実現している。さらに、現実世界の複雑なタスクにおいてモバイル制御エージェントを評価するベンチマークであるDigiData-Benchを提示する。一般的に用いられるステップ精度指標はモバイル制御エージェントの信頼性のある評価には不十分であることを示し、この問題に対処するため、動的評価プロトコルとAIを活用した評価をエージェント評価の厳密な代替手段として提案する。我々の貢献は、モバイル制御エージェントの開発を大幅に前進させ、より直感的で効果的な人間とデバイスとの相互作用への道を開くことを目的としている。
音楽誘発絵画は、音楽の影響下で視覚芸術作品を創作する独特の芸術実践である。絵画がそのインスピレーション源となった音楽を忠実に反映しているかどうかを評価することは、困難な知覚評価課題である。既存手法は主に感情認識モデルに依存して音楽と絵画の類似性を評価するが、このようなモデルは多大なノイズを導入し、感情以外の広範な知覚的手がかりを見落としている。これらの限界に対処するため、本論文では音楽と視覚芸術の間の知覚的コヒーレンスを直接モデル化する、音楽誘発絵画評価の新規フレームワークを提案する。我々は、ドメイン専門家が知覚的コヒーレンスに基づいて注釈を付けた初の大規模データセットMPDを導入する。曖昧な事例をより適切に扱うため、さらにペアワイルド選好注釈を収集する。このデータセットに基づき、変調ベースの融合メカニズムを通じて音楽特徴を視覚エンコーダに統合するMPJudgeモデルを提示する。曖昧な事例からの効果的な学習のために、訓練にDirect Preference Optimizationを採用する。大規模な実験により、本手法が既存手法を凌駕することを実証する。定性的結果はさらに、本モデルが絵画内の音楽関連領域をより正確に特定することを示す。
大規模言語モデル(LLM)の急速な進展は数多くの応用を推進しているが、効率的なシングルバッチ推論はオンデバイス知能において依然として重要である。FPGAは細粒度なデータ制御と高いエネルギー効率を提供するが、最近のGPU最適化により、特に演算ベースの計算においてその優位性は縮小している。この課題を克服するため、我々はFPGAの豊富なオンチップメモリを活用し、テーブル参照を通じてLLM推論を演算ベースからメモリベースの計算へ転換する。本論文では、ベクトル量子化メモリ操作により1B+ LLM推論を実現する初のFPGAアクセラレータであるLUT-LLMを提案する。活性化-重み協調量子化が最も効果的な方式であると分析し、(1) 帯域幅を考慮した並列重心探索、(2) 効率的な2次元テーブル参照、(3) データキャッシングを最小化する時空間ハイブリッド設計によってこれを支援する。カスタマイズ版Qwen 3 1.7Bモデルに対してAMD V80 FPGA上で実装したLUT-LLMは、AMD MI210と比較して1.66倍の低レイテンシを達成し、NVIDIA A100に対して1.72倍のエネルギー効率向上を実現。32Bモデルへのスケーリング時にはA100対比2.16倍の効率向上を示す。
自然言語による指示に従う能力により、ビジョン・ランゲージ・アクション(VLA)モデルは、その前身であるLLMやVLMの広範な成功を受け、具体化AIの分野でますます普及している。本論文では、VLAモデルの継続的な発展における10の主要なマイルストーン——マルチモダリティ、推論、データ、評価、ロボット横断的行動一般化、効率性、全身協調、安全性、エージェント、人間との協調——について論じる。さらに、これらのマイルストーン達成を目指す、空間理解の活用、世界のダイナミクスのモデル化、事後学習、データ合成といった新たな潮流についても考察する。これらの議論を通じて、VLAモデルの開発がより広範な受容性を得るまでの道筋を加速させる可能性のある研究分野に注目が集まることを期待する。
テキストから画像への拡散モデルは高品質な画像を生成するが、人間の選好との整合性を確保することは依然として課題である。本研究では、拡散モデルに基づく直接選好最適化(DPO)を再検討し、重要な問題点を特定した:選好マージンを拡大しても生成品質が必ずしも向上するわけではない。特に、標準的なDiffusion-DPOの目的関数は、勝者ブランチと敗者ブランチの両方の再構成誤差を増大させる可能性がある。その結果、選好度の低い出力の劣化が十分に進行すると、マージンが拡大するにつれて、選好度の高いブランチにも悪影響が及ぶ。この問題に対処するため、我々はDiffusion-SDPOを提案する。これは、敗者勾配と勝者勾配の整合性に応じて敗者勾配を適応的にスケーリングすることで、勝者を保護する安全な更新規則である。一次解析により、最適化ステップ毎に選好出力の誤差が非増加であることを保証する閉形式のスケーリング係数が得られる。本手法は単純でモデル非依存、既存のDPO形式の整合性フレームワークと広く互換性があり、計算オーバーヘッドも僅かである。標準的なテキストから画像へのベンチマークにおいて、Diffusion-SDPOは、自動選好、美的品質、プロンプト整合性の指標において、選好学習ベースラインを一貫して上回る結果を示した。コードはhttps://github.com/AIDC-AI/Diffusion-SDPO で公開されている。
本論文では、単一画像から任意のオブジェクトの多様な3Dモーションを生成可能な生成手法DIMOを提案する。我々の手法の中核は、十分に学習されたビデオモデルが持つ豊富な事前知識を活用し、共通の運動パターンを抽出して共有の低次元潜在空間に埋め込むことにある。具体的には、まず同一オブジェクトの多様な運動を持つ複数のビデオを生成し、各運動を潜在ベクトルに埋め込んだ後、共有の運動デコーダを学習させる。これにより、構造化されたコンパクトな運動表現(神経キーポイント軌跡)で表される運動分布を学習する。正規化された3Dガウシアンはこれらのキーポイントによって駆動され、形状と外観をモデル化するために融合される。学習済み潜在空間を用いた推論時には、単一のフォワードパスで多様な3D運動を瞬時にサンプリングでき、3D運動補間や言語誘導型運動生成など複数の応用をサポートする。プロジェクトページはhttps://linzhanm.github.io/dimoで公開されている。
強化学習(RL)による事後学習を受けた視覚言語モデル(VLM)は、印象的な汎用的推論能力を示すが、その評価はしばしば言語優位なタスク(例:数学)に限定されている。これは重要な疑問を提起する:RLによる事後学習は、特にベースVLMが最初は失敗する視覚中心の空間タスクにおいて、その本質的な能力限界を真に拡張できるのか? これを調査するため、我々はAriadneを導入する。これは合成迷路を利用した多段階空間推論のフレームワークであり、タスクの難易度(例:経路長、曲がり角の数)を精密に制御できる。この制御可能な環境を活用し、難易度を意識したカリキュラムにおいて、検証済み報酬を用いた強化学習(RLVR)でVLMを学習させる。驚くべきことに、RLVRによる事後学習後、VLMはベースモデルが0%の正解率だった問題セットで50%超の正解率を達成し、我々のアプローチがモデルの初期能力限界を拡大することを実証した。実世界での実用性を評価するため、実用的ベンチマークにおける分布外(OOD)汎化性能を評価する。合成迷路サンプルのみで学習させたにもかかわらず、Ariadneは顕著なゼロショット改善を示し、MapBench(例:美術館ナビゲーション)で平均16%、ReasonMap(地下鉄乗換タスク)で平均24%の向上を達成した。これらの結果は、我々の手法がモデルの基本的限界を広げるだけでなく、実世界の空間推論への汎化も強化することを確認する。本研究は、事前学習データの不透明さを考慮し、事後学習段階に限定されていることを認識する。我々の研究が、専門的で能力限界を拡張するアライメントに関するさらなる研究を促進することを期待する。
大規模ソフトウェアリポジトリの性能最適化には、プログラムの正確性を維持しながら実行時間を短縮するための、コード推論とソフトウェア工学(SWE)に関する専門知識が求められる。しかし、既存のベンチマークの多くは、コードを「何を」修正すべきかに重点を置き、「どのように」修正すべきかについては軽視しがちである。本研究では、実ワークロードに対するリポジトリレベルの性能最適化を評価するベンチマーク「SWE-fficiency」を提案する。この評価スイートは、広く利用されているデータサイエンス、機械学習、HPCの9つのリポジトリ(numpy、pandas、scipyなど)から計498のタスクを収録している。各タスクでは、完全なコードベースと低速なワークロードが与えられ、エージェントはコードの意味を調査し、ボトルネックと関連するテストを特定し、単体テストを通過しつつ専門家の高速化効果に匹敵するかそれを上回るパッチを生成しなければならない。この「どのように修正するか」の評価を可能にするため、自動化パイプラインを構築した。これはGitHubのプルリクエストから性能改善編集を収集し、キーワードフィルタリング、静的解析、カバレッジツール、実行検証を組み合わせて、専門家の高速化ベースラインを確認するとともに、関連するリポジトリの単体テストを特定する。最先端のエージェントによる実証評価では、著しい性能不足が明らかになった。エージェントが達成した高速化は、専門家の効果の平均0.15倍未満であった。エージェントは、最適化の機会を特定すること、関数を跨ぐ実行について推論すること、提案された編集で正確性を維持することに苦戦している。自動性能エンジニアリングと長期的なソフトウェア推論に関する研究を促進するため、ベンチマークと付随するデータパイプラインを公開する。
ビデオ異常理解(VAU)は、ビデオ内の異常事象に対する詳細な解釈と意味理解を提供することを目的とし、異常の検出と位置特定のみに焦点を当てる従来手法の限界に対処する。しかし、既存の手法では、異常行動の理解に不可欠な、オブジェクト間の深い因果関係や相互作用が軽視されがちである。本論文では、LLM駆動のビデオ異常理解フレームワークであるVADERを提案する。VADERは、キーフレームのオブジェクト関係特徴量と視覚的手がかりを統合し、ビデオからの異常理解を強化する。具体的には、VADERはまず異常スコアラーを適用してフレーム単位の異常スコアを割り当て、その後、各異常事象の因果的コンテキストを捕捉するContext-AwarE Sampling(CAES)戦略を採用する。関係特徴抽出器とCOntrastive Relation Encoder(CORE)が動的なオブジェクト相互作用を共同でモデル化し、下流の推論向けにコンパクトな関係表現を生成する。これらの視覚的・関係的手がかりはLLMと統合され、詳細で因果に基づいた記述を生成し、堅牢な異常関連質問応答を支援する。複数の実世界VAUベンチマークによる実験により、VADERが異常記述、説明、因果推論タスクにおいて強力な結果を達成し、説明可能なビデオ異常分析の最先端を推進することが実証された。
対話における感情認識(ERC)は、人間の感情を理解し、自然な人間とコンピュータの相互作用を可能にする上で重要な課題である。大規模言語モデル(LLM)は近年この分野で大きな可能性を示しているが、顕在的感情と潜在的感情の間の本質的関連性を捉える能力には依然として限界がある。本論文では、プロンプトエンジニアリング、デモンストレーション検索、カリキュラム学習を統合した新しいERC訓練フレームワーク「PRC-Emo」を提案し、LLMが対話文脈における感情を効果的に認識できるかどうかを探求する。具体的には、顕在的・潜在的感情手がかりに基づいて感情感受性プロンプトテンプレートを設計し、モデルが話者の心理状態を理解するのをより効果的に導く。さらに、ERC向けに初めて専用のデモンストレーション検索リポジトリを構築し、広く使用されているデータセットからの訓練サンプルに加えて、LLMによって生成され手動で検証された高品質な対話例を含める。加えて、LoRAファインチューニング過程にカリキュラム学習戦略を導入し、同一話者発話間と異なる話者発話間の重み付き感情変化を組み込むことで対話サンプルに難易度を割り当て、易から難への訓練シーケンスで構成する。2つのベンチマークデータセット(IEMOCAPとMELD)での実験結果は、本手法が新たなstate-of-the-art(SOTA)性能を達成し、LLMベースの感情理解を改善する本アプローチの有効性と一般化可能性を実証している。
大規模言語モデル(LLM)は近年、聴覚音声認識(ASR)、視覚音声認識(VSR)、聴覚・視覚融合音声認識(AVSR)といった複数モダリティにわたる音声認識分野で顕著な成果を上げている。しかしながら、現在のLLMベースの手法では、各タスクを独立して扱い個別のモデルを学習するのが一般的である。これにより計算資源と導入コストが増大する一方、タスク間の相乗効果を活かしきれていない。さらに、固定レートのトークン圧縮方式に依存するため、精度と効率性の柔軟な両立が制限されている。これらの課題は、ASR・VSR・AVSRを統合的にサポートし、弾力的な推論を可能とする枠組みの必要性を示唆する。本研究では、効率的なマルチ粒度学習とパラメータ効率の良い適応手法を組み合わせた統合型音響・視覚LLM「Omni-AVSR」を提案する。具体的には、マトリョーシカ表現学習のパラダイムを拡張し複数の音響・視覚粒度にわたる効率的な学習を実現することで、本来必要とされる学習リソースを削減する。さらに、LoRAベースの3種類の適応戦略を検討し、バックボーンLLMにおける共有パラメータとタスク特化パラメータの最適なバランスを追求する。LRS2およびLRS3を用いた実験により、Omni-AVSRが単一モデルの学習にもかかわらず、従来の最先端手法と同等あるいはそれ以上の精度を達成し、学習時および推論時のリソース使用量を大幅に低減できることを実証した。本モデルは聴覚的ノイズ下でも頑健性を維持し、LLMサイズ拡大に伴うスケーリング挙動の分析を通じて、性能と効率性のトレードオフに関する知見を提供する。