翻訳付きの日次キュレーションされたAI研究論文
強化学習は、言語モデル(LM)が環境からの報酬やフィードバックから学習する中心的なアプローチとなっている。実際には、環境からのフィードバックは通常まばらで遅延が生じる。このような信号からの学習は困難であり、LMは観測された失敗が将来の反復においてどのように行動変化に変換されるべきかを暗黙的に推論しなければならない。本論文では、強化学習プロセスに明示的な経験-内省-定着のループを組み込んだ訓練パラダイムであるExperiential Reinforcement Learning(ERL)を提案する。タスクが与えられると、モデルは最初の試行を生成し、環境からのフィードバックを受け取り、洗練された第二の試行を導く内省を生成する。第二の試行の成功は強化され、基本方策へと内面化される。このプロセスはフィードバックを構造化された行動修正に変換し、探索を改善し最適化を安定化させるとともに、推論時の追加コストなしで展開時の性能向上を維持する。まばらな報酬の制御環境とエージェント的推論ベンチマークにおいて、ERLは強力な強化学習ベースラインと比較して学習効率と最終性能を一貫して向上させ、複雑な多段階環境では最大+81%、ツール利用推論タスクでは最大+11%の性能向上を達成した。これらの結果は、明示的な自己内省を方策訓練に統合することが、フィードバックを持続的な行動改善に変換する実用的なメカニズムを提供することを示唆している。
既存のマルチモーダル検索システムは意味的マッチングに優れるが、クエリと画像の関連性を単体で測定できるという前提を暗黙的に仮定している。このパラダイムは、現実の視覚ストリームに内在する豊かな依存関係を見落としており、実際には情報は単一のスナップショットに閉じず時間的な連続性の中で分散している。この課題を解決するため、我々は画像検索を自律的な探索タスクとして再定義する新しいエージェント型パラダイム「DeepImageSearch」を提案する。本手法では、モデルが生の視覚履歴に対してマルチステップの推論を計画・実行し、文脈的な手がかりに基づいて目標を特定する。さらに、相互接続された視覚データに基づく挑戦的なベンチマーク「DISBench」を構築した。文脈依存クエリ作成の拡張性課題に対処するため、視覚言語モデルを活用して潜在的な時空間的関連性を抽出し、人的検証前に集中的な文脈発見を効率化する人間-モデル協働パイプラインを提案する。さらに、細粒度ツール群と長期的ナビゲーションのための二重メモリシステムを備えたモジュラー型エージェントフレームワークを用いた堅牢なベースラインを構築した。大規模な実験により、DISBenchが最先端モデルにとって重大な課題を提起し、次世代検索システムへのエージェント推論の組み込み必要性が明らかとなった。
我々はNanbeige4.1-3Bを発表する。これは、わずか30億パラメータで強力なエージェント行動、コード生成、一般的な推論を同時に実現する統一汎用言語モデルである。知る限り、単一モデルでこれほど多様な能力を達成したオープンソースの小型言語モデル(SLM)は初めてである。推論能力と選好整合性を向上させるため、ポイントワイズ報酬モデリングとペアワイズ報酬モデリングを組み合わせ、高品質で人間の意図に沿った応答を保証している。コード生成では、強化学習における複雑度対応報酬を設計し、正確性と効率性の両方を最適化した。深層探索では、複雑なデータ合成を実施し、訓練時にターンレベルの監督を組み込むことで、安定した長期的ツールインタラクションを実現。Nanbeige4.1-3Bは複雑な問題解決のために最大600ターンにわたるツール呼び出しを確実に実行できる。大規模な実験結果から、Nanbeige4.1-3BはNanbeige4-3B-2511やQwen3-4Bといった同規模の従来モデルを大きく上回り、Qwen3-30B-A3Bのようなはるかに大規模なモデルに対しても優れた性能を示すことが確認された。本結果は、小型モデルが広範な汎用性と強力な専門性を同時に達成可能であることを示し、30億パラメータモデルの可能性を再定義するものである。
大規模言語モデルは、汎用知識エンジンから現実世界の問題解決ツールへと移行しつつあるが、深層検索タスクへの最適化は依然として課題である。中核的なボトルネックは、高品質な検索軌跡と報酬信号の極端な希少性にあり、これはスケーラブルな長期タスク構築の難しさと、外部ツール呼び出しを含むインタラクション集約的なロールアウトの高コストに起因する。これらの課題に対処するため、我々はREDSearcherを提案する。これは複雑なタスク合成、学習中訓練、学習後訓練を協調設計し、スケーラブルな検索エージェント最適化を実現する統一フレームワークである。具体的には、REDSearcherは以下の改善を導入する:(1)タスク合成を二重制約最適化問題として定式化し、グラフトポロジーと証拠分散によってタスク難易度を精密に制御することで、複雑で高品質なタスクのスケーラブルな生成を可能にする。(2)受動的想起ではなく能動的ツール使用を促進するため、ツール拡張クエリを導入する。(3)学習中訓練において、中核的原子能力(知識、計画、関数呼び出し)を強化し、下流訓練のための高品質軌跡収集コストを大幅に削減する。(4)強化学習実験のための迅速かつ低コストなアルゴリズム反復を可能とするローカルシミュレーション環境を構築する。テキストのみおよびマルチモーダル検索エージェントベンチマークにおいて、本手法は最先端の性能を達成する。長期検索エージェントの将来研究を促進するため、1万件の高品質複雑テキスト検索軌跡、5千件のマルチモーダル軌跡、1千件のテキストRLクエリセットを、コード及びモデルチェックポイントと共に公開する予定である。
本論文では、コードブックインデックスの代わりに二値ビジュアルトークンを予測するスケーラブルな自己回帰(AR)画像生成モデルBitDanceを提案する。高エントロピーな二値潜在変数を用いることで、BitDanceは各トークンが最大2^{256}の状態を表現可能とし、コンパクトでありながら高い表現力を持つ離散表現を実現する。この巨大なトークン空間からのサンプリングは、従来の分類手法では困難である。この課題を解決するため、BitDanceは二値拡散ヘッドを採用する:ソフトマックスによるインデックス予測の代わりに、連続空間拡散を用いて二値トークンを生成する。さらに、複数のトークンを高精度で並列予測する新しいデコーディング手法であるnext-patch diffusionを提案し、推論速度を大幅に向上させる。ImageNet 256x256において、BitDanceはFID 1.24を達成し、ARモデルの中で最高性能を示す。next-patch diffusionを用いることで、BitDanceは14億パラメータを使用する最先端の並列ARモデルを、5.4倍少ないパラメータ数(2億6千万)で凌駕し、8.7倍の高速化を実現する。テキストから画像への生成においては、大規模マルチモーダルトークンで学習し、高解像度で写実的な画像を効率的に生成し、優れた性能と良好なスケーリング特性を示す。1024x1024画像生成時には、従来のARモデルと比較して30倍以上の高速化を達成する。AR基盤モデルの研究促進のため、コードとモデルを公開する。コードとモデルは以下で入手可能:https://github.com/shallowdream204/BitDance。
産業規模のユーザー表現学習には、頑健な普遍性と鋭敏なタスク感応性のバランスが求められる。しかし、既存のパラダイムでは主に静的なタスク非依存の埋め込みが生成され、統一されたベクトル空間内で下流シナリオの相反する要求を調和させることに課題を抱えている。さらに、異種マルチソースデータは固有のノイズとモダリティ衝突をもたらし、表現品質を劣化させる。我々はQuery-as-Anchorを提案する。これはユーザーモデリングを静的な符号化から動的でクエリ認識型の合成へと転換するフレームワークである。大規模言語モデル(LLM)に深いユーザー理解能力を付与するため、まずマルチモーダル行動シーケンスとユーザー理解意味論を整合させた産業規模の事前学習データセットUserUを構築し、Q-Anchor埋め込みアーキテクチャでは階層的な粗密エンコーダをデュアルタワーLLMに統合し、対照的自己回帰最適化による共同学習でクエリ認識型ユーザー表現を実現する。一般的な事前学習と専門的な業務ロジックの間の隔たりを埋めるため、クラスタベースのソフトプロンプトチューニングを導入し、識別的な潜在構造を強化することでモデルの注意機構をシナリオ特有のモダリティに効果的に整合させる。デプロイメントでは、シーケンス末端にクエリを固定化することでKVキャッシュ加速推論を可能にし、無視できる程度の追加遅延で処理を実現する。Alipayの10の産業ベンチマークによる評価では、一貫したSOTA性能、強力な拡張性、効率的なデプロイメント性能を実証した。Alipay生産システムにおける2つの実世界シナリオでの大規模オンラインA/Bテストでは、その実用的有効性をさらに裏付けている。コードは公開準備が整っており、https://github.com/JhCircle/Q-Anchor で公開予定である。
推論時計算(ITC)手法であるBest-of-NやTree-of-Thoughtsは、高品質かつ多様な出力候補を生成することを目的としているが、高温度サンプリングの使用は意味のある出力多様性の達成に往々にして失敗する。さらに、既存のITC手法は推論の実行方法に対する制御が限定的であり、結果として説明可能性が制約されている。本論文では、高水準の推論パターンを探索する解釈可能なITC手法であるSTATe-of-Thoughts(STATe)を提案する。STATeは確率的サンプリングを離散的で解釈可能なテキスト介入に置き換える:コントローラが高水準の推論選択を符号化するアクションを選択し、ジェネレータがそれらの選択に条件付けられた推論ステップを生成し、評価器が候補を採点して探索を導く。この構造化されたアプローチには3つの主な利点がある。第一に、アクション誘導型テキスト介入は温度ベースのサンプリングよりも大きな応答多様性を生み出す。第二に、議論生成におけるケーススタディでは、STATeの明示的なアクション列が出力品質を強く予測する解釈可能な特徴を捉えている。第三に、パフォーマンスとアクション選択の関連性を推定することで、有望でありながら未探索のアクション空間領域を特定し、生成を直接それらに向けて誘導できる。これらの結果を総合すると、STATeが高品質・多様・解釈可能なテキストを生成する実用的なフレームワークであることが立証される。本フレームワークはhttps://github.com/zbambergerNLP/state-of-thoughtsで公開されている。
大規模言語モデルの急速な進化は科学アイデアの生産を促進してきたが、この飛躍的な進歩に評価手法の進化は追いついていない。科学的評価の本質は、知識に基づいた根拠、集団的な審議、多基準意思決定を必要とする。しかし既存のアイデア評価手法は、狭い知識範囲、平坦化された評価次元、LLM判定者に内在するバイアスといった課題を抱えている。これらの課題に対処するため、我々はアイデア評価を知識に基づく多視点推論問題と見なし、人間レベルのアイデア評価を模倣する深層イノベーション評価フレームワーク「InnoEval」を提案する。多様なオンラインソースから動的証拠を検索・基盤化する異種深層知識検索エンジンを採用し、異なる学術的背景を持つ評価者から構成されるイノベーション審査委員会による審査合意を実現する。これにより複数指標にわたる多次元分離評価を可能にする。権威ある査読付き投稿から派生した包括的なデータセットを構築し、InnoEvalのベンチマークを実施した。実験結果では、点単位・組単位・群単位の評価タスクにおいてInnoEvalが一貫してベースラインを上回り、人間専門家の判断パターンと合意に高い整合性を示すことを実証した。
データ品質が基盤モデルの性能を決定するにも関わらず、体系的な処理フレームワークは不足している。本研究では、データとモデルの共進化を概念化する10段階の分類体系(L0-L9)である「Data Darwinism」を提案する。先進的なモデルが次世代システムのための優れたデータを生成するという考え方に基づく。これを科学文献に適用し、900Bトークンのコーパス「Darwin-Science」(L0-L5)を構築して検証した。生の科学テキストには学習可能性のギャップが存在することを確認し、L4(生成的洗練)とL5(認知的完成)において最先端LLMを用いて推論過程と専門用語を明示化することでこのギャップを解消した。 厳密な帰属分析を確保するため、科学コンテンツを除外した汚染フリーベースラインとして、daVinci-origin-3B/7Bモデルをスクラッチから事前学習した。600Bトークンの継続事前学習後、Darwin-Scienceは20以上のベンチマークでベースラインを+2.12(3B)および+2.95(7B)ポイント上回り、ドメイン整合タスクでは+5.60および+8.40ポイントまで差が拡大した。L5への体系的な進行は合計+1.36の性能向上をもたらし、高次処理がデータの潜在価値を解放することを確認した。原理に基づいた共進化的開発を可能にするため、Darwin-ScienceコーパスとdaVinci-originモデルを公開する。
統一的なマルチモーダル大規模言語モデル(MLLM)には、高精度な再構成、複雑な意味抽出、生成適性を同時にサポートする視覚的表現が求められる。しかし、既存の視覚トークナイザーは通常、単一フレームワーク内でこれらの相反する目標を満たすことに苦戦している。本論文では、大規模な二進コードブック(2^{128})を用いてこのギャップを埋めるように設計された統一離散トークナイザーUniWeTokを提案する。訓練フレームワークにおいては、離散トークンの意味抽出能力と生成事前分布を強化するため、事前事後蒸留と生成認識事前分布を導入する。モデルアーキテクチャの観点では、SigLu活性化関数を備えた畳み込み-注意ハイブリッド構造を提案する。SigLu活性化は、エンコーダ出力を制限して意味蒸留プロセスを安定化させるだけでなく、トークンエントロピー損失とコミットメント損失の間の最適化競合を効果的に解決する。さらに、様々な画像解像度や人物顔や文字コンテンツを含む知覚敏感なシナリオへの適応性を高めるために、3段階の訓練フレームワークを設計した。ImageNetでは、UniWeTokは画像生成性能において最先端の結果(FID: UniWeTok 1.38 vs. REPA 1.42)を達成し、極めて低い訓練計算量(訓練トークン数: UniWeTok 33B vs. REPA 262B)を実現した。一般領域では、UniWeTokはマルチモーダル理解、画像生成(DPGスコア: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84)、編集(GEdit総合スコア: UniWeTok 5.09 vs. OmniGen 5.06)など、幅広いタスクにおいて高い競争力を示した。統一トークナイザーとMLLMのコミュニティによる探求を促進するため、コードとモデルを公開する。
マルチモーダル大規模言語モデル(MLLM)が物理力学を真に推論しているかどうかの評価は依然として課題である。既存のベンチマークの多くは、視覚質問応答(VQA)や期待違反(VoE)などの認識型プロトコルに依存しており、これらは明示的で検証可能な物理仮説を必要とせずに解答可能な場合が多い。本研究では、視覚観察から実行可能なシミュレータコードを生成させることで物理推論を評価する、実行ベースのフレームワークVisPhyWorldを提案する。実行可能なコードを生成することにより、推論された世界表現は直接検査・編集・反証が可能となる。これにより物理推論とレンダリングが分離される。このフレームワークに基づき、108の物理テンプレートから導出された209の評価シーンと、モデルが外観を再構築し物理的に妥当な運動を再現する能力を体系的に評価するプロトコルで構成されるVisPhyBenchを導入する。当該パイプラインはベンチマークにおいて97.7%の有効な再構築動画を生成する。実験結果から、最先端のMLLMは強力な意味的シーン理解を達成する一方、物理パラメータの正確な推論と一貫した物理力学のシミュレーションには課題があることが示された。
本論文は、量子計算を第一級の実行オプションとして扱う量子データベース(Qute)を提案する。従来のシミュレーション手法が、量子アルゴリズムを古典計算機で実行するか、既存データベースを量子シミュレーション用に適合させるものであったのに対し、Quteは以下の革新点を導入する:(i)拡張版SQLをゲート効率の良い量子回路にコンパイル、(ii)量子実行計画と古典実行計画を動的に選択するハイブリッドオプティマイザの採用、(iii)選択的量子インデックス機構の導入、(iv)現在の量子ビット制約を緩和する忠実度維持型ストレージの設計。さらに、量子ネイティブデータベース実現に向けた3段階の進化ロードマップを示す。最後に、実量子プロセッサ(origin_wukong)上でQuteを動作させ、スケール拡大時に古典ベースラインを上回る性能を実証するとともに、オープンソースプロトタイプをhttps://github.com/weAIDB/Qute で公開する。
LLMベースのエージェントシステムの構成は、ワークフロー、ツール、トークン予算、プロンプトを大規模な組み合わせ設計空間から選択することを含み、現在では固定化された大規模テンプレートや手動調整されたヒューリスティクスによって処理されるのが一般的です。このアプローチは脆弱な動作と不必要な計算資源の消費を招きます。なぜなら、容易な入力クエリと困難な入力クエリの両方に、同じ煩雑な構成が適用されることが多いためです。我々はエージェント構成をクエリ単位の意思決定問題として定式化し、強化学習を用いて軽量な階層的ポリシーを学習し、これらの構成を動的に調整するARC(Agentic Resource & Configuration learner)を提案します。推論とツール拡張質問応答にわたる複数のベンチマークにおいて、学習されたポリシーは、手動設計された強力なベースラインやその他の手法を一貫して上回り、タスク精度を最大25%向上させると同時に、トークンコストと実行時間も削減しました。これらの結果は、クエリごとにエージェント構成を学習することが、「万能型」設計に対する強力な代替手段であることを実証しています。
Webエージェントは一般化に大量の軌跡を必要とするが、現実世界でのトレーニングはネットワーク遅延、レート制限、安全リスクによって制約されている。我々は大規模トレーニングされた初のオープンウェブシミュレータであるWebWorldシリーズを提案する。既存のシミュレータが数千の軌跡に限定された閉鎖環境に制限される一方で、WebWorldはスケーラブルなデータパイプラインを活用し、100万以上のオープンウェブインタラクションでトレーニングされ、推論、マルチフォーマットデータ、30ステップ以上の長期シミュレーションをサポートする。本質的評価として、9つの次元にまたがる二重指標からなるWebWorld-Benchを導入し、WebWorldはGemini-3-Proに匹敵するシミュレーション性能を達成する。外在的評価として、WebWorldで合成された軌跡でトレーニングされたQwen3-14Bは、WebArenaにおいて+9.2%の改善を示し、GPT-4oに匹敵する性能に到達する。WebWorldは効果的な推論時検索を可能にし、世界モデルとしてGPT-5を上回る。ウェブシミュレーションを超えて、WebWorldはコード、GUI、ゲーム環境へのクロスドメイン一般化を示し、世界モデル構築のための再現可能な手法を提供する。
マルチモーダル大規模言語モデル(MLLM)は、高度化する計画立案とツール利用能力を備え、オープンワールド環境におけるマルチモーダルなウェブブラウジングと深層検索を実行可能な自律エージェントへと進化しつつある。しかし、既存のマルチモーダルブラウジングのベンチマークは、タスクの複雑さ、証拠へのアクセス性、評価の粒度において限界があり、深層検索能力の包括的かつ再現性のある評価を妨げている。これらの課題に対処するため、我々はBrowseComp-V^3を提案する。これは、多様な領域にわたる300の厳選された難問から構成される新規ベンチマークである。本ベンチマークは、深層的、多段的、かつクロスモーダルなマルチホップ推論を重視しており、決定的な証拠はウェブページ内およびページ間で、テキストと視覚のモダリティに跨って散在している。全ての支持証拠は公開検索可能であることが厳密に要求され、公平性と再現性を保証する。最終回答の正確性に加えて、専門家検証済みのサブゴール駆動型プロセス評価機構を組み込むことで、中間推論行動の細粒度分析と能力限界の体系的な特性評価を可能にする。さらに、多様なウェブ検索および視覚知覚ツールを統合した統一マルチモーダルブラウジングエージェントフレームワークであるOmniSeekerを提案する。包括的実験により、最先端モデルであっても本ベンチマークでの正答率は36%に留まり、マルチモーダル情報統合と細粒度知覚における重大なボトルネックが明らかになった。本結果は、現行モデルの能力と実世界設定における頑健なマルチモーダル深層検索との間に根本的な隔たりがあることを示唆する。
マルチモーダル大規模言語モデル(MLLM)の活用は、様々なクロスモーダルタスクに対処するための汎用マルチモーダル埋め込み(UME)の発展において極めて重要となっている。最近の研究では、識別的アプローチと比較して、生成的連鎖思考(CoT)推論を組み込むことでタスク特化的な表現が大幅に強化され得ることが実証されている。しかし、既存の生成的埋め込み手法で生成される推論CoTは、クエリのテキスト分析に限定されており、検索対象の retrieval と無関係である。これらの課題を解決するため、本論文では、埋め込みモデルが導く強化学習(EG-RL)を統合し、Reasoner が証拠に基づく追跡可能性CoT(T-CoT)を生成するよう最適化する、推論駆動型UMEフレームワークを提案する。主な貢献は以下の3点である:(1)Embedder が Reasoner に明示的な監督を提供し、生成されるCoTトレースが埋め込みタスクと整合することを保証するEG-RLフレームワークを設計。(2)検索関連要素に焦点を当てるための重要なマルチモーダル手がかりを抽出し、Embedder へのマルチモーダル入力を提供するT-CoTを導入。(3)限られた計算資源下において、我々のフレームワークがMMEB-V2およびUVRBベンチマークで先駆的な埋め込みモデルを凌駕する。構造化推論へのマルチモーダル証拠の統合と、検索指向のアライメントを組み合わせることで、クロスモーダル意味的一貫性が効果的に強化され、モデルの細粒度マッチング能力と複雑なシナリオにおける汎化性能が向上する。本研究は、対象を絞った推論最適化がマルチモーダル埋め込みの品質を大幅に改善し得ることを実証し、推論駆動型UME開発に対する実用的かつ効率的なソリューションを提供する。
拡散言語モデル(dLLM)は近年、自己回帰型LLMの有望な代替として登場した。最新の研究ではこれをさらに発展させ、マルチモーダル理解と生成タスクに拡張している。本研究では、マルチモーダルで汎用目的の推論が可能なdLLMであるLaViDa-R1を提案する。既存研究がタスク特化型の強化学習によって推論dLLMを構築するのに対し、LaViDa-R1は多様なマルチモーダル理解・生成タスクを統一的な手法で統合している。特にLaViDa-R1は、教師ありファインチューニング(SFT)とマルチタスク強化学習(RL)をシームレスに統合する新規の統一ポストトレーニングフレームワークを用いて構築されている。有効性と拡張性を高めるため、回答強制、木探索、相補的尤度推定といった新規トレーニング技術を採用している。大規模な実験により、LaViDa-R1が視覚的数学推論、推論集約的グラウンディング、画像編集など、幅広いマルチモーダルタスクにおいて強力な性能を発揮することを実証した。
長時間にわたる空間的世界の一貫性の維持は、カメラ制御可能なビデオ生成における中心的な課題である。既存のメモリベースの手法では、履歴データから再構築された3Dシーンをレンダリングしたアンカービデオに基づいて生成を行うことが多い。しかし、複数の視点からグローバルな3Dシーンを再構築する際、ポーズ推定や深度推定の誤差により、同一表面が視点間で微妙に異なる3D位置に再構築されるため、視点間の不整合が不可避的に生じる。これらの不整合が融合されると、ノイズの多い幾何学構造として蓄積され、条件付け信号を汚染し生成品質を低下させる。本論文ではAnchorWeaveを提案する。これは、単一の不整合なグローバルメモリを複数のクリーンなローカル幾何学メモリで置き換え、それらの視点間不整合を調整することを学習するメモリ拡張型ビデオ生成フレームワークである。この目的のために、AnchorWeaveは目標軌道に沿ったカバレッジ駆動型ローカルメモリ検索を実行し、生成過程中にマルチアンカーウィービングコントローラを介して選択されたローカルメモリを統合する。大規模な実験により、AnchorWeaveが優れた視覚品質を維持しつつ長期的なシーン一貫性を大幅に向上させることを実証し、アブレーション研究および分析研究を通じて、ローカル幾何学条件付け、マルチアンカー制御、カバレッジ駆動型検索の有効性をさらに検証する。
対話的画像セグメンテーションは、抽象的な意図駆動型の概念をピクセル単位で正確なマスクとして定着させる。従来の参照画像接地研究は、カテゴリカルおよび空間的クエリ(例:「左端のリンゴ」)に焦点を当てる一方で、機能的・物理的推論(例:「ナイフを安全に保管できる場所は?」)を軽視してきた。本研究はこの課題を解決し、実体、空間関係、意図、アフォーダンス、機能、安全性、物理的推論にわたるベンチマーク「Conversational Image Segmentation(CIS)」および「ConverSeg」を提案する。さらに、強力なセグメンテーション事前情報と言語理解を融合する「ConverSeg-Net」と、人間の監督なしでプロンプト-マスクペアを生成するAI駆動データエンジンを開発した。現行の言語誘導型セグメンテーションモデルがCISに不十分である一方、当データエンジンで学習したConverSeg-NetはConverSegで大幅な性能向上を達成し、既存の言語誘導型セグメンテーションベンチマークでも高い性能を維持することを示す。プロジェクトウェブページ:https://glab-caltech.github.io/converseg/
人間の動作理解と生成は、コンピュータビジョンとロボティクスにおいて重要であるが、推論能力とテスト時計画の点で未だ限界がある。本論文では、教師ありファインチューニングと検証可能な報酬を用いた強化学習により訓練された統一マルチモーダル動作モデルMoRLを提案する。タスク特化的な報酬設計は、理解タスクにおいては意味的整合性と推論的一貫性を、生成タスクにおいては物理的な妥当性とテキスト-動作一貫性を組み合わせており、論理的推論と知覚的リアリズムの両方を改善する。推論をさらに強化するため、段階的な計画と振り返りを可能にするテスト時推論手法Chain-of-Motion (CoM) を導入する。また、動作シーケンスと推論トレース及び行動記述を整合させるため、大規模なCoTデータセットMoUnd-CoT-140KおよびMoGen-CoT-140Kを構築した。HumanML3DとKIT-MLにおける実験により、MoRLが既存の最先端ベースラインを大きく上回る性能を達成することを示す。コード: https://github.com/AIGeeksGroup/MoRL. ウェブサイト: https://aigeeksgroup.github.io/MoRL.
本論文では、指示ベース画像編集のための拡散トランスフォーマーであるFireRed-Image-Editを提案する。本モデルは、データキュレーション、学習方法論、評価設計の体系的最適化を通じて、最先端の性能を達成する。多様なソースから900Mのテキスト-画像ペアと700Mの画像編集ペアから構成される1.6Bサンプルの学習コーパスを構築した。厳密なクリーニング、層別化、自動ラベリング、2段階フィルタリングを経て、生成と編集のバランスが取れた1億以上の高品質サンプルを保持し、強力な意味的カバレッジと指示整合性を確保した。我々の多段階学習パイプラインは、事前学習、教師ありファインチューニング、強化学習を経て編集能力を段階的に構築する。データ効率を向上させるため、可変解像度バッチ処理のための多条件対応バケットサンプラーと、動的プロンプト再インデックス化を伴う確率的指示整合性を導入した。最適化の安定化と制御性向上のために、DPOのための非対称勾配最適化、テキスト編集のためのレイアウト認識OCR報酬を備えたDiffusionNFT、および同一性保持のための微分可能Consistency Lossを提案する。さらに、新たに導入した美化および低レベル画像強調タスクを含む15の編集カテゴリにわたる包括的ベンチマークREDEdit-Benchを確立した。REDEdit-Benchおよび公開ベンチマーク(ImgEdit、GEdit)における大規模な実験により、オープンソースおよびプロプライエタリシステムに対する競争力のある、あるいは優れた性能を実証する。将来の研究を支援するため、コード、モデル、およびベンチマークスイートを公開する。
AIコーディングエージェントは、機能開発、デバッグ、テストなどのタスクを実行することで、ソフトウェアエンジニアリングを急速に変革しつつある。その影響力が増大しているにもかかわらず、研究コミュニティには、実際のプロジェクトでこれらのエージェントがどのように使用されているかを捉えた包括的なデータセットが不足している。このギャップを埋めるため、我々は実際のGitHubリポジトリにおけるエージェント作成のプルリクエスト(Agentic-PR)に焦点を当てた大規模データセットAIDevを紹介する。AIDevは、OpenAI Codex、Devin、GitHub Copilot、Cursor、Claude Codeという5つのエージェントによって生成された932,791件のAgentic-PRを集約している。これらのPRは116,211のリポジトリにまたがり、72,189人の開発者が関与している。さらに、AIDevには、スター数が100を超える2,807のリポジトリから精選された33,596件のAgentic-PRのサブセットが含まれており、コメント、レビュー、コミット、関連するIssueといった追加情報を提供する。このデータセットは、AIの採用、開発者の生産性、ソフトウェアエンジニアリングの新時代における人間とAIの協働に関する将来の研究の基盤を提供する。 > AIエージェント、エージェンティックAI、コーディングエージェント、エージェンティックコーディング、エージェンティックソフトウェアエンジニアリング、エージェンティックエンジニアリング
本論文では、データクラスタリング、セマンティック専門家学習、スパース混合専門家アーキテクチャを用いたモデル統合を組み込んだ革新的な定義モデリング手法「LM-Lexicon」を提案する。定義モデリングタスクを専門的な意味領域に分解し、小規模言語モデルを領域専門家として学習させることで、LM-Lexiconは広く使用されている5つのベンチマークにおいて既存手法を大幅に改善した(従来の最先端モデルと比較してBLEUスコア+7%向上)。実証的に以下のことを示す:1)クラスタリング戦略により、定義品質が約10%向上する細粒度の専門家特化が可能となること;2)意味認識型ドメインレベルルーティング機構が、従来のトークンレベルルーティングよりも高い専門家効率(+1%)を達成すること;3)テスト時計算量とセマンティック専門家のスケーリングを通じてさらなる性能向上が得られること。本研究は定義モデリングを進展させると同時に、意味集約型アプリケーションのための効率的な言語モデル開発への知見を提供する。
ソニフィケーション(データを非音声オーディオにマッピングする手法)は、複雑な力学システムを表現するための未開拓の経路を提供する。本研究では、低次元カオスの気候現象として規範的な例であるエルニーニョ・南方振動(ENSO)を、複雑システム診断を通じて評価される文化的文脈に根ざしたソニフィケーションのテストケースとして扱う。ニーニョ3.4海域の海面水温偏差指数(1870–2024年)のパラメータマッピング型ソニフィケーションを用い、ENSOの変動を4つの作曲戦略にわたって二つの伝統的なジャワガムラン五音音階(ペログとスレンドロ)に符号化し、得られたオーディオを二次元音響位相空間内の軌道として解析する。リカレンスに基づく診断、凸包幾何学、結合解析により、ソニフィケーションパイプラインが主要な力学的特徴を保持することが明らかになった:交互モードは最高の軌道再帰率を生み出し、ENSOの準周期性を反映する;層状ポリフォニーモードは位相空間の最も広い領域を探索する;二つの音階体系はスペクトル明度とエネルギーの間に質的に異なる結合状態(ペログでは主に逆位相、スレンドロではほぼ独立)を誘導する。位相空間軌道解析は、複雑システムの文脈内でソニフィケーション設計を比較するための厳密な幾何学的枠組みを提供する。知覚的検証は依然必要であるが、我々はこのようなマッピングを評価するための力学システム方法論を提案する。
高品質な動画生成編集は、事前学習済みのビデオ基盤モデルを活用することで著しい品質向上を実現してきた。しかし、その計算コストは大きなボトルネックとなっている。既存手法は、インペインティングマスクのサイズや編集範囲の疎密にかかわらず、ビデオ全体のコンテキストを非効率的に処理するように設計されているためである。本論文では、必要な箇所のみに計算リソースを集中させる効率的な動画インペインティング制御フレームワーク「EditCtrl」を提案する。我々のアプローチは、マスクされたトークンのみを処理する新規のローカルビデオコンテキストモジュールを特徴とし、編集サイズに比例した計算コストを実現する。このローカルファーストの生成は、最小限のオーバーヘッドでビデオ全体のコンテキスト一貫性を保証する軽量な時間的グローバルコンテキスト埋め込み器によって導かれる。EditCtrlは、最先端の生成編集手法と比べて計算効率が10倍高く、フルアテンションで設計された手法と比較しても編集品質を向上させる。さらに、テキストプロンプトを用いた複数領域編集や自己回帰的コンテンツ伝播など、EditCtrlが可能にする新機能についても紹介する。
マスク拡散モデル(MDM)における計画埋め込みデコードは数学的推論やコード推論への応用が期待されるが、その性能はスロット埋め込み順序に大きく依存し、出力の大幅なばらつきが生じやすい。本研究では、スロット選択を意思決定問題として定式化し、モンテカルロ木探索(MCTS)を用いて埋め込み順序を最適化するフレームワークMcDiffuSEを提案する。McDiffuSEは部分的な生成結果を確定前に先読みシミュレーションで評価し、生成順序の組み合わせ空間を体系的に探索する。実験では、自己回帰ベースラインより平均3.2%、計画埋め込みベースラインより8.0%の性能向上を達成し、MBPPでは19.5%、MATH500では4.9%の顕著な改善を示した。分析により、McDiffuSEが主に逐次的な順序を採用しつつも、非逐次生成を組み込むことが性能最大化に不可欠であることが明らかになった。また、シミュレーション回数の増加よりも探索定数の拡大が、モデルの自信バイアスを克服し有効な順序を発見する上で必要であることを確認した。これらの知見は、MCTSに基づく計画立案がMDMの生成品質向上に有効な手法であることを示す。
単一細胞RNAシーケンス(scRNA-seq)は、複雑な組織のアトラス規模プロファイリングを可能にし、稀な系統や過渡的な状態を明らかにする。しかし、生物学的に妥当な細胞識別の割り当ては、マーカーが組織や状態に依存し、新規の状態には参照データが欠けるため、依然としてボトルネックとなっている。我々は、専門家の実践を模倣したゼロショット細胞タイプ注釈のためのAIエージェント「CellMaster」を提案する。既存の自動ツールとは異なり、CellMasterはLLM(GPT-4oなど)に符号化された知識を活用し、事前学習や固定のマーカーデータベースを必要とせず、解釈可能な根拠に基づくオンザフライな注釈を実行する。8種類の組織にわたる9つのデータセットにおいて、CellMasterは自動モードで最高性能のベースライン(CellTypistおよびscTabを含む)を7.1%上回る精度向上を達成した。ヒューマンインザループによる精緻化では、この優位性は18.6%に拡大し、サブタイプ集団では22.1%の向上が認められた。本システムは、ベースラインがしばしば失敗する稀な細胞状態や新規細胞状態において特に強みを示す。ソースコードおよびウェブアプリケーションはhttps://github.com/AnonymousGym/CellMaster{https://github.com/AnonymousGym/CellMaster}で利用可能である。
本リソース論文では、41の多様な言語における通時的コーパスのオープンコレクションであるDHPLTを提案する。DHPLTはウェブクロールされたHPLTデータセットに基づいており、文書作成時期のおおよその指標としてウェブクロールのタイムスタンプを利用している。本コレクションは3つの時代(2011-2015年、2020-2021年、2024年-現在)をカバーし、各言語・各時代につき100万文書を収録する。さらに、事前計算された単語タイプ・トークン埋め込みと、選定した対象語に対する語彙的代替候補を提供する一方で、他の研究者が同一データセットを用いて独自の対象語を設定することも可能としている。DHPLTは、(十数程度の高資源言語を超えた)意味変化モデリングのための多言語通時コーパスの現状における不足を埋めることを目的とする。これにより、当該分野における多様な新たな実験設定への道を開く。本論文で説明する全リソースは、言語別に整理されたhttps://data.hplt-project.org/three/diachronic/ で公開されている。
室内音響解析は、建築設計、音響工学、音声明瞭度評価、聴覚研究において中心的な役割を果たしている。残響時間、明瞭度、音声伝送指数といった標準化された指標が利用可能であるにもかかわらず、厳密な信号処理と直感的な可視化を兼ね備えた利用しやすいツールは依然として不足している。本論文は、包括的な室内インパルス応答解析のためのオープンソースのWebベースプラットフォーム「AcoustiVision Pro」を提案する。本システムは、アップロードまたはデータセット由来の室内インパルス応答から12種類の音響パラメータを計算し、初期反射のインタラクティブな3次元可視化を提供し、ウォーターフォールプロットによる周波数依存の減衰特性を生成し、ANSI S12.60やISO 3382を含む国際規格への適合性をチェックする。また、Hugging Faceでホストされている付随するデータセット「RIRMega」および「RIRMega Speech」を紹介する。これらは完全なメタデータを含む数千のシミュレーション室内インパルス応答から構成される。本プラットフォームは、FFTベースの畳み込みによるリアルタイムオーラリゼーションをサポートし、エンジニアリング文書に適した詳細なPDFレポートをエクスポートし、さらなる解析のためのCSVデータエクスポートを提供する。各音響指標の数学的基礎を説明し、システムアーキテクチャを詳述し、教室音響、医療施設設計、録音スタジオ評価を含む多様な応用領域における本プラットフォームの有用性を示す予備的なケーススタディを提示する。
Retrieval-Augmented Generation(RAG)は、企業向けチャットボット、医療アシスタント、エージェントメモリ管理など、知識集約型アプリケーションの基盤技術として確立されている。しかし近年の研究により、悪意あるクエリを通じて機密性の高いナレッジベースの内容を抽出する知識抽出攻撃が可能であることが示され、知的財産の窃取やプライバシー漏洩に対する重大な懸念が生じている。既存研究では個別の攻撃・防御技術が探求されてきたものの、研究状況は断片的なままであり、異種の検索埋め込みモデル、多様な生成モデル、非標準化された評価指標や一貫性のないデータセットに基づく評価が混在している。この問題を解決するため、我々はRAGシステムに対する知識抽出攻撃初の体系的ベンチマークを提案する。本ベンチマークは、広範な攻撃・防御戦略、代表的な検索埋め込みモデル、オープンソース及びクローズドソースの生成モデルを網羅し、複数データセットにおける標準化されたプロトコルの下で統一された実験フレームワークによる評価を実現する。実験環境を統合し再現性・比較可能性の高い評価を可能にすることで、本ベンチマークは新興の知識抽出脅威に対処するプライバシー保護型RAGシステムの開発に向けた実践的知見と基盤を提供する。コードはこちらで公開されている。
大規模言語モデル(LLM)判定器は、要約などのタスクにおいて従来のアルゴリズムベースの指標と併用されることが多い。その理由は、意味情報をより適切に捕捉し、推論能力に優れ、言い換えに対する頑健性が高いためである。しかし、LLM判定器は長さや順序などに対するバイアスを示し、様々な敵対的入力プロンプトに対して脆弱である。近年の研究ではこれらのバイアスが調査されているが、明確に定義された重複指標との関連で、より詳細なレベルで分析したものは少ない。本研究では、要約領域において、人間が記述した回答との重複度を関数としたLLM判定器のバイアス分析を提供する。パラメータ数が10億から120億までの範囲に及ぶGemma 3およびLLaMA 3の変種を含む、9つの最近のLLMをテストした。その結果、判定対象の要約間の類似性(ROUGEおよびBLEUで測定)が低下するにつれて、LLM判定器は人間が記述した要約よりも他のLLMが生成した要約を好む傾向が強まり、このパターンはテストしたモデルのうち1つを除く全てで確認され、モデル自身の位置バイアスに関わらず存在することがわかった。さらに、モデルは限定的な重複しかない要約でさえ判定するのに苦労することがわかり、要約領域におけるLLM判定器の利用には、単純な比較を超えた技術に依存すべきであることが示唆される。
大規模言語モデルの能力が進化を続ける中、その悪用の可能性も高まっています。クローズドソースモデルは通常外部の防御機構に依存しますが、オープンウェイトモデルは有害な挙動を緩和するために主に内部の保護機能に依存しなければなりません。従来のレッドチーミング研究は、入力ベースのジェイルブレイキングやパラメータレベルの操作に焦点を当てることがほとんどでした。しかし、オープンウェイトモデルはネイティブでプリフィリングもサポートしており、これは攻撃者が生成開始前に初期の応答トークンを事前定義することを可能にします。その潜在的可能性にもかかわらず、この攻撃ベクトルは体系的な注目をほとんど浴びてきませんでした。本稿では、これまでで最大規模のプリフィル攻撃に関する実証研究を提示し、複数のモデルファミリーおよび最先端のオープンウェイトモデルにおいて、20以上の既存及び新規の戦略を評価します。我々の結果は、プリフィル攻撃が現在の主要なオープンウェイトモデル全てに対して一貫して有効であることを示しており、デプロイに重大な影響を及ぼす、重要かつこれまで十分に探求されてこなかった脆弱性を明らかにしています。一部の大規模推論モデルは汎用的なプリフィリングに対してある程度の堅牢性を示しますが、モデル特化型に調整された戦略には依然として脆弱です。我々の発見は、オープンウェイトLLMにおけるプリフィル攻撃への防御をモデル開発者が優先的に取り組む必要があることを強く示唆しています。
LLM駆動エージェントは、電子メールやカレンダーなどのユーザーリソースへのアクセス権を持ち、オープンワブ上でユーザーのタスクを自動化し始めている。制御されたチャットボット環境で質問に答える標準的なLLMとは異なり、ウェブエージェントは「野生環境」で動作し、第三者と対話し、行動痕跡を残す。そこで我々は次の問題を提起する:ウェブエージェントは、ユーザーに代わって実際のウェブサイト上でタスクを遂行する際、ユーザーリソースをどのように扱うのか?本論文では、**Natural Agentic Oversharing(自然的代理的過剰共有)**――エージェントのウェブ上での行動痕跡を通じた、タスクに関連しないユーザー情報の意図しない開示――を形式化する。我々は、過剰共有を**チャネル(内容 vs 行動)** と**直接性(明示的 vs 暗黙的)** の2次元に沿って特徴づけるフレームワーク **SPILLage** を提案する。この分類体系は、従来の研究がテキスト漏洩に焦点を当てている一方で、ウェブエージェントはクリック、スクロール、ナビゲーションパターンといった行動を通じても過剰共有を行い、それが監視可能であるという重大な見落としを明らかにする。我々は、実際のEコマースサイトで180のタスクをベンチマークし、タスク関連属性とタスク非関連属性を分離したグランドトゥルース注釈を付与した。2つのエージェントフレームワークと3つの基盤LLMにわたる1,080回の実行を通じて、過剰共有が広範に存在し、行動的過剰共有が内容的過剰共有を5倍上回ることを実証する。この効果は、プロンプトレベルの緩和策の下でも持続し、場合によっては悪化さえする。しかし、実行前にタスク非関連情報を除去すると、タスク成功率が最大17.9%向上し、過剰共有の削減がタスク成功の向上につながることを示す。我々の発見は、ウェブエージェントにおけるプライバシー保護が根本的な課題であり、エージェントが「入力する内容」だけでなく、ウェブ上で「行う行動」も考慮した、より広い視野での「出力」の捉え方が必要であることを強調する。データセットとコードは https://github.com/jrohsc/SPILLage で公開している。
強化学習(RL)は、エンドツーエンドの自動運転(AD)における主要なパラダイムとして台頭してきた。しかし、RLはサンプル効率が低く、複雑なシナリオでは意味的な解釈可能性に欠けるという課題がある。基盤モデル、特に視覚言語モデル(VLM)は、豊富な文脈認識知識を提供することでこれらの課題を緩和できるが、高い推論遅延が高頻度のRL訓練ループでの展開を妨げている。この隔たりを埋めるため、我々は基盤モデルを活用してAD向けRLを効率的に強化するプラットフォーム「Found-RL」を提案する。中核となる革新は非同期バッチ推論フレームワークであり、重いVLMの推論処理をシミュレーションループから分離することで、遅延のボトルネックを効果的に解消し、実時間学習を可能にする。多様な監督メカニズムとして、Value-Margin正則化(VMR)とAdvantage-Weighted行動指導(AWAG)を導入し、VLMによる専門家レベルの行動提案をRL方策に効果的に蒸留する。さらに、高スループットのCLIPを高密度な報酬形成に採用する。CLIPの動的変化への認識不足に対処するため、離散化された速度/指令に基づくプロンプト条件付けと、文脈依存の行動アンカー評価から正規化されたマージンベースの報酬を生成するConditional Contrastive Action Alignmentを提案する。Found-RLは微調整済みVLM統合のエンドツーエンドパイプラインを提供し、軽量なRLモデルが数十億パラメータのVLMに匹敵する性能を実時間推論(約500 FPS)で達成可能であることを実証する。コード、データ、モデルはhttps://github.com/ys-qu/found-rl で公開予定である。
大規模言語モデル(LLM)の指示ファインチューニングでは、対象タスクから抽出した少量のクエリ集合を用いて、大規模な候補プールから指示訓練データのサブセットを選択することが多い。対象を絞った指示選択に関する研究は関心が高まっているものの、その知見は断片的で不明瞭である。手法間で選択予算の設定が大きく異なり、ゼロショットベースラインが省略されることが多く、主要コンポーネントの貢献が頻繁に混同されている。この結果、実践者は自身の対象タスクに適した指示選択に関する実践的な指針を欠いている。本研究では、この状況を明確化するため、二つの核心要素、すなわちデータ表現と選択アルゴリズムを分離し、体系的に分析する。我々のフレームワークは、モデル、タスク、予算を跨いだ制御された比較を可能にする。その結果、勾配ベースのデータ表現のみが、データセットやモデルに依存せず、クエリとの類似度が性能を一貫して予測するサブセットを選択することを見出した。唯一無二の最良手法は存在しないが、低予算条件下では、勾配ベースの表現と貪欲なラウンドロビン選択アルゴリズムの組み合わせが平均的に最高の性能を示す傾向がある。ただし、この利点は予算が大きくなるにつれて減少する。最後に、既存の複数の選択アルゴリズムを、選択されたサブセットとクエリ集合間の近似的な距離最小化の一形式として統一的に捉え、この見解を新たな汎化誤差界によって支持する。より広義には、我々の知見は、LLMファインチューニングにおけるより原理に基づいたデータ選択に対する重要な洞察と基盤を提供する。コードはhttps://github.com/dcml-lab/targeted-instruction-selectionで公開されている。
生成的AIエージェントは、理解を明示的な問い合わせの解決と同一視する傾向があります。この前提は、ユーザーが自覚的に表現できる範囲に相互作用を限定してしまいます。ユーザー自身が、何が不足しているか、リスクがあるか、考慮する価値があるかを認識していない状況では、この前提は崩壊します。このような条件下では、積極性(プロアクティブ性)は単なる効率化の手段ではなく、認識論的必要性となります。我々はこの状態を「認識論的不完全性」と呼びます。これは、効果的なパートナーシップのために「未知の未知」に対処することが進歩に不可欠な状態を指します。 既存の積極的アプローチは、過去の行動から外挿し、目標が既に明確に定義されていると仮定する狭義の予測的範囲に留まっており、ユーザーを有意義に支援できていません。しかし、ユーザーの現在の認識を超えた可能性を提示すること自体が、常に有益とは限りません。制約のない積極的介入は、注意を誤った方向に向けさせたり、ユーザーを圧倒したり、害を及ぼす可能性があります。 したがって、積極的エージェントには「行動的接地」が求められます。これは、エージェントがいつ、どのように、どの程度介入すべきかについての原理に基づく制約です。我々は、生成的積極性は認識論的かつ行動的に接地される必要があるという立場を提唱します。無知の哲学と積極的行動に関する研究を援用し、これらの理論が、責任ある関与と意味あるパートナーシップを育むエージェント設計に不可欠な指針を提供すると論じます。