翻訳付きの日次キュレーションされたAI研究論文
拡散モデルを用いた分子生成は、AI駆動の創薬や材料科学における有望な方向性として登場している。2D分子グラフの離散的な性質から、グラフ拡散モデルは広く採用されているが、既存モデルは化学的な妥当性が低く、1Dモデリングと比較して所望の特性を満たすのに苦労している。本研究では、既存手法の長年の性能限界を克服する強力な分子グラフ生成フレームワーク「MolHIT」を提案する。MolHITは階層的離散拡散モデルに基づいており、化学的な事前知識を符号化する追加カテゴリへの離散拡散の一般化と、化学的役割に応じて原子タイプを分割する分離原子符号化を特徴とする。全体として、MolHITはMOSESデータセットにおいてグラフ拡散では初めてほぼ完全な妥当性を達成し、複数の指標で強力な1Dベースラインを凌駕する新たな最先端性能を実現した。さらに、複数特性誘導生成や骨格拡張を含む下流タスクにおいても優れた性能を示す。
ユーザーの長い行動シーケンスのモデリングは、生成的推薦における重要なフロンティアとして台頭してきました。しかし、既存のソリューションはジレンマに直面しています。線形注意機構は状態容量が限られているため、検索精度を犠牲にして効率性を達成しますが、ソフトマックス注意機構は計算コストが膨大になるという問題があります。この課題に対処するため、我々はHyTRecを提案します。これは、長期的な安定した嗜好と短期的な意図の急増を明示的に分離するハイブリッド注意アーキテクチャを特徴とするモデルです。大規模な過去のシーケンスを線形注意ブランチに割り当て、最近のインタラクションには専用のソフトマックス注意ブランチを確保することで、1万件のインタラクションを含む産業規模の文脈において、高精度な検索機能を回復させます。線形層内での急速な興味の変動の捕捉の遅れを緩和するため、さらに、新しい行動信号を動的に強調しつつ過去のノイズを効果的に抑制する時間認識デルタネットワーク(TADN)を設計しました。産業規模のデータセットでの実証結果は、我々のモデルが線形の推論速度を維持しつつ強力なベースラインを上回り、特に超長シーケンスを持つユーザーのヒット率で8%以上の改善を高い効率性で達成する優位性を確認しています。
SkyReels V4は、映像と音声の共同生成、インペインティング、編集を統合的に行うマルチモーダル動画基盤モデルです。本モデルはデュアルストリームのマルチモーダル拡散トランスフォーマー(MMDiT)アーキテクチャを採用しており、一方のブランチが映像を合成し、もう一方のブランチが時間的に同期した音声を生成すると同時に、マルチモーダル大規模言語モデル(MMLM)に基づく強力なテキストエンコーダを共有しています。SkyReels V4は、テキスト、画像、動画クリップ、マスク、音声リファレンスを含む豊富なマルチモーダル指示を受け入れます。MMLMのマルチモーダル指示追従能力と、映像ブランチMMDiTにおける文脈内学習を組み合わせることで、複雑な条件付けの下できめ細かい視覚的ガイダンスを注入可能にし、同時に音声ブランチMMDiTが音声リファレンスを活用して音響生成を誘導します。映像側では、画像から動画への生成、動画延長、動画編集といった多様なインペインティングスタイルのタスクを単一インターフェースに統合するチャネル連結方式を採用し、マルチモーダルプロンプトを通じた視覚参照型のインペインティングと編集へ自然に拡張します。SkyReels V4は最大1080p解像度、32FPS、15秒間の生成をサポートし、高精細でマルチショット、映画レベルの映像と同期した音声の生成を実現します。この高解像度・長時間生成を計算量的に実現可能とするため、低解像度の全シーケンスと高解像度キーフレームの共同生成を行った後、専用の超解像モデルとフレーム補間モデルを適用する効率化戦略を導入しました。私たちの知る限り、SkyReels V4はマルチモーダル入力、映像・音声の共同生成、生成・インペインティング・編集の統合的な処理を同時にサポートし、かつ映画級の解像度と長さで強力な効率性と品質を維持する初めての動画基盤モデルです。
基盤モデルの最近の進歩は、音声と映像の統合的生成に革命をもたらしました。しかし、既存のアプローチでは、参照ベースの音声-映像生成(R2AV)、映像編集(RV22AV)、音声駆動映像アニメーション(RA2V)といった人間中心のタスクを、通常は個別の目的として扱っています。さらに、単一のフレームワーク内で複数の人物の識別性や声の音色を精密に分離制御することは、未解決の課題です。本論文では、制御可能な人間中心の音声-映像生成のための統一フレームワークであるDreamID-Omniを提案します。具体的には、対称的な条件付き注入スキームを通じて異種の条件付け信号を統合するSymmetric Conditional Diffusion Transformerを設計します。マルチパーソンシナリオで広く見られる識別性と音色の結合失敗や話者混同を解決するため、デュアルレベル分離戦略を導入します:信号レベルではSynchronized RoPEにより厳密な注意空間結合を保証し、意味レベルではStructured Captionsにより明示的な属性-主体マッピングを確立します。さらに、弱制約生成事前分布を活用して強制約タスクを正則化し、過学習を防ぎ異種目的を調和させるマルチタスク漸進的訓練スキームを考案しました。大規模な実験により、DreamID-Omniが映像、音声、音声-視覚的一貫性の全ての側面で包括的な最先端性能を達成し、主要なプロプライエタリ商用モデルを凌駕することを実証します。学術研究と商用グレード応用の間のギャップを埋めるため、コードを公開予定です。
エージェンシック強化学習(ARL)は、複雑な多段階インタラクティブタスクを解決するエージェントを訓練する有望なパラダイムとして急速に注目を集めている。初期の成果は期待できるものの、ARLは依然として非常に不安定であり、訓練の崩壊を招くことが多い。この不安定性は、大規模環境や長いインタラクション時間へのスケーラビリティを制限し、アルゴリズム設計選択の体系的な探求を妨げている。本論文ではまず、制御された再現可能な環境で訓練の安定性を検証する、安定した訓練レシピおよび体系的分析フレームワークであるARLArenaを提案する。ARLArenaはまず、クリーンで標準化されたテストベッドを構築する。次に、方策勾配を4つの核心的な設計次元に分解し、各次元の性能と安定性を評価する。この細粒度分析を通じて、ARLに対する統一的な視点を抽出し、ARLの不安定性の主要因を緩和するように設計された安定したエージェンシック方策最適化法SAMPOを提案する。実験により、SAMPOは多様なエージェンシックタスクにおいて一貫して安定した訓練と高い性能を達成することが示された。全体として、本研究はARLに対する統一的な方策勾配の視点を提供し、安定した再現可能なLLMベースのエージェント訓練パイプラインを構築するための実践的な指針を提供する。
既存の行動条件付き動画生成モデル(ビデオ世界モデル)は単一エージェント視点に限定され、現実環境の多エージェント相互作用を捉えることができません。本論文では、一貫性のあるマルチビュー観測をシミュレートするマルチプレイヤービデオ世界モデル「Solaris」を提案します。これを実現するため、Minecraftなどのビデオゲームにおける堅牢で継続的かつ自動化されたデータ収集のために設計されたマルチプレイヤーデータシステムを開発しました。従来のシングルプレイヤー環境向けプラットフォームとは異なり、本システムは協調的なマルチエージェント相互作用と、動画と行動の同期収集をサポートします。このシステムを用いて1,264万フレームのマルチプレイヤーデータを収集し、マルチプレイヤーにおける移動、記憶、接地、建築、視点一貫性の評価フレームワークを提案します。Solarisは、単一プレイヤーからマルチプレイヤーモデリングへ段階的に移行するパイプラインで訓練し、双方向性、因果性、およびSelf Forcing訓練を組み合わせています。最終段階では、メモリ効率の良いSelf Forcing変種であるCheckpointed Self Forcingを導入し、より長い時間軸の教師を可能にしました。結果として、当社のアーキテクチャと訓練設計が既存のベースラインを上回ることを示します。システムとモデルのオープンソース化を通じて、新世代のマルチエージェント世界モデルの基盤を築くことを目指します。
マルチターンでエージェント的な動作を行うLLM推論の性能は、計算処理ではなく、KVキャッシュのストレージI/Oによって支配される度合いが強まっている。一般的な分散型アーキテクチャでは、大規模なKVキャッシュを外部ストレージからロードする際に、根本的な不均衡が生じる。すなわち、プリフィルエンジン側のストレージNICは帯域幅が飽和状態となる一方で、デコードエンジン側のストレージNICは遊休状態となる。この非対称性がシステム全体のスループットを大きく制約している。 本論文では、このボトルネックを解消する推論システムDualPathを提案する。DualPathは、デュアルパス方式によるKVキャッシュローディングを導入する。従来のストレージからプリフィルエンジンへの経路に加えて、新たなストレージからデコードエンジンへの経路を可能にし、KVキャッシュをデコードエンジンにロードした後、計算ネットワークを介したRDMAによってプリフィルエンジンへ効率的に転送する。DualPathは、この最適化されたデータパス(ネットワーク輻輳を本質的に回避し、レイテンシクリティカルなモデル実行通信との干渉を避ける)と、プリフィルエンジンとデコードエンジン間の負荷を動的に分散するグローバルスケジューラを組み合わせている。 本社内推論システムを用いた、実運用のエージェントワークロードによる3つのモデルでの評価結果は、DualPathがオフライン推論スループットを最大1.87倍向上させることを示している。また、SLOを違反することなく、オンラインサービングスループットを平均1.96倍向上させることも可能である。
オープンソースのネイティブGUIエージェントは、長期的なナビゲーションタスクにおいて依然としてクローズドソースシステムに遅れを取っている。この格差は2つの制約に起因する:高品質でアクションに整合した推論データの不足、およびGUIエージェント特有の課題を見落とした汎用的なポストトレーニングパイプラインの直接採用である。我々はこれらのパイプラインにおける2つの根本的な問題を特定した:(i) 標準的なCoT推論を用いたSFTはグラウンディングを損ないがちであり、(ii) 段階的なRLVR型トレーニングは部分検証可能性の問題に直面する。すなわち、複数のアクションが正解となり得るにもかかわらず、検証には単一の実証アクションのみが使用されるため、オフラインの段階的指標はオンラインタスク成功率の弱い予測因子となる。本論文では、これらの課題に対処するために調整されたトレーニング手法であるGUI-Libraを提案する。まず、アクション整合型推論データの不足を緩和するため、データ構築とフィルタリングのパイプラインを導入し、精選された81KのGUI推論データセットを公開する。次に、推論とグラウンディングの調和を図るため、推論後アクションと直接アクションのデータを混合し、アクションとグラウンディングを強調するトークン再重み付けを行うアクション認識SFTを提案する。第三に、部分検証可能性下でのRLを安定化させるため、RLVRにおけるKL正則化の見過ごされていた重要性を特定し、KL信頼領域がオフラインからオンラインへの予測可能性向上に重要であることを示す。さらに、信頼性の低い負の勾配を重み付け減衰する成功適応スケーリングを導入する。多様なWebおよびモバイルベンチマークにおいて、GUI-Libraは段階的精度とエンドツーエンドのタスク完了率の両方を一貫して改善する。我々の結果は、注意深く設計されたポストトレーニングとデータ精選により、高価なオンラインデータ収集なしに、大幅に強力なタスク解決能力を解放できることを示唆する。データセット、コード、モデルを公開し、推論能力を持つGUIエージェントのためのデータ効率的なポストトレーニング研究の促進を図る。
本論文では、Sphere Encoderを提案する。これは単一のフォワードパスで画像を生成可能な効率的な生成フレームワークであり、5ステップ未満の少ないステップ数で多段階の拡散モデルと競合する性能を発揮する。本手法は、自然画像を球面潜在空間上に一様に写像するエンコーダと、ランダムな潜在ベクトルを画像空間に戻すデコーダを学習することで機能する。画像再構成損失のみで学習された本モデルは、球面上のランダムな点をデコードするだけで画像を生成する。本アーキテクチャは条件付き生成を自然にサポートし、エンコーダ/デコーダを数回ループさせることで画像品質をさらに向上させることができる。複数のデータセットにおいて、Sphere Encoderアプローチは最新の拡散モデルと競合する性能を達成しつつ、推論コストはわずかな分数に抑えられている。プロジェクトページはhttps://sphere-encoder.github.ioで公開されている。
AIGCは、テキストから画像への生成から、映像や音声を含む高品質なマルチモーダル合成へと急速に拡大している。この文脈において、音声と映像の統合生成(JAVG)は、テキスト記述から同期が取れ意味的に整合した音と映像を生成する基礎的なタスクとして登場した。しかし、Veo3のような先進的な商用モデルと比較すると、既存のオープンソース手法は、生成品質、時間的同期性、人間の嗜好との整合性において依然として限界に直面している。このギャップを埋めるため、本論文はJAVGの統一的モデリングと最適化のための簡潔かつ強力なフレームワークであるJavisDiT++を提案する。まず、モダリティ固有のMixture-of-Experts(MS-MoE)設計を導入し、単一モーダルの生成品質を向上させながら、クロスモーダル相互作用の効率を可能にする。次に、音声トークンと映像トークン間の明示的かつフレームレベルの同期を実現するための時間整合RoPE(TA-RoPE)戦略を提案する。さらに、品質、一貫性、同期性の次元においてモデル出力を人間の嗜好に合わせるための音声-映像直接嗜好最適化(AV-DPO)手法を開発する。Wan2.1-1.3B-T2Vを基盤として構築された我々のモデルは、約100万の公開トレーニングデータのみで、質的および量的評価の両方において従来のアプローチを大幅に上回る、最先端の性能を達成する。提案モジュールの有効性を検証するために包括的なアブレーション研究が実施された。全てのコード、モデル、データセットはhttps://JavisVerse.github.io/JavisDiT2-page で公開されている。
ベクターグリフはデジタルタイポグラフィの基本単位であるが、多くの学習ベースのパイプラインは依然として注意深くキュレーションされた見本シートとラスターからベクターへの後処理に依存しており、アクセシビリティと編集性が制限されている。我々はVecGlypherを提案する。これはテキスト記述または画像見本から直接高精細なベクターグリフを生成する単一のマルチモーダル言語モデルである。スタイルプロンプト、オプションの参照グリフ画像、およびターゲット文字が与えられると、VecGlypherは自己回帰的にSVGパストークンを出力し、ラスター中間表現を回避し、編集可能で水密なアウトラインを一括で生成する。これを可能にしているのは、タイポグラフィを意識したデータとトレーニング手法である:(i) 39KのノイジーなEnvatoフォントを用いた大規模継続学習段階によりSVG構文と長距離の幾何学構造を習得し、(ii) 記述タグと見本が付いた2.5Kの専門家注釈済みGoogle Fontsでの事後学習により、言語と画像を幾何学構造に整合させる。前処理では、安定した長系列デコードのために座標フレームの正規化、パスの正規化、ファミリーの重複排除、座標の量子化が行われる。クロスファミリーのOOD評価において、VecGlypherはテキストのみの生成において汎用LLMと専門的なベクターフォントベースラインの両方を大幅に上回り、画像参照生成ではDeepVecFont-v2およびDualVectorを大きく上回る最新の性能に達した。アブレーション研究により、モデル規模と2段階の学習手法が重要であり、絶対座標シリアライゼーションが最良の幾何学精度をもたらすことが示された。VecGlypherは、ユーザーが言葉や見本を使ってデザインできるようにすることでフォント作成の障壁を下げ、将来のマルチモーダルデザインツールのためのスケーラブルな基盤を提供する。
将来の観測モデリングを活用した行動生成は、Vision-Language-Action(VLA)モデルの能力を強化する有望な手法である。しかし、既存のアプローチでは、効率的で予測可能な未来表現を維持することと、精密な行動生成を導くのに十分な細粒度の情報を保存することのバランスをうまく取れていない。この課題を解決するため、我々は将来の観測を行動推論パイプラインに注入することでコンパクトな条件へ写像するフレームワーク、WoG(World Guidance)を提案する。VLAは、これらの圧縮された条件と将来の行動を同時に予測するように訓練され、それにより行動推論のための条件空間内で効果的な世界モデリングを実現する。この条件空間のモデリングと予測が、細粒度の行動生成を促進するだけでなく、優れた汎化能力も示すことを実証する。さらに、大量の人間の操作動画から効果的に学習する。シミュレーションと実世界環境の両方における広範な実験により、本手法が将来予測に基づく既存手法を大幅に上回ることを検証する。プロジェクトページは以下で公開されている:https://selen-suyue.github.io/WoGNet/
指示に基づく画像編集は意味的整合性において目覚ましい成功を収めているが、屈折や材料変形など複雑な因果的ダイナミクスを含む編集において、最先端のモデルでも物理的に妥当な結果を生成できないことが多い。我々はこの限界を、編集を画像ペア間の離散的な写像として扱う主流のパラダイムに帰因する。このパラダイムは境界条件のみを提供し、遷移ダイナミクスを十分に特定しない。この問題に対処するため、物理を考慮した編集を予測的な物理状態遷移として再定式化し、5つの物理領域にわたる38Kの遷移軌跡を含む大規模ビデオベースのデータセットPhysicTran38Kを導入する。これは2段階のフィルタリングと制約を考慮したアノテーションパイプラインを通じて構築された。この監督信号に基づき、テキスト・視覚的二重思考メカニズムを備えたエンドツーエンドフレームワークPhysicEditを提案する。これは、物理に根ざした推論のために凍結されたQwen2.5-VLと、拡散モデルバックボーンに時間ステップ適応型の視覚的ガイダンスを提供する学習可能な遷移クエリを組み合わせる。実験により、PhysicEditは物理的な現実感においてQwen-Image-Editを5.9%、知識に基づく編集において10.1%上回り、オープンソース手法において新たな最先端を確立すると同時に、主要なプロプライエタリモデルに対しても競争力のある性能を示すことが確認された。
肝細胞癌の診断は、ギガピクセルレベルのWhole Slide Image(全スライド画像)の解釈に大きく依存している。しかし、現在の計算手法は固定解像度の処理機構と非効率な特徴量集約に制約されており、深刻な情報損失または高い特徴量の冗長性を必然的に引き起こしている。これらの課題に対処するため、我々は細粒度の肝細胞病理解析に特化したマルチモーダル大規模言語モデル「Hepato-LLaVA」を提案する。本モデルでは、2次元組織トポロジーを明示的にモデル化する新規のSparse Topo-Pack Attention機構を導入する。この機構は、大域的な文脈を保持しつつ、局所的な診断エビデンスを意味的な要約トークンに効果的に集約する。さらに、マルチスケールデータの不足を克服するため、専門病理医によって検証された3万3千の階層構造化された質問応答ペアから構成される臨床ベースのデータセット「HepatoPathoVQA」を構築した。実験結果では、Hepato-LLaVAが肝細胞癌の診断およびキャプション生成タスクにおいて既存手法を大幅に上回る最高性能を達成することを示す。コードと実装詳細はhttps://pris-cv.github.io/Hepto-LLaVA/で公開している。
大規模言語モデル(LLM)は、自身の知識をどのように認識しているのであろうか。この問いに答えることは、事前学習データがしばしば「ブラックボックス」(未知またはアクセス不能)であるため、困難であった。最近公開されたnanochat——完全にオープンな事前学習データを持つ小型LLMファミリー——は、モデルのパラメトリック知識の源泉を透明化するため、この問題に取り組んでいる。LLMによる知識符号化のメカニズム理解を目指し、我々はNanoKnowを公開する。これはNatural QuestionsとSQuADからの質問を、その回答がnanochatの事前学習コーパスに存在するか否かに基づいて分割したベンチマークデータセットである。これらの分割を用いることで、LLMが出力生成時に依存する知識源を適切に分離できるようになった。NanoKnowの有用性を示すため、8つのnanochatチェックポイントを用いた実験を実施した。結果は以下のことを示している:(1) クローズドブック精度は事前学習データ内の回答出現頻度に強く影響される、(2) 外部エビデンスの提供はこの頻度依存性を緩和し得る、(3) 外部エビデンスがあっても、回答が事前学習中に観測された場合の方が精度が高く、パラメトリック知識と外部知識が相補的であることを示唆する、(4) 無関係な情報は有害であり、精度は無関係な文脈の位置と数に応じて低下する。NanoKnow関連リソースは全てhttps://github.com/castorini/NanoKnow で公開している。
拡散モデルは視覚生成における強力な基盤技術であるが、本質的に逐次的なノイズ除去プロセスにより推論速度が遅いという課題がある。従来の高速化手法は、隣接するタイムステップ間の特徴量距離に基づいて中間出力をキャッシュし再利用する。しかし、既存のキャッシュ戦略は、内容情報とノイズが混在した生の特徴量の差異に依存する場合が多く、スペクトル進化(低周波数構造が早期に現れ、高周波数詳細が後から精緻化される過程)を考慮していない。本研究では、スペクトル的に整列された表現に基づいて再利用判断を行う、学習不要なキャッシュスケジューリング手法「Spectral-Evolution-Aware Cache(SeaCache)」を提案する。理論的・実証的分析を通じて、ノイズを抑制しつつ内容に関連する成分を保持するスペクトル進化対応(SEA)フィルタを導出する。SEAフィルタ処理された入力特徴量を用いて冗長性を推定することで、拡散モデルの基礎となるスペクトル事前分布を尊重しつつ、コンテンツに適応する動的スケジュールを実現する。多様な視覚生成モデルとベースラインを用いた大規模実験により、SeaCacheがレイテンシと品質のトレードオフにおいて最先端の性能を達成することを示す。
最近の3D Gaussian Splatting(3DGS)におけるDropout手法は、スパースビュー条件での過学習に対処するため、ガウシアンの不透明度をランダムに無効化する。しかし我々は、これらの手法に隣接補償効果が存在することを見出した:ドロップされたガウシアンは隣接ガウシアンによって補償され、正則化の効果が弱まってしまう。さらに、これらの手法は高次球面調和関数係数(SH)が過学習に与える影響を看過している。これらの問題を解決するため、我々はDropAnSH-GSという新しいアンカーベースのDropout戦略を提案する。個別にガウシアンをドロップするのではなく、特定のガウシアンをアンカーとしてランダムに選択し、その空間的近傍を同時に除去する。これにより、アンカー周辺の局所的な冗長性を効果的に破壊し、よりロバストで大域的な情報を考慮した表現の学習が促進される。さらに、高次SH係数をランダムにドロップするDropoutを色属性に拡張し、外観情報を低次SHに集中させる。この戦略は過学習をさらに軽減し、SH打ち切りによる学習後の柔軟なモデル圧縮を可能にする。実験結果から、DropAnSH-GSが既存のDropout手法を大幅に上回り、計算コストは無視可能であり、様々な3DGS変種に容易に統合して性能を向上させられることが示された。プロジェクトウェブサイト:https://sk-fun.fun/DropAnSH-GS
離散拡散モデルは、自己回帰言語モデルの強力な代替として登場し、近年では単一モダリティの基盤モデルを初期化し、双モダリティ生成に向けてファインチューニングする手法が提案されている。従来のアプローチと異なり、本研究ではテキスト、画像-テキスト、音声-テキストデータからスクラッチで事前学習された初の三モダリティマスク拡散モデルを提案する。我々は、マルチモダリティにおけるスケーリング則、モダリティ混合比率、ノイズスケジュール、バッチサイズ影響を体系的に分析し、最適化された推論サンプリングのデフォルト値を提供する。バッチサイズ分析からは、最近の研究で報告されていた最適バッチサイズ調整の必要性を排除する、確率微分方程式(SDE)に基づく新たな再パラメータ化手法を導出した。この再パラメータ化は、計算制約(GPU飽和度、FLOP効率、実時間)に基づいて選択される物理的バッチサイズと、確率的最適化における勾配分散のバランスを取るために選択される論理的バッチサイズを分離する。最後に、6.4トークンのデータで予備的な30億パラメータ三モダリティモデルを事前学習し、統一設計の有効性を実証するとともに、テキスト生成、テキストから画像への変換、テキストから音声への変換タスクで強力な結果を達成した。本研究は、複数モダリティにわたるスケーリング挙動に関する知見を提供し、マルチモダリティ離散拡散モデルにおける最大規模の体系的な公開研究を代表するものである。
深層研究は、広範なオープンウェブ探索を通じて困難なクエリに対処することを目的とした重要な課題として登場している。この課題に取り組むため、従来の研究の多くは、大規模言語モデル(LLM)ベースのエージェントに不透明なウェブ検索APIを装備し、エージェントが検索クエリを反復的に発行し、外部証拠を取得し、それに基づいて推論することを可能にしてきた。深層研究における検索の重要な役割にもかかわらず、ブラックボックス的なウェブ検索APIは検索コンポーネントの体系的分析を妨げ、確立されたテキスト順位付け手法の深層研究における挙動をほぼ不明瞭にしている。このギャップを埋めるため、我々は深層研究設定におけるIRテキスト順位付け手法の主要知見とベストプラクティスの選択的再現を行う。特に、(i) 検索単位(文書対パッセージ)、(ii) パイプライン構成(異なる検索器、再順位付け器、再順位付け深度)、(iii) クエリ特性(エージェント発行クエリとテキスト順位付け器の学習クエリとの不一致)の3つの観点からその有効性を検証する。固定コーパスを持つ深層研究データセットであるBrowseComp-Plus上で実験を行い、多様な設定において2つのオープンソースエージェント、5つの検索器、3つの再順位付け器を評価した。その結果、エージェント発行クエリは一般にウェブ検索スタイルの構文(例:引用符付き完全一致)に従い、語彙的検索器、学習済みスパース検索器、マルチベクトル検索器で有利に働くこと、限られたコンテキストウィンドウ下ではパッセージ単位の方が効率的であり、語彙的検索における文書長正規化の困難を回避できること、再順位付けが極めて有効であること、エージェント発行クエリを自然言語質問に変換することでクエリ不一致が大幅に解消されることが明らかになった。
モデルコンテキストプロトコル(MCP)は、ファウンデーションモデル(FM)ベースのエージェントがツールを呼び出すことで外部システムとどのように相互作用すべきかを定義する標準仕様を導入している。しかし、ツールの目的や機能を理解するために、FMは自然言語で記述されたツール記述に依存しており、これらの記述は、FMが所与の(副)タスクに対して最適なツールを選択し、ツールに正しい引数を渡すように導く上で極めて重要な構成要素となっている。これらの記述に欠陥や不適切な点(スメル)があるとFMベースのエージェントを誤導する可能性があるが、MCPエコシステムにおけるそれらの普遍性と結果は未だ不明である。 そこで我々は、103のMCPサーバーに分散する856のツールを実証的に調査し、それらの記述品質とエージェント性能への影響を評価する。文献からツール記述の6つの構成要素を特定し、これらの要素を利用した採点基準を開発した上で、この基準に基づいてツール記述スメルを形式化する。FMベースのスキャナーを用いてこの基準を運用化した結果、分析対象のツール記述の97.1%が少なくとも1つのスメルを含み、56%は目的を明確に述べていないことがわかった。これらの記述を全構成要素に対して増強すると、タスク成功率は中央値で5.85パーセントポイント向上し、部分目標達成率は15.12%改善するが、実行ステップ数は67.46%増加し、16.67%のケースで性能が悪化する。これらの結果は、性能向上の達成が単純ではないことを示している。実行コストがトレードオフとして働く可能性がある一方で、実行コンテキストも影響を与え得る。さらに、構成要素のアブレーション研究により、異なる構成要素の組み合わせからなるコンパクトな変種は、不必要なトークンオーバーヘッドを削減しつつ、動作の信頼性をしばしば維持できることが示された。これにより、FMのコンテキストウィンドウをより効率的に利用でき、実行コストを低減できる。
ビデオ基盤モデルは、映像理解、生成、編集、指示追従を単一フレームワークに統合することを目指し、次世代マルチモーダルシステムの中核的な方向性となっている。しかし、既存の評価ベンチマークは断片的で範囲が限られており、単一タスクを対象とし、タスク固有の指標に依存し、一般的に短いまたは単純な映像クリップを使用している。その結果、これらのモデルが提供を目指す統合的な能力を捉えられていない。この課題を解決するため、我々はUniVBenchを提案する。これは、映像理解、映像生成、映像編集、および新たに提案するタスクである映像再構成(モデルが遭遇した映像内容をどれだけ忠実に再現できるかを評価)の4つの核心能力にわたってビデオ基盤モデルを評価するために設計されたベンチマークである。本ベンチマークは、200本の高品質で多様なマルチショット映像を採用し、それぞれに詳細なキャプション、複数形式の編集指示、参照画像を付属させることで、評価の複雑性を大幅に拡張している。全ての映像は人間によって作成され注意深く検証されたもので、従来のベンチマークよりも豊富な映画的情報を提供する。さらに、全タスクにわたるプロンプト作成、指示解析、採点を標準化する統合エージェント評価システム(UniV-Eval)を開発し、統合ビデオモデルの公平でスケーラブル、再現性のある比較を可能にする。指示ベースのマルチショット映像タスクに評価を根ざすことで、UniVBenchはビデオ基盤モデルが達成を目指す統合能力を測定する初の枠組みを提供する。大規模な人手による注釈により、評価が人間の判断と一致することを保証し、厳密な評価を可能にするとともに、堅牢なビデオ知能に向けた進歩を加速する。
我々は、広く使用されているAI安全性データセットの品質を、単体評価と実践評価の二つの観点から体系的に検証する。単体評価では、これらのデータセットが現実世界の敵対的攻撃をどれほど反映しているかを、隠された意図に基づくこと、巧妙に設計されていること、分布外であることという三つの主要特性に基づいて検証する。その結果、これらのデータセットが「トリガーキュー」——安全性機構を明示的に起動させることを意図した、露骨な否定的/敏感な含意を持つ単語やフレーズ——に過度に依存していることが判明した。これは現実世界の攻撃と比較して非現実的である。実践評価では、これらのデータセットが真に安全性リスクを測定しているのか、それとも単にトリガーキューを通じて拒否反応を引き起こしているだけなのかを評価する。これを探るため、我々は「意図洗浄」を導入する。これは、敵対的攻撃(データポイント)からトリガーキューを抽象化しつつ、その悪意ある意図と全ての関連する詳細を厳密に保持する手順である。結果は、現在のAI安全性データセットがトリガーキューへの過度な依存により、現実世界の敵対的行動を忠実に表現できていないことを示唆する。これらのキューが除去されると、以前に「合理的に安全」と評価されていたGemini 3 ProやClaude Sonnet 3.7を含む全てのモデルが不安全となる。さらに、意図洗浄がジャイルブレイキング技術として適用された場合、完全なブラックボックスアクセスの下で、90%から98%超という高い攻撃成功率を一貫して達成する。全体として、我々の発見は、既存のデータセットによるモデル安全性の評価方法と、現実世界の敵対者の行動様式との間に重大な隔たりが存在することを明らかにする。
物体幻覚は大規模視覚言語モデル(LVLM)における重大な問題であり、入力画像に存在しない物体を出力に含めてしまう現象である。この現象から自然に生じる疑問は、LVLMパイプラインのどのコンポーネントが物体幻覚の主な原因となっているのか、ということである。視覚情報を認識するビジョンエンコーダなのか、それともテキスト応答を生成する言語デコーダなのか。本研究では、体系的な実験を設計し、幻覚生成におけるビジョンエンコーダと言語デコーダの役割を分析することで、この疑問に答えようとする。我々の観察結果は、物体幻覚が主に言語デコーダからの強い事前知識(プリオール)に関連していることを明らかにする。この知見に基づき、我々はシンプルかつ訓練不要なフレームワーク、No-Language-Hallucination Decoding (NoLan) を提案する。これは、マルチモーダル入力とテキストのみの入力における出力分布の差に基づいて調整され、言語的な事前知識を動的に抑制することで出力分布を洗練させる。実験結果は、NoLanが様々なLVLMにおいて、異なるタスクにわたって物体幻覚を効果的に低減することを示す。例えば、NoLanはPOPEベンチマークにおいて、LLaVA-1.5 7BとQwen-VL 7Bの精度をそれぞれ最大6.45ポイント、7.21ポイント向上させる顕著な改善を達成する。コードはhttps://github.com/lingfengren/NoLan で公開されている。
現在の視聴覚大規模言語モデル(AV-LLM)は、主にRGBビデオとモノラル音声に依存した2D知覚に制限されている。この設計選択は根本的な次元の不一致を生み出し、複雑な3D環境における信頼性の高い音源定位と空間推論を妨げている。本研究ではこの制約に対処するため、AV-LLMを3D空間に拡張するフレームワーク「JAEGER」を提案する。本フレームワークはRGB-D観測とマルチチャンネル一次アンビソニクスの統合により、共同的な空間接地と推論を可能にする。中核的な貢献は、神経強度ベクトル(Neural IV)と呼ばれる学習済み空間音響表現である。これは頑健な方向手がかりを符号化し、音源が重畳する不良音響環境下でも到来方向推定を強化する。大規模訓練と体系的な評価を促進するため、模擬物理環境から精選した61kの指示チューニングサンプルから成るベンチマーク「SpatialSceneQA」を提案する。大規模実験により、本手法が多様な空間知覚・推論タスクにおいて一貫して2D中心ベースラインを上回ることを実証し、物理環境におけるAI発展のための明示的3Dモデリングの必要性を強調する。ソースコード、事前学習済みモデルチェックポイント及びデータセットは採択後公開予定である。
非定常時系列データの解析には、物理的な解釈可能性を備えた局所的・大域的なパターンの洞察が求められる。しかし従来の平滑化アルゴリズム(Bスプライン、Savitzky-Golayフィルタ、経験的モード分解(EMD)など)は、連続性を保証したパラメトリック最適化ができない課題がある。本論文では、数学関数の広範なクラスに対してパラメトリックで連続的な最適化を実行するJAX加速フレームワーク「Functional Continuous Decomposition(FCD)」を提案する。Levenberg-Marquardt最適化を用いてC^1連続フィッティングを実現するFCDは、生時系列データを短期から長期トレンドまで異なる時間パターンを捉えるM個のモードへ変換する。FCDは物理学、医学、金融分析、機械学習などに応用可能であり、信号の時間パターン分析、最適化パラメータ、分解の微分・積分値の算出に汎用的に利用できる。さらに物理解析や特徴量抽出への適用では、セグメント平均SRMSE 0.735、1000点の完全分解で0.47秒の速度を達成。最後に、最適化関数値・パラメータ・微分値といったFCD特徴量で拡張した畳み込みニューラルネットワーク(CNN)が、標準CNNより収束速度16.8%向上、精度2.5%向上を実証する。
低リソース言語の医療記録から臨床情報を抽出することは、ヘルスケア自然言語処理(NLP)における重要な課題である。本研究では、ペルシア語から英語への翻訳モデルとしてAya-expanse-8Bを、13の臨床特徴の二値抽出にはQwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-1.5B-Instruct、Gemma-3-1B-itの5つのオープンソース小型言語モデル(SLM)を組み合わせた2段階パイプラインを評価する。がん緩和ケアコールセンターで収集された匿名化ペルシア語記録1,221件に対し、ファインチューニングを行わない数発プロンプト戦略を用い、クラス不均衡を考慮してマクロ平均F1スコア、マシューズ相関係数(MCC)、感度、特異度でモデルを評価した。Qwen2.5-7B-Instructが最高の総合性能(中央値マクロF1: 0.899; MCC: 0.797)を示し、Gemma-3-1B-itが最も低い結果となった。大規模モデル(7B–8Bパラメータ)は、感度とMCCにおいて一貫して小規模モデルを上回った。Aya-expanse-8Bの二言語分析により、ペルシア語記録を英語翻訳することで感度が向上し、出力欠落が減少、クラス不均衡に頑健な指標が改善される一方、特異度と精度がわずかに低下することが明らかになった。特徴レベルでは生理的症状の抽出が大半のモデルで安定したのに対し、心理的愁訴、事務的依頼、複雑な身体的特徴の抽出手法は課題として残った。これらの知見は、インフラと注釈リソースが限られた多言語臨床NLP環境において、プライバシー保護型のオープンソースSLM導入に向けた実用的な青図を提供するとともに、敏感なヘルスケア応用においてモデル規模と入力言語戦略を共同で最適化する重要性を浮き彫りにしている。
大規模言語モデル(LLM)には真実性が線形的に符号化されていると報告されているが、近年の研究はこの知見の一般性に疑問を投げかけている。本研究では、これらの見解を「真実性スペクトル仮説」によって統合する。すなわち、表現空間には、広範なドメイン一般性から狭義のドメイン特異性に至るまでの連続的な方向性が存在するという仮説である。この仮説を検証するため、5種類の真実性(定義的、経験的、論理的、虚構的、倫理的)、同調的・期待反転的嘘、既存の誠実性ベンチマークにわたって、プローブの一般化性能を体系的に評価した。線形プローブはほとんどのドメインで良好な一般化を示したが、同調的および期待反転的嘘では失敗した。しかし、全ドメインを統合して学習すると高い性能が回復し、 pairwise な転移が弱いにもかかわらずドメイン一般的方向が存在することが確認された。プローブ方向の幾何学的関係はこれらのパターンを説明する:プローブ間のマハラノビス余弦類似度は、ドメイン間一般化をほぼ完全に予測した(R^2=0.98)。概念消去法を用いることで、(1)ドメイン一般、(2)ドメイン特異、または(3)特定のドメイン部分集合間で共有される、真実性方向をさらに分離した。因果介入により、ドメイン特異的方向はドメイン一般的方向よりも効果的にモデルを制御できることが明らかになった。最後に、学習後処理は真実性の幾何学的構造を変化させ、同調的嘘を他の真実タイプから遠ざけることで、チャットモデルにおける同調的傾向の表現的基盤を示唆した。総合して、我々の結果は真実性スペクトル仮説を支持する:様々な一般性を持つ真実性方向が表現空間内で共存し、学習後処理がその幾何学的構造を形成する。すべての実験のコードは https://github.com/zfying/truth_spec で公開されている。
我々は、実世界の推論最適化タスクにおけるコーディングエージェントの能力を評価するためのベンチマーク「ISO-Bench」を提案する。本ベンチマークのタスクは、最も広く利用されているLLMサービスフレームワークの一つであるvLLMとSGLangから採用した。各タスクでは、エージェントにコードベースとボトルネックの説明が提供され、エージェントは専門家による人間の解決策と比較評価される最適化パッチを生成しなければならない。我々は、測定可能な性能向上が確認されたマージ済みプルリクエストから54のタスクを精選した。既存のベンチマークは実行時間ベースの指標を多用する傾向があるが、このようなアプローチでは、コード変更の真の意図を捉えずにテストを通過する抜け道が生じうる。そこで我々は、ハード(実行ベース)指標とソフト(LLMベース)指標の両方を組み合わせ、完全な評価には両者が不可欠であることを示す。クローズドソース及びオープンソースのコーディングエージェント双方を評価した結果、単一のエージェントが全てのコードベースで優位に立つことはないことが分かった。驚くべきことに、エージェントはしばしば正しいボトルネックを特定するものの、動作する解決策の実行には失敗する。また、基盤モデルが同一であるエージェント間でも性能に大きな差が生じることから、モデル自体と同様に、周辺の支援構造(スキャフォールディング)の重要性が示唆された。
我々は、慣性計測装置(IMU)信号と映像から抽出した2D姿勢シーケンス間の統合的な表現を学習し、正確なクロスモーダル検索、時間的同期、被験者及び身体部位の位置特定、行動認識を実現することを目指す。この目的のために、3つの課題:(1)無関係な視覚的背景のフィルタリング、(2)構造化されたマルチセンサーIMU構成のモデリング、(3)細粒度なサブ秒レベルの時間的アラインメントの達成、に取り組む階層的対比学習フレームワーク「MoBind」を提案する。運動に関連する手がかりを抽出するため、MoBindはIMU信号を生の画素ではなく骨格運動シーケンスと対応づける。さらに、全身運動を局所的な身体部位の軌跡に分解し、それぞれを対応するIMUとペアリングすることで、意味的に根ざしたマルチセンサーアラインメントを可能にする。詳細な時間的対応関係を捉えるため、MoBindは階層的対比戦略を採用し、まずトークンレベルの時間セグメントを対応づけ、次に局所的な(身体部位の)アラインメントと大域的な(全身の)運動の集約を融合する。mRi、TotalCapture、EgoHumansでの評価において、MoBindは4つのタスク全てにおいて強力なベースライン手法を一貫して上回り、モダリティ間の粗い意味的一貫性を保ちながら、頑健な細粒度時間アラインメントを実現することを示した。コードはhttps://github.com/bbvisual/ MoBind で公開されている。
拡散モデルは近年、逆問題を解くための強力な事前分布として登場している。コンピュータ断層撮影(CT)は理論的には線形逆問題であるが、多くの実践的な課題を伴う。これには、相関ノイズ、アーティファクト構造、システムジオメトリへの依存、値範囲の不整合などが含まれ、自然画像生成のような分野と比べて拡散モデルの直接的な適用をより困難にしている。この文脈で拡散モデルがどのように性能を発揮するか体系的に評価し、確立された再構築法と比較するため、我々はCT再構築のための包括的ベンチマークであるDM4CTを導入する。DM4CTは、医療分野と産業分野の両方からのデータセットを、スパースビューおよびノイジーな設定で含む。拡散モデルを実践的に展開する際の課題を探るため、我々はさらに高エネルギーシンクロトロン施設で高解像度CTデータセットを取得し、実際の実験条件下ですべての手法を評価する。モデルベース、教師なし、教師ありのアプローチを含む7つの強力なベースラインとともに、10の最近の拡散ベースの手法をベンチマークする。我々の分析は、CT再構築のための拡散モデルの振る舞い、強み、限界に関する詳細な知見を提供する。実世界データセットはzenodo.org/records/15420527で公開され、コードベースはgithub.com/DM4CT/DM4CTでオープンソース化されている。
皮肉検出は計算意味論における根本的な課題であり、文字通りの意味と意図された意味の乖離を解決するモデルを必要とする。この課題は、注釈付きデータセットが乏しいか存在しない低リソース言語では一層深刻である。本論文では、5,000万人以上に話される声調言語であるニジェール・コンゴ語群のヨルバ語における、初のゴールドスタンダード皮肉検出データセット「Yor-Sarc」を提案する。このデータセットは、文化を考慮して特別に設計されたヨルバ語の皮肉注釈プロトコルを用いて、異なる方言背景を持つ3名のネイティブスピーカーによって注釈が付けられた436事例で構成される。このプロトコルは、文脈に敏感な解釈とコミュニティに基づくガイドラインを組み込んでおり、他のアフリカ言語への応用を支援するため、注釈者間一致率の包括的分析を伴う。実質的からほぼ完全に近い一致率(Fleiss' κ=0.7660、ペアワイズCohen's κ=0.6732~0.8743)が達成され、83.3%で完全一致が得られた。一つの注釈者ペアはほぼ完全な一致(κ=0.8743、生一致率93.8%)を達成し、英語の皮肉研究で報告されている多くのベンチマークを上回った。残り16.7%の多数決一致事例は、不確実性を考慮したモデリングのためのソフトラベルとして保存されている。Yor-Sarc(https://github.com/toheebadura/yor-sarc)は、低リソースのアフリカ言語における意味解釈と文化を考慮した自然言語処理の研究を促進することが期待される。