翻訳付きの日次キュレーションされたAI研究論文
データ準備は、生データセットのノイズ除去、データセット間の関係性の解明、およびそこからの有益な知見の抽出を目的としており、データ中心の多様なアプリケーションにおいて不可欠なプロセスである。(i)分析・可視化・意思決定などアプリケーション利用可能なデータへの需要の高まり、(ii)LLM技術の急速な進化、(iii)Databricks Unity Catalogのような柔軟なエージェント構築を可能にするインフラの登場に後押しされ、LLMを活用したデータ準備手法は、革新的かつ支配的パラダイムへと急速に発展しつつある。 本論文では、数百に及ぶ近年の研究文献を調査し、多様な下流タスク向けデータ準備におけるLLM技術の活用に焦点を当て、この進化する領域の体系的なレビューを提供する。まず、ルールベースでモデル固有のパイプラインから、プロンプト駆動型、文脈認識型、エージェント型の準備ワークフローへという根本的なパラダイムシフトを明らかにする。次に、この分野をデータクリーニング(標準化、エラー処理、代入など)、データ統合(実体マッチング、スキーママッチングなど)、データエンリッチメント(データ注釈、プロファイリングなど)の3つの主要タスクに分類するタスク中心の分類体系を提案する。各タスクについて、代表的な技術を概観し、それぞれの強み(汎化性能の向上、意味理解など)と限界(LLMのスケーリングに伴うコスト課題、先進的エージェントでも残る幻覚現象、先進的手法と脆弱な評価基盤のミスマッチなど)を明示する。さらに、広く用いられているデータセットと評価指標について実証的な分析を行う。最後に、未解決の研究課題を論じ、スケーラブルなLLM-データシステム、信頼性の高いエージェント型ワークフローの原理に基づいた設計、堅牢な評価プロトコルを重視した将来展望を示す。
近年、大規模言語モデル(LLM)の能力フロンティアは、単一ターンのコード生成から、エージェント型ソフトウェアエンジニアリングへと移行しつつあります。これは、モデルが複雑なリポジトリを自律的にナビゲート、編集、テストするパラダイムです。コードエージェントにおいて事実上の標準アプローチとなっている学習後手法に対し、**エージェント型学習中訓練(agentic mid-training)**—本物のエージェントワークフローを模倣した大規模データによる学習中訓練(MT)—は、強化学習のみに依存するよりも基礎的なエージェント行動をスケーラブルに習得させる道筋を提供するにもかかわらず、多大なリソースを要するため、依然として十分に研究されていません。効果的なエージェント型学習中訓練を実現する上での核心的な課題は、静的な訓練データと、実際の開発環境における動的でフィードバックに富む環境との間の分布ミスマッチです。この問題に対処するため、我々はエージェント型学習中訓練に関する体系的な研究を提示し、大規模なエージェント開発のためのデータ合成原理と訓練方法論を確立します。我々のアプローチの中核をなすのは、**エージェントネイティブデータ**—2つの相補的な軌跡タイプから成る教師信号です:**文脈的ネイティブ軌跡**は、エージェントが経験する完全な情報の流れを保持し、広範なカバレッジと多様性を提供します。そして、**環境的ネイティブ軌跡**は、観測が実際のツール呼び出しとテスト実行に由来する実行可能リポジトリから収集され、深みと相互作用の真正性を提供します。我々は、モデルのエージェント能力を`SWE-Bench Verified`で検証します。同一のベースモデルとエージェントスキャフォールドを用いた2つの学習後設定において、従来のオープンなソフトウェアエンジニアリング学習中訓練レシピである`Kimi-Dev`に対して、学習中訓練トークン数(73.1B)を半分以下に抑えつつ優位性を示します。相対的な優位性に加えて、我々の最高性能の32Bおよび72Bモデルは、それぞれ**56.1%** および**58.5%** という解決率を達成しており、これは…
近年の映像生成技術は、単純なテキストプロンプトから驚くべき視覚コンテンツを合成できるモデルを生み出してきました。しかし、これらのモデルは対話のような高レベルな概念から長編で一貫性のある物語を生成する際に困難を抱えており、創造的なアイデアとその映像的実現の間に「意味的ギャップ」が存在します。このギャップを埋めるため、我々は対話から映像作品を生成する新しいエンドツーエンドのエージェントフレームワークを提案します。このフレームワークの中核をなすのがScripterAgentで、大まかな対話を詳細で実行可能な映像脚本に変換するように訓練されたモデルです。これを実現するため、専門家監修のパイプラインで注釈付けされた豊富なマルチモーダルコンテキストを含む新たな大規模ベンチマークScriptBenchを構築しました。生成された脚本はDirectorAgentを導き、クロスシーン連続生成戦略を用いて最先端の映像モデルを調整し、長期的な一貫性を確保します。AI駆動のCriticAgentと新規のVisual-Script Alignment(VSA)指標を用いた包括的評価により、本フレームワークが全てのテスト対象映像モデルにおいて脚本の忠実度と時間的整合性を大幅に改善することが示されました。さらに、我々の分析により、現在の最先端モデルには視覚的スペクタクルと厳密な脚本遵守の間の重要なトレードオフが存在することが明らかになり、自動映画制作の将来に向けた貴重な知見を提供します。
合成データがテキスト領域における科学的推論の改善に有効であることが実証されている一方で、マルチモーダル推論は、科学的に厳密な画像を合成する困難さによって制約を受け続けている。既存のText-to-Image(T2I)モデルは、視覚的にはもっともらしいが科学的には誤った出力を生成することが多く、これが持続的な視覚-論理の乖離を生み、下流の推論タスクにおける価値を制限している。次世代T2Iモデルの最近の進歩に触発され、我々は生成パラダイム、評価、下流利用にわたる科学的画像合成に関する体系的研究を実施する。我々は直接的なピクセルベースの生成とプログラムによる合成の両方を分析し、構造的精度を向上させるための明示的な「理解-計画-コーディング」ワークフローに従う論理駆動型フレームワークであるImgCoderを提案する。科学的正確性を厳密に評価するため、生成画像を情報の有用性と論理的妥当性に基づいて評価するSciGenBenchを導入する。我々の評価は、ピクセルベースモデルにおける体系的な失敗モードを明らかにし、表現力と精度の根本的なトレードオフを浮き彫りにする。最後に、厳密に検証された合成科学画像で大規模マルチモーダルモデル(LMM)をファインチューニングすることにより、一貫した推論の向上が得られ、テキスト領域と類似したスケーリングの可能性を示すことで、高忠実度な科学合成が大規模なマルチモーダル推論能力を解放する実行可能な道筋であることを実証する。
モデルは自らの学習プラトーを脱出することを学べるか?大規模推論モデルのファインチューニングにおいて、強化学習手法は初期成功率が低く、したがって学習信号が乏しいデータセット上で行き詰まる。我々は根本的な問いを探る:事前学習済み大規模言語モデルは、自身が解けない問題に対する自動化されたカリキュラムを生成するために潜在的知識を活用できるか?これを探求するため、SOARを設計した:メタ強化学習を通じてこれらの教育的信号を表面化させる自己改善フレームワークである。モデルの教師コピーが生徒コピーに対して合成的な問題を提案し、難問の小さなサブセットにおける生徒の改善度によって報酬を得る。決定的に、SOARはカリキュラムを内在的な代理報酬ではなく、測定された生徒の進歩に基づいて接地する。数学的ベンチマークの最難関サブセット(初期成功率0/128)での研究により、3つの核心的知見が明らかになった。第一に、事前学習済みモデルが有用なステッピングストーンを生成する潜在能力を鋭敏化させることで、疎な二値報酬下での学習を可能にする二段階メタ強化学習が実現可能であることを示す。第二に、接地された報酬は従来の大規模言語モデル自己対戦で用いられてきた内在的報酬スキームを凌駕し、それらが典型的に示す不安定性や多様性崩壊モードを確実に回避する。第三に、生成された問題の分析から、学習の進歩には解答の正しさよりも、構造的質と明確な問題設定がより重要であることが明らかになった。我々の結果は、有用なステッピングストーンを生成する能力が、難問を実際に解く既存の能力を必要としないことを示唆し、追加の精選データなしで推論のプラトーを脱出する原理に基づいた道筋を拓く。
標準的なアテンション機構の二次計算複雑性は、長文コンテキストにおける大規模言語モデル(LLM)のスケーラビリティにおける重大なボトルネックとなっている。疎密混合アテンション戦略は単一モデル内で疎アテンションと密アテンションを組み合わせる有効な解決策を提供するが、一般的には静的な計算比率(すなわち疎アテンションと密アテンションの固定割合)を採用し、推論時に下流タスクが持つ様々な疎性感受性に適応できない。この課題を解決するため、我々は入力に基づいてモデルが全体の疎性を動的に調整可能なElastic Attentionを提案する。これは既存の事前学習モデルに軽量なAttention Routerを統合し、各アテンションヘッドを動的に異なる計算モードに割り当てることで実現される。8xA800 GPUでわずか12時間の学習により、本手法はモデルが高性能と効率的な推論の両立を可能にする。広く利用されているLLMを用いた3つの長文コンテキストベンチマークにおける実験により、本手法の優位性が実証された。
画像生成の分野は現在、離散トークンに基づく自己回帰(AR)モデルと連続潜在変数を利用する拡散モデルに二分されている。この分断はVQ-VAEとVAEの区別に起因しており、統一的なモデリングと公平なベンチマーキングを妨げている。有限スカラー量子化(FSQ)は理論的な架け橋を提供するが、従来のFSQは重大な欠陥を有する:等間隔量子化が活性値の崩壊を引き起こす可能性がある。この不整合は再構成精度と情報効率の間のトレードオフを強いる。本研究では、元のFSQの活性化関数を分布マッチング写測に置き換えるだけでこのジレンマを解決する。この単純な戦略はiFSQと称され、わずか1行のコード変更で、数学的に最適なビン使用率と再構成精度の両方を保証する。iFSQを制御されたベンチマークとして活用し、二つの重要な知見を得た:(1)離散表現と連続表現の最適な均衡点は次元あたり約4ビットにある。(2)同一の再構成制約下では、ARモデルは初期収束が速いのに対し、拡散モデルは優れた性能上限に達し、厳密な順序付けが生成品質の上限を制限する可能性を示唆する。最後に、表現アライメント(REPA)をARモデルに適用して分析を拡張し、LlamaGen-REPAを実現した。コードはhttps://github.com/Tencent-Hunyuan/iFSQ で公開されている。
現代のビデオ生成モデルは、複雑な物理ダイナミクスの再現において依然として課題を抱えており、物理的なリアリズムを十分に達成できていない。既存の手法では、外部検証器や拡張データを用いた追加学習によってこの問題に対処するが、計算コストが高く、微細な運動の捕捉には限界がある。本研究では、大規模データセットで学習済みのビデオ生成モデルを自己改良器として利用する簡潔な手法「自己改良型ビデオサンプリング」を提案する。生成モデルをデノイジングオートエンコーダとして解釈することで、推論時に外部検証器や追加学習を必要とせず、反復的な内部ループ改良を実現する。さらに、自己整合性に基づいて領域を選択的に改良する不確実性認識型改良戦略を導入し、過剰な改良によるアーティファクトの発生を防止する。最先端のビデオ生成モデルを用いた実験により、動きの一貫性と物理法則への適合性が大幅に向上し、デフォルトのサンプラーおよびガイダンスベースのサンプラーと比較して70%以上という人間の選好度を達成した。
エージェント評価は長期的タスクへと移行しつつあるが、既存のベンチマークの多くは、真の計画能力を要する大域的制約付き最適化(時間や予算など)よりも、局所的なステップ単位の推論を重視している。一方、現行のLLM計画ベンチマークは、実世界で典型的な能動的情報収集や細粒度の局所的制約を十分に反映していない。この問題に対処するため、実用的な長期的エージェント計画のための挑戦的ベンチマーク「DeepPlanning」を提案する。本ベンチマークは、複数日にわたる旅行計画と複数商品の購入タスクを特徴とし、能動的情報取得、局所的制約付き推論、大域的制約付き最適化を必要とする。DeepPlanningによる評価では、最先端のエージェント機能を持つLLMでさえこれらの問題に苦戦することが明らかとなり、効果と効率の適切なトレードオフを達成するには、信頼性の高い明示的推論パターンと並列的なツール使用が重要であることが示された。誤り分析からは、長期的計画におけるエージェント機能LLMの改善に向けた有望な方向性が示されている。将来の研究発展を支援するため、コードとデータを公開する。
空間的視覚認識は、自律走行やロボット操作といった実世界応用における基本的要件であり、3D環境との相互作用の必要性に駆動されている。RGB-Dカメラを用いたピクセル位置合わせされた計量深度の取得が最も実現可能な方法であるが、ハードウェリの制約や、特に鏡面反射やテクスチャのない表面が存在する場合の困難な撮影条件によって障壁に直面することが多い。本研究では、深度センサーからの不正確さを、本質的に基礎となる幾何学的曖昧性を反映する「マスクされた」信号と見なせることを主張する。この動機に基づき、我々は視覚的コンテキストを活用してマスク深度モデリングにより深度マップを精緻化し、スケーラブルな訓練のための自動データキュレーションパイプラインを組み込んだ深度補完モデルLingBot-Depthを提案する。我々のモデルが深度精度とピクセルカバレッジの両面で最高水準のRGB-Dカメラを上回る結果は鼓舞に値する。一連の下流タスクにおける実験結果はさらに、LingBot-DepthがRGBと深度モダリティに跨る整合性のある潜在表現を提供することを示唆している。コード、チェックポイント、および300万組のRGB-深度ペア(実データ200万組、シミュレーションデータ100万組を含む)を空間知覚コミュニティに公開する。
本報告では、長音声(会議、ポッドキャストなど)における文脈の断片化や複数話者の複雑さといった、短時間音声認識の近年の進歩にもかかわらず解決が困難な課題に対処するため、VibeVoiceを基盤とした汎用音声理解フレームワーク「VibeVoice-ASR」を提案する。音声チャンキングに依存する従来のパイプライン方式とは異なり、VibeVoice-ASRは最大60分の音声を単一パスで処理する。自動音声認識、話者分離、タイムスタンプ付与を単一のエンドツーエンド生成タスクに統合している。さらに、VibeVoice-ASRは50以上の言語をサポートし、明示的な言語設定を必要とせず、発話内および発話間のコードスイッチをネイティブに処理する。加えて、ユーザーがカスタマイズした文脈を投入可能なプロンプトベースの文脈注入機構を導入し、専門用語や同音異義語の曖昧性解消における精度を大幅に向上させる。
スマートグラスなどの終日着用可能なウェアラブルデバイスによって実現される「常時オン」の個人AIアシスタントの出現は、短い孤立した事象を超え、継続的で長期的な一人称視点ビデオのストリームを包括する、新たなレベルの文脈理解を要求する。このビジョンを実現するには、数日あるいは数週間にわたる視覚・聴覚情報を解釈し記憶する必要がある長期ビデオ理解の進展が不可欠である。大規模言語モデルや検索拡張生成を含む既存手法は、限られたコンテキストウィンドウに制約され、非常に長いビデオストリームに対する合成的でマルチホップ的な推論を行う能力を欠いている。本研究では、人物、場所、物体、およびそれらの時間的関係を表現するエンティティシーングラフを中核とした拡張エージェントフレームワークであるEGAgentを通じてこれらの課題に取り組む。本システムは、計画エージェントにこれらのグラフに対する構造化された検索・推論ツール、およびハイブリッドな視覚・音声検索機能を装備し、詳細かつクロスモーダルで時間的一貫性のある推論を可能にする。EgoLifeQAおよびVideo-MME (Long) データセットを用いた実験により、本手法が複雑な長期ビデオ理解タスクにおいて、EgoLifeQAで57.5%、Video-MME (Long) で74.1%という競争力のある性能を達成することを示す。
汎用埋め込みモデルはテキスト検索において強力な性能を示すが、高度に構造化されたコンテンツが意味的圧縮やクエリとテーブルの不一致を引き起こすテーブル検索には最適とは言えない。最近のLLMベースの検索拡張手法は合成クエリの生成によってこの問題を緩和するが、ヒューリスティックな部分テーブル選択に依存することが多く、これらの合成クエリを埋め込みモデル改善のための教師信号として活用することは稀である。本研究では、LLM生成による教師信号を通じてテーブル検索を強化する訓練フレームワークCGPTを提案する。CGPTは、K-meansを用いたテーブルインスタンスのクラスタリングとクラスター横断的なサンプリングにより意味的多様性に富む部分テーブルを構築する。その後、LLMがこれらの部分テーブルに対して合成クエリを生成し、それらをハードネガティブ対照学習による埋め込みモデルの微調整に利用する。4つの公開ベンチマーク(MimoTable、OTTQA、FetaQA、E2E-WTQ)における実験では、CGPTがQGpTを含む検索ベースライン手法を一貫して上回り、平均R@1が16.54%向上した。統一的なマルチドメインコーパス設定では、CGPTは強力なクロスドメイン一般化性能を示し、より小型のLLMを合成クエリ生成に用いた場合でも有効性を維持した。これらの結果は、意味的に誘導された部分テーブル構築とLLM生成教師信号による対照学習の組み合わせが、大規模テーブル検索における効果的かつスケーラブルなパラダイムを提供することを示唆している。コードはhttps://github.com/yumeow0122/CGPTで公開されている。
現実世界の知覚と相互作用は本質的にマルチモーダルであり、言語だけでなく視覚や音声も包含する。この特性から、マルチモーダルな入力と出力の両方をサポートする「Omni」MLLMの開発が促進されている。一連のOmni MLLMが登場しているものの、既存システムの多くはマルチモーダル生成を実現するために追加の専門コンポーネントに依存しており、統一された訓練と推論の簡素さを制限している。一方、単一のトークンストリーム、単一の次トークン予測目標、単一のデコーダを用いる自己回帰モデリングは、テキスト領域において優雅で拡張性の高い基盤を提供する。この着想に基づき、我々は専門デコーダを一切必要とせず、自己回帰パラダイムにおける統一的any-to-anyモデルであるAR-Omniを提案する。AR-Omniは、単一のTransformerデコーダの下で、自己回帰的なテキスト・画像生成とストリーミング音声生成をサポートする。さらに、統一自己回帰モデリングにおける三つの実践的課題に対処する:タスクを意識した損失再重み付けによるモダリティ不均衡の解消、画像トークンに対する軽量なトークンレベル知覚整合性損失による視覚的忠実度の向上、有限状態デコーディング機構による安定性と創造性のトレードオフの最適化である。実験では、AR-Omniは音声生成で0.88のリアルタイム係数を達成しつつ、三モダリティにわたり高い品質を実現した。
時系列データは実世界のシナリオにおいて遍在しており、エネルギー管理から交通制御に至る重要なアプリケーションにおいて極めて重要である。そのため、時系列を推論する能力は、汎用モデルが実践的な問題を解決するための基本的なスキルである。しかし、この次元は既存の汎用モデルのベンチマークから顕著に欠落している。このギャップを埋めるため、我々は時系列推論能力の全範囲をストレステストするために設計された、包括的なマルチモーダルベンチマーク「TSRBench」を提案する。TSRBenchの特徴は以下の通りである:i) 14の分野から収集された4125の多様な問題セットを、知覚、推論、予測、意思決定の4つの主要次元に分類。ii) 4次元からなる15のタスクにより、数値推論などの本質的な推論能力を評価。大規模な実験を通じて、TSRBench内で30以上の主要なプロプライエタリ及びオープンソースのLLM、VLM、TSLLMを評価した。我々の知見は以下を明らかにしている:i) スケーリング則は知覚と推論では成立するが、予測では崩壊する。ii) 強力な推論能力が文脈を考慮した正確な予測を保証するわけではなく、意味理解と数値予測の間の分離を示唆。iii) 時系列のテキスト表現と視覚表現は入力として相補的であるにもかかわらず、現在のマルチモーダルモデルはそれらを効果的に融合させ、相互に性能向上を図ることができていない。TSRBenchは標準化された評価プラットフォームを提供し、既存の課題を浮き彫りにするだけでなく、汎用モデルの発展に向けた貴重な示唆を提供する。コードとデータセットはhttps://tsrbench.github.io/で公開されている。
大規模動画生成モデルは、物理的整合性の創発的性質を示し、世界モデルとしての可能性を提示している。しかし、現代の「状態非依存型」動画アーキテクチャと、状態を中心とする古典的世界モデル理論の間には隔たりが存在する。本研究はこの隔たりを埋めるため、「状態構築」と「動力学モデリング」を二大支柱とする新たな分類体系を提案する。状態構築を暗黙的パラダイム(文脈管理)と明示的パラダイム(潜在圧縮)に分類し、動力学モデリングは知識統合とアーキテクチャ再構築の観点から分析する。さらに、評価基準を視覚的忠実度から機能的ベンチマークへ転換することを提唱し、物理的持続性と因果推論の検証を推進する。最後に、データ駆動型メモリと圧縮忠実度による持続性の向上、潜在因子分離と推論優先統合による因果性の進化という二つの重要課題を提示する。これらの課題に取り組むことで、視覚的に妥当な動画生成から、頑健で汎用性の高い世界シミュレータの構築へと発展することが可能となる。
動画生成は世界モデル構築の基盤技術であり、多モーダル文脈推論はその能力を定義する重要な試金石である。本論文では、拡散Transformerに基づく統一的多モーダル文脈学習フレームワークを構築し、条件付き動画生成モデルSkyReels-V3を提案する。SkyReels-V3は単一アーキテクチャで3つの核心的生成パラダイムをサポートする:参照画像からの動画合成、動画拡張、音声誘導動画生成である。(i)参照画像からの動画合成モデルは、被写体同一性の強固な保持、時間的一貫性、物語的整合性を備えた高忠実度動画生成を目的とする。参照遵守性と構成的安定性を向上させるため、クロスフレームペアリング、画像編集、意味的書き換えを組み合わせた包括的数据処理パイプラインを設計し、コピー&ペーストによる不自然な表現を効果的に軽減する。訓練時には、画像と動画のハイブリッド戦略と多解像度共同最適化を採用し、多様なシナリオにおける汎化性と頑健性を向上させる。(ii)動画拡張モデルは、時空間的一貫性モデリングと大規模動画理解を統合し、シームレスな単一ショット継続と、プロ級の映画撮影パターンに基づく知的なマルチショット切替を実現する。(iii)音声連動アバターモデルは、先頭フレーム・末尾フレーム挿入パターンの訓練とキーフレーム推論パラダイムの再構築により、分単位の音声条件付き動画生成を可能とする。視覚的品質を確保した上で、音声と動画の同期性を最適化している。 大規模評価により、SkyReels-V3が視覚的品質、指示追従性、特定側面指標を含む主要指標において、最先端またはそれに迫る性能を達成し、主要なクローズドソースシステムに接近していることを実証した。Github: https://github.com/SkyworkAI/SkyReels-V3。
表検索は、自然言語クエリを与えられた大規模コーパスから最も関連性の高い表を検索するタスクである。しかし、非構造化テキストと構造化された表の間の構造的・意味的乖離は、埋め込みのアライメントを特に困難にしている。QGpTなどの最近の手法は、合成クエリを生成することで表の意味論を強化しようとするが、それらは依然として粗い部分表サンプリングと単純な融合戦略に依存しており、意味的多様性を制限し、効果的なクエリと表のアライメントを妨げている。我々は、意味的クラスタリングと重み付き融合を通じて意味的表表現を改善する軽量フレームワークSTARを提案する。STARはまず、ヘッダーを考慮したK-meansクラスタリングを適用して意味的に類似した行をグループ化し、代表的な重心インスタンスを選択して多様な部分表を構築する。次に、クラスター固有の合成クエリを生成し、表の意味空間を包括的にカバーする。最後に、STARは重み付き融合戦略を採用して表とクエリの埋め込みを統合し、きめ細かい意味的アライメントを可能にする。この設計により、STARは構造化された情報とテキスト情報から相補的な情報を捕捉し、表表現の表現力を向上させる。5つのベンチマークによる実験では、STARが全てのデータセットでQGpTよりも一貫して高い再現率を達成し、頑健な表表現のための意味的クラスタリングと適応的重み付き融合の有効性が実証された。コードはhttps://github.com/adsl135789/STAR で公開されている。
一般化LLMエージェントは、限られた環境群で事後学習されることが多い一方で、はるかに広範な未見領域に展開される。本研究では、最終的なテスト領域が未知である場合のエージェント事後学習の課題を検討する。具体的には、強化学習(RL)環境の特性とモデリングの選択肢のうち、どの要因が領域外性能に最も大きな影響を与えるかを分析する。まず、領域横断的な一般化と強く相関する2つの環境軸を特定する:(i)状態情報の豊富さ(エージェントが状態から処理すべき情報量)、および(ii)計画の複雑さ(基本方策下での目標到達可能性と軌道長により推定)。特に、領域の現実味やテキストレベルの類似性は主要因ではない。例えば、現実的なALFWorldよりも、単純なグリッドワールド領域であるSokobanで学習した方が、SciWorldにおいてより強力な一般化が達成される。これらの知見に基づき、状態情報の豊富さを単独で増加させるだけでも、領域横断的な頑健性を効果的に改善できることをさらに示す。我々は、低コストで広く適用可能なランダム化手法を提案する:タスクを変更せずに状態をより豊かにするため、少量の注意散漫な目標無関連の特徴を状態に追加する。環境側の特性に加えて、いくつかのモデリング選択肢も検証する:(a)SFTによるウォームアップまたは学習途中での追加学習は、RL中の破滅的忘却を防ぐが、追加学習データに含まれない領域への一般化を損なう;(b)RL中にステップバイステップ思考を有効にすることは、領域内性能を常に改善するわけではないが、一般化能力を維持する上で重要な役割を果たす。
マルチティーチャー蒸留を活用することで、凝集型ビジョンバックボーンは、複数の教師モデルが持つ特徴的な能力を保持し強化した統一学生モデルを提供します。本テクニカルレポートでは、C-RADIOモデルファミリーの最新リリースであるC-RADIOv4について説明します。このモデルはAM-RADIO/RADIOv2.5の設計を発展させ、同じ計算量ながら主要な下流タスクで大幅な改善を実現しています。私たちは、更新された教師モデル群(SigLIP2、DINOv3、SAM3)で学習された-SO400M(4億1200万パラメータ)と-H(6億3100万パラメータ)の2つのモデル変種を公開しました。コア指標の改善とSAM3の模倣による新機能に加えて、C-RADIOv4モデルファミリーは任意解像度サポートをさらに強化し、高解像度時の効率を大幅に向上させるViTDetオプションを復活させ、より寛容なライセンスを採用しています。
複数の文書にまたがる推論を必要とする複雑な質問に答えることを目的とした、ディープサーチエージェントは、情報探索プロセスを大幅に高速化することができる。この応用分野において、長く複雑な探索軌道のために人手によるアノテーションを収集することは、コスト的に非常に困難である。本論文では、与えられたコーパスと目標難易度に対して、高品質で難易度制御されたディープサーチの質問応答ペアを自動生成するエージェント型パイプラインを提案する。我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決しようと試み、データジェネレータに実行フィードバックを提供するサーチエージェントで構成される。これら2つのコンポーネントは複数ラウンドにわたって相互作用し、質問応答ペアが目標難易度を満たすまで反復的に改良する。本質的評価により、SAGEが多様な推論戦略を必要とする質問を生成しつつ、生成データの正確性と難易度を大幅に向上させることが示された。外在的評価では、我々の合成データでトレーニングしたディープサーチエージェントが、人気のあるディープサーチベンチマークにおいて最大23%の相対的性能向上を達成することを実証した。追加実験により、我々のデータでトレーニングされたエージェントが、追加のトレーニングなしで、推論時に固定コーパス検索からGoogle検索へ適応できることが示された。
多くのVision-Language-Action(VLA)モデルは、画像パッチを1次元のトークン系列に平坦化するため、精密な操作に必要な2次元空間的手がかりが弱まってしまう。本論文ではIVRAを提案する。これは軽量で訓練不要な手法であり、外部エンコーダや再訓練を必要とせず、モデル内蔵の視覚エンコーダに既に存在する親和性ヒントを利用して空間理解を改善する。IVRAはこれらの親和性信号を、インスタンスレベルの特徴が存在する言語モデル層に選択的に注入する。この推論時介入により、視覚トークン間の相互作用が再調整され、全てのモデルパラメータを固定したまま幾何学的構造がより良く保持される。我々はIVRAの汎用性を、様々なVLAアーキテクチャ(LLaRA、OpenVLA、FLOWER)に適用し、2Dおよび3D操作(VIMAとLIBERO)を含むシミュレーションベンチマークと実ロボットタスクで実証する。2D VIMAでは、データ量が少ない条件下で、IVRAはベースラインのLLaRAよりも平均成功率を+4.2%向上させた。3D LIBEROでは、OpenVLAおよびFLOWERのベースラインに対し一貫した性能向上をもたらし、ベースライン精度が飽和に近い場合(96.3%から97.1%)でも改善が見られた。全てのコードとモデルは公開予定である。ビジュアライゼーションはjongwoopark7978.github.io/IVRAで閲覧可能。
従来のエージェントシステムは、タスク分布が継続的に変化し外部監視が乏しい開放環境においてしばしば困難に直面する。静的なツールセットやオフライン学習への依存はこうした動的環境に対応できず、システムの能力境界は硬直的で未知のままとなる。この問題に対処するため、我々はIn-Situ Self-Evolving(その場自己進化)パラダイムを提案する。本アプローチは連続的なタスク相互作用を経験の連続ストリームとして扱い、正解ラベルへのアクセスなしに短期実行フィードバックを長期的で再利用可能な能力へ蒸留する。この枠組みにおいて、検証可能な二値フィードバック信号を提供するツール進化を能力拡張の重要な経路と位置付ける。本枠組みに基づき、新たな課題に対処するためにツールを反復的に合成・最適化・再利用するYunjue Agentを開発した。進化効率を最適化するため、Parallel Batch Evolution(並列バッチ進化)戦略をさらに導入する。ゼロスタート設定における5種類のベンチマークでの実証評価では、既存のベースラインを大幅に上回る性能向上を実証した。補完的なウォームスタート評価では、蓄積された汎用知識が新規領域へシームレスに転移可能であることを確認した。最後に、従来の最適化における訓練損失と同等の機能を果たす進化収束を監視する新規指標を提案する。耐障害性のある自己進化型知能の将来研究促進のため、コードベース・システムトレース・進化ツールをオープンソース化する。
大規模言語モデル(LLM)のアライメントは、出力を人間の嗜好に合わせることを目的としており、個人化アライメントはさらにモデルを個々のユーザーに適応させる。これは、ユーザー固有の嗜好を捉え、自動的に個別化されたフィードバックを提供する個人化報酬モデルに依存する。しかし、これらのモデルの開発には、個々のユーザーからのフィードバック不足と、未知のユーザーへの効率的な適応必要性という2つの重大な課題がある。我々は、これらの制約に対処するには、データへの適合によるユーザー嗜好の学習から、嗜好適応のプロセスを学習するパラダイム転換が必要だと主張する。これを実現するため、メタ報酬モデリング(MRM)を提案する。MRMは個人化報酬モデリングをメタ学習問題として再定義する。具体的には、各ユーザーの報酬モデルを基本報酬関数の重み付き結合として表現し、Model-Agnostic Meta-Learning (MAML) スタイルのフレームワークを用いてこれらの重みの初期化を最適化し、限られたフィードバック下での高速適応を支援する。堅牢性を確保するため、メタ最適化中に学習困難なユーザーを重点的に扱うRobust Personalization Objective (RPO)を導入する。個人化嗜好データセットを用いた大規模実験により、MRMが少数ショット個人化を強化し、ユーザーに対する堅牢性を向上させ、ベースラインを一貫して上回ることを検証した。
大規模言語モデル(LLM)の科学研究ワークフローにおける採用が進んでいるにもかかわらず、学術コミュニケーションと査読における重要なステップである学術的反論(リバタル)の自動支援は、ほとんど未開拓のままである。既存のアプローチは、一般的なLLMや単純なパイプラインに依存することが多く、長文脈の理解に課題があり、的を射た説得力のある応答を生成できないことが多い。本論文では、自動学術的反論生成のためのエージェント型フレームワークであるDRPGを提案する。DRPGは4つのステップで動作する:査読コメントを原子的な懸念事項に分解(Decompose)、論文から関連する証拠を検索(Retrieve)、反論戦略を計画(Plan)、それに応じて応答を生成(Generate)。特に、DRPGのPlannerは、最も実行可能な反論の方向性を特定する際に98%以上の精度を達成している。トップカンファレンスのデータを用いた実験により、DRPGが既存の反論パイプラインを大幅に上回り、8Bモデルのみを使用して平均的な人間の水準を超える性能を達成することを実証した。我々の分析はさらに、Planner設計の有効性と、多角的で説明可能な提案を提供するその価値を実証している。また、DRPGがより複雑なマルチラウンドの設定でも良好に機能することを示した。これらの結果は、DRPGの有効性と、高品質な反論コンテンツを提供し、学術的議論のスケーリングを支援する可能性を強調している。本研究成果のコードはhttps://github.com/ulab-uiuc/DRPG-RebuttalAgent で公開されている。
グローバル離散拡散言語モデルの最も注目すべき特徴の一つは、そのグローバルな双方向コンテキスト能力である。しかし、既存のブロックベース拡散研究では自己回帰的な事前分布を導入する傾向があり、これは利点がある一方で、モデルが巨視的なレベルでこのグローバルな一貫性を失う原因となりうる。半自己回帰パラダイムの利点を保持しつつグローバルな文脈理解を再獲得するため、我々はブロック拡散モデルに内在する不可逆性と近視性の問題を克服する「草案後精緻化」フレームワーク、Diffusion in Diffusionを提案する。本手法はまず、小ブロックを用いた高速な草案生成をブロック拡散で行い、続いてより大きな双方向受容野を持つグローバル双方向拡散によりこれらの草案を精緻化する。スナップショット信頼度再マスキングを用いて修正が必要な最重要トークンを特定し、ミックススケール訓練を適用してブロック拡散モデルのグローバル能力を拡張する。実験結果は、本手法がOpenWebTextデータセットにおいて離散拡散モデルの新たなベンチマークを確立することを示している。ベースラインモデルの微調整予算の僅か26%を使用して、生成パープレキシティを25.7から21.9に削減し、自己回帰モデルとの性能差を大幅に狭めることに成功した。
コードスイッチングは世界の多言語話者マジョリティにおいて広く見られる現象であるが、日常会話におけるその複雑性を正確に反映するベンチマークはほとんど存在しない。本論文では、5つの言語組み合わせバリエーション(一部は三言語)をカバーする、自然なマルチパーティ・コードスイッチング対話のベンチマーク「PingPong」を提案する。我々のデータセットは、2~4名の参加者による人手作成の対話から構成され、返答が対話中の遙か以前の発言を頻繁に参照する、真正でマルチスレッド構造を持つ。本データが、機械生成の代替案と比べてはるかに自然で構造的多様性に富み、メッセージ長、発話者の支配度、返答距離においてより大きなバリエーションを持つことを実証する。これらの対話に基づき、質問応答、対話要約、トピック分類の3つの下流タスクを定義する。PingPongを用いたいくつかの最先端言語モデルの評価により、コードスイッチング入力に対する性能は依然として限定的であることが明らかとなり、実世界の多言語談話の複雑さに対処できるより頑健なNLPシステムの緊急な必要性が浮き彫りとなった。
子どもと大人の音声相互作用の正確な文字起こしと話者分離は、発達研究や臨床研究において極めて重要である。しかし、手動でのアノテーションは時間がかかり、規模の拡大が困難である。既存の自動化システムは、一般的に、話者分離と音声認識を組み合わせたカスケード型パイプラインに依存しており、エラー伝播を引き起こす可能性がある。本論文は、Whisperのエンコーダ・デコーダ構造を拡張し、ASRと子ども・大人の話者役割分離を共同でモデル化する、統合的なエンドツーエンドのフレームワークを提案する。提案手法は以下を統合している:(i) 話者タグと開始・終了タイムスタンプを出力するシリアライズ出力訓練スキーム、(ii) 話者識別性の高いエンコーダ表現を強化する軽量なフレームレベルの話者分離ヘッド、(iii) 時間精度を向上させるための話者分離誘導型無音抑制、(iv) 構造的に有効な出力を保証する状態機械ベースの強制デコード手順。2つのデータセットを用いた包括的評価により、2つのカスケード型ベースラインと比較して、一貫して大幅な改善が示され、マルチトーカー単語誤り率の低減と、Whisper-smallおよびWhisper-large両モデルにおいて競争力のある話者分離精度が達成された。これらの結果は、子どもと大人の相互作用に対する信頼性の高い話者属性付き文字起こしを大規模に生成するための、提案された共同モデリングフレームワークの有効性と実用性を強調するものである。コードとモデル重みは公開されている。
Mixture-of-Experts(MoE)モデルは、統計的に均衡した専門家ルーティングを保証するため、通常は明示的な負荷分散制約を課して事前学習されます。しかし、十分に学習されたMoEモデルであっても、著しく不均衡なルーティングが生じることが観察されています。この振る舞いは、ある意味で自然であり、むしろ望ましいものと言えます。なぜなら、不均衡なルーティングにより、モデルはドメイン固有の知識を専門家のサブセット内に集中させることができるからです。専門家並列処理(EP)は、専門家を複数のデバイスに分散させることでMoEモデルのスケーリングを図るように設計されていますが、その前提としてあまり議論されていないのが、均衡したルーティングです。極端な不均衡下では、EPは不均衡に多数のトークンを少数の専門家に集中させてしまい、事後学習や推論時に過負荷デバイス上で計算資源やメモリ資源の限界による障害を引き起こす可能性があります。この段階では明示的な負荷分散は往往にして適用不可能です。本研究では、Least-Loaded Expert Parallelism(LLEP)という新たなEPアルゴリズムを提案します。LLEPは、過負荷デバイスから余剰トークンおよび関連する専門家パラメータを未使用のデバイスに動的に再ルーティングします。これにより、メモリ制約を遵守しつつ、全てのデバイスが最小の全体レイテンシでワークロードを完了することが保証されます。様々なモデル規模において、LLEPは標準的なEPと比較して最大5倍の高速化と、ピークメモリ使用量の4倍の削減を実現しました。これにより、より高速かつ高スループットな事後学習と推論が可能となり、gpt-oss-120bでは約1.9倍の高速化を達成しました。本手法は、詳細な理論分析と、 ablation study を含む包括的な実証評価によって裏付けられています。これらの結果は重要なトレードオフを明らかにし、特定のハードウェアにおいて最適な性能を達成するためのハイパーパラメータチューニングの原理的な枠組みを可能にします。
効率的なキー・バリュー(KV)キャッシュ管理は大規模言語モデル(LLM)の実用的な展開において重要であるが、既存の圧縮技術では性能低下と計算オーバーヘッドのトレードオフが生じることが多い。本研究では、重み固定のLLM向けに、高い圧縮率と無視可能な計算コストを両立する新しいゲート方式のKVキャッシュ退避手法を提案する。本手法は、軽量なシンク・アテンションゲートモジュールを導入して重要なKVペアを識別・保持し、プリフィル段階とデコード段階の両方にシームレスに統合する。提案するゲート学習アルゴリズムはLLMの順伝播のみに依存し、高コストな誤差逆伝播を回避しながら、タスク非依存の再構成目的関数によって強力なタスク一般化を実現する。Qwen2.5-1M、Qwen3、Gemma3ファミリを用いた大規模な実験により、本手法がKVキャッシュの最大70%を退避させながらもほぼロスレスの性能を維持することを示す。長文理解、コード理解、数学的推論など多様なタスクにおいて一貫した結果が得られ、本アプローチの汎用性が実証された。
大規模言語モデルは、一般的な会話よりも複雑なタスクの正確な実行を優先する、深い推論能力の最適化が進んでいる。本研究では、この計算への集中が重大な状況における安全性を無視する「視野狭窄」を引き起こすかどうかを検証する。我々は、生命を脅かす緊急事態(脳卒中症状、自由落下など)の深刻度が増す状況を説明しながらユーザーが代数の助けを求める150のシナリオからなるベンチマーク「MortalMATH」を導入した。その結果、行動に顕著な分断が見られた:汎用モデル(Llama-3.1など)は、危険に対処するため数学的支援を拒否することに成功した。対照的に、専門的な推論モデル(Qwen-3-32bやGPT-5-nanoなど)は、緊急事態を完全に無視することが多く、ユーザーが死に瀕する描写をしている間も95%以上のタスク完了率を維持した。さらに、推論に必要な計算時間は危険な遅延をもたらす:潜在的な支援が提供される前に最大15秒もの遅れが生じうる。これらの結果は、モデルを正答を執拗に追求するように訓練することが、安全な展開に必要な生存本能を意図せず捨て去らせる可能性を示唆している。
ユーザーインターフェース(UI)の設計は、製品のローンチ、ポートフォリオの構築、プロジェクトの個人化において重要なステップである。しかし、デザイン専門知識を持たない一般ユーザーは、自身の意図を明確に表現することやデザイン選択への信頼を確立することに苦労することが多い。既存の事例ベースのツールは、広範な探索を促進するがために情報過多やデザインの方向性の逸脱を招くか、あるいは単一の事例を適応させることを要求するため、デザインの固定化リスクを伴う。本研究では、事例駆動型デザインワークフローを通じてモバイルUIデザインを支援するインタラクティブシステム「UI Remix」を提案する。マルチモーダル検索拡張生成(MMRAG)モデルを中核とし、UI Remixはグローバル(インターフェース全体)レベルとローカル(コンポーネント)レベルでの事例の反復的な検索、選択、適応を可能にする。信頼性を高めるため、評価、ダウンロード数、開発者情報などの出典透明性を示す手がかりを提示する。24名の一般ユーザーを対象とした実証研究において、UI Remixは参加者がデザイン目標を達成する能力を有意に向上させ、効果的な反復を促進し、代替デザインの探索を促した。また参加者は、出典透明性の手がかりが事例の適応に対する自信を高めたと報告した。我々の知見は、一般ユーザーがより高い制御感、信頼、探索への開放性を持ってデザインを行うことを可能にする、AI支援型の事例駆動システムの新たな方向性を示唆するものである。
注意行列は、解釈可能性、可視化、操作、蒸留など幅広い応用を支える、トランスフォーマー研究の基盤である。しかし、既存の分析のほとんどは個々の注意ヘッドや層に焦点を当てており、モデルの大域的な挙動を考慮できていない。先行研究では、平均化や行列乗算による複数ヘッドへの注意の定式化の拡張、あるいは正規化やFFNなどの構成要素の組み込みが試みられているが、全てのトランスフォーマーブロックを包含する統合的かつ完全な表現は依然として不足している。我々はこのギャップを埋めるため、高次注意相互作用テンソルを通じて表現される、単一の入力依存線形演算子としてトランスフォーマー全体を捉える新たな定式化「TensorLens」を提案する。このテンソルは、注意、FFN、活性化関数、正規化、残差接続を統合的に符号化し、モデルの計算を理論的に首尾一貫した表現力豊かな線形表現として提供する。TensorLensは理論的に裏付けられており、実証検証により、従来の注意集約手法よりも豊かな表現を生み出すことが示されている。実験により、この注意テンソルが解釈可能性とモデル理解を目的としたツール開発の強力な基盤となり得ることが実証された。コードは補足資料として添付されている。
LLM駆動型検索エージェントは、多段階の情報探索タスクにますます利用されているが、IRコミュニティでは、エージェント型検索セッションがどのように展開され、検索されたエビデンスがどのように利用されるかについて、実証的な理解が不足している。本論文では、外部のエージェントクライアントからアクセスされるオープンソースの検索APIであるDeepResearchGymから収集された1,444万検索リクエスト(397万セッション)に基づく、エージェント型検索の大規模ログ分析を提示する。ログをセッション化し、LLMベースのアノテーションを用いてセッションレベルの意図と段階的なクエリ再構成ラベルを割り当て、新しく導入されたクエリ用語が過去に取得されたエビデンスに遡れるかどうかを定量化するための文脈駆動用語採用率(CTAR)を提案する。分析により、特徴的な行動パターンが明らかになった。第一に、90%以上の多ターンセッションは最大10ステップ以内で構成され、ステップ間間隔の89%は1分未満である。第二に、行動は意図によって異なる。事実探索セッションは時間とともに増加する高い反復性を示すのに対し、推論を要するセッションは持続的な広範な探索を行う。第三に、エージェントはステップ間でエビデンスを再利用する。平均して、新規導入クエリ用語の54%は蓄積されたエビデンス文脈に出現し、その貢献は直近の検索結果を超えて以前のステップにまで及ぶ。これらの知見は、エージェント型検索が、反復を考慮した早期打ち切り、意図に適応する検索バジェット、明示的なステップ間文脈追跡から恩恵を受ける可能性があることを示唆する。今後の研究を支援するため、匿名化されたログの公開を計画している。
強化学習(RL)は能動的流体制御(AFC)において有望な成果を示しているが、既存研究が異種の観測・駆動方式、数値設定、評価プロトコルに依存しているため、この分野の進展を評価することは依然として困難である。現在のAFCベンチマークはこれらの問題に対処しようと試みているが、外部の計算流体力学(CFD)ソルバーへの依存度が高く、完全微分可能ではなく、3Dおよびマルチエージェント対応が限定的である。これらの制限を克服するため、我々はAFCにおけるRL初のスタンドアロンかつ完全微分可能なベンチマークスイートであるFluidGymを提案する。GPU加速されたPICTソルバー上にPyTorchで完全構築されたFluidGymは単一のPythonスタックで動作し、外部CFDソフトウェアを必要とせず、標準化された評価プロトコルを提供する。PPOおよびSACを用いたベースライン結果を示し、全ての環境、データセット、学習済みモデルを公開リソースとしてリリースする。FluidGymは制御手法の体系的な比較を可能とし、学習ベース流体制御の将来研究に向けたスケーラブルな基盤を確立する。本リソースはhttps://github.com/safe-autonomous-systems/fluidgym で公開されている。
マルチモーダル大規模言語モデル(MLLM)が複雑なマルチ画像指示を処理する高度な推論能力を獲得するにつれ、この進歩は新たな安全性リスクをもたらす可能性がある。本研究では、マルチ画像推論の安全性に焦点を当てた最初のベンチマークであるMIR-SafetyBenchを導入し、この問題を検討する。本ベンチマークは、9種類のマルチ画像関係からなる2,676インスタンスで構成されている。19のMLLMに対する大規模な評価により、憂慮すべき傾向が明らかになった:より高度なマルチ画像推論能力を持つモデルほど、MIR-SafetyBenchにおいて脆弱になりやすいのである。攻撃成功率を超えて、安全とラベル付けされた応答の多くが表面的であり、誤解や回避的・曖昧な返答によって駆動されていることが分かった。さらに、安全でない生成結果は、平均して安全なものよりも注意エントロピーが低い傾向にあることを観察した。この内部的特徴は、モデルが安全性制約を無視してタスク解決に過度に集中する可能性というリスクを示唆している。コードとデータはhttps://github.com/thu-coai/MIR-SafetyBench で公開している。
視覚トークン圧縮は、大規模視覚言語モデル(LVLM)の推論効率を向上させるために広く採用されており、遅延に敏感でリソースが制約されるシナリオへの展開を可能にしている。しかし、既存研究は主に効率性と性能に焦点を当てており、視覚トークン圧縮のセキュリティへの影響はほとんど検討されていない。本研究ではまず、視覚トークン圧縮がLVLMの頑健性を大幅に低下させることを明らかにする:非圧縮推論下で頑健であったモデルも、圧縮を有効にすると極めて脆弱になる。これらの脆弱性は状態特異的であり、故障モードは圧縮設定時のみに出現し、圧縮を無効にすると完全に消失するため、特に潜在的に発見・診断が困難である。圧縮プロセスの主要段階を分析することにより、トークン重要度ランキングの不安定性が、この頑健性低下の主原因であることを同定する。微小で知覚不能な摂動がトークンランキングを大きく変化させ、圧縮機構がタスクに不可欠な情報を誤って破棄し、最終的にモデルの故障を引き起こすのである。この知見に基づき、我々はこの脆弱性を体系的に調査・悪用するための圧縮対応攻撃(Compression-Aware Attack, CAA)を提案する。CAAはトークン選択機構を直接標的とし、圧縮推論時のみに故障を誘発する。さらに、このアプローチをより現実的なブラックボックス設定に拡張し、対象モデルも圧縮設定もアクセス不能な状況での転移CAA(Transfer CAA)を導入する。潜在的な防御手法の評価も行い、それらが限定的な保護しか提供しないことを見出した。モデル、データセット、圧縮手法にわたる広範な実験により、視覚トークン圧縮が頑健性を著しく損なうことが示され、これまで見過ごされてきた効率性とセキュリティのトレードオフが明らかになった。
大規模言語モデル(LLM)の信頼性は、医療、法務、科学発見などの高リスク領域において、しばしば幻覚(ハルシネーション)によって損なわれる。こうした失敗は通常、データ駆動型幻覚と推論駆動型幻覚という二つの源泉に起因する。しかし既存の検出手法は、一般に単一の源泉のみに対応し、タスク固有のヒューリスティクスに依存するため、複雑なシナリオへの汎化が制限される。これらの限界を克服するため、我々は「幻覚リスク境界(Hallucination Risk Bound)」を提案する。これは、幻覚リスクをデータ駆動型と推論駆動型の構成要素に形式的に分解する統一理論枠組みであり、それぞれ学習時のミスマッチと推論時の不安定性に関連付けられる。これにより、幻覚がどのように発生し進展するかを分析するための原理的な基盤が提供される。この基盤に立脚して、我々はNTK(ニューラルタンジェントカーネル)に基づくスコア「HalluGuard」を提案する。これは、NTKが誘導する幾何学構造と捕捉された表現を活用し、データ駆動型と推論駆動型の幻覚を統合的に識別する。HalluGuardを10の多様なベンチマーク、11の競合ベースライン、9つの主要なLLM基盤モデルで評価した結果、多様な形態のLLM幻覚検出において、一貫して最先端の性能を達成した。
RouteMoA:動的ルーティングによる効率的なエージェント混合フレームワーク エージェントの混合(MoA)は階層的な協調により大規模言語モデル(LLM)の性能を向上させるが、その密なトポロジーはコストと遅延を増大させる。既存手法はLLM審査員を導入して応答を選別するものの、判断前に全モデルの推論を要するため、コスト削減効果が不十分である。さらにモデル選択基準が明確でなく、大規模モデルプールでは完全な推論が高コストとなり、コンテキスト長の制約を超える課題もある。これらの課題に対処するため、本論文では動的ルーティングを備えた効率的なエージェント混合フレームワーク「RouteMoA」を提案する。本手法は軽量スコアラーによりクエリから大まかな性能を予測し、推論を伴わずに高潜在能力候補を選別する。次に、複数の審査員が既存のモデル出力に基づく軽量な自己評価・相互評価によりスコアを精密化し、追加推論なしで事後補正を実現する。最後に、性能・コスト・遅延を均衡させるモデルランキング機構により最適なモデルを選択する。RouteMoAは様々なタスク及びモデルプール規模においてMoAを凌駕し、大規模モデルプールではコストを89.8%、遅延を63.6%削減する。
テクスチャ付き3Dモーフィングは、2つの3Dアセット間の滑らかで自然な遷移を生成し、構造的一貫性と微細な外観の両方を維持することを目的としています。この能力は、3D生成研究を推進するだけでなく、アニメーション、編集、デジタルコンテンツ制作における実用的な応用においても極めて重要です。既存の手法は、幾何学的形状を直接操作して形状のみのモーフィングに限定されテクスチャを無視するものか、あるいは2D補間戦略を3Dに拡張するものですが、後者は意味的な曖昧さ、構造の不整合、テクスチャのぼやけを引き起こしがちです。これらの課題は、遷移プロセス全体を通じて幾何学的一貫性、テクスチャの整合性、およびロバスト性を共同で維持する必要性を浮き彫りにしています。 これを解決するため、我々はテクスチャ付き3Dモーフィングのための新しいトレーニング不要フレームワークであるInterp3Dを提案します。Interp3Dは生成的プリオールを活用し、漸進的整合原理を採用することで、幾何学的忠実度とテクスチャの一貫性の両方を保証します。条件空間における意味的に整合した補間から始まり、Interp3DはSLAT(Structured Latent)誘導構造補間を介して構造的一貫性を強化し、最終的に微細なテクスチャ融合を通じて外観の詳細を転送します。 包括的評価のために、難易度を段階化した専用データセットInterp3DDataを構築し、忠実度、遷移の滑らかさ、自然さの観点から生成結果を評価しました。定量的指標と人間による評価の両方が、提案手法が従来法に対して有意な優位性を持つことを示しています。ソースコードはhttps://github.com/xiaolul2/Interp3D で公開されています。