翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)とマルチエージェントシステムの最近の進展は、深層研究、バイブコーディング、数学的推論などの複雑な問題解決タスクにおいて顕著な能力を示しています。しかし、既存のマルチエージェントシステムのほとんどは、手動のプロンプト/ワークフローエンジニアリングに基づいて構築されており、洗練されたエージェントフレームワークを使用しているため、計算効率が低く、能力が限定され、データ中心の学習の恩恵を受けることができません。本研究では、Chain-of-Agents(CoA)という新しいLLM推論パラダイムを導入します。これは、マルチエージェントシステム(つまり、複数のツールと複数のエージェントを使用したマルチターン問題解決)と同様の方法で、単一のモデル内でネイティブなエンドツーエンドの複雑な問題解決を可能にします。Chain-of-Agentsの問題解決では、モデルが動的に異なるツールエージェントと役割演技エージェントを活性化し、エンドツーエンドの方法でマルチエージェントの協力をシミュレートします。LLMにエンドツーエンドのChain-of-Agents問題解決能力を引き出すために、我々はマルチエージェント蒸留フレームワークを導入し、最先端のマルチエージェントシステムをChain-of-Agentsの軌跡に蒸留して、エージェント的な教師ありファインチューニングを行います。その後、検証可能なエージェントタスクに対してエージェント的な強化学習を使用し、Chain-of-Agents問題解決におけるモデルの能力をさらに向上させます。この結果得られるモデルをAgent Foundation Models(AFM)と呼びます。我々の実証研究は、AFMがウェブエージェントとコードエージェントの設定において、多様なベンチマークで新たな最先端の性能を確立することを示しています。我々は、モデルの重み、トレーニングと評価のためのコード、トレーニングデータを含む研究全体を完全にオープンソース化し、エージェントモデルとエージェント的強化学習に関する将来の研究のための堅実な出発点を提供します。
LongSplatは、不規則なカメラモーション、未知のカメラポーズ、広大なシーンを特徴とするカジュアルに撮影された長時間動画からの新規視点合成(NVS)における重要な課題に対処します。既存の手法では、ポーズのドリフト、不正確なジオメトリ初期化、深刻なメモリ制限がしばしば問題となります。これらの課題を解決するため、我々はLongSplatを提案します。これは、以下の特徴を備えた堅牢な非ポーズ3Dガウススプラッティングフレームワークです:(1)局所最適化を回避し、グローバルな一貫性を確保するために、カメラポーズと3Dガウシアンを同時に最適化するインクリメンタルジョイント最適化、(2)学習された3D事前情報を活用した堅牢なポーズ推定モジュール、(3)空間密度に基づいて密な点群をアンカーに変換する効率的なオクツリーアンカー形成メカニズム。挑戦的なベンチマークでの広範な実験により、LongSplatが従来の手法に比べてレンダリング品質、ポーズ精度、計算効率を大幅に向上させ、最先端の結果を達成することが実証されました。プロジェクトページ: https://linjohnss.github.io/longsplat/
大規模言語モデル(LLM)は高度なプロンプト設計を必要としますが、現在の手法は構造、データ統合、フォーマットの感度、ツーリングといった面で課題に直面しています。既存の方法では、多様なデータタイプ(ドキュメント、表、画像)を含む複雑なプロンプトを整理したり、プレゼンテーションのバリエーションを体系的に管理するための包括的なソリューションが不足しています。これらのギャップを埋めるため、我々はPOML(Prompt Orchestration Markup Language)を導入します。POMLは、論理構造(役割、タスク、例)のためのコンポーネントベースのマークアップ、シームレスなデータ統合のための専用タグ、コンテンツとプレゼンテーションを分離するCSSライクなスタイリングシステムを採用し、フォーマットの感度を低減します。また、動的プロンプトのためのテンプレート機能や、バージョン管理とコラボレーションを向上させる包括的な開発者向けツールキット(IDEサポート、SDK)を備えています。POMLの有効性を検証するため、複雑なアプリケーション統合(PomLink)と精度性能(TableQA)に与える影響を示す2つのケーススタディ、および実際の開発シナリオでの効果を評価するユーザースタディを実施しました。
ビジュアルデザイナーは自然と複数の視覚的参照からインスピレーションを得て、多様な要素と美的原則を組み合わせてアートワークを作成します。しかし、現在の画像生成フレームワークは主に単一ソースの入力(テキストプロンプトまたは個別の参照画像)に依存しています。本論文では、複数の視覚的参照を用いた制御可能な画像生成タスクに焦点を当てます。我々は、複数の参照画像から視覚的コンテンツを取り入れる必要がある990の合成サンプルと1,000の実世界サンプルからなる厳密な評価フレームワーク「MultiRef-bench」を紹介します。合成サンプルは、10の参照タイプと33の参照組み合わせを持つデータエンジン「RefBlend」を通じて生成されます。RefBlendに基づき、さらなる研究を促進するために38kの高品質画像を含むデータセット「MultiRef」を構築しました。3つのインターレーブド画像-テキストモデル(OmniGen、ACE、Show-o)と6つのエージェントフレームワーク(ChatDiT、LLM + SDなど)を用いた実験では、最先端のシステムでさえも複数参照の条件付けに苦戦し、最良のモデルであるOmniGenでさえ、合成サンプルでは66.6%、実世界のケースでは79.0%の平均スコアしか達成できませんでした。これらの発見は、複数の視覚的インスピレーション源を効果的に統合できる、より柔軟で人間らしい創造的ツールの開発に向けた貴重な方向性を提供します。データセットはhttps://multiref.github.io/で公開されています。
パーソナライズされたレコメンデーションの評価は、依然として中心的な課題であり、特にポッドキャストのような長時間の音声ドメインでは、従来のオフライン指標は露出バイアスに悩まされ、A/Bテストのようなオンライン手法はコストがかかり、運用上の制約も多い。本論文では、大規模言語モデル(LLM)をオフラインの審査員として活用し、スケーラブルで解釈可能な方法でポッドキャストのレコメンデーションの品質を評価する新しいフレームワークを提案する。我々の2段階のプロファイル認識アプローチでは、まず90日間のリスニング履歴から抽出された自然言語のユーザープロファイルを構築する。これらのプロファイルは、トピックへの興味と行動パターンの両方を要約し、ユーザーの嗜好をコンパクトで解釈可能な形で表現する。LLMに生データをプロンプトする代わりに、これらのプロファイルを使用して高レベルで意味的に豊かなコンテキストを提供し、LLMがユーザーの興味と推奨エピソードの整合性についてより効果的に推論できるようにする。これにより、入力の複雑さが軽減され、解釈可能性が向上する。次に、LLMはプロファイルとエピソードのマッチに基づいて、細かいポイントワイズおよびペアワイズの判断を下すようプロンプトされる。47人の参加者を対象とした制御された研究では、プロファイル認識型の審査員は人間の判断と高い忠実度で一致し、生のリスニング履歴を使用したバリアントを上回るか、同等の性能を示した。このフレームワークは、レコメンダーシステムにおける反復的なテストとモデル選択のための効率的でプロファイル認識型の評価を可能にする。
エンボディドAIにおける汎化能力は、「見ることから行動することのギャップ」によって阻害されており、これはデータ不足とエンボディメントの多様性に起因しています。この問題に対処するため、我々は「ポインティング」を統一されたエンボディメントに依存しない中間表現として初めて提案し、高レベルの視覚言語理解と低レベルの行動プリミティブを橋渡しする4つのコアなエンボディドポインティング能力を定義しました。我々は、エンボディド推論とポインティングに特化して設計された3B規模のVision-Language Model (VLM)であるEmbodied-R1を導入しました。多様なエンボディドおよび一般的な視覚推論データセットをソースとして、大規模なデータセットEmbodied-Points-200Kを構築し、主要なエンボディドポインティング能力をサポートします。その後、専用のマルチタスク報酬設計を用いた2段階のReinforced Fine-tuning (RFT)カリキュラムでEmbodied-R1をトレーニングしました。Embodied-R1は、11のエンボディド空間およびポインティングベンチマークで最先端の性能を達成しました。特に、SIMPLEREnvでは56.2%の成功率、8つの実世界XArmタスクでは87.5%の成功率を達成し、タスク固有のファインチューニングなしで強力なベースラインを62%上回る堅牢なゼロショット汎化能力を示しました。さらに、モデルは多様な視覚的擾乱に対して高いロバスト性を示しました。我々の研究は、ポインティング中心の表現とRFTトレーニングパラダイムを組み合わせることで、ロボティクスにおける知覚と行動のギャップを埋めるための効果的で汎化可能な道筋を提供することを示しています。
大規模言語モデル(LLM)は多様なタスクにおいて顕著な性能を発揮しているものの、本質的に自己認識を欠いており、誤った予測に対して高い信頼度スコアを付与するなど、過信を示すことが頻繁にあります。そのため、正確な信頼度推定は、LLMが生成する出力の信頼性と信頼度を向上させる上で極めて重要です。しかし、既存のアプローチでは、生成プロセス全体を通じて細粒度で連続的な信頼度推定を提供できない粗粒度のスコアリングメカニズムが課題となっています。これらの制限に対処するため、本論文ではFineCEを提案します。FineCEは、テキスト生成中に正確で細粒度の信頼度スコアを提供する新しい信頼度推定手法です。具体的には、まずLLMの応答の根底にある確率分布を効果的に捉える訓練データを構築するための包括的なパイプラインを開発し、その後、任意のテキストシーケンスに対する信頼度スコアを教師あり学習で予測するモデルを訓練します。さらに、推論時に後続のテキストからの情報を活用して現在のシーケンスの信頼度推定を強化するBackward Confidence Integration(BCI)戦略を提案します。また、生成プロセス内で信頼度推定を行う最適な位置を特定するための3つの戦略を導入します。複数のベンチマークデータセットを用いた大規模な実験により、FineCEが既存の古典的な信頼度推定手法を一貫して上回ることを実証しました。本論文で使用したコードとすべてのベースラインはGitHubで公開しています。
テキストガイドによる画像や動画の色編集は、基本的でありながら未解決の問題である。アルベド、光源色、環境光などの色属性を細かく操作しつつ、幾何学、材質特性、光と物質の相互作用における物理的一貫性を維持する必要がある。既存のトレーニング不要な手法は編集タスクに広く適用可能だが、正確な色制御に苦戦し、編集された領域と非編集領域の両方で視覚的な不整合を引き起こすことが多い。本研究では、現代のマルチモーダル拡散トランスフォーマー(MM-DiT)のアテンションメカニズムを活用したトレーニング不要な色編集手法、ColorCtrlを提案する。アテンションマップとバリュートークンをターゲット操作することで構造と色を分離し、正確で一貫性のある色編集と属性強度の単語レベル制御を可能にする。本手法はプロンプトで指定された意図した領域のみを変更し、無関係な領域はそのまま残す。SD3とFLUX.1-devでの広範な実験により、ColorCtrlが既存のトレーニング不要なアプローチを上回り、編集品質と一貫性の両方で最先端の性能を達成することが示された。さらに、本手法はFLUX.1 Kontext MaxやGPT-4o Image Generationなどの強力な商用モデルを一貫性の点で凌駕する。CogVideoXのような動画モデルに拡張すると、特に時間的整合性と編集安定性の維持においてより大きな利点を示す。最後に、本手法はStep1X-EditやFLUX.1 Kontext devなどの指示ベースの編集拡散モデルにも一般化され、その汎用性をさらに実証している。
バーチャル試着(VTON)は実用的で広く応用されているタスクであり、既存研究の多くは衣服に焦点を当てています。本論文では、OmniTryという統一フレームワークを提案します。これはVTONを衣服だけでなく、ジュエリーやアクセサリーなど、あらゆる着用可能なオブジェクトに拡張し、より実用的なアプリケーションのためのマスクフリー設定を実現します。さまざまなタイプのオブジェクトに拡張する際、ペア画像(オブジェクト画像と対応する試着結果)を取得するためのデータキュレーションは困難です。この問題に対処するため、2段階のパイプラインを提案します。第1段階では、大規模な非ペア画像(任意の着用アイテムを持つポートレート)を活用し、マスクフリーの位置特定を学習するモデルを訓練します。具体的には、インペインティングモデルを再利用し、空のマスクが与えられた場合に適切な位置にオブジェクトを自動的に描画します。第2段階では、ペア画像を用いてモデルをさらに微調整し、オブジェクトの外観の一貫性を転移させます。第1段階後のモデルは、わずかなペアサンプルでも迅速に収束することが観察されました。OmniTryは、12の一般的な着用可能オブジェクトクラスからなる包括的なベンチマークで評価され、店内画像と実世界画像の両方で検証されました。実験結果は、OmniTryが既存手法と比較して、オブジェクトの位置特定とID保存の両方で優れた性能を示すことを示唆しています。OmniTryのコード、モデル重み、および評価ベンチマークはhttps://omnitry.github.io/で公開されます。
近年の自己改良技術の進展により、大規模言語モデル(LLM)の出力を反復的に改良することで、その性能を大幅に向上させる可能性が示されています。しかし、既存の自己改良手法の多くは、固定された反復回数に基づく受動的なプロセスに依存しており、生成コンテキストの変化に応じて最適な改良のタイミングや内容を決定することが困難です。人間が実行中に思考を動的に改良する方法に着想を得て、本研究ではProActive Self-Refinement(PASR)という新しい手法を提案します。PASRは、LLMが生成プロセス中に出力を改良することを可能にします。従来の手法とは異なり、PASRはモデルの内部状態と変化するコンテキストに基づいて、改良を行うかどうか、いつ行うか、どのように行うかを積極的に決定します。我々は、10の多様なタスクを用いてPASRの有効性を評価するための広範な実験を実施しました。実験結果は、PASRが問題解決性能を大幅に向上させることを示しています。特に、Qwen3-8Bにおいて、PASRは標準的な生成と比較して平均トークン消費量を41.6%削減し、同時に精度を8.2%向上させました。本論文で使用したコードとすべてのベースラインはGitHubで公開されています。
「カクテルパーティ問題」に対処する音声分離の分野は、深層ニューラルネットワーク(DNN)の登場により革命的な進展を遂げてきました。音声分離は、複雑な音響環境における明瞭度を向上させ、音声認識や話者認識の重要な前処理として機能します。しかし、現在の研究は特定のアーキテクチャや孤立したアプローチに焦点を当てることが多く、断片的な理解を生み出しています。本調査はこのギャップを埋めるため、DNNベースの音声分離技術を体系的に検証します。本研究の独自性は以下の点にあります:(I)包括的視点:学習パラダイム、既知/未知の話者を対象とした分離シナリオ、教師あり/自己教師あり/教師なしフレームワークの比較分析、エンコーダから推定戦略までのアーキテクチャ構成要素を体系的に調査します。(II)最新性:最先端の開発をカバーすることで、現在のイノベーションとベンチマークへのアクセスを保証します。(III)独自の洞察:単なる要約を超え、技術の軌跡を評価し、新興パターンを特定し、ドメインロバストなフレームワーク、効率的なアーキテクチャ、マルチモーダル統合、新しい自己教師ありパラダイムなどの有望な方向性を強調します。(IV)公平な評価:標準データセットでの定量的評価を提供し、異なる手法の真の能力と限界を明らかにします。この包括的な調査は、音声分離の複雑な状況をナビゲートする経験豊富な研究者と新規参入者にとって、アクセス可能なリファレンスとして役立ちます。
本研究では、現実世界のシナリオを自然言語で記述したテキストから、人間が感じる苦悩度スコアを予測するための大規模言語モデル(LLM)の利用を調査します。このタスクは回帰問題として定式化され、モデルは各入力文に対して0から100のスカラー値を割り当てます。我々は、ゼロショット、固定コンテキストの少数ショット、およびBERT文埋め込みを用いた検索ベースのプロンプティングなど、複数のプロンプト戦略を評価します。少数ショットアプローチは一貫してゼロショットベースラインを上回り、感情予測における文脈例の価値を強調しています。静的評価を超えるために、テレビ番組の形式に着想を得た「ミザリー・ゲームショー」という新しいゲーミフィケーションフレームワークを導入します。これは、順序比較、二値分類、スカラー推定、フィードバック駆動推論を含む構造化されたラウンドを通じてLLMをテストします。この設定により、予測精度だけでなく、修正フィードバックに基づいて適応するモデルの能力も評価できます。ゲーミフィケーション評価は、標準的な回帰を超えた動的な感情推論タスクにおけるLLMの広範な可能性を浮き彫りにします。コードとデータリンク:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
最近のテキストから画像生成のためのフローマッチングモデルは、驚くべき品質を達成していますが、人間の嗜好に合わせるための強化学習との統合は最適とは言えず、細かい報酬ベースの最適化を妨げています。我々は、フローモデルの効果的なGRPO(Gradient-based Reward Policy Optimization)トレーニングに対する主要な障害が、既存のアプローチにおける時間的均一性の仮定にあることを観察しました。均一な信用割り当てを持つ疎な終端報酬は、生成タイムステップ全体での意思決定の重要性の変化を捉えることができず、非効率的な探索と最適でない収束を引き起こします。この欠点を補うために、我々はTempFlow-GRPO(Temporal Flow GRPO)を導入します。これは、フローベースの生成に内在する時間的構造を捉え、活用する原則的なGRPOフレームワークです。TempFlow-GRPOは、2つの主要な革新を導入します:(i) 指定された分岐点に確率性を集中させることでプロセス報酬を提供する軌道分岐メカニズムであり、専門的な中間報酬モデルを必要とせずに正確な信用割り当てを可能にします;(ii) 各タイムステップの内在的な探索可能性に応じてポリシー最適化を調整するノイズ認識重み付けスキームであり、影響の大きい初期段階での学習を優先しつつ、後期段階での安定した洗練を保証します。これらの革新により、モデルは基礎となる生成ダイナミクスを尊重する時間的認識最適化を備え、人間の嗜好の整合性と標準的なテキストから画像のベンチマークにおいて最先端の性能を達成します。
マルチエージェント強化学習(MARL)は、協調的および競争的な意思決定問題を解決するための強力なパラダイムです。多くのMARLベンチマークが提案されていますが、連続的な状態空間と行動空間を組み合わせ、挑戦的な調整と計画タスクを備えたものはほとんどありません。本論文では、連続的な行動を持つ環境におけるマルチエージェント経路探索に特化した新しいMARLベンチマークであるCAMARを紹介します。CAMARはエージェント間の協調的および競争的な相互作用をサポートし、最大で毎秒100,000環境ステップの効率的な実行を実現します。また、アルゴリズムの進捗をより適切に追跡し、パフォーマンスの深い分析を可能にするための3段階の評価プロトコルを提案します。さらに、CAMARではRRTやRRT*などの古典的な計画手法をMARLパイプラインに統合することが可能です。これらをスタンドアロンのベースラインとして使用し、RRT*を人気のあるMARLアルゴリズムと組み合わせてハイブリッドアプローチを構築します。再現性と公平な比較を確保するために、一連のテストシナリオとベンチマークツールを提供します。実験結果から、CAMARがMARLコミュニティにとって挑戦的で現実的なテストベッドであることが示されています。
大規模言語モデルの著作権保護は、その開発コストの高さ、独自の価値、そして悪用の可能性を考慮すると極めて重要である。既存の調査は主に、LLM生成コンテンツの追跡技術、すなわちテキスト透かしに焦点を当てており、モデル自体を保護する方法(モデル透かしやモデルフィンガープリンティング)の体系的な探求はまだ行われていない。さらに、テキスト透かし、モデル透かし、モデルフィンガープリンティングの間の関係と区別は包括的に明らかにされていない。本論文は、モデルフィンガープリンティングに焦点を当て、LLM著作権保護技術の現状を包括的に調査し、以下の側面をカバーする:(1) テキスト透かしからモデル透かしおよびフィンガープリンティングへの概念的つながりを明確にし、モデル透かしをより広範なフィンガープリンティングフレームワークに統合する統一用語を採用する;(2) 多様なテキスト透かし技術の概要と比較を提供し、そのような手法がモデルフィンガープリンティングとして機能する場合を強調する;(3) LLM著作権保護のための既存のモデルフィンガープリンティング手法を体系的に分類・比較する;(4) 初めて、フィンガープリント転送とフィンガープリント除去の技術を提示する;(5) モデルフィンガープリントの評価指標(有効性、無害性、堅牢性、秘匿性、信頼性)をまとめる;(6) 未解決の課題と今後の研究方向性について議論する。本調査は、LLM時代におけるテキスト透かしとモデルフィンガープリンティング技術の理解を研究者に提供し、それらの知的財産保護のさらなる進展を促進することを目的としている。
高度な推論能力とツール使用能力を備えたAIエージェントは、深層検索におけるウェブブラウジングで印象的な性能を発揮しています。既存のベンチマークであるBrowseCompはこれらのブラウジング能力を評価しますが、主にテキスト情報に焦点を当てており、マルチモーダルコンテンツの普及を見落としています。このギャップを埋めるため、我々はMM-BrowseCompを導入します。これは、エージェントのマルチモーダル検索と推論能力を評価するために特別に設計された224の挑戦的な手作り問題からなる新しいベンチマークです。これらの問題は、プロンプトに画像を取り入れることが多く、検索と推論プロセスで遭遇する重要な情報も、ウェブページ上の画像や動画に埋め込まれている可能性があります。そのため、テキストのみに依存する手法は我々のベンチマークでは不十分です。さらに、各問題に対して検証済みのチェックリストを提供し、マルチモーダル依存性と推論経路の詳細な分析を可能にします。MM-BrowseCompにおける最先端モデルの包括的評価により、OpenAI o3のようなトップモデルでさえツールを使用しても29.02%の精度しか達成できないことが明らかになり、現在のモデルのマルチモーダル能力が最適でなく、ネイティブなマルチモーダル推論が欠如していることが強調されました。
音声理解—音声、非音声の音、音楽を含む—は、人間レベルの知能を達成するために不可欠です。そのため、AIエージェントが一般的な知能を持つと認められるためには、包括的な音声理解を実証する必要があります。しかし、聴覚的知能を包括的に評価することは依然として困難です。このギャップを埋めるため、我々はMMAU-Proを紹介します。これは、AIシステムの音声知能を評価するための最も包括的で厳密に精選されたベンチマークです。MMAU-Proは5,305のインスタンスを含み、各インスタンスには1つ以上の音声と、人間の専門家が生成した質問-回答ペアがペアリングされており、音声、音、音楽、およびそれらの組み合わせをカバーしています。既存のベンチマークとは異なり、MMAU-Proは49のユニークなスキルと複数の複雑な次元にわたって聴覚的知能を評価します。これには、長文音声理解、空間音声推論、複数音声理解などが含まれます。すべての質問は、意図的なマルチホップ推論を必要とするよう綿密に設計されており、多肢選択式と自由回答形式の両方を含みます。重要な点として、音声データは既知の分布を持つ既存のデータセットではなく、「野生」から直接収集されています。我々は22の主要なオープンソースおよびプロプライエタリのマルチモーダルAIモデルを評価し、重大な制約を明らかにしました:Gemini 2.5 FlashやAudio Flamingo 3のような最先端のモデルでさえ、それぞれ59.2%と51.7%の精度しか達成せず、複数のカテゴリーでランダムな性能に近い結果を示しました。我々の詳細な分析は、特定の欠点を強調し、新たな洞察を提供し、将来のAIシステムが音声一般知能に向けて進化するための実践的な視点をコミュニティに提供します。ベンチマークとコードはhttps://sonalkum.github.io/mmau-proで利用可能です。
本研究は、骨格構造が大きく異なるキャラクター間でのモーション転送の課題に取り組む。過去数十年にわたり、リターゲティング技術は多くの進展を遂げてきたが、多様な骨格構造間でのモーション転送は未だ十分に探求されていない。主な障壁は、ソースとターゲットの骨格間の本質的なトポロジーの不一致にあり、これが一対一の骨対応関係の確立を制限している。さらに、異なるトポロジー構造にまたがる大規模なペアワイズモーションデータセットの現状の欠如は、データ駆動型アプローチの発展を大きく制約している。これらの制約を解決するため、我々はMotion2Motionという新しいトレーニング不要のフレームワークを提案する。Motion2Motionは、ターゲット骨格における1つまたは少数のモーション例のみを使用し、ソースとターゲット骨格間の疎な骨対応関係にアクセスすることで、シンプルかつ効果的に動作する。包括的な定性的・定量的評価を通じて、Motion2Motionが類似骨格間および種間骨格転送シナリオの両方において、効率的で信頼性の高い性能を達成することを実証する。本アプローチの実用性は、下流アプリケーションやユーザーインターフェースへの成功した統合によってさらに裏付けられ、産業応用における潜在的可能性が強調されている。コードとデータはhttps://lhchen.top/Motion2Motionで公開されている。
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)から教師なしで解釈可能な特徴を抽出することができます。しかし、下流の制御タスクにおけるその有効性は、対照データセットや大規模な活性化ストレージの必要性によって制限されています。これらの制限に対処するため、我々はCorrSteerを提案します。これは、推論時に生成されたトークンからのSAE活性化とサンプルの正解率を相関させることで特徴を選択するアプローチです。この方法では、推論時の活性化のみを使用してより関連性の高い特徴を抽出し、それによって偽の相関を回避します。また、平均活性化から制御係数を取得することで、パイプライン全体を自動化します。我々の手法は、Gemma 2 2BおよびLLaMA 3.1 8Bにおいて、QA、バイアス軽減、ジェイルブレイク防止、推論ベンチマークで改善されたタスク性能を示し、特にMMLU性能で+4.1%、HarmBenchで+22.9%の改善をわずか4000サンプルで達成しました。選択された特徴は、各タスクの要件に沿った意味的に有意なパターンを示し、性能を駆動する基盤となる能力を明らかにします。我々の研究は、相関ベースの選択が言語モデルアプリケーション全体での自動化されたSAE制御に対する効果的でスケーラブルなアプローチであることを確立します。
ユニバーサル医療画像セグメンテーションモデルは、多様なタスクにわたる強力な汎用性を示し、幅広い臨床応用において大きな可能性を秘めたパラダイムとして登場しました。この可能性は、Segment Anything Model(SAM)のような汎用視覚モデルの成功によって部分的に推進されており、医療セグメンテーションタスク向けの様々なファインチューニングバリアントの開発を促しています。しかし、MedSAMのようなファインチューニングバリアントは、異質性、注釈の不足、分布シフトに悩まされる比較的限られた医療画像データで訓練されており、これが広範な医療セグメンテーションタスクへの汎用性を制限しています。この点を踏まえ、我々はMedSAMixを提案します。これは、汎用モデル(例:SAM)と専門モデル(例:MedSAM)の強みを統合した、訓練不要なモデル統合手法であり、医療画像セグメンテーションに適用されます。従来のモデル統合手法が手動設定に依存し、しばしば最適でない結果をもたらすのに対し、我々はゼロ次最適化手法を提案し、層ごとの最適な統合解を自動的に発見します。さらに、臨床応用に向けて、単一タスク最適化と多目的最適化をそれぞれ用いることで、異なるシナリオにおけるドメイン特異性と汎用性の要求に応える2つのレジームを開発しました。25の医療セグメンテーションタスクでの広範な評価により、MedSAMixがモデルのバイアスを効果的に軽減し、ドメイン特異的な精度と汎用性の両面で性能を一貫して向上させることが示されました。専門タスクでは6.67%、マルチタスク評価では4.37%の改善を達成しています。
大規模言語モデル(LLMs)を基盤とする生成モデルは、推薦と検索の両タスクを統合的に解決する手法として注目を集めています。これらのモデルにおける重要な設計上の選択肢は、アイテムをどのように表現するかであり、従来は一意の識別子(ID)を用いていましたが、最近では埋め込みから得られる離散コードで構成されるセマンティックIDが採用されています。タスク固有の埋め込みモデルは個々のタスクの性能を向上させることができますが、統合的な設定では汎化性能が低下する可能性があります。本論文では、統合モデルを使用する際に、検索と推薦の両方で良好な性能を発揮するセマンティックIDをどのように構築するかを探求します。セマンティックIDを構築するための様々な戦略を比較し、タスク固有のアプローチとクロスタスクのアプローチ、また、統合的な検索と推薦の生成モデルにおいて各タスクが独自のセマンティックIDトークンを持つべきかどうかを検討します。結果として、検索と推薦の両タスクでファインチューニングされたバイエンコーダモデルを使用してアイテムの埋め込みを取得し、その後、統合されたセマンティックID空間を構築することが、両タスクで強力な性能を発揮する効果的なトレードオフを提供することが示されました。これらの発見が、汎用性のあるセマンティックに基づいたIDスキームに関する追跡研究を刺激し、次世代の統合型生成推薦アーキテクチャの設計に役立つことを期待しています。
既存の動画推薦システムは、主にユーザー定義のメタデータや、専門のエンコーダーによって抽出された低レベルの視覚・音響信号に依存しています。これらの低レベルな特徴量は、画面上に表示される内容を記述するものの、視聴者に共感を呼ぶ意図、ユーモア、世界観といった深い意味論を見落としています。例えば、30秒のクリップが単なる屋上での歌手なのか、それともトルコのカッパドキアの妖精の煙突を背景にした皮肉なパロディなのか?このような区別はパーソナライズされた推薦において重要でありながら、従来のエンコーディングパイプラインでは見落とされています。本論文では、既存の推薦システムに依存しないシンプルなゼロファインチューニングフレームワークを提案します。このフレームワークは、オフ・ザ・シェルフのマルチモーダル大規模言語モデル(MLLM)を利用して、各クリップを豊かな自然言語記述(例:「スラップスティックな戦いとオーケストラの突き刺しを伴うスーパーヒーローパロディ」)に要約し、生のコンテンツとユーザーの意図の間のギャップを埋めます。MLLMの出力を最先端のテキストエンコーダーと組み合わせ、標準的な協調フィルタリング、コンテンツベース、生成型の推薦システムにフィードします。TikTokスタイルの動画とのユーザーインタラクションを模倣したMicroLens-100Kデータセットにおいて、我々のフレームワークは、5つの代表的なモデルで従来の動画、音声、メタデータの特徴量を一貫して上回りました。我々の研究結果は、MLLMをリアルタイムの知識抽出器として活用し、より意図を意識した動画推薦システムを構築する可能性を示しています。
ラジアンスフィールド(RF)の開発、例えば3Dガウシアンスプラッティング(3DGS)やニューラルラジアンスフィールド(NeRF)は、インタラクティブなフォトリアルなビュー合成に革命をもたらし、XR研究と応用に大きな可能性を提示しています。しかし、RF研究が指数関数的に成長しているにもかかわらず、XRコミュニティへのRF関連の貢献は依然として少ない状況です。この研究ギャップをより深く理解するため、我々は現在のRF文献を体系的に調査し、(i) RFがXRアプリケーションにどのように構想されているか、(ii) 既にどのように実装されているか、(iii) 残されている研究ギャップを分析しました。我々は、コンピュータビジョン、コンピュータグラフィックス、ロボティクス、マルチメディア、ヒューマンコンピュータインタラクション、およびXRコミュニティから、上記の研究課題に答えるために365件のRF関連の貢献を収集しました。365件の論文の中から、XR向けのRF研究の詳細な側面に既に取り組んだ66件の論文を分析しました。この調査を通じて、我々はXR固有のRF研究トピックをより広範なRF研究分野に拡張し位置づけ、XRコミュニティがRF研究の急速な発展をナビゲートするための有用なリソースを提供しました。
モーションセンサーの時系列データは、人間行動認識(HAR)において中心的な役割を果たし、健康、スポーツ、スマートデバイスなどの分野で応用されています。しかし、既存の手法は固定された行動セットに対して訓練されており、新しい行動やセンサー設定が現れるたびにコストのかかる再訓練が必要です。最近では、大規模言語モデル(LLM)をHARに利用する試みが行われていますが、通常は信号をテキストや画像に変換する方法が採用されており、精度が限定的で検証可能な解釈性に欠けています。本研究では、生のモーション時系列データから直接ゼロショットで説明可能なHARを実現する初のエージェントベースのフレームワーク「ZARA」を提案します。ZARAは、各行動ペアの識別統計量を捉えた自動導出型のペアワイズ特徴知識ベース、関連する証拠を提示するマルチセンサー検索モジュール、そしてLLMを導いて特徴を反復的に選択し、この証拠を活用して行動予測と自然言語による説明を生成する階層型エージェントパイプラインを統合しています。ZARAは、ファインチューニングやタスク固有の分類器を一切必要とせず、柔軟で解釈可能なHARを実現します。8つのHARベンチマークでの広範な実験により、ZARAはSOTAのゼロショット性能を達成し、明確な推論を提供しながら、最強のベースラインを2.53倍のマクロF1で上回ることが示されました。アブレーション研究はさらに、各モジュールの必要性を確認し、ZARAが信頼性のあるプラグアンドプレイ型のモーション時系列分析に向けた有望な一歩であることを示しています。コードはhttps://github.com/zechenli03/ZARAで公開されています。
大規模言語モデルは、人間と比較してどのように道徳的次元を理解しているのか? この市場をリードする言語モデルに対する初の大規模ベイジアン評価がその答えを提供する。従来の決定論的なグラウンドトゥルース(多数決または包含ルール)を使用した研究とは対照的に、我々はアノテーター間の不一致をモデル化し、アレータリック不確実性(人間の本質的な意見の相違)とエピステミック不確実性(モデルのドメイン感度)の両方を捉える。我々は、ソーシャルメディア、ニュース、フォーラムにまたがる10万以上のテキストに対して、約700人のアノテーターから得られた25万以上のアノテーションを用いて、主要な言語モデル(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick)を評価した。 GPU最適化されたベイジアンフレームワークは100万以上のモデルクエリを処理し、AIモデルが通常、人間のアノテーターの上位25%にランクされ、平均を大幅に上回るバランス精度を達成していることを明らかにした。重要なことに、AIは人間よりもはるかに少ない偽陰性を生成し、より敏感な道徳検出能力を強調している。
我々は、訓練データに対して見えない合成手法、話者、言語、または音声条件に起因する分布シフト下での合成音声検出の課題に取り組む。数ショット学習手法は、少数の分布内サンプルに基づいて迅速に適応することで、分布シフトに対処する有望な方法である。我々は、よりロバストな数ショット適応を可能にするために、自己注意型プロトタイプネットワークを提案する。提案手法を評価するために、従来のゼロショット検出器と提案する数ショット検出器の性能を体系的に比較し、評価時に分布シフトを導入するために訓練条件を慎重に制御する。分布シフトがゼロショット性能を妨げる条件下では、提案する数ショット適応技術は、わずか10個の分布内サンプルを使用して迅速に適応することができ、日本語のディープフェイクでは最大32%の相対EER削減、ASVspoof 2021 Deepfakeデータセットでは20%の相対削減を達成する。
大規模言語モデル(LLM)は、驚くべき問題解決能力を示す一方で、静的な内部知識のため複雑なタスクに苦戦しています。検索拡張生成(RAG)は外部情報へのアクセスを強化しますが、固定されたワークフローのため、多段階推論や戦略的検索において制限があります。最近のエージェント型深層研究の進展により、LLMは自律的に推論、検索、情報統合を行うことが可能になりました。しかし、結果ベースの強化学習(RL)に依存する現在のアプローチでは、勾配の衝突や報酬の希薄性といった重大な問題が生じ、性能向上や学習効率が制限されています。これらの課題に対処するため、我々はまず「Atomic Thought」を提案します。これは、推論を細かい機能単位に分解する新しいLLM思考パラダイムです。これらの単位は「Reasoning Reward Models(RRM)」によって監督され、細かいガイダンスのための「Atomic Thought Rewards(ATR)」を提供します。これを基盤として、Atomic ThoughtとATRを統合した新しいRLフレームワーク「Atom-Searcher」を提案します。Atom-Searcherは、カリキュラムに着想を得た報酬スケジュールを使用し、初期段階ではプロセスレベルのATRを優先し、その後結果報酬に移行することで、効果的な推論パスへの収束を加速します。7つのベンチマークでの実験では、最先端技術を一貫して上回る改善が示されました。主な利点は以下の通りです:(1)Atom-Searcherはテスト時に計算をスケールします。(2)Atomic ThoughtはRRMのための監督アンカーを提供し、深層研究タスクとRRMを橋渡しします。(3)Atom-Searcherはより解釈可能で人間らしい推論パターンを示します。