翻訳付きの日次キュレーションされたAI研究論文
4D世界モデリングの分野 - 空間的幾何学と時間的ダイナミクスを同時に捉えることを目指す - は、大規模生成モデルとマルチモーダル学習の進歩により、近年著しい進展を遂げています。しかし、真に汎用的な4D世界モデルの開発は、高品質なデータの可用性によって根本的に制約されています。既存のデータセットやベンチマークは、4D幾何学的再構成、未来予測、カメラ制御動画生成といった重要なタスクをサポートするために必要な動的複雑性、多領域多様性、時空間的アノテーションをしばしば欠いています。このギャップを埋めるため、我々は4D世界モデリングに特化した大規模で多領域、マルチモーダルなデータセットであるOmniWorldを導入します。OmniWorldは、新たに収集したOmniWorld-Gameデータセットと、多様な領域にわたるいくつかの精選された公開データセットで構成されています。既存の合成データセットと比較して、OmniWorld-Gameはより豊富なモダリティカバレッジ、より大規模なスケール、そしてより現実的な動的相互作用を提供します。このデータセットに基づいて、我々は複雑な4D環境のモデリングにおける現在の最先端(SOTA)手法の限界を明らかにする挑戦的なベンチマークを確立します。さらに、既存のSOTA手法をOmniWorldでファインチューニングすることで、4D再構成と動画生成タスクにおいて大幅な性能向上が得られ、OmniWorldがトレーニングと評価のための強力なリソースであることが強く裏付けられました。我々は、OmniWorldが汎用4D世界モデルの開発を加速する触媒となり、最終的には機械の物理世界に対する包括的な理解を進展させることを期待しています。
グラフィカルユーザーインターフェース(GUI)エージェントは、強化学習を用いて複雑なユーザーインターフェース操作を自動化する点で顕著な進歩を遂げてきました。しかし、現在のアプローチには根本的なジレンマが存在します。オフライン強化学習は事前に収集した軌跡データを用いて安定した訓練を可能にしますが、軌跡レベルの報酬信号が不足しているため、多段階タスクの実行に苦戦します。一方、オンライン強化学習は環境との相互作用を通じてこれらの信号を捉えますが、報酬が疎であり、展開コストが非常に高くなります。この問題を解決するため、我々はオフライン軌跡上でオンライン強化学習をシミュレートする新たなパラダイムである「Semi-online Reinforcement Learning」を提案します。各ロールアウトプロセスにおいて、多ターン対話内で元のモデル出力を保持し、Patch Moduleがロールアウトとエキスパート軌跡の乖離を適応的に回復します。長期的な訓練信号を捉えるために、Semi-online RLは割引未来報酬を報酬計算に導入し、重み付けされたステップレベルおよびエピソードレベルのアドバンテージを用いてポリシーを最適化します。さらに、真のオンラインパフォーマンスに適した評価指標として「Semi-Online Performance(SOP)」を導入し、実世界での評価の実用的かつ効果的な代理指標とします。実験結果は、我々のSemi-online RLが7Bモデルにおいて4つの動的ベンチマークでSOTA性能を達成し、ベースモデルに対して大幅な向上(例:AndroidWorldで+12.0%、AITWで+23.8%)を示し、オフライン訓練の効率性とオンライン多段階推論のギャップを埋める点で大きな進展を実証しています。コードはhttps://github.com/X-PLUG/MobileAgent/tree/main/UI-S1で公開されています。
エンボディドAIの進展は、シーンの多様性と現実的なレイアウトを特徴とする大規模でシミュレーション可能な3Dシーンデータセットに大きく依存しています。しかし、既存のデータセットは、データの規模や多様性の制限、小物が欠如した清潔なレイアウト、深刻なオブジェクト衝突といった課題を抱えています。これらの欠点を解決するため、私たちはInternScenesを紹介します。これは、3つの異なるシーンソース(実世界のスキャン、手続き的に生成されたシーン、デザイナーが作成したシーン)を統合し、約40,000の多様なシーンを含む新たな大規模シミュレーション可能な屋内シーンデータセットです。これには1.96Mの3Dオブジェクトが含まれ、15の一般的なシーンタイプと288のオブジェクトクラスをカバーしています。特に、シーン内の大量の小物を保持することで、1領域あたり平均41.5のオブジェクトを持つ現実的で複雑なレイアウトを実現しています。私たちの包括的なデータ処理パイプラインは、実世界のスキャンに対してリアルからシミュレーションへのレプリカを作成することでシミュレーション可能性を確保し、インタラクティブなオブジェクトをこれらのシーンに組み込むことでインタラクティビティを向上させ、物理シミュレーションを通じてオブジェクト衝突を解決します。InternScenesの価値を、シーンレイアウト生成とポイントゴールナビゲーションという2つのベンチマークアプリケーションで示します。どちらも、複雑で現実的なレイアウトがもたらす新たな課題を明らかにしています。さらに重要なことに、InternScenesは、両タスクのモデルトレーニングをスケールアップする道を開き、そのような複雑なシーンでの生成とナビゲーションを可能にします。私たちは、データ、モデル、ベンチマークをオープンソース化し、コミュニティ全体に貢献することを約束します。
視覚-言語モデル(VLM)は、事前学習済みの視覚エンコーダを通じて視覚入力を処理し、その後コネクタコンポーネントを介して言語モデルの埋め込み空間に投影することが多い。モダリティ融合において重要な役割を果たす一方で、この投影ステップによって引き起こされる潜在的な情報損失と、それがモデルの能力に直接及ぼす影響については十分に研究されていない。本研究では、潜在表現空間を分析することでこの損失を検証し定量化するための2つの補完的なアプローチを提案する。まず、投影前後の画像表現間のk近傍関係の変化を分析することで、意味情報の保存状況を評価する。次に、投影された表現から視覚的埋め込みを再構築することで情報損失を直接測定し、画像パッチレベルで損失を特定する。実験結果から、コネクタは視覚表現の局所的な幾何学を大幅に歪めることが明らかになり、投影後のk近傍は40〜60%も乖離し、検索性能の低下と相関していることがわかった。パッチレベルの埋め込み再構築は、視覚に基づく質問応答タスクにおけるモデルの挙動について解釈可能な洞察を提供し、情報損失が大きい領域はモデルが苦戦する事例を確実に予測できることを示している。
ドラッグベースの編集における注意機構を介した暗黙的な点マッチングへの依存は、主要なボトルネックとなっており、インバージョン強度の低下と高コストなテスト時最適化(TTO)という根本的な妥協を引き起こしています。この妥協は拡散モデルの生成能力を大幅に制限し、高忠実度のインペインティングやテキストガイド付き生成を抑制しています。本論文では、マルチモーダル拡散トランスフォーマー向けの初のドラッグベース画像編集手法であるLazyDragを紹介します。この手法は、暗黙的な点マッチングへの依存を直接排除します。具体的には、ユーザーのドラッグ入力を基に明示的な対応マップを生成し、注意制御を強化する信頼性の高い参照として機能させます。この信頼性の高い参照により、ドラッグベース編集タスクにおいて初めて、安定したフル強度のインバージョンプロセスが可能になります。これによりTTOの必要性がなくなり、モデルの生成能力が解放されます。したがって、LazyDragは自然に精密な幾何学的制御とテキストガイダンスを統合し、これまで実現が困難だった複雑な編集を可能にします:犬の口を開けて内部をインペイントする、「テニスボール」のような新しいオブジェクトを生成する、あるいは曖昧なドラッグに対して、手をポケットに入れるような文脈を考慮した変更を行うなどです。さらに、LazyDragは移動とスケール操作を同時に行うマルチラウンドワークフローをサポートします。DragBenchでの評価において、本手法はドラッグ精度と知覚品質の両方でベースラインを上回り、VIEScoreと人間による評価によってその有効性が検証されました。LazyDragは新たな最先端の性能を確立するだけでなく、編集パラダイムへの新たな道を切り開きます。
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)の訓練において不可欠であり、指示追従や文脈内学習といった重要な能力を大幅に向上させます。しかし、特定のドメインに特化した適切な訓練データセットの作成は、そのドメイン固有の制約やデータ不足のため、依然として困難です。本論文では、SFTのための高品質な指示データセットを構築するために特別に設計された革新的な手法、SearchInstructを提案します。我々のアプローチは、限られたドメイン固有の人間が生成した質問セットから始まり、大規模言語モデルを用いて体系的に拡張します。その後、ドメインに関連するリソースを動的に検索し、各拡張された質問に対して正確で文脈に適した回答を生成します。実験的評価により、SearchInstructがSFTデータセットの多様性と品質を向上させ、専門ドメインにおけるLLMの性能を測定可能なレベルで改善することが示されました。さらに、提案手法がデータセット生成を超えて、モデル編集といったタスクにも効果的に活用でき、既存モデルの効率的な更新を可能にすることも示しています。再現性とコミュニティでの採用を促進するため、完全な実装詳細、生成された指示-応答ペアの完全なセット、およびソースコードを公開Gitリポジトリで提供しています:[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
生成モデルの中でも、拡散モデルはその訓練目的関数の閉形式最適最小化器(しばしば最適デノイザーと呼ばれる)が存在する点で特に興味深い。しかし、この最適デノイザーを用いた拡散は、訓練セット内の画像を単に再現するだけで、深層拡散モデルの挙動を捉えることができない。最近の研究では、この最適デノイザーと深層拡散モデルの間のギャップを特徴づけようと試みられ、訓練不要の解析モデルを提案し、訓練済みUNetによって生成される画像に似た画像を生成できるようにしている。最も性能の良い手法は、畳み込みニューラルネットワークのシフト等価性と局所性の帰納的バイアスが性能ギャップの原因であると仮定し、これらの仮定を解析モデルに組み込んでいる。本研究では、深層拡散モデルにおける局所性が、畳み込みニューラルネットワークの帰納的バイアスによるものではなく、画像データセットの統計的特性として現れることを示す証拠を提示する。具体的には、最適なパラメトリック線形デノイザーが、深層ニューラルデノイザーと同様の局所性を示すことを実証する。さらに、理論的および実験的に、この局所性が自然画像データセットに存在するピクセル相関から直接生じることを示す。最後に、これらの知見を活用して、従来の専門家が作成した代替モデルよりも、深層拡散モデルによって予測されるスコアにより一致する解析デノイザーを構築する。
多目的強化学習における従来の研究では、通常、固定された重みを用いた線形報酬スカラリゼーションが採用されており、非凸なパレートフロントを捉えることができないことが証明されており、その結果、最適ではない結果が得られていました。この制限は、大規模言語モデルのオンライン選好調整において特に深刻です。ここでは、パラメータ化されたポリシーによって生成される確率的軌跡が、パラメータから目的への高度に非線形かつ非凸なマッピングを作り出し、単一の静的加重スキームでは最適なトレードオフを見つけることができません。この制限に対処するために、動的報酬加重を導入し、オンライン強化学習プロセス中に報酬の重みを適応的に調整します。固定重み補間に依存する既存のアプローチとは異なり、我々の動的加重はトレーニング中に目的を継続的にバランスさせ優先順位を付け、目的空間におけるパレートフロントの効果的な探索を促進します。我々は、洗練度と汎用性を増した2つのアプローチを紹介します:(1) ハイパーボリューム誘導型重み適応と (2) 勾配ベースの重み最適化で、オンライン多目的調整のための汎用的なツールキットを提供します。広範な実験により、一般的に使用されるオンライン強化学習アルゴリズム(GRPO、REINFORCE、RLOOを含む)との互換性、複数の数学的推論データセットにおける有効性、および異なるモデルファミリーへの適用性が実証され、固定重み線形スカラリゼーションベースラインよりも少ないトレーニングステップでパレート支配解を一貫して達成することが示されました。
マルチモーダル大規模言語モデル(MLLMs)における幻覚(Hallucination)――モデルが入力画像と矛盾する内容を生成する現象――は、現実世界のアプリケーションにおいて重大なリスクをもたらします。視覚的質問応答における誤情報から意思決定における危険なエラーまで、その影響は多岐にわたります。既存のベンチマークは主に認識精度をテストするもので、すなわち、モデルが選択肢の中から正しい答えを選べるかどうかを評価します。しかし、信頼できるAIにとって同等に重要な能力――提供された選択肢のいずれも正しくない場合を認識する、認識論的謙虚さ(epistemic humility)を反映する振る舞い――を見落としています。本論文では、HumbleBenchという新しい幻覚ベンチマークを提案します。これは、MLLMsが3種類の幻覚(物体、関係、属性)において、もっともらしいが誤った答えを拒否する能力を評価するために設計されています。パノプティックシーングラフデータセットを基に構築されたHumbleBenchでは、細粒度のシーングラフアノテーションを活用してグラウンドトゥルースのエンティティと関係を抽出し、GPT-4-Turboに多肢選択問題を生成させた後、厳格な手動フィルタリングプロセスを経ています。各問題には「None of the above(どれも該当しない)」という選択肢が含まれており、モデルは正しい視覚情報を認識するだけでなく、提供された答えのいずれも有効でない場合を識別する必要があります。我々は、汎用モデルから専門的な推論モデルまで、さまざまな最先端のMLLMsをHumbleBenchで評価し、貴重な知見をコミュニティと共有します。明示的な誤選択肢拒否を組み込むことで、HumbleBenchは現在の評価スイートにおける重要なギャップを埋め、安全が重要な設定におけるMLLMの信頼性をより現実的に測定します。我々のコードとデータセットは公開されており、https://github.com/maifoundations/HumbleBench からアクセスできます。
テキストのみの「スローシンキング」推論の最近の進展に伴い、この能力を視覚言語モデル(VLM)に転移させ、視覚推論モデル(VRM)を訓練する取り組みが進められています。しかし、この転移には重大な課題があります。VRMにおける効果的な「スローシンキング」には、視覚情報に基づいて推論プロセスを確認する能力である視覚的リフレクションが必要です。定量的分析を通じて、現在のVRMは視覚的リフレクションが限定的であり、生成される応答が長くなるにつれて視覚情報への注意が急速に低下することを観察しました。この課題に対処するため、我々は新しいVRMであるReflection-Vを提案します。Reflection-Vは、コールドスタートのための推論データ構築と強化学習(RL)のための報酬設計に基づいて視覚的リフレクションを強化します。まず、VLMと推論LLMの間で相互作用するエージェントを活用して視覚中心の推論データを構築し、視覚的リフレクションパターンのコールドスタート学習を可能にします。次に、RL中に視覚注意に基づく報酬モデルを使用し、視覚情報に基づいた推論を促進します。その結果、Reflection-Vは複数の視覚推論ベンチマークで大幅な改善を示しています。さらに、Reflection-Vは視覚推論中に視覚情報へのより強く一貫した依存を維持し、視覚的リフレクション能力の効果的な強化を示しています。
エンボディードナビゲーションでは、エージェントが複雑な3D環境において堅牢な相互作用を行うために、知覚、推論、行動を統合する必要があります。既存のアプローチでは、多様な環境間での一般化を妨げる非一貫性や不安定な推論トレース、およびリアルタイムナビゲーションのための低遅延制御と長期的な意味的推論のバランスを取る難しさがしばしば問題となります。これらの課題に対処するため、我々はNav-R1を提案します。これは、エンボディード環境における推論を統合するエンボディード基盤モデルです。まず、エンボディードタスクのためのステップバイステップのChain-of-Thought(CoT)を含む大規模データセットNav-CoT-110Kを構築し、構造化された推論によるコールドスタート初期化を可能にします。この基盤に基づき、GRPOベースの強化学習フレームワークを設計し、フォーマット、理解、ナビゲーションという3つの補完的な報酬を用いて、構造的遵守、意味的基盤付け、および経路の忠実度を向上させます。さらに、効率的でありながら一貫性のあるナビゲーションを実現するため、慎重な意味的推論と低遅延の反応制御を分離するFast-in-Slow推論パラダイムを導入します。エンボディードAIベンチマークでの広範な評価により、Nav-R1が強力なベースラインを一貫して上回り、推論とナビゲーションの性能において平均8%以上の改善を示すことが実証されました。モバイルロボットでの実世界展開により、限られたオンボードリソース下での堅牢性も検証されました。コード: https://github.com/AIGeeksGroup/Nav-R1. ウェブサイト: https://aigeeksgroup.github.io/Nav-R1.
分散型ソーシャルメディアプラットフォームの出現は、公共ディスコースのリアルタイム分析において新たな機会と課題をもたらしています。本研究では、フェデレーションベースのTwitterまたはX.comの代替プラットフォームであるBluesky上での感情、感情、およびナラティブ分析を目的としたオープンソースでスケーラブルなフレームワーク、CognitiveSkyを紹介します。CognitiveSkyは、Blueskyのアプリケーションプログラミングインターフェース(API)を通じてデータを取り込み、トランスフォーマーベースのモデルを適用して大規模なユーザー生成コンテンツに注釈を付け、構造化された分析可能な出力を生成します。これらの要約は、感情、アクティビティ、会話トピックの変化するパターンを視覚化する動的なダッシュボードを駆動します。完全に無料のインフラストラクチャ上に構築されたCognitiveSkyは、低い運用コストと高いアクセシビリティの両方を実現しています。ここではメンタルヘルスディスコースの監視のために実証されていますが、そのモジュール設計により、偽情報検出、危機対応、市民感情分析などの分野での応用が可能です。大規模言語モデルと分散型ネットワークを橋渡しすることで、CognitiveSkyは、デジタルエコシステムが変化する時代における計算社会科学のための透明性が高く拡張可能なツールを提供します。
人間の行動特性を理解することは、人間とコンピュータの相互作用、計算社会科学、パーソナライズドAIシステムにおける応用において中心的な課題です。このような理解には、微妙なパターンや関係性を捉えるために複数のモダリティを統合することがしばしば必要となります。しかし、既存のリソースでは、行動記述子と顔の属性や経歴情報などの補完的なモダリティを組み合わせたデータセットを提供することは稀です。このギャップを埋めるため、我々はPersonaXを提案します。これは、モダリティを横断した公的な特性の包括的な分析を可能にするために設計された、マルチモーダルデータセットのキュレーションされたコレクションです。PersonaXは、(1)多様な職業から9444人の有名人を特徴とするCelebPersonaと、(2)7つの主要なスポーツリーグにわたる4181人のプロアスリートをカバーするAthlePersonaで構成されています。各データセットには、3つの高性能な大規模言語モデルによって推論された行動特性評価、顔画像、および構造化された経歴特徴が含まれています。我々はPersonaXを2つの補完的なレベルで分析します。まず、テキスト記述から高レベルの特性スコアを抽象化し、他のモダリティとの関係を調べるために5つの統計的独立性検定を適用します。次に、マルチモーダルおよび複数測定データに特化した新しい因果表現学習(CRL)フレームワークを導入し、理論的な識別可能性を保証します。合成データと実世界のデータの両方での実験により、我々のアプローチの有効性が実証されています。構造化された分析と非構造化された分析を統合することにより、PersonaXは、視覚的および経歴的属性と組み合わせたLLM推論行動特性の研究の基盤を確立し、マルチモーダル特性分析と因果推論を前進させます。
音声トークン化は離散的な表現を可能にし、音声言語モデリングを容易にします。しかし、既存のニューラルコーデックは低レベルの音響特徴を捉える一方で、人間の音声に内在する意味的・文脈的手がかりを見落としています。最近の研究では、自己教師あり音声モデルから意味的表現を導入したり、事前学習済み言語モデルから文脈的表現を取り入れたりしていますが、意味的表現と文脈的表現を整合させ統一する課題が残っています。本論文では、FuseCodecを紹介します。これは、強力なクロスモーダルアラインメントとグローバルに情報化された監視を通じて、音響的、意味的、文脈的表現を統一するものです。我々は3つの補完的な技術を提案します:(i)潜在表現融合(Latent Representation Fusion)では、意味的・文脈的特徴をエンコーダの潜在空間に直接統合し、堅牢で統一された表現学習を実現します。(ii)グローバル意味-文脈監視(Global Semantic-Contextual Supervision)では、グローバルにプールされブロードキャストされた表現で離散トークンを監視し、時間的一貫性とクロスモーダルアラインメントを強化します。(iii)時間的整合文脈監視(Temporally Aligned Contextual Supervision)では、局所ウィンドウ内で文脈と音声トークンを動的にマッチングさせ、細粒度のトークンレベル監視を強化します。さらに、FuseCodec-TTSを紹介し、ゼロショット音声合成への本手法の適用性を示します。実験的には、FuseCodecはLibriSpeechにおいて最先端の性能を達成し、EnCodec、SpeechTokenizer、DACを転写精度、知覚品質、明瞭度、話者類似性で上回りました。結果は、文脈的・意味的に導かれたトークン化が音声トークン化と下流タスクにおいて有効であることを示しています。コードと事前学習済みモデルはhttps://github.com/mubtasimahasan/FuseCodecで公開されています。
大規模ビデオモデル(LVM)の最近の進展により、ビデオ理解が大幅に向上しました。しかし、これらのモデルは依然として幻覚(hallucination)に悩まされており、入力ビデオと矛盾する内容を生成することがあります。この問題に対処するため、我々はDr.Vを提案します。これは、知覚的、時間的、認知的レベルをカバーする階層的フレームワークであり、細粒度の時空間的グラウンディングを通じてビデオ幻覚を診断します。Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの主要コンポーネントで構成されています。Dr.V-Benchは、4,974本のビデオから抽出された10,000のインスタンスを含み、多様なタスクにわたって詳細な時空間的アノテーションが施されています。Dr.V-Agentは、知覚的および時間的レベルで細粒度の時空間的グラウンディングを体系的に適用し、その後認知的レベルの推論を行うことで、LVMの幻覚を検出します。この段階的なパイプラインは、人間のようなビデオ理解を模倣し、幻覚を効果的に特定します。大規模な実験により、Dr.V-Agentが幻覚の診断において有効であり、解釈可能性と信頼性を向上させることが実証されました。これにより、現実世界のシナリオにおける堅牢なビデオ理解のための実用的な青図を提供します。すべてのデータとコードはhttps://github.com/Eurekaleo/Dr.Vで公開されています。
大規模言語モデル(LLM)をメンタルヘルスやその他のセンシティブな領域に展開する際には、倫理的推論、公平性、責任あるアラインメントに関する緊急の課題が浮上します。しかし、既存の道徳的および臨床的意思決定のベンチマークは、メンタルヘルス実践で頻繁に交錯する機密性、自律性、善行、バイアスといった独自の倫理的ジレンマを十分に捉えていません。このギャップを埋めるため、私たちは「Ethical Reasoning in Mental Health(EthicsMH)」を導入しました。これは、AIシステムが治療的および精神医学的文脈で倫理的に複雑な状況をどのようにナビゲートするかを評価するための125のシナリオからなるパイロットデータセットです。各シナリオは、複数の意思決定オプション、専門家に準拠した推論、期待されるモデルの振る舞い、現実世界への影響、多様なステークホルダーの視点といった構造化されたフィールドで充実されています。この構造により、意思決定の正確さだけでなく、説明の質や専門的規範との整合性も評価することが可能です。規模は控えめでモデル支援生成を用いて開発されたものの、EthicsMHはAI倫理とメンタルヘルス意思決定を橋渡しするタスクフレームワークを確立しています。このデータセットを公開することで、コミュニティや専門家の貢献を通じて拡張可能な種となるリソースを提供し、社会の最も繊細な決定を責任を持って扱えるAIシステムの開発を促進することを目指しています。
本論文では、CLEF 2025 CheckThat! Labのタスク3における我々のシステムを紹介する。このタスクは、検索された証拠を用いて数値的および時間的主張を検証することに焦点を当てている。我々は、命令チューニングされた大規模言語モデル(LLM)を用いたゼロショットプロンプティングと、パラメータ効率の良いLoRAを用いた教師ありファインチューニングという2つの補完的なアプローチを探求する。証拠の品質を向上させるため、全文入力やBM25およびMiniLMを用いたトップk文フィルタリングなど、いくつかの選択戦略を調査する。LoRAでファインチューニングしたLLaMAモデルは、英語の検証セットで高い性能を達成した。しかし、テストセットでの顕著な性能低下は、一般化の課題を浮き彫りにしている。これらの結果は、堅牢な数値的事実検証のための証拠の粒度とモデルの適応の重要性を強調するものである。
ドメイン固有の埋め込みモデルは、コーディングエージェントや金融検索システムなど、専門的な意味理解を必要とするアプリケーションにおいて有望な成果を示しており、一般的なモデルよりも高い性能向上を達成することが多い。しかし、最先端の埋め込みモデルは通常、数十億のパラメータを持つ大規模言語モデル(LLM)に基づいており、リソースが制約された環境での展開が困難である。プルーニングによるモデル圧縮は有望な解決策であるが、既存のプルーニング手法はすべてのパラメータを均一に扱い、一般的な意味表現とドメイン固有のパターンを区別できないため、最適でないプルーニング決定につながる。そこで我々は、ドメインの重要性と一般的な言語基盤の保持を考慮することでこの課題に取り組むプルーニングフレームワーク、GAPruneを提案する。本手法では、フィッシャー情報量を用いて重要性を測定し、一般ドメインの勾配アライメントを用いてパラメータの振る舞いを評価し、これらの信号をドメインアライメント重要性(DAI)スコアリングを用いて組み合わせる。低いDAIスコアは、そのパラメータがドメインタスクにおいて重要でないか、ドメインと一般的な目的の間に矛盾を生じさせることを示す。FinMTEBとChemTEBという2つのドメインベンチマークでの実験では、GAPruneが50%のスパース性でのワンショットプルーニングにおいて、密なモデルの性能を2.5%以内に維持し、すべてのベースラインを上回ることを示した。100ステップの再学習では、GAPruneはFinMTEBで+4.51%、ChemTEBで+1.73%の改善を達成し、我々のプルーニング戦略がドメイン固有の能力を保持するだけでなく強化することを実証した。我々の研究結果は、原理に基づいたプルーニング戦略がモデル圧縮とドメイン特化の強化を実現できることを示しており、研究コミュニティに新たな開発アプローチを提供するものである。
大規模言語モデル(LLM)が外部ツールとの相互作用を増すにつれ、ツール使用のための報酬モデリングは重要でありながら未開拓の領域となっています。既存の報酬モデルは、主に自然言語出力に基づいて訓練されており、ツールベースの推論と実行を評価するのに苦労しています。このギャップを定量化するため、我々はFC-RewardBenchを導入しました。これは、ツール呼び出しシナリオにおける報酬モデルの性能を体系的に評価する初のベンチマークです。我々の分析によると、現在の報酬モデルは効果的なツール使用の重要な信号を見逃すことが多く、ドメイン固有のモデリングの必要性が浮き彫りになっています。これを解決するため、我々は許可されたオープンウェイトLLMから合成されたデータを使用して、結果ベースの報酬モデルを訓練するフレームワークを提案します。1.7Bから14Bパラメータまでのモデルを訓練し、7つのドメイン外ベンチマークで評価しました。これらのモデルは、汎用ベースラインを一貫して上回り、下流タスクの性能で最大25%の平均改善を達成し、報酬ガイド付きフィルタリングを通じてデータ効率の良いファインチューニングを可能にしました。
大規模言語モデル(LLM)は、感情的知性(EI)および長文脈理解において著しい進歩を遂げている。しかし、既存のベンチマークは、特に現実的で実用的な設定において、相互作用が長く、多様で、しばしばノイズを含む長文脈シナリオにおけるEIの特定の側面を見落としがちである。このような現実的な設定に向けて、我々は長文脈EIタスクに特化したベンチマークであるLongEmotionを提案する。これには、感情分類、感情検出、感情QA、感情会話、感情要約、感情表現など、多様なタスクが含まれる。これらのタスクの平均入力長は8,777トークンに達し、感情表現では長文生成が要求される。現実的な制約下での性能向上を図るため、我々はRetrieval-Augmented Generation(RAG)およびCollaborative Emotional Modeling(CoEM)を組み込み、これらを標準的なプロンプトベースの手法と比較する。従来のアプローチとは異なり、我々のRAG手法は、会話文脈と大規模言語モデル自体を検索ソースとして活用し、外部知識ベースへの依存を回避する。CoEM手法は、タスクを5段階に分解し、検索拡張と限定的な知識注入を統合することで、さらに性能を向上させる。実験結果は、RAGとCoEMがほとんどの長文脈タスクにおいてEI関連の性能を一貫して向上させ、LLMをより実用的で現実世界のEIアプリケーションに近づけることを示している。さらに、我々はGPTシリーズにおける比較事例研究実験を行い、様々なモデル間のEIに関する差異を明らかにした。コードはGitHub(https://github.com/LongEmotion/LongEmotion)で公開されており、プロジェクトページはhttps://longemotion.github.io/で確認できる。