翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の教師ありファインチューニング(SFT)に対し、理論的動機付けに基づいたシンプルかつ効果的な改善手法を提案します。本手法は、強化学習(RL)と比較した際のSFTの限定的な汎化性能を改善することを目的としています。数学的分析を通じて、標準的なSFTの勾配が問題のある報酬構造を暗黙的にエンコードしており、これがモデルの汎化能力を著しく制限していることを明らかにしました。この問題を解決するため、動的ファインチューニング(DFT)を提案します。DFTでは、各トークンの確率に基づいて目的関数を動的に再スケーリングすることで、勾配更新を安定化します。驚くべきことに、この単一行のコード変更により、複数の挑戦的なベンチマークとベースモデルにおいて標準的なSFTを大幅に上回る性能を示し、汎化性能が大きく向上することが実証されました。さらに、本手法はオフラインRL設定においても競争力のある結果を示し、効果的かつシンプルな代替手段を提供します。本研究は、理論的洞察と実践的解決策を橋渡しし、SFTの性能を大幅に向上させます。コードはhttps://github.com/yongliang-wu/DFTで公開予定です。
自己進化型大規模言語モデル(LLM)は、自らの経験を自律的に生成、洗練し、学習することで、超知能へのスケーラブルな道を提供します。しかし、そのようなモデルを訓練する既存の手法は、依然として人間が手作業で作成した膨大なタスクとラベルに大きく依存しており、典型的にはファインチューニングや強化学習を介して行われます。これは、人間の知能を超えた能力を持つAIシステムを進化させる上で根本的なボトルネックとなっています。この制限を克服するため、我々はR-Zeroを導入します。R-Zeroは、完全に自律的なフレームワークであり、ゼロから自らの訓練データを生成します。単一のベースLLMから始め、R-Zeroは2つの独立したモデルを異なる役割で初期化します。それらはChallenger(挑戦者)とSolver(解決者)です。これらのモデルは別々に最適化され、相互作用を通じて共進化します。Challengerは、Solverの能力の限界に近いタスクを提案することで報酬を受け取り、SolverはChallengerが提示するますます難易度の高いタスクを解決することで報酬を受け取ります。このプロセスにより、事前に存在するタスクやラベルなしで、ターゲットを絞った自己改善型のカリキュラムが生成されます。実験的に、R-Zeroは異なるバックボーンLLMの推論能力を大幅に向上させることが示されています。例えば、Qwen3-4B-Baseにおいて、数学的推論ベンチマークで+6.49、一般領域の推論ベンチマークで+7.54の向上が見られました。
我々は、ロボット操作のための統一的な世界基盤プラットフォームであるGenie Envisioner (GE)を紹介する。GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワーク内に統合する。その中核となるGE-Baseは、大規模な指示条件付きビデオ拡散モデルであり、現実世界のロボット相互作用の空間的、時間的、意味的ダイナミクスを構造化された潜在空間で捉える。この基盤の上に構築されたGE-Actは、軽量なフローマッチングデコーダを通じて潜在表現を実行可能なアクション軌道にマッピングし、最小限の監督で多様なエンボディメントにわたる正確で汎用的なポリシー推論を可能にする。スケーラブルな評価とトレーニングを支援するため、GE-Simはアクション条件付きニューラルシミュレータとして機能し、閉ループポリシー開発のための高忠実度ロールアウトを生成する。さらに、このプラットフォームは、視覚的忠実度、物理的一貫性、指示-アクションの整合性を測定する標準化されたベンチマークスイートであるEWMBenchを備えている。これらのコンポーネントを統合することで、Genie Envisionerは指示駆動型の汎用エンボディドインテリジェンスのためのスケーラブルで実用的な基盤を確立する。すべてのコード、モデル、ベンチマークは公開される予定である。
視覚言語モデル(VLMs)は強力な知覚能力と印象的な視覚的推論を示すものの、複雑で動的な環境における細部への注意と正確な行動計画に苦戦し、性能が低いことが多い。現実世界のタスクは通常、複雑な相互作用、高度な空間推論、長期的な計画、そして継続的な戦略の洗練を必要とし、対象シナリオの物理法則を理解することが求められる。しかし、これらの能力を現実世界のシナリオで評価することはしばしば非常に高コストである。このギャップを埋めるため、我々はDeepPHYを導入する。これは、一連の挑戦的なシミュレーション環境を通じて、VLMsの基本的な物理原則の理解と推論を体系的に評価するための新しいベンチマークフレームワークである。DeepPHYは、難易度の異なる複数の物理推論環境を統合し、細かい評価指標を組み込んでいる。我々の評価では、最先端のVLMsでさえ、記述的な物理的知識を正確で予測可能な制御に変換することに苦戦していることが明らかとなった。
3Dコンテンツ生成の急速な進展にもかかわらず、生成された3Dアセットの品質評価は依然として課題となっています。既存の手法は主に画像ベースのメトリクスに依存し、オブジェクトレベルでのみ動作するため、空間的一貫性、素材の信憑性、高精細な局所的な詳細を捉える能力が制限されています。1) これらの課題に対処するため、我々は3D生成コンテンツに特化した階層的評価フレームワークであるHi3DEvalを提案します。これはオブジェクトレベルとパートレベルの評価を組み合わせ、多次元にわたる包括的な評価と細粒度の品質分析を可能にします。さらに、テクスチャ評価を美的外観を超えて拡張し、アルベド、彩度、金属性などの属性に焦点を当てて素材のリアリズムを明示的に評価します。2) このフレームワークをサポートするため、我々は多様な3Dアセットと高品質なアノテーションを含む大規模データセットHi3DBenchを構築し、信頼性の高いマルチエージェントアノテーションパイプラインを提供します。さらに、ハイブリッド3D表現に基づく3D対応の自動採点システムを提案します。具体的には、オブジェクトレベルと素材主観評価のためのビデオベース表現を活用して時空間的一貫性のモデリングを強化し、パートレベルの知覚には事前学習済みの3D特徴を採用します。大規模な実験により、我々のアプローチが既存の画像ベースメトリクスを上回り、3D特性のモデリングにおいて優れ、人間の選好との高い一致を示すことが実証されました。これにより、手動評価に代わるスケーラブルな代替手段を提供します。プロジェクトページはhttps://zyh482.github.io/Hi3DEval/で公開されています。
マルチモーダル大規模言語モデル(MLLM)を活用したRetrieval-Augmented Generation(RAG)システムは、複雑な文書理解において大きな可能性を示しているが、その開発は不十分な評価によって深刻な妨げを受けている。現在のベンチマークは、文書RAGシステムの特定の部分に焦点を当てることが多く、不完全な正解データと証拠ラベルを用いた合成データを使用しているため、現実世界のボトルネックや課題を反映できていない。これらの制限を克服するため、我々はDouble-Benchを導入する。これは、文書RAGシステム内の各コンポーネントに対して詳細な評価を可能にする、新たな大規模、多言語、マルチモーダルな評価システムである。Double-Benchは、3,276の文書(72,880ページ)と5,168の単一およびマルチホップクエリを6言語と4種類の文書タイプにわたって含み、潜在的なデータ汚染問題に対する効率的な動的更新サポートを備えている。クエリは徹底的にスキャンされた証拠ページに基づいており、人間の専門家によって検証され、最高の品質と完全性が保証されている。9つの最先端の埋め込みモデル、4つのMLLM、および4つのエンドツーエンド文書RAGフレームワークにわたる包括的な実験を通じて、テキストと視覚的埋め込みモデルの間のギャップが縮まっていることが示され、より強力な文書検索モデルの構築の必要性が強調された。また、現在の文書RAGフレームワーク内に存在する過信のジレンマが明らかになり、証拠のサポートがない場合でも回答を提供する傾向があることが示された。我々の完全にオープンソースのDouble-Benchが、将来の高度な文書RAGシステムの研究に厳密な基盤を提供することを期待している。我々は、タイムリーなコーパスの取得と新たなベンチマークの年次リリースを計画している。
ウェルビーイングは、個人の成長と情報に基づいた人生の意思決定に不可欠な、精神的、身体的、社会的な側面を包含する概念である。大規模言語モデル(LLM)を活用してウェルビーイングを理解しようとする個人が増える中で、重要な課題が浮上している:LLMは、正確であるだけでなく、多様な聴衆に合わせた説明を生成することができるのか?高品質な説明には、事実の正確性と、異なる専門知識を持つユーザーの期待に応える能力の両方が求められる。本研究では、10種類の多様なLLMによって生成された2,194のウェルビーイング概念に関する43,880の説明からなる大規模データセットを構築した。また、原則に基づいたLLM-as-a-judge評価フレームワークを導入し、二重の評価者を用いて説明の品質を評価する。さらに、教師ありファインチューニング(SFT)と直接選好最適化(DPO)を用いてオープンソースのLLMをファインチューニングすることで、生成される説明の品質が大幅に向上することを示す。結果は以下の通りである:(1)提案されたLLM評価者は人間の評価とよく一致する;(2)説明の品質はモデル、聴衆、カテゴリーによって大きく異なる;(3)DPOおよびSFTでファインチューニングされたモデルは、より大規模なモデルを上回り、専門的な説明タスクにおける選好ベースの学習の有効性が示された。
近年、大規模推論モデル(LRMs)は、複雑なタスクを処理する際の優れた性能により、徐々に研究のホットスポットとなっている。その中でも、DeepSeek R1はその卓越した性能とオープンソースの性質から大きな注目を集め、R1スタイルのLRMsの研究を推進している。従来の大規模言語モデル(LLMs)とは異なり、これらのモデルは、長い連鎖思考や強化学習を通じた自己反省などのメカニズムを組み込むことで、推論中の論理的推論および意思決定能力を向上させている。しかし、これらのモデルの広範な応用に伴い、過剰思考の問題が徐々に浮上している。具体的には、回答を生成する際に、これらのモデルはしばしば過度に長い推論連鎖を構築し、冗長または繰り返しのステップが含まれるため、推論効率が低下し、最終的な回答の精度に影響を及ぼす可能性がある。これに対し、モデルの性能や推論能力を損なうことなく推論経路の長さを短縮することを目的とした、様々な効率的推論手法が提案されている。本稿では、効率的推論手法の分野における現在の研究進展を体系的にレビューし、既存の研究を単一モデル最適化とモデル協調の観点から二つの主要な方向に分類する:(1)単一モデルによる効率的推論、これは個々のモデルの推論効率を向上させることに焦点を当てる;(2)モデル協調による効率的推論、これは複数のモデル間の協調を通じて推論経路を最適化することを探求する。さらに、効率的推論手法の最新の進捗を追跡する公開GitHubリポジトリを維持している。
本論文は、音声クローニングと感情制御音声合成を統合した多機能音声合成システムを提案する。本研究の目的は、多様な言語的・感情的文脈において話者同一性を忠実に保持しつつ、高度に表現力豊かで制御可能かつ自然な音声生成を実現するという長年の課題に取り組むことである。我々のアプローチでは、バッチ内コントラスティブ学習を用いた効果的な話者-感情分離メカニズムを導入し、話者同一性と感情スタイルの独立した操作を可能にするとともに、滑らかな感情制御のための回転的感情埋め込み統合手法を提案する。包括的な訓練と評価を支援するため、7つの感情カテゴリーにわたる6名のプロフェッショナル話者による10時間の中国語音声を含む高品質な感情音声データセットCSEMOTIONSを構築した。広範な実験により、我々のシステムMarco-Voiceが客観的および主観的指標の両方において大幅な改善を達成することが示された。包括的な評価と分析の結果、Marco-Voiceは音声の明瞭さと感情の豊かさの点で競争力のある性能を発揮し、表現力豊かなニューラル音声合成の分野における大きな進展を表していることが明らかとなった。
グラフィカルユーザーインターフェース(GUI)を介してコンピュータを操作する自律エージェントは、複雑で長期的なタスクにおいて効率性と信頼性に課題を抱えることが多い。これらのエージェントにプランナーを組み込むことでタスクの分解が改善されるものの、すべてのアクションをGUI操作を通じて実行するという本質的な制約により、脆弱性と非効率性が残る。本研究では、より堅牢で柔軟なパラダイムとして、エージェントがコーディングを強化されたアクションとして利用できるようにする手法を提案する。我々は、GUIベースの制御と直接的なプログラム実行を相乗的に組み合わせた新たなマルチエージェントシステム「CoAct-1」を紹介する。CoAct-1は、従来のGUIオペレーターまたはPythonやBashスクリプトを記述・実行できる専門のプログラマーエージェントにサブタスクを動的に委任するオーケストレーターを備えている。このハイブリッドアプローチにより、ファイル管理やデータ処理などのタスクにおいて非効率なGUIアクションシーケンスを回避しつつ、必要に応じて視覚的なインタラクションを活用することが可能となる。我々は、CoAct-1を挑戦的なOSWorldベンチマークで評価し、60.76%の新たな最先端の成功率を達成し、従来の手法を大幅に上回る結果を示した。さらに、本手法は効率性を劇的に向上させ、タスク完了に必要な平均ステップ数を主要なGUIエージェントの15ステップからわずか10.15ステップに削減した。これらの結果は、コーディングをコアアクションとして統合することが、汎用的なコンピュータ自動化に向けたより強力で効率的かつスケーラブルな道筋を提供することを示している。
大規模マルチモーダルモデル(LMMs)は、複雑なマルチモーダルタスクを卓越した性能で処理する能力を示し、著しい成長を遂げてきた。最近の研究では、大規模言語モデルが欠陥のある入力を受動的に受け入れ、無効なプロンプトに対して無駄な推論を行う傾向があることが指摘されている。しかし、LMMsが能動的に誤った入力を検出し、精査できるかどうかという重要な問題は未だに未解明のままである。このギャップを埋めるため、我々は「入力精査能力評価フレームワーク(ISEval)」を導入し、7つのカテゴリーの欠陥前提と3つの評価指標を包含する。10の先進的なLMMsに対する広範な評価を通じて、重要な知見が得られた。ほとんどのモデルは、ガイダンスなしで欠陥のあるテキスト前提を能動的に検出するのに苦労しており、前提エラーの識別において明示的なプロンプトへの強い依存が反映されている。エラータイプが性能に影響を与える:モデルは論理的誤謬の識別に優れているが、表面的な言語エラーや特定の条件付き欠陥には苦戦する。モダリティへの信頼度はモデルによって異なり、Gemini 2.5 proとClaude Sonnet 4は視覚情報とテキスト情報のバランスを取るが、aya-vision-8bは衝突時にテキストに過度に依存する。これらの知見は、LMMsの入力有効性に対する能動的な検証能力を強化する緊急性を強調し、この問題を緩和するための新たな洞察を提供する。コードはhttps://github.com/MLGroupJLU/LMM_ISEvalで公開されている。
効果的なカスタマーサポートには、正確な問題解決だけでなく、専門的な基準に沿った構造化された共感的なコミュニケーションが求められます。しかし、既存の対話データセットには戦略的なガイダンスが欠けており、実際のサービスデータへのアクセスや注釈付けは困難です。この問題に対処するため、私たちは「カスタマーサポート会話(CSC)」というタスクを導入し、カスタマーサービス担当者が明確に定義されたサポート戦略を用いて応答するよう訓練することを目指します。COPCガイドラインに基づいた構造化されたCSCフレームワークを提案し、高品質なインタラクションを導くための5つの会話段階と12の戦略を定義します。これに基づいて、LLMを使用して意図的な戦略の使用を反映するよう書き直された1,855件の実際の顧客とエージェントの会話からなる評価データセットCSConvを構築し、それに応じて注釈を付けました。さらに、CSCフレームワークに沿ったLLM駆動の役割を使用して戦略豊富な会話をシミュレートするロールプレイングアプローチを開発し、トレーニングデータセットRoleCSを作成しました。実験では、RoleCSで強力なLLMをファインチューニングすることで、CSConvにおいて高品質で戦略に沿った応答を生成する能力が大幅に向上することが示されました。人間による評価でも、問題解決の向上が確認されています。すべてのコードとデータはhttps://github.com/aliyun/qwen-dianjinで公開されます。
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体にわたって指定されたターゲットオブジェクトをセグメント化することを目的としています。最先端の手法は、DAVISやYouTube-VOSなどの既存のベンチマークで印象的な性能(例:90%以上のJ&F)を達成していますが、これらのデータセットは主に目立つ、支配的で孤立したオブジェクトを含んでおり、現実世界のシナリオへの一般化が制限されています。VOSをより現実的な環境に向けて進化させるために、複雑なシーンでのVOS研究を促進するためにcoMplex video Object SEgmentation(MOSEv1)が導入されました。MOSEv1の強みと限界を基に、現実世界の条件下でVOS手法をさらに進化させるために設計された、はるかに挑戦的なデータセットであるMOSEv2を提示します。MOSEv2は、5,024のビデオと200のカテゴリーにわたる10,074のオブジェクトに対する701,976以上の高品質なマスクで構成されています。前身と比較して、MOSEv2は、より頻繁なオブジェクトの消失と再出現、深刻なオクルージョンや混雑、より小さなオブジェクト、さらには悪天候(例:雨、雪、霧)、低照度シーン(例:夜間、水中)、マルチショットシーケンス、カモフラージュされたオブジェクト、非物理的ターゲット(例:影、反射)、外部知識を必要とするシナリオなど、新たな課題を導入しています。5つの異なる設定で20の代表的なVOS手法をベンチマークし、一貫した性能低下を観察しました。例えば、SAM2はMOSEv1で76.4%からMOSEv2ではわずか50.9%に低下しました。さらに、9つのビデオオブジェクトトラッキング手法を評価し、同様の低下が見られ、MOSEv2がタスク全体にわたって課題を提示していることを示しています。これらの結果は、既存のデータセットでの高い精度にもかかわらず、現在のVOS手法が現実世界の複雑さに対処するのにまだ苦労していることを強調しています。MOSEv2はhttps://MOSE.videoで公開されています。
大規模言語モデル(LLM)は、幅広い複雑なタスクにおいて印象的な推論能力を示しています。しかし、これらの能力をポストトレーニングを通じて強化することは、特にデータと計算コストの面でリソース集約的です。最近の取り組みでは、選択的なデータキュレーションを通じてサンプル効率を向上させようとしていますが、既存の方法はしばしばヒューリスティックまたはタスク固有の戦略に依存しており、スケーラビリティを妨げています。本研究では、InfiAlignを紹介します。これは、教師ありファインチューニング(SFT)と直接選好最適化(DPO)を統合し、LLMの推論能力を向上させるためのスケーラブルでサンプル効率の高いポストトレーニングフレームワークです。InfiAlignの核心は、多次元品質メトリクスを使用してオープンソースの推論データセットから高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインです。このパイプラインにより、データ要件を大幅に削減しながらパフォーマンスを大幅に向上させ、新しいデータソースにも拡張可能です。Qwen2.5-Math-7B-Baseモデルに適用した場合、私たちのSFTモデルは、DeepSeek-R1-Distill-Qwen-7Bと同等のパフォーマンスを達成し、トレーニングデータの約12%しか使用せず、多様な推論タスクにおいて強い汎化能力を示します。DPOを適用することでさらなる改善が得られ、特に数学的推論タスクで顕著な向上が見られます。このモデルは、AIME 24/25ベンチマークで平均3.89%の改善を達成しました。私たちの結果は、原則に基づいたデータ選択と全段階のポストトレーニングを組み合わせることの有効性を強調し、大規模な推論モデルをスケーラブルでデータ効率の高い方法でアライメントするための実用的なソリューションを提供します。モデルのチェックポイントは、https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFTで利用可能です。
リアルな髪の毛のストランド生成は、コンピュータグラフィックスや仮想現実などのアプリケーションにおいて重要である。テキストや画像から髪型を生成する拡散モデルは存在するが、これらの入力は精度とユーザーフレンドリーさに欠けている。代わりに、我々は初めてのスケッチベースのストランド生成モデルを提案し、より細かい制御を提供しながらもユーザーフレンドリーなままである。我々のフレームワークは、複雑なストランド間の相互作用や多様なスケッチパターンのモデリングといった主要な課題に取り組むために、2つの主要なイノベーションを導入している。1つは、3Dストランドをマルチスケールの潜在空間にエンコードする学習可能なストランドアップサンプリング戦略であり、もう1つは、粒度レベル間の一貫性を確保するために拡散ヘッドを備えたトランスフォーマーを使用したマルチスケール適応型条件付けメカニズムである。いくつかのベンチマークデータセットでの実験により、我々の手法が現実感と精度において既存のアプローチを上回ることが示された。定性的な結果もその有効性をさらに裏付けている。コードは[GitHub](https://github.com/fighting-Zhang/StrandDesigner)で公開される予定である。
拡散ベースの画像圧縮は、印象的な知覚性能を実証してきた。しかし、これには2つの重大な欠点がある:(1) 多段階サンプリングによる過剰なデコード遅延、(2) 生成事前分布への過度の依存に起因する忠実度の低さ。これらの問題を解決するため、我々はSODECという新しい単一段階拡散画像圧縮モデルを提案する。画像圧縮において、十分に情報量の多い潜在変数は多段階の精緻化を不要にするという見解に基づき、事前学習済みのVAEベースモデルを活用して情報量の豊富な潜在変数を生成し、反復的なノイズ除去プロセスを単一段階のデコードに置き換える。一方、忠実度を向上させるため、元の画像に忠実な出力を促す忠実度ガイダンスモジュールを導入する。さらに、極低ビットレート下での効果的な学習を可能にするために、レートアニーリングトレーニング戦略を設計する。広範な実験により、SODECが既存の手法を大幅に上回り、優れたレート-歪み-知覚性能を達成することが示された。また、従来の拡散ベース圧縮モデルと比較して、SODECはデコード速度を20倍以上向上させる。コードはhttps://github.com/zhengchen1999/SODECで公開されている。
推論型大規模言語モデル(R-LLMs)は、複雑な推論タスクにおいて大幅な進展を遂げているが、事実性に関しては課題が残り、長文の事実性ベンチマークにおいて非推論型モデルよりもはるかに多くの虚偽生成(ハルシネーション)を引き起こすことが多い。しかし、最近のR-LLMの進展において重要な要素であるオンライン強化学習(RL)を、長文の事実性設定に拡張することは、信頼性のある検証方法の欠如により、いくつかの独自の課題を引き起こす。これまでの研究では、FActScoreなどの自動的な事実性評価フレームワークを利用して、オフラインRL設定における選好データを整備してきたが、そのような方法をオンラインRLの報酬として直接活用すると、詳細性や関連性の低い回答を生成するなど、複数の方法で報酬ハッキングが発生することがわかった。本研究では、事実の精度、回答の詳細レベル、および回答の関連性を同時に考慮する新しい報酬関数を提案し、オンラインRLを適用して高品質な事実推論を学習する。6つの長文事実性ベンチマークで評価した結果、提案した事実推論モデルは、ハルシネーション率を平均23.1ポイント削減し、回答の詳細レベルを23%向上させ、全体的な回答の有用性に劣化が見られないことを実証した。
参照表現セグメンテーション(RES)は、参照表現によって指定された画像領域をセグメント化することを目的としており、マルチモーダル大規模モデル(MLLMs)の台頭とともに注目を集めています。MLLMsは意味理解において優れていますが、そのトークン生成パラダイムはピクセルレベルの密な予測に苦戦しています。既存のRES手法は、632Mのネットワークパラメータを持つパラメータの多いSegment Anything Model(SAM)をMLLMsと組み合わせるか、精度を犠牲にしてSAMを使用しない軽量なパイプラインを採用しています。性能とコストのトレードオフに対処するため、我々は特にMLLMSegという新しいフレームワークを提案します。このフレームワークは、追加の視覚エンコーダを導入せずに、MLLMの視覚エンコーダにエンコードされた視覚的詳細特徴を完全に活用します。さらに、詳細を強化し意味的に一貫した特徴融合モジュール(DSFF)を提案し、MLLMの大規模言語モデル(LLM)によって出力された意味関連特徴と詳細関連視覚特徴を完全に統合します。最後に、わずか34Mのネットワークパラメータを持つ軽量なマスクデコーダを確立し、視覚エンコーダからの詳細な空間特徴とLLMからの意味特徴を最適に活用して、正確なマスク予測を実現します。広範な実験により、我々の手法は一般的にSAMベースおよびSAMフリーの競合手法を上回り、性能とコストのバランスをより良く取ることが示されています。コードはhttps://github.com/jcwang0602/MLLMSegで公開されています。
既存の視覚言語モデル(VLMs)は、汎用型であれ専門型であれ、そのパラメータ規模に制約され、堅牢な自己修正能力を欠き、長い視覚的文脈や複雑な推論を伴うタスクにおいて性能が低く、文書ベースのタスクでは最適な性能を発揮できていない。これを解決するため、我々は視覚的文書理解と視覚的質問応答(VQA)に特化した、テストタイムスケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。MACTは、計画、実行、判断、回答の4つの異なる小規模エージェントで構成され、それぞれの役割が明確に定義され、効果的な協調が行われる。特に、判断エージェントは正確性を検証し、修正のために前段のエージェントにリダイレクトする役割を担い、従来の修正戦略を上回る性能を示す。さらに、フレームワークの能力限界を拡張するために、エージェント固有の能力と全体の協調をバランスする混合報酬モデリング、および各エージェントの機能に基づいて異なるスケーリング戦略をカスタマイズするエージェントごとのハイブリッドテストタイムスケーリングを提案する。文書ベースおよび非文書ベースの設定にわたるベンチマークで評価された結果、我々のMACTは、汎用タスクや数学的タスクの能力を犠牲にすることなく、より小さなパラメータ規模で優れた性能を示した。特に、長い視覚的文脈や複雑な推論を伴うベンチマークにおいて際立った性能を発揮した。MACTの3つのバリエーションは、平均スコアで常に上位3位を維持し、15のベンチマークのうち13で首位を獲得した。コードはhttps://github.com/YU-deep/MACT.gitで公開予定である。
大規模言語モデル(LLMs)の性能は、入力情報の文脈上の位置に著しく敏感である。この位置バイアスの背後にあるメカニズムを調査するため、我々の広範な実験により、「アテンションベイスン(attention basin)」と呼ばれる一貫した現象が明らかになった。構造化された項目(例えば、検索された文書やFew-shotの例)のシーケンスが提示されると、モデルはシーケンスの最初と最後の項目に系統的に高い注意を割り当て、中間の項目を無視する傾向がある。重要なことに、我々の分析はさらに、重要な情報に高い注意を割り当てることがモデルの性能向上の鍵であることを示している。これらの洞察に基づき、我々はAttention-Driven Reranking(AttnRank)という2段階のフレームワークを導入する。このフレームワークは、(i) 小さなキャリブレーションセットを使用してモデルの内在的な位置注意の偏りを推定し、(ii) 検索された文書やFew-shotの例を並べ替えて、最も重要な内容をこれらの高注意位置に合わせるものである。AttnRankは、モデルに依存せず、トレーニング不要で、プラグアンドプレイ方式であり、計算オーバーヘッドが最小限である。マルチホップQAやFew-shotのインコンテキスト学習タスクでの実験により、AttnRankが、モデルのパラメータやトレーニング手順を変更することなく、さまざまなアーキテクチャとスケールの10の大規模言語モデルにおいて大幅な改善を達成することが実証された。
本論文は、大規模言語モデル(LLMs)が言語的シボレス(性別、社会階級、地域的背景などの人口統計的属性を無意識に露呈する微妙な言語的マーカー)にどのように反応するかを評価するための包括的なベンチマークを紹介する。100組の検証済み質問応答ペアを用いた綿密に構築されたインタビューシミュレーションを通じて、LLMsが同等の内容品質にもかかわらず、特にヘッジング言語(hedging language)といった特定の言語パターンを体系的に不利に扱うことを実証する。本ベンチマークは、意味的等価性を維持しつつ特定の現象を分離する制御された言語的バリエーションを生成し、自動評価システムにおける人口統計的バイアスの正確な測定を可能にする。我々は、複数の言語的次元に沿ってアプローチを検証し、ヘッジされた応答が平均して25.6%低い評価を受けることを示し、モデル固有のバイアスを特定するベンチマークの有効性を実証する。本研究は、AIシステムにおける言語的差別を検出し測定するための基礎的枠組みを確立し、自動意思決定の公平性に関する幅広い応用に寄与する。
マルチモーダルエンティティリンキングは、幅広いアプリケーションにおいて重要な役割を果たしている。近年、大規模言語モデルを基盤とした手法がこのタスクにおける主要なパラダイムとなり、テキストと視覚の両モダリティを効果的に活用することで性能を向上させている。しかし、これらの手法は依然として二つの課題に直面しており、特定のシナリオにおける画像データの不必要な取り込みと、視覚的特徴の一度きりの抽出に依存することによる有効性と精度の低下が挙げられる。これらの課題に対処するため、我々はマルチモーダルエンティティリンキングタスクのための新しいLLMベースのフレームワークを提案する。このフレームワークは「Intra- and Inter-modal Collaborative Reflections」と呼ばれ、タスクを解決するためにテキスト情報の活用を優先する。テキストだけではエンティティを正しくリンクできない場合、モダリティ内およびモダリティ間の評価を通じて、画像の様々な側面から得られる重要な視覚的手がかりを統合し、推論を支援しマッチング精度を向上させる多段階反復戦略を採用する。広く使用されている3つの公開データセットを用いた大規模な実験により、我々のフレームワークが現在の最先端手法を一貫して上回り、それぞれ3.2%、5.1%、1.6%の改善を達成することが示された。コードはhttps://github.com/ziyan-xiaoyu/I2CR/で公開されている。
アライメントと均一性は、コントラスティブラーニングの領域における基本的な原則です。レコメンダーシステムにおいて、これまでの研究では、ベイズ的パーソナライズドランキング(BPR)損失を最適化することが、アライメントと均一性の目的に寄与することが示されています。具体的には、アライメントは相互作用するユーザーとアイテムの表現を近づけることを目指し、均一性はユーザーとアイテムの埋め込みが単位超球面上で均一に分布することを要求します。本研究では、マルチモーダルレコメンダーシステムの文脈において、アライメントと均一性の特性を再検討し、既存のモデルが均一性を優先し、アライメントを損なう傾向があることを明らかにしました。私たちの仮説は、均一性損失を通じてアイテムを均等に扱うという従来の前提に挑戦し、類似したマルチモーダル属性を持つアイテムが超球面多様体内で近接した表現に収束する、より微妙なアプローチを提案します。具体的には、アイテムのマルチモーダルデータ間の固有の類似性を活用して、均一性分布を調整し、埋め込み空間内で異なるエンティティ間により顕著な反発力を誘導します。理論分析により、この調整された均一性損失と従来の均一性関数との関係が明らかにされます。さらに、マルチモーダル特徴の融合を強化するために、任意の数のモダリティを統合し、結果として得られる融合特徴が同じ超球面多様体に制約されるように設計された球面ベジェ法を導入します。5つの実世界のデータセットで実施された実証評価により、私たちのアプローチが競合するベースラインを上回ることを裏付けています。また、提案された方法がMLLM抽出特徴を統合することで、NDCG@20性能において最大5.4%の向上を達成できることも示しました。ソースコードは以下で利用可能です: https://github.com/enoche/CM3.
非構造化テキストから個人識別情報(PII)を編集することは、規制された領域におけるデータプライバシーを確保する上で重要である。従来のアプローチでは、ルールベースのシステムやドメイン固有の固有表現認識(NER)モデルに依存してきたが、これらの手法は形式や文脈を超えて一般化することができない。近年の大規模言語モデル(LLM)の進展は有望な代替手段を提供するが、アーキテクチャやトレーニングの選択が編集性能に与える影響はまだ十分に検討されていない。LLMは、自由形式のテキストにおけるPIIの編集を含む、文脈的な言語理解を必要とするタスクで高い性能を発揮している。先行研究によれば、適切な適応を行うことで、LLMは効果的な文脈的プライバシー学習者となり得る。しかし、PII編集におけるアーキテクチャとトレーニングの選択の影響はまだ十分に検討されていない。本研究では、プライバシー保護型PII編集システムとしてのLLMの包括的な分析を提示する。我々は、PII編集における有効性を評価するために、さまざまなLLMアーキテクチャとトレーニング戦略を検討する。分析では、編集性能、意味の保存、PII漏洩を測定し、これらの結果をレイテンシと計算コストと比較する。結果は、正確で効率的かつプライバシーを意識したLLMベースの編集システムを構成するための実践的な指針を提供する。再現性と実世界での展開を支援するため、我々はPRvLを公開する。PRvLは、オープンソースのLLMに基づいて構築された、汎用PII編集のためのファインチューニング済みモデルと評価ツールのスイートである。PRvLは、柔軟性とコンプライアンスを確保するために複数の推論設定をサポートし、異なるドメインに容易にカスタマイズ可能で、安全な自己管理環境内で完全に運用可能なように設計されている。これにより、データ所有者は、サードパーティサービスに依存することなく、または自社のインフラストラクチャを超えて機密コンテンツを公開することなく、編集を実行することが可能となる。
同時音声翻訳(SimulST)システムは、音声をストリーミングしながら同時に翻訳されたテキストまたは音声を出力する。このようなシステムは、翻訳品質と遅延のバランスを取るという重要な課題に直面している。本論文では、このトレードオフを最適化するための戦略を提案する:情報を得られる場合にのみ、より多くの入力を待つ。この戦略に基づき、既存の非ストリーミング翻訳モデルを使用して適応ポリシーを訓練するための新しい損失関数であるRegularized Entropy INformation Adaptation(REINA)を提示する。REINAは情報理論の原則から導出され、REINAが報告された遅延/品質のトレードオフのパレートフロンティアを従来の研究よりも押し上げることを示す。REINAを活用し、フランス語、スペイン語、ドイツ語の英語との双方向のSimulSTモデルを訓練する。オープンソースまたは合成生成データのみを使用して訓練し、同等のサイズのモデルにおいて最先端(SOTA)のストリーミング結果を達成する。また、ストリーミング効率のための指標を導入し、REINAが従来のアプローチと比較して遅延/品質のトレードオフを最大21%改善することを定量的に示す。これは非ストリーミングベースラインのBLEUスコアに対して正規化されたものである。
推論モデルの出現とそれらを実用的なAIチャットボットに統合することにより、複雑で多段階の思考プロセスを必要とする高度な数学、深層検索、および抽出型質問応答問題の解決において画期的な進展がもたらされた。しかし、これらのモデルが汎用言語モデルよりも頻繁に幻覚を起こす理由についての完全な理解はまだ得られていない。本調査研究では、現代の言語モデルがマルチホップ質問応答タスクにおいて示す推論の失敗を体系的に探求する。我々は、3つの重要な次元にわたる失敗を検証する新規で微妙な誤り分類フレームワークを導入する。それらは、関連するソースドキュメントの多様性と独自性(「ホップ」)、関連情報の捕捉の完全性(「カバレッジ」)、および認知的非効率性(「過剰思考」)である。厳密な人間による注釈と補完的な自動化された指標を活用した探求を通じて、精度中心の評価ではしばしば見落とされる複雑な誤りパターンを明らかにする。この調査アプローチは、現在のモデルの認知的限界についての深い洞察を提供し、将来の言語モデリングの取り組みにおいて推論の忠実性、透明性、および堅牢性を向上させるための実践的な指針を提示する。
ロバスト主成分分析(RPCA)は、観測行列を低ランクの背景成分とスパースな対象成分に分解する手法である。この能力により、画像修復からセグメンテーションに至る多様なタスクへの応用が可能となっている。しかし、従来のRPCAモデルは、行列演算に起因する計算負荷、微調整されたハイパーパラメータへの依存、動的なシナリオにおける適応性を制限する厳密な事前情報といった課題を抱えている。これらの制約を解決するため、本研究ではRPCAの解釈可能性と効率的な深層アーキテクチャを融合したスパース対象セグメンテーションフレームワークであるRPCANet++を提案する。我々のアプローチは、緩和されたRPCAモデルを、背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像修復モジュール(IRM)から構成される構造化ネットワークに展開する。BAMにおける段階間伝達損失を軽減するため、背景特徴の保存を強化するメモリ拡張モジュール(MAM)を導入し、一方で深層コントラスト事前モジュール(DCPM)は顕著性の手がかりを活用して対象抽出を加速する。多様なデータセットを用いた広範な実験により、RPCANet++が様々な画像シナリオにおいて最先端の性能を達成することが示された。さらに、視覚的および数値的な低ランク性とスパース性の測定を通じて解釈可能性を向上させた。RPCAの理論的強みと深層ネットワークの効率性を組み合わせることで、我々のアプローチは信頼性と解釈可能性を兼ね備えたスパース対象セグメンテーションの新たな基準を確立する。コードはプロジェクトウェブページ(https://fengyiwu98.github.io/rpcanetx)で公開されている。
マルチモーダル言語モデル(MLM)は、臨床意思決定支援や診断推論において有望であり、エンドツーエンドの自動医療画像解釈の可能性を示しています。しかし、臨床医はAIツールの採用に非常に慎重であり、画像の向きを判断するやCTスキャンが造影剤を使用しているかどうかを識別するといった一見単純な知覚タスクで誤りを犯すモデルは、臨床タスクに採用される可能性が低いです。本研究では、こうした知覚能力を探るためのベンチマーク「Medblink」を紹介します。Medblinkは、複数の画像モダリティと解剖学的領域にわたる8つの臨床的に意味のあるタスクをカバーし、1,605枚の画像に対して1,429の多肢選択問題を提供します。我々は、汎用モデル(GPT4o、Claude 3.5 Sonnet)やドメイン特化モデル(Med Flamingo、LLaVA Med、RadFM)を含む19の最先端MLMを評価しました。人間のアノテーターは96.4%の精度を達成する一方で、最高性能のモデルはわずか65%に留まりました。これらの結果は、現在のMLMが日常的な知覚チェックに頻繁に失敗することを示しており、臨床採用を支援するために視覚的基盤を強化する必要性を示唆しています。データはプロジェクトページで公開されています。