翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLM)は、視覚理解タスクにおいて顕著な進歩を遂げている。しかし、既存のMLLMのほとんどは自己回帰生成に依存しており、複数の領域のキャプション生成を必要とする知覚タスクにおいて効率面で制約がある。本研究では、効率的な並列領域認識に最適化されたマルチモーダル拡散言語モデル「PerceptionDLM」を提案する。我々のアーキテクチャは、オープンソースの拡散MLLMの中で最先端の性能を達成した強力な基盤モデル「PerceptionDLM-Base」を基盤とし、拡散言語モデル(DLM)の並列復号特性を最大限に活用する。具体的には、効率的なプロンプティングと構造化アテンションマスキングを導入することで、マスクされた複数領域の同時認識を可能にし、シーケンスレベルおよびトークンレベルの両方で領域記述を並列生成する。この設計により、領域を逐次的に処理する既存手法と比較して推論効率が大幅に向上する。DLMの視覚認識能力における並列性を体系的に評価するため、DLC-Benchを拡張し、画像ごとに複数の領域マスクを含む新たなベンチマーク「ParaDLC-Bench」(Parallel Detailed Localized Captioning Benchmark)を構築した。これにより、キャプション品質と推論効率の両方を同時に評価可能となる。実験結果は、PerceptionDLMが領域キャプションにおいて競争力のある性能を維持しつつ、複数領域認識タスクで大幅な速度向上を達成することを示している。本研究の成果は、効率的で並列な視覚認識におけるマルチモーダル拡散言語モデルの可能性を強調するものである。我々の知る限り、拡散言語モデルの利点を活用して並列領域キャプションと認識を実現したのは本研究が初めてである。コード、モデル、データセットは公開されている。
パーソナライズされたプレゼンテーション生成には、現在のプロンプトやテンプレートに条件付けするだけでは不十分である。エージェントは、タスク間で安定したユーザーの好みを保持し、マルチターンの改訂中に新たに導入された好みや制約を保持し、信頼性の高いローカル編集を実行する必要がある。我々はMemSlidesを提案する。これはパーソナライズされたプレゼンテーションエージェントのための階層型メモリフレームワークであり、長期記憶を作業記憶から分離し、さらに長期記憶をユーザープロファイル記憶とツール記憶に分割する。ユーザープロファイル記憶は、ラウンド0のパーソナライゼーションのための意図条件付きプロファイルを保存し、作業記憶は改訂ラウンド間でアクティブな好みとセッション制約を保持し、ツール記憶は信頼性の高いローカライズされた編集のための再利用可能な実行経験を保存する。MemSlidesはこのメモリ設計とスコープ付きスライドローカル改訂を組み合わせており、ターゲットを絞った更新が影響を受ける最小領域に作用し、デッキ全体を繰り返し再生成することを回避する。制御された実験では、ユーザープロファイル記憶はマルチペルソナ・マルチインテントのプロファイルバンクにおけるペルソナ適合性判断を改善し、ツール記憶注入は診断的マッチドペア設定におけるクローズドループ修正行動を改善し、定性的な事例は作業記憶が好みを引き継ぐ能力を示している。これらの結果を総合すると、プレゼンテーション作成における効果的なパーソナライゼーションは、永続的なユーザープロファイル、セッションレベルの作業記憶、そして生成とローカライズされた改訂にわたる再利用可能な実行経験を分離することに依存することが示唆される。
LLMエージェント向けのメモリベンチマークは、ほとんどが単一ユーザー設定を前提としており、病院、職場、キャンパス、家庭向けの共有アシスタントは研究が不十分なままである。これらの展開では、複数の主体が共通のメモリプールに書き込み、異なる役割、範囲、関係性に基づいてクエリを実行するため、メモリの品質には想起だけでなくガバナンスも必要となる。我々は、複数主体共有メモリエージェントのためのベンチマークであるGateMemを紹介する。GateMemは、状態更新を伴う正当な長期リクエストに対する有用性、コンテキスト上の認可境界を越えたアクセス制御、明示的な削除リクエスト後のエージェント向け能動的忘却を同時に評価する。これは医療、オフィス、教育、家庭の各ドメインを網羅し、長文形式のマルチパーティエピソード、段階的なメモリ注入、隠されたチェックポイント、構造化された判定、リークターゲットアノテーションを備えている。多様なベースラインおよびバックボーンモデルにおいて、強力な有用性、ロバストなアクセス制御、信頼性の高い忘却を同時に達成する手法は存在しない。長文脈プロンプティングは高いトークンコストで最高のガバナンススコアをもたらすことが多いが、検索ベースおよび外部メモリ手法はコストを削減するものの、依然として不正アクセスや削除された情報を漏洩する。これらの結果は、現在のメモリエージェントが信頼性の高い共有機関展開には程遠いことを示している。
自己回帰(AR)モデルにおける推論は、しばしば連鎖思考推論やリフレクションによって実行されるが、以前の出力の改良は、局所的な編集のみが必要な場合でも、依然として完全な逐次生成に依存している。対照的に、マスク拡散モデル(MDM)におけるマスキング機構は、以前の出力に対する明示的な局所編集を自然にサポートし、以前の回答を破棄して最初から別の回答を生成することなく、選択的な改良を可能にする。この特性は、人間が反復的な局所改良によって誤りを修正する方法とより密接に一致するが、既存のMDMはマルチターンのマスキングとノイズ除去をサポートしていない。我々は、軽量なポストトレーニングを介してMDMにそのような内在的な推論能力を引き出すリフレクティブ・マスキング(RM)を提案する。RMは、MDMが進化するコンテキストに基づいて以前の出力を反復的に再訪・修正する、ネイティブなテスト時スケーリングを提供する。AR推論のように前回のターンからの洞察を活用するために、さらに履歴参照(History Reference)を導入する。これは、修正中の中間ノイズ除去状態を活用するパラメータフリーの機構である。我々のアプローチはアーキテクチャ変更を必要とせず、既存のMDMに容易に適用可能である。テキスト生成、数独、画像編集を含む多様なタスクとモダリティにおいて、リフレクティブ・マスキングは標準的なマスキングベースのベースラインを一貫して上回り、強い汎用性を示す。これにより、RMはMDMにおける推論のための基本的なプリミティブとして位置づけられる。
検索拡張生成(RAG)システムは、文書の分割方法と検索方法に決定的に依存している。細粒度のチャンクは検索精度を向上させる一方、探索空間が拡大しレイテンシとコストが増大する。大きなチャンクは候補数を減らすが、各チャンクに複数のトピックが混在し、より多くのセマンティックノイズが生じるため、密な類似度の信頼性が低下する。このトレードオフは、大規模で異種なコーパスに対して高速かつ高精度な検索が求められる深層研究タスクにおいて、特に大きな制約となる。本稿では、関連エビデンスを選択するためのセマンティックコンパスとしてトピックレベルの信号を利用する、メタデータ誘導型検索フレームワークMCompassRAGを提案する。MCompassRAGは、クエリとノイズの多いチャンク埋め込み間のコサイン類似度のみに依存するのではなく、同一埋め込み空間内でチャンク表現をトピックメタデータで強化し、LLM教師蒸留を通じて軽量な検索器を訓練する。推論時には、追加のLLM呼び出しを必要とせずにトピック認識検索を実行し、効率とエビデンス品質の両方を向上させる。6つの複雑な検索ベンチマークにおいて、MCompassRAGは、最も強力な効率的RAGベースラインと比較して、平均8.24%の情報効率(IE)の向上を達成し、レイテンシは5分の1以下である。コードはhttps://github.com/AmirAbaskohi/MCompassRAGで公開されている。
検索拡張生成(RAG)システムは、検索の粒度と文脈の一貫性のバランスを取る必要がある。既存手法では、LLMによるチャンク分割、単一レベルの文脈拡張、または階層的要約によってこの課題に対処している。これらのアプローチは、インデックス作成や検索時に高コストなLLM呼び出しに依存したり、文脈集約を単一の粒度レベルに制限したり、要約による情報損失を引き起こしたりする。本稿では、SproutRAGを提案する。これは注意誘導型の階層的RAGフレームワークであり、学習された文間注意を用いて二分木状のチャンク木を構築し、文レベルのチャンクを次第に大きくなるが意味的に一貫した単位に整理することで、このトレードオフに対処する。外部LLMや固定文脈拡張、損失を伴う要約に依存する従来手法とは異なり、SproutRAGはどの注意ヘッドと層が文書の意味構造を最もよく捉えるかを学習し、追加のLLM呼び出しや圧縮された要約なしに多粒度検索を可能にする。検索時には、SproutRAGは階層的ビームサーチを使用して複数の粒度で候補を取得し、フラットな検索を超えた複数文の関連性を捉える。フレームワークは、埋め込みと木構造の両方を改善する共同目的関数によってエンドツーエンドで学習される。科学、法律、オープンドメイン設定にわたる4つのベンチマークでの実験により、SproutRAGは最強のベースラインと比較して情報効率(IE)を平均6.1%向上させることが示された。コードはhttps://github.com/AmirAbaskohi/SproutRAGで入手可能である。
三次元脳MRIは臨床神経学および神経腫瘍学において中心的な役割を果たしており、生成的モデルは過少代表集団の補強、疾患軌跡のシミュレーション、プライバシー保護データ共有の支援に活用できる。画像データのモデリングには潜在拡散が標準的な手法となっているが、これはトークナイザに対して相反する二つの要件を課す。すなわち、エンコーダの埋め込みは下流タスクが作用する臨床情報を保持しなければならず、かつデコーダは解剖学的に忠実なボリュームを再構成できなければならない。既存の再構成駆動型トークナイザは、後者を達成する代わりに前者を犠牲にしている。この課題に対処するため、我々は三次元脳MRI潜在拡散のための完全ボリューム型マスクオートエンコーダ(MAE)ベースのトークナイザを導入し、エンコーダとデコーダを分離する。すなわち、凍結された三次元MAEエンコーダは臨床的に有益な埋め込みを生成し、専用のCNNデコーダがそれらの埋め込みの線形射影からボクセルを再構成する。我々は18の公開コホート(4モダリティ、10疾患カテゴリ、200以上の取得施設にわたる35,309ボリューム)でエンコーダを事前学習し、二つの設定でその二重の有用性を実証する。第一に、23タスクの線形プロービングベンチマークにおいて、エンコーダは23タスク中21タスクで最先端モデル(BrainIAC、BrainSegFounder、MedicalNet)を上回るか同等の性能を示す。第二に、これらの臨床的に有益な埋め込みで学習された条件付き拡散トランスフォーマ(DiT)は、6変数にわたる条件付き生成と患者特異的な縦断的予測の両方を支援する。これらの結果は、下流の臨床タスクと制御可能な生成の両方を可能にする単一の三次元脳MRI埋め込み空間を確立するものである。
汎用視覚言語行動システムには、信頼性の高いロボット軌道を計画するために、オブジェクト中心の3Dエビデンスと再利用可能な操作経験が必要です。GeneralVLAは、言語入力とRGB-D観測を3Dエンドエフェクタ経路に変換する階層的インターフェースを提供しますが、2つのボトルネックが残っています。第一に、単眼SAM3Dスタイルのオブジェクト再構成は、姿勢や未観測の形状を幻覚することがあり、一方で操作は、校正済み多視点観測が利用可能な場合、安定したオブジェクト形状から恩恵を受けます。第二に、元のKnowledgeBankは主に意味的に類似したスニペットを検索し、新しい知識を追加するため、メモリの品質、競合、信頼性、幾何学的関連性を制御することが困難です。最初の課題に対処するため、我々はGeoFuse-MV3Dを導入します。これは、幾何学事前情報に基づくMV-SAM3D再構成ブランチであり、入力ビューマスクで外部幾何学的手がかりを検証し、ソフトビジュアルハルサポートを適用し、軸方向の洗練化を行い、外観を保持しながら幾何学のみを融合します。2つ目の課題に対処するため、我々はKnowledgeBankを、明示的な品質、信頼性、ライフサイクル、検証器、競合メタデータと、精度指向の検索を備えた、管理された長期記憶システムへとアップグレードします。最後に、GSO-30で再構成ブランチを、Terminal-Bench 2.0とSWE-Bench Verifiedでメモリモジュールを評価しました。GeoFuse-MV3Dは、MV-SAM3Dベースラインと比較して、CDとLPIPSをそれぞれ2.20%と2.02%削減し、PSNRとSSIMをそれぞれ2.36%と1.03%向上させました。また、KnowledgeBankは、Terminal-Bench SRで4.53%、SWE-Bench解決率で3.73%の改善をReasoningBankに対して達成し、ASをそれぞれ4.95%と5.65%削減しました。コード: https://github.com/AIGeeksGroup/GeneralVLA-2。ウェブサイト: https://aigeeksgroup.github.io/GeneralVLA-2。
実際の家庭で長期間にわたって人間を支援するためには、身体化エージェントはユーザーのルーティン、世界の状態、過去のインタラクションを記憶する必要がある。既存の長期記憶ベンチマークは主に言語中心の検索と質問応答を評価する一方、身体化ベンチマークはしばしば短期間のタスク実行に焦点を当てており、動的環境における長期記憶の使用をテストしていない。我々はWorldLinesを導入する。これは長期的な身体化家庭支援のためのプロジェクト駆動型ベンチマークである。それは、対話、行動、実行フィードバック、物体およびデバイスの状態変化を含む時間的に拡張された家庭のトレースを構築し、それらをMemory QAおよび身体化タスク計画のための証拠リンクされたサンプルに変換する。さらに我々はObsMemを提案する。これは、状態認識の意思決定のために可視性を考慮した記憶と行動本来の状態トレイルを維持する観察者基盤の記憶フレームワークである。実験により、部分的可観測性、上書きされた世界状態、長期記憶の身体化計画への変換における持続的な課題が明らかになり、一方でObsMemはこの設定におけるより強力な参照アーキテクチャを提供する。
高品質な4Dヘッドアバターは、遠隔プレゼンス、AR/VR、デジタルヒューマンインタラクションにおいて中心的役割を果たす。3D Gaussian Splatting(3DGS)は主要な表現手法として台頭し、汎用的なフィードフォワード予測器と被写体ごとのリファイナーという二つの相補的な手法が並行して成熟している。しかし、既存のフィードフォワード予測器は単一のデータセットファミリーで訓練され、ソース数がハードコードされているため、対応するドメインバイアスを継承している。被写体ごとのリファイナーは30万~60万回のイテレーションを必要とし、適応的デンシフィケーションに依存しているため上流のガウシアンレイアウトを破壊し、両手法がエンドツーエンドで表現を共有することを妨げている。この両手法を橋渡しするため、本稿では共有FLAMEメッシュ結合ガウシアン表現に基づくSpatialAvatar-0を提案する。これは、パラメータフリーのKソース平均プーリングを備えたフィードフォワード生成器と、単眼時間→多視点空間の二相スケジュールにより、アイデンティティ事前分布が小さな多視点セットに崩壊するのを防ぐものである。さらに、FLAME結合とガウシアン数を固定し、デンシフィケーションを三成分アンチスパイク正則化で置き換えた、レイアウト保存型の被写体ごとのリファイナーループ(10Kイテレーション)を導入する。VFHQ/HDTFのクロスドメインゼロショットにおいて、いずれのテストドメインでも訓練していないにもかかわらず、ドメイン内リーダーであるGAGAvatarをPSNRで+1.5 dB上回った。また、SplattingAvatar単眼ベンチマークでは報告されているすべての指標でリードし、30万イテレーションのGeoAvatarをPSNRで+1.3 dB上回り、一般的なSOTAベースラインと比較して被写体ごとのスケジュールを最大60倍短縮した。ウェブサイト: https://spatialwalk.github.io/SpatialAvatar-0。
ウェブ規模のLLM事前学習コーパスの物語構成は、物語が人間のコミュニケーションの基本的な様式であるにもかかわらず、ほとんど調査されていない。本稿では、3兆トークンからなるオープン事前学習コーパスDolmaにおける物語的特徴の初めての細粒度研究を提示する。物語理論に基づき、3つの核となる物語要素(行為主体性、場面設定、出来事)を11の解釈可能な次元として具体化したフレームワークを設計する。多様な400のパッセージをサンプリングしアノテーションした後、細粒度の物語予測のためのRoBERTaベースモデルであるNarraBERTをファインチューニングし検証する。NarraBERTを300万のパッセージに適用し、新たなデータセットNarraDolmaを構築する。その結果、以下の知見を得た。(i) 極めて異質なデータ全体において、物語構造は大規模に測定可能である。(ii) ウェブテキストの背後には連続的かつ多次元的な物語構造が存在する。(iii) 物語の質は、事前学習ソースやトピック間で不均等に分布しており、現在のキュレーション手法ではこれを測定も考慮もしていない。本フレームワーク、データセット、および分析は、LLM事前学習データにおける物語の質の分布を理解し、データ構成が物語推論タスクに与える影響を研究するための基盤を提供する。NarraDolmaとNarraBERTは公開する。
マルチモーダル大規模言語モデル(MLLM)は、個人や社会に重大な影響を与える状況での利用が増加しているが、これらのモデルが人々をどのように判断するかを形成する視覚的手がかりについては、いまだ十分に理解されていない。従来の研究では、異なる(集団の)個人を比較することが多く、外見の影響と個人差を分離することが困難であった。本研究では、MLLMにおける属性レベルの社会的バイアスを評価するための制御されたベンチマークであるStylisticBiasを導入する。500枚のフォトリアリスティックな基本顔を生成し、各顔に対して約50の単一属性バリエーションを作成し、合計約25,000枚の画像を用意した。この設計により、同一人物の身元を固定し、一度に一つの視覚的属性のみを変化させることで、特定の手がかりがモデルの判断をどのように変えるかを測定できる。6つのMLLMを対象に、25の二値社会的判断シナリオで評価を行った。その結果、年齢と体型が個人レベルの効果において支配的である一方、ファッションスタイルやその他の視覚的手がかりが最大の属性レベルの変動を引き起こすことが明らかになった。さらに、約15の属性が全変動の約80%を占めており、バイアスが少数の視覚的手がかりに集中していることが示された。感度が最も高いのは、外見と意味的に整合した判断、特に社会経済的およびスタイル関連の判断であった。StylisticBiasを、マルチモーダルモデルにおける詳細なバイアス評価のためのベンチマークとして公開する。コードとデータセット:https://github.com/timo-cavelius/StylisticBias および https://hf.co/datasets/shaghayegh/stylistic-bias-dataset。
文脈内学習(In-context learning, ICL)は低リソース分類における標準的な手法であるが、専門領域での有効性は未だほとんど解明されていない。本研究では、複数の少数ショット例を連結することによる文脈長の増加に伴い、従来のICLが顕著な限界に直面する、意味的に複雑な多者間B2B会話の分類課題に取り組む。我々は、実世界のB2B会話から抽出された中核的な営業概念を対象とする5つの分類タスクを備えたCall Playbookデータセットを導入する。性能と実用性の乖離を埋めるため、冗長な例を構造化された分類基準と精密なタスク記述のコンパクトで解釈可能な表現へと蒸留する、新たな知識抽出手法を提案する。本手法は、従来のICLと比較してトークン使用量を99%削減し、マクロ平均AUCを最大7%向上させる。特筆すべきは、9F1ポイント以上低下する高度なトークン圧縮ベースラインとは対照的に、文脈が増加しても本手法は頑健性を維持することである。さらに重要な点として、本フレームワークは分類ロジックの直接的な改良を可能にし、実世界のNLPアプリケーションにおける透明性、効率性、ユーザーとの対話に関する重要なニーズに対応する。
医療用表形式データは臨床研究において広く存在するが、テーブルに対する深層学習は未だ十分に探求されていない。なぜなら、信頼性の高いラベルを得るには高額な専門家による判定が頻繁に必要となる一方で、構造化された臨床変数は表形式で日常的に利用可能だからである。自己教師あり学習はこれらのラベルなしテーブルを活用でき、最近のビニングベースのプリテキストは有望な帰納的バイアスを提供するが、既存の目的関数は単一のグローバルな分位離散化を固定し、特徴量に依存しない監視を適用している。我々は適応的ビニングを提案する。これは、テーブルSSLのための訓練適応型離散化プリテキストであり、特徴量ごとの粗密カリキュラムを通じて離散化を学習に結合させる。ニューラルネットワークのスペクトルバイアスとカリキュラム学習の原理に動機づけられ、本手法はプラトー検出時に各特徴量の離散化を徐々に精緻化し、表現認識型の分割点を選択することで、値空間の集中性と表現空間の一貫性を同時に向上させる。異質性認識型の目的関数は、カテゴリ再構成と数値特徴量に対する順序監視を統合し、統一された評価プロトコルの下での公開医療用表形式データセットにおける実験では、データセット固有の離散化調整なしに線形プロービングとファインチューニングで一貫した改善を示した。さらに、標準化されたプロトコルを用いた医療用テーブルSSLベンチマークを導入し、この未開拓領域での再現可能な進展を支援する。我々のコードはhttps://github.com/labhai/Adaptive-Binningで入手可能である。