翻訳付きの日次キュレーションされたAI研究論文
我々は、あらゆる分野の点群が集い、単一のモデルを形成し、すべての分野に恩恵をもたらす未来を夢見ている。この目標に向けて、我々はUtoniaを提案する。これは、リモートセンシング、屋外LiDAR、屋内RGB-Dシーケンス、オブジェクト中心のCADモデル、RGB映像から変換された点群といった多様な分野にわたって、単一の自己教師ありポイントトランスフォーマーエンコーダーを訓練する第一歩である。センシングジオメトリ、密度、事前分布が大きく異なるにもかかわらず、Utoniaは分野を超えて転移可能な一貫した表現空間を学習する。この統一により知覚能力が向上するだけでなく、分野を統合して訓練した場合にのみ現れる興味深い創発的振る舞いが明らかとなる。知覚を超えて、Utonia表現が身体性を持つ推論やマルチモーダル推論にも有益であることを確認した:視覚-言語-行動ポリシーにUtonia特徴量を条件付けすることでロボット把持が改善され、視覚言語モデルに統合することで空間推論タスクで性能向上が得られる。Utoniaが疎3Dデータの基盤モデルへの一歩となり、AR/VR、ロボティクス、自動運転などの下流応用を支えることを願っている。
視覚世界は、言語を超えた基盤モデルの発展において重要な軸を提供する。この方向性への関心が高まっているにもかかわらず、ネイティブマルチモーダルモデルの設計空間は不透明なままである。我々は、言語事前学習の干渉を受けずにマルチモーダル事前学習を支配する要因を分離した、制御されたゼロからの事前学習実験を通じて実証的な明確化を図る。言語には次トークン予測、視覚には拡散モデルを用いるTransfusionフレームワークを採用し、テキスト、動画、画像-テキストペア、さらには行動条件付き動画を含む多様なデータで学習を行う。実験から得られた4つの重要な知見は以下の通りである:(i)表現オートエンコーダ(RAE)は視覚的理解と生成の両方に優れることで、最適な統一視覚表現を提供する;(ii)視覚データと言語データは補完的であり、下流タスク能力に対して相乗効果をもたらす;(iii)統一されたマルチモーダル事前学習は自然に世界モデリングへと導き、一般的な訓練から能力が創発する;(iv)エキスパートの混合(MoE)は、効率的かつ効果的なマルチモーダルスケーリングを可能にすると同時に、自然にモダリティ特化を誘導する。IsoFLOP分析を通じて、両モダリティのスケーリング則を計算し、スケーリングの非対称性を明らかにした:視覚は言語よりもはるかに多くのデータを必要とする。MoEアーキテクチャが、言語に必要な高いモデル容量を提供しつつ視覚のデータ集約性を許容することで、このスケーリング非対称性を調和させることを実証し、真に統一されたマルチモーダルモデルへの道を開く。
統合マルチモーダルモデルは近年強力な生成能力を示しているが、生成が理解を促進するか否か、またその条件については未解明である。既存のベンチマークは、生成が理解を促進する具体的なタスクを体系的に検証していない。この課題に対し、我々はUniG2U-Benchを提案する。これは生成から理解(G2U)の評価を7つの領域と30のサブタスクに分類し、暗黙的・明示的な様々な視覚的変換を要求する包括的ベンチマークである。30以上のモデルを用いた大規模評価により、3つの核心的知見が得られた:1)統合モデルは一般に基盤となる視覚言語モデル(VLM)を下回り、Generate-then-Answer(GtA)推論は直接推論よりも性能を劣化させる傾向がある。2)空間知能・錯視・マルチラウンド推論のサブタスクでは一貫した改善が見られ、強化された空間・形状認識や多段階の中間画像状態が有効である。3)類似の推論構造を持つタスクや共通アーキテクチャのモデルは相関した挙動を示し、生成と理解の結合がタスク・事前学習データ・モデルアーキテクチャに跨るクラス一貫的な帰納バイアスを誘発することを示唆する。これらの発見は、統合マルチモーダルモデリングの可能性を最大限引き出すため、より多様な訓練データと新たなパラダイムの必要性を浮き彫りにする。
本論文では、コーディングエージェントに特化したオープンウェイト言語モデルであるQwen3-Coder-Nextを提案する。Qwen3-Coder-Nextは800億パラメータを有するが、推論時には30億パラメータのみを活性化するため、強力なコーディング能力を効率的な推論で実現する。本研究では、強力なトレーニング手法によって、少ないパラメータ規模のモデルの能力限界をどこまで押し上げられるかを探求する。これを実現するため、実行可能な環境と組み合わせた検証可能なコーディングタスクの大規模合成を通じたエージェント的トレーニングを実施し、トレーニング中学習および強化学習による環境フィードバックからの直接学習を可能にした。SWE-BenchやTerminal-Benchを含むエージェント中心のベンチマークにおいて、Qwen3-Coder-Nextはその活性化パラメータ数に対して競争力のある性能を達成した。研究および実世界のコーディングエージェント開発を支援するため、ベース版と指示チューニング版の両オープンウェイトモデルを公開する。
現在のコードエージェントのベンチマークは、主に限定的なリポジトリ固有の修正を評価するものであり、リポジトリ横断的な推論、ドメイン特化型の問題解決、依存関係駆動の移行、フルリポジトリ生成といった現実世界の重要な課題を見落としている。この課題を解決するため、我々はBeyondSWEを提案する。これは解像度スコープと知識スコープの2軸に沿って既存の評価を拡大し、4つの異なる設定にわたる500の実世界インスタンスを使用する包括的ベンチマークである。実験結果は顕著な能力ギャップを明らかにする:最先端モデルでさえ成功率45%未満で頭打ちとなり、単一のモデルがタスクタイプを横断して一貫した性能を発揮するものはない。外部知識の役割を体系的に調査するため、深層検索とコーディング能力を統合するSearchSWEフレームワークを開発した。実験により、検索拡張は一貫した効果をもたらさず、場合によっては性能を低下させうることが示され、コーディングタスクにおける検索と推論を交互に行う開発者類似のワークフローを模倣する難しさが浮き彫りとなった。本研究は、より高度なコードエージェントに向けた研究を推進するため、現実的で挑戦的な評価ベンチマークと柔軟なフレームワークの両方を提供する。
生成報酬モデル(GRM)における最近の進歩は、Chain-of-Thought(CoT)推論の長さをスケーリングすることが評価の信頼性を大幅に向上させることを実証している。しかし、現在の研究は主に非構造的な長さスケーリングに依存しており、異なる推論メカニズムの有効性の差異を見落としている:Breadth-CoT(B-CoT、すなわち多次元的な原理網羅性)とDepth-CoT(D-CoT、すなわち実質的な判断の健全性)である。この問題に対処するため、我々はMix-GRMを提案する。これは、モジュラー合成パイプラインを通じて生の推論過程を構造化されたB-CoTとD-CoTに再構成し、その後、教師ありファインチューニング(SFT)と検証可能な報酬を用いた強化学習(RLVR)を適用してこれらのメカニズムを内部化・最適化するフレームワークである。包括的な実験により、Mix-GRMが5つのベンチマークで新たなstate-of-the-artを確立し、主要なオープンソースRMを平均8.2%上回ることを実証した。我々の結果は、推論メカニズムに明確な分化があることを明らかにしている:B-CoTは主観的選好タスクに有効であるのに対し、D-CoTは客観的正解性タスクで優位性を示す。したがって、推論メカニズムとタスクの不一致は性能を直接低下させる。さらに、RLVRがスイッチング増幅器として機能し、モデルがタスク要求に応じて推論スタイルを自発的に割り当てるという創発的分極を誘導することを示す。合成データとモデルはhttps://huggingface.co/collections/DonJoey/mix-grmで、コードはhttps://github.com/Don-Joey/Mix-GRMで公開されている。
キャラクターアニメーションは、駆動ビデオから参照画像へ運動力学を転移させることで、生き生きとしたビデオを生成することを目的としています。近年の生成モデルの飛躍的進歩により、高精細なキャラクターアニメーションの実現が可能になってきました。本研究では、堅牢で精密かつ表現力豊かな全体的なキャラクターアニメーションを実現するために特別に設計された、統一されたDiTベースのフレームワーク「Kling-MotionControl」を提案します。モデルは、統合されたシステム内で分割統治戦略を活用し、身体、顔、手の特徴に合わせて調整された異種運動表現を協調させ、大規模な構造的安定性と微細な関節表現力を効果的に調和させます。堅牢なクロスアイデンティティ一般化を確保するため、適応的なアイデンティティ非依存学習を組み込み、写実的な人間からスタイライズされた漫画まで、多様なキャラクターに対する自然なモーションリターゲティングを可能にします。同時に、精密なアイデンティティ注入と融合設計を通じて忠実な外観保存を保証し、包括的な参照コンテキストを活用するサブジェクトライブラリメカニズムによってさらに支援します。実用性を確保するため、マルチステージ蒸留を利用した高度な高速化フレームワークを実装し、推論速度を10倍以上向上させます。Kling-MotionControlは、インテリジェントな意味的運動理解と精密なテキスト応答性により、視覚入力を超えた柔軟な制御を可能にし、既存手法と一線を画します。人間による嗜好性評価では、Kling-MotionControlが主要な商用およびオープンソースソリューションと比較して優れた性能を発揮し、全体的な運動制御、オープンドメイン一般化、視覚的品質と一貫性において卓越した忠実度を達成することが実証されています。これらの結果は、Kling-MotionControlが高品質で制御可能かつ生き生きとしたキャラクターアニメーションのための堅牢なソリューションであることを確立しています。
大規模言語モデル(LLM)は社会的にセンシティブな領域で展開が進む一方、意図の不一致から人格の不一致に至るまで予測不能な振る舞いが重大なリスクをもたらしている。本研究では、言語特徴・感情・人格の3領域にわたるLLMの制御性を評価する階層的ベンチマーク「SteerEval」を提案する。各領域は3つの仕様レベル(L1:表現内容、L2:表現方法、L3:具体化方法)で構造化され、高次元の行動意図から具体的なテキスト出力までを結びつける。SteerEvalを用いて現代的な制御手法を系統的に評価した結果、制御効果は細粒度レベルで劣化しやすいことが明らかになった。本ベンチマークは、安全で制御可能なLLM行動のための原理的かつ解釈可能な枠組みを提供し、将来の研究基盤となるものである。
指示に基づく動画編集は急速な進歩を遂げているが、現行の手法は精密な視覚的制御に課題を抱えている。自然言語は複雑な視覚的ニュアンスを記述する際に本質的な限界があるためである。参照画像誘導型編集は強力な解決策を提供するが、その可能性は現在、高品質なペア訓練データの不足によって頭打ち状態にある。この課題を解決するため、我々は画像生成モデルを活用して合成参照スキャフォールドを作成し、既存の動画編集ペアを高精度な訓練用四つ組データに変換するスケーラブルなデータ生成パイプラインを提案する。このパイプラインを用いて、指示と参照画像に従うタスクに特化した大規模データセットRefVIEを構築し、包括的評価のためのRefVIE-Benchを確立した。さらに、学習可能なクエリと潜在視覚特徴を統合して参照意味誘導を実現する統一編集アーキテクチャKiwi-Editを提案する。プログレッシブ多段階訓練カリキュラムを通じて、本モデルは指示追従性と参照再現性において顕著な性能向上を達成した。大規模な実験により、我々のデータとアーキテクチャが制御可能な動画編集において新たな技術基準を確立することを実証した。全てのデータセット、モデル、コードはhttps://github.com/showlab/Kiwi-Editで公開されている。
部分観察可能な高次元領域におけるモデルベース強化学習(MBRL)では、時間的依存性の捕捉が重要である。本研究では、デコーダを必要としないMBRLエージェント「NE-Dreamer」を提案する。NE-Dreamerは、時間的トランスフォーマーを利用して潜在状態系列から次のステップのエンコーダ埋め込みを予測し、表現空間における時間的予測整合性を直接最適化する。このアプローチにより、NE-Dreamerは再構成損失や補助的な教師信号を必要とせず、一貫性のある予測的な状態表現を学習することが可能となる。DeepMind Control Suiteにおける実験では、NE-DreamerはDreamerV3および主要なデコーダフリーエージェントの性能に匹敵、あるいはそれを上回る結果を示した。記憶と空間推論を要するDMLabタスクの難易度の高いサブセットでは、NE-Dreamerは大幅な性能向上を達成した。これらの結果は、時間的トランスフォーマーを用いた次埋め込み予測が、複雑で部分観察可能な環境におけるMBRLのための効果的かつスケーラブルなフレームワークであることを示唆している。
DEEPTHINK手法は、候補解の集団を生成、洗練、統合することで推論能力を向上させ、複雑な数学的・科学的タスクにおいて強力な性能を発揮する。しかし、既存のフレームワークでは推論時に信頼性の高い正解シグナルが不足しており、集団強化のボトルネックが生じている。このボトルネックにより、深い考察が誤りを増幅し、正しい少数派の解を抑制し、追加の計算資源に対する見返りが低下するという問題がある。本論文では、DEEPTHINKシステムの機能分解を導入し、プロセス報酬モデル(PRM)に導かれた推論アルゴリズムPRISMを提案する。PRISMはステップ単位の検証を用いて、集団の洗練と解の統合の両方を指導する。洗練段階では、PRISMは候補解をPRMが定義するエネルギー景観内の粒子として扱い、スコア誘導型再サンプリングと確率的洗練を通じて集団を再形成する。これにより、多様性を維持しつつ、より高品質な推論に確率質量を集中させる。数学および科学ベンチマークにおいて、PRISMは既存のDEEPTHINK手法と同等以上の性能を示し、gpt-oss-20bにおいてAIME25で90.0%、HMMT25で75.4%、GPQA Diamondで71.4%を達成するとともに、gpt-oss-120bの性能を匹敵または上回った。さらに分析により、PRISMが洗練過程で一貫した正味方向補正を生成し、初期集団に正解候補が少ない場合でも信頼性を維持し、多くの場合で計算量-精度パレートフロンティア上に位置することが明らかとなった。
大規模言語モデル(LLM)の数学的能力が国際数学オリンピック(IMO)レベルに近づくにつれ、訓練と評価のための質が高く難易度の高い問題の不足が大きなボトルネックとなっている。一方、近年のコードエージェントは、エージェントとしてのコーディングと推論において高度な能力を示しており、コード実行が数学的実験のためのスケーラブルな環境として機能し得ることが示唆されている。本論文では、コードエージェントが既存の数学問題を自律的に発展させ、より複雑なバリエーションを生成する可能性を探る。我々は、問題の進化を実行するとともに、生成された問題の解決可能性と難易度の向上を検証するように設計されたマルチエージェントフレームワークを提案する。実験により、十分なテスト時間探索が与えられれば、コードエージェントは、元の問題とは構造的に異なり、かつより難易度の高い、解決可能な新規問題を合成できることが実証された。本研究は、コード駆動型エージェントが、スケーラブルな計算環境内で高難度の数学的推論問題を合成するための有効なメカニズムとなり得ることを実証的に示すものである。データは https://github.com/TarferSoul/Code2Math で公開されている。
人間の推論は、限られた情報を基に確率的な結論に至る過程を伴うことが多い。最も単純な形式では、これは前提から厳密に必然的に導かれるわけではないが、前提を与えられた場合に蓋然的であるに過ぎない推論を行うことを含む。推論能力を持つ大規模言語モデル(LLM)は論理的・数学的タスクで高い性能を示しているが、このようなオープンエンドで非決定論的な推論における振る舞いは、ほとんど未探査のままである。本研究では、ProbCOPAを紹介する。これは英語で書かれた210の手作りによる確率的推論から成るデータセットであり、各推論は25~30名の人間参加者による推論の尤度が注釈付けされている。我々は、人間の回答が段階的かつ多様であり、データセット内の推論に対する確率的判断が表れていることを明らかにした。これらの判断を8つの最先端推論LLMの応答と比較した結果、モデルは一貫して人間らしい分布を生成できないことを示す。最後に、LLMの推論連鎖を分析し、この種の推論を評価するために用いられる共通の推論パターンの証拠を見出した。我々の発見は、人間とLLMの間の頑固な差異を明らかにし、決定論的設定を超えた推論評価の必要性を強調するものである。
エージェンシック言語モデルは、チャットモデルとは根本的に異なる安全性の体制で動作する。それらは計画を立て、ツールを呼び出し、長期的なアクションを実行する必要があり、ファイルへのアクセスや認証情報の入力といった単一の誤ったステップが取り返しのつかない損害を引き起こす可能性がある。主に静的な生成とタスク完了のために最適化されてきた既存のアライメント手法は、逐次的意思決定、敵対的ツールフィードバック、過信気味な中間推論により、これらの設定では機能不全に陥る。本論文では、安全性の判断を明示的かつ学習可能にすることで、安全な多段階ツール利用のためのエージェントを調整する学習後フレームワークであるMOSAICを提案する。MOSAICは、推論を「計画、チェック、その後実行または拒否」のループとして構造化し、明示的な安全性推論と拒否を第一級のアクションとして扱う。軌道レベルのラベルなしで学習するため、スカラー報酬では見落とされがちな安全性の区別を捉える、ペアワイズ軌道比較に基づく選好強化学習を用いる。我々はMOSAICを、Qwen2.5-7B、Qwen3-4B-Thinking、Phi-4の3つのモデルファミリーにわたってゼロショット評価し、有害タスク、プロンプトインジェクション、良性ツール使用、クロスドメインのプライバシー漏洩にまたがる分布外ベンチマークで検証した。MOSAICは有害な行動を最大50%削減し、インジェクション攻撃に対する有害タスクの拒否率を20%以上向上させ、プライバシー漏洩を削減し、良性タスクの性能を維持または改善し、モデル、ドメイン、エージェンシック設定にわたる頑健な汎化能力を示した。
単眼映像から各ピクセルの3次元軌跡を推定することは、映像の3次元ダイナミクスを包括的に理解する上で極めて重要かつ有望な技術である。近年の単眼3次元トラッキング手法は顕著な性能を示しているが、初期フレーム上の疎な点群の追跡に限定されるか、あるいは高密度トラッキングにおいて最適化ベースの遅いフレームワークに制限されている。本論文では、Track4Worldと名付けた順伝播型モデルを提案し、世界座標系における全ピクセルの効率的な全体的3次元トラッキングを実現する。VGGTスタイルのViTにより符号化された大域的な3次元シーン表現を基盤として、Track4Worldは新規の3次元相関スキームを適用し、任意のフレーム間における画素単位の2次元及び3次元高密度フローを同時に推定する。推定されたシーンフローと復元された3次元形状に基づいて、当該映像の全ピクセルの効率的な後続3次元トラッキングが可能となる。複数のベンチマークによる広範な実験により、本手法が2次元/3次元フロー推定及び3次元トラッキングにおいて既存手法を一貫して凌駕し、実世界の4次元再構築タスクに対するその頑健性と拡張性が実証された。
大規模言語モデル(LLM)の最終ソフトマックス分類器をエネルギー基準モデル(EBM)として再解釈し、系列対系列の確率連鎖を推論時に複数の相互作用するEBMへ分解します。この原理に基づくアプローチにより、デコーディング中の「エネルギー流出」を追跡可能にし、これが事実誤認、バイアス、失敗と経験的に関連することを実証します。Orgad et al. (2025) と同様に、本手法は正確な回答トークンを特定した上で幻覚の検証を行います。しかし決定的な違いは、訓練済みのプローブ分類器や活性化除去を必要とせず、出力ロジットから直接導出される2つの完全な訓練不要指標を導入する点にあります。すなわち、連続する生成ステップ間で理論的に一致すべきエネルギー値の不一致を捕捉する「流出エネルギー」と、単一ステップで計測可能な「周辺化エネルギー」です。LLaMA、Mistral、Gemmaなどの最先端LLM、および合成代数演算タスク(Qwen3)を含む9つのベンチマークで評価した結果、本手法は頑健かつ競争力のある幻覚検出能力とタスク横断的な一般化性能を示しました。特に、これらの結果は事前学習モデルと指示チューニングモデルの両方で、一切の訓練オーバーヘッドを導入することなく成立します。コードは github.com/OmnAI-Lab/spilled-energy で公開されています。
大規模言語モデル(LLM)の推論能力を学習後調整によって強化する際には、効率性と破滅的忘却の間のトレードオフが制約となることが多い。従来の研究はオン方策データが忘却緩和に果たす役割を強調してきたが、本研究では、Direct Preference Optimization(DPO)の報酬推定に内在する暗黙的正則化という、見過ごされながらも極めて重要なメカニズムを理論的・実証的に解明する。この知見に基づき、我々は推論能力を効率的に最適化しつつ獲得済みの事前知識を保持する新しいパラダイム「Surgical Post-Training(SPoT)」を提案する。SPoTは以下で構成される:(1)オラクルを用いて誤った推論ステップを最小限の編集で外科的に修正し、モデルの分布に近いデータを生成するデータ補正パイプライン、(2)報酬ベースの二値交差エントロピー目的関数。後者はDPOの相対的順位付けとは異なり、推論の正しさを二値分類問題として扱い、分離された監督信号を付与する。実証実験では、わずか4,000組の補正数学データを用いたSPoTが、Qwen3-8Bの精度を分野内タスクとOODタスクで平均6.2%向上させ、8基のH800 GPUでの学習時間は28分のみであった。コード:https://github.com/Visual-AI/SPoT
テキストから画像への生成モデルは、現実味と制御性において急速に進歩を遂げており、最近のアプローチでは、細粒度の生成を支援するために長く詳細なキャプションが活用されている。しかし、根本的なパラメトリックギャップが残っている。既存のモデルは記述的な言語に依存しているのに対し、専門的なワークフローでは、オブジェクトの位置、サイズ、色に対する正確な数値制御が要求される。本研究では、統一された構造化テキストフレームワーク内で、数値的なバウンディングボックスとRGB三組値を直接条件付けする大規模テキスト画像モデル「BBQ」を提案する。パラメトリックな注釈で強化されたキャプションを用いて学習することで、アーキテクチャの変更や推論時の最適化を必要とせず、正確な空間的・色彩的制御を実現する。これにより、オブジェクトのドラッグやカラーピッカーといった直感的なユーザーインターフェースが可能となり、曖昧で反復的なプロンプト入力を、正確で慣れ親しんだ制御に置き換える。包括的な評価を通じて、BBQは強力なボックスアライメントを達成し、最先端のベースラインと比較してRGB色再現性を向上させることを示した。より広義には、我々の結果は、ユーザーの意図が中間構造化言語に変換され、レンダラーとして機能するフローベースのトランスフォーマーによって消費され、数値パラメータを自然に受け入れる新たなパラダイムを支持するものである。
実世界におけるLLMエージェントへのユーザー要求は、多くの場合が不完全な仕様である。エージェントは対話を通じて不足情報を獲得し、下流の意思決定を正確に行わなければならない。しかし、現在のマルチターンGRPOベースの手法は、軌跡レベルの報酬計算に依存することが多く、これはクレジット割り当て問題やロールアウトグループ内での不十分なアドバンテージ信号を引き起こす。有望なアプローチとして、よりターゲットを絞った学習を推進するために、価値のある対話ターンを細かい粒度で特定することが挙げられる。この問題に対処するため、我々はInfoPO(情報駆動型方策最適化)を提案する。InfoPOはマルチターン対話を能動的な不確実性低減プロセスとして捉え、エージェントの後続の行動分布を、フィードバックをマスクした反事実的シナリオと比較して測定可能な変化をもたらすターンにクレジットを与える、情報利得報酬を計算する。次に、この信号をタスク成果と適応的分散ゲート融合により組み合わせることで、タスク指向の目標方向性を維持しつつ、情報の重要性を特定する。意図の明確化、協調的コーディング、ツール拡張意思決定を含む多様なタスクにおいて、InfoPOはプロンプティングやマルチターン強化学習のベースライン手法を一貫して上回る。また、ユーザーシミュレータの変化下での頑健性を示し、環境対話型タスクへ効果的に一般化する。全体として、InfoPOは複雑なエージェントとユーザーの協調を最適化するための原理的かつスケーラブルなメカニズムを提供する。コードはhttps://github.com/kfq20/InfoPO で公開されている。
近年、動画編集モデルは目覚ましい成果を上げているが、その多くは依然として大規模な教師データを必要とする。このような自然に整列したデータを大規模に収集することは極めて困難であり、特に局所的な動画編集データにおいては重大なボトルネックとなっている。既存の回避策として、画像編集技術を大域的なモーション制御により動画に転嫁する手法が提案されているが、こうした設計では背景や時間的な一貫性の維持に課題がある。本論文では、非対応動画編集のための新しいフレームワーク「NOVA: Sparse Control & Dense Synthesis」を提案する。具体的には、スパース分岐が動画全体に分散したユーザー編集キーフレームを通じて意味的ガイダンスを提供し、デンス分岐が元動画からモーションとテクスチャ情報を連続的に取り込むことで、高忠実度と一貫性を維持する。さらに、擬似的に劣化させた動画で学習させることで、モデルがモーション再構成と時間的一貫性を学習できる劣化シミュレーション訓練戦略を導入し、教師データの必要性を排除した。大規模な実験により、NOVAが編集の忠実度、モーション保存性、時間的一貫性において既存手法を凌駕することを実証する。
Vision-Language-Action (VLA) モデルは身体性知能実現への有望なアプローチであるが、視覚的ダイナミクスの根底にある予測的・時間的因果構造を軽視しがちである。世界モデル型VLAは未来フレームの予測によりこの問題に対処するが、冗長な背景の再構築に容量を浪費する。潜在行動型VLAはフレーム間遷移をコンパクトに符号化するが、時間的に連続的な動的モデリングと世界知識を欠く。これらの限界を克服するため、我々は世界モデルの時間推論と分離された潜在運動表現を統合する新たな「Chain of World」パラダイムであるCoWVLAを提案する。まず、事前学習済みビデオVAEを潜在運動抽出器として用い、動画セグメントを構造潜在変数と運動潜在変数に明示的に分離する。次に、事前学習段階において、VLAは指示と初期フレームから連続的な潜在運動連鎖を推論し、セグメントの終端フレームを予測するように学習する。最後に、協調ファインチューニング段階では、この潜在的ダイナミクスを、疎なキーフレームと行動系列を統合的自回帰デコーダで共同モデリングすることにより、離散的行動予測と整合させる。この設計は、時間推論と世界知識という世界モデルの利点を保持しつつ、潜在行動のコンパクト性と解釈可能性を維持し、効率的な視覚運動学習を可能にする。ロボットシミュレーションベンチマークによる大規模実験では、CoWVLAが既存の世界モデル型・潜在行動型アプローチを凌駕し、中程度の計算効率を達成することを示し、より効果的なVLA事前学習パラダイムとしての可能性を強調する。プロジェクトウェブサイトは https://fx-hit.github.io/cowvla-io で公開されている。
大規模言語モデル(LLM)が探索的ツールから社会科学における能動的「シリコン主体」へと移行する過程では、操作的妥当性の広範な検証が欠如している。本研究では、Conditioned Comment Prediction(CCP)というタスクを提案する。これは、モデルが特定の刺激に対してユーザーがどのようにコメントするかを予測し、その生成出力を実際のデジタル痕跡と比較するものである。この枠組みにより、ソーシャルメディアユーザー行動のシミュレーションに関する現行LLMの能力を厳密に評価することが可能となる。我々は、英語、ドイツ語、ルクセンブルク語のシナリオにおいて、オープンウェイトの8Bモデル(Llama3.1, Qwen3, Ministral)を評価した。プロンプト戦略(明示的 vs 暗黙的)と教師ありファインチューニング(SFT)の影響を体系的に比較することで、低リソース環境において決定的な形式と内容の分離を特定した:SFTはテキスト出力の表層構造(長さと構文)を整合させるが、意味的基盤を劣化させる。さらに、明示的条件付け(生成されたバイオグラフィー)は、ファインチューニング下ではモデルが行動履歴から直接潜在的な推論を成功させるため、冗長になることを示す。我々の知見は、現在の「素朴なプロンプト」パラダイムに疑問を投げかけ、高精度なシミュレーションのためには記述的なペルソナよりも真正な行動痕跡を優先する操作的ガイドラインを提供する。
視覚的表現学習とテキストから画像への生成(T2I)を単一モデル内で統合することは、マルチモーダル学習における中心的な課題である。本論文では、識別的目標と生成的目標を共同で最適化し、強力な視覚表現を学習する統合フレームワーク「DREAM」を提案する。DREAMは二つの主要な技術に基づいている:学習時には、段階的マスキングスケジュールである「Masking Warmup」を採用し、表現学習に必要な対照的アラインメントを確立するために最小限のマスキングから開始し、その後、安定的な生成的学習に向けて完全マスキングへと徐々に移行する。推論時には、「意味的アライメント復号」を用いて、部分的にマスクされた画像候補を対象テキストと整合させ、さらなる復号に最適なものを選択することで、外部リランキングモデルを用いることなくテキスト-画像の忠実度を向上させる(+6.3%)。CC12Mのみで学習したDREAMは、ImageNet線形 probing精度で72.7%(CLIP比+1.1%)、FIDで4.25(FLUID比+6.2%)を達成し、数発分類、意味的セグメンテーション、深度推定においても一貫した性能向上を示した。これらの結果は、識別的目標と生成的目標が相乗効果を発揮し、視覚的理解と生成の両方に優れた統合マルチモーダルモデルを実現可能であることを示唆している。
大規模言語モデルによる自動化された科学的発見は、研究ライフサイクルを構想段階から実験段階へと変革しつつあるが、既存のエージェントは科学実験で収集された生データを自律的に処理するのに苦戦している。本論文では、研究ライフサイクルを自動化する、データ中心のエンドツーエンドシステムであるSciDERを提案する。従来のフレームワークとは異なり、当システムの専門化されたエージェント群は、生の科学データを協調的に解析・分析し、特定のデータ特性に基づいた仮説と実験計画を生成し、対応するコードを記述・実行する。3つのベンチマークによる評価では、SciDERが専門的なデータ駆動型科学発見において優れた性能を発揮し、自己進化型メモリと批評家主導のフィードバックループを通じて、汎用エージェントや最先端モデルを凌駕することが示された。モジュール型Pythonパッケージとして配布されており、軽量なWebインターフェースを備えた使いやすいPyPIパッケージも提供する。これにより、自律的でデータ駆動型の研究を加速し、すべての研究者と開発者が利用できることを目指している。
Classifier-Free Guidance (CFG) は、フローベース拡散モデルにおける意味的整合性の向上を図る中心的な手法として登場した。本論文では、CFG を一次の連続時間生成フローに適用される制御則として再解釈し、条件付き-無条件の不一致を速度場を調整する誤差信号として用いる、CFG-Ctrl と名付けた統一フレームワークを探求する。この観点から、我々は従来の CFG を固定ゲインの比例制御器 (P 制御) として概括し、典型的な後続の変種はそこから派生した拡張制御則設計として発展してきたと考える。しかし、既存手法は主に線形制御に依存しており、特に大規模なガイダンススケールにおいて、不安定性、オーバーシュート、意味的忠実性の劣化を本質的に引き起こす。この問題に対処するため、我々は Sliding Mode Control CFG (SMC-CFG) を導入する。これは生成フローを急速に収束するスライディング多様体に向けて駆動するものである。具体的には、意味的予測誤差に対して指数関数的なスライディングモード面を定義し、非線形なフィードバック誘導補正を確立するためのスイッチング制御項を導入する。さらに、有限時間収束を理論的に支持するためにリアプノフ安定性解析を提供する。Stable Diffusion 3.5、Flux、Qwen-Image を含むテキストから画像への生成モデルにおける実験により、SMC-CFG が標準的な CFG を意味的整合性で上回り、広範囲のガイダンススケールにわたってロバスト性を向上させることを実証する。プロジェクトページ: https://hanyang-21.github.io/CFG-Ctrl
大規模言語モデル(LLM)が基礎的なベンチマークを飽和させる中、研究の焦点は生成能力から自動評価の信頼性へと移行している。本論文では、大学上級から大学院初級レベルの数学課題に標準的な「LLMによる評価」手法を適用した場合、系統的な「アライメント格差」が生じることを実証する。これを定量化するため、我々はQEDBenchを開発した。これは、学部レベルの数学証明における人間の専門家との整合性を、科目特有の評価基準と専門家の共通知識基準を対比させて体系的に測定する、初の大規模デュアルルーブリック型アライメントベンチマークである。1,000時間以上に及ぶ人間による評価を7名の判定者×5種のソルバーというデュアル評価マトリックスで実施した結果、Claude Opus 4.5、DeepSeek-V3、Qwen 2.5 Max、Llama 4 Maverickといった先進的評価モデルに顕著な正のバイアス(それぞれ最大で平均スコア+0.18、+0.20、+0.30、+0.36の過大評価)が存在することを明らかにした。さらに離散数学領域において重大な推論格差を発見した:Gemini 3.0 Proは最高性能(人間評価スコア平均0.91)を達成する一方、GPT-5 ProやClaude Sonnet 4.5などの推論モデルは離散領域で性能が大幅に低下する。具体的には、離散数学では平均スコアが0.72、0.63に、グラフ理論では0.74、0.50に下落する。これらの研究成果に加え、QEDBenchをAI評価モデルの検証・改善のための公開ベンチマークとしてリリースする。当ベンチマークはhttps://github.com/qqliu/Yale-QEDBench で公開されている。
大規模言語モデル(LLM)駆動型マルチエージェントシステム(MAS)は、事前定義された相互作用トポロジーを通じて専門エージェントを調整し、競技レベルのコード生成などの複雑なタスクにおいて有望な成果を示している。最近の研究では、慎重に設計されたマルチエージェントワークフローと通信グラフが、協調的推論を活用することでコード生成性能を大幅に改善できることが実証されている。しかし、既存手法は、タスクの難易度に応じてトポロジー密度を適応させたり、実行フィードバックを用いてインスタンス内でトポロジーを反復的に改良したりすることはなく、これが冗長な通信と性能ボトルネックを引き起こしている。これらの課題を解決するため、我々はAgentConductorを提案する。これは、LLMベースのオーケストレーターエージェントを中核とする強化学習最適化MASであり、エンドツーエンドのフィードバック駆動による相互作用トポロジーの動的生成を可能にする。AgentConductorは各クエリに対して、エージェントの役割とタスクの難易度を推論し、タスクに適応した密度を考慮した階層的有向非巡回グラフ(DAG)トポロジーを構築する。この基盤には、二つの重要な革新がある。第一に、マルチエージェント相互作用の通信を考慮した数学的特徴を捉える新しいトポロジー密度関数を設計した。第二に、難易度レベルごとの正確なトポロジー密度上限測定とよりきめ細かい制御のために、過度な枝刈りを回避する難易度区間分割を採用した。3つの競技レベルおよび2つの基礎的コードデータセットを用いた実験では、AgentConductorは最高水準の精度を達成し、最強のベースラインをパス@1精度で最大14.6%、密度削減で13%、トークンコスト削減で68%上回った。
大規模言語モデルは高度な能力を示す一方で、その内部動作の理解は依然として中心的な課題である。根本的な障壁は、訓練が行動ではなく回路を選択するため、同一の機能を実装する重み構成が無数に存在しうる点にある。どの内部構造が計算を反映し、どの構造が特定の訓練実行の偶発的産物なのか?本研究は、タスク性能に必要かつ十分なコンパクトな部分空間である「アルゴリズムコア」を抽出する。独立して訓練されたトランスフォーマーは異なる重みを学習するが、同じコアに収束する。マルコフ連鎖トランスフォーマーは、ほぼ直交する部分空間に3次元コアを埋め込みながら、同一の遷移スペクトルを回復する。モジュラー加算トランスフォーマーは、グロッキング現象時にコンパクトな巡回演算子を発見し、後にそれが膨張して記憶から一般化への移行を予測するモデルを生み出す。GPT-2言語モデルは、単一の軸によって主語と動詞の一致を制御しており、この軸を反転させると規模を超えて生成全体における文法的数が反転する。これらの結果は、訓練実行や規模を超えて持続する低次元不変量を明らかにし、トランスフォーマーの計算がコンパクトで共有されたアルゴリズム構造を中心に組織されていることを示唆する。機械論的解釈可能性は、実装固有の詳細ではなく、こうした不変量(計算の本質)を標的とすることで進展が期待できる。
逐次計算から並列計算への移行は、現代の高性能アプリケーションにとって必須であるが、並行プログラミングの習得が困難であることが障壁となっている。この課題は、静的なスケジューリングが機能せず、データ依存性が予測不能な不規則データ構造(疎グラフ、不平衡木、非一様メッシュなど)において特に顕著である。現在の大規模言語モデル(LLM)は、これらのタスクでしばしば深刻な失敗を起こし、微妙な競合状態、デッドロック、非最適なスケーリングに悩まされるコードを生成してしまう。 我々はこのギャップを埋めるため、不規則データ向けの高性能並列アルゴリズムを合成するフレームワーク「ParEVO」を提案する。主な貢献は以下の通りである。(1) 「Critic-Refine」パイプラインを通じて合成された13,820タスクからなる精選データセット「Parlay-Instruct Corpus」。これは、Work-Span並列プリミティブを効果的に利用する、経験的に高性能なアルゴリズムを明示的にフィルタリングしたものである。(2) ParlayLibライブラリの厳密なセマンティクスに確率的生成を適合させるため、特別にファインチューニングしたDeepSeek、Qwen、Geminiモデル。(3) コンパイラ、動的競合検出器、パフォーマンスプロファイラからのフィードバックを用いてコードを反復的に修正し、正確性の「ラストマイル」を改善する進化的コーディングエージェント(ECA)。 ベンチマーク「ParEval」において、ParEVOはスイート全体で平均106倍(最大1103倍)の高速化を達成し、複雑な不規則グラフ問題に限定しても堅牢な13.6倍の高速化を実現し、最先端の商用モデルを凌駕した。さらに、我々の進化的アプローチは、最先端の専門家による人間ベースラインに匹敵し、特定の高度に不規則なカーネルでは最大4.1倍の高速化を達成した。ソースコード及びデータセットはhttps://github.com/WildAlg/ParEVO で公開されている。
検証可能な報酬を用いた強化学習(RLVR)は、特に数学的推論やコード生成のような正確性が求められる領域において、自己回帰モデルの改善で顕著な成果を収めてきた。しかし、このパラダイムを拡散大規模言語モデル(dLLM)に直接適用することは、正確な尤度計算が困難であるという根本的な問題により阻まれており、既存手法は高い分散を伴う近似に依存せざるを得ない。このギャップを埋めるため、我々はベクトル場の流れマッチングの概念を離散的なトークン空間に写像する新規フレームワーク「尤度自由方策最適化(LFPO)」を提案する。具体的には、LFPOはアラインメントを幾何学的な速度補正として定式化し、対照的更新を通じてノイズ除去ロジットを直接最適化する。この設計により、尤度近似に内在する誤差を効果的に回避し、精密な勾配推定を実現する。さらに、LFPOは中間ステップから最終解を予測することで一貫性を強制し、確率流を直線化することで、反復回数を大幅に削減しつつ高品質な生成を可能にする。大規模な実験により、LFPOがコード・推論ベンチマークにおいて既存の最先端手法を上回るだけでなく、拡散ステップの削減を通じて推論速度を約20%向上させることを実証した。
Mixture-of-Experts (MoE) アーキテクチャは、計算効率を維持しながらニューラルネットワークをスケーリングする強力なパラダイムとして登場した。しかし、標準的な MoE の実装は、2つの固定的な設計仮定に依存している:(1) トークンごとに厳密に K 個の専門家を活性化する固定 Top-K ルーティング、(2) 全層にわたる均一な専門家割り当てである。本論文は、動的なトークンレベルの専門家活性化と層ごとの適応的容量割り当てを通じて、これら両方の制約を緩和する新しい MoE フレームワークである DynaMoE を提案する。DynaMoE は、入力の複雑さに基づいてトークンごとの活性化専門家数が変化する、原理に基づいたルーティング機構を導入する。同時に、このフレームワークは、ネットワーク深度にわたって専門家容量を配分するための、下降型、上昇型、ピラミッド型、波型を含む6つの異なるスケジューリング戦略を実装する。我々は、動的ルーティングの表現力向上効果を理論的に分析し、計算効率に関する限界を導出する。MNIST、Fashion-MNIST、CIFAR-10(画像分類)、および Recycling-the-Web(言語モデリング)における複数のモデル規模にわたる広範な実験を通じて、DynaMoE が静的ベースラインと比較して優れたパラメータ効率を達成することを実証する。我々の主な発見は、最適な専門家スケジュールがタスクと規模に依存することである:画像分類では、下降型スケジュール(容量を初期層に集中)が均一ベースラインを上回る。言語モデリングでは、最適なスケジュールはモデルサイズによって変化し、Tiny では下降型、Small では上昇型、Medium では均一型が最適であった。さらに、動的ルーティングは訓練中の勾配分散を低減し、収束安定性の向上をもたらす。DynaMoE は、ニューラルネットワークにおける適応的計算の新たな枠組みを確立し、MoE アーキテクチャ設計に対する原理に基づいた指針を提供する。
科学の発見がその可能性を十分に発揮するためには、明確に伝達されなければならない。効果的な伝達がなければ、画期的な発見であっても見過ごされたり誤解されたりするリスクがある。科学者が自身の研究を伝え、コミュニティからフィードバックを得る主要な方法は、査読プロセスを通じて行われる。しかし、現行のシステムでは査読者間で一貫性のないフィードバックがなされることが多く、結果として論文の改善を妨げ、その潜在的な影響力を制限している。本論文では、大規模言語モデル(LLM)を活用した新手法APRESを紹介する。これは評価基準に基づいて科学論文のテキストを更新するものである。我々の自動化手法は、将来の被引用数を高精度に予測する評価基準を発見し、それをAPRESと統合した自動システムにより、論文の品質と影響力を高める改訂を行う。重要な点は、核心的な科学的コンテンツを変更することなく、この目的を達成すべきであるということだ。APRESの有効性を実証し、将来の被引用数予測において平均絶対誤差が次善のベースライン比19.6%改善されたことを示す。さらに、論文改訂プロセスにより生成された論文が、人間の専門家評価者によって原稿より好まれる割合が79%に達することを示す。我々の発見は、投稿前の原稿に対してストレステストを実施する際の著者支援ツールとしてLLMを利用することの強力な実証的裏付けを提供する。最終的に、我々の研究は、人間の専門家査読者の不可欠な役割を「置き換える」のではなく「強化」することを目指す。なぜなら、どの発見が真に重要であるかを見極め、科学を知識の進歩と生活の豊かさへと導くべきは、人間だからである。
機械的忘却(マシンアンラーニング)は、モデルが特定のデータを忘れることを可能にする技術であり、データプライバシーとモデルの信頼性を確保する上で極めて重要である。しかし現実のシナリオでは、モデルがデータ内の疑似相関から意図しないバイアスを学習する場合、その有効性が大きく損なわれる可能性がある。本論文では、このようなバイアスのかかったモデルからの忘却に伴う特有の課題を検討する。我々は「ショートカット忘却」と名付けた新規現象を特定した。これはモデルが「学習は容易だが、忘却は困難」という傾向を示す現象である。具体的には、モデルは容易に学習されたバイアス整合的なサンプルを忘れることに苦戦し、忘却対象のクラス属性ではなくバイアス属性を忘却する。これが逆説的に、忘却対象クラスにおける精度を向上させる場合がある。この問題に対処するため、異なるバイアスを持つサンプルが損失ランドスケープの鋭敏性に違いを示すという観察に基づき、新たな忘却フレームワークCUPIDを提案する。本手法ではまず、サンプルの鋭敏性に基づいて忘却セットを因果近似サブセットとバイアス近似サブセットに分割し、次にモデルパラメータを因果経路とバイアス経路に分離し、最後に精緻化された因果勾配とバイアス勾配をそれぞれの経路にルーティングすることで、標的型の更新を行う。Waterbirds、BAR、Biased NICO++などのバイアスデータセットを用いた大規模な実験により、本手法が最先端の忘却性能を達成し、ショートカット忘却問題を効果的に軽減することを実証した。
空間的に変化する動的畿み込みは、深層ニューラルネットワークに空間適応性を組み込む原理的なアプローチを提供する。しかし、医療画像セグメンテーションにおける主流の設計では、動的カーネルを平均プーリングによって生成することが一般的であり、これは高周波の空間詳細を暗黙的に圧縮された粗い表現に集約してしまう。これにより、細粒度の臨床構造の忠実度を損なう過度に平滑化された予測が生じる。この課題を解決するため、我々は構造誘導型動的畿み込み(SGDC)機構を提案する。この機構は、明示的に教師付けされた構造抽出ブランチを利用して、構造を考慮した特徴変調のための動的カーネルとゲーティング信号の生成を誘導する。具体的には、この補助ブランチから得られる高忠実度の境界情報を意味的特徴と融合し、空間的に精密な特徴変調を実現する。コンテキスト集約をピクセル単位の構造誘導に置き換えることで、提案手法は平均プーリングに起因する情報損失を効果的に防止する。実験結果により、SGDCがISIC 2016、PH2、ISIC 2018、CoNICデータセットにおいて最先端の性能を達成し、Hausdorff距離(HD95)を2.05改善して優れた境界忠実度を実現し、プーリングベースのベースラインに対して0.99%~1.49%の一貫したIoU向上を提供することが示された。さらに、本機構は小物体検出などの他の細粒度で構造に敏感な視覚タスクへの拡張において強い可能性を示し、医療画像分析における構造的完全性保持の原理的な解決策を提供する。再現性の確保と研究の促進のため、SGEおよびSGDCモジュールの実装コードをhttps://github.com/solstice0621/SGDC で公開した。
優れた能力にもかかわらず、現在のテキストから画像(T2I)生成モデルは、不安全で有害なコンテンツを生成しがちな傾向が残っています。活性化ステアリングは推論時介入として有望な手法ですが、線形活性化ステアリングを無害なプロンプトに適用すると、画像品質が低下することが頻繁に観察されます。このトレードオフに対処するため、我々はまず、高いコサイン類似度を持つ安全/不安全なプロンプトペア2300組からなる対照データセットSafeSteerDatasetを構築しました。このデータを活用し、幾何学ベースの条件付け機構と非線形輸送写像を採用するConditioned Activation Transport(CAT)フレームワークを提案します。不安全な活性化領域内でのみ作動するように輸送写像を条件付けることで、無害なクエリへの干渉を最小限に抑えます。本手法を、Z-ImageとInfinityという2つの最先端アーキテクチャで検証します。実験により、CATがこれらのバックボーン間で効果的に一般化し、ステアリングなしの生成と比較して画像の忠実度を維持しつつ、攻撃成功率を大幅に低減できることを実証します。警告:本論文には不快な可能性のあるテキスト及び画像が含まれます。
大規模言語モデル(LLM)の近年の進歩により、高度なチャットボットの実現が可能となってきた。しかし、既存システムの多くは単一ユーザー設定に焦点を当てたものであり、複雑に変化する文脈下でエージェントによるより能動的かつ正確な介入が求められる複数ユーザーグループチャットには十分に対応できていない。既存のアプローチは通常、推論と生成の両方にLLMに依存しており、トークン消費量の多さ、スケーラビリティの限界、潜在的なプライバシーリスクといった課題がある。これらの課題に対処するため、本論文では複数ユーザーチャットアシスタントのための、トークン効率が高くプライバシー保護を図るエージェントフレームワーク「GroupGPT」を提案する。GroupGPTは、小型モデルと大規模モデルの協調アーキテクチャを採用し、介入タイミングの決定と応答生成を分離することで、効率的かつ正確な意思決定を実現する。本フレームワークは、ミーム、画像、動画、音声メッセージを含むマルチモーダル入力もサポートする。さらに、複数ユーザーチャットアシスタントの介入推論評価のためのベンチマークデータセット「MUIR」を構築した。MUIRは、介入ラベルと理論的根拠が付与された2,500のグループチャットセグメントを含み、介入タイミングの正確性と応答品質の評価を支援する。我々は、大規模言語モデルから小型モデルまで、様々なモデルをMUIRで評価した。大規模な実験により、GroupGPTが正確かつ適切なタイミングで応答を生成し、LLMベースの評価で平均4.72/5.0のスコアを達成し、多様なグループチャットシナリオにおいてユーザーから高く評価されることを示した。さらに、GroupGPTはベースラインメソッドと比較してトークン使用量を最大3分の1に削減し、クラウド送信前のユーザーメッセージに対するプライバシーサニタイズを提供する。コードは以下で公開されている:https://github.com/Eliot-Shen/GroupGPT
本論文では、自動音声認識(ASR)の室内音響に対するロバスト性評価のための、クリーン音声と残響音声のペアからなるベンチマークデータセット「Whisper-RIR-Mega」を提案する。各サンプルは、クリーンなLibriSpeech発話と、RIR-Megaコーパス由来の実測室内インパルス応答で畳み込まれた同一発話とを対応づけたものである。データは残響時間(RT60)と直接音・残響音比(DRR)に基づいて層化分割されている。5つのWhisperモデル(tiny ~ large-v3)を1600のテストサンプルで評価し、クリーン条件および残響条件における単語誤り率(WER)と文字誤り率(CER)を報告する。残響は全てのモデルサイズで一貫して性能を劣化させた。WERにおける残響による性能劣化(残響ペナルティ)は、モデルに応じて0.12~1.07パーセントポイントの範囲であった。再現性のあるロバストASR研究を支援するため、データセット、評価コード、およびベースライン結果を公開する。
微妙で間接的なヘイトスピーチは、オンライン安全性研究において未開拓の課題であり、特に有害な意図が誤解を招く操作的言説に埋め込まれた場合に顕著である。既存のヘイトスピーチデータセットは主に顕著な毒性を捕捉するが、誤情報がヘイトを煽動または常態化させる微妙な手法を十分に反映していない。この課題に対処するため、虚偽または歪曲された言説から生じるヘイトに関する推論と説明可能性の研究を進めるために設計された新規データセット「HateMirage」(フェイクヘイトコメント集)を提案する。本データセットは、ファクトチェック源から広く否定された誤情報主張を特定し、関連するYouTube議論を追跡することで構築され、4,530件のユーザーコメントから構成される。各コメントは、対象者(影響を受ける主体)、意図(コメント背後にある動機や目的)、含意(潜在的社会影響)という3つの解釈可能な次元で注釈付けされている。トークンレベルまたは単一次元の推論を提供するHateXplainやHAREなどの従来の説明可能性データセットとは異なり、HateMirageは誤情報・危害・社会的結果の相互関係を捉える多次元説明フレームワークを導入する。ROUGE-L F1とSentence-BERT類似度を用いて複数のオープンソース言語モデルを評価した結果、説明の質はモデル規模単独よりも、事前学習の多様性と推論指向データに依存する可能性が示唆された。誤情報推論と危害帰属を組み合わせることで、HateMirageは解釈可能なヘイト検出と責任あるAI研究の新たなベンチマークを確立する。
多ターン対話におけるテスト時ポリシー適応(T2PAM)は、推論時に大規模言語モデル(LLM)を動的なユーザー要求に適合させる上で不可欠である。しかし、既存のパラダイムではテスト時適応を単一軸の問題として扱うことが一般的であり、純粋に指示の洗練(プロンプトエンジニアリング)に終始するか、あるいは重みの調整(テスト時訓練)のみに焦点を当て、対話の失敗が曖昧性と能力不足の複合的な要因に起因することを見落としている。我々は、これら二つの最適化経路が単に加算的なものではなく相乗効果を持つと主張する。すなわち、意味的明確さは効果的なパラメータ更新の前提条件として機能するのである。この目的のために、我々は対話を「単語と重み」という異種混合空間における結合最適化問題として再定式化するフレームワークROSA2を提案する。誤差信号を数学的に分解することで、ROSA2はテキスト勾配を利用して意図の曖昧性を修正し、パラメータ更新によって能力ギャップを埋める。理論的には、この共適応が収束に必要なパラメータ変位を厳密に減少させることを証明する。実験では、ROSA2がMATHデータセットにおいて既存の最先端手法を30%上回り、対話ターン数を40%削減し、文脈の洗練がパラメータ更新の真の潜在能力を解放することを実証した。
ビデオ大規模言語モデル(VLLM)は優れた映像理解能力を示すが、冗長な視覚トークンによる非効率性が課題である。既存の剪定手法は主にフレーム内の空間的冗長性を対象とするか、浅い層のオーバーヘッドでLLM内部を剪定するため、時空間的な削減が最適ではなく、長文脈の圧縮可能性を十分に活用できていない。さらに、これらの手法は統合または剪定されたトークンから微妙ながら情報量の多い文脈を廃棄しがちである。本論文では、フレーム内およびフレーム間におけるトークンアンカーを精緻化し、局所-大域的最適輸送(AOT)を通じて情報量の多い文脈を包括的に集約する新たな視点を提案する。具体的には、まず注意機構の誘導に基づいて各フレーム内に局所・大域認識トークンアンカーを確立し、最適輸送によって剪定トークンから情報文脈を集約することで、フレーム内トークンアンカーを構築する。次に、時間的なフレームクリップに基づき、各クリップの最初のフレームをキーフレームアンカーとして、連続するフレームから類似情報を最適輸送を通じて集約する一方、時間的動態を表現するための特徴的なトークンを保持することで、トレーニング不要な方法で効率的なトークン削減を実現する。大規模な評価により、提案するAOTが主要なビデオLLMにおいて様々な短編・長編ビデオベンチマークで競争力のある性能を達成し、時間的・視覚的忠実性を保ちながら大幅な計算効率向上を実現することを示す。プロジェクトWebページ: https://tyroneli.github.io/AOT{AOT}。
フリップグラフアプローチを用いた高速行列乗算スキーム発見のためのオープンソースC++フレームワークを提案する。本フレームワークは、二進数(Z_2)、剰余三進数(Z_3)、整数三進数(Z_T = {-1,0,1})という複数の係数環をサポートし、固定次元およびメタ次元の探索演算子を実装する。係数ベクトルの効率的なビットレベル符号化とOpenMP並列処理により、市販のハードウェアで大規模探索を可能にする。本研究では(2×2×2)から(16×16×16)に至る680のスキームを網羅し、うち276スキームがZ_T係数、117スキームが整数係数で実現された。本フレームワークにより、79の行列乗算スキームで乗算計算量(ランク)が改善された。特に、乗算回数115回の新規4×4×10スキームを発見し、ω≈2.80478を達成、このサイズにおいてシュトラッセンの指数を上回った。加えて、従来有理数または整数係数でのみ知られていた93の三進数係数スキーム、および分数を必要としていた68の整数係数スキームを再発見した。再現可能な研究を促進するため、全てのツール及び発見されたスキームを公開する。
マルチドメイングラフ事前学習は、多様なドメインからの知識を統合して対象ドメインにおける性能を向上させる手法であり、グラフ基盤モデル構築において重要である。初期の成功にもかかわらず、既存手法は「知識がどのようにドメイン間で統合・転移されるか」という本質的問いに十分答えられていない。この理論的限界は、モデル事前学習とドメイン適応の間の一貫性と転移可能性を再考する動機となる。本論文では、リーマン幾何学の新たな視点を提案する。核心となる考え方は、任意のグラフデータセットを統一された滑らかなリーマン多様体へ統合し、知識統合と転移の体系的理解を可能にすることである。これを実現するため、我々の主要な貢献は神経多様体接着の理論的確立である。これは適応的正交フレームによる局所幾何の特徴付けに始まり、局所片を一貫した全体へ「接着」する。この理論に基づき、EMAプロトタイピングによるバッチ事前学習をサポートし、幾何的一貫性に基づく転移可能性指標を提供するGraphGlueフレームワークを提案する。大規模実験により、多様なグラフドメインにおける優れた性能を実証した。さらに、GraphGlueの幾何的スケーリング則を実証的に検証し、より多くのデータセットが滑らかな多様体を生成することでモデルの転移可能性を向上させることを示した。コードはhttps://github.com/RiemannGraph/GraphGlue で公開されている。
レイトレーシングは正確な電波伝搬モデリングの標準技術となっているが、計算量が指数関数的に増大する問題を抱えている。これは候補経路数が物体数の相互作用次数乗に比例して増加するためである。このボトルネックにより、大規模あるいはリアルタイム応用での利用が制限され、従来のツールでは精度低下の代償を払ってヒューリスティックに経路候補を削減せざるを得ない。この制約を克服するため、我々は網羅的経路探索をGenerative Flow Networksによる知的サンプリングに置き換える包括的機械学習支援フレームワークを提案する。この分野に生成的モデルを適用する際には、特に有効経路の希少性に起因する報酬のスパース性が重大な課題となり、複雑環境での高次相互作用評価において収束失敗や自明解を招く恐れがある。堅牢な学習と効率的な探索を確保するため、本フレームワークでは3つの主要な構成要素を導入する。第一に、希少な有効経路を捕捉・保持する経験再生バッファを実装する。第二に、単純な幾何学形状への過適合を防ぎ汎化性能を向上させる均一探索ポリシーを採用する。第三に、物理的に不可能な経路をモデルの評価前にフィルタリングする物理ベースの行動マスキング戦略を適用する。実験的検証で示すように、提案モデルは網羅的探索よりも大幅な高速化(GPUで最大10倍、CPUで最大1000倍)を達成しつつ、高いカバレッジ精度を維持し、複雑な伝搬経路の特定に成功している。完全なソースコード、テスト及びチュートリアルはhttps://github.com/jeertmans/sampling-pathsで公開されている。