翻訳付きの日次キュレーションされたAI研究論文
我々は、概念プロンプト(「黄色いスクールバス」などの短い名詞句、画像例、またはその両方の組み合わせ)に基づいて画像や動画内のオブジェクトを検出、セグメンテーション、追跡する統一モデルであるSegment Anything Model (SAM) 3を提案する。プロンプト可能概念セグメンテーション(PCS)は、このようなプロンプトを受け取り、一致する全オブジェクトインスタンスのセグメンテーションマスクと一意の識別子を返す。PCSの進展に向け、画像と動画にわたる400万の一意な概念ラベル(困難なネガティブ例を含む)からなる高品質データセットを生成するスケーラブルなデータエンジンを構築した。本モデルは、単一のバックボーンを共有する画像レベル検出器とメモリベースの動画追跡器で構成される。認識と位置特定は存在検出ヘッドによって分離され、検出精度を向上させる。SAM 3は、画像および動画PCSにおいて既存システムの精度を2倍に高め、視覚的セグメンテーションタスクにおける従来のSAM機能を改善する。我々はSAM 3と、プロンプト可能概念セグメンテーションのための新ベンチマークSegment Anything with Concepts (SA-Co)をオープンソースとして公開する。
現在のエージェント的視覚推論に関する研究は、深層マルチモーダル理解を可能にしているものの、主に画像操作ツールに焦点が当てられており、より汎用性の高いエージェント的モデルへの発展には隔たりが生じている。本研究では、微妙な視覚的接地だけでなく、推論過程で仮説を確認または洗練させるためのウェブ検索も必要とするジオローカライゼーション(地理的位置特定)タスクを再検討する。既存のジオローカライゼーションのベンチマークは、高解像度画像へのニーズや、深層エージェント的推論における位置特定の課題を満たせていないため、世界中の写真やパノラマ、さらに様々な都市の衛星画像のサブセットを含むベンチマーク「GeoBench」を構築し、エージェント的モデルのジオローカライゼーション能力を厳密に評価する。また、「GeoVista」というエージェント的モデルを提案する。これは、関心領域を拡大する画像拡大ツールや、関連するウェブ情報を取得するウェブ検索ツールを含む、推論ループ内でのツール呼び出しをシームレスに統合するモデルである。これに対して、推論パターンとツール使用の事前知識を学習するコールドスタートの教師ありファインチューニング(SFT)段階と、推論能力をさらに強化する強化学習(RL)段階を含む、完全なトレーニングパイプラインを開発した。マルチレベルな地理情報を活用し、全体的なジオローカライゼーション性能を向上させるため、階層的な報酬を採用する。実験結果では、GeoVistaがジオローカライゼーションタスクにおいて他のオープンソースのエージェント的モデルを大きく上回り、ほとんどの指標でGemini-2.5-flashやGPT-5といったクローズドソースモデルに匹敵する性能を達成することが示されている。
本質次元(ID)は、現代のLLM分析における重要なツールであり、学習ダイナミクス、スケーリング挙動、データセット構造の研究に寄与しているが、そのテキスト的規定要因は未解明のままである。本研究は、クロスエンコーダ分析、言語特徴量、スパースオートエンコーダ(SAE)を通じて、IDを解釈可能なテキスト特性に根ざした初の包括的検証を提供する。本論文では3つの主要な知見を確立する。第一に、IDはエントロピーベースの指標と相補的である:長さを統制した後、両者に相関はなく、IDは予測精度とは直交する幾何学的複雑性を捕捉する。第二に、IDは頑健なジャンル階層性を示す:科学的散文は低ID(~8)、百科事典的コンテンツは中程度ID(~9)、創造的/意見文は高ID(~10.5)を、テストした全モデルで一貫して示した。これは、現代のLLMが科学的テキストを「表現的に単純」と見なし、一方で小説には追加の自由度が必要であることを明らかにする。第三に、SAEを用いて因果的特徴を特定:科学的シグナル(形式ばった文体、報告書テンプレート、統計)はIDを低下させ、人間化シグナル(個人化、感情、物語性)はIDを増加させる。ステアリング実験によりこれらの効果が因果的であることを確認。したがって、現代のモデルにおいて科学的文章は比較的「容易」であるのに対し、小説、意見文、情感表現は表現的な自由度を追加すると言える。我々の多面的分析は、IDの適切な使用法とIDに基づく結果の適切な解釈に向けた実践的指針を提供する。
大規模推論モデルの最近の進展により、その能力をマルチモーダル領域に拡張することに対する関心が高まっている。しかし、視覚的推論における顕著な進歩にもかかわらず、透明性と再現性のあるデータキュレーションおよびトレーニング戦略の欠如が、スケーラブルな研究の主要な障壁となっている。本研究では、教師ありファインチューニング(SFT)と強化学習(RL)にまたがるマルチモーダル推論のための完全に透明な2段階のレシピであるOpenMMReasonerを紹介する。SFT段階では、厳密なステップバイステップの検証を経て構築された874Kサンプルのコールドスタートデータセットを提供し、推論能力の強固な基盤を築く。続くRL段階では、多様な領域にわたる74Kサンプルのデータセットを活用してこれらの能力をさらに研ぎ澄まし、安定化させることで、より堅牢で効率的な学習プロセスを実現する。広範な評価により、我々のトレーニングレシピが強力なベースラインを上回るだけでなく、データ品質とトレーニング設計がマルチモーダル推論性能を形成する上で重要な役割を果たすことが明らかになった。特に、我々の手法は、9つのマルチモーダル推論ベンチマークにおいてQwen2.5-VL-7B-Instructベースラインに対して11.6%の改善を達成し、将来の大規模マルチモーダル推論研究のための確固たる経験的基盤を確立した。我々は、すべてのコード、パイプライン、およびデータをhttps://github.com/EvolvingLMMs-Lab/OpenMMReasonerでオープンソース化した。
我々はRynnVLA-002を紹介する。これは統合型のVision-Language-Action(VLA)モデルかつ世界モデルである。世界モデルは行動と視覚入力を活用して将来の画像状態を予測し、環境の基礎物理を学習することで行動生成を洗練させる。逆に、VLAモデルは画像観測から後続の行動を生成し、視覚理解を強化するとともに世界モデルの画像生成を支援する。RynnVLA-002の統合フレームワークにより、環境ダイナミクスと行動計画の共同学習が可能となる。実験結果では、RynnVLA-002が個別のVLAモデルと世界モデルを凌駕し、相互強化が実証された。シミュレーションと実世界ロボットタスクの両方で評価を実施。RynnVLA-002は事前学習なしでLIBEROシミュレーションベンチマークにおいて97.4%の成功率を達成し、実世界のLeRobot実験では統合世界モデルが全体の成功率を50%向上させた。
大規模言語モデルを活用したエージェントの最近の進展は、人間らしい応答の生成において大きな可能性を示しているが、複雑な環境下での長期的な対話の維持には、文脈的一貫性と動的パーソナライゼーションの限界から、依然として課題が残っている。既存のメモリシステムは、検索前に意味的なグループ化に依存する傾向があり、意味的には無関係だが重要なユーザー情報を見落としたり、検索ノイズを導入したりする可能性がある。本報告では、能動的ユーザープロファイリングに基づく新しいメモリフレームワーク「O-Mem」の初期設計を提案する。O-Memは、ユーザーがエージェントと能動的に交わる過程から、ユーザー特性とイベント記録を動的に抽出・更新する。O-Memは、人物属性とトピック関連文脈の階層的検索をサポートし、より適応的で一貫性のあるパーソナライズ応答を実現する。O-Memは、公開ベンチマークLoCoMoで51.67%、従来の最高性能モデルであるLangMemを約3%上回り、PERSONAMEMでは62.99%を達成し、従来の最高性能モデルA-Memを3.5%上回った。また、O-Memは従来のメモリフレームワークと比較して、トークンおよび対話応答時間の効率性も向上させている。本研究は、効率的で人間らしいパーソナライズAIアシスタントの開発に向けた有望な方向性を開くものである。
テキスト豊富な動画を理解するには、小さく一過性のテキスト手がかりを読み取る必要があり、多くの場合繰り返しの確認が求められます。しかし既存の動画QAモデルの多くは、固定フレームに対する単一パスの知覚に依存しており、微細な証拠の認識において幻覚生成や失敗を引き起こしています。人間が重要な領域で一時停止、拡大、再読する方法に着想を得て、私たちはVideo-R4(Visual Ruminationによるテキスト豊富動画推論の強化)を提案します。これは視覚的反芻(ビジュアルルミネーション)を実行する動画推論LMMであり、フレームの反復的選択、情報豊富な領域へのズーム、取得ピクセルの再エンコード、推論状態の更新を行います。実行可能な反芻軌道を含む2つのデータセットを構築しました:教師あり学習のためのVideo-R4-CoT-17kと強化学習のためのVideo-R4-RL-30kです。7BパラメータLMMを段階的にファインチューニングし、SFTとGRPOベースの強化学習を通じて原子的視覚操作と混合操作を学習する多段階反芻学習フレームワークを提案します。Video-R4-7BはM4-ViteVQAでState-of-the-Artを達成し、さらにマルチページ文書QA、スライドQA、汎用動画QAへも一般化可能であり、反復的反芻がピクセルに基づいたマルチモーダル推論の効果的パラダイムであることを実証しました。
本論文では、テキストプロンプトから大規模なインタラクティブ3Dワールドを自動生成するシステム「WorldGen」を提案する。本手法は自然言語による記述を、標準的なゲームエンジン内で即座に探索または編集可能な、走査可能な完全テクスチャ環境へ変換する。LLM駆動のシーン配置推論、プロシージャル生成、拡散ベースの3D生成、オブジェクト認識型シーン分解を組み合わせることで、WorldGenは創造的意図と機能的な仮想空間の間の隔たりを埋め、クリエイターが手動モデリングや専門的な3D知識なしに一貫性のある航行可能なワールドを設計できるようにする。本システムは完全にモジュール化されており、レイアウト・スケール・スタイルに対するきめ細かい制御をサポートし、幾何学的に一貫性があり視覚的に豊か、かつリアルタイムレンダリングに効率的なワールドを生成する。本研究は、ゲーム・シミュレーション・没入型ソーシャル環境への応用に向け、大規模な生成型ワールド構築のアクセシビリティを高める3D生成AIのフロンティアを推進する一歩となる。
本研究では、大規模言語モデル(LLM)における権威や説得によってユーザーに加えられる社会的圧力下で生じる精度劣化、すなわちシンコファンシー(過度な同調)現象を測定する、ロバスト性に焦点を当てたフレームワーク「PARROT(Persuasion and Agreement Robustness Rating of Output Truth)」を提案する。PARROTは、(i)同じ質問の中立版と権威的に誤った版を二重盲検評価で比較することで因果効果を分離し、(ii)対数尤度ベースのキャリブレーション追跡を用いて正解および強制された誤答への確信度の変化を定量化し、(iii)8状態の行動分類体系を用いて失敗モード(例:ロバスト正解、シンコファンシー同調、錯誤強化、頑迷錯誤、自己修正など)を系統的に分類する。13分野の1,302のMMLU形式多肢選択問題と分野特化の権威テンプレートを用いて22モデルを評価した結果、顕著な不均一性が明らかになった:先進モデル(GPT-5、GPT-4.1、Claude Sonnet 4.5など)は低い「追従率」(11%以下、GPT-5は4%)と最小限の精度低下を示す一方、旧世代/小規模モデルは深刻な認識論的崩壊(GPT-4:80%、Qwen 2.5-1.5B:94%)を示した。危険性は回答変更に留まらず、弱いモデルは正解への確信度を低下させつつ強制された誤答への確信度を高める。国際法や分野レベルの世界知識は高い脆弱性を示す一方、初等数学は比較的耐性があった。以上より、実世界での安全な展開には、精度、危害回避、プライバシーに並ぶ主要目標として「過剰同調圧力への抵抗性」を課題とすべきと論じる。
ステップバイステップの絵画チュートリアルは芸術的技法の習得に不可欠ですが、既存の動画リソース(例:YouTube)には双方向性と個人化が不足しています。近年の生成モデルは芸術的画像合成において進歩を遂げていますが、媒体間の汎化が困難で、時間的または構造的な不整合が生じやすく、人間の創造的ワークフローの正確な再現を妨げています。この課題に対処するため、我々は複数媒体を拡散モデルの条件付き空間に埋め込み、媒体横断的スタイル拡張を活用する意味論駆動のスタイル制御機構を備えた、マルチメディア絵画プロセス生成の統一フレームワークを提案します。これにより、一貫した質感の進化とスタイル横断的なプロセス転移が可能となります。逆方向描画トレーニング戦略により、滑らかで人間の創作過程に沿った生成をさらに保証します。また、実写の絵画プロセスからなる大規模データセットを構築し、媒体横断的一貫性、時間的連続性、最終画像の忠実度を評価し、LPIPS、DINO、CLIP指標において優れた結果を達成しました。最後に、知覚距離プロファイル(PDP)曲線を用いて、構図決定、色面分割、細部仕上げといった創造的作業序列を定量的にモデル化し、人間の芸術的進行を反映させることに成功しました。
視覚言語モデル(VLM)は目覚ましい成功を収めているにもかかわらず、複雑な視覚タスクにおけるその性能は、「視覚処理ボトルネック」、すなわち、長時間の生成過程において視覚的根拠への接地を失い、文脈化された視覚的経験が不足する傾向によって、しばしば阻害されている。ヒトの認知記憶理論、特に短期的で視覚優位な記憶と長期的で意味優位な記憶を区別する理論に着想を得て、我々はVisMemを提案する。これは、VLMに動的な潜在視覚メモリ、すなわち細粒度の知覚保持のための短期モジュールと、抽象的な意味統合のための長期モジュールを装備した、認知理論に沿ったフレームワークである。これらのメモリは推論時にシームレスに呼び出され、VLMが思考と生成の過程全体で知覚的忠実性と意味的一貫性の両方を維持することを可能にする。理解、推論、生成の多様な視覚ベンチマークによる大規模な実験により、VisMemが標準モデルに対して平均11.8%の大幅な性能向上をもたらし、全ての比較手法を凌駕することが明らかとなり、潜在空間メモリ強化の新たなパラダイムを確立した。コードは以下で公開予定である:https://github.com/YU-deep/VisMem.git
近年、Vision-Language-Action(VLA)モデルの進展により、視覚信号が疎な行動教師信号を効果的に補完できることが実証されている。しかし、VLAに高次元の視覚状態を直接予測させると、モデル容量が分散し、膨大な学習コストが生じる一方、視覚状態をよりコンパクトな教師信号に圧縮すると、情報ボトルネックが避けられない。さらに、既存手法では言語監督が軽視されるため、理解・推論能力が不十分になりがちである。本論文では、これらの課題を解決するため、Disentangled Visual Foresight(DVF)を特徴とする新規フレームワークMantisを提案する。具体的には、Mantisはメタクエリと拡散Transformer(DiT)ヘッドを組み合わせることで、視覚的予測をバックボーンから分離する。残差接続を介して現在の視覚状態をDiTに供給することで、単純な次状態予測タスクにより、メタクエリが視覚軌跡を規定する潜在行動を自動的に獲得し、明示的行動の学習を促進する。この分離によりVLAバックボーンの負担が軽減され、言語監督を通じた理解・推論能力の維持が可能となる。実証実験では、人間の操作動画、ロボット実演データ、画像-テキストペアで事前学習したMantisは、ファインチューニング後LIBEROベンチマークで96.7%の成功率を達成し、強力なベースラインを上回りながら高い収束速度を示した。実世界評価では、MantisはオープンソースVLAモデルであるπ_{0.5}を、特に指示追従能力、未見指示への一般化、推論能力において凌駕することを示した。コードと重みはオープンソースコミュニティに公開されている。
本論文では、まばらな入力ビューからのマルチビュー画像編集タスクに取り組む。入力は、異なる視点からシーンを捉えた画像の混合と見なすことができる。目的は、テキスト指示に従ってシーンを変更しつつ、すべてのビューの一貫性を維持することである。シーンごとのニューラルフィールドや時間的アテンション機構に基づく既存手法は、この設定ではアーティファクトや非一貫性のある編集を生成しがちで、困難に直面している。我々は、2D拡散モデルの編集能力を事前学習済みマルチビュー拡散モデルに蒸留し、そのデータ駆動型3D事前分布を視点間一貫性に活用するフレームワーク、InstructMix2Mix(I-Mix2Mix)を提案する。主要な貢献は、Score Distillation Sampling(SDS)における従来のニューラルフィールド統合器を、マルチビュー拡散「学生」モデルに置き換えることである。これには新規の適応が必要となる:タイムステップ間での漸次的学生モデル更新、退化を防ぐための特殊化された教師モデルノイズスケジューラ、追加コストなしで視点間コヒーレンスを強化するアテンション修正である。実験により、I-Mix2Mixがフレームごとの編集品質を高く維持しつつ、マルチビュー一貫性を大幅に改善することが実証された。
大規模マルチモーダルモデルの発展は視覚的理解と推論において顕著な進歩をもたらしたが、実用上の要求はより小型で効率的なシステムを求めている。本研究では、マルチモーダルモデルにおける知能のダウンスケーリングを体系的な分析により検証し、大規模言語モデル(LLM)の容量削減がマルチモーダル能力に与える影響を考察する。初期の知見として、LLMのダウンスケーリングがLLMから継承された能力よりも視覚能力に不均衡に影響を与えるという興味深い傾向を明らかにする。次に、この性能低下が視覚推論の予測可能な衰退によるものか、あるいは知覚能力の根本的な喪失を示すものかを検証する。知覚に対するLLMダウンスケーリングの影響を分離分析した結果、性能が依然として急激に低下し、多くの場合で推論への影響と同等またはそれを上回ることが判明した。このボトルネックに対処するため、タスク横断的に指示に関連する視覚的詳細を一貫して抽出するようモデルを明示的に訓練する「視覚抽出チューニング」を提案する。抽出された視覚的詳細を用いて、段階的推論により回答を生成する。これらを統合した「Extract+Think」アプローチは、この領域における効率性と性能の新たな基準を確立するものである。
ゲノム配列のモデリングには、未解決の2つの課題が存在する。すなわち、情報密度が領域によって大きく異なること、および明確に定義された最小語彙単位が存在しないことである。4つの塩基に依存するか、あるいは独立に設計されたDNAトークナイザーに依存する既存の手法は、単純なマスク言語モデル事前学習を用いることが多く、ゲノム配列の多様な複雑性に適応できない場合が多い。本論文では、Token Merging技術を活用し、動的なゲノムトークナイザーと潜在Transformerを、文脈を考慮した事前学習タスクで共同最適化する階層的アーキテクチャを提案する。ネットワーク構造については、トークン化モジュールが、局所ウィンドウ制約を付加した微分可能なトークン統合ブロックを多層に積み重ねることで、隣接する塩基を自動的に単語に分割する。その後、Latent Encoderが全注意ブロックによりこれらの統合された単語の大域的な文脈を捕捉する。Latent DecoderとLocal Decoderを対称的に用いるMergeDNAは、2つの事前学習タスクで学習する。Merged Token Reconstructionは動的トークン化モジュールを同時に訓練し、重要なトークンを適応的にフィルタリングする。一方、Adaptive Masked Token Modelingは、これらのフィルタリングされたトークンを予測することを学習し、情報量の多い内容を捕捉する。大規模な実験により、MergeDNAが3つの主要なDNAベンチマークおよびいくつかのマルチオミクス課題において、ファインチューニングまたはゼロショット評価で優れた性能を達成し、典型的なトークン化手法や大規模DNA基盤モデルを凌駕することが示された。
視覚言語行動(VLA)モデルは一般的なロボットタスクへの可能性を示すが、細粒度の表現を必要とする時空間的に一貫したマニピュレーションでは依然として課題が多い。既存手法では通常、3次元位置情報を視覚表現に埋め込むことで動作の空間精度を向上させている。しかしこれらの手法は、動作実行における時間的に一貫した制御を実現するのに苦戦している。本研究では、時空間的に一貫したロボットマニピュレーションのための4次元知覚を備えた汎用VLAモデルであるVLA-4Dを提案する。我々のモデルは以下の2つの核心的設計に基づく:(1)4次元知覚視覚表現:視覚特徴を抽出し、1次元時間を3次元位置に埋め込んで4次元埋め込みを生成し、クロスアテンション機構により統合された視覚表現に融合する。(2)時空間的動作表現:従来の空間的動作表現に時間情報を拡張して時空間的計画を可能にし、マルチモーダル表現を大規模言語モデル(LLM)に整合させることで時空間的動作予測を実現する。この統一フレームワーク内で、設計された視覚表現と動作表現が共同して、ロボットマニピュレーションを空間的に滑らかかつ時間的に一貫したものにする。さらに、モデルのファインチューニングのために時空間的動作注釈を追加したVLAデータセットを拡張した。様々なロボットマニピュレーションタスクにおける本手法の優位性を検証するため、広範な実験を実施した。
ピアレビューは、ICLRのような主要な機械学習カンファレンスを含む科学出版の礎石である。投稿数が増加する中、レビュープロセスの本質とダイナミクスを理解することは、その効率性、有効性、および出版論文の質を向上させるために極めて重要である。本稿では、ICLR 2024および2025のピアレビュープロセスに焦点を当て、反論前後のスコアとレビュアーと著者の相互作用に着目した大規模分析を提示する。我々は、レビュースコア、著者とレビュアーの関与度、レビュー投稿の時間的パターン、共同レビュアーの影響効果を検証する。定量分析と、レビューテキスト及び反論議論に対するLLMベースの分類を組み合わせることで、各評価グループに共通する長所と短所、およびスコア変動に最も強く関連する反論戦略の傾向を明らかにする。我々の分析結果は、初期スコアと共同レビュアーの評価が反論期間中のスコア変動の最も強力な予測因子であり、一定のレビュアー間の影響の存在を示唆している。反論は、境界線上の論文の採択結果を改善する上で有益な役割を果たしており、思慮深い著者の応答がレビュアーの見解を有意に変化させ得る。より広く見れば、本研究はピアレビュープロセスを改善するための証拠に基づく知見を提供し、著者に対して効果的な反論戦略を指南し、コミュニティがより公平で効率的なレビュープロセスを設計するのに貢献する。コード及びスコア変動データはhttps://github.com/papercopilot/iclr-insights で公開されている。
大規模言語モデル(LLM)の急速な発展に伴い、AIエージェントは仮説生成、実験設計、論文執筆に至る科学タスクにおいて、ますます高い能力を示している。このようなエージェントシステムは一般に「AI Scientist」と呼ばれる。しかし、既存のAI Scientistは科学発見を主に独立した探索または最適化問題として定式化しており、科学研究が本質的に社会的かつ協調的な営みであるという事実を見落としている。現実世界の科学は、協働メカニズム、貢献の帰属、ピアレビュー、構造化された科学知識ネットワークから構成される複雑な科学インフラに依存している。これらの重要な次元をモデル化していないため、現行システムは真の研究エコシステムを確立したり、人間の科学コミュニティと深く相互作用したりするのに苦労している。このギャップを埋めるため、我々は人間の研究の根底にあるメカニズムをAI科学ワークフローに明示的に符号化するフレームワーク、OmniScientistを提案する。OmniScientistは、データ基盤、文献レビュー、研究アイデア創出、実験自動化、科学論文執筆、ピアレビューにわたるエンドツーエンドの自動化を実現するだけでなく、人間の科学システムをシミュレートすることによる包括的なインフラストラクチャ支援を提供する。具体的には、(1) 引用ネットワークと概念的相関に基づく構造化知識システム、(2) シームレスなマルチエージェント協働と人間の研究者の参加を可能にする協調研究プロトコル(OSP)、(3) ブラインドのペアワイズユーザー投票とEloレーティングに基づくオープン評価プラットフォーム(ScienceArena)から構成される。このインフラにより、エージェントは人間の知識システムを理解し活用できるだけでなく、協働し共進化することが可能となり、持続可能で拡張性のあるイノベーションエコシステムの育成が促進される。
Visual Autoregressive(VAR)モデルは、革新的なnext-scale予測パラダイムにより近年注目を集めており、従来の多段階自己回帰(AR)モデルや拡散モデルと比較して、推論効率と画像品質の両方で顕著な利点を提供する。しかし、効率性にもかかわらず、VARモデルは多様性崩壊(diversity collapse)、すなわち出力の多様性低下に悩まされることが多い。これは、少ステップ蒸留拡散モデルで観察される現象と類似している。本論文では、追加の学習を一切必要とせずにVARモデルの生成多様性を回復させる、シンプルかつ効果的な手法DiverseVARを提案する。我々の分析により、初期スケールにおける多様性形成を支配する鍵要因として特徴マップの pivotal component が明らかになった。モデル入力ではこの pivotal component を抑制し、モデル出力ではそれを増幅することにより、DiverseVARは高精細な合成品質を維持しつつVARモデルが内在する生成可能性を効果的に解放する。実験結果は、本手法が性能への影響を無視できる程度に抑えながら、生成多様性を大幅に向上させることを実証している。コードは https://github.com/wangtong627/DiverseVAR で公開予定である。
禁止物検出モデルの学習には大量のX線セキュリティ画像が必要ですが、これらの画像の収集と注釈付けは時間と労力を要します。データ不足に対処するため、X線セキュリティ画像合成手法では画像を合成してデータセットを拡張します。しかし、従来手法は主に2段階のパイプラインを採用しており、最初の段階で労力を要する前景抽出を実施し、次の段階で画像合成を行います。このようなパイプラインは避けられない追加の人的コストを生み、効率的ではありません。本論文では、テキストから画像への生成に基づく1段階のX線セキュリティ画像合成パイプライン(Xsyn)を提案し、合成画像の実用性を高めるための2つの効果的な戦略を組み込みます。Cross-Attention Refinement(CAR)戦略では、拡散モデルから得られるクロスアテンションマップを活用してバウンディングボックスの注釈を精緻化します。Background Occlusion Modeling(BOM)戦略では、潜在空間における背景のオクルージョンを明示的にモデル化し、画像の複雑性を高めます。私たちの知る限り、Xsynは従来手法と比較して、追加の人的コストなしに高品質なX線セキュリティ画像合成を実現した初めての手法です。実験により、本手法が従来手法をすべて上回り(mAPで1.2%向上)、本手法で生成された合成画像が様々なX線セキュリティデータセットと検出器における禁止物検出性能の向上に有益であることが実証されました。コードはhttps://github.com/pILLOW-1/Xsyn/ で公開されています。
近年のビデオ生成手法では、時間的一貫性と動作の忠実性を向上させるため、物体軌道などの中間制御信号を計画することが増えている。しかし、これらの手法は単一の計画を用いることが多く、単純な動作に限定されがちである。あるいは、反復的な改善を行う場合でも、ビデオ生成器を複数回呼び出す必要があり、計算コストが高くなる。これらの制限を克服するため、我々はSketchVerifyを提案する。これは学習を必要としない、スケッチ検証に基づく計画フレームワークであり、テスト時サンプリングと検証ループを導入することで、完全なビデオ生成に先立って、より動的に一貫した軌道(物理的に妥当で指示に合致する動作)を用いて動作計画の品質を向上させる。プロンプトと参照画像が与えられると、本手法は複数の候補動作計画を予測し、指示との意味的整合性と物理的妥当性を同時に評価する視覚言語検証器を用いてそれらをランク付けする。候補動作計画を効率的に評価するため、各軌道を静的背景上に物体を合成した軽量なビデオスケッチとしてレンダリングする。これにより、高価な拡散ベースの合成を繰り返す必要性を回避しつつ、同等の性能を達成する。満足のいく計画が特定されるまで動作計画を反復的に改善し、その後、軌道条件付き生成器に渡して最終合成を行う。WorldModelBenchとPhyWorldBenchを用いた実験により、本手法が競合するベースラインと比較して、動作の質、物理的真实感、長期的な一貫性を大幅に改善し、かつ大幅に効率的であることを実証した。アブレーション研究はさらに、軌道候補の数を増やすことが全体の性能を一貫して向上させることを示している。
ビジョン言語モデル(VLM)の誤用が増加していることを受け、プロバイダーはアライメント調整、システムプロンプト、コンテンツモデレーションなど複数のセーフガードを導入している。しかし、敵対的攻撃に対するこれらの防御策の実世界での頑健性は未だ十分に検証されていない。本研究では、GPT-4o、Gemini-Pro、Llama-4などの主要な防御機能付きVLMに普遍的に存在する安全性の脆弱性を体系的に露呈するフレームワーク、Multi-Faceted Attack(MFA)を提案する。MFAの中核をなすのは、競合する目的を持つメタタスク内に有害な指示を隠蔽するAttention-Transfer Attack(ATA)である。本攻撃が成功する理論的根拠を、報酬ハッキングの観点から説明する。さらに、モデル固有のファインチューニングを必要とせず、入力レベルと出力レベルの両方のフィルターを同時に回避する、軽量な転移性向上アルゴリズムと単純な反復戦略を組み合わせて提案する。実験により、ある視覚エンコーダ向けに最適化した敵対的画像が未見のVLMに広く転移可能であることを示し、共有された視覚表現がモデル横断的な安全性の脆弱性を生み出すことを明らかにする。全体として、MFAは58.5%の成功率を達成し、既存手法を一貫して上回った。特に最新の商用モデルでは52.8%の成功率を達成し、第二位の攻撃手法を34%上回った。これらの結果は、現在の防御機構の頑健性に対する通念に疑問を投げかけ、現代のVLMに存在する根強い安全性の弱点を浮き彫りにする。コード:https://github.com/cure-lab/MultiFacetedAttack
AMDハードウェア上で初となる大規模なMixture-of-Experts(MoE)事前学習の実証研究について報告する。本実験では、Pollaraインターコネクトを搭載したMI300X GPUを活用し、システム設計とモデル設計の両面における実用的な知見を導出した。システム面では、クラスタとネットワーキングに関する包括的な特性評価を実施した。具体的には、Pollara上における主要な集団通信(all-reduce、reduce-scatter、all-gather、broadcast)のマイクロベンチマークを、様々なメッセージサイズとGPU数で計測した。我々の知る限り、この規模での測定は初めての試みである。さらに、モデル設計に資するため、MI300Xにおけるカーネルサイジングとメモリ帯域幅に関するマイクロベンチマークを提供する。モデリング面では、MI300Xを意識したAttentionおよびMLPブロックのトランスフォーマーサイジング規則を導入・適用し、学習スループットと推論レイテンシを同時に最適化するMoEの幅を理論的に示す。学習スタックについては、耐障害性やチェックポイント再構成など見過ごされがちなユーティリティも含め詳細に説明し、学習レシピに関する詳細な情報を提供する。また、今後の論文でさらに改良を加える予定のモデルアーキテクチャとベースモデル「ZAYA1(活性化パラメータ7億6000万、総パラメータ83億のMoE)」を紹介する。ZAYA1ベースは、同規模乃至より大規模なQwen3-4BやGemma3-12Bなどの主要ベースモデルに匹敵する性能を達成し、推論、数学、コーディングのベンチマークにおいてLlama-3-8BやOLMoEなどのモデルを上回った。これらの結果は、AMDのハードウェア、ネットワーク、ソフトウェアスタックが、競争力のある大規模事前学習を実施するのに十分に成熟かつ最適化されていることを実証している。
サリエンシーマップは深学習における視覚的説明として広く利用されているが、その本来の目的と多様なユーザークエリとの整合性に関して、根本的な合意の欠如が持続している。この曖昧さが説明手法の効果的な評価と実用的有用性を妨げている。我々はこの隔たりを埋めるため、原則に基づいた概念的枠組みであるReference-Frame(参照枠)× Granularity(粒度)(RFxG)分類体系を提案する。これはサリエンシー説明を2つの重要な軸に沿って整理する: **参照枠**: 点別的な説明(「なぜこの予測なのか?」)と対比的な説明(「なぜこれであって代替案ではないのか?」)を区別する。 **粒度**: 細粒度なクラスレベル(例:「なぜハスキーなのか?」)から粗粒度なグループレベル(例:「なぜ犬なのか?」)までの解釈の範囲。 RFxGのレンズを通して、既存の評価指標が圧倒的に点別的な忠実性を優先し、対比的推論と意味的粒度を軽視するという重大な限界を実証する。両RFxG次元にわたる説明品質を体系的に評価するため、我々は4つの新しい忠実性指標を提案する。我々の包括的評価フレームワークは、これらの指標を10の最先端サリエンシー手法、4つのモデルアーキテクチャ、3つのデータセットに適用する。ユーザーの意図主導の評価への転換を提唱することで、本研究は、基礎となるモデル挙動に対して忠実であるだけでなく、人間の理解と問いの複雑性に意味的に整合した視覚的説明を開発するために必要な概念的基盤と実践的ツールの両方を提供する。