翻訳付きの日次キュレーションされたAI研究論文
大規模マルチモーダル生成モデルの最近の進展は、画像や動画生成を含むマルチモーダル生成において印象的な能力を示している。これらのモデルは通常、拡散やフローマッチングのような多段階フレームワークに基づいて構築されており、これが推論効率を本質的に制限している(40~100回の関数評価回数(NFE)を必要とする)。少数ステップ化による推論加速を目指す様々な手法が存在するが、既存の解決策には明らかな限界がある。プログレッシブ蒸留や一貫性蒸留といった代表的な蒸留ベースの手法は、反復的な蒸留プロセスを必要とするか、非常に少ないステップ数(4-NFE未満)で性能が大幅に劣化する。一方、性能向上のために敵対的訓練を蒸留に統合する手法(DMD/DMD2やSANA-Sprintなど)は、補助的に訓練されるモデルにより、訓練の不安定性、複雑さの増大、高いGPUメモリ負荷をもたらす。そこで本研究では、固定された事前訓練済み教師モデルを必要とせず、訓練中に標準的な敵対的ネットワークを回避する、1ステップ生成モデルを訓練するための簡潔かつ効果的なフレームワーク「TwinFlow」を提案する。テキストから画像へのタスクにおいて、本手法は1-NFEでGenEvalスコア0.83を達成し、SANA-Sprint(GAN損失ベースのフレームワーク)やRCGM(一貫性ベースのフレームワーク)といった強力なベースラインを上回った。特に、Qwen-Image-20Bでの全パラメータ訓練によりTwinFlowの拡張性を実証し、効率的な少数ステップ生成器へと変換した。わずか1-NFEで、我々のアプローチはGenEvalとDPG-Benchの両ベンチマークにおいて元の100-NFEモデルの性能を維持し、計算コストを100分の1に削減しながらも品質劣化を最小限に抑えている。プロジェクトページはhttps://zhenglin-cheng.com/twinflowで公開されている。
指示に基づく画像編集は、画像生成基盤モデルの恩恵を受け、高い審美性を実現した主要な研究分野として台頭しており、指示追従能力が主要な課題となっています。既存の手法は教師あり学習や強化学習を通じて指示への忠実性を向上させてきましたが、内在的な確率性と熟慮の不足により、単一ターンでの成功率は限られています。本研究では、編集しながら「思考」する熟慮的編集フレームワークを提案します。これは、Think-while-Editサイクル(結果の批評、指示の洗練、満足のいく結果が得られるまで生成を繰り返す)を反復実行することで、人間の認知ループを模倣します。具体的には、単一のMLLMであるEditThinkerを訓練し、このフレームワークの推論エンジンとして機能させ、批評スコア、推論プロセス、洗練された指示を統合的に生成します。EditThinkerの思考と編集を整合させるため強化学習を採用し、より焦点化された指示改善を実現します。4つのベンチマークにおける大規模な実験により、本手法が任意の画像編集モデルの指示追従能力を大幅に改善することを実証します。データ構築フレームワーク、データセット、モデルをコミュニティに公開し、研究発展に貢献します。
強化学習は、大規模言語モデルの学習後調整におけるパラダイムとして登場し、その推論能力を向上させている。このようなアプローチでは、各サンプルに対してアドバンテージ値を計算し、期待値よりも優れたまたは劣ったパフォーマンスを反映させることで、学習のための正負両方の信号を生成する。しかし、既存手法では特に初期段階からこれら二つの信号を無差別に混合するため、指導が曖昧になり、効果が限定的になる可能性がある。この問題に対処するため、我々はアドバンテージ信号に基づく適応的カリキュラム機構である**CAPO**(**C**urriculum **A**dvantage **P**olicy **O**ptimization)を提案する。提案手法は、正のアドバンテージサンプルのみを用いた模倣学習によって堅牢な基盤を構築し、その後負の信号を導入して識別能力を育成することで、複雑なシナリオにおける汎化性能を改善する。GRPO、PPO、RLOO、Reinforce++など多様な最適化手法と互換性を持つ本手法は、数学的推論タスクで安定した大幅な改善を一貫して達成し、さらにマルチモーダルなグラフィカルユーザーインターフェース(GUI)推論シナリオへも効果的に汎化し、汎用的で堅牢な最適化フレームワークとしての地位を確立している。
一貫性のある画像生成には、複数の画像にわたって識別性、スタイル、論理的一貫性を忠実に維持することが求められ、ストーリーテリングやキャラクターデザインなどの応用において不可欠です。教師あり学習アプローチは、視覚的一貫性を捉えた大規模データセットの不足や、人間の知覚的選好をモデル化する複雑さから、この課題に苦戦しています。本論文では、強化学習(RL)がデータを必要とせずに複雑で主観的な視覚的基準を学習することを可能にするため、有望な代替手段となると論じます。これを実現するために、専門的な一貫性報酬モデルと効率的なRLアルゴリズムを組み合わせた包括的フレームワークであるPaCo-RLを提案します。第一の構成要素であるPaCo-Rewardは、自動化されたサブ図ペアリングによって構築された大規模データセットで学習されたペアワイズ一貫性評価器です。これは、タスク認識型命令とCoT推論によって強化された生成的・自己回帰的スコアリング機構を通じて一貫性を評価します。第二の構成要素であるPaCo-GRPOは、RLコストを大幅に削減する新しい解像度分離最適化戦略と、バランスの取れた安定した報酬最適化を保証する対数抑制型マルチ報酬集約メカニズムを活用します。2つの代表的なサブタスクにおける大規模な実験により、PaCo-Rewardが視覚的一貫性に関する人間の知覚との整合性を大幅に改善すること、またPaCo-GRPOが学習効率と安定性を向上させつつ state-of-the-art の一貫性性能を達成することが示されました。これらの結果は、PaCo-RLが実用的かつスケーラブルな一貫的画像生成ソリューションとしての可能性を強調しています。プロジェクトページは https://x-gengroup.github.io/HomePage_PaCo-RL/ で公開されています。
我々は、マルチモーダル理解・生成・編集のための効率的で統一的なアーキテクチャ「EMMA」を提案する。具体的には、EMMAは主に以下で構成される:1) 32倍の圧縮率を有する効率的オートエンコーダ。これにより生成に必要なトークン数を大幅に削減し、画像にも同圧縮率を適用することで理解タスクと生成タスクの訓練バランスを確保。2) 視覚理解トークンと生成トークンの結合をトークン単位ではなくチャネル単位で実施し、統一アーキテクチャにおける視覚トークンの更なる削減を実現。3) タスク間での相互改善を可能にしつつ、タスク特有のモデリング要件を満たす共有・分離型ネットワーク。4) 視覚理解エンコーダに採用したMixture-of-Experts機構。パラメータ数をわずかに増加させるだけで知覚能力を大幅に向上。大規模実験により、EMMA-4Bが効率性と性能の両方で最先端の統一マルチモーダル手法(BAGEL-7B等)を大幅に上回り、最近のマルチモーダル理解・生成専門モデル(Qwen3-VLやQwen-Image等)に対しても競合する結果を達成することを実証。EMMAは将来の統一マルチモーダルアーキテクチャ発展の強固な基盤を築くと確信する。
近年の進展にもかかわらず、スタジオ品質のプロダクション基準を満たすキャラクターアニメーションの実現は依然として課題である。既存の手法は駆動ビデオから参照画像へモーションを転送できるが、複雑な動きや異なるアイデンティティ間のアニメーションを含む実写環境では、構造的な忠実性と時間的一貫性の維持にしばしば失敗する。本研究では、これらの課題に対処するSCAIL(Studio-grade Character Animation via In-context Learning)フレームワークを提案する。本手法は二つの革新的技術に基づく。第一に、より頑健で柔軟なモーション信号を提供する新規3Dポーズ表現を考案した。第二に、拡散Transformerアーキテクチャ内にフルコンテキストポーズ注入メカニズムを導入し、完全なモーションシーケンスにわたる効果的な時空間推論を可能にした。スタジオレベル要件に適合させるため、多様性と品質を両立させた精選データパイプラインを構築し、体系的な評価のための包括的ベンチマークを確立した。実験により、SCAILが最先端の性能を達成し、キャラクターアニメーションをスタジオ品質の信頼性とリアリズムへ進展させることを実証した。
大規模言語モデルの事後学習は、強化学習に依存してモデルの能力とアライメント品質を向上させます。しかし、オフポリシー学習パラダイムは分布シフトを引き起こし、しばしばポリシーを信頼領域の外側に押し出し、ポリシーエントロピーの変動や不安定な勾配として現れる学習不安定性を招きます。PPO-Clipは重要度クリッピングを通じてこの問題を緩和しますが、行動のグローバルな分布シフトを見落としています。これらの課題に対処するため、我々は現在と過去のポリシー間のエントロピー比を新しいグローバル指標として提案します。この指標は更新過程におけるポリシー探索の相対的変化を効果的に定量化します。この指標に基づき、エントロピー比クリッピング(ERC)メカニズムを導入し、エントロピー比に双方向の制約を課します。これにより、グローバルな分布レベルでポリシー更新を安定化させ、PPO-clipが未サンプル行動の確率シフトを制御できない点を補完します。ERCをDAPOおよびGPPO強化学習アルゴリズムに統合し、複数のベンチマークで実験を行いました。その結果、ERCが一貫して性能を向上させることが示されました。
単一の静止画像からインタラクティブで動的な4Dシーンを生成することは、依然として核心的な課題である。既存の「生成してから再構築」や「再構築してから生成」する手法の多くは、幾何学情報と動きを分離して処理するため、時空間的な不整合や一般化性能の低さを引き起こす。これらの課題に対処するため、我々は「再構築してから生成」フレームワークを拡張し、モーション生成と幾何学再構築を共同で行う4D合成手法MoRe4Dを提案する。まず、高品質な4Dシーンデータの不足を解消するため、密な点軌跡を伴う6万の動画サンプルからなる大規模データセットTrajScene-60Kを導入する。これに基づき、拡散モデルベースの4Dシーン軌跡生成器(4D-STraG)を提案し、幾何学的に一貫性があり動きが妥当な4D点軌跡を共同生成する。単一視点の事前知識を活用するため、深度誘導モーション正規化戦略と、幾何学と力学の効果的統合のためのモーション認識モジュールを設計する。さらに、4D点軌跡表現から任意のカメラ軌跡で動画をレンダリングする4D視点合成モジュール(4D-ViSM)を提案する。実験により、MoRe4Dが単一画像からマルチビュー一貫性と豊富な動的詳細を備えた高品質な4Dシーンを生成できることを示す。コード:https://github.com/Zhangyr2022/MoRe4D。
画像生成技術の継続的な進歩に伴い、GPT-Image-1やQwen-Imageなどの高度なモデルは、テキストと画像の一貫性や世界知識において顕著な成果を上げている。しかし、これらのモデルは写真的画像生成において未だ不十分である。単純なT2Iタスクにおいてさえ、それらは「過度に滑らかな肌」や「油っぽい顔の光沢」といった特徴的なAIアーティファクトを持つ「不自然な」画像を生成する傾向がある。「現実と区別がつかない」生成という本来の目標を再達成するため、我々は写真的テキスト・画像変換フレームワークRealGenを提案する。RealGenは、プロンプト最適化のためのLLMコンポーネントと、写真的画像生成のための拡散モデルを統合する。敵対的生成にヒントを得て、RealGenは「検出器報酬」メカニズムを導入し、意味レベルと特徴レベルの合成画像検出器を用いてアーティファクトを定量化し、現実性を評価する。この報酬信号をGRPOアルゴリズムで活用し、生成パイプライン全体を最適化することで、画像の現実性と細部の表現を大幅に強化する。さらに、検出器スコアリングとアリーナスコアリングを採用した自動評価ベンチマークRealBenchを提案する。これにより、人間を介さない写真的品質評価が可能となり、実際のユーザー体験に合致したより正確な結果が得られる。実験により、RealGenが現実性、細部表現、美的品質において、GPT-Image-1やQwen-Imageのような汎用モデルや、FLUX-Kreaのような専門的な写真的モデルを大幅に上回ることを実証する。コードはhttps://github.com/yejy53/RealGenで公開されている。
視覚言語モデル(VLM)の効果的な評価器は、モデル開発において極めて重要である。現在のVLM評価器の学習手法は、大規模な人間の嗜好アノテーションに依存している。しかし、この手法はコストが高く、モデルの急速な進化に伴いアノテーションは容易に陳腐化する。本研究では、人間の嗜好アノテーションを一切用いず、自己合成データのみでVLM評価器モデルを自己学習するフレームワークを提案する。本手法は反復的であり、3つの段階から構成される:(1) 多様な品質レベルのマルチモーダルな指示-応答ペアを生成する、(2) 各ペアに対して推論トレースと判定を生成し、期待する品質レベルと一致しないものを除去する、(3) 正しい評価器の回答とその推論トレースを用いて学習する。我々は、得られた評価器をMultimodal RewardBenchおよびVL-RewardBenchにおいて、正確性、嗜好性、推論、安全性、視覚質問応答といった複数の領域で評価した。本手法により、Llama-3.2-11Bベースのマルチモーダル評価器は、VL-RewardBenchにおける総合精度を0.38から0.51に向上し、Llama-3.2-90B、GPT-4o、Claude 3.5 Sonnetといったはるかに大規模なモデルを凌駕する場合が多く、特に一般性、 hallucination(虚偽生成)、推論の次元で顕著な改善が見られた。人間のアノテーションを必要としないこれらの結果の全体的な強度は、VLMの能力が急速に進化する中でそれに追随して進化する自己評価器の可能性を示唆している。
3Dアセット生成手法は近年目覚ましい進展を遂げているが、オブジェクトの形状を直感的かつ精密に制御することは依然として重要な課題である。既存手法は主にテキストや画像プロンプトに依存しているが、これらは形状の特定性においてしばしば不十分である。言語は曖昧さを伴い、画像は編集が煩雑になりがちだ。本研究では、3D生成を明示的に空間制御するトレーニング不要なテスト時手法「SpaceControl」を提案する。本手法は、粗いプリミティブから詳細なメッシュまで、多様な形状入力を受け入れ、追加のトレーニングを必要とせずに、現代の事前学習済み生成モデルとシームレスに統合する。制御可能なパラメータにより、ユーザーは形状の忠実度と出力のリアリズムのバランスを調整できる。大規模な定量的評価とユーザー調査により、SpaceControlが高い視覚品質を維持しつつ、学習ベースおよび最適化ベースのベースライン手法を形状の忠実性で上回ることを実証した。最後に、スーパークアッドリックを対話的に編集し、テクスチャ付き3Dアセットへ直接変換可能なユーザーインターフェースを提示し、創造的なワークフローへの実用的な導入を促進する。プロジェクトページはhttps://spacecontrol3d.github.io/を参照。
視覚的空間推論は、マルチモーダル大規模言語モデル(MLLM)が物体特性と空間関係を理解する上で重要であるが、現在のモデルは3D認識推論に依然として課題を抱えている。既存の手法では、深度やセグメンテーションなどの補助モダリティでRGB入力を拡張して知覚を強化するか、空間VQAデータセットで学習し強化学習を適用して推論を強化するのが一般的であり、これら二つの側面を分離して扱っている。本研究では、統一されたMLLMが内在的な能力として空間知覚を強化し、適応的なインタリーブ推論を通じてより強力な空間知性を達成できるかどうかを検討する。我々は、深度とセグメンテーションを補助モダリティとして活用し、補助モダリティ生成と適応的インタリーブ推論能力を2段階の学習で獲得する統一MLLM「COOPER」を提案する。COOPERは、一般的な性能を維持しつつ空間推論で平均6.91%の改善を達成した。さらに、補助モダリティ生成のみを学習した変種モデルでも距離・サイズ推定タスクで7.92%の向上を示し、補助モダリティの生成を学習することが空間知識の内在化と空間理解の強化に寄与することが示唆された。
推論中心の映像オブジェクト分割は本質的に複雑な課題である。クエリは静的な外観ではなく、動的挙動、因果関係、時間的相互作用を指すことが多い。しかし既存の手法は、これらの要素を潜在埋め込みによる簡略化された推論に集約しがちで、推論プロセスを不透明かつ本質的に追跡不能にしている。そこで我々は明示的な分解アプローチを採用し、ReVSegを提案する。これは事前学習済み視覚言語モデル(VLM)のネイティブインターフェースにおいて、推論を連続的な意思決定として実行する。すべての推論を単一段階の予測に折り畳むのではなく、ReVSegは意味解釈、時間的証拠選択、空間的接地という3つの明示的操作を実行し、事前学習済み能力を連携させる。さらに強化学習を採用して多段階推論チェーンを最適化し、結果に基づく信号から意思決定の質を自己改善できるようにする。実験結果では、ReVSegが標準的な映像オブジェクト分割ベンチマークで最高性能を達成し、解釈可能な推論軌跡を生成することを実証した。プロジェクトページはhttps://clementine24.github.io/ReVSeg/ で公開されている。
近年の生成的ビデオモデルの進歩は、高精細なビデオ合成、特にテキストや動作入力に条件付けられた制御可能なビデオ生成(例:指示に基づくビデオ編集やロボット工学における世界モデリング)において画期的な成果をもたらしている。しかし、こうした優れた能力にもかかわらず、制御可能なビデオモデルはしばしば幻覚(ハルシネーション)を発生させる。つまり、物理的現実と整合性のない未来のビデオフレームを生成するのであり、ロボットの政策評価や計画など多くのタスクにおいて深刻な懸念を引き起こしている。さらに、最先端のビデオモデルは自身の信頼度を評価し表明する能力を欠いており、幻覚の軽減を妨げている。この課題に厳密に取り組むため、我々はC3を提案する。これは、サブパッチレベルでの高密度な信頼度推定のために、連続尺度で較正された制御可能なビデオモデルを訓練する不確実性定量化(UQ)手法であり、生成された各ビデオフレーム内の不確実性を精密に位置特定する。我々のUQ手法は、ビデオモデルが自身の不確実性を推定できるようにするための3つの核心的革新を導入する。第一に、厳密に適切な評価規則を通じて、正確性と較正のためにビデオモデルを訓練する新規フレームワークを開発する。第二に、ビデオモデルの不確実性を潜在空間で推定し、画素空間アプローチに伴う訓練の不安定性と膨大な訓練コストを回避する。第三に、高密度の潜在空間不確実性を、直感的な可視化のためのRGB空間における解釈可能な画素レベル不確実性にマッピングし、信頼できない領域を特定する高解像度の不確実性ヒートマップを提供する。大規模なロボット学習データセット(BridgeおよびDROID)を用いた広範な実験と実世界評価を通じて、我々の手法が訓練分布内で較正された不確実性推定を提供するだけでなく、効果的な分布外検出を可能にすることを実証する。
自己改善は現在AI分野を活気づける目標であるが、危険性に満ちており、完全な達成には時間を要する可能性がある。我々は、人類にとってより達成可能かつ優れた目標は、人間研究者とAIの協調による「共進化」の最大化、すなわち共超知能の実現にあると提唱する。具体的には、AI研究の加速と、共生を通じたAIと人間双方への安全な超知能の付与を目的として、構想段階から実験まで共同でAI研究を実施するため、AIシステムの人間研究者との協働能力向上を特に標的とする。人間の研究能力向上をループに組み込むことに焦点を当てることで、より迅速かつ安全に目標達成が可能となる。
マルチモーダル文書検索システムは、意味検索における視覚的コンテンツとテキストコンテンツの整合性に関して著しい進歩を示してきた。しかし、既存手法の大半は依然として英語中心に偏っており、多言語環境での有効性が制限されている。本研究では、この言語間の隔たりを埋め、多様な言語的・文化的文脈に適用可能なフレームワークであるM3DR(Multilingual Multimodal Document Retrieval)を提案する。M3DRは合成多言語文書データを活用し、異なる視覚言語アーキテクチャとモデルサイズにわたって汎化することで、堅牢な言語間・モダリティ間整合を実現する。対照学習を用いて、我々のモデルはテキストと文書画像の統一された表現を学習し、それを言語間で効果的に転移させる。この能力を、類型論的に多様な22言語で検証し、言語や文字体系の変種にわたる一貫した性能と適応性を実証する。さらに、実世界の多言語シナリオを捉えた総合的なベンチマークを導入し、単一言語、多言語、混合言語設定下でのモデル評価を行う。M3DRは、単一の密ベクトルとColBERTスタイルのトークンレベルマルチベクトル検索の両パラダイムにわたって汎化する。我々のモデルであるNetraEmbedとColNetraEmbedは、言語間検索において約150%の相対的改善で最先端の性能を達成する。
長時間動画理解(LVU)は、現実世界のクエリに答える際に、冗長で無関係なコンテンツが大半を占める数時間の動画の中に散在する、まばらで時間的に分散した手がかりに依存することが多いため、困難な課題である。エージェント型パイプラインは動画推論能力を向上させるが、既存のフレームワークはクエリに依存しないキャプショナーを用いて動画情報を認識しており、無関係なコンテンツに計算リソースを浪費し、細かな時間的・空間的情報を曖昧にしてしまう。能動的知覚理論に基づき、我々はLVUエージェントが「何を・いつ・どこを」観察するかを能動的に決定し、現在の観測がクエリに答えるのに十分かどうかを継続的に評価すべきだと主張する。本論文では、動画を対話型環境として扱い、画素から直接的にコンパクトでクエリ関連性の高い証拠を取得する証拠探索フレームワーク「能動的動画知覚(AVP)」を提案する。具体的には、AVPはMLLMエージェントを用いた反復的な計画‐観測‐内省プロセスを実行する。各ラウンドでは、プランナーが対象を絞った動画操作を提案し、オブザーバーがそれを実行して時間印付きの証拠を抽出し、リフレクターが証拠の十分性を評価し、回答で終了するかさらなる観測をトリガーする。5つのLVUベンチマークにおいて、AVPは大幅な改善で最高性能を達成した。特筆すべきは、AVPが最高性能のエージェント手法を平均精度で5.7%上回りながら、推論時間は18.4%、入力トークン数は12.4%しか必要としなかった点である。
自動運転(AD)における時間的理解は、最新の最先端(SoTA)視覚言語モデル(VLM)にとっても依然として大きな課題である。これまでに時間的推論の向上を目的としたデータセットやベンチマークが導入されてきたが、それらはスポーツ、料理、映画などの他の映像コンテンツに重点を置いてきた。エゴセントリックなAD映像における時間的理解の特有の課題に特化した既存のベンチマークは存在しない。このギャップを埋めるため、ADにおける時間的理解(TAD)ベンチマークを提案する。これは、AD内のアクション間の動的関係を捉えるVLMの能力を評価する。TADは、人間が設計した7つのタスクにまたがる約6,000の質問応答(QA)ペアで構成される。さらに、9つのクローズドソースおよびオープンソースの汎用モデルと、SoTAのAD特化モデルからなる評価を実施した。TADに適用した場合、現在のSoTAモデルは標準以下の精度を示し、その主な原因は微細な動きの理解の不備にあることがわかった。動きの理解とTADにおける全体的な精度を向上させるため、新たな訓練不要の解決策を2つ提案する:思考の連鎖(CoT)を活用するScene-CoTと、エゴセントリックな時間的認知地図を組み込んだTCogMapである。提案手法を既存のVLMと統合することで、TADにおける平均精度を最大17.72%向上させた。TADの導入、複数のSoTAモデルのベンチマーク評価、および効果的な拡張手法の提案を通じて、本研究はADにおける時間的理解に関する将来の研究を促進することを目指している。ベンチマークと評価コードは、それぞれhttps://huggingface.co/datasets/vbdai/TAD{Hugging Face} と https://github.com/vbdi/tad_bench{Github} で公開されている。
本研究では、大腸内視鏡検査におけるマルチモーダル知能の進展を目指すオープンイニシアチブ「Colon-X」を提案する。まず、大腸内視鏡検査分野で過去最大となる包括的なマルチモーダルデータセットColonVQAを構築した。本データセットは76の臨床所見と18のマルチモーダルタスクにわたる110万以上の視覚質問応答エントリーを特徴とする。コミュニティ全体のデータ基盤としての役割に加えて、我々は大腸内視鏡検査における重要ながら未開拓の転換点—マルチモーダル理解から臨床推論への進化—を探究する。(a) マルチモーダル理解の現状を把握するため、22の大規模マルチモーダル言語モデルの一般化性能を体系的に評価し、人為的摂動下での信頼性を検証した。その結果、主要MLLMの臨床出力は頑健性・信頼性の面で未だ不十分であることが明らかになった。(b) この課題を解決するため、大腸内視鏡検査に特化した推論中心の知能を探求する。具体的には、多専門家討論パイプラインにより注釈付けされた臨床根拠に基づく推論データセットColonReasonを構築し、タスク適応型報酬設計と勾配安定化最適化技術を組み込んだ初のR1スタイルモデルColonR1を開発した。データ不足条件下において、我々のColonR1は56.61%の総合精度を達成し、教師ありファインチューニングを25.22%上回り、マルチモーダル大腸内視鏡分析のための新たな推論可能なベースラインを確立した。全てのデータ及びモデルリソースはhttps://github.com/ai4colonoscopy/Colon-X で公開している。
近年、ビデオ生成技術の著しい進歩は、世界シミュレータ構築に大きな可能性を示している。しかし、現行のモデルは、特に大規模または複雑なダイナミクスを扱う際に、物理的一貫性のある結果を生成する点で依然として課題を抱えている。この制限は主に、既存のアプローチが物理的プロンプトに対して等方的に応答し、生成内容と局所的な物理的手がかりとの微細な整合性を軽視していることに起因する。これらの課題に対処するため、我々は明示的な物理認識条件付けと異方的生成を可能とするProgressive Physical Alignment Framework (ProPhy) を提案する。ProPhyは、識別的な物理事前分布抽出のため、2段階のMixture-of-Physics-Experts (MoPE) メカニズムを採用する。セマンティック専門家はテキスト記述から意味論レベルの物理法則を推論し、リファインメント専門家はトークンレベルの物理ダイナミクスを捕捉する。このメカニズムにより、モデルは基礎となる物理法則をより良く反映した、微細な物理認識ビデオ表現を学習できる。さらに、視覚言語モデル (VLM) の物理推論能力をリファインメント専門家に転移する物理整合戦略を導入し、動的物理現象のより正確な表現を促進する。物理認識ビデオ生成ベンチマークにおける大規模な実験により、ProPhyが既存の最先端手法よりも現実的で動的、かつ物理的に一貫性のある結果を生成することを実証した。
ポストトレーニング量子化(PTQ)は大規模言語モデル(LLM)の民主化において極めて重要な役割を果たしている。しかし、既存の低ビット量子化とスパース化技術は、ハードウェアサポートの限界により精度と効率性の両立が困難である。例えば、W4A8はW8A8と同じピークTOPSしか達成できず、GPUがサポートする疎データ形式(2:4半構造疎)は精度低下のためほとんど採用されていない。この課題を解決するため、本論文では新しいハードウェアおよび既存のGPUで容易にサポート可能な、量子化とスパース化を統合したデータ形式であるSparse-Quantized Format(SQ-format)を提案する。SQ-formatは、高精度な疎行列が高速化可能であること、および低精度な行列乗算も同様に高速化可能であるという事実を利用する。これにより、SQ-formatは性能とスループットの間のパレート改善を実現する。この形式は外れ値の不均一分布を示す活性化に特に適しており、それらの静的圧縮を可能とする。我々はSQ-formatを用いた最先端のPTQ性能を示し、それをサポートするために必要なハードウェアを提案するとともに、次世代AIアクセラレータの設計探索と知見を提供する。
効果的な地震リスク低減には、敷地特有の正確な評価が不可欠である。これには、地盤振動特性に及ぼす現地の地盤条件の影響を表現できるモデルが求められる。この文脈において、記録された地盤動から地盤特性に支配された特徴を学習するデータ駆動型アプローチは、有望な方向性を示している。本研究では、時間領域の加速度記録に基づく強震動生成に取り組み、時間領域の条件付き生成モデルであるTimesNet-Genを提案する。この手法は、観測点特有の潜在ボトルネックを利用する。生成された記録の評価は、各観測点ごとに実記録と生成記録のHVSR曲線および卓越周波数f0の分布を比較することで行い、f0分布の混同行列に基づくスコアにより観測点特異性を要約する。TimesNet-Genは、観測点ごとの強力な一致を達成し、敷地特有の強震動合成におけるスペクトログラムベースの条件付きVAEベースラインと比較して良好な性能を示す。コードはhttps://github.com/brsylmz23/TimesNet-Gen で公開されている。
計算需要の継続的な増大に伴い、AIの環境フットプリントを評価するには、エネルギーと水の消費量だけでなく、専用ハードウェアの物質的需要も考慮する必要がある。本研究は、計算ワークロードを物理的なハードウェア需要に結びつけることで、AI学習の物質的フットプリントを定量化する。Nvidia A100 SXM 40 GB GPUの元素組成をICP-OESにより分析した結果、32元素が同定された。AIハードウェアは質量比で約90%が重金属で構成され、貴金属はごく微量しか含まれていないことが結果から示された。GPUの組成は、銅、鉄、錫、シリコン、ニッケルが質量で支配的である。多段階の方法論により、これらの測定値を様々な寿命にわたるGPUあたりの計算スループットと統合し、異なる学習効率レジームにおける特定のAIモデル学習の計算要件を考慮した。シナリオ分析により、Model FLOPs Utilization(MFU)とハードウェア寿命に依存して、GPT-4の学習には1,174台から8,800台のA100 GPUが必要となり、最大7トンの有毒元素の採掘と最終的な廃棄に対応することが明らかになった。ソフトウェアとハードウェアの最適化戦略を組み合わせることで物質的需要を削減できる:MFUを20%から60%に向上させるとGPU要求量は67%減少し、寿命を1年から3年に延ばすと同程度の削減効果が得られる;両対策を実施するとGPU需要は最大93%削減される。我々の知見は、GPT-3.5とGPT-4の間に観察されたような漸進的な性能向上が、不均衡に高い物質的コストを伴うことを浮き彫りにする。本研究は、AIのスケーラビリティに関する議論に物質資源の考察を組み込む必要性を強調し、AIの将来の進歩が資源効率と環境責任の原則に沿うものでなければならないことを示唆する。
大規模言語モデル(LLM)は通常、学習後フェーズにおいて安全性のためにアライメントが行われるが、不適切な出力を生成する可能性があり、ユーザーにリスクをもたらす恐れがある。この課題は、モデルの入力と出力の両方で機能する堅牢なセーフガードの必要性を浮き彫りにしている。本研究では、LLMシステムの安全性を包括的な入出力モデレーションを通じて強化する、最先端の指示チューニング済みLLM「Roblox Guard 1.0」を提案する。本モデルはLLMパイプラインを使用してモデレーション能力を高める。Llama-3.1-8B-Instructを基盤として構築された当モデルは、未見の安全性分類体系への汎化が可能なように指示チューニングされ、ドメイン外の安全性ベンチマークで強力な性能を発揮する。指示チューニングプロセスでは、合成的およびオープンソースの安全性データセットを混合使用し、連鎖思考(CoT)による根拠と入力反転を追加して、文脈理解と意思決定を強化している。体系的な評価を支援するため、LLMのガードレールとモデレーションフレームワークの効果を評価する拡張可能な安全性分類体系を備えた新しいベンチマーク「RobloxGuard-Eval」も公開する。