翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデル(LRM)は、すでに長い連鎖思考推論の潜在能力を備えています。これまでの研究では、結果ベースの強化学習(RL)が、自己修正、バックトラッキング、検証といった高度な推論行動を偶発的に引き起こすことが示されており、これらはしばしばモデルの「ひらめきの瞬間」と呼ばれています。しかし、これらの創発的行動のタイミングと一貫性は予測不可能で制御不能であり、LRMの推論能力の拡張性と信頼性を制限しています。これらの制限に対処するため、我々はプロンプトや偶発的な「ひらめきの瞬間」への依存を超え、自動生成された自己検証可能なタスクを用いて、モデルを三段階のパイプライン(個別アライメント、パラメータ空間の統合、ドメイン固有の強化学習)で明示的にアライメントし、指示チューニングされたベースラインに対して10%以上の性能向上を実現しました。さらに、アライメントされたチェックポイントからのドメイン固有のRLは、数学、コーディング、科学のベンチマークで平均2%の性能上限の向上をもたらし、明示的なメタ能力アライメントが推論のための拡張可能で信頼性の高い基盤を提供することを示しています。コードは以下で公開されています:https://github.com/zhiyuanhubj/Meta-Ability-Alignment
言語モデルのスケーリングには、パラメータを増やす(パラメータスケーリング)か、出力トークンを増やす(推論時スケーリング)ことで、多大な空間的または時間的コストがかかると一般的に考えられています。本論文では、第三の、より推論効率の高いスケーリングパラダイムを提案します。それは、モデルの並列計算をトレーニング時と推論時の両方で増やすというものです。入力に対してP種類の多様で学習可能な変換を適用し、モデルのフォワードパスを並列に実行し、P個の出力を動的に集約します。この方法、すなわち並列スケーリング(ParScale)は、既存のパラメータを再利用して並列計算をスケールし、任意のモデル構造、最適化手順、データ、またはタスクに適用可能です。我々は理論的に新しいスケーリング則を提案し、大規模な事前学習を通じてその有効性を検証しました。その結果、P個の並列ストリームを持つモデルは、パラメータをO(log P)倍スケールすることに類似しつつ、優れた推論効率を示すことがわかりました。例えば、ParScaleは、同じ性能向上を達成するパラメータスケーリングと比較して、最大22倍少ないメモリ増加と6倍少ないレイテンシ増加で済みます。また、既存の事前学習済みモデルを少量のトークンでポストトレーニングすることで並列スケールされたモデルにリサイクルすることも可能で、トレーニング予算をさらに削減できます。我々が発見した新しいスケーリング則は、低リソース環境でのより強力なモデルの展開を促進し、機械学習における計算の役割についての新たな視点を提供する可能性があります。
大規模言語モデル(LLM)は顕著な能力を示しており、その性能を最大化する上で入力プロンプトの最適化が重要な役割を果たしています。しかし、LLMのプロンプトはタスクに依存しないシステムプロンプトとタスク固有のユーザープロンプトで構成されているにもかかわらず、既存のプロンプト最適化研究は個々のクエリやタスクに特化したユーザープロンプトに焦点を当てており、一度最適化されれば異なるタスクやドメインに適用可能なシステムプロンプトをほとんど考慮していません。この問題意識に基づき、我々は「二段階システムプロンプト最適化」という新たな問題を提唱します。この問題の目的は、多様なユーザープロンプトに対して頑健であり、未見のタスクにも転移可能なシステムプロンプトを設計することです。この問題に取り組むため、我々はメタ学習フレームワークを提案します。このフレームワークでは、複数のデータセットにわたる様々なユーザープロンプトに対してシステムプロンプトを最適化することでメタ学習を行い、同時にユーザープロンプトを反復的に更新することで両者の相乗効果を確保します。我々は5つの異なるドメインにまたがる14の未見データセットで実験を行い、本アプローチが多様なユーザープロンプトに対して効果的に一般化するシステムプロンプトを生成することを示しました。また、最適化されたシステムプロンプトは未見のタスクへの迅速な適応を可能にし、テスト時のユーザープロンプトに対してより少ない最適化ステップで改善された性能を達成することが明らかになりました。
人間は複雑な問題解決のためにインタラクティブな視覚認知を柔軟に活用できますが、大規模視覚言語モデル(LVLM)に視覚ツールを用いた同様の適応的行動を学習させることは依然として困難です。大きな障壁の一つは、標準化されたインフラストラクチャの欠如であり、これが多様なツールの統合、豊富なインタラクションデータの生成、そして堅牢なエージェントの効果的な訓練を妨げています。これらの課題に対処するため、我々はOpenThinkIMGを導入します。これは、ツール拡張型LVLMのための初のオープンソースで包括的なエンドツーエンドフレームワークです。標準化された視覚ツールインターフェース、ポリシー初期化のためのスケーラブルな軌跡生成、そして柔軟な訓練環境を特徴としています。さらに、静的なデモンストレーションに基づく教師あり微調整(SFT)では、動的なツール呼び出しのためのポリシー一般化が限定的であることを考慮し、我々は新しい強化学習(RL)フレームワークV-ToolRLを提案します。V-ToolRLは、外部視覚ツールを呼び出すための適応ポリシーをLVLMに学習させることを可能にします。V-ToolRLは、ツールインタラクションからのフィードバックを用いてタスク成功を直接最適化することで、LVLMが最適なツール使用戦略を自律的に発見することを可能にします。我々は、V-ToolRLを挑戦的なチャート推論タスクで実証的に検証しました。Qwen2-VL-2Bを基に構築したRL訓練エージェントは、SFT初期化された対照モデルを大幅に上回り(+28.83ポイント)、TacoやCogComなどの確立された教師ありツール学習ベースラインを平均+12.7ポイント上回りました。特に、GPT-4.1のような著名なクローズドソースモデルも+8.68精度ポイント上回りました。我々は、OpenThinkIMGが動的なツール拡張型視覚推論の進展のための基盤フレームワークとして機能し、コミュニティが真に「画像で考える」AIエージェントを開発するのに役立つことを願っています。
言語モデリングにおけるスケーリング則に着想を得て、テスト損失がモデルサイズとデータセットサイズに対してべき乗則的にスケールすることを示す研究を踏まえ、我々は選好モデリングにおいても同様の法則が存在することを発見しました。本論文では、このスケーリング可能性を強調するため、World Preference Modeling(WorldPM)を提案します。ここでWorld Preferenceは、人間の選好を統一的に表現する概念です。本研究では、多様なユーザーコミュニティをカバーする公開フォーラムから選好データを収集し、1.5Bから72Bパラメータまでのモデルを用いて15M規模のデータで広範なトレーニングを実施しました。異なる評価指標にわたって以下の特徴的なパターンを観察しました:(1) 敵対的指標(欺瞞的な特徴を識別する能力)は、トレーニングデータとベースモデルサイズの増加に伴って一貫してスケールアップする、(2) 客観的指標(明確な答えを持つ客観的知識)は大規模言語モデルにおいて創発的振る舞いを示し、WorldPMのスケーラビリティの可能性を強調する、(3) 主観的指標(限られた数の人間またはAIからの主観的選好)はスケーリングの傾向を示さない。さらに、選好ファインチューニングの基盤としてのWorldPMの有効性を検証する追加実験を行いました。7つのベンチマークと20のサブタスクによる評価を通じて、WorldPMが様々なサイズ(7K、100K、800Kサンプル)の人間選好データセットにわたって一般化性能を広く向上させ、多くの主要サブタスクで5%を超える性能向上をもたらすことを確認しました。WorldPMを内部のRLHFパイプラインに統合した結果、社内評価セットと公開評価セットの両方で顕著な改善が見られ、社内評価では4%から8%の顕著な向上を観測しました。
長い連鎖的思考(CoT)は、現代の大規模言語モデルを効果的に活用する上で不可欠な要素であるが、これらの能力を支える推論戦略に関する我々の理解は依然として限られている。これまでの研究では、事前に定義された戦略タイプを用いてCoTを分類しようとする試みがなされてきたが、そのようなアプローチは人間の直感に制約され、モデルの行動の多様性を十分に捉えることができていない。本研究では、CoT Encyclopediaを紹介する。これは、モデルの推論を分析し、導くためのボトムアップ型のフレームワークである。我々の手法は、モデルが生成したCoTから多様な推論基準を自動的に抽出し、それらを意味空間に埋め込み、代表的なカテゴリにクラスタリングし、推論行動を解釈するための対照的なルーブリックを導出する。人間による評価では、このフレームワークが既存の手法よりも解釈可能で包括的な分析を生み出すことが示されている。さらに、この理解が性能向上を可能にすることも実証している。具体的には、モデルがどの戦略を使用しそうかを予測し、より効果的な代替案へと導くことができる。最後に、トレーニングデータの形式(例:自由形式 vs. 多肢選択式)がデータのドメインよりも推論行動に遥かに大きな影響を与えるなど、形式を意識したモデル設計の重要性を強調する実践的な洞察を提供する。
AIの進歩は評価の質によってボトルネックとなっており、強力なLLM-as-a-Judgeモデルがその核心的な解決策であることが証明されています。判断能力の向上は、より強力な連鎖的思考(chain-of-thought)推論によって可能となり、そのようなモデルに思考させるための最適なトレーニング方法を見つける必要性が高まっています。本論文では、そのようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介します。私たちの手法は、検証可能なプロンプトと検証不可能なプロンプトの両方を、思考を促進し判断バイアスを軽減する検証可能な報酬を持つ判断タスクに変換します。特に、私たちのアプローチは、8Bや70Bのサイズでトレーニングされた場合、DeepSeek-R1から蒸留されたモデルを含む他の既存のモデルをすべて上回ります。J1はo1-miniを上回り、一部のベンチマークではR1をも上回りますが、それよりも小さいモデルをトレーニングしています。私たちは、Pairwise-J1とPointwise-J1モデル、オフラインとオンラインのトレーニング方法、報酬戦略、シードプロンプト、思考の長さと内容のバリエーションを比較する分析とアブレーションを提供します。私たちのモデルは、評価基準を概説し、自己生成された参照回答と比較し、モデル応答の正確性を再評価することによって、より良い判断を行うことがわかりました。
ロボットの模倣学習は、静的なタスクの解決から動的な相互作用シナリオへの対応へと進化してきましたが、動的環境とのリアルタイムな相互作用が必要なため、テストと評価は依然としてコストが高く、課題が多い状況です。本論文では、EnerVerse-AC(EVAC)を提案します。これは、エージェントの予測行動に基づいて将来の視覚的観測を生成するアクション条件付き世界モデルであり、現実的で制御可能なロボット推論を可能にします。既存のアーキテクチャを基盤として、EVACは多段階のアクション条件付けメカニズムと動的なマルチビュー画像生成のためのレイマップエンコーディングを導入し、多様な失敗軌跡をトレーニングデータに追加することで汎化性能を向上させます。データエンジン兼評価ツールとして、EVACは人間が収集した軌跡を多様なデータセットに拡張し、物理的なロボットや複雑なシミュレーションを必要とせずに、現実的なアクション条件付きビデオ観測を生成してポリシーテストを行います。このアプローチは、ロボット操作評価の高忠実度を維持しながら、コストを大幅に削減します。広範な実験により、本手法の有効性が検証されています。コード、チェックポイント、およびデータセットは<https://annaj2178.github.io/EnerverseAC.github.io>で公開されています。
既存の視覚トークン化手法は、視覚トークナイザの最適化を下流の学習から切り離しており、視覚トークンが画像生成や視覚質問応答などの様々なタスクにわたって汎化できることを暗黙的に仮定している。低レベルな再構成に最適化された視覚トークナイザは、多様な表現と意味を必要とする下流タスクに対して無知覚である。この分離されたパラダイムは、重要なミスアラインメントを引き起こす:視覚トークン化の損失が、目標タスクにおける表現のボトルネックとなる可能性がある。例えば、与えられた画像中のテキストをトークン化する際のエラーは、それらを認識または生成する際に悪い結果をもたらす。これを解決するために、我々はETT(End-to-End Vision Tokenizer Tuning)を提案する。これは、視覚トークン化と目標自己回帰タスクの間の共同最適化を可能にするエンドツーエンドの視覚トークナイザ調整手法である。従来の自己回帰モデルが凍結された視覚トークナイザからの離散インデックスのみを使用するのとは異なり、ETTはトークナイザのコードブックの視覚埋め込みを活用し、再構成とキャプションの目的関数を用いて視覚トークナイザをエンドツーエンドで最適化する。ETTは、最小限のアーキテクチャ変更で既存の学習パイプラインにシームレスに統合できる。我々のETTは実装と統合が簡単で、使用されている大規模言語モデルの元のコードブックやアーキテクチャを調整する必要がない。広範な実験により、提案されたエンドツーエンド視覚トークナイザ調整が、凍結されたトークナイザベースラインと比較して、マルチモーダル理解と視覚生成タスクにおいて2-6%の大幅な性能向上をもたらすことが示された。同時に、元の再構成能力も維持されている。この非常にシンプルで強力な手法が、画像生成や理解以外のマルチモーダル基盤モデルにも役立つことを期待している。
近年の創造的AIの進展により、言語指示に基づいた高精細な画像や動画の合成が可能となった。これらの発展を基盤として、テキストから動画を生成する拡散モデルは、言語コマンドから物理的に妥当なシーンを生成可能な具象化世界モデル(Embodied World Models, EWMs)へと進化し、具象化AIアプリケーションにおける視覚と行動の橋渡しを効果的に実現している。本研究は、一般的な知覚的評価指標を超えて、物理的に根拠があり行動と整合性のある振る舞いを生成するEWMsの評価における重要な課題に取り組む。我々は、視覚的シーン整合性、動作の正確性、および意味的整合性という3つの主要な側面に基づいてEWMsを評価するための専用フレームワークである「具象化世界モデルベンチマーク(Embodied World Model Benchmark, EWMBench)」を提案する。本アプローチでは、多様なシーンと動作パターンを網羅した厳選されたデータセットと、多次元的な評価ツールキットを活用し、候補モデルを評価・比較する。提案するベンチマークは、既存の動画生成モデルが具象化タスクの独自の要件を満たす上での限界を明らかにするだけでなく、今後の分野の発展を導くための貴重な洞察を提供する。データセットと評価ツールは、https://github.com/AgibotTech/EWMBench で公開されている。
私たちは、反復的な機械学習エンジニアリング(MLE)ワークフローにおいて、自律的な大規模言語モデル(LLM)エージェントを体系的に強化学習し、評価し、改善するためのGymスタイルのフレームワークであるMLE-Dojoを紹介します。既存のベンチマークが主に静的なデータセットや単一試行の評価に依存しているのに対し、MLE-Dojoは、エージェントが構造化されたフィードバックループを通じて反復的に実験、デバッグ、解決策を洗練できるインタラクティブな環境を提供します。200以上の実世界のKaggleチャレンジに基づいて構築されたMLE-Dojoは、データ処理、アーキテクチャ探索、ハイパーパラメータチューニング、コードデバッグなど、現実的なエンジニアリングシナリオを反映するよう慎重に選ばれた多様でオープンエンドなMLEタスクをカバーしています。その完全に実行可能な環境は、教師ありファインチューニングと強化学習の両方による包括的なエージェントトレーニングをサポートし、反復的な実験、現実的なデータサンプリング、リアルタイムの結果検証を容易にします。8つの最先端LLMの広範な評価により、現在のモデルは意味のある反復的改善を達成するものの、長期的な解決策を自律的に生成し、複雑なエラーを効率的に解決する能力には依然として大きな制限があることが明らかになりました。さらに、MLE-Dojoの柔軟で拡張可能なアーキテクチャは、多様なデータソース、ツール、評価プロトコルをシームレスに統合し、モデルベースのエージェントチューニングを可能にし、相互運用性、スケーラビリティ、再現性を促進します。私たちは、次世代のMLEエージェントに向けたコミュニティ主導のイノベーションを促進するため、フレームワークとベンチマークをオープンソース化します。
本論文では、大規模言語モデルにおける機械的忘却のための新しい自己蒸留手法であるUnilogitを紹介する。Unilogitは、GDPRのようなデータプライバシー規制に準拠する上で重要な課題である、特定の情報を選択的に忘却しながらモデルの全体的な有用性を維持するという課題に取り組む。従来の手法が静的ハイパーパラメータや初期モデルの出力に依存していたのに対し、Unilogitはターゲットトークンの一様な確率を達成するためにターゲットロジットを動的に調整し、現在のモデルの出力を活用してより正確な自己蒸留ターゲットを実現する。このアプローチは、追加のハイパーパラメータを必要としないだけでなく、モデルがゴールデンターゲットに近似する能力を向上させる。公開ベンチマークおよび社内のeコマースデータセットを用いた広範な実験により、Unilogitが忘却と保持の目的をバランス良く達成する優れた性能を示し、NPOやUnDIALなどの最先端手法を凌駕することが実証された。さらに、我々の分析は、Unilogitが様々なシナリオにおいて堅牢であることを明らかにし、実用的な適用可能性と効果的な機械的忘却を達成する上での有効性を強調している。
スケーラブル・ベクター・グラフィックス(SVG)は、解像度に依存しない特性と整然としたレイヤー構造により、デザイナーから高い評価を受けています。既存のテキストからベクター(T2V)生成手法は、テキストプロンプトからSVGを作成できますが、実用的なアプリケーションにおける重要なニーズ、すなわち一貫した視覚的表現と調和の取れた美学を実現するためのスタイルカスタマイズを見落としがちです。既存のT2V手法をスタイルカスタマイズに拡張するには、いくつかの課題があります。最適化ベースのT2Vモデルは、テキストから画像(T2I)モデルの事前知識を活用してカスタマイズできますが、構造的な規則性を維持するのが困難です。一方、フィードフォワード型のT2Vモデルは構造的な規則性を保証できますが、限られたSVG学習データのため、コンテンツとスタイルを分離するのに苦労します。 これらの課題に対処するため、我々はフィードフォワード型T2VモデルとT2I画像の事前知識の両方の利点を活用した、新しい2段階のスタイルカスタマイズパイプラインを提案します。第1段階では、パスレベル表現を用いてT2V拡散モデルを訓練し、SVGの構造的な規則性を保ちつつ多様な表現力を維持します。第2段階では、カスタマイズされたT2Iモデルを蒸留することで、T2V拡散モデルを異なるスタイルに適応させます。これらの技術を統合することで、我々のパイプラインはテキストプロンプトに基づいて効率的なフィードフォワード方式で、カスタムスタイルの高品質で多様なSVGを生成できます。本手法の有効性は、広範な実験を通じて検証されています。プロジェクトページはhttps://customsvg.github.ioです。
ポインティングは、視覚的コンテキスト内で言語を接地させるための基本的で直感的なメカニズムとして機能し、ロボティクス、支援技術、インタラクティブAIシステムなど幅広い応用が可能です。近年のマルチモーダルモデルはポインティング機能をサポートし始めていますが、既存のベンチマークは通常、参照対象の物体位置特定タスクにのみ焦点を当てています。本論文では、多様な推論シナリオにわたるマルチモーダルポインティングを評価するための包括的なプラットフォームであるPointArenaを紹介します。PointArenaは3つのコンポーネントで構成されています:(1) 5つの推論カテゴリーにわたる約1,000のポインティングタスクを含む精選されたデータセットであるPoint-Bench、(2) 匿名化された4,500以上の投票が既に集められている、ウェブベースのインタラクティブなペアワイズモデル比較アリーナであるPoint-Battle、(3) 実世界のロボット操作システムであり、ユーザーが実践的な設定で直接マルチモーダルモデルのポインティング能力を評価できるPoint-Actです。我々は、最先端のオープンソースおよびプロプライエタリなマルチモーダルモデルを広範に評価しました。結果は、Molmo-72Bが他のモデルを一貫して上回る一方で、プロプライエタリモデルも同等の性能を示しつつあることを示しています。さらに、ポインティングタスクに特化した教師ありトレーニングがモデルの性能を大幅に向上させることも明らかになりました。多段階評価パイプライン全体を通じて、強い相関関係も観察され、マルチモーダルモデルが抽象的な推論と具体的な現実世界の行動を効果的に橋渡しする上で、正確なポインティング能力が極めて重要であることが強調されました。プロジェクトページ: https://pointarena.github.io/
本研究では、不完全だが正確なメトリック情報を持つ深度測定と、相対的だが完全な幾何学的構造を持つ深度予測を組み合わせたフレームワーク「Prior Depth Anything」を提案する。これにより、任意のシーンに対して正確で密で詳細なメトリック深度マップを生成する。この目的のために、2つの補完的な深度ソースを段階的に統合する粗から細へのパイプラインを設計した。まず、ピクセルレベルのメトリックアライメントと距離を考慮した重み付けを導入し、深度予測を明示的に使用して多様なメトリック事前情報を事前に埋める。これにより、事前パターン間のドメインギャップを効果的に狭め、さまざまなシナリオでの汎化性能を向上させる。次に、深度事前情報に内在するノイズを除去するための条件付き単眼深度推定(MDE)モデルを開発した。正規化された事前埋め込み情報と予測に条件付けすることで、モデルは2つの補完的な深度ソースをさらに暗黙的に統合する。我々のモデルは、7つの実世界データセットにわたる深度補完、超解像、インペインティングにおいて、印象的なゼロショット汎化性能を示し、従来のタスク固有の手法に匹敵するかそれを上回る結果を達成した。さらに重要なことに、困難で未見の混合事前情報に対しても良好に機能し、予測モデルを切り替えることでテスト時の改善を可能にし、MDEモデルの進化に伴いながら柔軟な精度と効率のトレードオフを提供する。
本研究は、AIエージェントとエージェンティックAIを厳密に区別し、それらの異なる設計哲学と能力を明確にするために、体系的な概念的分類、応用マッピング、および課題分析を提供する。まず、検索戦略と基本的な定義を概説し、AIエージェントを、大規模言語モデル(LLMs)と大規模画像モデル(LIMs)によって駆動される、特定のタスクに特化した自動化のためのモジュール型システムとして特徴づける。生成AIはその前段階と位置づけられ、AIエージェントはツール統合、プロンプトエンジニアリング、および推論の強化を通じて進化する。一方、エージェンティックAIシステムは、マルチエージェント協調、動的タスク分解、永続的メモリ、および調整された自律性によって特徴づけられるパラダイムシフトを表す。アーキテクチャの進化、動作メカニズム、相互作用スタイル、および自律性レベルを順次評価し、両パラダイムにわたる比較分析を提示する。顧客サポート、スケジューリング、データ要約などの応用領域と、研究自動化、ロボット協調、医療意思決定支援におけるエージェンティックAIの展開を対比する。さらに、幻覚、脆さ、創発的行動、協調失敗などの各パラダイムにおける固有の課題を検討し、ReActループ、RAG、オーケストレーションレイヤー、因果モデリングなどの具体的な解決策を提案する。本論文は、堅牢でスケーラブルかつ説明可能なAIエージェントおよびエージェンティックAI駆動システムの開発に向けた明確なロードマップを提供することを目的としている。>AIエージェント、エージェント駆動、視覚言語モデル、エージェンティックAI意思決定支援システム、エージェンティックAI応用
本論文は新たな手法を提案するものではなく、テキストから画像への合成における最近の進展、特に大規模言語モデル(LLM)と拡散トランスフォーマー(DiT)の深い融合によるマルチモーダル生成に関連する、重要でありながら十分に研究されていない設計空間を徹底的に探求するものである。これまでの研究は主にシステム全体の性能に焦点を当てており、代替手法との詳細な比較や、重要な設計詳細およびトレーニングレシピが明らかにされないことが多かった。これらのギャップは、このアプローチの真の可能性についての不確実性を生み出している。これらのギャップを埋めるため、我々はテキストから画像への生成に関する実証研究を行い、確立されたベースラインとの制御された比較を実施し、重要な設計選択を分析し、大規模なトレーニングのための明確で再現可能なレシピを提供する。本論文が、マルチモーダル生成の将来の研究において、有意義なデータポイントと実践的なガイドラインを提供することを期待する。
事前学習済み言語モデル(LLM)は、固定されたトークン化スキームに制約されることが多く、特に多言語や専門的なアプリケーションにおいて非効率性や性能の限界を引き起こします。このトークナイザーの固定化は重大な課題を提示します。これを克服するための標準的な方法は、しばしば膨大な計算リソースを必要とします。ヒューリスティックな初期化によるトークナイザーの置換はこの負担を軽減することを目指していますが、既存の方法では徹底的な残差微調整が必要であり、セマンティックなニュアンスを完全に保持したり、根本的な圧縮の非効率性を適切に解決したりできない場合があります。私たちのフレームワークは、2つの革新を導入します。まず、モデルに依存しないトークナイザー移植方法であるTokenadapt、そして、圧縮を強化し断片化を減少させるためのマルチワードSupertokensのための新しい事前トークン化学習です。Tokenadaptは、新しいユニークなトークン埋め込みを、2つの方法を組み合わせたハイブリッドヒューリスティックで初期化します。1つは古いトークナイザーを使用したサブワード分解に基づく局所的な推定、もう1つは元の語彙からトップkのセマンティックに類似したトークンを利用したグローバルな推定です。この方法論は、セマンティクスを保持しつつ、再学習の要件を大幅に最小化することを目指しています。実証研究は両方の貢献を検証しています。移植ヒューリスティックはユニークなトークンを成功裏に初期化し、TranstokenizerやReTokを含む従来のベースラインや洗練された方法を著しく上回り、私たちのSupertokensは顕著な圧縮効果を達成しました。私たちのゼロショットパープレキシティの結果は、TokenAdaptのハイブリッド初期化が、異なるベースモデルと新しく訓練されたターゲットトークナイザーにおいて、ReTokとTransTokenizerのベースラインと比較して一貫して低いパープレキシティ比を生み出すことを示しています。TokenAdaptは通常、ReTokと比較して全体的なパープレキシティ比を大幅に減少させ、これらの集計スコアにおいて少なくとも2倍の改善をもたらしました。
手術シーンセグメンテーションは、コンピュータ支援手術において極めて重要であり、手術の質と患者の転帰を向上させるために不可欠である。最近、外科医にインタラクティブな体験を提供し、対象物をセグメント化する利点から、参照型手術セグメンテーションが注目を集めている。しかし、既存の手法は効率が低く、短期間の追跡に限定されており、複雑な現実世界の手術シナリオでの適用性が妨げられている。本論文では、Segment Anything Model 2を活用した二段階の手術参照セグメンテーションフレームワークであるReSurgSAM2を提案する。このフレームワークは、テキスト参照によるターゲット検出を行い、信頼性の高い初期フレーム識別と多様性駆動型の長期メモリを用いた追跡を実施する。検出段階では、クロスモーダル時空間Mambaを提案し、正確な検出とセグメンテーション結果を生成する。これらの結果に基づき、信頼性の高い初期フレーム選択戦略が、その後の追跡のための信頼できるフレームを特定する。初期フレームが選択されると、本手法は追跡段階に移行し、信頼性と多様性を備えたメモリバンクを維持する多様性駆動型メモリメカニズムを組み込み、一貫した長期追跡を保証する。大規模な実験により、ReSurgSAM2は既存の手法と比較して精度と効率の大幅な向上を達成し、61.2 FPSでリアルタイムに動作することが実証された。本手法のコードとデータセットはhttps://github.com/jinlab-imvr/ReSurgSAM2で公開予定である。
拡散モデルによる画像事前分布のモデリングが大きく進展しているにもかかわらず、3D認識画像編集は依然として課題が多い。その一因として、対象物体が単一の画像のみで指定されることが挙げられる。この課題に対処するため、我々は学習された3D事前分布に基づいて2D画像を編集する新しいフレームワーク「3D-Fixup」を提案する。このフレームワークは、物体の移動や3D回転といった難しい編集状況をサポートする。これを実現するために、拡散モデルの生成能力を活用したトレーニングベースのアプローチを採用する。ビデオデータは現実世界の物理的ダイナミクスを自然にエンコードしているため、トレーニングデータペア(ソースフレームとターゲットフレーム)を生成するためにビデオデータを利用する。ソースフレームとターゲットフレーム間の変換を推論するために単一の訓練済みモデルに依存するのではなく、2D情報を明示的に3D空間に投影することでこの難しいタスクを橋渡しするImage-to-3Dモデルからの3Dガイダンスを組み込む。トレーニング全体を通じて高品質な3Dガイダンスを確保するために、データ生成パイプラインを設計する。結果として、これらの3D事前分布を統合することで、3D-Fixupは複雑でアイデンティティに一貫性のある3D認識編集を効果的にサポートし、高品質な結果を達成し、拡散モデルの現実的な画像操作への応用を進展させる。コードはhttps://3dfixup.github.io/で提供されている。
ハイブリッド量子古典機械学習(HQML)モデルの出現は、計算知能の新たな地平を開くものの、その根本的な複雑さゆえにブラックボックス化しやすく、適用における透明性と信頼性を損なうことが多い。量子システム向けの説明可能なAI(XAI)はまだ初期段階にあるが、量子化された特徴符号化に続いて古典的学習を採用するHQMLアーキテクチャ向けの、堅牢なグローバルおよびローカルな説明可能性アプローチにおける大きな研究ギャップが明らかである。本論文はこのギャップに焦点を当て、Q-MEDLEYを基盤としたQuXAIというフレームワークを導入する。Q-MEDLEYは、これらのハイブリッドシステムにおける特徴の重要度を説明するための説明器である。我々のモデルは、量子特徴マップを組み込んだHQMLモデルの作成、量子変換段階を保持しつつ特徴ベースの推論を組み合わせたQ-MEDLEYの使用、そして結果として得られる帰属の可視化を含む。結果として、Q-MEDLEYはHQMLモデルにおける影響力のある古典的側面を明らかにし、ノイズを分離し、古典的な検証設定において確立されたXAI技術と十分に競合することが示された。アブレーション研究は、Q-MEDLEYで使用される複合構造の利点をより顕著に明らかにする。本研究成果の意義は極めて重要であり、HQMLモデルの解釈可能性と信頼性を向上させる道筋を提供することで、量子強化AI技術のより安全で責任ある使用を促進し、より大きな信頼を得ることが可能となる。
ユニバーサル視覚異常検出は、追加のファインチューニングなしに、新しいまたは未見の視覚領域から異常を識別することを目指しており、オープンシナリオにおいて重要です。最近の研究では、CLIPのような事前学習済み視覚言語モデルが、わずかな正常画像だけで強力な汎化能力を示すことが実証されています。しかし、既存の手法はプロンプトテンプレートの設計、複雑なトークン間の相互作用、または追加のファインチューニングを必要とするため、柔軟性が制限されています。本研究では、2つの重要な洞察に基づいたシンプルでありながら効果的な方法であるAdaptCLIPを提案します。第一に、適応的な視覚的およびテキスト的表現は、共同でなく交互に学習されるべきです。第二に、クエリと正常画像プロンプト間の比較学習は、残差特徴に依存するだけでなく、文脈的および整列された残差特徴を組み込むべきです。AdaptCLIPは、CLIPモデルを基盤サービスとして扱い、その入力または出力端に視覚アダプタ、テキストアダプタ、およびプロンプト-クエリアダプタの3つのシンプルなアダプタを追加します。AdaptCLIPは、ドメイン間でのゼロショット/少数ショットの汎化をサポートし、ベースデータセットで一度訓練されると、ターゲットドメインでの訓練不要の特性を持ちます。AdaptCLIPは、産業および医療領域の12の異常検出ベンチマークで最先端の性能を達成し、既存の競合手法を大幅に上回ります。AdaptCLIPのコードとモデルは、https://github.com/gaobb/AdaptCLIP で公開する予定です。
ロボット学習のスケーリングには、膨大で多様なデータセットが必要です。しかし、現在主流のデータ収集パラダイムである人間によるテレオペレーションは、コストが高く、手作業や物理的なロボットアクセスに制約されています。本論文では、物体の動力学シミュレーションやロボットハードウェアのテレオペレーションに依存せずに、ロボットのトレーニングデータを生成する新しいアプローチであるReal2Render2Real(R2R2R)を紹介します。入力は、スマートフォンで撮影された1つ以上の物体のスキャンと、人間によるデモンストレーションの単一の動画です。R2R2Rは、詳細な3D物体の形状と外観を再構築し、6自由度の物体の動きを追跡することで、数千の高視覚忠実度のロボット非依存デモンストレーションをレンダリングします。R2R2Rは、3Dガウシアンスプラッティング(3DGS)を使用して、剛体と関節物体の両方に対して柔軟なアセット生成と軌道合成を可能にし、これらの表現をメッシュに変換して、IsaacLabのようなスケーラブルなレンダリングエンジンとの互換性を維持しますが、衝突モデリングはオフにします。R2R2Rによって生成されたロボットデモンストレーションデータは、ロボットの自己受容状態と画像観測に基づいて動作するモデル、例えば視覚-言語-行動モデル(VLA)や模倣学習ポリシーと直接統合されます。物理実験では、単一の人間によるデモンストレーションから生成されたR2R2Rデータでトレーニングされたモデルが、150回の人間によるテレオペレーションデモンストレーションでトレーニングされたモデルの性能に匹敵することが示唆されています。プロジェクトページ: https://real2render2real.com
自己注意機構を用いた教師なし再構成ネットワークは、単一モデルによる多クラス(統一)異常検出において最先端の性能を達成しています。しかし、これらの自己注意再構成モデルは主にターゲット特徴量を操作するため、文脈との高い一貫性により正常特徴と異常特徴の両方を完璧に再構成してしまい、異常検出に失敗する可能性があります。さらに、これらのモデルは低空間解像度の潜在空間で再構成を行うため、不正確な異常セグメンテーションを生成することが多いです。再構成モデルの効率性を維持しつつ、統一異常検出の汎化性能を向上させるために、我々は単一の正常画像プロンプト(OneNIP)を用いて正常特徴を再構成し、異常特徴を復元するシンプルかつ効果的な手法を提案します。従来の研究とは異なり、OneNIPは初めて単一の正常画像プロンプトだけで異常を再構成または復元することを可能にし、統一異常検出の性能を効果的に向上させます。さらに、実際の正常画像と合成された異常画像の両方を使用して再構成誤差を回帰する教師ありリファイナを提案し、ピクセルレベルの異常セグメンテーションを大幅に改善します。OneNIPは、MVTec、BTAD、VisAという3つの産業用異常検出ベンチマークにおいて、従来の手法を上回る性能を示しています。コードと事前学習済みモデルはhttps://github.com/gaobb/OneNIPで公開されています。
ゼロショットおよび少数ショットの視覚的異常セグメンテーションは、手動で設計されたテキストプロンプトを使用して未知の異常を検出する強力な視覚-言語モデルに依存しています。しかし、視覚的表現は本質的に言語から独立しています。本論文では、普遍的な視覚的異常セグメンテーションのために広く使用されている視覚-言語モデルの代替として、純粋な視覚基盤モデルの可能性を探ります。異常セグメンテーションを変化セグメンテーションに統合する新しいパラダイムを提示します。このパラダイムにより、ターゲットの異常データセットから独立した既存の画像データセットから派生した、オブジェクトレベルおよび局所領域の変化を特徴とする大規模な合成画像ペアを活用することが可能になります。この合成データセットで訓練され、その後現実世界の新しいまたは未知の視覚的異常をセグメント化するためにうまく一般化する、普遍的な異常セグメンテーションのためのワンプロンプトメタ学習フレームワーク(MetaUAS)を提案します。プロンプト画像とクエリ画像間の幾何学的変動を処理するために、ペア画像の変化知覚と単一画像のセマンティックセグメンテーションを橋渡しするソフト特徴アライメントモジュールを提案します。これは、特別な異常検出データセットや事前訓練された視覚-言語モデルに依存せずに、純粋な視覚モデルを使用して普遍的な異常セグメンテーションを達成する最初の研究です。私たちの方法は、1つの正常な画像プロンプトのみで任意の異常を効果的かつ効率的にセグメント化し、言語のガイダンスなしで訓練不要です。私たちのMetaUASは、以前のゼロショット、少数ショット、さらにはフルショットの異常セグメンテーション方法を大幅に上回ります。コードと事前訓練済みモデルはhttps://github.com/gaobb/MetaUASで利用可能です。
異常検出は、工業検査における異常サンプルの希少性から、実用的かつ挑戦的なタスクです。既存の異常検出手法の一部は、ノイズや外部データを用いて異常を合成することでこの問題に対処しています。しかし、合成された異常と実世界の異常との間には常に大きな意味的ギャップが存在し、異常検出の性能が弱い結果をもたらしています。この問題を解決するため、我々は少数の実異常を用いて現実的で多様な異常を生成するFew-shot Anomaly-driven Generation(AnoGen)手法を提案します。これにより、異常検出モデルの訓練に有益な効果をもたらします。具体的には、我々の研究は3つの段階に分かれています。第1段階では、少数の実異常に基づいて異常分布を学習し、その知識を埋め込みに注入します。第2段階では、その埋め込みと与えられたバウンディングボックスを使用して、拡散モデルをガイドし、特定のオブジェクト(またはテクスチャ)上に現実的で多様な異常を生成します。最終段階では、生成された異常を用いてより強力なモデルを訓練するための弱教師あり異常検出手法を提案します。我々の手法は、DRAEMとDesTSegを基盤モデルとして構築し、一般的に使用される工業異常検出データセットであるMVTecで実験を行いました。実験結果は、我々が生成した異常が異常分類とセグメンテーションタスクの両方においてモデル性能を効果的に向上させることを示しています。例えば、DRAEMとDesTSegは、セグメンテーションタスクにおいてAU-PRメトリックでそれぞれ5.8%と1.5%の改善を達成しました。コードと生成された異常データはhttps://github.com/gaobb/AnoGenで公開されています。
人間の動画はロボット操作ポリシーを訓練するためのスケーラブルな方法を提供しますが、標準的な模倣学習アルゴリズムに必要な動作ラベルが欠如しています。既存のクロスエンボディメントアプローチは、人間の動きをロボットの動作にマッピングしようとしますが、エンボディメントが大きく異なる場合にはしばしば失敗します。本研究では、物体の動きを密で転移可能な信号として利用し、ロボットポリシーを学習するためのリアル・ツー・シミュレーション・ツー・リアルフレームワークであるX-Simを提案します。X-Simは、RGBD人間動画からフォトリアリスティックなシミュレーションを再構築し、物体の軌跡を追跡して物体中心の報酬を定義することから始まります。これらの報酬は、シミュレーション内で強化学習(RL)ポリシーを訓練するために使用されます。学習されたポリシーは、さまざまな視点と照明でレンダリングされた合成ロールアウトを使用して、画像条件付き拡散ポリシーに蒸留されます。現実世界に転移するために、X-Simは、展開中に現実とシミュレーションの観測を整合させるオンラインドメイン適応技術を導入します。重要な点として、X-Simはロボットの遠隔操作データを一切必要としません。2つの環境で5つの操作タスクを評価し、以下の結果を示します:(1)手動追跡およびシミュレーション・ツー・リアルベースラインに対して平均30%のタスク進捗の向上、(2)10倍少ないデータ収集時間で行動クローニングと同等の性能、(3)新しいカメラ視点およびテスト時の変更に対する一般化。コードと動画はhttps://portal-cornell.github.io/X-Sim/で公開されています。