翻訳付きの日次キュレーションされたAI研究論文
私たちは、アラビア語中心の指示と翻訳モデルのファミリーであるHalaを紹介します。このモデルは、私たちのtranslate-and-tuneパイプラインを用いて構築されました。まず、強力なAR↔EN教師モデルをFP8に圧縮し(品質の低下なしにスループットを約2倍向上)、高精度の二言語監視データを作成します。次に、軽量な言語モデルLFM2-1.2Bをこのデータでファインチューニングし、高品質な英語の指示セットをアラビア語に翻訳することで、指示追従に特化した百万規模のコーパスを生成します。Halaモデルは350M、700M、1.2B、および9Bパラメータでトレーニングされ、slerpマージングを適用してアラビア語特化とベースモデルの強みをバランスさせます。アラビア語中心のベンチマークにおいて、Halaは「ナノ」(≤2B)および「スモール」(7-9B)カテゴリの両方で最先端の結果を達成し、ベースモデルを上回ります。私たちは、アラビア語NLP研究を加速するために、モデル、データ、評価、およびレシピを公開します。
我々は、包括的なマルチモーダル理解と推論のためのオープンソースのビジョン・ランゲージ基盤モデル(LVM)であるSAIL-VL2を紹介する。SAIL-VLの後継モデルとして、SAIL-VL2は2Bおよび8Bパラメータスケールにおいて、多様な画像およびビデオベンチマークで最先端の性能を達成し、細粒度の知覚から複雑な推論に至る強力な能力を実証している。その有効性を支える3つの核心的な革新がある。第一に、スコアリングとフィルタリング戦略を備えた大規模データキュレーションパイプラインにより、キャプショニング、OCR、QA、ビデオデータの品質と分布が向上し、トレーニング効率が改善される。第二に、強力な事前学習済みビジョンエンコーダ(SAIL-ViT)から始まり、マルチモーダル事前学習を経て、思考融合型のSFT-RLハイブリッドパラダイムに至る段階的なトレーニングフレームワークが、モデルの能力を体系的に強化する。第三に、密なLLMを超えた効率的なスパースMixture-of-Experts(MoE)設計を含むアーキテクチャの進展がある。これらの貢献により、SAIL-VL2は106のデータセットで競争力のある性能を示し、MMMUやMathVistaといった挑戦的な推論ベンチマークで最先端の結果を達成している。さらに、OpenCompassリーダーボードにおいて、SAIL-VL2-2Bは4Bパラメータスケール以下の公式リリースされたオープンソースモデルの中で首位を占め、オープンソースマルチモーダルコミュニティにとって効率的で拡張可能な基盤として機能している。
全方位視覚(Omnidirectional Vision)は、360度の視野を用いて環境を理解する技術であり、ロボティクス、産業検査、環境モニタリングなどの分野で重要性を増しています。従来のピンホール視覚と比較して、全方位視覚は環境全体の認識を提供し、シーン知覚の完全性と意思決定の信頼性を大幅に向上させます。しかし、この分野の基礎研究は歴史的にピンホール視覚に遅れを取ってきました。本講演では、エンボディードAI時代における新たなトレンドとして、産業界の需要と学術的関心の高まりによって急速に発展している全方位視覚を取り上げます。我々は、全方位生成、全方位知覚、全方位理解、および関連データセットにおける最近のブレークスルーを紹介します。学界と産業界の知見を基に、エンボディードAI時代における理想的なパノラマシステムアーキテクチャ「PANORAMA」を提案します。これは4つの主要なサブシステムで構成されています。さらに、パノラマ視覚とエンボディードAIの交差点における新興トレンドとコミュニティ間の影響に関する深い見解を提供し、将来のロードマップと未解決の課題についても議論します。本概要は、最先端の進展を統合し、エンボディードAI時代における堅牢で汎用的な全方位AIシステムを構築するための将来研究の課題と機会を概説します。
試験は専門レベルの知能を測る基本的なテストであり、統合的な理解、推論、生成を必要とします。既存の試験形式のベンチマークは主に理解と推論タスクに焦点を当てており、現在の生成ベンチマークは世界知識や視覚的概念の描写を重視していますが、厳密な作図試験の評価は見過ごされています。本研究では、多分野にわたるテキストから画像への試験を対象とした初のベンチマーク「GenExam」を紹介します。GenExamは10科目にわたる1,000のサンプルを特徴とし、4段階の分類体系に基づいて整理された試験形式のプロンプトを提供します。各問題には正解画像と詳細な採点基準が備わっており、意味的正確性と視覚的妥当性を精密に評価することが可能です。実験結果から、GPT-Image-1やGemini-2.5-Flash-Imageといった最先端のモデルでさえ厳密なスコアが15%未満であり、ほとんどのモデルはほぼ0%に留まることが示され、本ベンチマークの難易度の高さが明らかになりました。画像生成を試験として捉えることで、GenExamは知識、推論、生成を統合するモデルの能力を厳密に評価し、汎用人工知能(AGI)への道筋に関する洞察を提供します。
コード言語モデル(CLM)は、コード生成や要約といったソフトウェアエンジニアリングタスクにおいて優れた性能を発揮しているが、最近の実証研究により、重大なプライバシーの脆弱性が明らかになっている。これらのモデルは、訓練データ中の機密情報を意図せず記憶しており、特定のプロンプトを与えるとその情報を逐語的に再現してしまう。この問題に対処するため、訓練データの重複排除や差分プライバシーの強化など、いくつかのアプローチが提案されている。しかし、これらの手法は、デプロイ済みのCLMに対してモデル全体の再訓練を必要とし、多大な計算コストがかかる。本論文では、以下の研究課題に答えることを目指す:CLMによって記憶された機密情報を効果的かつ効率的に消去することは可能か? 我々は、機械学習のアンラーニング(学習解除)を通じて、CLMにおける機密情報の記憶を消去する先駆的な調査を行った。アンラーニングは、モデル全体の再訓練を必要とせず、訓練済みモデルから特定の情報を除去する事後修正手法である。具体的には、まずCLMの訓練データセット内の機密データの記憶リスクを定量化し、5万件の高リスクな記憶サンプルをアンラーニングの対象として選定した。次に、広く使用されている勾配上昇法に基づく2つのアンラーニング手法(基本的な手法と制約付き手法)を検討し、CodeEraserという高度なバリアントを導入した。CodeEraserは、コードの構造的整合性と機能的正しさを維持しながら、機密情報が記憶されたセグメントを選択的に消去する。CodeParrot、CodeGen-Mono、Qwen2.5-Coderという3つのCLMファミリーを用いた広範な実験により、CodeEraserが対象とする機密情報の記憶を効果的かつ効率的に消去しつつ、モデルの有用性を維持することを検証した。
大規模言語モデル(LLM)ベースのエージェントの最近の進展は、複数の領域にわたる印象的な能力を示しており、複雑な情報探索と統合タスクにおいて優れた性能を発揮する深層研究システムがその一例である。汎用の深層研究エージェントは印象的な能力を示しているものの、医療領域の課題には大きく苦戦しており、主要なプロプライエタリシステムが複雑な医療ベンチマークで限定的な精度しか達成できていないことがその証左である。主な制約は以下の2点である:(1)モデルが臨床推論に必要な十分な密度の医療知識を欠いていること、(2)医療文脈に特化した検索ツールの不在によりフレームワークが制約を受けていること。本論文では、これらの課題に対処する医療深層研究エージェントを提案する。第一に、医療知識グラフを用いた新たなデータ合成フレームワークを開発し、希少な医療エンティティ周辺のサブグラフから最長の連鎖を抽出して複雑なマルチホップの質問-回答ペアを生成する。第二に、汎用ツールに加えて、カスタムビルドのプライベート医療検索エンジンを統合し、正確な医療情報の統合を可能にする。我々のアプローチは、12の医療専門分野にわたる2100以上の多様な軌跡を生成し、各軌跡は平均4.2回のツール相互作用を伴う。教師ありファインチューニングと複合報酬を用いたオンライン強化学習を組み合わせた2段階のトレーニングパラダイムを通じて、MedResearcher-R1-32Bモデルは医療ベンチマークにおいて新たな最先端の結果を達成し、一般的な深層研究タスクにおいても競争力のある性能を維持する。我々の研究は、アーキテクチャ、ツール設計、トレーニングデータ構築における戦略的なドメイン特化のイノベーションにより、小規模なオープンソースモデルが専門領域においてはるかに大規模なプロプライエタリシステムを凌駕し得ることを示している。
大規模言語モデル(LLMs)は数学的推論において著しい進歩を遂げてきたが、数値計算や形式的な記号操作といった高精度なタスクでは依然として苦戦を強いられている。このギャップを埋めるための有望なアプローチとして、外部ツールの統合が注目されている。最近の進展にもかかわらず、既存の手法は3つの主要な課題に直面している:ツール統合型推論データの構築、細粒度の最適化、推論の強化である。これらの制限を克服するため、我々はTHOR(Tool-Integrated Hierarchical Optimization via RL)を提案する。まず、TIRGenを導入する。これは、多エージェントのアクター・クリティックに基づくパイプラインであり、ツール統合型推論パスの高品質なデータセットを構築し、ポリシーに沿って多様なモデル間で良好に汎化する。次に、細粒度の階層的最適化を実現するため、軌跡レベルの問題解決とステップレベルのコード生成を同時に最適化するRL戦略を導入する。これは、中間ツール呼び出しの成功が最終的な答えの正しさを強く予測するという我々の重要な洞察に基づいている。最後に、THORは、即時のツールフィードバックを活用して推論中に誤った推論パスを動的に修正する自己修正メカニズムを組み込んでいる。我々のアプローチは、多様なモデル間で強力な汎化能力を示し、推論モデルと非推論モデルの両方で効果的に機能する。さらに、類似スケールのモデルにおいて、複数の数学的ベンチマークで最先端の性能を達成し、コードベンチマークでも一貫した改善をもたらす。我々のコードはhttps://github.com/JingMog/THORで公開予定である。
Wan-Animateを紹介します。これはキャラクターアニメーションと置換のための統一フレームワークです。キャラクター画像と参照動画が与えられると、Wan-Animateは動画内のキャラクターの表情や動きを精密に再現し、高精細なキャラクター動画を生成することができます。また、アニメーション化されたキャラクターを参照動画に統合し、元のキャラクターを置き換えることも可能で、シーンの照明や色調を再現することで、シームレスな環境統合を実現します。Wan-AnimateはWanモデルを基盤としています。キャラクターアニメーションタスクに適応させるため、参照条件と生成領域を区別するために修正された入力パラダイムを採用しています。この設計により、複数のタスクを共通の記号表現に統一しています。空間的に整列された骨格信号を使用して身体の動きを再現し、ソース画像から抽出された暗黙的な顔の特徴を使用して表情を再現することで、高い制御性と表現力を備えたキャラクター動画を生成します。さらに、キャラクター置換時の環境統合を強化するために、補助的なRelighting LoRAを開発しました。このモジュールは、適切な環境照明と色調を適用しながら、キャラクターの外観の一貫性を保ちます。実験結果は、Wan-Animateが最先端の性能を達成していることを示しています。モデルの重みとソースコードのオープンソース化に取り組んでいます。
本論文は、マルチモーダル推論に関するMARS2 2025チャレンジをレビューする。我々は、大規模なベンチマークを通じてマルチモーダル機械学習と大規模言語モデル(LLM)の異なるアプローチを統合することを目指している。これにより、研究者がこの非常にダイナミックな分野の最先端を追いやすくなることを期待している。一方で、多数のテストベッドが汎用大規模言語モデルの進化を促進している。したがって、今年のMARS2は、現実世界や専門的なシナリオに焦点を当て、マルチモーダル言語モデル(MLLM)の推論応用を広げることを目的としている。主催チームは、12の日常シナリオにおける一般的な推論と、広告動画におけるドメイン固有の推論をそれぞれサポートする、特注のデータセット「Lens」と「AdsQA」をテストセットとして公開した。我々は、汎用MLLMとタスク特化型モデルを含む40以上のベースラインを評価し、3つの競技トラック、すなわち現実世界シナリオにおける視覚的接地(VG-RS)、空間認識を伴う視覚的質問応答(VQA-SA)、クリエイティブ広告動画における視覚的推論(VR-Ads)を開設した。最終的に、著名な学術機関や産業界から76チームが登録し、1200以上の提出物の中から40以上の有効な提出物がランキングリストに含まれた。我々のデータセット、コードセット(40以上のベースラインと15以上の参加者手法)、およびランキングは、MARS2ワークショップのウェブサイトとGitHub組織ページ(https://github.com/mars2workshop/)で公開されており、今後のイベントに関する更新や告知が継続的に提供される。
大規模言語モデル(LLMs)は、提供された情報に基づいて質問に答える際に、文脈の忠実性に苦戦し、一貫しない回答を生成することが多い。既存のアプローチは、回答後に証拠を生成するための高価な教師ありファインチューニングに依存するか、与えられた文脈の活用を必ずしも改善しないウェブ検索を実行するようにモデルを訓練するものである。本研究では、CAREという新しいネイティブな検索拡張推論フレームワークを提案する。このフレームワークは、LLMsにモデル自身の検索能力を活用して、推論プロセス内で明示的に文脈内の証拠を統合することを教える。我々の手法は、限られたラベル付き証拠データを必要としながらも、推論チェーン内で戦略的に検索された文脈内トークンを通じて、検索精度と回答生成性能の両方を大幅に向上させる。複数の実世界および反事実的なQAベンチマークでの広範な実験により、我々のアプローチが教師ありファインチューニング、従来の検索拡張生成手法、および外部検索ソリューションを大幅に上回ることが実証された。この研究は、知識集約型タスクにおいてLLMsをより正確で信頼性が高く効率的にするための根本的な進展を示すものである。
我々は、LLM-Interleaved(LLM-I)を提案する。これは、インタリーブされた画像-テキスト生成をツール使用問題として再定義する柔軟で動的なフレームワークである。LLM-Iは、合成画像に限定され、事実に基づいたタスクやプログラム的な精度を必要とするタスクに苦戦する現在の統一モデルの「単一ツール」ボトルネックを克服するために設計されている。本フレームワークは、中心的なLLMまたはMLLMエージェントが、オンライン画像検索、拡散ベースの生成、コード実行、画像編集などの専門的な視覚ツールの多様なツールキットをインテリジェントに調整することを可能にする。エージェントは、ルールベースのロジックとLLMおよびMLLM評価者の判断を組み合わせたハイブリッド報酬システムを特徴とする強化学習(RL)フレームワークを介して、これらのツールを熟練して選択および適用するように訓練される。4つの異なるモデルバックボーンを使用して多様な新しいデータセットで訓練されたLLM-Iは、4つのベンチマークにおいて既存の手法を大幅に上回る最先端の性能を実証する。また、さらなる性能向上を提供する新しいテストタイムスケーリング戦略も導入する。プロジェクトページ: https://github.com/ByteDance-BandAI/LLM-I。
生成機械学習は、複雑な地球システムのダイナミクスをより深く理解するための新たな可能性を提供します。最近の拡散ベースの手法は、決定論的手法と比較して気象予報におけるスペクトルバイアスを解消し、アンサンブルキャリブレーションを改善していますが、これまで高解像度での安定したスケーリングが困難でした。このギャップを埋めるため、我々は1.3から800億パラメータのピクセルレベルSwin拡散トランスフォーマーであるAERISを導入し、ウィンドウ並列処理をシーケンス並列処理とパイプライン並列処理と組み合わせることで、追加の通信コストやグローバルバッチサイズの増加なしにウィンドウベースのトランスフォーマーを分割する汎用技術SWiPeを提案します。Aurora(10,080ノード)上で、AERISは0.25度ERA5データセットにおいて1×1パッチサイズで10.21エクサフロップス(混合精度)を維持し、ピーク性能は11.21エクサフロップスを達成し、95.5%の弱スケーリング効率と81.6%の強スケーリング効率を実現しました。AERISはIFS ENSを上回り、季節スケールで90日間安定しており、気象および気候予測における数十億パラメータ拡散モデルの可能性を示しています。
近年の画像生成モデルは、通常、凍結された画像トークナイザーに依存して、事前に構築された潜在空間で画像分布を捕捉します。しかし、再構成と生成分布の間には大きな乖離が存在し、現在のトークナイザーは生成トレーニング前に発生する再構成タスクのみを優先し、サンプリング中の生成エラーを考慮していません。本論文では、離散潜在空間におけるこの乖離の原因を包括的に分析し、そこから、潜在空間の構築とデコードのそれぞれに焦点を当てた、メイントレーニングとポストトレーニングを含む新しいトークナイザートレーニングスキームを提案します。メイントレーニング中には、生成推論中に発生する予期せぬトークン、すなわちサンプリングノイズをシミュレートするための潜在摂動戦略を提案します。具体的には、プラグアンドプレイのトークナイザートレーニングスキームを提案し、これによりトークナイザーの堅牢性が大幅に向上し、生成品質と収束速度が向上します。また、トークナイザーの性能を生成品質と関連付ける新しいトークナイザー評価指標、pFIDを提案します。ポストトレーニングでは、十分にトレーニングされた生成モデルに関してトークナイザーデコーダをさらに最適化し、生成されたトークンと再構成されたトークンの間の分布の違いを軽減します。sim400Mジェネレーターを使用して、提案されたメイントレーニングでトレーニングされた離散トークナイザーは、注目すべき1.60 gFIDを達成し、追加のポストトレーニングにより1.36 gFIDをさらに達成します。さらに、オートレグレッシブおよび拡散ベースのジェネレーターと組み合わせた、既存の離散および連続トークナイザーに対するポストトレーニング戦略の有効性を広く検証するための追加実験が行われました。
本論文では、SteeringControlというベンチマークを紹介します。これは、バイアス、有害な生成、幻覚といった中核的なアライメント目標に対する表現制御手法の評価と、それらがシコファンシー(ごますり)や常識的な道徳観といった二次的行動に及ぼす影響を測定するものです。従来のアライメント研究では、表現制御の副作用を示すために真実性や推論能力が強調されることが多かったですが、私たちは体系的に理解されていない多くのトレードオフが存在することを発見しました。私たちは、安全性に関連する主要行動と二次的行動のデータセットを収集し、5つの人気のある制御手法を中心に、制御の有効性と行動の絡み合いを評価します。これを可能にするため、既存の多くの手法の構成要素として機能する独自のコンポーネントに基づいたモジュール型制御フレームワークを構築しました。Qwen-2.5-7BとLlama-3.1-8Bでの実験結果から、強力な制御性能は、特定の制御手法、モデル、ターゲット行動の組み合わせに依存し、これらの不適切な組み合わせは深刻な概念の絡み合いを引き起こす可能性があることがわかりました。私たちはコードを以下で公開しています: https://github.com/wang-research-lab/SteeringControl.git
変分量子回路(VQCs)は量子機械学習の中心的な要素であり、一方で最近のKolmogorov-Arnoldネットワーク(KANs)の進展は学習可能な活性化関数の力を強調しています。本研究では、これらの方向性を統合し、単一量子ビットのデータ再アップロード回路であるDatA Re-Uploading ActivatioNs(DARUANs)を通じて実現される量子変分活性化関数(QVAFs)を導入します。データ前処理における学習可能な重みを持つDARUANは、データの繰り返しに伴って指数関数的に増加する周波数スペクトルを持ち、表現力を損なうことなくフーリエベースの活性化関数と比較してパラメータサイズを指数関数的に削減できることを示します。DARUANをKANsに組み込むことで、量子インスパイアされたKANs(QKANs)が得られ、KANsの解釈可能性を維持しながら、パラメータ効率、表現力、および汎化性能を向上させます。さらに、スケーラビリティ、実現可能性、計算効率を向上させるための2つの新しい技術、すなわちレイヤー拡張とハイブリッドQKANs(HQKANs)を導入し、大規模モデルにおけるフィードフォワードネットワークの多層パーセプトロン(MLPs)の代替として使用します。関数回帰、画像分類、および自己回帰生成言語モデリングに関する理論的分析と広範な実験を通じて、QKANsの効率性とスケーラビリティを実証します。DARUANsとQKANsは、ノイズのある中規模量子(NISQ)ハードウェアおよび古典的な量子シミュレータの両方において、量子機械学習を進展させる有望な方向性を提供します。
我々は、単一の実世界動画から動的な3D煙アセットを抽出・再構築し、さらに煙のデザインと編集のためのインタラクティブなシミュレーションを統合するパイプラインを提案する。近年の3Dビジョンの進展により、流体力学の再構築とレンダリングが大幅に改善され、現実的で時間的に一貫したビュー合成が可能となっている。しかし、現在の流体再構築は主に厳密に制御されたクリーンな実験室環境に依存しており、実世界で撮影された動画はほとんど未開拓のままである。我々は、実世界動画における煙の再構築における3つの主要な課題を特定し、背景除去による煙の抽出、煙粒子とカメラポーズの初期化、マルチビュー動画の推論といったターゲットを絞った技術を設計した。我々の手法は、高品質な煙の再構築(実世界動画において平均PSNR +2.22)により、従来の再構築および生成手法を凌駕するだけでなく、煙アセットをシミュレートすることで流体力学の多様で現実的な編集を可能にする。我々は、モデル、データ、および4D煙アセットを[https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke)で提供している。
大規模言語モデル(LLM)がマルチエージェントシステムにおいて不可欠な存在となるにつれ、記憶化、直接推論、または単一ターン評価を超えた新たなプライバシーリスクが浮上している。特に、一見無害な応答が、相互作用全体で組み合わさることで、攻撃者が機密情報を復元できる可能性が累積的に高まる現象を、我々は「合成的プライバシー漏洩」と呼ぶ。本論文では、マルチエージェントLLMシステムにおけるこのような合成的プライバシー漏洩とその緩和手法について、初めて体系的な研究を提示する。まず、補助知識とエージェント間の相互作用が、個々の応答が単独では無害であっても、プライバシーリスクを共同で増幅する仕組みをモデル化する枠組みを開発する。次に、これを緩和するため、二つの防御戦略を提案し評価する:(1)「心の理論防御(ToM)」では、防御側エージェントが質問者の意図を推測し、自身の出力が攻撃者に悪用される可能性を予測する。(2)「協調的合意防御(CoDef)」では、応答側エージェントが、共有された集約状態に基づいて投票する仲間と協力し、機密情報の拡散を制限する。重要な点として、評価においては、機密情報を暴露する合成的相互作用と、無害な推論をもたらす合成的相互作用のバランスを取る。実験結果から、これらの防御戦略がプライバシーと有用性のトレードオフをどのようにバランスするかを定量化する。思考連鎖単独では漏洩に対する保護が限定的(約39%の機密ブロック率)であるのに対し、ToM防御は機密クエリのブロックを大幅に改善(最大97%)するが、無害なタスクの成功率を低下させる可能性がある。CoDefは最も優れたバランスを達成し、最高のバランスドアウトカム(79.8%)を示し、明示的な推論と防御側の協力を組み合わせることの利点を強調する。全体として、本研究は、協調的LLM展開における新たなリスククラスを明らかにし、合成的で文脈駆動型のプライバシー漏洩に対する保護策を設計するための実践的な洞察を提供する。
パーソナライズされた金融アドバイスには、ユーザーの目標、制約、リスク許容度、および管轄区域を考慮する必要があります。これまでのLLM研究は、投資家やファイナンシャルプランナー向けの支援システムに焦点を当ててきました。同時に、最近の多くの研究では、予算管理、債務管理、退職計画、相続計画などのより広範な個人財務タスクを、高い維持コストを伴うエージェント型パイプラインを通じて検討しており、期待される財務リターンの25%未満しか得られていません。本研究では、関連する金融コンテキストと行動ファイナンス研究を統合し、エンドツーエンドのアドバイザー向けの教師データを構築するための新規かつ再現可能なフレームワークを紹介します。このフレームワークを使用して、19kサンプルの推論データセットを作成し、Qwen-3-8Bモデルをこのデータセットで包括的にファインチューニングしました。ホールドアウトテストスプリットとブラインドLLMジャッジスタディを通じて、慎重なデータキュレーションと行動統合により、8Bモデルが事実の正確性、流暢さ、パーソナライゼーションの指標において、大幅に大きなベースラインモデル(14-32Bパラメータ)と同等のパフォーマンスを達成しつつ、それらの大規模モデルに比べて80%低いコストで実現できることを示しました。
本研究では、ハイブリッド量子-古典ニューラルネットワークと純粋な古典モデルの性能、効率性、および堅牢性を評価するため、3つのベンチマークデータセット(MNIST、CIFAR100、STL10)における体系的な比較を行った。ハイブリッドモデルは、パラメータ化された量子回路を古典的な深層学習アーキテクチャと統合し、古典モデルは従来の畳み込みニューラルネットワーク(CNN)を使用した。各データセットに対して50エポックの訓練を行い、検証精度、テスト精度、訓練時間、計算リソース使用量、および敵対的堅牢性(ε=0.1の摂動でテスト)を評価した。主要な結果として、ハイブリッドモデルは最終精度において古典モデルを一貫して上回り、検証精度はそれぞれMNISTで99.38%、CIFAR100で41.69%、STL10で74.05%を達成した(古典モデルのベンチマークはそれぞれ98.21%、32.25%、63.76%)。特に、ハイブリッドモデルの優位性はデータセットの複雑さに比例し、CIFAR100(+9.44%)およびSTL10(+10.29%)で最も顕著な向上を示した。また、ハイブリッドモデルは訓練速度が5~12倍速く(例:MNISTで1エポックあたり21.23秒 vs 108.44秒)、パラメータ数も6~32%少ない一方で、未見のテストデータに対する優れた汎化性能を維持した。敵対的堅牢性テストでは、ハイブリッドモデルは単純なデータセット(例:MNISTで45.27%の堅牢精度 vs 古典モデルの10.80%)において顕著に堅牢性が高いが、CIFAR100のような複雑なデータセットでは両モデルとも同程度の脆弱性を示した(堅牢性は約1%)。リソース効率分析では、ハイブリッドモデルはメモリ使用量(4~5GB vs 古典モデルの5~6GB)およびCPU使用率(平均9.5% vs 23.2%)が低いことが示された。これらの結果から、ハイブリッド量子-古典アーキテクチャは、特に複雑な視覚タスクにおいて、精度、訓練効率、およびパラメータのスケーラビリティにおいて魅力的な利点を提供することが示唆される。