翻訳付きの日次キュレーションされたAI研究論文
科学的大規模言語モデル(Sci-LLMs)は、科学研究における知識の表現、統合、応用の方法を変革しつつあるが、その進展は科学データの複雑な性質によって形作られている。本調査は、Sci-LLMsの開発をモデルとその基盤となるデータ基質との共進化として再構築する、データ中心の包括的な統合を提示する。我々は、科学データの統一的な分類体系と科学知識の階層的モデルを定式化し、科学コーパスを一般的な自然言語処理データセットと区別する、マルチモーダル、クロススケール、ドメイン固有の課題を強調する。我々は、汎用基盤モデルから多様な科学分野にわたる専門モデルまでの最近のSci-LLMsを体系的にレビューし、270以上の事前/事後学習データセットの詳細な分析を通じて、Sci-LLMsがなぜ異質的、マルチスケール、不確実性を伴うコーパスを必要とし、ドメイン不変性を保持し、クロスモーダル推論を可能にする表現を求めるのかを示す。評価においては、190以上のベンチマークデータセットを検証し、静的試験からプロセス指向および発見指向の評価への移行を、先進的な評価プロトコルとともに追跡する。これらのデータ中心の分析は、科学データ開発における持続的な課題を浮き彫りにし、半自動アノテーションパイプラインや専門家検証を含む新たな解決策を議論する。最後に、Sci-LLMsに基づく自律エージェントが積極的に実験し、検証し、進化し続ける知識基盤に貢献する閉ループシステムへのパラダイムシフトを概説する。全体として、本論文は、科学発見を加速する真のパートナーとして機能する、信頼性が高く継続的に進化する人工知能(AI)システムを構築するためのロードマップを提供する。
段階的思考能力を備えたマルチモーダル大規模言語モデル(MLLM)は、複雑な推論問題において顕著な性能を発揮することが実証されています。しかし、この思考プロセスは、複雑な推論を必要としない単純な問題に対しては冗長です。この非効率性を解決するため、我々はR-4Bという自動思考MLLMを提案します。R-4Bは、問題の複雑さに基づいて適応的に思考を開始するかどうかを決定できます。R-4Bの中心的なアイデアは、バイモードアニーリングを使用してモデルに思考モードと非思考モードの両方の能力を与え、Bi-mode Policy Optimization(BPO)を適用して、思考プロセスを活性化するかどうかを判断するモデルの精度を向上させることです。具体的には、まず、思考モードと非思考モードの両方のサンプルを含む、さまざまなトピックにわたる慎重に選ばれたデータセットでモデルを訓練します。その後、改良されたGRPOフレームワークの下で第二段階の訓練を行い、ポリシーモデルが各入力クエリに対して両方のモードから応答を生成することを強制します。実験結果は、R-4Bが25の挑戦的なベンチマークで最先端の性能を達成することを示しています。R-4Bは、ほとんどのタスクでQwen2.5-VL-7Bを上回り、推論集約型のベンチマークでは、Kimi-VL-A3B-Thinking-2506(16B)のような大規模モデルと同等の性能を、より低い計算コストで達成します。
人間がオープンワールドにおいてシームレスにマルチモーダル推論と物理的相互作用を遂行する能力は、汎用型エンボディドインテリジェントシステムの核心的な目標である。近年、大規模なロボットデータと視覚-テキストデータを共同で学習した視覚-言語-行動(VLA)モデルは、汎用ロボット制御において顕著な進歩を示している。しかし、それらは依然として、推論と相互作用を交互に行う人間レベルの柔軟性を達成できていない。本研究では、EO-1モデルとEO-Data1.5MデータセットからなるEO-Roboticsを紹介する。EO-1は、視覚-テキスト-行動を交互に事前学習することで、マルチモーダルエンボディド推論とロボット制御において優れた性能を発揮する統一エンボディド基盤モデルである。EO-1の開発は、以下の2つの重要な柱に基づいている:(i) 画像、テキスト、ビデオ、行動といったマルチモーダル入力を区別なく処理する統一アーキテクチャ、(ii) 視覚-テキスト-行動の交互理解に重点を置いた150万以上のサンプルを含む大規模で高品質なマルチモーダルエンボディド推論データセット、EO-Data1.5M。EO-1は、EO-Data1.5M上での自己回帰デコーディングとフローマッチングデノイジングの相乗効果を通じて学習され、シームレスなロボット行動生成とマルチモーダルエンボディド推論を可能にする。広範な実験により、オープンワールド理解と一般化のための視覚-テキスト-行動の交互学習の有効性が実証され、複数のエンボディメントにわたる長期的で器用な操作タスクを通じて検証された。本論文では、EO-1のアーキテクチャ、EO-Data1.5Mのデータ構築戦略、および学習方法論を詳細に説明し、先進的なエンボディド基盤モデルの開発に貴重な洞察を提供する。
スケーリング則は、テキスト、画像、動画の領域における大規模データで訓練されたモデルの創造的生成における成功と可能性を検証してきた。しかし、このパラダイムは3D領域においてデータ不足に直面している。なぜなら、前述のモダリティと比較して、インターネット上で利用可能な3Dデータははるかに少ないからである。幸いなことに、常識的な事前知識を内包する十分な動画が存在し、限られたネイティブ3Dデータによって引き起こされる汎化のボトルネックを緩和するための代替的な教師信号を提供する。一方で、オブジェクトやシーンの複数の視点を捉えた動画は、3D生成のための空間的一貫性の事前知識を提供する。他方で、動画に含まれる豊富な意味情報は、生成されたコンテンツがテキストプロンプトにより忠実で、意味的に妥当であることを可能にする。本論文では、3Dアセット生成において動画モダリティをどのように適用するかを、データセットからモデルまで広く探求する。我々は、マルチビューレベルのアノテーションを備えた初の大規模動画データセットであるDroplet3D-4Mを紹介し、画像と高密度テキスト入力の両方をサポートする生成モデルDroplet3Dを訓練する。広範な実験により、我々のアプローチの有効性が検証され、空間的一貫性と意味的妥当性を備えたコンテンツを生成する能力が実証された。さらに、主流の3Dソリューションとは対照的に、我々のアプローチはシーンレベルアプリケーションへの拡張の可能性を示している。これは、動画からの常識的事前知識が3D作成を大幅に促進することを示唆している。我々は、データセット、コード、技術フレームワーク、モデルウェイトを含むすべてのリソースをオープンソースとして公開した: https://dropletx.github.io/。
ソフトウェアエンジニアリングにおける大規模言語モデル(LLM)の採用が増加する中、生成されるコードの厳密なセキュリティ評価が求められています。しかし、既存のベンチマークは不十分であり、孤立したコードスニペットに焦点を当て、再現性に欠ける不安定な評価方法を採用し、入力コンテキストの品質と出力のセキュリティを結びつけることに失敗しています。これらのギャップを埋めるため、我々はA.S.E(AI Code Generation Security Evaluation)を導入します。これは、リポジトリレベルのセキュアなコード生成のためのベンチマークです。A.S.Eは、CVEが文書化された実世界のリポジトリからタスクを構築し、ビルドシステムやクロスファイル依存関係などの完全なリポジトリコンテキストを保持します。その再現可能でコンテナ化された評価フレームワークは、専門家が定義したルールを使用して、セキュリティ、ビルド品質、生成安定性の安定した監査可能な評価を提供します。A.S.Eでの主要なLLMの評価から、以下の3つの重要な発見が得られました:(1)Claude-3.7-Sonnetが全体的なパフォーマンスで最高の結果を達成しました。(2)プロプライエタリモデルとオープンソースモデルの間のセキュリティギャップは狭く、Qwen3-235B-A22B-Instructが最高のセキュリティスコアを獲得しました。(3)セキュリティパッチングにおいて、簡潔で「速い思考」のデコード戦略が、複雑で「遅い思考」の推論を一貫して上回りました。
大規模言語モデル(LLM)は、数学やコーディングなどの複雑な推論タスクにおいて優れた能力を発揮しますが、幼児が容易にこなすような単純なインタラクティブタスクには頻繁に苦戦します。この乖離は、宣言的知識(何かを知っていること)と手続き的知識(何かを実行する方法を知っていること)の間に存在する重要なギャップを浮き彫りにしています。従来の強化学習(RL)エージェントは環境との相互作用を通じて手続き的知識を獲得できますが、しばしばブラックボックスとして機能し、大量の訓練データを必要とします。一方、LLMは広範な世界知識と推論能力を備えていますが、この静的な知識をインタラクティブな設定における動的な意思決定に効果的に変換することができません。この課題に対処するため、我々はThink in Games(TiG)という新しいフレームワークを提案します。TiGは、LLMがゲーム環境との直接的な相互作用を通じて手続き的理解を発展させつつ、その本来の推論能力と説明能力を保持することを可能にします。具体的には、TiGはRLベースの意思決定を言語モデリングタスクとして再定式化します。LLMは言語ガイド付きのポリシーを生成し、環境からのフィードバックに基づくオンライン強化学習を通じて反復的に洗練されます。実験結果は、TiGが宣言的知識と手続き的知識のギャップを成功裏に埋め、従来のRL手法と比較して劇的に少ないデータと計算量で競争力のある性能を達成することを示しています。さらに、TiGはその意思決定に対して段階的な自然言語による説明を提供し、複雑なインタラクティブタスクにおける透明性と解釈可能性を大幅に向上させます。
オーディオ駆動型の話し手合成技術は、驚くべきフォトリアリズムを達成してきました。しかし、最先端(SOTA)のモデルには重大な欠陥があります:人種、言語、年齢層といった人間の多様性の全範囲にわたる汎化能力が欠けているのです。私たちは、この汎化ギャップが既存のトレーニングデータの限界に起因する直接的な症状であると主張します。既存のデータは、必要な規模、品質、多様性を備えていません。この課題に対処するため、私たちはTalkVidという新しい大規模で高品質かつ多様なデータセットを紹介します。TalkVidは7729人のユニークな話し手による1244時間のビデオを含んでいます。TalkVidは、モーションの安定性、美的品質、顔の詳細を厳密にフィルタリングする原則に基づいた多段階の自動化パイプラインを通じてキュレーションされ、その信頼性を確保するために人間の判断に対して検証されています。さらに、私たちはTalkVid-Benchを構築し、公開しました。これは、主要な人口統計学的および言語学的軸にわたって慎重にバランスを取った500のクリップから成る層別評価セットです。私たちの実験では、TalkVidでトレーニングされたモデルが、以前のデータセットでトレーニングされたモデルを上回り、優れたクロスデータセット汎化を示すことが実証されました。重要なことに、TalkVid-Benchでの分析は、従来の集計指標では隠されていたサブグループ間のパフォーマンスの差異を明らかにし、将来の研究におけるその必要性を強調しています。コードとデータはhttps://github.com/FreedomIntelligence/TalkVidで見つけることができます。
言語モデルの事前学習に使用されるデータの混合比率は、その最終的な性能の基盤となる。しかし、静的な混合戦略は最適ではなく、モデルの様々なデータドメインに対する学習選好はトレーニングを通じて動的に変化する。特に、これらの変化する選好を計算効率的に観察することは依然として大きな課題である。この問題に対処するため、我々はTiKMiXを提案する。これは、モデルの変化する選好に応じてデータの混合比率を動的に調整する手法である。TiKMiXは、データドメインがモデルに与える影響を評価するための効率的な指標であるGroup Influenceを導入する。この指標により、データ混合問題を、影響を最大化する最適な分布の探索として定式化することが可能となる。我々はこれを2つのアプローチで解決する:直接最適化を行うTiKMiX-Dと、より優れた混合比率を予測する回帰モデルを使用するTiKMiX-Mである。最大1兆トークンまでのデータを用いて、異なるパラメータ数のモデルをトレーニングした。TiKMiX-Dは、REGMIXのような最先端の手法の性能を上回りながら、計算リソースのわずか20%しか使用しない。TiKMiX-Mは、9つの下流ベンチマークで平均2%の性能向上をもたらす。我々の実験は、モデルのデータ選好がトレーニングの進捗とスケールに応じて進化することを明らかにし、これらの選好を直接測定するGroup Influenceに基づいてデータの混合比率を動的に調整することで、静的な比率で見られるデータの消化不足を緩和し、性能を大幅に向上させることを実証している。
jina-code-embeddingsは、自然言語クエリからコードを検索し、技術的な質問応答を行い、プログラミング言語を超えて意味的に類似したコードスニペットを特定するために設計された新しいコード埋め込みモデルスイートです。このモデルは、テキストとコードの両方で事前学習された自己回帰型バックボーンを革新的に活用し、最後のトークンプーリングを通じて埋め込みを生成します。本論文では、そのトレーニング手法を概説し、比較的小さなモデルサイズにもかかわらず最先端の性能を実証することで、このコード埋め込みモデル構築アプローチの有効性を検証します。
GUIエージェントは、モバイル/PCデバイス上での自動操作を可能にすることを目指しており、人工汎用知能の実現に向けた重要な課題です。視覚言語モデル(VLM)の急速な進展は、視覚理解とタスク計画における強力な能力により、GUIエージェントの開発を加速しています。しかし、操作軌跡の不足、インタラクティブインフラの可用性、基盤モデルの初期能力の限界などにより、GUIエージェントの構築は依然として困難な課題です。本研究では、自動GUIエージェントのためのオープンソース基盤モデルであるUItronを紹介します。UItronは、高度なGUI知覚、グラウンディング、計画能力を特徴としています。UItronは、GUIエージェント開発を進めるための基盤として、体系的なデータエンジニアリングとインタラクティブインフラの必要性を強調しています。トレーニング効果を向上させるための一連のデータエンジニアリング戦略を体系的に研究するだけでなく、モバイルとPCデバイスの両方を接続するインタラクティブ環境を構築します。トレーニングにおいて、UItronは様々なGUIシナリオにおける知覚と計画タスクに対して教師ありファインチューニングを採用し、その後、オンライン環境での複雑な推論と探索を可能にするカリキュラム強化学習フレームワークを開発します。その結果、UItronはGUI知覚、グラウンディング、計画のベンチマークで優れた性能を達成します。特に、UItronはトップクラスの中国モバイルアプリとのインタラクション能力を強調しており、最先端のソリューションにおいても中国語能力が一般的に不足していることを認識しました。この目的のために、我々は最も人気のある100のアプリにわたる100万ステップ以上の操作軌跡を手動で収集し、オフラインおよびオンラインのエージェント評価環境を構築しました。実験結果は、UItronが中国アプリシナリオにおいて大きな進歩を達成し、GUIエージェントを実世界の応用に一歩近づけることを示しています。
音声言語モデル(ALMs)——音声とテキストを交互に入力として受け取り、テキストを出力するマルチモーダルモデル——の評価は、標準化されたベンチマークの不足によって妨げられている。ほとんどのベンチマークは1つまたは2つの能力しか測定せず、公平性や安全性などの評価的側面を省略している。さらに、個別の評価では限られた数のモデルしかテストされず、異なるプロンプト手法や推論パラメータが使用されるため、モデル間の比較が困難である。これらの欠点を解決するため、我々はAHELMを導入する。AHELMは、様々なデータセットを集約したベンチマークであり、ALMsの開発と使用において重要とされる10の側面——音声知覚、知識、推論、感情検出、バイアス、公平性、多言語性、堅牢性、毒性、安全性——を包括的に測定する。これには、新しい合成音声テキストデータセットであるPARADE(ALMsがステレオタイプを回避する能力を評価)とCoRe-Bench(会話音声に対する推論を多ターンの質問応答を通じて測定)も含まれる。また、モデル間の公平な比較を確保するため、プロンプト、推論パラメータ、評価指標を標準化した。我々は、3つの開発者から14のオープンウェイトおよびクローズドAPIのALMsと、自動音声認識器と言語モデルで構成された3つの追加のシンプルなベースラインシステムをテストした。結果は、Gemini 2.5 Proが10の側面のうち5つでトップにランクされているものの、ASRタスクにおいてグループ不公平性(p=0.01)を示す一方、他のほとんどのモデルはそうではないことを示している。また、ベースラインシステムがAHELMで比較的良好な性能を発揮し、音声からテキストへの変換能力しか持たないにもかかわらず、1つが全体で5位にランクされていることもわかった。透明性のため、すべての生のプロンプト、モデルの生成、出力はhttps://crfm.stanford.edu/helm/audio/v1.0.0で公開されている。AHELMは継続的に更新されるベンチマークであり、新しいデータセットとモデルが随時追加される予定である。
大規模言語モデル(LLM)に対する強化学習(RL)の応用における最近の進展は、大きな進歩をもたらしている。特に、LLMにおいては、従来のRL設定では通常観察されないパターンを示す、注目すべきでありながらしばしば直感に反する現象が数多く報告されている。例えば、単一の訓練例がデータセット全体を用いた場合の性能に匹敵する、報酬信号が非常に正確である必要はない、負のサンプルのみを用いた訓練が洗練された報酬ベースの手法に匹敵またはそれを上回る、といった主張がなされている。しかし、これらの観察が成立する正確な条件、そして重要なことに、それらが失敗する条件は依然として不明である。本研究では、RLの観察結果を区別する重要な要因として、事前訓練済みモデルが評価対象タスクにおけるpass@k精度によって測定される強力なモデル-タスクアラインメントを示しているかどうかを特定する。一連の直感に反する主張を体系的かつ包括的に検証し、異なるモデルアーキテクチャとタスク領域にわたる厳密な実験的検証を通じて、標準的なRL訓練は設定全体で一貫して堅牢である一方、これらの直感に反する結果の多くは、モデルとタスクが既に強力なモデル-タスクアラインメントを示している場合にのみ生じることが明らかとなった。対照的に、これらの手法は、標準的なRL手法が有効であるより困難な状況では、学習を大幅に促進することができない。
対称性はコンピュータビジョンにおける最も基本的な幾何学的な手がかりの一つであり、その検出は継続的な課題となっています。最近の視覚-言語モデル、特にCLIPの進展に伴い、自然画像の記述に見られる追加の対称性の手がかりを活用することで、事前学習済みのCLIPモデルが対称性検出に役立つかどうかを調査しました。我々はCLIPSymを提案します。これは、CLIPの画像エンコーダと言語エンコーダ、およびTransformerとG-Convolutionのハイブリッドに基づく回転等変デコーダを活用して、回転対称性と鏡映対称性を検出します。CLIPの言語エンコーダを最大限に活用するために、Semantic-Aware Prompt Grouping (SAPG)と呼ばれる新しいプロンプト技術を開発しました。これは、多様な頻出オブジェクトベースのプロンプトを集約し、対称性検出のための意味的な手がかりをより良く統合します。実験的に、CLIPSymが3つの標準的な対称性検出データセット(DENDI、SDRW、LDRS)において、現在の最先端技術を上回ることを示します。最後に、CLIPの事前学習、提案された等変デコーダ、およびSAPG技術の利点を検証する詳細なアブレーション実験を行いました。コードはhttps://github.com/timyoung2333/CLIPSymで公開されています。
ユーザーインターフェース(UI)エージェントは、視覚障害者や弱視者(BLVユーザー)にとってアクセスが困難または複雑なUIをより簡単に利用できるようにすることを約束します。しかし、現在のUIエージェントは通常、タスクをエンドツーエンドで実行し、重要な選択においてユーザーを関与させたり、重要な文脈情報をユーザーに伝えたりしないため、ユーザーの主体性を低下させています。例えば、私たちのフィールドスタディでは、BLVの参加者が最も安価なスパークリングウォーターを購入するよう依頼したところ、エージェントは同等の価格の複数の選択肢から自動的に1つを選び、異なるフレーバーやより高い評価を持つ代替製品について言及しませんでした。この問題に対処するため、私たちはMoraeを紹介します。Moraeは、タスク実行中に決定ポイントを自動的に識別し、ユーザーが選択を行えるよう一時停止するUIエージェントです。Moraeは大規模なマルチモーダルモデルを使用して、ユーザーのクエリをUIコードやスクリーンショットと共に解釈し、選択が必要な場合にユーザーに明確化を促します。BLV参加者を対象とした実世界のウェブタスクに関する研究では、Moraeはベースラインエージェント(OpenAI Operatorを含む)と比較して、ユーザーがより多くのタスクを完了し、自分の好みに合ったオプションを選択するのを支援しました。より広く言えば、この研究は、ユーザーがUIエージェントの自動化の恩恵を受けながら、自分の好みを表現できる混合イニシアティブアプローチの一例を示しています。
現実世界の観測データから物理法則を自動的に発見することは、AIにおける大きな課題である。現在の手法は、記号的回帰や大規模言語モデル(LLM)に依存しており、単一モードのデータに限定され、物理学者にとって不可欠な運動の視覚的現象論的表現を見落としている。この「感覚遮断」は、動的現象に内在する時空間パターンを解釈する能力を著しく弱めている。このギャップを埋めるため、我々はVIPER-R1を提案する。これは、視覚的帰納による物理ベースの方程式推論を行い、基本的な記号的公式を発見するマルチモーダルモデルである。このモデルは、視覚的知覚、軌跡データ、記号的推論を統合し、科学的発見プロセスを模倣する。モデルは、運動構造帰納(MSI)のカリキュラムを通じて訓練され、運動学的位相ポートレートを解釈し、因果連鎖思考(C-CoT)に導かれた仮説を構築するための教師あり微調整を行い、その後、報酬誘導型記号的キャリブレーション(RGSC)を用いて、強化学習により公式構造を洗練する。推論時には、訓練されたVIPER-R1はエージェントとして機能し、まず高信頼度の記号的アンザッツを提示し、次に外部の記号的回帰ツールを積極的に呼び出して記号的残差再調整(SR^2)を実行する。この最終ステップは、物理学者の摂動解析に類似しており、理論モデルと経験的データを調和させる。この研究を支援するため、我々はPhysSymbolという新しい5,000インスタンスのマルチモーダルコーパスを導入する。実験結果は、VIPER-R1が精度と解釈可能性において最先端の視覚言語モデル(VLM)ベースラインを一貫して上回り、物理法則のより正確な発見を可能にすることを示している。プロジェクトページ: https://jiaaqiliu.github.io/VIPER-R1/
エコー状態ネットワーク(ESN)は、リザバーコンピューティング(RC)フレームワーク内の未訓練型リカレントニューラルネットワーク(RNN)の一種であり、その高速かつ効率的な学習能力で知られています。しかし、従来のESNは長期的な情報処理に課題を抱えています。本論文では、時間的残差接続に基づく新しいクラスの深層未訓練RNN、すなわちDeep Residual Echo State Networks(DeepResESN)を提案します。未訓練の残差リカレント層の階層構造を活用することで、メモリ容量と長期的な時間モデリングが大幅に向上することを示します。時間的残差接続については、ランダム生成および固定構造を含む異なる直交構成を検討し、それらがネットワークダイナミクスに及ぼす影響を調査します。詳細な数学的分析を通じて、DeepResESN内で安定したダイナミクスを保証するための必要十分条件を明らかにします。様々な時系列タスクにおける実験により、提案手法が従来の浅層および深層RCを上回る利点を実証します。
人間の動作データを活用してロボットに多様な操作スキルを付与することは、ロボット操作における有望なパラダイムとして浮上しています。しかしながら、多様なソースからの人間の手の動きを実現可能なロボットの動作に変換することは、特に複雑で高次元のアクション空間を特徴とする多指デクスタスハンドを備えたロボットにおいて、依然として困難な課題です。さらに、既存のアプローチでは、多様な環境条件に適応可能なポリシーを生成することがしばしば困難です。本論文では、移動型両手デクスタス操作のための人間からロボットへの学習フレームワークであるHERMESを紹介します。まず、HERMESは、複数のソースからの異種の人間の手の動きを物理的に妥当なロボットの動作にシームレスに変換する統一された強化学習アプローチを定式化します。次に、シミュレーションから現実へのギャップを軽減するために、現実世界のシナリオへの一般化を向上させるためのエンドツーエンドの深度画像ベースのシミュレーションから現実への転送手法を考案します。さらに、多様で非構造化された環境での自律動作を可能にするために、ナビゲーション基盤モデルに閉ループPerspective-n-Point(PnP)位置推定メカニズムを追加し、視覚的目標の正確な位置合わせを確保し、自律ナビゲーションとデクスタス操作を効果的に橋渡しします。広範な実験結果により、HERMESが多様な実世界のシナリオにおいて一貫して一般化可能な動作を示し、数多くの複雑な移動型両手デクスタス操作タスクを成功裏に実行することが実証されています。プロジェクトページ: https://gemcollector.github.io/HERMES/。
ポストトレーニング量子化(PTQ)は、YOLOのような効率的な物体検出モデルをリソース制約のあるデバイスに展開する上で重要です。しかし、精度低下がノイズ、ぼかし、圧縮アーティファクトといった実世界の入力劣化に対するモデルの頑健性に与える影響は大きな懸念事項です。本論文では、YOLOモデル(ナノからエクストララージスケールまで)の複数の精度フォーマット(FP32、FP16(TensorRT)、Dynamic UINT8(ONNX)、Static INT8(TensorRT))における頑健性を評価する包括的な実証研究を提示します。また、Static INT8 PTQのための劣化対応キャリブレーション戦略を導入し、評価します。この戦略では、TensorRTのキャリブレーションプロセスにクリーンな画像と合成的に劣化させた画像の混合を曝露します。モデルは、COCOデータセットにおいて、7つの異なる劣化条件(様々な種類とレベルのノイズ、ぼかし、低コントラスト、JPEG圧縮を含む)および混合劣化シナリオでベンチマークされました。結果は、Static INT8 TensorRTエンジンがクリーンデータにおいて大幅な高速化(約1.5-3.3倍)と中程度の精度低下(約3-7% mAP50-95)を提供する一方で、提案された劣化対応キャリブレーションは、ほとんどのモデルと劣化において標準的なクライアントデータキャリブレーションよりも一貫した広範な頑健性の向上をもたらさなかったことを示しています。特定のノイズ条件下での大規模モデルにおいて注目すべき例外が観察され、モデルの容量がこのキャリブレーションアプローチの有効性に影響を与える可能性が示唆されました。これらの発見は、PTQの頑健性を向上させることの難しさを強調し、制御されていない環境での量子化検出器の展開に関する洞察を提供します。すべてのコードと評価表はhttps://github.com/AllanK24/QRIDで利用可能です。
毎年、ほとんどの教育機関は、コース、教授法、そして全体的な経験に関する学生からの膨大な量のテキストフィードバックを収集し、受け取っています。しかし、この生のフィードバックを有用な洞察に変換することは、決して簡単ではありません。教育レビューテキストデータに対して自動的な意見マイニングソリューションを採用することは、内容の複雑さと低粒度の報告要件のため、長年の課題となっています。アスペクトベース感情分析(ABSA)は、その豊富なサブセンテンスレベルの意見マイニング能力により、有望な解決策を提供します。しかし、既存のABSA研究とリソースは、商業ドメインに非常に偏っています。教育分野では、公開データセットの限界と厳格なデータ保護のため、それらは希少で開発が困難です。このリソース不足の領域における研究を進めるためには、高品質な注釈付きデータセットが緊急に必要とされています。本研究では、EduRABSA(Education Review ABSA)を紹介します。これは、英語で書かれた3つのレビュー対象タイプ(コース、教員、大学)をカバーし、未開拓の暗黙的アスペクトと暗黙的意見抽出を含むすべての主要なABSAタスクを網羅した、初の公開注釈付きABSA教育レビューデータセットです。また、ASQE-DPT(Data Processing Tool)も共有します。これは、オフラインで軽量、インストール不要の手動データ注釈ツールであり、単一タスクの注釈から包括的なABSAタスクのためのラベル付きデータセットを生成します。これらのリソースは、データセットの障壁を取り除き、研究の透明性と再現性を支援し、さらなるリソースの作成と共有を可能にすることで、ABSAコミュニティと教育分野に貢献します。データセット、注釈ツール、およびデータセット処理とサンプリングのためのスクリプトと統計は、https://github.com/yhua219/edurabsa_dataset_and_annotation_tool で利用可能です。