翻訳付きの日次キュレーションされたAI研究論文
強化学習ファインチューニング(RFT)は、教師ありファインチューニング(SFT)と強化学習(RL)から構成される2段階フレームワークであり、大規模言語モデル(LLM)の推論能力向上に有望な成果を示している。しかし、RFTを大規模映像言語モデル(VLM)に拡張することは依然として課題である。本論文では、知覚と推論を異なるプロセスとしてモデル化することで映像推論を強化する、新しいプロセス認識型映像RFTフレームワーク「VideoP2R」を提案する。SFT段階では、知覚と推論のための高品質なプロセス認識型連鎖思考(CoT)データセット「VideoP2R-CoT-162K」を生成する3ステップのパイプラインを開発した。RL段階では、知覚と推論に個別の報酬を付与する新しいプロセス認識型グループ相対方策最適化(PA-GRPO)アルゴリズムを導入する。大規模な実験により、VideoP2Rが7つの映像推論・理解ベンチマークのうち6つでState-of-the-Art(SotA)性能を達成することを実証した。アブレーション研究では、提案するプロセス認識モデリングとPA-GRPOの有効性が確認され、モデルの知覚出力が下流の推論タスクに対して情報的に十分であることが示された。
大規模言語モデル(LLM)の推論能力向上、特にパラメータ制約下での性能向上は実世界応用において重要である。従来研究では、生成品質を改善するためにトークンごとに固定数の追加反復を割り当てるリカレントトランスフォーマーが提案されている。最初の標準的な順伝搬処理の後、言語化を行う代わりに最終層の隠れ状態を入力としてフィードバックし、追加反復によってトークン予測を洗練させる。しかし我々は潜在的な「過剰思考(overthinking)」現象を特定した:最初の処理で既に正解している容易なトークン予測が、追加反復において誤りに修正される場合があるのである。 この問題に対処するため、我々は困難なトークンに対してのみ深く反復を行う動的潜在思考手法「Think-at-Hard(TaH)」を提案する。本手法は軽量なニューラルデサイダーを用いて、標準的な順伝搬処理後に誤りである可能性が高いトークンのみで潜在反復をトリガーする。潜在反復中は、LoRA(Low-Rank Adaptation)モジュールによってLLMの目的を一般的な次トークン予測から焦点を絞った困難トークンの洗練へと移行させる。さらに我々は、注意力機構をトークン系列次元から反復深度次元へ拡張するデュオ因果的注意力機構を導入する。これにより完全な逐次並列性を維持しつつ、反復間の情報流れを可能にする。 実験結果では、TaHが同じパラメータ数を維持しながら、5つの困難なベンチマークでLLMの推論性能を向上させることを示す。全ての出力トークンに対して2回反復するベースラインと比較して、TaHは94%のトークンを第2反復から免除しつつ8.1-11.3%の精度向上を達成した。同じデータでファインチューニングされた強力な単一反復型Qwen3モデルに対しても、4.0-5.0%の精度向上を実現した。LoRAと反復デサイダーによる3%未満の追加パラメータを許容した場合、精度向上はそれぞれ8.5-12.6%および5.3-5.4%に増加した。実装コードはhttps://github.com/thu-nics/TaHで公開している。
革新的な視覚的スタイライゼーションは芸術的創造の基盤であるが、新規性のある一貫した視覚スタイルの生成は依然として大きな課題である。既存の生成手法では、スタイルを意識した画像生成を誘導するために、長文のテキストプロンプト、参照画像、またはパラメータ効率の良いファインチューニングに依存することが一般的だが、スタイルの一貫性、創造性の限界、複雑なスタイル表現に悩むことが多い。本論文では、スタイルは単一の数値コードに値するという主張を、新規タスク「コードからスタイルへの画像生成」の導入によって実証する。これは、数値的なスタイルコードのみを条件として、新規で一貫した視覚スタイルを持つ画像を生成するものである。現在まで、この分野は主に産業界(例:Midjourney)によってのみ探求されており、学術コミュニティからのオープンソース研究は存在しない。この空白を埋めるため、本論文ではこのタスクにおける初のオープンソース手法であるCoTyleを提案する。具体的には、まず画像コレクションから離散スタイルコードブックを学習し、スタイル埋め込みを抽出する。これらの埋め込みは、テキストから画像への拡散モデル(T2I-DM)がスタイル的な画像を生成するための条件として機能する。続いて、離散スタイル埋め込みに対して自己回帰型スタイル生成器を訓練し、その分布をモデル化することで、新規のスタイル埋め込みの合成を可能にする。推論時には、数値スタイルコードがスタイル生成器によって一意のスタイル埋め込みにマッピングされ、この埋め込みがT2I-DMを誘導して対応するスタイルの画像を生成する。既存手法とは異なり、本手法は比類のない簡潔さと多様性を提供し、最小限の入力から再現可能なスタイルの広大な空間を解放する。大規模な実験により、CoTyleが数値コードをスタイル制御装置に効果的に変換し、「スタイルは単一のコードに値する」ことを実証する。
我々は、大規模言語モデル(LLM)のアラビア語言語能力を評価するための完全に人間による注釈付きベンチマーク「AraLingBench」を提示する。このベンチマークは、文法、形態論、綴り、読解、構文の5つの主要カテゴリーにまたがり、構造的な言語理解を直接評価する150の専門家設計の多肢選択問題を通じて構成されている。35のアラビア語およびバイリンガルLLMを評価した結果、現在のモデルは表面的な熟練度を示すものの、深い文法的および構文的推論には苦戦していることが明らかとなった。AraLingBenchは、知識ベースのベンチマークでの高得点と真の言語習得との間に存在する持続的なギャップを浮き彫りにし、多くのモデルが記憶やパターン認識を通じて成功していることを示している。基本的な言語スキルを分離して測定することにより、AraLingBenchはアラビア語LLMの開発のための診断フレームワークを提供する。評価コードの全容はGitHubで公開されている。
Foundation models(基盤モデル)は多数の領域で人工知能に革命をもたらしたが、極端マルチラベル分類(XMC)におけるその変革的潜在能力は、依然として十分に活用されていない。XMCにおけるクエリは、極めて大規模なラベル空間から関連するラベルと結びつけられ、効率性と性能のバランスを取ることが極めて重要である。このため、近年の多くのアプローチでは、小規模なエンコーダのみのTransformerアーキテクチャから学習した埋め込み間の最大内積探索として、効率的にXMCを定式化している。本論文では、XMCにおける二つの重要な側面、すなわち、より大規模なデコーダのみのモデルを効果的に利用する方法と、計算効率を維持しながら視覚情報を活用する方法に取り組む。これら両方がXMCにおいて個別に重要な役割を果たし、組み合わせることで性能向上が図れることを実証する。数十億パラメータ規模のデコーダでも、計算オーバーヘッドを管理可能に保ちながら、大幅な改善をもたらすことを示す。さらに、我々のVision-enhanced eXtreme Multi-label Learningフレームワーク(ViXML)は、画像ごとに単一の埋め込みをプーリングすることで、基盤となる視覚モデルを効率的に統合する。これにより、計算量の増加を抑えつつ、マルチモーダル能力を解放する。特筆すべきは、小規模なエンコーダを用いたViXMLが、ほとんどの場合でテキストのみのデコーダを上回り、「一枚の画像が数十億のパラメータに値する」ことを示している。最後に、視覚的メタデータを活用するため、既存のテキストのみのデータセットを拡張し、将来のベンチマークに利用可能にする。4つの公開テキストのみデータセットとそれに対応する画像拡張版における総合的な実験により、我々の提案の有効性が検証され、最大のデータセットではP@1において従来の最先端技術を最大+8.21%上回った。ViXMLのコードはhttps://github.com/DiegoOrtego/vixml で利用可能である。
思考連鎖(CoT)プロンプティングは大規模言語モデル(LLM)において高度な記号的推論を可能にする一方で、離散的なテキストの枠組みに留まり、現実世界の物理法則に支配された連続的なダイナミクスをシミュレートすることはできません。近年登場した映像生成モデルは、フレーム連鎖(CoF)推論を通じて潜在的な世界シミュレーターとして台頭しています。これは思考をフレーム単位の視覚的連続として具体化し、各フレームが物理的に根拠付けられた推論ステップを表現するアプローチです。説得力のある実証例があるにもかかわらず、課題が残っています。既存のベンチマークは忠実度や整合性に焦点を当てる一方で、CoF推論を評価せず、多段階計画立案、アルゴリズム的論理、抽象的なパターン外挿といった中核的認知能力を測定できません。この評価の空白が、モデル能力の体系的理解と改善のための原理的な指針の確立を妨げています。 本研究では、認知科学と現実世界のAI応用に基づくフレームワーク「Gen-ViRe(生成的視覚推論ベンチマーク)」を提案します。これはCoF推論を6つの認知次元(知覚的論理から抽象的計画立案まで)と24のサブタスクに分解します。マルチソースデータのキュレーション、最小限のプロンプトプロトコル、詳細な評価基準に基づくVLM支援のハイブリッド評価を通じて、Gen-ViReは映像モデルを推論主体として定量評価する初の枠組みを提供します。最新のシステムを用いた実験では、印象的な視覚的品質と実際の推論深度の間に大きな乖離があることが明らかになり、真の世界シミュレーターの発展に向けたベースラインと診断ツールを確立しました。
純粋にテキストベースの再考プロセスに依存する自己内省メカニズムは、多くのマルチモーダルタスクにおいて良好な性能を発揮する。しかし、長尺動画理解シナリオに直接適用した場合、明らかな限界が現れる。その根本的な理由は以下の二点にある:(1)長尺動画理解はより豊富で動的な視覚入力を含むため、テキスト情報のみの再考では不十分であり、視覚情報に特化した追加的な再考プロセスが必須となる;(2)純粋にテキストベースの反省メカニズムはモーダル間相互作用能力を欠いており、反省過程で視覚情報を完全に統合することができない。これらの知見に基づき、我々はREVISOR(REflective VIsual Segment Oriented Reasoning)という、ツール拡張型マルチモーダル内省のための新規フレームワークを提案する。REVISORはMLLMがテキストと視覚のモダリティを横断した内省的な反省プロセスを協調的に構築することを可能にし、長尺動画理解における推論能力を大幅に強化する。REVISORが強化学習中に質問と高度に関連する動画セグメントを正確にレビューすることを学習できるようにするため、我々は二重帰属分離報酬(DADR)メカニズムを設計した。このメカニズムはGRPO訓練戦略に統合され、モデルの推論と選択された動画証拠との間の因果的整合性を強化する。特筆すべきは、REVISORフレームワークが追加の教師ありファインチューニングや外部モデルを必要とせずに、MLLMの長尺動画理解能力を大幅に向上させ、VideoMME、LongVideoBench、MLVU、LVBenchの4つのベンチマークで印象的な結果を達成した点である。
大規模視覚言語モデル(LVLM)の頑健性評価は、実世界アプリケーションにおける継続的な開発と責任ある展開において不可欠である。しかし、既存の頑健性ベンチマークは通常、幻覚や誤解を招くテキスト入力に焦点を当てており、視覚理解の評価において同様に重要な課題である誤解を招く視覚入力の評価がほぼ見過ごされている。この重要なギャップを埋めるため、我々は誤解を招く視覚入力がLVLMの頑健性をどのように損なうかを評価するために特別に設計された初の包括的ベンチマーク「MVI-Bench」を提案する。基本的な視覚プリミティブに基づくMVI-Benchの設計は、誤解を招く視覚入力の3つの階層レベル、すなわち「視覚概念」「視覚属性」「視覚関係」を中心に構成されている。この分類体系を用いて、6つの代表的なカテゴリーを精選し、専門家による注釈付きの1,248のVQAインスタンスを構築した。きめ細かい頑健性評価を可能にするため、粒度の高いレベルでLVLMの頑健性を特徴づける新しい評価指標「MVI-Sensitivity」をさらに導入した。18の最先端LVLMを用いた実証実験により、誤解を招く視覚入力に対する顕著な脆弱性が明らかになり、MVI-Benchにおける詳細分析は、より信頼性の高い頑健なLVLMの開発を導く実践的な知見を提供する。ベンチマークとコードベースはhttps://github.com/chenyil6/MVI-Benchでアクセス可能である。
我々は、あらゆるモダリティを入力として受け取り、あらゆるモダリティを生成可能な視覚エージェントフレームワーク「Orion」を提案する。複数のツール呼び出し機能を備えたエージェント型フレームワークを採用したOrionは、視覚AIタスク向けに設計され、State-of-the-Artの結果を達成する。記述的な出力を行う従来の視覚言語モデルとは異なり、Orionは物体検出、キーポイント定位、パノプティックセグメンテーション、光学文字認識、幾何学的解析など、専門的なコンピュータビジョンツール群を協調的に活用し、複雑な多段階の視覚ワークフローを実行する。本システムはMMMU、MMBench、DocVQA、MMLongBenchにおいて競争力のある性能を発揮するとともに、単一的な視覚言語モデルを製品レベルの視覚知能へと拡張する。神経回路網による知覚と記号的実行を組み合わせることで、Orionは自律的な視覚推論を実現し、受動的な視覚理解から能動的でツール駆動型の視覚知能への移行を象徴するものである。
大規模言語モデル(LLM)は、複雑な問題解決のために(ツール使用などを通じて)能動的に環境と対話可能なエージェントの構築に向けた研究が活発化している。強化学習(RL)は、このようなエージェントを訓練する上で大きな可能性を秘めた重要な技術と見なされている。しかし、LLMエージェントへのRLの効果的な応用はまだ初期段階にあり、多大な課題に直面している。現在、この新興分野では、LLMエージェントの文脈に特化したRL手法に関する深い探求が不足しており、同時に、この目的のために設計された柔軟で拡張性の高い訓練フレームワークも乏しい状況である。 本論文は、この分野の発展を促進するため、まずLLMエージェントの強化学習手法を再検討し、マルコフ決定過程(MDP)フレームワークを体系的に拡張することでLLMエージェントの主要構成要素を包括的に定義し、手法を明確化する。次に、多様なタスクシナリオと対話環境に容易に適応可能なように設計された、モジュール式で柔軟、かつユーザーフレンドリーなRLベースLLMエージェント用訓練フレームワーク「Agent-R1」を提案する。Multihop QAベンチマークタスクを用いた実験を実施し、提案手法およびフレームワークの有効性に関する予備的検証を行う。
オムニモーダル大規模言語モデル(OmniLLMs)は、近年、統合的な音声-映像理解に向けて研究の関心が高まっている。しかし、音声-映像トークン系列を処理する際には、計算上の大きなボトルネックが生じる。既存のトークン圧縮手法は、この新たな要求であるマルチモーダルトークンの共同圧縮に対応できていない。このギャップを埋めるため、本論文ではOmniZipを提案する。これは学習不要な、音声誘導型の音声-視覚トークン圧縮フレームワークであり、マルチモーダルトークン表現を最適化し、推論を高速化する。具体的には、OmniZipはまず salient な音声トークンを特定し、各時間グループに対して音声保持スコアを計算して情報密度を捉える。これにより、映像トークンの剪定を動的に誘導し、クロスモーダル類似性によって強化された音声アンカーからの手がかりを保持する。各時間ウィンドウにおいて、OmniZipはインタリーブされた時空間スキームを用いて映像トークンを圧縮する。大規模な実験結果は、OmniZipの利点を示している。すなわち、他の高性能な手法と比較して、3.42倍の推論高速化と1.4倍のメモリ削減を達成し、性能を維持したまま、学習を必要としない。
大規模言語モデル(LLMs)の急速な発展に伴い、多くの従来ベンチマークでは性能飽和が生じており、最先端モデルを区別する能力が疑問視されている。一方、既存の高難度ベンチマークは、学問領域が狭い、回答形式が単純化されすぎている、データ汚染への脆弱性といった問題を抱えており、現実の科学的探求との間に忠実度ギャップが生じている。これらの課題に対処するため、我々は約800問のオリジナル問題で構成される大規模・高難度・学際的評価スイート「ATLAS(科学における論理的応用のためのAGI指向テストベッド)」を導入する。ドメイン専門家(博士号以上)によって開発されたATLASは、数学、物理学、化学、生物学、計算機科学、地球科学、材料科学の7つの核心的科学分野を網羅する。その主な特徴は以下の通りである:(1)高い独自性と汚染耐性:テストデータ漏洩を防ぐため、全ての問題を新規作成または実質的に改編;(2)学際的焦点:複数の科学分野にわたる知識統合と推論能力を評価する設計;(3)高忠実度回答:単純な多肢選択式ではなく、多段階推論やLaTeX形式の数式を含む複雑で開放的な回答を重視;(4)厳格な品質管理:専門家によるピアレビューと敵対的テストを多段階で実施し、問題の難易度・科学的価値・正確性を保証。さらに、複雑な回答を自動的かつ繊細に評価するため、LLM審査員パネルを用いた堅牢な評価パラダイムを提案する。主要モデルにおける予備結果は、高度な科学的推論能力を区別するATLASの有効性を示している。我々はATLASを、人工汎用知能への進歩を測る信頼性の高い「ものさし」を提供するため、長期的・オープン・コミュニティ主導のプラットフォームへ発展させる計画である。
ファンデーションモデルは、多くの視覚タスクにおいて効果的な基盤として登場している。しかし、現在の自己教師あり特徴表現は、高レベルな意味情報と幾何学や照明といった低レベルな物理的要因とを混在させており、明示的な物理的推論を必要とするタスクでの利用を妨げている。本論文では、反射特性や幾何学的微細構造を含む材質の同一性に敏感な表現を促進する、新たな物理基盤型視覚バックボーンであるΦeatを提案する。我々の重要なアイデアは、形状や照明条件が変化する中で同一材質の空間的クロップと物理的拡張を対比させる事前学習戦略を採用することである。固有分解や材質推定といった高精度な教師ありタスクでは同様のデータが使用されてきたが、明示的なラベルなしの純粋な自己教師あり学習戦略のみでも、外的物理要因に不変な頑健な特徴を必要とするタスクに対して強力な事前知識を既に提供できることを実証する。特徴類似性解析と材質選択を通じて学習された表現を評価し、Φeatが意味的なグループ分けを超えた物理的に基礎付けられた構造を捕捉することを示す。これらの知見は、教師なし物理特徴学習が、視覚およびグラフィックスにおける物理認識知覚の基盤として有望であることを強調している。
大規模言語モデル(LLM)は強力なゼロショット・少数ショット学習器である。しかし、候補選択肢の集合に対して予測を行う際、LLMはラベルバイアスの影響を受け、既存の較正手法は複数トークンから成るクラスラベルに起因するバイアスを看過している。本論文では、標準的な長さ正規化を施した後でも、異なる長さのラベルが不整合に扱われる「ラベル長バイアス」と呼ばれる問題に取り組む。この緩和のため、我々は完全ラベルレベルで予測を正規化し較正する効果的手法である正規化文脈較正(NCC)を提案する。NCCは複数のデータセットとモデルにおいて従来手法を統計的に有意に上回る改善を達成し、F1スコアで最大10%の向上を示した。さらにNCCは、多肢選択式質問応答といったより広範なタスクへのバイアス緩和にも適用可能である。分析の結果、文脈内学習と組み合わせた場合、NCCは少数ショット事例の選択に対する感度が低く、競争力のある性能達成に必要な事例数が少なく、より信頼性の高い確信度推定を生成することが明らかとなった。これらの知見は、特に現実世界の応用においてクラスラベルが自然に複数トークンで構成される場合、LLMベース手法の性能と頑健性向上のために、完全ラベルレベルのバイアス緩和の重要性を浮き彫りにする。
本論文では、明示的な指示を必要とせず、装着者の対話相手を自動的に識別・分離する能動的補聴システムを提案する。本システムはエゴセントリック双耳音響を入力とし、装着者の自身の音声をアンカーとして利用。話者交替行動と対話ダイナミクスを活用して対話相手を推定し、それ以外の音声を抑制する。リアルタイムのオンデバイス動作を実現するため、二重モデルアーキテクチャを採用:軽量なストリーミングモデルを12.5ms毎に実行して低遅延で対話相手を抽出し、低速モデルは低頻度で動作して長期的な対話ダイナミクスを捕捉する。11名の被験者から収集した合計6.8時間の双耳エゴセントリックハードウェア実データを用いた、現実世界の2人/3人会話テストセットによる評価では、複数会話環境における対話相手の識別・分離の一般化性能が確認された。本研究は、対話ダイナミクスと関与状況に能動的に適応する補聴システムへの第一歩を示すものである。詳細はプロジェクトウェブサイト(https://proactivehearing.cs.washington.edu/)を参照されたい。
エージェンシック・コーディングツールは、自然言語で記述された目標を入力として受け取り、それを特定のタスクに分解し、最小限の人的介入で実際のコードを記述または実行する。このプロセスの中心となるのは、プロジェクトレベルの永続的な指示を提供するエージェントコンテキストファイル(「エージェントのためのREADME」)である。本論文では、1,925のリポジトリから収集した2,303のエージェントコンテキストファイルに対して初の大規模実証研究を実施し、その構造、保守、内容を特徴づける。これらのファイルが静的なドキュメントではなく、頻繁で小規模な追加を通じて維持される、設定コードのように進化する、複雑で読みにくい成果物であることを明らかにする。16種類の指示タイプに対する内容分析により、開発者がビルドおよび実行コマンド(62.3%)、実装詳細(69.9%)、アーキテクチャ(67.7%)などの機能的コンテキストを優先していることが示された。さらに、セキュリティ(14.5%)やパフォーマンス(14.5%)といった非機能要件がほとんど規定されていないという重大なギャップを特定する。これらの知見は、開発者がコンテキストファイルを用いてエージェントを機能させる一方で、エージェントが記述するコードの安全性や性能を確保するためのガードレールをほとんど提供しておらず、ツールやプラクティスの改善必要性を浮き彫りにするものである。
3D-LLMの近年の進展にもかかわらず、3D環境における言語と視覚的・空間的要素の正確な接地(グラウンディング)には限界が残っている。この制限は、3Dリソースの不足から言語推論に焦点を当てた訓練データに起因し、内在的な接地バイアスが未解決のままとなっている。この問題に対処するため、我々は3Dシーン編集を鍵となるメカニズムとして提案する。これは、高価なシーン再構築や大規模な3Dデータ収集を必要とせず、細粒度の空間操作を通じてこれらのバイアスを軽減する精密な視覚的反事実を生成する。さらに、これらの編集を標的化し、モデルの特定の弱点に直接アプローチするため、従来手法のようにデータを広範またはランダムに拡張するのではなく、「分解、診断的評価、編集、再訓練」という構造化されたワークフローに従う誤り駆動型フレームワーク「DEER-3D」を導入する。具体的には、3D-LLMの接地失敗を特定した後、本フレームワークはまず(属性や空間関係などの)正確な述語レベルの誤りを診断する。次に、色変更や位置変更といった最小限の、述語に沿った3Dシーン編集を実行し、反復的モデルファインチューニングのための標的的反事実的教師データを生成し、接地精度を大幅に向上させる。我々は、3D接地およびシーン理解タスクの複数のベンチマークにおいて編集パイプラインを評価し、反復的な改良を通じて全ての評価データセットで一貫した改善を示す。DEER-3Dは、3D LLMにおいて言語的推論能力と空間的接地を橋渡しする上で、標的化された誤り駆動型シーン編集の有効性を強調するものである。
人間の感情は言葉で伝えることが難しく、その過程で抽象化されがちである。しかし、脳波(EEG)信号は、感情に伴う脳活動をより直接的に捉える窓口となり得る。近年の研究では、深層学習モデルがこれらの信号を処理し、高精度で感情認識を行えることが示されている。しかし、既存の多くの手法は、異なる脳領域間の動的な相互作用を見落としており、これは感情が時間とともにどのように展開・変化するかを理解する上で重要であり、より正確な感情認識に寄与する可能性がある。この問題に対処するため、我々はRBTransformerを提案する。これはTransformerベースのニューラルネットワークアーキテクチャであり、潜在空間で大脳皮質間の神経ダイナミクスをモデル化し、EEGに基づく効果的な感情認識のための構造化された神経相互作用をより良く捉えることを目的とする。まず、EEG信号は帯域別微分エントロピー(BDE)トークンに変換され、電極位置情報を保持するための電極同一性埋め込みを通過する。これらのトークンは、連続する大脳皮質間マルチヘッドアテンションブロックで処理され、電極×電極のアテンションマトリックスを構築することで、モデルは大脳皮質間の神経的依存関係を学習する。得られた特徴は最終的に分類ヘッドを通過し、最終的な予測を得る。SEED、DEAP、DREAMERデータセットを用い、被験者依存設定の下、価覚(Valence)、覚醒度(Arousal)、優勢度(Dominance)(DEAPとDREAMERの場合)の全3次元において、二値分類および多クラス分類の両設定で広範な実験を実施した。結果は、提案するRBTransformerが、両分類設定において、全3データセット、全3次元で、従来のすべての最先端手法を凌駕することを示している。ソースコードは以下で公開されている:https://github.com/nnilayy/RBTransformer。
カオスエンジニアリング(CE)は、分散システムのレジリエンスを向上させることを目的としたエンジニアリング技術である。これは、システムのレジリエンスをテストし、弱点を発見し、本番環境で障害が発生する前にそれらに対処するために、意図的にシステムに障害を注入することを含む。最近のCEツールは、事前に定義されたCE実験の実行を自動化している。しかし、そのような実験の計画と、実験結果に基づくシステムの改善は、依然として手作業で行われている。これらのプロセスは労力を要し、複数領域にわたる専門知識を必要とする。これらの課題に対処し、誰もが低コストでレジリエントなシステムを構築できるようにするため、本論文は大規模言語モデル(LLM)を用いてCEサイクル全体を自動化するシステム、ChaosEaterを提案する。ChaosEaterは、体系的なCEサイクルに従ってエージェント的なワークフローを事前に定義し、ワークフロー内の細分化されたプロセスをLLMに割り当てる。ChaosEaterは、Kubernetes上に構築されたソフトウェアシステムに対するCEを対象とする。したがって、ChaosEater内のLLMは、要求定義、コード生成、テスト、デバッグを含むソフトウェアエンジニアリングタスクを通じてCEサイクルを完了する。我々は、小規模および大規模なKubernetesシステムに関するケーススタディを通じてChaosEaterを評価する。結果は、ChaosEaterが非常に低い時間的・金銭的コストで一貫して合理的なCEサイクルを完了することを示している。そのサイクルは、人間のエンジニアとLLMによって質的にも検証されている。
大規模視覚言語モデル(LVLM)は通常、エンコーダから得られた視覚特徴を事前学習済み大規模言語モデル(LLM)と整合させる。しかし、この手法により視覚知覚モジュールがボトルネックとなり、LVLMの総合的な能力が制約されている。従来の評価ベンチマークは視覚的意味論が豊富だが、避けがたい局所的ショートカットを含んでおり、モデルの知覚能力を過大評価する傾向がある。本論文では、位相的性質を活用し、様々な粒度でLVLMの大域的視覚知覚能力を厳密に評価するベンチマーク「TopoPerception」を提案する。位相は画像の大域的構造に依存し局所特徴に不変であるため、TopoPerceptionはショートカットのない大域的知覚評価を可能にし、意味論的に豊富なタスクとは根本的に異なる。我々は最先端モデルをTopoPerceptionで評価した結果、最も粗い知覚粒度においても、全てのモデルが無作為な推測を上回る性能を示さず、大域的視覚特徴の知覚能力が著しく欠如していることが明らかになった。特に、モデルファミリー内で一貫した傾向が観察された:推論能力が高いより強力なモデルほど、精度が低下する。これは、単なるモデルのスケールアップではこの欠陥を解決できず、むしろ悪化させる可能性を示唆する。進展には新しい学習パラダイムやアーキテクチャが必要である。TopoPerceptionは現在のLVLMの重大なボトルネックを暴露するだけでなく、その大域的視覚知覚を改善するための視点と方向性を提供する。データとコードはhttps://github.com/Wenhao-Zhou/TopoPerception で公開されている。