翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、質問応答(QA)タスクにおいてしばしば虚構を生成する。この現象に寄与する重要な要因でありながら、十分に検討されていないのが、質問の時間的性質――それが常緑(回答が時間とともに変化しない)か可変(回答が変化する)か――である。本研究では、評価と訓練の両方をサポートする、初の多言語QAデータセットであるEverGreenQAを紹介する。EverGreenQAを用いて、12の最新LLMをベンチマークし、それらが質問の時間的性質を明示的(言語化された判断を通じて)または暗黙的(不確実性の信号を通じて)にエンコードしているかどうかを評価する。また、このタスクにおいてSoTA性能を達成する軽量な多言語分類器EG-E5を訓練する。最後に、常緑分類の実用的な有用性を、自己知識推定の改善、QAデータセットのフィルタリング、GPT-4oの検索行動の説明という3つの応用を通じて実証する。
本論文では、PartCrafterを紹介する。これは、単一のRGB画像から、意味的に関連性があり幾何学的に異なる複数の3Dメッシュを同時に生成する、初めての構造化された3D生成モデルである。既存の手法が単一の3D形状を生成するか、あるいは二段階のパイプライン(すなわち、まず画像をセグメント化し、その後各セグメントを再構築する)を採用するのに対し、PartCrafterは、事前にセグメント化された入力に依存しない、統一された構成生成アーキテクチャを採用している。単一の画像を条件として、複数の3Dパーツを同時にノイズ除去し、個々のオブジェクトや複雑なマルチオブジェクトシーンのエンドツーエンドのパーツ認識生成を可能にする。PartCrafterは、全体のオブジェクトに対して訓練された事前訓練済みの3Dメッシュ拡散トランスフォーマー(DiT)を基盤としており、事前訓練済みの重み、エンコーダ、デコーダを継承し、以下の2つの主要な革新を導入している:(1) 各3Dパーツが分離された潜在トークンの集合によって表現される構成潜在空間、(2) 個々のパーツ内およびすべてのパーツ間で構造化された情報フローを可能にする階層的注意メカニズム。これにより、生成中にグローバルな一貫性を保ちつつ、パーツレベルの詳細を保持する。パーツレベルの教師データをサポートするため、大規模な3Dオブジェクトデータセットからパーツレベルのアノテーションを収集し、新しいデータセットを構築した。実験結果は、PartCrafterが分解可能な3Dメッシュの生成において、入力画像に直接見えないパーツを含め、既存のアプローチを凌駕することを示しており、3D理解と合成におけるパーツ認識生成事前分布の強みを実証している。コードと訓練データは公開予定である。
マルチモーダル大規模言語モデル(MLLMs)は、強化学習を通じて複雑な推論タスクにおいて大きな進展を遂げてきたが、マルチモーダル推論能力を向上させるためには、大規模な訓練データが必要であると一般的に考えられており、これがデータの冗長性と多大な計算コストを引き起こすことは避けられない。しかし、より小さな高価値のデータセットが、MLLMsにおけるマルチモーダル推論において、完全なコーパスに匹敵する、あるいはそれを上回る性能を発揮することは可能だろうか?本研究では、この仮定に挑戦するために、一つの重要な観察に基づいている:意味のあるマルチモーダル推論は、訓練サンプルのうちごく一部の疎なサブセット、すなわち「認知的サンプル」によって引き起こされる一方で、大多数のサンプルはわずかな貢献しかもたらさない。この洞察に基づき、我々は「推論活性化ポテンシャル(Reasoning Activation Potential, RAP)」と呼ばれる新しいデータ選択パラダイムを提案する。RAPは、各サンプルが真のマルチモーダル推論を刺激するポテンシャルを推定することで、認知的サンプルを特定する。この推定は、2つの補完的な推定器によって行われる:1)「因果的差異推定器(Causal Discrepancy Estimator, CDE)」は、潜在アウトカムモデルの原理に基づき、マルチモーダル入力とテキストのみの入力間の出力を比較することで、言語事前知識に過度に依存するサンプルを排除する;2)「注意信頼度推定器(Attention Confidence Estimator, ACE)」は、トークンレベルの自己注意機構を利用し、中間推論段階において無関係だが過剰に強調されたトークンに支配されるサンプルを除外する。さらに、我々は「難易度認識置換モジュール(Difficulty-aware Replacement Module, DRM)」を導入し、単純なインスタンスを認知的に挑戦的なものに置き換えることで、堅牢なマルチモーダル推論のための複雑性を確保する。6つのデータセットを用いた実験により、我々のRAP手法は、訓練データのわずか9.3%を使用しながら、一貫して優れた性能を達成し、計算コストを43%以上削減することが示された。コードはhttps://github.com/Leo-ssl/RAPで公開されている。
大規模言語モデルのドメイン固有タスクにおける性能向上には、計算コストが高く技術的にも困難なファインチューニングが必要です。本論文では、事前学習済みモデルを下流タスクに適応させるために、少数のパラメータを学習する有望なアプローチであるソフトプロンプティングを用いたパラメータ効率的なファインチューニングに焦点を当てます。我々は、入力トークンに基づいてソフトプロンプトを生成し、異なるトークンに異なる重要度を割り当てる自己注意機構を備えた新しいInput Dependent Soft Prompting technique with a self-Attention Mechanism (ID-SPAM)を提案します。本手法はシンプルで効率的であり、学習可能なパラメータ数を少なく保ちます。我々は、様々なタスクにおいて提案手法が最先端技術と比較して優れていることを示し、ゼロショットドメイン転送能力の向上を実証します。
視覚言語モデル(VLM)の急速な進展にもかかわらず、現在のマルチモーダル推論のベンチマークは3つの重要な次元で不十分です。第一に、それらは静的な画像に過度に依存しており、現実世界の環境の時間的複雑さを捉えられていません。第二に、数学的問題解決に狭く焦点を当てており、堅牢なマルチモーダル知能に必要な抽象、物理、計画、空間、時間的能力といった幅広い推論スキルを無視しています。第三に、多くのベンチマークはすぐに飽和し、失敗モードの診断や継続的な進歩の測定に限られた余地しか提供しません。私たちはMORSE-500(Multimodal Reasoning Stress-test Environment)を紹介します。これは、6つの補完的な推論カテゴリにわたる埋め込み質問を含む500の完全なスクリプトクリップからなるビデオベンチマークです。各インスタンスは、決定論的なPythonスクリプト(Manim、Matplotlib、MoviePyを介して)、生成ビデオモデル、およびキュレーションされた実写映像を使用してプログラム的に生成されます。このスクリプト駆動設計により、視覚的複雑さ、ディストラクター密度、時間的ダイナミクスを細かく制御でき、モデルの改善に伴って難易度を体系的にスケーリングすることが可能です。一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するように構築されています。その制御可能な生成パイプラインは、任意に挑戦的な新しいインスタンスの作成をサポートし、次世代モデルのストレステストに最適です。最先端システム(当時最強のGemini 2.5 ProやOpenAI o3を含む)と強力なオープンソースモデルを使用した初期実験では、すべてのカテゴリで大きなパフォーマンスギャップが明らかになり、特に抽象と計画タスクで大きな欠陥が見られました。透明性、再現性、将来を見据えたマルチモーダル推論研究を支援するため、完全なデータセット、生成スクリプト、および評価ハーネスを公開します。
高品質で大規模な音声キャプショニングは、音声理解の進展において極めて重要である。しかし、現在の自動化手法では、限られた単一モーダルまたは表面的なマルチモーダル情報に依存しているため、細かな詳細や文脈的な正確性に欠けるキャプションが生成されることが多い。人間の聴覚知覚からインスピレーションを得て、クロスモーダルな手がかりを巧みに統合し、高度な聴覚シーン分析を行う能力を模倣し、我々は新しい二段階の自動化パイプラインを提案する。このパイプラインでは、まず専門的に事前学習されたモデルを使用して、多様な文脈的手がかり(例えば、音声、音楽、一般的な音、関連するビデオからの視覚情報)を抽出する。その後、大規模言語モデル(LLM)がこれらの豊富なマルチモーダル入力を統合し、詳細で文脈を考慮した音声キャプションを生成する。本研究の主な貢献は以下の通りである:(1)細かな音声キャプション生成のためのスケーラブルな手法の提案;(2)120万件の詳細なキャプションと600万件のQAペアを組み合わせた新たな大規模データセット「FusionAudio」の作成;(3)FusionAudioを使用して開発された強化された音声モデル、特に優れた音声-テキストアラインメントと指示追従能力を持つCLAPベースの音声エンコーダ。本論文は、複雑な音声環境のより微妙で正確な自動理解への道を開くものである。コードとデータはhttps://github.com/satsuki2486441738/FusionAudioで公開されている。
大規模言語モデル(LLM)はますます強力になっていますが、依然としてプロンプトインジェクション攻撃に対して脆弱です。この攻撃では、悪意のある入力によってモデルが意図された指示から逸脱してしまいます。本論文では、Sentinelという新しい検出モデル、qualifire/prompt-injection-sentinelを紹介します。このモデルは、\answerdotai/ModernBERT-largeアーキテクチャに基づいており、ModernBERTの高度な機能を活用し、いくつかのオープンソースおよびプライベートコレクションを含む多様で広範なデータセットで微調整を行うことで、最先端の性能を達成しています。このデータセットは、ロールプレイや指示の乗っ取りから偏ったコンテンツの生成試行まで、さまざまな攻撃タイプを統合し、さらに幅広い良性の指示と、微妙な誤り修正や実世界の誤分類に特化したプライベートデータセットを含んでいます。包括的で未見の内部テストセットにおいて、Sentinelは平均精度0.987、F1スコア0.980を達成しました。さらに、公開ベンチマークで評価した場合、protectai/deberta-v3-base-prompt-injection-v2のような強力なベースラインを一貫して上回りました。本論文では、Sentinelのアーキテクチャ、綿密なデータセットキュレーション、トレーニング方法論、そしてその優れた検出能力を強調する徹底的な評価について詳述します。
オムニモーダル言語モデル(OLMs)は、テキスト、画像、動画、音声など多様な入力モダリティを統合し、推論を行うことを目指すと同時に、強力な言語能力を維持することを目的としている。近年の進展にもかかわらず、既存のモデル、特にオープンソースのモデルは、真のオムニモーダリティからは程遠く、訓練された特定のモダリティペアを超えて一般化することや、マルチモーダル入力を処理する際に高い性能を達成することに苦戦している。本研究では、マルチモーダルモデルを訓練する主要な技術であるモダリティ拡張の効果を検討する。具体的には、既存の言語モデルを対象ドメインおよび言語データでファインチューニングする手法を対象とする。特に、以下の3つの主要な問いに焦点を当てる:(1) モダリティ拡張はコア言語能力を損なうか? (2) 独立してファインチューニングされたモダリティ固有のモデルを統合することで、オムニモーダリティを達成できるか? (3) オムニモーダリティ拡張は、逐次拡張と比較して、より良い知識共有と一般化をもたらすか? 広範な実験を通じて、これらのトレードオフを分析し、現在のアプローチを用いて真のオムニモーダリティを達成する可能性についての洞察を提供する。
本研究では、高解像度画像合成において強力な性能を発揮する、正規化フローに基づくスケーラブルな生成モデル「STARFlow」を提案する。STARFlowの中核は、Transformer Autoregressive Flow(TARFlow)であり、正規化フローの表現力と自己回帰型Transformerの構造化モデリング能力を組み合わせたものである。まず、TARFlowが連続分布をモデル化するための理論的な普遍性を確立する。この基盤に基づき、スケーラビリティを大幅に向上させるためのいくつかの重要なアーキテクチャおよびアルゴリズムの革新を導入する:(1)深層-浅層設計。ここでは、深層Transformerブロックがモデルの表現能力の大部分を担い、計算効率が高くながらも大幅な利益をもたらす少数の浅層Transformerブロックが補完する。(2)事前学習済みオートエンコーダの潜在空間でのモデル化。これは、ピクセルレベルでの直接的なモデル化よりも効果的であることが証明されている。(3)サンプル品質を大幅に向上させる新しいガイダンスアルゴリズム。重要な点として、本モデルはエンドツーエンドの正規化フローであり、離散化なしに連続空間での正確な最尤学習を可能にする。STARFlowは、クラス条件付きおよびテキスト条件付き画像生成タスクの両方で競争力のある性能を達成し、サンプル品質において最新の拡散モデルに迫る。我々の知る限り、この研究は、この規模と解像度で効果的に動作する正規化フローの初めての成功例である。
効果的な治療の提供と情報に基づいた臨床意思決定は、現代医学と臨床ケアにおける重要な目標である。我々は、大規模生成モデルの最近の進展を活用し、臨床意思決定のための疾患ダイナミクスのシミュレーションに興味を持っている。この目的のために、我々は医学分野で初めてのワールドモデルであるMedical World Model (MeWM)を紹介する。MeWMは、臨床決定に基づいて将来の疾患状態を視覚的に予測するものである。MeWMは、(i) ポリシーモデルとして機能する視覚言語モデルと、(ii) ダイナミクスモデルとしての腫瘍生成モデルで構成される。ポリシーモデルは、臨床治療などのアクションプランを生成し、ダイナミクスモデルは与えられた治療条件下での腫瘍の進行または退縮をシミュレートする。これに基づいて、我々はシミュレーションされた治療後の腫瘍に生存分析を適用する逆ダイナミクスモデルを提案し、治療効果の評価と最適な臨床アクションプランの選択を可能にする。その結果、提案されたMeWMは、治療後の腫瘍を合成することで疾患ダイナミクスをシミュレートし、放射線科医によるチューリングテストで最先端の特異性を達成した。同時に、その逆ダイナミクスモデルは、すべての指標において医学専門のGPTを上回り、個別化された治療プロトコルの最適化において優れた性能を示した。特に、MeWMは介入医師の臨床意思決定を改善し、最適なTACEプロトコルを選択する際のF1スコアを13%向上させ、医学ワールドモデルをセカンドリーダーとして将来統合する道を開いた。
音声対応大規模言語モデル(ALLM)は、音声入力におけるテキスト情報と非テキスト情報を理解することができます。本論文では、ALLMを自動評価者として活用し、スピーチの話し方を評価する方法を探ります。ALLM評価者を用いて、音声スタイル指示の遵守とロールプレイという2つのタスクにおいて、音声言語モデル(SLM)が生成したスピーチを評価します。評価対象となる話し方の要素には、感情、音量、話すペース、単語の強調、ピッチ制御、および非言語的要素が含まれます。4つの音声言語モデル(SLM)を使用して2つのタスクを実行し、人間とALLMがSLMの応答を評価します。GPT-4o-audioとGemini-2.5-proという2つのALLM評価者を人間の評価結果と比較し、Geminiと人間評価者の一致度が、人間評価者間の一致度に匹敵することを示します。これらの有望な結果は、ALLMがSLMを評価するための評価者として使用できることを示しています。また、現在のSLM、たとえGPT-4o-audioであっても、話し方を制御し自然な対話を生成する点において改善の余地があることが明らかになりました。
現代の人工知能(AI)モデル、特にコンピュータビジョンや画像生成タスクに用いられる拡散ベースのモデルの開発は、開発方法論においてパラダイムシフトを経験している。従来は「モデル中心」アプローチが支配的であり、性能向上は主にますます複雑化するモデルアーキテクチャとハイパーパラメータ最適化を通じて追求されていたが、現在ではより微妙な「データ中心」アプローチが認識されつつある。この新たなフレームワークは、モデル性能の主要な駆動力として、トレーニングデータの品質、構造、関連性を前面に押し出している。このパラダイムシフトを実践するために、我々はDataSeeds.AIサンプルデータセット(「DSD」)を導入する。このデータセットは、当初約10,610枚の高品質な人間によるピア評価された写真画像と、広範な多層アノテーションで構成されている。DSDは、商用画像データセットの新たな標準を切り開くために設計された基礎的なコンピュータビジョンデータセットである。DataSeed.AIの1億枚以上の画像カタログのごく一部を代表するDSDは、堅牢な商用およびマルチモーダルAI開発に必要なスケーラブルな基盤を提供する。この詳細な探索的分析を通じて、我々はDSDが特定のモデルにおいて既知のベンチマークに対して生成する定量的な改善を記録し、評価に使用したコードとトレーニング済みモデルを公開する。
世界をエゴセントリック(一人称)とエクソセントリック(三人称)の両方の視点から知覚することは、人間の認知において基本的な要素であり、動的な環境に対する豊かで補完的な理解を可能にします。近年、機械がこれらの二重の視点の相乗効果を活用することが、ビデオ理解における魅力的な研究分野として浮上しています。本調査では、エクソセントリックとエゴセントリックの両方の視点からビデオ理解を包括的にレビューします。まず、エゴセントリックとエクソセントリックの技術を統合する実用的な応用に焦点を当て、それらの潜在的な協力をさまざまな領域で展望します。次に、これらの応用を実現するための主要な研究タスクを特定します。その後、最近の進展を三つの主要な研究方向に体系的に整理し、レビューします:(1) エゴセントリックデータを活用してエクソセントリック理解を強化する、(2) エクソセントリックデータを活用してエゴセントリック分析を改善する、(3) 両方の視点を統合する共同学習フレームワーク。各方向について、多様なタスクと関連する研究を分析します。さらに、両方の視点での研究をサポートするベンチマークデータセットについて、その範囲、多様性、適用性を評価します。最後に、現在の研究の限界を議論し、将来の有望な研究方向を提案します。両方の視点からの洞察を統合することで、ビデオ理解と人工知能の進展を促し、機械が人間のように世界を知覚することを目指します。関連研究のGitHubリポジトリはhttps://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Visionで見つけることができます。
競技プログラミングは、その高度な推論難易度と正確性フィードバックの特性から、大規模言語モデル(LLMs)の推論能力を訓練および評価するための重要なタスクとなっている。しかし、問題文や解答例などの公開データは豊富に存在する一方で、これらの問題に対するテストケースはしばしば入手が困難である。そのため、大規模データセットを構築する上でテストケースの生成は不可欠な作業であり、テストケースの品質は評価の精度を直接的に決定する。本論文では、競技プログラミング問題に対して高品質なテストケースを生成するLLMベースのエージェントシステムを提案する。このシステムをCodeContestsデータセットに適用し、改良されたテストケースを備えた新バージョンであるCodeContests+を構築した。CodeContests+のテストケース品質を評価するため、まず、合格/不合格ラベルが付与された172万件の提出データを用いて、これらのテストケースの評価精度を検証した。その結果、CodeContests+はCodeContestsと比較して大幅に高い精度を達成し、特に真陽性率(TPR)が顕著に向上していることが示された。続いて、LLMの強化学習(RL)における実験を通じて、テストケース品質の向上がRLに大きな利点をもたらすことをさらに確認した。
現実世界のロボット動作から直接、正確な物理シミュレーションを作成することは、安全でスケーラブルかつ低コストなロボット学習にとって非常に価値があるが、依然として非常に困難な課題である。実ロボットのデータは、遮蔽、ノイズの多いカメラポーズ、動的なシーン要素に悩まされており、未観測物体の幾何学的に正確でフォトリアルなデジタルツインの作成を妨げている。本研究では、これらの課題を一挙に解決する新しいリアル・トゥ・シミュレーションフレームワークを提案する。我々の重要な洞察は、3Dガウシアンスプラッティングによるフォトリアルなレンダリングと、物理シミュレーションに適した明示的なオブジェクトメッシュを単一の表現に統合したハイブリッドシーン表現である。我々は、MuJoCo内の微分可能なレンダリングと微分可能な物理を活用し、未加工で不正確なロボット軌跡から直接、オブジェクトの形状や外観、ロボットのポーズ、物理パラメータなど、すべてのシーン構成要素を共同で最適化するエンドツーエンドの最適化パイプラインを提案する。この統一された最適化により、高精度なオブジェクトメッシュ再構築、フォトリアルな新規ビューの生成、アノテーションフリーのロボットポーズキャリブレーションを同時に達成することが可能となる。我々は、ALOHA 2バイマニュアルマニピュレータを使用したシミュレーションおよび現実世界の困難なシーケンスにおいて、本手法の有効性を実証し、より実用的でロバストなリアル・トゥ・シミュレーションパイプラインを実現する。
LLM(大規模言語モデル)は、高度な意思決定支援と柔軟なチャットアシスタントを通じて、医療分野を変革する可能性を秘めています。しかし、LLMは不正確な医療コンテンツを生成しやすいという課題があります。LLMを高品質な医療知識に基づかせるため、RAG(Retrieval-Augmented Generation)を介して外部知識を組み込む手法が採用されています。この手法では、非構造化の医療知識を小さなテキストチャンクに分割し、選択的に取得してLLMのコンテキストに統合します。しかし、既存のRAGパイプラインは、ノイズが多く、未整理で、LLMが効果的に活用するのが難しい生の非構造化医療テキストに依存しています。医療知識を体系化し、LLMに最適な形で提供するためのシステマティックなアプローチは一般的に不足しています。 これらの課題に対処するため、我々はMIRIADを導入しました。これは、5,821,948の医療QAペアからなる大規模でキュレーションされたコーパスで、各ペアは査読付き医療文献のパッセージから再構成され、LLM生成、フィルタリング、グラウンディング、および人間による注釈を組み合わせた半自動化パイプラインを通じて作成されています。従来の医療コーパスが非構造化テキストに依存していたのに対し、MIRIADはウェブスケールの医療知識を操作可能な質問-応答形式でカプセル化しており、よりターゲットを絞った検索を可能にします。 挑戦的な医療QAベンチマークでの実験では、MIRIADを組み込むことで、同じソースコーパスと同じ量の取得テキストを使用する非構造化RAGベースラインと比較して、LLMの精度が最大6.7%向上することが示されました。さらに、MIRIADはLLMの医療ハルシネーション(誤生成)検出能力を22.5%から37%(F1スコアの向上)改善しました。また、MIRIAD-Atlasを導入し、56の医療分野にまたがるMIRIADのインタラクティブマップを提供することで、臨床ユーザーが視覚的に医療知識を探索、検索、精緻化できるようにしました。 MIRIADは、医療情報検索システム、強化されたRAGアプリケーション、知識に基づいたチャットインターフェースなど、多くの下流アプリケーションを解き放つ可能性を秘めており、最終的には医療分野でのより信頼性の高いLLMアプリケーションを実現します。
ロボットにとって、操作は長らく困難な課題であり続けてきました。一方で人間は、マグラックにカップを掛けるといった複雑な物体との相互作用を容易に行うことができます。その主な理由は、ロボットに操作スキルを教えるための大規模で統一されたデータセットが不足していることです。現在のロボットデータセットは、単純なシーン内で異なるアクション空間におけるロボットの動作を記録することが多く、これにより、異なるロボットが多様なシーンで統一された堅牢なアクション表現を学ぶことが妨げられています。人間が操作タスクをどのように理解するかを観察すると、物体が3D空間内でどのように動くべきかを理解することが、行動を導くための重要な手がかりであることがわかります。この手がかりは、具現化に依存せず、人間と異なるロボットの両方に適しています。これに着想を得て、我々は人間とロボットの操作データから3Dフローワールドモデルを学習することを目指しています。このモデルは、3D空間内で相互作用する物体の将来の動きを予測し、操作のためのアクションプランニングを導きます。具体的には、移動物体自動検出パイプラインを通じて、ManiFlow-110kという大規模な3Dオプティカルフローデータセットを合成します。次に、ビデオ拡散ベースのワールドモデルがこれらのデータから操作の物理を学習し、言語指示に基づいて3Dオプティカルフローの軌跡を生成します。生成された3D物体オプティカルフローを用いて、フローガイドレンダリングメカニズムを提案します。このメカニズムは、予測された最終状態をレンダリングし、GPT-4oを活用して予測されたフローがタスクの説明と一致するかどうかを評価します。これにより、ロボットに閉ループプランニング能力を備えさせます。最後に、予測された3Dオプティカルフローを最適化ポリシーの制約条件として考慮し、操作のための一連のロボットアクションを決定します。広範な実験により、多様なロボット操作タスクにおける強力な汎化能力と、ハードウェア固有のトレーニングなしでの信頼性の高いクロスエンボディメント適応が実証されています。
大規模言語モデル(LLM)の急速な進歩は、自律型マルチエージェントシステム(MAS)の開発を加速させています。しかし、現在のフレームワークは、柔軟性、リソース認識、モデルの多様性、自律的なツール作成の点で不足していることが多いです。本論文では、柔軟性、リソース効率、適応性を向上させる新しいMASフレームワークであるHASHIRU(Hierarchical Agent System for Hybrid Intelligent Resource Utilization)を紹介します。HASHIRUは、タスクのニーズとリソース制約(コスト、メモリ)に基づいてインスタンス化される専門的な「従業員」エージェントを動的に管理する「CEO」エージェントを特徴としています。そのハイブリッド知能は、小規模なローカルLLM(Ollama経由)を優先しつつ、必要に応じて外部APIや大規模モデルを柔軟に使用します。採用/解雇コストを含む経済モデルは、チームの安定性と効率的なリソース配分を促進します。また、システムには自律的なAPIツール作成機能とメモリ機能も含まれています。学術論文レビュー(58%の成功率)、安全性評価(JailbreakBenchのサブセットで100%)、複雑な推論(GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%でGemini 2.0 Flashを上回る)などのタスクでの評価により、HASHIRUの能力が実証されています。ケーススタディでは、自律的なコストモデル生成、ツール統合、予算管理による自己改善が示されています。HASHIRUは、動的な階層制御、リソースを意識したハイブリッド知能、自律的な機能拡張を通じて、より堅牢で効率的かつ適応性の高いMASを実現する有望なアプローチを提供します。ソースコードとベンチマークはそれぞれhttps://github.com/HASHIRU-AI/HASHIRUとhttps://github.com/HASHIRU-AI/HASHIRUBenchで公開されており、リクエストに応じてライブデモもhttps://hashiruagentx-hashiruai.hf.spaceで利用可能です。
大規模マルチモーダルモデル(LMMs)は、視覚的知覚と推論において目覚ましい進展を遂げてきた。しかし、視覚的に曖昧または非意味的なシーンテキストに直面した場合、これらのモデルは正確にテキストを認識し内容を理解するのに苦戦し、しばしば意味的には妥当であるが視覚的には誤った回答を生成する。この現象を我々は「意味的幻覚」と呼ぶ。本研究では、意味的幻覚の根本的な原因を調査し、重要な知見を得た:シーンテキスト領域により強い注意を向けるTransformer層を持つLLMは、意味的幻覚を生じにくい。そこで、我々はトレーニング不要の意味的幻覚緩和フレームワークを提案する。このフレームワークは2つの主要なコンポーネントから構成される:(1) ZoomText、外部検出器を用いずに潜在的なテキスト領域を特定する粗から細への戦略、および(2) Grounded Layer Correction、幻覚を生じにくい層からの内部表現を適応的に活用し、デコードをガイドすることで、非意味的なサンプルにおける幻覚的出力を修正しつつ、意味のあるサンプルの意味を保持する。厳密な評価を可能にするため、我々はTextHalu-Benchを導入した。これは、意味的および非意味的なケースにまたがる1,730以上のサンプルからなるベンチマークであり、モデルの幻覚を探るために手動で作成された質問-回答ペアを備えている。広範な実験により、我々の手法が意味的幻覚を効果的に緩和するだけでなく、シーンテキストの認識と理解に関する公開ベンチマークでも高い性能を達成することが実証された。
Group Relative Policy Optimization (GRPO)は、共通の入力プレフィックスを共有する候補出力間の相対比較から勾配を計算することで、ポリシー学習を強化する。その有効性にもかかわらず、GRPOは長い共有プレフィックスを処理する際に、各グループメンバーに対して冗長にエンコードする必要があるため、大幅な計算オーバーヘッドを引き起こす。この非効率性は、長文脈学習シナリオにおける主要なスケーラビリティのボトルネックとなる。本論文では、冗長なプレフィックス計算を排除する効率的なGRPO訓練アルゴリズムであるPrefix Grouperを提案する。特に、セルフアテンションを2つの部分に再構築することで、共有プレフィックスを一度だけエンコードしつつ、完全な微分可能性とエンドツーエンド訓練との互換性を維持する。理論的および実験的な証拠を提供し、Prefix Grouperが標準GRPOと訓練的に等価であることを示す:同一の順方向出力と逆方向勾配を生成し、最適化ダイナミクスと最終的なポリシーパフォーマンスが変わらないことを保証する。実験により、Prefix Grouperが一貫した結果を達成しつつ、特に長いプレフィックスシナリオにおいて訓練の計算コストを大幅に削減することを確認した。提案手法は完全なプラグアンドプレイであり、既存のGRPOベースのアーキテクチャと互換性があり、現在の訓練パイプラインにシームレスに統合できるドロップイン代替として使用可能で、構造的な変更を必要とせず、入力構築とアテンション計算に最小限の変更のみを必要とする。Prefix Grouperは、同じ計算予算の下でより大きなグループサイズの使用を可能にし、それによりGRPOのスケーラビリティをより複雑なタスクや大規模モデルに拡張する。コードはhttps://github.com/johncaged/PrefixGrouperで公開されている。
産業資産ライフサイクル管理のためのAIは、複雑な業務ワークフロー(状態監視、保守計画、介入スケジューリングなど)を自動化し、人的負荷を軽減し、システムのダウンタイムを最小化することを目指しています。従来のAI/MLアプローチは、これらの問題を個別に扱い、広範な業務パイプライン内の狭いタスクを解決することに主眼を置いてきました。これに対して、AIエージェントや大規模言語モデル(LLMs)の登場は、資産ライフサイクル全体にわたるエンドツーエンドの自動化を可能にする次世代の機会を提供します。本論文では、これまで専門知識と手動の調整を必要としていたタスクをAIエージェントが自律的に管理する未来を展望します。そのために、Industry 4.0アプリケーション向けに特化したドメイン固有エージェントの開発、オーケストレーション、評価を導くための統一フレームワークおよび環境であるAssetOpsBenchを紹介します。本論文では、そのような包括的なシステムに必要な主要要件を概説し、現実世界の産業オペレーションにおける知覚、推論、制御を統合したエージェントを構築するための実践的な洞察を提供します。ソフトウェアはhttps://github.com/IBM/AssetOpsBenchで公開されています。
AI推論技術の最近の進展は、多様なタスクにおいて大幅な改善をもたらしています。重要な未解決の課題は、これらの改善が知識伝達の向上にもつながるかどうか、つまり、モデルが人間が理解し、適用し、学ぶことができる方法で推論を伝達する能力が向上するかどうかです。これを調査するため、我々は「知識統合と伝達評価(KITE)」を導入しました。これは、人間とAIの知識伝達能力を評価するための概念的かつ実験的なフレームワークであり、これを明示的に測定する初の大規模な人間研究(N=118)を実施しました。我々の2段階の実験設定では、まず人間がAIと共に問題解決戦略を考案し、その後独立して解決策を実施することで、モデルの説明が人間の理解に与える影響を分離しました。我々の調査結果は、モデルのベンチマーク性能が共同作業の成果と相関するものの、この関係は著しく一貫性がなく、重要な外れ値が存在することを明らかにし、知識伝達には専用の最適化が必要であることを示しています。我々の分析は、成功した知識伝達を仲介する行動的および戦略的要因を特定しています。我々は、コミュニケーションに適したモデルの今後の研究を支援するため、コード、データセット、評価フレームワークを公開します。
情報抽出(IE)システムは伝統的にドメイン固有であり、専門家によるスキーマ設計、データアノテーション、モデルトレーニングといった高コストな適応を必要とします。大規模言語モデルはゼロショットIEにおいて有望な結果を示していますが、ラベル定義が異なる未知のドメインでは性能が大幅に低下します。本論文では、ドメイン固有のスキーマを自動的に定義し、ガイドラインを推論し、合成ラベル付きインスタンスを生成することで、ドメイン外での汎化性能を向上させる新手法GUIDEXを提案します。Llama 3.1をGUIDEXでファインチューニングすることで、7つのゼロショット固有表現認識ベンチマークにおいて新たな最先端を達成しました。GUIDEXでトレーニングされたモデルは、人間によるラベル付きデータなしで従来の手法よりも最大7 F1ポイント向上し、それを組み合わせた場合にはさらに約2 F1ポイント高くなりました。GUIDEXでトレーニングされたモデルは、複雑なドメイン固有のアノテーションスキーマに対する理解が強化されていることが示されています。コード、モデル、および合成データセットはneilus03.github.io/guidex.comで公開されています。
状態空間モデル(SSMs)は、シーケンスモデリングにおいて有望なアーキテクチャを提供し、高コストな自己注意機構を線形再帰に置き換えることで、Transformerに代わる選択肢を提示します。本論文では、与えられた計算予算内でSSMsを強化するためのシンプルかつ効果的な手法として、疎化を提案します。我々の直感は、SSMsにおけるトークンは漸進的な再帰的更新により高度に冗長であり、密な再帰操作が過去の情報の伝達を妨げるというものです。特に、SSMsの上位層はグローバルな情報を符号化するためより冗長であるのに対し、下位層はローカルな情報を符号化する傾向があることを観察しました。これに基づき、トークンプルーニングに基づくSSMsの階層的疎化手法であるSimbaを導入します。Simbaは上位層を下位層よりも多く疎化し、上位層がハイウェイのように振る舞うことを促します。これを実現するために、ローカルな再帰を累積することでトークンの最終出力に対するグローバルな影響を測定する、SSMs向けの新しいトークンプルーニング基準を提案します。Simbaが、同じFLOPSでベースラインモデルであるMambaを様々な自然言語タスクにおいて上回ることを実証します。さらに、ハイウェイの効果を説明し、Simbaが効率を向上させるだけでなく、長いシーケンス間の情報の流れを改善することを示します。コードはhttps://github.com/woominsong/Simbaで公開されています。