翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は人工汎用知能(AGI)の基盤として不可欠な存在となっているが、明確に定義されたメモリ管理システムの欠如が、長文脈推論、継続的なパーソナライゼーション、および知識の一貫性の発展を妨げている。既存のモデルは主に静的なパラメータと短命な文脈状態に依存しており、ユーザーの嗜好を追跡したり、長期間にわたって知識を更新したりする能力が制限されている。検索拡張生成(RAG)は外部知識をプレーンテキストとして導入するが、ライフサイクル制御や永続的な表現との統合がないため、ステートレスな回避策に留まっている。最近の研究では、メモリ階層の観点からLLMsの学習と推論コストをモデル化し、パラメータメモリと外部検索の間に明示的なメモリ層を導入することで、特定の知識を外部化することによりこれらのコストを大幅に削減できることを示している。計算効率を超えて、LLMsは情報が時間と文脈にわたってどのように分散されるかという広範な課題に直面しており、異なる時間スケールとソースにわたる異種の知識を管理できるシステムが必要とされている。この課題に対処するため、我々はメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステム(MemOS)を提案する。MemOSは、プレーンテキスト、アクティベーションベース、およびパラメータレベルのメモリの表現、スケジューリング、進化を統合し、コスト効率の高い保存と検索を可能にする。基本単位として、MemCubeはメモリ内容と出所やバージョン管理などのメタデータをカプセル化する。MemCubeは時間の経過とともに合成、移行、融合が可能であり、メモリタイプ間の柔軟な遷移を実現し、検索とパラメータベースの学習を橋渡しする。MemOSは、LLMsに制御性、可塑性、進化性をもたらすメモリ中心のシステムフレームワークを確立し、継続学習とパーソナライズドモデリングの基盤を築く。
高速動的シーンをマルチビュービデオから再構築することは、高速動作分析とリアルな4D再構築において極めて重要です。しかし、ほとんどの4Dキャプチャシステムは30FPS(フレーム毎秒)以下のフレームレートに制限されており、低FPS入力からの直接的な高速動作の4D再構築は望ましくない結果を招く可能性があります。本研究では、低FPSカメラのみを使用した高速4Dキャプチャシステムを、新たなキャプチャおよび処理モジュールを通じて提案します。キャプチャ側では、カメラの開始時間をずらすことで実効フレームレートを向上させる非同期キャプチャ方式を提案します。カメラをグループ化し、25FPSのベースフレームレートを活用することで、特殊な高速カメラを必要とせずに100-200FPSに相当するフレームレートを実現します。処理側では、非同期化によって各タイムスタンプでの視点数が減少することによる4Dスパースビュー再構築のアーティファクトを修正するための新たな生成モデルも提案します。具体的には、スパース4D再構築のためのビデオ拡散ベースのアーティファクト修正モデルを訓練し、欠落した詳細を補完し、時間的一貫性を維持し、全体的な再構築品質を向上させます。実験結果は、同期キャプチャと比較して、本手法が高速4D再構築を大幅に向上させることを示しています。
近年の視覚-言語-行動(VLA)モデルの進展は、画像生成と行動予測を統合することで、ロボット操作における汎化能力と推論能力の向上に有望な成果を示しています。しかし、既存の手法は画像ベースの予測に限定されており、冗長な情報や動的・空間的・意味的知識を含む包括的かつ重要な世界知識が欠如しているという課題があります。これらの制限を解決するため、我々はDreamVLAを提案します。これは、包括的な世界知識予測を統合し、逆動力学モデリングを可能にする新しいVLAフレームワークであり、操作タスクのための知覚-予測-行動ループを確立します。具体的には、DreamVLAは動的領域ガイドによる世界知識予測を導入し、空間的および意味的手がかりと統合することで、行動計画のためのコンパクトかつ包括的な表現を提供します。この設計は、人間が行動する前に抽象的なマルチモーダル推論チェーンを形成する方法に沿っています。動的・空間的・意味的情報間の干渉を軽減するため、ブロック構造化された注意メカニズムを採用し、相互の注意をマスキングすることで情報漏洩を防ぎ、各表現をクリーンで分離された状態に保ちます。さらに、将来の行動に対する条件付き分布をモデル化するために、共有潜在特徴から行動表現を分離する拡散ベースのトランスフォーマーを採用します。実世界およびシミュレーション環境での広範な実験により、DreamVLAは実ロボットタスクで76.7%の成功率を達成し、CALVIN ABC-Dベンチマークで4.44の平均長を記録することが示されました。
我々は、報酬モデリングに対して新たな視点を提供し、それをポリシー識別器として定式化することで、2つのポリシー間の差異を定量化し、報酬信号を生成し、訓練ポリシーを所望の行動を持つターゲットポリシーに向けて導く。この概念的洞察に基づき、我々はPolicy Discriminative Learning(POLAR)というスケーラブルな事前学習手法を提案する。POLARは、同一のポリシーを識別し、異なるポリシーを区別するために報酬モデル(RM)を訓練する。従来の絶対的な選好に依存する報酬モデリング手法とは異なり、POLARは1つのポリシーと任意のターゲットポリシーとの相対的な差異を捉え、汎用的な順位関係をモデル化するのに適したスケーラブルで高レベルの最適化目標を提供する。POLARの事前学習パラダイムを活用し、我々は1.8Bから7Bまでのパラメータスケールを持つ一連のRMを提示する。実験結果は、POLARが従来の非事前学習手法を大幅に上回り、RMの性能を著しく向上させることを示している。例えば、POLAR-7Bは、STEMタスクにおいて選好精度を54.8%から81.0%に、創造的ライティングタスクにおいて57.9%から85.5%に改善し、SOTAベースラインを凌駕した。また、POLARはReinforcement Fine-tuning(RFT)を用いたRLHFにおいても強力な汎化能力を示し、信頼性の高い報酬信号を提供し、ポリシーの性能を顕著に向上させた。具体的には、LLaMa3.1-8Bの平均性能を47.36%から56.33%に、Qwen2.5-32Bを64.49%から70.47%に改善した。さらに、スケーリング実験では、計算量と性能の間に明確なべき乗則関係が確認され、線形相関係数が0.99に近いことが示された。これらの印象的な性能、強力な汎化能力、およびスケーリング特性は、POLARが汎用的で強力な報酬モデルを開発するための有望な方向性であることを示唆している。
高品質なテキスト表現を学習することは、幅広いNLPタスクにおいて基本的な課題です。従来、エンコーダの事前学習は主にMasked Language Modeling(MLM)に依存してきましたが、最近の研究では、Causal Language Modeling(CLM)で事前学習されたデコーダモデルをエンコーダとして再利用することが有効であり、テキスト表現のベンチマークにおいて従来のエンコーダをしばしば上回ることが示されています。しかし、これらの性能向上がCLM目的関数の本質的な優位性によるものなのか、あるいはモデルやデータ規模などの交絡要因によるものなのかは不明瞭です。本論文では、この疑問を解決するため、大規模かつ注意深く制御された事前学習のアブレーション実験を実施し、2億1,000万から10億パラメータまでの合計30のモデルを訓練し、15,000回以上のファインチューニングと評価を実施しました。その結果、MLMによる訓練は一般的にテキスト表現タスク全体で優れた性能を発揮する一方、CLMで訓練されたモデルはデータ効率が高く、ファインチューニングの安定性が向上していることがわかりました。これらの知見を基に、CLMを先行させた後にMLMを適用する二段階訓練戦略が、固定された計算予算の下で最適な性能を達成することを実験的に示しました。さらに、既存のLLMエコシステムから利用可能な事前学習済みCLMモデルを初期化する場合、この戦略がより魅力的になり、最高水準のエンコーダモデルを訓練するために必要な計算負荷を軽減できることを実証しました。今後の研究を促進するため、すべてのプロジェクト成果物をhttps://hf.co/MLMvsCLMで公開しています。
本論文では、大規模な二言語・多モーダル・多分野推論データセットであるBMMRを紹介し、コミュニティが大規模多モーダルモデル(LMMs)の開発と評価を行うための基盤を提供する。BMMRは、300のユネスコ定義科目にわたる11万件の大学レベルの問題を包含し、多肢選択、空欄補充、自由回答形式など多様な形式を網羅し、書籍、試験、クイズなどの印刷物およびデジタルメディアから収集された。すべてのデータは、人間を介したスケーラブルなフレームワークを通じて精選・フィルタリングされ、各インスタンスには高品質な推論パスが付与されている。データセットは2つの部分に分かれており、BMMR-Evalは20,458件の高品質なインスタンスを含み、中国語と英語の両方でLMMsの知識と推論能力を多分野にわたって包括的に評価する。一方、BMMR-Trainは88,991件のインスタンスを含み、数学的推論に焦点を当てた現在の研究を多分野・領域に拡張し、さらなる研究開発を支援する。さらに、推論パスの正確かつ詳細な評価のため、プロセスベースの多分野検証器(BMMR-Verifier)を提案する。24のモデルを用いた広範な実験により、(i) SOTAモデル(例:o3およびGemini-2.5-Pro)でさえBMMR-Evalにおいて大幅な改善余地があること、(ii) 推論モデルは分野バイアスを示し、特定の科目でのみLMMsを上回ること、(iii) オープンソースモデルは依然としてプロプライエタリモデルに遅れをとること、(iv) BMMR-Trainでのファインチューニングによりこの差が縮まること、が明らかとなった。加えて、BMMR-Verifierを用いた推論チェーン分析およびその他の詳細な研究を通じて、LMMsが現在直面する多分野推論における課題を明らかにする。データを公開し、本研究がコミュニティに洞察と貢献を提供できることを期待する。
私たちは、物理環境における複雑なエンボディードタスクのための知覚、推論、計画を統合するように設計された、最新世代のエンボディード視覚言語基盤モデル「RoboBrain 2.0」を紹介します。このモデルは、軽量版の7Bモデルとフルスケールの32Bモデルの2つのバリエーションを提供し、視覚エンコーダと言語モデルを備えた異種アーキテクチャを特徴としています。コンパクトなサイズにもかかわらず、RoboBrain 2.0は幅広いエンボディード推論タスクにおいて高い性能を発揮します。空間的および時間的ベンチマークにおいて、32Bバリエーションは先行するオープンソースおよびプロプライエタリモデルを凌駕し、リーディングな結果を達成しています。特に、空間理解(例:アフォーダンス予測、空間参照、軌道予測)や時間的意志決定(例:閉ループインタラクション、マルチエージェント長期計画、シーングラフ更新)といった、現実世界のエンボディードAIに不可欠な能力をサポートしています。本報告書では、モデルアーキテクチャ、データ構築、多段階トレーニング戦略、インフラストラクチャ、および実用的なアプリケーションについて詳細に説明します。RoboBrain 2.0がエンボディードAI研究を進展させ、汎用エンボディードエージェント構築に向けた実践的な一歩となることを期待しています。コード、チェックポイント、ベンチマークはhttps://superrobobrain.github.ioで公開されています。
大規模言語モデル(LLMs)は汎用タスクにおいて優れた性能を示しているが、高品質なドメイン固有データの不足により、特定のドメインへの適応は依然として課題となっている。既存のデータ合成ツールは、異種ドキュメントから信頼性の高い微調整データを効果的に抽出することに苦慮することが多い。この制約を解決するため、本論文ではEasy Datasetを提案する。これは、直感的なグラフィカルユーザーインターフェース(GUI)を介して非構造化ドキュメントから微調整データを合成するための統一フレームワークである。具体的には、Easy Datasetはユーザーがテキスト抽出モデルとチャンキング戦略を容易に設定し、生のドキュメントを一貫性のあるテキストチャンクに変換することを可能にする。その後、公開されているLLMsを活用し、ペルソナ駆動型のプロンプティングアプローチを用いて多様な質問-回答ペアを生成する。パイプライン全体を通じて、人間が介入するビジュアルインターフェースが中間出力のレビューと改良を容易にし、データ品質を保証する。金融質問応答タスクにおける実験では、合成データセットでLLMsを微調整することで、ドメイン固有の性能を大幅に向上させながら、一般的な知識を保持することが示された。ソースコードとインストール可能なパッケージはhttps://github.com/ConardLi/easy-datasetで公開されており、9,000以上のGitHubスターを獲得している。
大規模言語モデル(LLM)の基盤となる能力は、その事前学習コーパスの品質に深く影響を受ける。しかし、大規模なデータ品質の向上は、精緻化の効果と処理効率のトレードオフにより、依然として重要な課題である。ルールベースのフィルタリングが主流のパラダイムであるものの、これは通常ドキュメントレベルで動作し、ドキュメント内の特定のコンテンツを精緻化するための粒度を欠いている。ProXなどの新たな研究に着想を得て、我々はRefineXを提案する。これは、プログラム的な編集タスクを通じて大規模かつ精密な事前学習データの精緻化を行う新しいフレームワークである。RefineXは、効率的かつ細かい粒度でのデータ精緻化を可能にしつつ、生のテキストの多様性と自然さを確実に保持する。RefineXの中核的な強みは、高品質で専門家がガイドしたエンドツーエンドの精緻化結果を、最小限の編集ベースの削除プログラムに蒸留することにある。この高精度の蒸留パイプラインを用いて、コーパス内のすべてのインスタンスを大規模に体系的に改善する効率的で信頼性の高い精緻化モデルを訓練する。我々は、複数のモデルスケールでのゼロからの事前学習においてRefineXを評価し、多様な下流タスクにおいて、生データ、フィルタリングされたデータ、または他の方法で精緻化されたデータで訓練されたモデルを一貫して上回ることを確認した。750Mモデルでは、RefineXはlightevalタスクにおいて平均2.6%-7.2%の向上をもたらし、大幅に少ない訓練トークンを使用して同等の性能を達成した。さらなる分析により、RefineXは高い効率性と精度でテキスト品質を確実に向上させ、エンドツーエンド生成やProx-Cなどの従来のアプローチを上回ることが示された。これらの結果は、RefineXを現代のLLMパイプラインにおける事前学習データの最適化のためのスケーラブルで効果的かつ信頼性の高いソリューションとして位置づけるものである。
歴史文書は貴重な文化遺産を代表するが、時間の経過とともに破損、水浸食、酸化による著しい劣化を被っている。既存の歴史文書修復(HDR)手法は、単一モダリティまたは限られたサイズの修復に主眼を置いており、実用的なニーズを満たすには至っていない。このギャップを埋めるため、本論文では全ページHDRデータセット(FPHDR)と新たな自動化HDRソリューション(AutoHDR)を提案する。具体的には、FPHDRは1,633枚の実画像と6,543枚の合成画像から構成され、文字レベルおよび行レベルの位置情報、ならびに異なる損傷度合いにおける文字アノテーションを含む。AutoHDRは、歴史家の修復ワークフローを模倣する三段階のアプローチを採用している:OCR支援による損傷箇所の特定、視覚-言語コンテキストに基づくテキスト予測、パッチ自己回帰的な外観修復である。AutoHDRのモジュール型アーキテクチャは、各修復段階での柔軟な介入と最適化を可能にし、人間と機械のシームレスな協働を実現する。実験結果は、AutoHDRがHDRにおいて卓越した性能を発揮することを示している。深刻な損傷を受けた文書を処理する際、本手法はOCR精度を46.83%から84.05%に向上させ、さらに人間と機械の協働により94.25%まで改善された。本研究は、自動化された歴史文書修復における重要な進展を表し、文化遺産の保存に大きく貢献すると確信している。モデルとデータセットはhttps://github.com/SCUT-DLVCLab/AutoHDRで公開されている。
近年、テキストからビデオを生成する(T2V)技術において、Transformerベースの拡散モデルを数十億のパラメータにスケールアップすることで、高品質なビデオ生成が可能となり、大きな進展が見られました。しかし、既存のモデルは通常、短いクリップをオフラインで生成するのみで、インタラクティブおよびリアルタイムアプリケーションでの使用が制限されています。本論文では、これらの課題に対処するため、ストリーミングビデオ生成モデルであるStreamDiTを提案します。StreamDiTのトレーニングは、移動バッファを追加したフローマッチングに基づいています。バッファされたフレームの異なる分割スキームを用いた混合トレーニングを設計し、コンテンツの一貫性と視覚品質の両方を向上させます。StreamDiTのモデリングは、時間埋め込みとウィンドウアテンションを変化させたadaLN DiTに基づいています。提案手法を実践するため、4BパラメータのStreamDiTモデルをトレーニングしました。さらに、StreamDiTに特化した多段蒸留法を提案します。選択した分割スキームの各セグメントでサンプリング蒸留を行い、蒸留後、関数評価の総数(NFEs)はバッファ内のチャンク数に削減されます。最終的に、蒸留されたモデルは1GPUで16FPSのリアルタイム性能を達成し、512p解像度のビデオストリームを生成できます。定量指標と人間による評価を通じて本手法を評価しました。本モデルは、ストリーミング生成、インタラクティブ生成、ビデオツービデオなどのリアルタイムアプリケーションを可能にします。ビデオ結果とさらなる例はプロジェクトウェブサイトで提供しています:<a href="https://cumulo-autumn.github.io/StreamDiT/">このhttps URL。</a>
大規模言語モデル(LLMs)の生成能力は、静的コードから動的でインタラクティブな視覚的アーティファクトへと急速に拡大しています。この進展は、重要な評価ギャップによってボトルネックとなっています:既存のベンチマークはアルゴリズムの正確性に焦点を当てており、現代のユーザー体験を定義する視覚的忠実度やインタラクティブな整合性を見落としています。このギャップを埋めるため、我々はArtifactsBenchを導入します。これは、視覚的コード生成の自動的かつマルチモーダルな評価のための新しいベンチマークとパラダイムです。我々のフレームワークは、生成された各アーティファクトをプログラム的にレンダリングし、その動的挙動を時間的なスクリーンショットを通じて捕捉します。この視覚的証拠とソースコードは、細かいタスクごとのチェックリストに厳密に導かれたマルチモーダルLLM(MLLM)-as-Judgeによって評価され、包括的かつ再現可能なスコアリングを保証します。我々は1,825の多様なタスクからなる新しいベンチマークを構築し、30以上の主要なLLMを評価しました。我々の自動評価は、ウェブ開発における人間の嗜好のゴールドスタンダードであるWebDev Arenaとの94.4%のランキング一貫性を達成し、人間の専門家との90%以上のペアワイズ一致を示しました。これにより、ArtifactsBenchは人間が知覚する品質の評価を大規模に自動化する初めてのフレームワークとして確立されました。我々の分析は、汎用モデルがしばしばドメイン固有のモデルを上回るという現在のSOTA(State of the Art)の高解像度マップを提供します。我々は、ベンチマーク、評価ハーネス、ベースライン結果を含むArtifactsBenchをオープンソース化し、コミュニティにスケーラブルで正確なツールを提供して、ユーザー中心の生成モデルの開発を加速します。詳細はhttps://artifactsbenchmark.github.io/をご覧ください。
マルチモーダル埋め込みモデルは、セマンティック類似性、情報検索、クラスタリングなど、さまざまなモダリティにわたる下流タスクを可能にする上で重要な役割を果たしてきました。しかし、VLM2Vec、E5-V、GMEなどの既存のマルチモーダル埋め込みモデルは、主に自然画像に焦点を当てており、ビデオや視覚的文書などの他の視覚形式に対するサポートは限られています。これにより、AIエージェント、マルチモーダル検索とレコメンデーション、検索拡張生成(RAG)などの現実世界のシナリオでの適用性が制限されています。このギャップを埋めるため、私たちはVLM2Vec-V2を提案します。これは、多様な視覚形式にわたる埋め込みを学習するための統一フレームワークです。まず、MMEB-V2を導入します。これは、MMEBを拡張した包括的なベンチマークで、視覚的文書検索、ビデオ検索、時間的グラウンディング、ビデオ分類、ビデオ質問応答という5つの新しいタスクタイプを追加し、テキスト、画像、ビデオ、視覚的文書の入力をカバーします。次に、テキスト、画像、ビデオ、視覚的文書の入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を学習します。大規模な実験により、VLM2Vec-V2が新たに導入されたビデオと文書検索タスクで強力な性能を発揮するだけでなく、元の画像ベンチマークにおいても従来のベースラインを上回ることが示されました。広範な評価を通じて、私たちの研究は、さまざまなマルチモーダル埋め込みモデルの汎用性に関する洞察を提供し、統一された埋め込み学習の効果的な戦略を強調し、研究と現実世界の設定の両方において、よりスケーラブルで適応可能な表現学習の基盤を築きます。
本論文では、テキスト記述から直接ソフトウェア脆弱性の深刻度レベルを予測するTransformerベースのモデルであるVLAIを提案する。RoBERTaを基盤として構築されたVLAIは、60万件以上の実世界の脆弱性データでファインチューニングされ、深刻度カテゴリの予測において82%以上の精度を達成し、手動でのCVSSスコアリングに先立つ迅速かつ一貫性のあるトリアージを可能にする。本モデルとデータセットはオープンソースとして公開され、Vulnerability-Lookupサービスに統合されている。
本論文では、長文ドキュメントをナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェント「PresentAgent」を提案する。既存の手法は静的スライドやテキスト要約の生成に限定されているが、本手法は人間のプレゼンテーションスタイルに近い完全同期型の視覚的・音声コンテンツを生成することで、これらの限界を超える。この統合を実現するため、PresentAgentはモジュール型パイプラインを採用し、入力ドキュメントを体系的に分割し、スライド形式の視覚フレームを計画・レンダリングし、大規模言語モデルとText-to-Speechモデルを用いて文脈に即した音声ナレーションを生成し、正確な音声-視覚同期を伴う最終ビデオをシームレスに構成する。このようなマルチモーダル出力の評価の複雑さを考慮し、Vision-Language Modelsを活用した統一評価フレームワーク「PresentEval」を導入し、プロンプトベースの評価を通じて、コンテンツの忠実度、視覚的明瞭度、視聴者理解度の3つの重要な次元でビデオを包括的にスコアリングする。30のドキュメント-プレゼンテーションペアからなる精選データセットを用いた実験的検証により、PresentAgentはすべての評価指標において人間レベルの品質に近づくことが示された。これらの結果は、静的テキスト資料を動的で効果的かつアクセス可能なプレゼンテーション形式に変換するための制御可能なマルチモーダルエージェントの大きな可能性を強調する。コードはhttps://github.com/AIGeeksGroup/PresentAgentで公開予定である。
最近の拡散モデルベースの画像編集手法は、テキストガイド付きタスクにおいて大幅な進歩を遂げていますが、複雑で間接的な指示の解釈に苦戦することが多いです。さらに、現在のモデルは、アイデンティティの保持が不十分であったり、意図しない編集が発生したり、手動マスクへの依存度が高いといった課題を抱えています。これらの課題に対処するため、我々はX-Plannerを導入しました。これは、マルチモーダル大規模言語モデル(MLLM)ベースの計画システムであり、ユーザーの意図と編集モデルの能力を効果的に橋渡しします。X-Plannerは、連鎖的思考(chain-of-thought)推論を用いて、複雑な指示を体系的に単純で明確なサブ指示に分解します。各サブ指示に対して、X-Plannerは正確な編集タイプとセグメンテーションマスクを自動生成し、手動介入を排除しつつ、局所的でアイデンティティを保持する編集を実現します。さらに、X-Plannerを訓練するための大規模データを生成する新しい自動化パイプラインを提案し、既存のベンチマークと新たに導入した複雑編集ベンチマークの両方で最先端の結果を達成しました。
大規模言語モデル(LLM)は多様なタスクにおいて顕著な能力を発揮しているが、未来の出来事を予測する能力についてはまだ十分に研究されていない。1年前、大規模言語モデルは人間の集団の精度に近づくことすら困難であった。本研究では、最先端のLLMをMetaculusの464の予測問題で評価し、その性能を人間のスーパーフォーキャスターと比較する。最先端モデルは、一見すると人間の集団を上回るブライアースコアを達成するものの、スーパーフォーキャスターのグループには依然として大きく及ばない結果となった。
人工知能システムが単一のモデルから専門化されたエージェントのエコシステムへと進化するにつれ、標準化された通信プロトコルの必要性がますます重要になっています。本論文では、既存プロトコルの主要な制限に対処するエージェント相互運用性のための新しいアーキテクチャフレームワーク提案であるMOD-X(Modular Open Decentralized eXchange)を紹介します。現在のアプローチとは異なり、MOD-Xはユニバーサルメッセージバス、徹底的な状態管理、翻訳機能、ブロックチェーンベースのセキュリティメカニズムを備えた階層型アーキテクチャを提案しています。本論文ではMOD-Xのアーキテクチャを提示し、既存プロトコルとの比較を行い、実例を通じて異種専門エージェント(異なるアーキテクチャ、ベンダー、能力、知識表現を持つエージェント—ルールベースシステム、ニューラルネットワーク、記号推論エンジン、エージェントラッパーを備えたレガシーソフトウェアを含む)間の統合を可能にする方法を実証します。MOD-Xの主要な革新点には、パブリッシュ-サブスクライブ通信モデル、セマンティック能力発見、動的ワークフローオーケストレーションが含まれ、理論的形式主義と実用的な実装を橋渡しするフレームワークを提供します。このアーキテクチャは、中央調整を必要とせずに効果的にスケールできる真に分散型で相互運用可能なエージェントエコシステムに対する増大するニーズに対応しています。
大規模言語モデル(LLM)は、企業APIの呼び出しを担うことが増えているが、類似したツールが同じユーザー意図を競合する場合や、必要な引数が不十分に指定されている場合に、しばしば失敗する。本論文では、DiaFORGE(Dialogue Framework for Organic Response Generation & Evaluation)を紹介する。これは、曖昧さ解消を中心とした3段階のパイプラインで、(i) アシスタントが非常に類似したツールを区別しなければならないパーソナ駆動のマルチターン対話を合成し、(ii) 3Bから70Bパラメータにわたるオープンソースモデルを推論トレース付きで教師ありファインチューニングし、(iii) 各モデルをライブエージェントループに再デプロイし、従来の静的メトリクスとともにエンドツーエンドの目標達成度を報告する動的スイートで実世界での準備状況を評価する。我々の動的ベンチマークDiaBENCHにおいて、DiaFORGEでトレーニングされたモデルは、最適化されたプロンプト条件下で、GPT-4oに対して27ポイント、Claude-3.5-Sonnetに対して49ポイントのツール呼び出し成功率の向上を示した。さらなる研究を促進するため、厳密に検証された曖昧さ解消に焦点を当てた対話とペアリングされた5000のプロダクショングレードの企業API仕様のオープンコーパスを公開し、信頼性の高いエンタープライズ対応ツール呼び出しエージェントを構築するための実用的な青写真を提供する。
ネイティブな3Dテクスチャ生成モデルのトレーニングは、基本的でありながら依然として困難な問題です。その主な原因は、大規模で高品質な3Dテクスチャデータセットの限られた可用性にあります。この不足は、現実世界のシナリオへの一般化を妨げています。この問題に対処するため、既存の手法の多くは、基礎となる画像生成モデルをファインチューニングして、その学習された視覚的プリオールを活用します。しかし、これらのアプローチは通常、マルチビュー画像のみを生成し、UVテクスチャマップ(現代のグラフィックスパイプラインにおいて不可欠な表現)を生成するために後処理に依存します。このような2段階のパイプラインは、エラーの蓄積や3D表面全体での空間的不整合に悩まされることが多いです。本論文では、SeqTexという新しいエンドツーエンドのフレームワークを紹介します。SeqTexは、事前学習されたビデオ基礎モデルにエンコードされた視覚的知識を活用して、完全なUVテクスチャマップを直接生成します。従来の手法がUVテクスチャの分布を単独でモデル化するのとは異なり、SeqTexはこのタスクをシーケンス生成問題として再定式化し、マルチビューレンダリングとUVテクスチャの結合分布を学習できるようにします。この設計により、ビデオ基礎モデルからの一貫した画像空間プリオールがUV領域に効果的に転移されます。さらに性能を向上させるため、いくつかのアーキテクチャ上の革新を提案します:分離されたマルチビューとUVブランチの設計、クロスドメイン特徴アラインメントを導くためのジオメトリ情報を考慮したアテンション、そして細かいテクスチャの詳細を保持しつつ計算効率を維持するための適応的トークン解像度です。これらのコンポーネントを組み合わせることで、SeqTexは事前学習されたビデオプリオールを最大限に活用し、後処理を必要とせずに高忠実度のUVテクスチャマップを合成できます。広範な実験により、SeqTexが画像条件付きおよびテキスト条件付きの3Dテクスチャ生成タスクにおいて、最先端の性能を達成し、優れた3D一貫性、テクスチャとジオメトリの整合性、および現実世界への一般化能力を示すことが確認されました。
推測デコーディングでは、一般的に、事前学習済みまたは特定のターゲットモデルシリーズ(例えばLlamaやQwenモデル)に対してオフラインで蒸留された、小型で効率的なドラフトモデルを使用することが求められる。しかし、オンライン展開の設定においては、2つの主要な課題が存在する:1)ドラフトモデルと互換性のないターゲットモデルの使用;2)使用時間にわたるレイテンシ改善の期待。本研究では、単一のドラフトモデルが任意のターゲットモデルと連携し、ユーザーデータに動的に適応することを可能にする統一フレームワーク「OmniDraft」を提案する。ドラフトモデルとターゲットモデル間の語彙ミスマッチに対処するために、オンラインn-gramキャッシュとハイブリッド蒸留ファインチューニングを導入し、さらに適応型ドラフティング技術を活用してデコーディング速度を向上させる。OmniDraftは、モデルコスト、効率性、ユーザーカスタマイズが主要な争点となるオンデバイスLLMアプリケーションに特に適している。これにより、上記の課題に取り組む必要性が強調され、「すべてに対応する単一のドラフター」というパラダイムが動機付けられる。数学的推論、コーディング、テキスト生成タスクにおけるオンライン学習を通じて、OmniDraftフレームワークの有効性を実証する。特に、OmniDraftは、単一のLlama-68MモデルがVicuna-7B、Qwen2-7B、Llama3-8Bモデルなど様々なターゲットモデルと推測デコーディングを実行することを可能にし、さらに1.5~2倍の高速化を実現する。