翻訳付きの日次キュレーションされたAI研究論文
TransformerモデルにおけるRotary Position Embedding(RoPE)には、長さの外挿を弱める固有の限界が存在する。本研究では、位置エンコーディングを伴うアテンションマップをノイジーな特徴マップとして再解釈し、特徴マップ内の外れ値周波数帯域を検出するための、切り捨て行列エントロピーに基づくトレーニング不要の手法であるDenoising Positional Encoding(DoPE)を提案する。特徴マップのノイズ特性を活用し、さらにパラメータフリーなガウス分布で再パラメータ化することで、ロバストな外挿を実現する。本手法は、アテンションシンク現象の根本的な原因と、それが切り捨て行列エントロピーとどのように関連しているかを理論的に明らかにする。針を干し草の山から探すタスクや多数ショットのインコンテキスト学習タスクにおける実験により、DoPEが拡張されたコンテキスト(最大64Kトークン)において検索精度と推論の安定性を大幅に向上させることが示された。結果は、位置埋め込みに対するノイズ除去戦略がアテンションシンクを効果的に緩和し、バランスの取れたアテンションパターンを回復させることで、長さの一般化を改善するためのシンプルかつ強力なソリューションを提供することを示している。プロジェクトページは以下:Project: https://The-physical-picture-of-LLMs.github.io
統合型マルチモーダルモデル(UMM)の最近の進展により、視覚的理解と生成において目覚ましい進歩が実現されている。しかし、既存のデータセットとベンチマークは主に単一ターンの相互作用に焦点を当てており、現実世界の画像作成と編集におけるマルチターンで文脈依存的な性質を捉えられていない。この課題を解決するため、我々は文脈内での交互配置されたクロスモーダル理解と生成のための初の統合スイート「WEAVE」を提案する。本スイートは二つの相補的な要素で構成される。WEAVE-100kは10万件の交互配置サンプルからなる大規模データセットであり、37万以上の対話ターンと50万枚の画像を網羅し、履歴文脈に基づく推論を必要とする理解、編集、生成タスクをカバーする。WEAVEBenchは480枚の画像に基づく100タスクからなる人手注釈のベンチマークであり、参照画像と編集指示を組み合わせた原画像の両方に基づくハイブリッドVLM判定器評価フレームを特徴とし、多様な領域におけるマルチターン生成、視覚的記憶、世界知識推論のモデル能力を評価する。実験により、WEAVE-100kでの学習が視覚理解、画像編集、理解と生成の連携能力を可能にすることが実証された。さらに、これによりUMMが創発的な視覚記憶能力を発達させることが促進されるとともに、WEAVEBenchでの大規模評価を通じて、マルチターンで文脈を考慮した画像生成と編集における現在の手法の持続的限界と課題が明らかになった。WEAVEがマルチモーダルコミュニティにおける文脈内交互配置理解と生成の研究に対する視座と基盤を提供すると確信している。
我々はVirtual Width Networks(VWN)を提案する。このフレームワークは、隠れ層サイズの増大に伴う二次コストを発生させることなく、より広い表現の利点を実現する。VWNは表現幅とバックボーン幅を分離し、埋め込み空間を拡張しながらバックボーンの計算量をほぼ一定に保つ。大規模実験では、8倍の拡張により、次トークン予測では2倍以上、次々トークン予測では3倍以上の最適化加速が確認された。この利点は訓練の進行に伴い、損失差の拡大と収束速度向上率の増加という形で増幅され、VWNがトークン効率が良いだけでなく、スケールに応じて効果が持続的に高まることを示している。さらに、仮想幅と損失減少の間に近似的に対数線形のスケーリング関係が存在することを確認し、大規模モデル効率化の新たな次元として仮想幅スケーリングを探求する実証的基盤と動機を提供する。
統合マルチモーダルモデル(UMM)の登場は、人工知能におけるパラダイムシフトを示すものであり、受動的な知覚から能動的でクロスモーダルな生成へと移行するものです。これらは前例のない情報統合能力を持つにもかかわらず、評価において重大なギャップが残っています。既存のベンチマークは主に、識別的理解または制約のない画像生成を個別に評価しており、生成的推論の統合された認知プロセスを測定できていません。このギャップを埋めるため、幾何学的構築が言語理解と精密な視覚的生成の融合を本質的に要求するため、理想的なテストベッドを提供すると提案します。我々は、幾何学的生成的推論を評価するために特別に設計されたベンチマークであるGGBenchを紹介します。これは、モデルが理解し推論するだけでなく、能動的に解決策を構築する能力を体系的に診断する包括的な枠組みを提供し、次世代の知的システムにより厳格な基準を設定します。プロジェクトウェブサイト:https://opendatalab-raiser.github.io/GGBench/
ユーザーインターフェース(UI)プログラミングは、現代のソフトウェア開発において中核的でありながら非常に複雑な領域です。視覚言語モデル(VLM)の最近の進歩は、自動UIコーディングの可能性を示していますが、現在のアプローチには2つの主要な課題があります:マルチモーダルなコーディング能力が未発達であること、および単一ターンのパラダイムでは反復的な視覚的フィードバックがほとんど活用されないことです。私たちはこれらの課題に対し、実世界のワークフローをより反映し、達成可能な性能の上限を引き上げるインタラクティブなUI-to-codeパラダイムを提案します。このパラダイムの下で、段階的な事前学習、ファインチューニング、強化学習を通じて訓練された視覚言語モデルUI2Code^Nを発表します。本モデルは、UI-to-code生成、UI編集、UI洗練という3つの主要機能を統合し、マルチモーダルコーディングにおける基盤的な改善を実現します。さらに、インタラクティブ生成のためのテスト時スケーリングを探求し、マルチターンフィードバックの体系的な利用を可能にします。UI-to-codeおよびUI洗練ベンチマークにおける実験では、UI2Code^Nがオープンソースモデルの中で新たなstate-of-the-artを確立し、Claude-4-SonnetやGPT-5などの主要なクローズドソースモデルに匹敵する性能を達成することを示しています。コードとモデルはhttps://github.com/zai-org/UI2Code_N で公開されています。
ビデオ生成の景観は、視覚的に魅力的なクリップの生成から、インタラクションを支援し物理的な妥当性を維持する仮想環境の構築へと移行しつつある。これらの進展は、単なる視覚的生成器としてだけでなく、暗黙的な世界モデルとして機能するビデオ基盤モデルの出現を示唆している。世界モデルとは、現実または想像上の世界を支配する物理的ダイナミクス、エージェントと環境の相互作用、タスク計画をシミュレートするモデルである。本サーベイはこの進化を体系的に概観し、現代のビデオ基盤モデルを「暗黙的世界モデル」と「ビデオレンダラー」という二つの核心コンポーネントの結合として概念化する。世界モデルは物理法則、相互作用ダイナミクス、エージェント挙動を含む世界に関する構造化された知識を符号化する。これは、一貫した視覚的推論、長期的な時間的一貫性、目標駆動型計画を可能とする潜在的シミュレーションエンジンとして機能する。ビデオレンダラーはこの潜在シミュレーションを現実的な視覚観測に変換し、シミュレートされた世界への「窓」として実質的にビデオを生成する。我々はビデオ生成の進歩を4つの世代を通して追跡する。各世代で核心的能力が段階的に高度化し、最終的にはビデオ生成モデル上に構築された世界モデルに帰結する。これは内在的な物理的妥当性、リアルタイムマルチモーダルインタラクション、複数の時空間スケールに跨る計画能力を具現化する。各世代について、その核心的特徴を定義し、代表的研究を紹介し、ロボティクス、自動運転、インタラクティブゲームなどの応用領域を検討する。最後に、次世代世界モデルにおける未解決課題と設計原則について論じる。これには、これらのシステムを形成・評価する上でのエージェント知能の役割を含む。関連研究の最新リストはこちらで継続的に更新されている。
拡散トランスフォーマー、特に動画生成におけるモデルは、驚異的な品質を達成する一方で、二次関数的な注意機構の計算量により、実用が困難なほどの遅延が生じる課題を抱えています。既存の高速化手法は、根本的なトレードオフに直面しています。すなわち、各ノイズ除去ステップで疎な注意パターンを動的に推定する方法は、高い計算オーバーヘッドと推定誤差を招き、一方で静的な疎パターンは固定されたままであるため、ノイズ除去プロセス全体を通してしばしば最適とは言えません。 本研究では、拡散過程における注意機構の重要な構造的特性、すなわち、その疎パターンがノイズ除去ステップ間で強い時間的一貫性を示すことを明らかにしました。ステップtにおいて重要でないと判断されたタイルは、一般的にステップt+δにおいても同様に重要でないままであるという特性です。この観察結果を活用し、我々はLiteAttentionを提案します。これは時間的一貫性を利用して、ノイズ除去シーケンス全体で進化的な計算スキップを可能にする手法です。非本質的なタイルを早期にマークし、スキップの決定を前方に伝播させることで、LiteAttentionはプロファイリングの繰り返しによるオーバーヘッドなしに冗長な注意計算を排除し、動的手法の適応性と静的手法の効率性を兼ね備えています。 我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、実用規模の動画拡散モデルにおいて、品質の劣化を伴わずに大幅な高速化を実証しました。コードと実装の詳細は公開予定です。
新規イオン液体(IL)の発見は、データ不足、モデル精度の低さ、分断されたワークフローといった物性予測における重大な課題によって妨げられている。本研究では大規模言語モデル(LLM)の力を活用し、我々の知る限り初となるIL発見専用のLLMエージェント「AIonopedia」を提案する。LLM拡張型マルチモーダル領域基盤モデルを中核とするAIonopediaは、正確な物性予測を実現し、分子スクリーニングと設計のための階層的検索アーキテクチャを組み込んでいる。新たに構築した包括的ILデータセットで学習・評価された本モデルは、優れた性能を示した。これらの結果を補完するように、文献報告系に対する評価では、本エージェントが効果的なIL改修を実行可能であることが確認された。オフライン試験を超えて、実世界でのウェットラボ検証により実用性がさらに実証され、困難な分布外タスクにおいて卓越した汎化能力を発揮し、実世界のIL発見を加速する能力が強調された。
マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて顕著な進歩を遂げているが、空間理解には依然として課題を抱えている。既存の空間MLLMは明示的な3D入力やアーキテクチャ固有の修正に依存することが多く、大規模データセットや疎な教師信号に制約されている。これらの課題に対処するため、我々は構造化された空間的基盤付けと多段階推論を統合するRL(強化学習)トレーニング済みの3D認識MLLM「SpatialThinker」を提案する。本モデルは、タスク関連オブジェクトと空間関係のシーングラフを構築し、密な空間報酬による推論を経て回答に至ることで、人間的な空間知覚を模倣する。SpatialThinkerの主な貢献は二つ:(1)高品質な空間VQAデータセットSTVQA-7Kを生成するデータ合成パイプライン、(2)空間的基盤付けを強化する多目的密空間報酬によるオンラインRLである。SpatialThinker-7Bは、空間理解と実世界VQAベンチマークにおいて教師ありファインチューニング及び疎なRLベースラインを上回り、ベースモデルの改善度が疎なRLと比較して約2倍に達し、GPT-4oを凌駕した。これらの結果は、空間的監督と報酬整合型推論の組み合わせが、限られたデータによるロバストな3D空間理解を実現し、MLLMを人間レベルの視覚推論へ進化させる有効性を実証している。
大規模言語モデル(LLM)における最近の進展は、検証可能な報酬を用いた強化学習(RLVR)とテスト時スケーリングによって推進されてきた。しかし、LLMの出力長制約は単一の推論プロセスで達成可能な推論の深さを制限している。マルチエージェント推論システムは、ソルバー、検証器、修正器を含む複数のエージェントを活用して解を反復的に改良する手法として有望な代替案を提供する。Gemini 2.5 Proのようなクローズドモデルでは有効であるものの、批評・修正能力の不足からオープンソースモデルへの汎化が困難である。この問題に対処するため、我々はシステム内の全エージェントを共同最適化する、エージェントパイプライン並列性を備えた新規強化学習フレームワークMarsRLを提案する。MarsRLは報酬ノイズを軽減するエージェント固有の報酬メカニズムを導入し、長い軌道処理の効率化のためにパイプライン発想の訓練を採用する。Qwen3-30B-A3B-Thinking-2507に適用した結果、MarsRLはAIME2025の精度を86.5%から93.3%に、BeyondAIMEを64.9%から73.8%に改善し、Qwen3-235B-A22B-Thinking-2507を凌駕する性能を示した。これらの知見は、MarsRLがマルチエージェント推論システムを発展させ、多様な推論タスクへの適用範囲を拡大する可能性を強調するものである。
オープンボキャブラリー検出器はCOCOにおいて高い性能を達成するが、事前学習に含まれない分布外クラスを持つ実世界データセットへの汎化に失敗することが多い。大規模な視覚言語モデル(VLM)を新たな領域向けに単純にファインチューニングするのではなく、本論文ではRF-DETRを提案する。これは軽量な専門検出トランスフォーマーであり、重み共有型ニューラルアーキテクチャ探索(NAS)を通じて、任意のターゲットデータセットに対する精度-レイテンシのパレート曲線を発見する。我々の手法は、事前学習済みベースネットワークをターゲットデータセットでファインチューニングし、再学習なしで数千のネットワーク構成を異なる精度-レイテンシのトレードオフで評価する。さらに、DETRの多様なターゲット領域への転移性を向上させるため、NASの「調整可能な要素」を再検討する。特筆すべきは、RF-DETRがCOCOおよびRoboflow100-VLにおける従来の最先端リアルタイム手法を大幅に改善した点である。RF-DETR (nano) はCOCOで48.0 APを達成し、同程度のレイテンシでD-FINE (nano) を5.3 AP上回った。また、RF-DETR (2x-large) はRoboflow100-VLにおいてGroundingDINO (tiny) を1.2 AP上回り、20倍高速に動作する。知る限り、RF-DETR (2x-large) はCOCOで60 APを超えた初のリアルタイム検出器である。コードはhttps://github.com/roboflow/rf-detr で公開されている。
聴覚障害者の日常的なコミュニケーションを統一かつ柔軟に支援するため、本論文では支援技術にOmni-Modelパラダイムを導入し、指示駆動型の視聴覚パーソナルアシスタントであるHI-TransPAを提案する。本モデルは不明瞭な音声と高フレームレートの唇の動態を融合し、単一のマルチモーダルフレームワーク内で翻訳と対話の両方を実現する。雑音の多い不均質な生データと、既存のOmni-Modelが聴覚障害者音声に適応できない課題に対処するため、顔のランドマーク検出、唇領域の分離・安定化、マルチモーダルサンプル品質の定量的評価を含む包括的な前処理・選定パイプラインを構築した。これらの品質スコアはカリキュラム学習戦略を導き、最初にクリーンで高信頼性のサンプルで学習し、段階的に難易度の高い事例を組み込むことでモデルの頑健性を強化する。さらにSigLIPエンコーダとUnified 3D-Resamplerを組み合わせ、高フレームレートの唇運動を効率的に符号化する。目的に沿って構築したHI-Dialogueデータセットによる実験では、HI-TransPAが文字通りの正確さと意味的忠実度の両方で最先端の性能を達成することを示す。本研究はOmni-Modelを支援コミュニケーション技術に応用する基盤を確立し、将来の研究のためのエンドツーエンドのモデリングフレームワークと必須の処理ツールを提供する。
推薦システムの最適化において、精度以外の多様性、新規性、個人化といった目標を追求することは、長期的なユーザ満足度向上に極めて重要です。この目的のために、産業界の実務家は構造化された膨大な領域知識(例:アイテム分類体系、時間的パターン)を蓄積してきました。これを我々は「人間の事前知識(human priors)」と呼びます。この知識は通常、ランキング段階やランキング後処理において事後的調整として適用されます。しかし、この手法はコアモデルの学習から切り離されたままであり、産業がエンドツーエンドの生成的推薦基盤モデルへ移行しつつある現在、これは特に望ましくない状況です。一方、これらの精度以外の目標を扱う多くの手法は、アーキテクチャ固有の変更を必要とし、ユーザ意図を完全に教師なしで学習することにより、これらの貴重な人間の事前知識を捨ててしまいがちです。 長年の実践で蓄積された人間の事前知識を捨てる代わりに、我々はこれらを生成的推薦モデルのエンドツーエンド学習に直接かつシームレスに統合する、基盤モデルに依存しないフレームワークを提案します。効率的なLLMデコーディング戦略にヒントを得た軽量な事前知識条件付きアダプターヘッドを用いることで、我々の手法はモデルを導き、ユーザ意図を人間が理解できる軸(例:インタラクションの種類、長期的興味と短期的興味)に沿って分離します。さらに、異なる種類の事前知識にわたる複雑なインタラクションをモデル化するための階層的合成戦略も導入します。3つの大規模データセットを用いた広範な実験により、本手法が精度目標および精度以外の目標の両方を大幅に改善することを実証します。また、人間の事前知識が基盤モデルにより長いコンテキスト長とより大きなモデルサイズを効果的に活用することを可能にすることを示します。
専門知識領域における談話レベルの翻訳評価は、知識の普及や学際的な学術交流において中心的な役割を果たしているにもかかわらず、依然として不十分な状況にある。こうした翻訳には談話レベルの一貫性と厳密な用語の正確性が求められるが、現在の評価手法は主にセグメントレベルの正確性と流暢さに焦点を当てている。この課題を解決するため、我々は談話レベルかつ専門家レベルの中国語・英語翻訳における新たなベンチマーク「DiscoX」を提案する。これは7分野から収集した専門家監修のテキスト200件で構成され、平均トークン数は1700を超える。DiscoXの性能評価のために、正確性・流暢さ・適切性を細粒度で自動評価する参照文不要の評価システム「Metric-S」も開発した。Metric-Sは人間の判断と高い一致性を示し、既存の評価指標を大きく上回る性能を発揮する。実験結果から顕著な性能ギャップが明らかとなった:最先端の大規模言語モデルでさえ、これらの課題において人間の専門家に及ばないのである。この発見はDiscoXの難易度の高さを実証するとともに、専門家級の機械翻訳を実現する上で残された課題を浮き彫りにしている。提案するベンチマークと評価システムは、より厳格な評価のための堅牢な枠組みを提供し、大規模言語モデルに基づく翻訳技術の今後の発展を促進するものである。
エージェンシックAIシステムが、学習後の相互作用に基づいて問題解決アプローチを適応させる能力は、依然として根本的な課題である。推論時にメモリを更新・維持するシステムは提案されているが、既存の設計は言語モデルやエージェントへのテキスト入力を修正するだけで、サンプリングパラメータの変更、ツールの削除、システムプロンプトの修正、エージェンシックとワークフローパラダイムの切り替えができない。一方、より柔軟に適応するシステムはオフライン最適化を必要とし、一度デプロイされると静的になる。本研究では、蓄積された経験に基づいて推論時に動的に、LLM呼び出し、ツール、サンプリングパラメータ、制御ロジックを含む完全な計算手順である戦略を生成するExperience-Guided Reasoner(EGuR)を提案する。これは、戦略を出力するメタ戦略としてLLMを活用し、すべての戦略構成要素(プロンプト、サンプリングパラメータ、ツール設定、制御ロジック)の適応を可能にする。EGuRは二つのコンポーネントで動作する:Guideが現在の問題と構造化された過去の経験メモリに条件付けられて複数の候補戦略を生成し、Consolidatorが実行フィードバックを統合して将来の戦略生成を改善する。これにより、各問題に最適化された完全で即実行可能な戦略が生成され、リソースを浪費することなく必要に応じてキャッシュ、検索、実行できる。5つの困難なベンチマーク(AIME 2025、3-SAT、および3つのBig Bench Extra Hardタスク)において、EGuRは最强ベースライン比最大14%の精度向上を達成し、計算コストを最大111分の1に削減、さらに両指標はシステムの経験蓄積に伴って改善された。
感情は映像表現において極めて重要な役割を果たすが、既存の映像生成システムは主に低次元の視覚的指標に焦点を当て、感情的な次元を軽視してきた。感情分析は視覚領域で進展を見せているものの、特にスタイライズされた非現実的な文脈において、感情理解と生成タスクを結びつける専用リソースが映像コミュニティには不足している。この問題を解決するため、我々はクリエイティブメディア(漫画アニメーション、映画クリップ、アニメーションスタンプ)に特化した、感情注釈付きの初のマルチモーダル映像データセット「EmoVid」を提案する。各映像には感情ラベル、視覚属性(明度、色彩豊かさ、色相)、テキストキャプションが付与されている。体系的分析を通じて、多様な映像形式にわたる視覚的特徴と感情知覚を結ぶ空間的・時間的パターンを明らかにした。これらの知見に基づき、Wan2.1モデルをファインチューニングした感情条件付き映像生成技術を開発。テキスト/画像からの映像生成タスクにおいて、定量的指標と生成映像の視覚的品質の両方で顕著な改善を実証した。EmoVidは感情映像コンピューティングの新たなベンチマークを確立するものであり、芸術的スタイルの映像における視覚的感情分析への知見を提供するとともに、映像生成の感情表現を強化する実践的手法を提示する。
ツール拡張言語モデル(TaLM)は、そのパラメトリックな能力を超える問題を解決するために外部ツールを呼び出すことができる。しかし、これらのツールによる精度向上が信頼できる推論を反映しているかどうかは不明である。本稿では、Code Interpreterツールに焦点を当て、ツールが正しく選択され実行された場合でも、TaLMがツール出力を推論の代替として扱い、一貫した正当性を欠くものの正しく見える解を生成することを示す。我々はこの失敗モードを「ツール誘発性近視(TIM)」と命名し、Pythonコードが有益ではあるが十分ではない1,679問の競技レベルの数学問題からなるベンチマークPYMATHを用いて調査する。さらに、ツール非使用時のモデルと比較してTaLMの推論能力の劣化を定量化する多次元評価スイートを開発した。その結果、TaLMは最終回答精度で最大19.3パーセントポイントの向上を達成する一方、その推論行動は一貫して悪化することが明らかになった(例:ツール非使用LLMが推論プロセスのペアワイズ比較で最大41.5%多く優位となる)。この劣化はツール使用頻度とともに顕著になり、モデルがツールを呼び出す頻度が高まるほど、その推論の一貫性は低下する。さらに、ツール使用は誤りを算術ミスから全体的な推論失敗(論理・仮定・創造性)へと移行させ、高リスクケースの約55%にTIMが存在する。最後に、ツールを補助的証拠として使用するようにTaLMを再調整する選好最適化ベースのフレームワークを提案し、ツール使用下での最終回答精度と推論の深さの両方を改善する。コードとデータはhttps://github.com/megagonlabs/TIM で公開されている。
科学的アイデア生成は、科学の発見の中核を成すものであり、未解決問題の解決や未知の現象を説明する新たな仮説の提案を通じて、人類の進歩を駆動してきた。標準的な科学的推論や一般的な創造的生成とは異なり、科学におけるアイデア生成は多目的かつ未踏の課題であり、貢献の新規性は経験的健全性と同様に本質的である。大規模言語モデル(LLM)は近年、驚くべき直観力と許容可能な推論により、一貫性があり事実に基づいた出力を生成できる、有望な科学的アイデアの生成器として台頭している。しかし、その創造的能力は一貫性に欠け、十分に理解されていない。本調査は、LLM駆動による科学的アイデア創出の方法論を体系的に統合し、異なるアプローチが創造性と科学的健全性をどのようにバランスさせているかを検証する。既存の方法論を、相互補完的な5つのカテゴリーに分類する:外部知識拡張、プロンプトベースの分布的誘導、推論時のスケーリング、マルチエージェント協調、パラメータレベル適応。これらの貢献を解釈するため、二つの補完的枠組みを採用する:各カテゴリーが生成されると期待されるアイデアの水準を特徴づけるためのボーデンの創造性分類(組み合わせ的、探索的、変革的創造性)、および各手法が強調する創造性の側面や源泉を位置づけるためのローズの4P枠組み(人物、過程、環境、産物)。方法論の進展を創造性枠組みに対応させることで、本調査は当該分野の現状を明確にし、科学的発見におけるLLMの信頼性高く体系的かつ変革的な応用に向けた主要な方向性を提示する。
我々は、miniF2Fに含まれる問題から構成される数学オリンピックに参加する任務を負ったAIシステムの観点から、miniF2Fベンチマークにおける形式的記述と非形式的記述の徹底的な分析を行う。この設定では、モデルは自然言語で書かれた問題を読み理解し、Lean言語で形式化し、その後問題の証明を進めなければならない。そして、形式的証明がモデルに提示された元の非形式的命題に対応している場合、問題ごとに評価が得られる。我々の評価結果は、文献中のSoTAモデルを用いた場合、このようなパイプラインの最高精度が約36%となり、自動形式化および定理証明の文献で報告されている個別のSoTA精度(97%と69%)よりもかなり低いことを明らかにしている。失敗モードを分析した結果、この精度低下のかなりの部分が、miniF2Fの問題の半数以上において、形式的記述と非形式的記述の間の不一致に起因していることが判明した。我々は、形式的・非形式的記述における全ての誤り、不一致、単純化を修正し、完全に検証された形式的・非形式的記述と証明を備えたminiF2F-v2を提示する。miniF2F-v2における定理証明パイプライン全体を評価した結果、最高精度は70%となり、元のminiF2Fでの40%から大幅な改善が見られた。しかしながら、これは自動形式化モデルと定理証明器の間にかなりの不一致が存在することを示唆している。我々の詳細な分析は、より高品質なベンチマークが、形式推論の分野における進歩をより適切に評価し、また、自動形式化モデルと定理証明モデルの失敗および成功モードをより適切に診断するのに役立つことを示唆している。データセットはhttps://github.com/roozbeh-yz/miniF2F_v2 で公開されている。
本論文は、現代的なワークロードスケジューラの分類に関する新たなアプローチを提案する。我々は、オペレーティングシステムのプロセススケジューラ、クラスタシステムのジョブスケジューラ、ビッグデータスケジューラという3種類のスケジューラクラスについて説明する。アルゴリズムの利用法と特徴の両面を考慮し、初期の採用から現代的な実装に至るまでの進化を記述する。要約では、提示された全てのスケジューラクラス間の差異を論じ、その年代的な発展について考察する。結論として、ローカルシステムと分散システムの両方に適用可能な、スケジューリング戦略設計における焦点の類似性を明示する。
ウェブ上での自律型AIエージェントの普及拡大は、根本的なミスアライメントによって妨げられている。すなわち、エージェントは人間向けのユーザーインターフェースからアフォーダンスを推測しなければならず、その結果、脆弱で非効率的、かつ安全でない相互作用が生じている。この問題に対処するため、本稿ではVOIXを提案する。これは、ウェブサイトがシンプルで宣言的なHTML要素を通じて、AIエージェント向けに信頼性、監査可能性、プライバシー保護を備えた機能を公開できるようにする、ウェブネイティブなフレームワークである。VOIXは`<tool>`タグと`<context>`タグを導入し、開発者が利用可能なアクションと関連する状態を明示的に定義できるようにすることで、エージェントの行動のための明確で機械可読な契約を生成する。このアプローチは、会話型インタラクションをウェブサイトから切り離すことでユーザーのプライバシーを保護しつつ、制御をウェブサイト開発者に移行させる。16名の開発者を対象とした3日間のハッカソン形式の研究を通じて、本フレームワークの実用性、習得の容易さ、表現力を評価した。その結果、経験の有無にかかわらず、参加者が多様で機能的なエージェント連携ウェブアプリケーションを迅速に構築できることが実証された。最終的に、本研究は「エージェンシック・ウェブ」を実現するための基盤メカニズムを提供し、ウェブ上でのシームレスかつ安全な人間とAIの協調の未来を可能にするものである。
本論文では、ノードの過負荷を回避し、最小コストでシステムの安定性を維持しながらクラウドシステム上にサービスを割り当てる戦略を提案する。サービス移行コストへの配慮に加え、複数種類のリソースを含むクラウドリソース利用の抽象モデルを特定する。プロトタイプメタヒューリスティック負荷分散装置を実証し、実験結果を示して考察する。さらに、他のメタヒューリスティックアルゴリズムの出力で個体群を初期化する新しい遺伝的アルゴリズムを提案する。
車両間協調知覚(V2V協調知覚)は、複雑悪条件交通シナリオにおける知覚の限界を克服することで、自動運転の性能向上に大きな可能性を秘めている。一方、データは現代の自動運転AIにおける基盤インフラである。しかし、厳格なデータ収集要件のため、既存のデータセットは主に通常の交通シナリオに焦点を当てており、協調知覚の利点を制限している。この課題に対処するため、我々は複雑悪条件交通シナリオ下におけるV2V協調知覚のための初の実世界データセット「CATS-V2V」を提案する。本データセットは、ハードウェア時間同期された2台の車両により収集され、10の異なる場所における10の気象・照明条件を網羅している。100クリップからなるデータセットには、10HzのLiDAR点群6万フレーム、30Hzのマルチビューカメラ画像126万枚に加え、匿名化されながら高精度なRTK固定GNSS及びIMU記録75万件が含まれる。対応して、物体に対する時間整合性のある3Dバウンディングボックス注釈と、4D BEV表現を構築するための静的场景を提供する。これに基づき、全ての物体が全センサモダリティ間で精密に位置合わせされることを保証する、ターゲットベースの時間アライメント手法を提案する。現在までで最大規模、最高品質、かつ最も支援的な本データセットが、自動運転コミュニティの関連タスクに貢献することを期待する。