翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)を基盤とするディープリサーチエージェントは急速に進化しているが、汎用的なテストタイムスケーリングアルゴリズムを用いて複雑で長文の研究レポートを生成する際に、その性能が頭打ちになることが多い。人間の研究プロセスが検索、推論、修正のサイクルを繰り返すという性質に着想を得て、我々は「Test-Time Diffusion Deep Researcher(TTD-DR)」を提案する。この新しいフレームワークは、研究レポートの生成を拡散プロセスとして概念化する。TTD-DRは、研究の方向性を導く進化する基盤として機能する更新可能なスケルトンである初期ドラフトからこのプロセスを開始する。その後、ドラフトは各ステップで外部情報を取り込む検索メカニズムによって動的に情報が提供される「ノイズ除去」プロセスを通じて反復的に洗練される。さらに、エージェントのワークフローの各コンポーネントに自己進化アルゴリズムを適用することで、拡散プロセスのための高品質なコンテキスト生成が保証される。このドラフト中心の設計により、レポート作成プロセスがよりタイムリーで一貫性のあるものとなり、反復的な検索プロセス中の情報損失が軽減される。我々は、TTD-DRが集中的な検索とマルチホップ推論を必要とする幅広いベンチマークにおいて、既存のディープリサーチエージェントを大幅に上回る最先端の結果を達成することを実証する。
大規模言語モデル(LLM)の重みを16ビットから低ビット幅に量子化することは、巨大なトランスフォーマーをより手頃なアクセラレータに展開するための事実上のアプローチです。GPTQは、LLMスケールでのワンショット学習後量子化の標準的な手法の一つとして登場しました。しかし、その内部動作は、幾何学的な意味や最悪ケースの保証を曖昧にするアドホックな代数更新のシーケンスとして記述されています。本研究では、線形層に対して後ろから前へ(最後の次元から最初の次元へ)実行される場合、GPTQは、層の入力のヘッセ行列によって定義される格子に対する古典的な最近接ベクトル問題(CVP)のBabaiの最近接平面アルゴリズムと数学的に同一であることを示します。この等価性は、洗練された数学的議論に基づいており、二つの分析的な帰結をもたらします:(i) GPTQの誤差伝播ステップに直感的な幾何学的解釈が与えられる;(ii) クリッピングなしの条件下で、GPTQはBabaiのアルゴリズムの誤差上限を継承する。これらの結果を総合すると、GPTQは確固たる理論的基盤に置かれ、数十億パラメータモデルのための将来の量子化アルゴリズムの設計に向けて、格子アルゴリズムの進歩を取り入れる道が開かれます。
本論文では、Windows、macOS、Linux、iOS、Android、およびWebプラットフォームにわたるGUI自動化エージェントを評価するための階層型ベンチマークであるMMBench-GUIを紹介する。このベンチマークは、GUIコンテンツ理解、要素グラウンディング、タスク自動化、およびタスク協調の4つのレベルで構成され、GUIエージェントに必要な基本的なスキルを網羅している。さらに、オンライン自動化シナリオにおけるGUIエージェントの実行効率を評価するための新規の効率-品質面積(EQA)メトリックを提案する。MMBench-GUIを通じて、正確な視覚的グラウンディングが全体的なタスク成功の重要な決定要因であることを明らかにし、専門的なグラウンディングモジュールを統合したモジュール型フレームワークの大きな利点を強調する。さらに、信頼性の高いGUI自動化を実現するためには、エージェントが強力なタスク計画とクロスプラットフォーム汎化能力を備える必要があり、長文脈メモリ、広範なアクション空間、および長期的推論が重要な役割を果たす。特に、タスク効率は未だに十分に検討されていない次元であり、すべてのモデルが大幅な非効率性に悩まされており、タスクが最終的に完了した場合でも過剰な冗長なステップが存在する。真に効率的でスケーラブルなGUI自動化を実現するためには、正確な位置特定、効果的な計画、および早期停止戦略の統合が不可欠である。我々のベンチマークコード、評価データ、および実行環境は、https://github.com/open-compass/MMBench-GUI で公開される予定である。
マルチモーダル大規模言語モデル(MLLMs)は、高解像度画像、長時間の動画シーケンス、長大な音声入力など、ますます長く複雑なコンテキストを処理する能力によって、著しい進歩を遂げてきた。この能力はMLLMの性能を大幅に向上させる一方で、多数の入力トークンに対する自己注意機構の二次的な計算複雑性により、大きな計算上の課題を引き起こしている。これらのボトルネックを緩和するため、トークン圧縮が有望かつ重要なアプローチとして登場し、学習と推論の両方において効率的にトークン数を削減している。本論文では、マルチモーダル長文脈トークン圧縮という急速に発展している分野について、初めて体系的に調査し、総括する。効果的な圧縮戦略が各モダリティの特性と冗長性に深く結びついていることを認識し、既存のアプローチを主要なデータ焦点に基づいて分類し、研究者が特定の関心領域に適した手法を迅速にアクセスし学べるようにする:(1)画像中心の圧縮、これは視覚データの空間的冗長性に対処する;(2)動画中心の圧縮、これは動的シーケンスの時空間的冗長性に取り組む;(3)音声中心の圧縮、これは音響信号の時間的およびスペクトル的冗長性を扱う。このモダリティ駆動の分類に加えて、手法をその基盤となるメカニズムに基づいてさらに細分化し、変換ベース、類似性ベース、注意ベース、クエリベースのアプローチを含む。本調査は、包括的かつ構造化された概要を提供することで、現在の進展を統合し、主要な課題を特定し、この急速に進化する分野における将来の研究方向性を刺激することを目指す。また、この有望な領域における最新の進展を継続的に追跡し更新するための公開リポジトリを維持している。
大規模言語モデル(LLMs)は、Group Relative Policy Optimization(GRPO)のような強化学習(RL)手法を介して下流タスクに適応されることが増えているが、新しいタスクを学習するためには数千回のロールアウトを必要とすることが多い。我々は、言語の解釈可能な性質が、疎なスカラー報酬から導かれるポリシー勾配と比較して、LLMsにとってより豊かな学習媒体を提供し得ると主張する。これを検証するため、我々はGEPA(Genetic-Pareto)を導入する。これは、試行錯誤から高レベルのルールを学習するために、自然言語による反省を徹底的に取り入れたプロンプト最適化ツールである。1つ以上のLLMプロンプトを含む任意のAIシステムに対して、GEPAはシステムレベルの軌跡(例:推論、ツール呼び出し、ツール出力)をサンプリングし、自然言語でそれらを反省して問題を診断し、プロンプトの更新を提案・テストし、自身の試みのパレートフロンティアから得られた補完的な教訓を組み合わせる。GEPAの設計により、わずか数回のロールアウトでも大きな品質向上をもたらすことが多い。4つのタスクにおいて、GEPAはGRPOを平均10%、最大20%上回り、最大35倍少ないロールアウトでこれを達成した。また、GEPAは主要なプロンプト最適化ツールであるMIPROv2を2つのLLMにおいて10%以上上回り、コード最適化のための推論時検索戦略としても有望な結果を示した。
大規模言語モデル(LLMs)の評価において、他のLLMsを審判役として利用する傾向が強まっている。しかし、現在の評価パラダイムは通常、単一のスコアやランキングを生成し、どのモデルが優れているかを示すものの、その理由については明らかにしない。ベンチマーキングにおいては不可欠であるものの、これらのトップレベルのスコアは、モデルの性能の背後にある具体的で実践可能な理由を覆い隠してしまう。このギャップを埋めるため、我々はCLEARを紹介する。CLEARは、LLMベースのエラー分析のためのインタラクティブでオープンソースのパッケージである。CLEARはまず、インスタンスごとのテキストフィードバックを生成し、次にシステムレベルのエラー問題のセットを作成し、各特定された問題の発生頻度を定量化する。また、このパッケージはユーザーにインタラクティブなダッシュボードを提供し、集約された視覚化を通じて包括的なエラー分析を行い、特定の問題やスコア範囲を分離するためのインタラクティブなフィルタを適用し、特定の行動パターンを例示する個々のインスタンスにドリルダウンすることを可能にする。我々は、RAGおよび数学ベンチマークに対するCLEAR分析を実証し、ユーザーケーススタディを通じてその有用性を示す。
言語モデル(LMs)は、文脈内報酬ハッキングに対して脆弱であり、汚染されたまたは欠陥のある書面仕様やルーブリックの欠陥を悪用して、ユーザーの真の意図を満たすことなく高得点を達成しようとします。本論文では、仕様自己修正(Specification Self-Correction, SSC)という新しい推論時フレームワークを提案します。SSCは、LMが自身のガイド仕様内の欠陥を特定し修正することを可能にします。SSCは多段階の推論プロセスを採用し、モデルはまず潜在的に汚染された仕様に基づいて応答を生成し、その出力を批判し、その後、悪用可能な抜け穴を除去するために仕様自体を修正します。最後に、この自己修正された仕様を使用して、より堅牢な応答が生成されます。創造的ライティングやエージェント的コーディングタスクにわたる複数のLMを用いた実験を通じて、モデルが最初に汚染された仕様を50-70%のケースで悪用する一方で、SSCプロセスがこの脆弱性を90%以上削減することを示します。この動的修復は推論時に発生し、重みの変更を必要とせず、より堅牢に整合したモデル行動を導きます。コードはhttps://github.com/vicgalle/specification-self-correctionにあります。
エンドツーエンドの自動運転モデルは有望な結果を示していますが、その実用化は、大規模なモデルサイズ、高価なLiDARセンサーへの依存、計算集約的なBEV(鳥瞰図)特徴表現によってしばしば妨げられています。これは、特にカメラのみを搭載した大衆向け車両において、スケーラビリティを制限しています。これらの課題に対処するため、我々はPRIX(Plan from Raw Pixels)を提案します。この新規で効率的なエンドツーエンド運転アーキテクチャは、カメラデータのみを使用し、明示的なBEV表現を必要とせず、LiDARも不要です。PRIXは、視覚的特徴抽出器と生成型プランニングヘッドを組み合わせて、生のピクセル入力から直接安全な軌道を予測します。我々のアーキテクチャの中核となるのは、Context-aware Recalibration Transformer(CaRT)という新規モジュールで、多層の視覚的特徴を効果的に強化し、より堅牢なプランニングを実現します。包括的な実験を通じて、PRIXがNavSimおよびnuScenesベンチマークで最先端の性能を達成し、大規模でマルチモーダルな拡散プランナーと同等の能力を持ちながら、推論速度とモデルサイズの点で大幅に効率的であることを示し、実世界での実用化に適したソリューションであることを証明します。我々の研究はオープンソースであり、コードはhttps://maxiuw.github.io/prixで公開されます。
急速に進化する人工知能(AI)モデルがもたらす前例のないリスクを理解し、特定するため、本報告書はそのフロンティアリスクに関する包括的な評価を提示する。フロンティアAIリスク管理フレームワーク(v1.0)(SafeWork-F1-Framework)に基づくE-T-C分析(展開環境、脅威源、実現能力)を活用し、サイバー攻撃、生物学的・化学的リスク、説得・操作、制御不能な自律的AI研究開発、戦略的欺瞞・策謀、自己複製、共謀の7つの領域における重要なリスクを特定する。「AI-45度の法則」に導かれ、これらのリスクを「レッドライン」(許容不能な閾値)と「イエローライン」(早期警告指標)を用いて評価し、リスクゾーンを定義する:グリーン(日常的な展開と継続的監視が可能な管理可能なリスク)、イエロー(緩和策の強化と制御された展開が必要)、レッド(開発および/または展開の停止が必要)。実験結果は、最近のフロンティアAIモデルがすべてグリーンおよびイエローゾーンに位置し、レッドラインを越えていないことを示している。具体的には、評価されたモデルのうち、サイバー攻撃や制御不能なAI研究開発のリスクに関してイエローラインを越えるものはない。自己複製、および戦略的欺瞞・策謀に関しては、特定の推論モデルがイエローゾーンに位置する以外、ほとんどのモデルがグリーンゾーンに留まっている。説得・操作に関しては、人間に対する効果的な影響力のため、ほとんどのモデルがイエローゾーンに位置する。生物学的・化学的リスクに関しては、詳細な脅威モデリングと深い評価を経なければ、ほとんどのモデルがイエローゾーンに位置する可能性を排除できない。本作業は、AIフロンティアリスクに対する我々の現時点での理解を反映し、これらの課題を緩和するための集団的行動を促すものである。
AIビデオチャットは、リアルタイムコミュニケーション(RTC)の新たなパラダイムとして登場し、その一端が人間ではなくマルチモーダル大規模言語モデル(MLLM)であるという特徴を持っています。これにより、人間とAIの間のインタラクションは、まるで実際の人物と対面で会話しているかのように直感的になります。しかし、MLLMの推論が応答時間の大部分を占めるため、ビデオストリーミングに割り当てられる時間が非常に限られ、レイテンシが大きな課題となります。ネットワークの不確実性と不安定性により、伝送遅延はAIが実際の人物のように振る舞うことを妨げる重大なボトルネックとなります。この問題に対処するため、我々はAI指向のリアルタイムコミュニケーションフレームワーク「Artic」を提案し、「人間がビデオを見る」から「AIがビデオを理解する」というネットワーク要件の変化を探求します。MLLMの精度を維持しながらビットレートを大幅に削減するため、チャットにとって重要なビデオ領域を認識し、ビットレートをほぼ独占的にその領域に割り当てる「コンテキスト対応ビデオストリーミング」を提案します。パケット再送信を回避するため、失われたまたは遅延したフレームを以前のフレームで代替しつつ、ビットレートの無駄を防ぐ「損失耐性適応フレームレート」を提案します。ビデオストリーミング品質がMLLMの精度に与える影響を評価するため、初のベンチマーク「Degraded Video Understanding Benchmark(DeViBench)」を構築します。最後に、AIビデオチャットに関するいくつかの未解決の問題と進行中の解決策について議論します。
教師なしドメイン適応型セマンティックセグメンテーション(UDA-SS)では、モデルはラベル付きのソースドメインデータ(例:合成画像)で学習され、ターゲットドメイン(例:実世界の画像)のアノテーションにアクセスすることなく、未ラベルのターゲットドメインに適応されます。既存のUDA-SS手法は、細かい局所的な詳細とグローバルな文脈情報のバランスを取ることに苦労し、複雑な領域でのセグメンテーションエラーを引き起こすことがよくあります。これを解決するために、我々はAdaptive Feature Refinement(AFR)モジュールを導入します。このモジュールは、低解像度のロジットから得られるセマンティックプライアを使用して高解像度の特徴を洗練し、セグメンテーションの精度を向上させます。AFRはまた、高周波成分を統合し、細かい構造を捉え、重要な境界情報を提供することで、オブジェクトの輪郭を改善します。さらに、AFRは不確実性駆動型の注意を通じて局所情報とグローバル情報を適応的にバランスさせ、誤分類を減らします。その軽量な設計により、HRDAベースのUDA手法にシームレスに統合され、最先端のセグメンテーションパフォーマンスを実現します。我々のアプローチは、既存のUDA-SS手法をGTA V → Cityscapesで1.05% mIoU、Synthia → Cityscapesで1.04% mIoU向上させます。我々のフレームワークの実装は以下で利用可能です:https://github.com/Masrur02/AFRDA