翻訳付きの日次キュレーションされたAI研究論文
コンピュータビジョンにおいて、特に大規模言語モデル(LLMs)や検索拡張生成(RAG)技術の高品質データ要件を満たすために、文書内容の抽出は重要です。しかしながら、現在の文書解析方法は多様性と包括的な評価において著しい制約を抱えています。これらの課題に対処するために、自動文書内容抽出の進展を目指した新しい多元ソースベンチマークであるOmniDocBenchを紹介します。OmniDocBenchには、学術論文、教科書、スライドなど、9つの異なる文書タイプからなる厳選された高品質評価データセットが含まれています。当試験では、19のレイアウトカテゴリラベルと14の属性ラベルを備えた柔軟かつ包括的な評価フレームワークを提供し、全データセット、個々のモジュール、または特定のデータタイプにわたる多レベル評価を可能にします。OmniDocBenchを使用して、既存のモジュラーパイプラインとマルチモーダルエンドツーエンド手法の徹底的な比較分析を行い、文書の多様性を扱う際の制約や公平な評価を強調します。OmniDocBenchは、文書内容抽出分野における堅牢で多様かつ公正な評価基準を確立し、将来の進展に向けた重要な示唆を提供し、文書解析技術の発展を促進します。コードとデータセットはhttps://github.com/opendatalab/OmniDocBenchで入手可能です。
大規模言語モデル(LLM)は、「言語空間」でのみ推論を行うことが制限されており、通常、複雑な推論問題を解決するために思考の連鎖(CoT)で推論プロセスを表現します。しかし、我々は、言語空間が常に推論に最適であるとは限らないと主張します。例えば、ほとんどの単語トークンは主にテキストの一貫性のためであり、推論には必須ではない一方で、一部の重要なトークンは複雑な計画が必要で、LLMには大きな課題を提起します。自然言語の代わりに制約のない潜在空間でLLMの推論能力を探るために、新しいパラダイムCoconut(Chain of Continuous Thought)を導入します。LLMの最後の隠れた状態を推論状態の表現(「連続的な思考」と呼ばれる)として利用します。これを単語トークンにデコードする代わりに、この状態を連続空間で直接LLMに戻し、次の入力埋め込みとして供給します。実験結果は、Coconutがいくつかの推論タスクでLLMを効果的に補完できることを示しています。この新しい潜在推論パラダイムは、新たな高度な推論パターンをもたらします。連続的な思考は複数の代替次の推論ステップを符号化でき、モデルがCoTのように単一の決定軌道に早期にコミットするのではなく、問題を解決するために幅優先探索(BFS)を実行できます。Coconutは、計画中に大幅なバックトラッキングが必要な特定の論理推論タスクで、推論中の思考トークンが少なく、CoTを上回る性能を発揮します。これらの知見は、潜在的な推論の可能性を示し、将来の研究に有益な示唆を提供しています。
言語モデルは数学問題を解く際に定期的に間違いを com するため、推論プロセスの誤りを自動的に特定することがますます重要になっています。本論文では、数学的推論における誤ったステップを特定する能力を測定するための ProcessBench を紹介します。これには、競技やオリンピアードレベルの数学問題に主に焦点を当てた 3,400 のテストケースが含まれています。各テストケースには、人間の専門家によって注釈付けされた誤りの位置を含むステップバイステップの解法が含まれています。モデルは、誤りを含む最初のステップを特定するか、あるいはすべてのステップが正しいと結論付ける必要があります。ProcessBench で広範な評価を行い、プロセス報酬モデル(PRM)と批評モデルの2種類のモデルを対象とします。後者では、一般的な言語モデルに各解法ステップを批評させます。主な観察結果は次の2点です:(1) 既存の PRM は、GSM8K や MATH を超えるより難しい数学問題に一般化するのに通常失敗します。彼らは、批評モデル(つまり、一般的な言語モデルに促されたもの)および PRM800K データセットで簡単に微調整された私たち自身の訓練された PRM に劣ります。(2) 最高のオープンソースモデルである QwQ-32B-Preview は、プロプライエタリモデル GPT-4o と競合する批評能力を示していますが、まだ推論に特化した o1-mini に遅れを取っています。ProcessBench が言語モデルの拡張可能な監視に向けた道筋を開く推論プロセス評価の将来の研究を促進できることを願っています。
エージェントにメモリを組み込むことは、強化学習(RL)の領域内の多くのタスクにとって不可欠です。特に、メモリは、過去の情報の利用、新しい環境への適応、およびサンプル効率の向上が必要なタスクにとって極めて重要です。ただし、「メモリ」という用語は幅広い概念を含んでおり、エージェントのメモリを検証するための統一された方法論の欠如が、エージェントのメモリ能力に関する誤った判断を招き、他のメモリ強化エージェントとの客観的な比較を妨げています。本論文では、認知科学に触発された長期メモリと短期メモリ、宣言的メモリと手続き的メモリなどのエージェントメモリの具体的な定義を提供することで、RLにおけるメモリの概念を整理しようとしています。これらの定義を用いて、異なる種類のエージェントメモリを分類し、RLエージェントのメモリ能力を評価するための堅牢な実験方法論を提案し、評価を標準化します。さらに、異なる種類のエージェントメモリを評価する際に提案された方法論に従う重要性を実証するために、異なるRLエージェントで実験を行い、その違反がもたらす影響を示します。
大規模なビジョン言語モデル(VLMs)の急速な発展により、広く話されている言語で主に学術的なベンチマークで印象的な結果が得られています。ただし、現在のVLMsが低リソース言語や多様な文化的コンテキストを扱う能力には依然として大きなギャップがあり、これは高品質で多様で安全性が確認されたデータの不足によるものです。そのため、これらのモデルはしばしば低リソース言語や文化的ニュアンスを毒性から解放された形で理解するのに苦労しています。これらの制限に対処するために、我々はMayaというオープンソースのマルチモーダル多言語モデルを導入します。私たちの貢献は次の3つです:1)LLaVA事前トレーニングデータセットに基づく8つの言語での多言語画像テキスト事前トレーニングデータセット、2)LLaVAデータセット内の毒性の徹底的な分析に続いて、8つの言語での新しい毒性フリーバージョンの作成、および3)これらの言語をサポートする多言語画像テキストモデルにより、ビジョン言語タスクにおける文化的および言語的理解が向上します。コードはhttps://github.com/nahidalam/mayaで入手可能です。
グローバルビジュアルジオロケーションは、画像が地球上のどこでキャプチャされたかを予測します。画像はローカライズされる精度にばらつきがあるため、このタスクにはかなりの曖昧さが内在しています。しかしながら、既存のアプローチは決定論的であり、この側面を見落としています。本論文では、従来のジオロケーションと現代の生成手法との間のギャップを埋めることを目指します。私たちは、拡散とリーマン流マッチングに基づく初の生成型ジオロケーションアプローチを提案します。ここでは、ノイズ除去プロセスが直接地球の表面上で動作します。当モデルは、3つのビジュアルジオロケーションベンチマーク、OpenStreetView-5M、YFCC-100M、およびiNat21において最先端のパフォーマンスを達成します。さらに、モデルが単一のポイントではなく、すべての可能な場所にわたる確率分布を予測する確率的ビジュアルジオロケーションタスクを導入します。このタスクのための新しいメトリクスとベースラインを導入し、当社の拡散ベースのアプローチの利点を示します。コードとモデルは公開されます。
マルチモーダル大規模言語モデル(MLLMs)は、ビジョン-言語タスクにおいて、粗い概念アノテーション(例:画像キャプション)のみを用いて事前学習することで優れた性能を発揮します。私たちは、細かい概念アノテーション(例:オブジェクトラベルやオブジェクト領域)を統合することで性能がさらに向上すると仮説立てています。なぜなら、両方のデータ粒度が概念表現の幅と深さにおいて互い補完するからです。私たちは、MLLMs向けのマルチモーダル多粒度概念アノテーション(MMGiC)を特集した新しいデータセットを紹介します。MMGiCの構築において、異なるデータレシピがマルチモーダル理解と生成に与える影響を探求します。私たちの分析により、多粒度概念アノテーションが、構造化されたテンプレートと一般的なMLLMフレームワークの下で統合し、互いを補完することが明らかになりました。MMGiCがMLLMsが概念をより適切に特定し学習するのを支援する潜在能力を明確に探求し、示しています。また、POPEやSEED-Benchなど12のマルチモーダル理解と生成のベンチマークにおいて、MMGiCと画像キャプションデータの公平な比較と効果的な協力を調査し、適切な組み合わせにより、POPEとSEED-Benchでそれぞれ画像キャプションデータ単体よりも3.95%と2.34%の絶対的な改善が実現されることを検証します。コード、データ、モデルはhttps://github.com/LooperXX/MMGiCで入手可能です。
近年、大規模言語モデル(LLM)内で画像の理解と生成を統合することに対する興味が急速に高まっています。この盛んな関心から、この統合をビデオに拡張する可能性を探ることになりました。中心的な課題は、LLMの表現を得るためにビデオの空間的特性と時間的ダイナミクスの両方を捉える汎用ビデオトークナイザを開発することであり、これらの表現はさらにリアルなビデオクリップにデコードされてビデオ生成を可能にします。本研究では、自己教師付きビデオ表現学習のために拡散プロセスを活用するDiffusion-Powered Video TokenizerであるDivotを紹介します。ビデオのディフュージョンモデルが、ビデオトークナイザの特徴を条件としてビデオクリップを効果的にノイズ除去できる場合、トークナイザは堅牢な空間的および時間的情報を成功裏に捉えていると考えられます。さらに、ビデオディフュージョンモデルは、ビデオの表現からビデオをデコードするデトークナイザとして機能します。Divotトークナイザを基盤として、Divot-Vicunaを提案し、ガウス混合モデルを用いてDivot特徴の連続値分布をモデリングすることで、ビデオからテキストへの自己回帰とテキストからビデオへの生成を行います。実験結果は、事前にトレーニングされたLLMと統合された拡散ベースのビデオトークナイザが、さまざまなビデオ理解と生成のベンチマークで競争力のあるパフォーマンスを達成することを示しています。指示調整されたDivot-Vicunaは、ビデオストーリーテリングにおいても優れており、交互に語られる物語とそれに対応するビデオを生成します。
最近の3D生成モデルは、一般的には限られたスケールの3D「ゴールドラベル」または2D拡散事前情報に依存していますが、スケーラブルな学習パラダイムの不足により、制約された3D事前情報によって性能が上限に制限されています。本研究では、オープンワールド3D生成のために大規模なインターネット動画でトレーニングされたビジュアル条件付きマルチビューディフュージョンモデルであるSee3Dを提案します。このモデルは、広範囲かつ急速に成長しているビデオデータから視覚コンテンツを単独で見ることで3D知識を獲得することを目指しています。これを実現するために、まず、提案されたデータキュレーションパイプラインを使用してトレーニングデータをスケールアップし、ソースビデオからマルチビューの不整合と不十分な観測を自動的にフィルタリングします。これにより、16Mのビデオクリップから320Mフレームを含む高品質で豊富で多様な大規模なマルチビュー画像データセットであるWebVi3Dが生成されます。ただし、明示的な3Dジオメトリやカメラポーズの注釈なしにビデオから一般的な3D事前情報を学習することは容易ではなく、Webスケールのビデオにポーズ条件を注釈することは費用がかかりすぎます。ポーズ条件の必要性を排除するために、マスクされたビデオデータに時間依存性のノイズを追加して生成される純粋な2D帰納的ビジュアルシグナルを導入します。最後に、高忠実度3D生成のためのワーピングベースのパイプラインにSee3Dを統合することで、革新的なビジュアル条件付き3D生成フレームワークを導入します。コスト効果的かつスケーラブルなビデオデータでトレーニングされたSee3Dは、高いゼロショットおよびオープンワールド生成能力を実現し、高価で制約のある3Dデータセットでトレーニングされたモデルを大幅に上回ることが、数値および視覚的比較により示されています。プロジェクトページはこちらをご覧ください:https://vision.baai.ac.cn/see3d
リニアトランスフォーマーは、標準のトランスフォーマーに対する効率的な代替手段として注目されていますが、その検索および長い文脈のタスクにおけるパフォーマンスは限定されています。これらの制限に対処するために、最近の研究では、適応的メモリ制御のためのゲーティングと正確なメモリ修正のためのデルタ更新ルールという2つの異なるメカニズムが探求されています。私たちは、これらのメカニズムが補完的であることを観察しています:ゲーティングは迅速なメモリ消去を可能にし、デルタルールはターゲットされた更新を容易にします。この洞察を基に、私たちはゲーティングデルタルールを導入し、現代のハードウェアに最適化された並列トレーニングアルゴリズムを開発します。提案されたアーキテクチャであるゲーティングデルタネットは、言語モデリング、常識的推論、文脈内検索、長さの外挿、および長い文脈の理解など、複数のベンチマークで、Mamba2やDeltaNetなどの既存のモデルを常に上回っています。さらに、ゲーティングデルタネットレイヤーとスライディングウィンドウアテンションまたはMamba2レイヤーを組み合わせたハイブリッドアーキテクチャを開発することで、トレーニング効率の向上と優れたタスクパフォーマンスの両方を達成しています。
本研究では、拡散トランスフォーマーにおける初のモーション転送手法を提案します。これは、拡散モデルにおけるモーション転送のための理論的に基づいた枠組みであるMixture of Score Guidance(MSG)を介して行われます。我々の主要な理論的貢献は、条件付きスコアを再定式化し、拡散モデルにおけるモーションスコアとコンテンツスコアを分解することにあります。MSGによって、モーション転送をポテンシャルエネルギーの混合として定式化することで、シーン構成を自然に保持し、転送されたモーションパターンの整合性を維持しながら創造的なシーン変換を可能にします。この新しいサンプリングは、追加のトレーニングや微調整なしに、事前にトレーニングされたビデオ拡散モデル上で直接動作します。MSGは、単一オブジェクト、複数オブジェクト、オブジェクト間のモーション転送、複雑なカメラモーション転送を含む多様なシナリオの成功した処理を実証するために、幅広い実験を通じて検証されています。さらに、単一/複数オブジェクトの転送や複雑なカメラモーションをカバーする、200のソースビデオと1000の転送されたモーションから成る初のモーション転送データセットであるMotionBenchを紹介しています。
地球観測データの膨大なアーカイブ、例えばCopernicusのような大規模プログラムに存在するデータ量が増加するにつれ、基礎となる生データの効率的なベクトル表現へのニーズが高まっています。事前に訓練された深層ニューラルネットワークから特徴表現を抽出するアプローチは、入力データの意味論的抽象化を提供できる強力な手法です。ただし、地理空間データを含む画像アーカイブに対してこの手法がどのように行われるかはまだ定義されていません。本研究では、地球観測のためのオープンで無料のAI対応データセットの提供と標準化に焦点を当てた既存のコミュニティプロジェクトであるMajor TOMに拡張を提案します。さらに、この論文の公開と同時に、4つのグローバルで密な埋め込みデータセットが無償で公開され、地球全体の表面をカバーする観点で最も包括的なグローバルな地理空間ビジュアル埋め込みデータセットが提供されます。
ロボティック視覚運動ポリシー学習において、拡散ベースのモデルは、従来の自己回帰モデルと比較して、アクション軌跡生成の精度を向上させることで著しい成功を収めています。ただし、複数のノイズ除去ステップや複雑な制約からの限られた柔軟性により、効率性に問題があります。本論文では、視覚運動ポリシー学習のための革新的なパラダイムであるCoarse-to-Fine AutoRegressive Policy(CARP)を紹介します。CARPは、自己回帰型アクション生成プロセスを粗粒度から細粒度、次のスケールアプローチとして再定義します。CARPは、アクション生成を2段階に分割します。まず、アクションオートエンコーダーがアクションシーケンス全体のマルチスケール表現を学習し、次に、GPTスタイルのトランスフォーマーが粗粒度から細粒度の自己回帰プロセスを通じてシーケンス予測を洗練します。この直感的でわかりやすいアプローチは、非常に正確で滑らかなアクションを生成し、効率性を維持しながら、拡散ベースのポリシーと同等以上の性能に匹敵するかそれを上回ります。我々は、単一タスクおよびマルチタスクシナリオ、状態ベースおよび画像ベースのシミュレーションベンチマーク、および実世界のタスクを含むさまざまな設定で包括的な評価を行います。CARPは競争力のある成功率を達成し、最新のポリシーと比較して最大10%の改善を実現し、高性能で効率的かつ柔軟なパラダイムを確立し、ロボティックタスクにおけるアクション生成において10倍高速な推論を提供します。
私たちは、希少な視点サンプルから明示的な高品質3D表面メッシュの復元と写実的な新しい視点合成を同時に実現する新しい外観モデルを提案します。私たちの主要なアイデアは、シーンの基礎となるジオメトリメッシュをチャートのアトラスとしてモデル化し、2Dガウスサーフェル(MAtChaガウス)でレンダリングすることです。MAtChaは、市販の単眼深度推定器から高周波シーン表面の詳細を抽出し、ガウスサーフェルのレンダリングを通じて洗練させます。ガウスサーフェルは、チャートに動的に取り付けられ、ニューラルボリューメトリックレンダリングの写実性とメッシュモデルの鮮明なジオメトリを満たし、一つのモデルで二つの矛盾する目標を実現します。MAtChaの中心には、新しいニューラル変形モデルと、学習された単眼深度から抽出された微細な表面詳細を保持し、その基本的なスケールの曖昧さに対処する構造損失があります。幅広い実験的検証の結果、MAtChaは、トップ競合他と同等の表面再構築の最先端の品質と写実性を実現しますが、入力ビュー数と計算時間を劇的に削減します。MAtChaは、写実性に加えて明示的なジオメトリを必要とするビジョン、グラフィック、およびロボティクスの任意の視覚アプリケーションにとって基礎となるツールとして機能すると信じています。プロジェクトページは以下の通りです:https://anttwo.github.io/matcha/
LLMを用いた言い換えによって埋め込まれた知覚できないマルチビットテキストウォーターマークを提案します。我々は、異なる振る舞いをするように設計されたLLMの言い換えモデルのペアをファインチューニングし、その言い換えの違いがテキストの意味論に反映され、訓練されたデコーダーによって特定できるようにします。マルチビットウォーターマークを埋め込むために、文レベルで事前定義されたバイナリコードを符号化するために、2つの言い換えモデルを交互に使用します。その後、テキスト分類器をデコーダーとして使用して、ウォーターマークの各ビットをデコードします。幅広い実験により、小規模(1.1B)のテキスト言い換えモデルを使用しながら、我々のウォーターマークが元の文の意味情報を保持しつつ、99.99\%以上の検出AUCを達成できることを示します。さらに、単語の置換や文の言い換えの摂動に対して頑健であり、分布外データにも適応性が高いことを示します。また、LLMに基づく評価によって、我々のウォーターマークの潜在性を示します。コードはオープンソースで公開しています: https://github.com/xiaojunxu/multi-bit-text-watermark.
モデルの統合は、専門家モデルを組み合わせる際に大きな可能性を示していますが、多くのタスクでトレーニングされた「汎用」モデルを統合する際の利点は不明です。我々は、大規模な(約100Bの)モデルの文脈で統合を探求し、さまざまなタスク間でトレードオフを示すチェックポイントを再利用します。このようなチェックポイントは、フロンティアモデルの開発過程で作成されることが多く、多くのサブ最適なものは通常破棄されます。異なるトレーニングラン(例:異なる段階、目標、ハイパーパラメータ、データの組み合わせ)から得られたモデルのチェックポイントのプールが与えられた場合、これらは通常、異なる言語能力(例:命令の従うこと vs. コード生成)にわたるトレードオフを自然に示します。我々は、このようなサブ最適なモデルをペアレト最適なモデルに再利用できるかどうかを調査します。最適化アルゴリズムは、各チェックポイントの重みを線形結合で調整し、個々のモデルや統合ベースラインを上回るペアレト最適なモデルを生み出します。さらなる分析では、良い統合は、非ゼロの重みを持つほとんどすべてのチェックポイントを含む傾向があり、見かけ上悪い初期チェックポイントでも良い最終的な統合に貢献できることを示しています。
Turbo3Dは、1秒未満で高品質なガウススプラッティングアセットを生成できる超高速のテキストから3Dシステムです。Turbo3Dは、急速な4段階4ビュー拡散ジェネレーターと効率的なフィードフォワードガウス再構築器を、いずれも潜在空間で動作させています。4段階4ビュージェネレーターは、新しいデュアルティーチャーアプローチを通じて蒸留されたスチューデントモデルであり、このアプローチにより、マルチビューティーチャーからのビューの一貫性とシングルビューティーチャーからの写実性を学ぶように促します。ガウス再構築器の入力をピクセル空間から潜在空間にシフトすることで、余分な画像デコード時間を排除し、最大効率を実現するためにトランスフォーマーシーケンスの長さを半分にします。当社の手法は、以前のベースラインと比較して優れた3D生成結果を示し、それらのランタイムの一部で動作します。