翻訳付きの日次キュレーションされたAI研究論文
推論ベースの大規模言語モデル(LLM)は数学やプログラミングにおいて優れた性能を発揮してきたが、知識集約型の医療質問応答における能力はまだ十分に検証されていない。この課題に対処するため、我々は最大規模の医療推論データセットであるReasonMedを導入した。これは、様々なLLMによって生成された170万件の初期推論パスから精選された37万件の高品質な例で構成されている。ReasonMedは、マルチエージェントによる検証と精緻化プロセスを通じて構築されており、エラーリファイナーを設計して、検証者がフラグを立てたエラーが発生しやすいステップを特定し、修正することで推論パスを強化している。ReasonMedを活用し、医療推論モデルのトレーニングにおけるベストプラクティスを体系的に調査した結果、詳細なChain-of-Thought(CoT)推論と簡潔な回答要約を組み合わせることが最も効果的なファインチューニング戦略であることがわかった。この戦略に基づいて、我々はReasonMed-7Bをトレーニングし、10B未満のモデルにおいて新たなベンチマークを確立した。これは、従来の最高性能を4.17%上回り、PubMedQAにおいてはLLaMA3.1-70Bを4.60%上回る結果を示した。
GitHubの課題解決タスク向けに大規模なデータセットを構築することは、大規模言語モデル(LLM)のソフトウェアエンジニアリング能力を訓練・評価する上で極めて重要です。しかし、従来のベンチマーク作成プロセスは、特に評価環境の構築、テスト結果の採点、タスクインスタンスの検証といった段階において、非常に困難で労力を要するものでした。本論文では、これらの課題に対処するための自動化パイプラインであるSWE-Factoryを提案します。このパイプラインは、3つの主要な自動化コンポーネントを統合しています。まず、評価環境の構築を自動化するマルチエージェントシステムであるSWE-Builderを紹介します。このシステムは、4つの専門エージェントが協調的かつ反復的なループで動作し、環境メモリプールを活用して効率を向上させます。次に、カスタムパーサーを手動で作成する必要をなくす、標準化された終了コードベースの採点方法を導入します。最後に、信頼性の高い終了コード信号を用いて、fail2pass検証プロセスを自動化します。4つのプログラミング言語にわたる671の課題に対する実験では、本パイプラインが有効なタスクインスタンスを効果的に構築できることが示されました。例えば、GPT-4.1-miniを使用した場合、SWE-Builderは269の有効なインスタンスを1インスタンスあたり0.045のコストで構築し、Gemini-2.5-flashでは最低コストの1インスタンスあたり0.024で同等の性能を達成しました。また、終了コードベースの採点は手動検査と比較して100%の精度を達成し、自動化されたfail2pass検証は精度0.92、再現率1.00に到達しました。本自動化パイプラインが、訓練と評価のための大規模で高品質なGitHub課題解決データセットの収集を加速することを期待しています。コードとデータセットはhttps://github.com/DeepSoftwareAnalytics/swe-factoryで公開されています。
画像復元は、劣化した画像を復元することを目的としている。しかし、既存の拡散モデルに基づく復元手法は、自然画像の復元において大きな成功を収めているものの、劣化画像のテキスト領域を忠実に再構築するのに苦戦することが多い。これらの手法は、しばしばもっともらしいが誤ったテキストのようなパターンを生成する現象を、我々は「テキスト-画像幻覚」と呼んでいる。本論文では、視覚的内容とテキストの忠実度を同時に復元することを要求する新しい復元タスクであるText-Aware Image Restoration (TAIR)を提案する。このタスクに対処するため、多様で複雑なテキストインスタンスが密に注釈付けされた10万枚の高品質なシーン画像からなる大規模ベンチマークSA-Textを提示する。さらに、拡散モデルからの内部特徴をテキストスポッティングモジュールに統合し、両コンポーネントが共同訓練から利益を得られるようにする多タスク拡散フレームワークTeReDiffを提案する。これにより、豊富なテキスト表現を抽出し、その後のノイズ除去ステップでプロンプトとして利用することが可能となる。広範な実験により、我々のアプローチが最先端の復元手法を一貫して上回り、テキスト認識精度において大幅な向上を達成することが実証された。プロジェクトページはこちら: https://cvlab-kaist.github.io/TAIR/
我々はVRBenchを提案する。これは、大規模モデルの多段階推論能力を評価するために設計された初の長編物語動画ベンチマークであり、時間的推論と手続き的妥当性を見落としている既存の評価の限界に対処するものである。VRBenchは1,010本の長編動画(平均再生時間1.6時間)と、9,468組の人手によるラベル付き多段階質問応答ペア、30,292のタイムスタンプ付き推論ステップで構成されている。これらの動画は、プロットの一貫性を優先するため、専門家による相互評価を含む多段階フィルタリングプロセスを経て厳選されている。我々は、時間的に根拠のある複数のステップを必要とする一貫した推論連鎖を生成する人間-AI協調フレームワークを開発し、7つのタイプ(例:イベント帰属、暗黙的推論)にまたがる推論を可能にした。VRBenchは、結果レベルとプロセスレベルの両方でモデルを評価する多段階評価パイプラインを設計している。最終結果のための多肢選択問題(MCQ)に加えて、推論連鎖の質を多角的に包括的に評価するための進捗レベルLLMガイド型スコアリング指標を提案する。VRBenchを用いて12のLLMと16のVLMを広範に評価し、徹底的な分析を行い、多段階推論の分野を前進させる貴重な知見を提供する。
ビデオ生成モデルの急速な進展にもかかわらず、複数のシーンやキャラクターにまたがる一貫したストーリーテリングビデオの生成は依然として困難である。現在の手法では、事前に生成されたキーフレームを固定長のクリップに変換することが多く、これにより断片的なナラティブやペーシングの問題が生じる。さらに、ビデオ生成モデルの内在的な不安定性により、単一の低品質なクリップが出力アニメーション全体の論理的一貫性や視覚的連続性を著しく損なう可能性がある。これらの課題を克服するため、我々はAniMakerを提案する。これは、テキスト入力のみからグローバルに一貫したストーリー性のあるアニメーションを生成するために、効率的なマルチ候補クリップ生成とストーリーを意識したクリップ選択を可能にするマルチエージェントフレームワークである。このフレームワークは、ストーリーボード生成を担当するディレクターエージェント、ビデオクリップ生成を担当するフォトグラフィーエージェント、評価を担当するレビュアーエージェント、編集とボイスオーバーを担当するポストプロダクションエージェントといった専門エージェントを中心に構成されている。AniMakerのアプローチの中核となるのは、フォトグラフィーエージェント内のMCTS-Genと、レビュアーエージェント内のAniEvalという2つの主要な技術的要素である。MCTS-Genは、モンテカルロ木探索(MCTS)にインスパイアされた効率的な戦略であり、リソース使用を最適化しながら高ポテンシャルなクリップを生成するために候補空間をインテリジェントにナビゲートする。AniEvalは、マルチショットアニメーション評価に特化した初のフレームワークであり、各クリップをその前後のクリップの文脈で考慮することで、ストーリーレベルの一貫性、アクションの完了度、アニメーション固有の特徴といった重要な側面を評価する。実験結果は、AniMakerがVBenchや我々が提案するAniEvalフレームワークなどの一般的な指標で測定される品質において優れていることを示し、マルチ候補生成の効率を大幅に向上させ、AI生成のストーリーテリングアニメーションをプロダクション基準に近づけることを実証している。
私たちは、Mistral初の推論モデルであるMagistralと、独自のスケーラブルな強化学習(RL)パイプラインを紹介します。既存の実装や先行モデルから蒸留されたRLトレースに依存するのではなく、独自のモデルとインフラストラクチャのみに基づいた一からのアプローチを採用しています。特に、純粋なRLトレーニングによるLLMの限界を探ることを可能にしたスタックを実証し、モデルの推論言語を強制するシンプルな方法を提示し、テキストデータのみでのRLが初期チェックポイントの能力の大部分を維持することを示します。テキストデータでのRLは、マルチモーダル理解、指示追従、関数呼び出しを維持または改善することがわかりました。私たちは、Mistral Medium 3の上にRLのみで推論のためにトレーニングされたMagistral Mediumを提示し、さらにMagistral Mediumからのコールドスタートデータを含むMagistral Small(Apache 2.0)をオープンソース化します。
離散音声トークンは、知覚品質、音声内容、および話者特性を保持しつつ、効率的な保存と推論、多様な下流タスクでの競争力のある性能を実現するためのコンパクトな表現である。これらは連続的特徴に対する実用的な代替手段を提供し、音声やオーディオを現代の大規模言語モデル(LLMs)に統合することを可能にする。トークンベースの音声処理への関心が高まる中、様々なトークン化手法が登場し、いくつかのサーベイがこの分野の最新の進展をレビューしている。しかし、既存の研究は特定のドメインやタスクに焦点を当てることが多く、様々なベンチマークにわたる統一的な比較が欠けている。本論文では、音声、音楽、一般オーディオの3つのドメインをカバーする離散音声トークナイザーの体系的レビューとベンチマークを提示する。我々は、エンコーダ-デコーダ、量子化技術、トレーニングパラダイム、ストリーミング性、および応用ドメインに基づいてトークン化アプローチの分類を提案する。我々は、再構成、下流性能、および音響言語モデリングのための複数のベンチマークでトークナイザーを評価し、制御されたアブレーション研究を通じてトレードオフを分析する。我々の調査結果は、主要な制約、実用的な考慮事項、および未解決の課題を強調し、この急速に進化する分野の将来の研究に対する洞察と指針を提供する。主要な結果やトークナイザーデータベースを含む詳細については、我々のウェブサイト(https://poonehmousavi.github.io/dates-website/)を参照されたい。
本論文では、任意のデータセットを複数のメタドメインの線形結合に分解する新規手法であるDomain2Vecを提案する。メタドメインは、データセットの主要な基盤的特徴を捉えるために設計された新しい概念である。Domain2Vecはメタドメインの語彙を保持し、分類器を用いて任意のデータセットをこの語彙上の分布に対応するドメインベクトルに分解する。これらのドメインベクトルにより、\textbf{分布整合性仮説}(DA^{2})の下で、言語モデル(LM)の事前学習に最適なデータ混合をトレーニング不要で特定することが可能となる。この仮説は、訓練セットと検証セットのデータ分布がより整合している場合、検証損失が低くなることを示唆している。さらに、Domain2Vecは既存の研究にシームレスに統合可能であり、ドメインベクトルとLM性能の関係をモデル化することで、既存手法の効率性と拡張性を大幅に向上させる。大規模な実験により、Domain2Vecが最小限の計算オーバーヘッドで下流タスクの性能を向上させるデータ混合を見つけるのに有効であることが示された。具体的には、Domain2VecはPile-CCにおいて、元のPileデータセットの混合でトレーニングする場合に必要な計算量のわずか51.5%で同じ検証損失を達成した。同等の計算予算下では、Domain2Vecは下流性能を平均2.83%向上させた。
近年、マルチモーダル大規模言語モデル(MLLM)に基づくエージェントが、さまざまな領域で顕著な進展を遂げている。しかし、Minecraftのようなオープンワールド環境において、知覚、計画、行動、接地、反省といった能力を備えた汎用エージェントを構築することは依然として課題が多い。具体的には、ドメイン固有のデータ不足、異種タスク間の干渉、オープンワールド設定における視覚的多様性などが挙げられる。本論文では、これらの課題に対処するため、以下の3つの主要な貢献を行う。1) エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するため、知識強化型データ生成パイプラインを提案する。2) 異種タスク間の干渉を軽減するため、タスクレベルルーティングを備えたMixture-of-Experts(MoE)アーキテクチャを導入する。3) Minecraftにおける視覚的多様性に対応するため、マルチモーダル推論強化型強化学習アプローチを開発し、エージェントの推論能力を向上させる。これらの革新を基盤として、Minecraft向けの汎用エージェントであるOptimus-3を提案する。広範な実験結果により、Optimus-3がMinecraft環境における多様なタスクにおいて、汎用マルチモーダル大規模言語モデルおよび既存の最先端エージェントを凌駕することが示された。プロジェクトページ: https://cybertronagent.github.io/Optimus-3.github.io/
美的なポスターの生成は、単純なデザイン画像よりもはるかに困難な課題です。正確なテキストレンダリングだけでなく、抽象的な芸術的コンテンツ、印象的なレイアウト、全体的なスタイルの調和をシームレスに統合する必要があります。この課題に対処するため、我々はPosterCraftを提案します。これは、従来のモジュール型パイプラインや固定された事前定義レイアウトを放棄し、モデルが一貫性のある視覚的に魅力的な構成を自由に探求できる統一フレームワークです。PosterCraftは、高品質なポスターの生成を最適化するために、慎重に設計されたカスケード型ワークフローを採用しています:(i) 新たに導入したText-Render-2Mデータセットでの大規模テキストレンダリング最適化、(ii) HQ-Poster100Kでの領域認識型教師ありファインチューニング、(iii) best-of-n選好最適化による美的テキスト強化学習、(iv) 視覚と言語の共同フィードバックによる精緻化。各段階は、その特定のニーズに合わせた完全自動化されたデータ構築パイプラインによってサポートされており、複雑なアーキテクチャ変更なしに堅牢なトレーニングを可能にします。複数の実験で評価された結果、PosterCraftは、レンダリング精度、レイアウトの一貫性、全体的な視覚的魅力において、オープンソースのベースラインを大幅に上回り、最先端の商用システムの品質に近づいています。我々のコード、モデル、データセットはプロジェクトページ(https://ephemeral182.github.io/PosterCraft)で公開されています。
言語モデルにおいて、その基盤となる表現を活用して強力な推論能力をいかに費用対効果高く引き出すことができるか?この問いに答えるため、我々はResaという1.5Bの推論モデルファミリーを開発した。これは、新規で効率的なスパースオートエンコーダチューニング(SAE-Tuning)手法を用いて訓練されたものである。この手法では、まずソースモデルから推論能力を抽出するためにSAEを訓練し、その後、訓練済みのSAEを用いて標準的な教師ありファインチューニングプロセスをガイドし、検証済みの質問応答データのみを使用してターゲットモデルにその能力を引き出す。特に、特定のベースモデルに適用し、さらなるRLポストトレーニングを行う前にSAE-Tuningを適用すると、RLトレーニング済みモデルの推論性能の97%以上を維持しつつ、トレーニングコストを2000倍以上削減して約1ドルに、トレーニング時間を450倍以上短縮して約20分に抑えることができる。さらに、軽度にRLトレーニングされたモデル(例えば、2GPUで1時間以内)に適用すると、追加コスト約1ドルで、AIME24で43.33%のPass@1、AMC23で90%のPass@1といった推論性能を実現する。驚くべきことに、SAEを介して抽出された推論能力は、一般化可能かつモジュール化されている可能性がある。一般化とは、あるデータセットから抽出された能力が、より大きく重複するコーパスにおいても性能を向上させることを意味する。モジュール化とは、QwenやQwen-Mathから抽出された能力を、テスト時にR1-Distillモデルに追加し、再トレーニングなしで同等の性能向上をもたらすことを意味する。広範なアブレーション研究によりこれらの知見が検証され、全ての成果物は完全にオープンソース化されている。
我々は、画像、テキスト、音声、動画を処理可能な統一マルチモーダルモデルであるMing-Omniを提案します。Ming-Omniは、音声と画像生成の両方において高い能力を発揮します。Ming-Omniは、異なるモダリティからトークンを抽出する専用エンコーダを採用し、新たに提案されたモダリティ固有のルーターを備えたMoEアーキテクチャであるLingによって処理されます。この設計により、単一のモデルが統一されたフレームワーク内で効率的にマルチモーダル入力を処理・融合し、個別のモデル、タスク固有のファインチューニング、または構造的再設計を必要とせずに多様なタスクを可能にします。重要なことに、Ming-Omniは従来のマルチモーダルモデルを超え、音声と画像生成をサポートします。これは、自然な音声を生成する高度な音声デコーダと高品質な画像生成を可能にするMing-Lite-Uniの統合によって実現され、コンテキストを意識したチャット、テキストから音声への変換、多様な画像編集を実行できます。我々の実験結果は、Ming-Omniが全てのモダリティにわたる統一的な知覚と生成のための強力なソリューションを提供することを示しています。特に、提案するMing-Omniは、我々が知る限りGPT-4oのモダリティサポートに匹敵する最初のオープンソースモデルであり、コミュニティにおけるさらなる研究開発を促進するために全てのコードとモデル重みを公開します。
大規模言語モデル(LLM)エージェントは、現実世界のデータサイエンス問題に対処する上で大きな可能性を示しています。LLM駆動のデータサイエンスエージェントは、機械学習パイプライン全体を自動化することを約束しますが、その現実世界での有効性はまだ限られています。既存のフレームワークは、硬直した事前定義されたワークフローと柔軟性のないコーディング戦略に依存しているため、比較的単純で古典的な問題では優れた性能を発揮するものの、複雑で革新的なタスクにおいて人間の実践者が持つ経験的専門知識を捉えることができません。本研究では、AutoMindを紹介します。これは、以下の3つの主要な進歩を通じてこれらの欠点を克服する適応的で知識豊富なLLMエージェントフレームワークです:(1)エージェントをドメイン専門知識に基づかせるための精選された専門知識ベース、(2)可能な解決策を戦略的に探索するエージェント的知識木探索アルゴリズム、(3)タスクの複雑さに応じて動的にコード生成を調整する自己適応型コーディング戦略。2つの自動化データサイエンスベンチマークでの評価により、AutoMindが最先端のベースラインに対して優れた性能を発揮することが示されました。追加の分析により、有効性、効率性、および質的解決策の品質が良好であることが確認され、AutoMindが完全自動化されたデータサイエンスに向けた効率的で堅牢な一歩であることが強調されています。
長尺動画理解(LVU)は、その本質的な複雑さとコンテキストウィンドウの制約により、現在のマルチモーダル大規模言語モデル(MLLM)にとって重要な課題となっています。一般的に、LVUタスクに対処するためには、拡張されたコンテキストウィンドウ、強力な視覚認識能力、および熟練したドメイン知識を備えた基盤MLLMが必要であると広く考えられています。本研究では、この通説に挑戦し、長尺動画理解のための新しいエージェント型フレームワークであるVideoDeepResearchを提案します。私たちのアプローチは、テキストのみの大規模推論モデル(LRM)と、マルチモーダル検索ツールや視覚認識ツールを含むモジュール型マルチモーダルツールキットに依存しており、これらは実際に容易に利用可能です。各LVUタスクに対して、システムは推論を通じて問題解決戦略を策定し、ツール使用を通じて必要な動画コンテンツを選択的にアクセスし活用します。MLVU、Video-MME、LVBenchなどの人気のあるLVUベンチマークで広範な実験を行いました。その結果、VideoDeepResearchは既存のMLLMベースラインを大幅に上回り、MLVU(テスト)、LVBench、LongVideoBenchにおいてそれぞれ9.6%、6.6%、3.9%の改善を達成し、従来の最先端を凌駕しました。これらの発見は、LVU問題の主要な課題を克服する上でエージェント型システムの可能性を強調しています。
グラフィックデザインは、商業的および個人的な文脈において重要な役割を果たしていますが、高品質で編集可能かつ美的に優れたグラフィックコンポジションを作成することは、特に初心者にとって時間がかかり、スキルを要する作業です。現在のAIツールはワークフローの一部を自動化していますが、ユーザーが提供したアセットを正確に組み込むこと、編集可能性を維持すること、プロフェッショナルな視覚的アピールを実現することには苦戦しています。Canva Magic Designのような商用システムは、膨大なテンプレートライブラリに依存しており、再現するには非現実的です。本論文では、オプションの自然言語指示またはアセットから編集可能な多層コンポジションを生成するフレームワークであるCreatiPosterを紹介します。プロトコルモデルであるRGBA大規模マルチモーダルモデルは、各レイヤー(テキストまたはアセット)の正確なレイアウト、階層、内容、スタイル、および簡潔な背景プロンプトを詳細に記述したJSON仕様を最初に生成します。その後、条件付き背景モデルが、このレンダリングされた前景レイヤーに基づいて一貫性のある背景を合成します。グラフィックデザイン生成のための自動化されたメトリクスを用いたベンチマークを構築し、CreatiPosterが主要なオープンソースアプローチおよびプロプライエタリな商用システムを凌駕することを示します。さらなる研究を促進するために、10万件の多層デザインからなる著作権フリーのコーパスを公開します。CreatiPosterは、キャンバス編集、テキストオーバーレイ、レスポンシブリサイズ、多言語適応、アニメーションポスターなど、多様なアプリケーションをサポートし、AI支援グラフィックデザインの民主化を推進します。プロジェクトホームページ: https://github.com/graphic-design-ai/creatiposter
大規模言語モデル(LLM)は、自動化された有害コンテンツ検出タスクにますます応用されており、モデレーターがポリシー違反を特定し、コンテンツ審査の全体的な効率と精度を向上させるのに役立っています。しかし、有害コンテンツ検出のための既存のリソースは主に英語に焦点を当てており、中国語のデータセットは依然として少なく、しばしば範囲が限られています。本論文では、中国語コンテンツの有害性検出のための包括的で専門的にアノテーションされたベンチマークを提示します。このベンチマークは6つの代表的なカテゴリをカバーし、完全に実世界のデータから構築されています。また、アノテーションプロセスを通じて、中国語の有害コンテンツ検出においてLLMを支援するための明示的な専門知識を提供する知識ルールベースが得られました。さらに、人間がアノテーションした知識ルールと大規模言語モデルの暗黙的知識を統合した知識拡張ベースラインを提案し、より小さなモデルが最先端のLLMに匹敵する性能を達成できるようにしました。コードとデータはhttps://github.com/zjunlp/ChineseHarm-benchで公開されています。
大規模言語モデル(LLMs)およびマルチモーダル対応モデルの最近の進展は、ウェブ環境内で自律的にナビゲートしタスクを完了するAIシステムであるウェブエージェントの開発に大きな関心を呼び起こしている。複雑なウェブインタラクションの自動化において非常に有望である一方で、現在のアプローチは、人間向けに設計されたインターフェースとLLMの能力との根本的なミスマッチにより、大きな課題に直面している。現在の手法は、大規模なDOMツリーの処理、追加情報を付加したスクリーンショットへの依存、あるいはAPIインタラクションを通じてユーザーインターフェースを完全に回避するといった、ウェブ入力の本質的な複雑さに対処するのに苦戦している。本ポジションペーパーは、ウェブエージェント研究におけるパラダイムシフトを提唱する:人間向けに設計されたインターフェースにウェブエージェントを適応させるのではなく、エージェントの能力に最適化された新しいインタラクションパラダイムを開発すべきである。この目的のために、エージェントがウェブサイトをナビゲートするために特別に設計されたインターフェースである「エージェンティック・ウェブ・インターフェース(AWI)」の概念を導入する。我々は、安全性、効率性、標準化を重視したAWI設計のための6つの指針を確立し、すべての主要なステークホルダーの利益を考慮する。この再構築は、既存のインターフェースの根本的な限界を克服し、より効率的で信頼性が高く透明性のあるウェブエージェント設計への道を開くことを目指しており、これは広範なMLコミュニティが協力して取り組むべき課題である。
近年、画像理解と生成を統合するマルチモーダル基盤モデルの進展により、単一フレームワーク内で幅広い視覚言語タスクに取り組むための新たな可能性が開かれている。しかし、既存の統合モデルは通常、大規模な事前学習を必要とし、各タスク専用のモデルと同等の性能を達成するのに苦労している。さらに、これらのモデルの多くは画像生成速度が遅く、リアルタイムやリソースが制限された環境での実用的な展開が制限されている。本研究では、画像理解と生成を単一のマルチモーダルモデル内で統合する、新規で効率的なアーキテクチャであるLayerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow)を提案する。LaTtE-Flowは、強力な事前学習済み視覚言語モデル(VLM)を基盤として、強力なマルチモーダル理解能力を継承し、効率的な画像生成のための新規のLayerwise Timestep Expertsフローベースアーキテクチャを拡張する。LaTtE-Flowは、フローマッチングプロセスをTransformer層の専門グループに分散させ、各グループが異なるタイムステップのサブセットを担当する。この設計により、各サンプリングタイムステップでごく一部の層のみを活性化することで、サンプリング効率が大幅に向上する。さらに、層間での効率的な情報再利用のためのTimestep-Conditioned Residual Attentionメカニズムを提案し、性能をさらに向上させる。実験結果は、LaTtE-Flowがマルチモーダル理解タスクで強力な性能を達成し、最近の統合マルチモーダルモデルと比較して約6倍の高速な推論速度で競争力のある画像生成品質を実現することを示している。
ファインチューニング(FT)が大規模化に伴い実用的でなくなってきている中、自己教師あり学習(SSL)の評価プロトコルとしてプロービングが注目を集めている。しかし、標準的な線形プロービング(LP)は、パッチトークンの分散的な性質により、Masked Image Modeling(MIM)で訓練されたモデルの潜在能力を十分に反映できない。これにより、パッチレベルの特徴を選択的に集約するためにアテンションを使用する代替手法であるアテンションプロービングの必要性が高まっている。しかし、その採用が増えているにもかかわらず、アテンションプロービングは未だに十分に研究されておらず、既存の手法は過剰なパラメータ化と計算効率の低さに悩まされている。 本研究では、精度と効率のトレードオフという観点からアテンションプロービングを再検討する。既存の手法のメカニズムを分析し、その性能をベンチマークする体系的な研究を行った。我々は、冗長な射影を排除し、訓練可能なパラメータの数を削減し、従来のマルチヘッドアテンションに比べて最大10倍の高速化を実現するマルチクエリクロスアテンションメカニズムである効率的プロービング(EP)を提案する。そのシンプルさにもかかわらず、EPはLPおよび従来のアテンションプロービング手法を7つのベンチマークで上回り、MIMを超えて多様な事前学習パラダイムにうまく一般化し、解釈可能なアテンションマップを生成し、低ショットおよびレイヤーワイズ設定において強い改善を示す。コードはhttps://github.com/billpsomas/efficient-probingで公開されている。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の強化において重要な技術となり、検証エンジニアリングがその中心的な役割を果たしています。しかし、指示追従における強化学習のベストプラクティスはまだ十分に探究されていません。本研究では、指示追従のための強化学習における検証の課題を探り、ルールベースのコード検証と大規模推論モデル(例:QwQ-32B)に基づくLLM検証を組み合わせた検証手法VerIFを提案します。このアプローチを支援するため、約22,000のインスタンスと関連する検証信号を含む高品質な指示追従データセットVerInstructを構築しました。VerIFを用いた強化学習を2つのモデルに適用し、いくつかの代表的な指示追従ベンチマークで大幅な改善を達成しました。訓練されたモデルは、同規模のモデルの中で最先端の性能に到達し、未見の制約に対しても良好な汎化性能を示しました。さらに、モデルの一般的な能力が影響を受けないことも観察され、VerIFを用いた強化学習を既存の強化学習レシピに統合して全体的なモデル性能を向上させることが可能であることが示唆されます。今後の研究を促進するため、データセット、コード、およびモデルをhttps://github.com/THU-KEG/VerIFで公開しました。
Shojaeeら(2025)は、大規模推論モデル(LRMs)が特定の複雑性閾値を超えた計画パズルにおいて「精度崩壊」を示すと報告している。我々は、彼らの知見が主に実験設計の限界を反映しており、根本的な推論の失敗ではないことを示す。我々の分析から、以下の3つの重要な問題が明らかになった:(1) ハノイの塔の実験では、報告された失敗点においてモデルの出力トークン制限を体系的に超えており、モデルはこれらの制約を出力において明示的に認識している;(2) 著者らの自動評価フレームワークは、推論の失敗と実用的な制約を区別できず、モデルの能力を誤分類している;(3) 最も懸念されるのは、彼らの川渡りベンチマークにおいて、N > 5の場合にボートの容量不足により数学的に不可能なインスタンスが含まれているにもかかわらず、モデルはこれらの解決不能な問題を解けないことに対して失敗と評価されている。これらの実験的アーティファクトを制御するために、網羅的な移動リストではなく生成関数を要求した場合、複数のモデルにおける予備実験では、以前に完全な失敗と報告されたハノイの塔のインスタンスにおいて高い精度が示された。これらの知見は、AIの推論能力を評価する際に慎重な実験設計が重要であることを強調している。
Eコマースやデジタルマーケティングにおいて、高精細な人間と製品のデモンストレーションビデオを生成することは、効果的な製品プレゼンテーションにとって重要です。しかし、既存のフレームワークの多くは、人間と製品の両方のアイデンティティを保持できないか、あるいは人間と製品の空間的関係を理解できず、非現実的な表現や不自然なインタラクションを引き起こしています。これらの課題に対処するため、我々はDiffusion Transformer(DiT)ベースのフレームワークを提案します。本手法では、ペアとなった人間と製品の参照情報を注入し、追加のマスク付きクロスアテンションメカニズムを利用することで、人間のアイデンティティと製品固有の詳細(ロゴやテクスチャなど)を同時に保持します。また、3Dボディメッシュテンプレートと製品のバウンディングボックスを使用して正確なモーションガイダンスを提供し、手のジェスチャーと製品の配置を直感的に整列させます。さらに、構造化されたテキストエンコーディングを用いてカテゴリレベルのセマンティクスを組み込み、フレーム間の小さな回転変化における3D一貫性を向上させます。広範なデータ拡張戦略を適用したハイブリッドデータセットで学習された本手法は、人間と製品のアイデンティティの完全性を維持し、現実的なデモンストレーションモーションを生成する点で、最先端の技術を凌駕します。プロジェクトページ:https://submit2025-dream.github.io/DreamActor-H1/。
点群データのスケール多様性は、3D視覚のための統一的な表現学習技術の開発において重要な課題を提示しています。現在、統一的な3Dモデルはほとんど存在せず、オブジェクトレベルとシーンレベルの点群の両方に等しく有効な事前学習手法は存在しません。本論文では、あらゆるスケールの点群とあらゆるアーキテクチャの3Dモデルにシームレスに適用可能な、初めての統一的な事前学習手法であるUniPre3Dを紹介します。私たちのアプローチでは、事前学習タスクとしてガウシアンプリミティブを予測し、微分可能なガウシアンスプラッティングを用いて画像をレンダリングすることで、ピクセルレベルの正確な監視とエンドツーエンドの最適化を実現しています。さらに、事前学習タスクの複雑さを調整し、モデルの焦点を幾何学的構造に向けるために、事前学習済みの画像モデルから2D特徴を統合し、確立されたテクスチャ知識を取り入れています。私たちは、様々なオブジェクトレベルおよびシーンレベルのタスクにおいて、多様な点群モデルをバックボーンとして使用し、提案手法の普遍的な有効性を広範な実験を通じて検証しています。コードはhttps://github.com/wangzy22/UniPre3Dで公開されています。
大規模言語モデル(LLMs)およびAIシステムの最近の進展により、複雑なAIワークフローの設計と最適化においてパラダイムシフトが生じている。複数のコンポーネントを統合することにより、複合AIシステムは高度なタスクを遂行する能力をますます向上させている。しかし、これらのシステムが複雑化するにつれて、個々のコンポーネントだけでなく、それらの相互作用を最適化する新たな課題が浮上している。従来の最適化手法である教師ありファインチューニング(SFT)や強化学習(RL)が依然として基盤をなす一方で、自然言語フィードバックの台頭は、特に非微分可能なシステムの最適化において有望な新たなアプローチを提供している。本論文では、数値的および言語ベースの技術を含む、複合AIシステムの最適化に関する最近の進展を体系的にレビューする。複合AIシステム最適化の概念を形式化し、既存の手法をいくつかの主要な次元に沿って分類し、この急速に進化する分野における未解決の研究課題と今後の方向性を強調する。調査対象の論文リストはhttps://github.com/MiuLab/AISysOpt-Surveyで公開されている。
大規模言語モデルは自然言語処理を変革してきたが、教師ありファインチューニング(SFT)は依然として計算コストが高い。本論文では、理想的な仮定(無限の計算資源とファインチューニングデータセットへのアクセスを含む)の下で、SFTを通じて獲得された能力が、モデルパラメータを変更することなく、推論時技術、特にインコンテキスト学習(ICL)を用いてベーストランスフォーマーモデルによって近似可能であることを正式に証明する。これらの結果を、有限のコンテキスト長と部分的なデータセットアクセスという実用的なシナリオに拡張する。固定出力長lのテキスト生成タスクにおいて、サイズOleft( m V{varepsilon^2} log m{delta} right)または、有界コンテキストの場合Oleft( l log V{varepsilon^2} log 1{delta} right)のデータセットで、m個のコンテキストにわたって誤差varepsilon以内でファインチューニングされた振る舞いを近似できる。ここで、Vは語彙サイズ、deltaは失敗確率である。線形分類では、サイズOleft( d{varepsilon} right)または、固定コンテキストの場合Oleft( 1{varepsilon^2} log 1{delta} right)のデータセットで十分であり、dは入力次元である。トランスフォーマーのチューリング完全性に基づくこれらの結果は、大規模言語モデルのリソース効率的な展開の理論的基盤を提供し、検索拡張生成などの実用的な技術が理論を現実世界のアプリケーションに橋渡しする。
大規模言語モデル(LLM)がより人間らしい進化を遂げ、人間とAIのコミュニケーションが一般的になるにつれ、プロンプティングは決定的な要素として浮上してきた。しかし、自然言語プロンプトをどのように定量化するかについて、概念的な合意は限られている。この問題に対処するため、2022年から2025年にかけて主要なNLPおよびAI会議やブログから150以上のプロンプティング関連論文を調査するメタ分析を行った。我々は、プロンプトの品質を評価するためのプロパティ中心かつ人間中心のフレームワークを提案し、6つの次元に分類された21のプロパティを包含する。次に、既存の研究がこれらのプロパティがLLMに与える影響をどのように評価しているかを検証し、モデルやタスク間での不均衡なサポートと、大きな研究ギャップを明らかにした。さらに、高品質な自然言語プロンプトにおけるプロパティ間の相関関係を分析し、プロンプティングの推奨事項を導出した。その後、推論タスクにおける複数プロパティのプロンプト強化を実証的に探り、単一プロパティの強化が最も大きな影響を与えることが多いことを観察した。最後に、プロパティ強化されたプロンプトでの指示チューニングが、より優れた推論モデルを生み出す可能性があることを発見した。我々の知見は、プロパティ中心のプロンプト評価と最適化の基盤を確立し、人間とAIのコミュニケーションのギャップを埋め、新たなプロンプティング研究の方向性を開くものである。
人工知能の通信分野における採用が増加する中、大規模言語モデル(LLMs)がドメイン固有の数学的タスクに対処する能力に対する関心が高まっている。近年の進歩により、LLMsの一般的な数学的推論能力は向上しているものの、信号処理、ネットワーク最適化、性能解析などの専門領域における有効性はほとんど検証されていない。このギャップを埋めるため、我々はTeleMathを導入する。これは、通信分野における数値解法を伴う数学的問題を解決するためのLLMの性能を評価するために特別に設計された最初のベンチマークデータセットである。500の質問-回答(QnA)ペアから構成されるTeleMathは、通信分野の幅広いトピックをカバーしている。本論文では、専門家によって作成された問題の種を基にしたQnA生成パイプラインを提案する。オープンソースのLLMsの広範な評価により、TeleMathで最高の性能を発揮するのは、数学的または論理的推論に特化して設計された最新のモデルであることが明らかになった。一方で、汎用モデル、特にパラメータ数が多いモデルでも、これらの課題に対処するのに苦戦することが多い。結果の再現性を容易にし、将来の研究を支援するため、データセットと評価コードを公開した。
大規模言語モデル(LLM)のアンラーニングは、モデル内の望ましくない知識を消去または抑制することを目的としており、有害な情報やプライベートな情報の誤用を防ぐための制御手段として期待されています。しかし、最近の研究では、現実世界のシナリオにおけるその有効性が限定的であり、実用化が妨げられていることが指摘されています。本研究では、多くの下流タスクの失敗の根底にある普遍的な問題を特定しました。既存のアンラーニング手法の有効性は、訓練サンプルの形式に大きく依存し、同じ知識の異なる表現に一般化できないことが頻繁に起こります。この問題を「形式依存バイアス(Form-Dependent Bias)」として正式に定義し、さまざまな下流タスクにおけるその具体的な現れ方を体系的に調査しました。このバイアスの普及度を定量化し、将来の研究を支援するために、知識表現のバリエーションに対するアンラーニング手法の堅牢性を評価する新しいベンチマーク「ORT」を導入しました。結果は、形式依存バイアスが現在の手法において広範かつ深刻であることを明らかにしています。 我々は、現実世界のセキュリティクリティカルなシナリオで遭遇する無数の下流タスクに対応するため、LLMのアンラーニングは形式に依存しないべきであると主張します。この目標に向けて、訓練不要の新しい手法「Rank-one Concept Redirection(ROCR)」を提案し、有望な解決策として提示します。ROCRは、下流タスクにおける不変量、特に活性化された危険な概念をターゲットとしてアンラーニングを実行します。特定のアンラーニング対象概念のモデルの認識を無害な別の概念にリダイレクトするために、数秒以内にモデルパラメータを修正することが可能です。大規模な実験により、ROCRが従来の手法と比較してアンラーニングの有効性を大幅に向上させながら、非常に自然な出力を生成することが実証されています。
最近の拡散モデルにおけるガイダンス手法では、モデルを摂動させることで暗黙の弱いモデルを構築し、そこから生成を逸脱させることで逆サンプリングを誘導しています。これらのアプローチの中でも、アテンション摂動は、クラス分類器不要のガイダンスが適用できない無条件のシナリオにおいて、強力な実証的性能を示しています。しかし、既存のアテンション摂動手法では、特に品質関連の計算が層全体に分散しているDiffusion Transformer(DiT)アーキテクチャにおいて、どこに摂動を適用すべきかを決定するための原理的なアプローチが欠けています。本論文では、層レベルから個々のアテンションヘッドに至るまでのアテンション摂動の粒度を調査し、特定のヘッドが構造、スタイル、テクスチャ品質などの異なる視覚概念を支配していることを発見しました。この知見に基づいて、ユーザ中心の目的に沿ったアテンションヘッドを反復的に選択する体系的なフレームワーク「HeadHunter」を提案し、生成品質と視覚属性に対するきめ細かい制御を可能にします。さらに、選択された各ヘッドのアテンションマップを単位行列に向かって線形補間する「SoftPAG」を導入し、摂動強度を連続的に調整してアーティファクトを抑制する手法を提供します。本手法は、既存の層レベル摂動の過剰平滑化問題を軽減するだけでなく、構成論的なヘッド選択を通じて特定の視覚スタイルをターゲットに操作することを可能にします。Stable Diffusion 3やFLUX.1などの最新の大規模DiTベースのテキスト画像生成モデルにおいて本手法を検証し、一般的な品質向上とスタイル固有のガイダンスの両方で優れた性能を示します。本研究は、拡散モデルにおけるアテンション摂動の初めてのヘッドレベル分析を提供し、アテンション層内の解釈可能な専門化を明らかにするとともに、効果的な摂動戦略の実用的な設計を可能にします。
メカニズム的解釈可能性の中心的な目標は、大規模言語モデル(LLM)の出力を因果的に説明する適切な分析単位を特定することである。初期の研究は個々のニューロンに焦点を当てていたが、ニューロンがしばしば複数の概念を符号化するという証拠から、活性化空間における方向性の分析へとシフトが進んでいる。重要な課題は、教師なしの方法で解釈可能な特徴を捉える方向性を見つけることである。現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存しており、通常は残差ストリームの活性化を基に方向性をゼロから学習する。しかし、SAEは因果的評価においてしばしば困難を抱え、その学習がモデルの計算に明示的に結びついていないため、本質的な解釈可能性を欠いている。本研究では、これらの制約を克服するために、MLPの活性化を半非負値行列因子分解(SNMF)によって直接分解し、学習された特徴が(a)共活性化ニューロンのスパースな線形結合であり、(b)それらを活性化する入力にマッピングされるようにすることで、直接的に解釈可能な特徴を導出する。Llama 3.1、Gemma 2、GPT-2を用いた実験では、SNMFによって導出された特徴が、因果的ステアリングにおいてSAEおよび強力な教師ありベースライン(平均差)を上回り、人間が解釈可能な概念と整合することが示された。さらに、特定のニューロン組み合わせが意味的に関連する特徴間で再利用されていることが明らかになり、MLPの活性化空間における階層構造が明らかになった。これらの結果から、SNMFはLLMにおける解釈可能な特徴を特定し、概念表現を解剖するためのシンプルで効果的なツールとして位置づけられる。
大規模言語モデルのトレーニングは、一般的に、高帯域幅の相互接続を介して通信する数万のアクセラレータを含むクラスタ上での最適化手法によって行われます。これらのクラスタをスケールアップすることは高コストであり、実用的でなくなる可能性があり、トレーニング可能なモデルのサイズに制限を課します。最近のいくつかの研究では、高度に接続された計算クラスタを必要としない、通信量の少ないトレーニング手法が提案されています。これらの最先端の低通信トレーニング手法では、依然としてモデルパラメータの同期ステップが採用されていますが、すべてのモデルレプリカに対して行われる場合、低帯域幅ネットワーク上ではコストがかかることがあります。 本研究では、トレーニング中にすべてのモデルパラメータを明示的に同期せず、その結果、集団通信を一切必要としない新しい最適化手法、NoLoCoを提案します。NoLoCoは、Nesterovモメンタムオプティマイザの新しい変種を介して、ランダムに選択された他のモデルと部分的に平均化することで、モデルの重みを暗黙的に同期します。提案するオプティマイザの理論的な収束解析と、言語モデルトレーニングからの実証結果を提供します。 NoLoCoを、125Mから6.8Bパラメータまでの広範なアクセラレータ数とモデルサイズでベンチマークしました。我々の手法は、完全にシャード化されたデータ並列トレーニングや、広く使用されている低通信トレーニング手法であるDiLoCoよりも、大幅に少ない通信オーバーヘッドを必要とします。同期ステップ自体は、数百のアクセラレータがインターネット上でトレーニングする際にDiLoCoで使用されるall-reduceよりも一桁高速であると推定されます。また、アクセラレータのアイドル時間を削減するグローバルなブロッキング通信もありません。DiLoCoと比較して、広範なモデルサイズとアクセラレータ数において、最大4%の高速な収束率も観察されています。
科学分野の急速な進化は、科学文献の整理と検索における課題を引き起こしている。専門家によるキュレーションに基づく分類体系は従来このニーズに対応してきたが、そのプロセスは時間とコストを要する。さらに、最近の自動分類体系構築手法は、(1)特定のコーパスに過度に依存し汎用性を犠牲にするか、(2)大規模言語モデル(LLM)の事前学習データセットに含まれる一般的な知識に大きく依存し、進化する科学分野の動的な性質を見落とす傾向がある。加えて、これらのアプローチは、単一の研究論文が複数の次元(例えば、方法論、新たなタスク、評価指標、ベンチマーク)に貢献する可能性があるという科学文献の多面的な性質を考慮していない。これらのギャップを埋めるため、我々はTaxoAdaptを提案する。これは、LLMが生成した分類体系を特定のコーパスに合わせて多次元的に動的に適応させるフレームワークである。TaxoAdaptは、コーパスのトピック分布に基づいて分類体系の幅と深さを拡張する反復的な階層分類を実行する。我々は、その最新の性能を多様なコンピュータサイエンス会議のデータセットで実証し、科学分野の進化を構造化し捉える能力を示す。多次元的手法として、TaxoAdaptは、LLMによって評価された最も競争力のあるベースラインと比較して、26.51%より粒度を保持し、50.41%より一貫性のある分類体系を生成する。
個人や組織による主張は、しばしば微妙なニュアンスを含み、完全に「真」または「偽」と明確に分類することが難しい場合がある。これは、科学的および政治的な主張において特に顕著である。しかし、ある主張(例えば、「ワクチンAはワクチンBよりも優れている」)は、その構成要素や下位要素(例えば、有効性、安全性、流通性)に分解することが可能であり、それぞれの要素は個別に検証しやすい。これにより、特定の問題に対する包括的で構造化された応答を提供しつつ、読者がその主張の中でも特に興味のある側面(例えば、子供に対する安全性)を優先的に検討することが可能となる。そこで、我々はClaimSpectを提案する。これは、ある主張を扱う際に典型的に考慮される側面の階層を自動的に構築し、それらをコーパス固有の視点で補強する、検索拡張生成ベースのフレームワークである。この構造は、入力されたコーパスを階層的に分割し、関連するセグメントを検索することで、新たな下位側面の発見を支援する。さらに、これらのセグメントは、主張の特定の側面に対する多様な視点(例えば、支持、中立、反対)とそれらの普及度(例えば、「ワクチンAがBよりも輸送性が高いと考える生物医学論文はいくつあるか?」)を発見することを可能にする。我々は、構築したデータセットに含まれる多様な現実世界の科学的および政治的な主張に対してClaimSpectを適用し、微妙な主張を分解し、コーパス内の視点を表現する際のその堅牢性と正確性を実証する。現実世界のケーススタディと人間による評価を通じて、複数のベースラインに対するその有効性を検証する。
Classifier-Free Guidance (CFG) は、生成品質と入力条件との整合性を向上させるために、現代の拡散モデルにおいて不可欠な要素となっています。しかし、CFG は特定の訓練手順を必要とし、条件付き生成に限定されるという課題があります。これらの制約を解決するため、本研究では Token Perturbation Guidance (TPG) を提案します。TPG は、拡散ネットワーク内の中間トークン表現に直接摂動行列を適用する新しい手法です。TPG はノルム保存的なシャッフル操作を採用し、アーキテクチャ変更なしで生成品質を向上させる効果的かつ安定したガイダンス信号を提供します。その結果、TPG は訓練不要であり、入力条件に依存しないため、条件付き生成と無条件生成の両方に容易に適用可能です。さらに、TPG が提供するガイダンス項を分析し、そのサンプリングへの影響が既存の訓練不要ガイダンス手法と比較して CFG に近いことを示します。SDXL と Stable Diffusion 2.1 を用いた大規模な実験により、TPG は無条件生成において SDXL ベースラインに対して FID で約2倍の改善を達成し、プロンプト整合性においても CFG に匹敵する結果を示しました。これらの結果は、TPG が CFG のような利点をより広範な拡散モデルにもたらす、条件に依存しない汎用的なガイダンス手法であることを示しています。コードは https://github.com/TaatiTeam/Token-Perturbation-Guidance で公開されています。
長文脈大規模言語モデル(LLM)の推論を最適化することは、Transformerの二次計算量と線形メモリ複雑性のため、ますます重要になっている。既存の近似手法、例えばキー・バリュー(KV)キャッシュの削除、スパースアテンション、プロンプト圧縮などは、通常、トークンやKVペアの重要性を大まかに予測することに依存している。本研究では、小さなドラフトモデルを活用して、トークンやKVペアの重要性をより正確に予測する新しい近似LLM推論フレームワークを提案する。具体的には、提案フレームワークの2つの実装を紹介する:(i)SpecKVは、ドラフト出力を活用して各KVペアの重要性を正確に評価し、より効果的なKVキャッシュ削除を実現する。(ii)SpecPCは、ドラフトモデルのアテンション活性化を利用して、重要でないプロンプトトークンを特定し、破棄する。我々の知る限り、これはドラフトモデルを近似LLM推論加速に使用する初めての研究であり、従来のロスレス推測的デコーディングを超える有用性を拡張するものである。我々の手法は、理論的および経験的分析に基づいて動機付けられ、ドラフトモデルとターゲットモデルのアテンションパターン間に強い相関があることを示す。長文脈ベンチマークでの広範な実験により、我々の手法が既存のベースラインよりも一貫して高い精度を達成しつつ、メモリ使用量、レイテンシ、スループットの改善を維持することを示す。コードはhttps://github.com/furiosa-ai/draft-based-approx-llmで公開されている。
基盤モデルは、多様なタスクやデータセットにわたる汎用学習を可能にすることで、自然言語処理やコンピュータビジョンなどの分野に革命をもたらしました。しかし、人間の移動データのプライバシーに敏感な性質や、それに起因する機関間のデータサイロのため、移動データに対する同様のモデルの構築は依然として困難です。このギャップを埋めるため、我々はMoveGCLを提案します。MoveGCLは、生成的な継続学習を通じて移動基盤モデルを訓練するためのスケーラブルでプライバシー保護を重視したフレームワークです。MoveGCLは、生データを共有することなく、凍結された教師モデルから生成された合成軌跡を再生することで、分散的かつ漸進的なモデルの進化を可能にし、カタストロフィックフォゲッティングを軽減するための独自の蒸留戦略を通じて知識の保持を強化します。移動パターンの異質性に対処するため、MoveGCLは移動を意識したエキスパートルーティング機構を備えたMixture-of-Experts Transformerを組み込み、継続的な更新を安定化するための層ごとの漸進的適応戦略を採用しています。6つの実世界の都市データセットでの実験により、MoveGCLは共同訓練に匹敵する性能を達成し、連合学習のベースラインを大幅に上回りながら、強力なプライバシー保護を提供することが実証されました。MoveGCLは、移動データに対する基盤モデルの実現に向けた重要な一歩を記し、基盤モデルの時代におけるオープンでスケーラブル、かつプライバシー保護を重視したモデル開発の実践的な青写真を提供します。
物理的に現実的で正確にスケーリングされた3Dシミュレーションワールドの構築は、身体性を持つ知能タスクの訓練と評価において極めて重要である。3Dデータアセットの多様性、現実感、低コストでのアクセス性と手頃さは、身体性AIにおける汎用性とスケーラビリティを達成するために不可欠である。しかし、現在のほとんどの身体性知能タスクは、依然として手作業で作成および注釈付けされた従来の3Dコンピュータグラフィックスアセットに大きく依存しており、これらは高い制作コストと限られた現実感という問題を抱えている。これらの制約は、データ駆動型アプローチのスケーラビリティを著しく妨げている。本論文では、インタラクティブな3Dワールド生成のための基盤プラットフォームであるEmbodiedGenを紹介する。EmbodiedGenは、低コストで高品質で制御可能かつフォトリアルな3Dアセットを、正確な物理特性と実世界のスケールでUnified Robotics Description Format(URDF)に基づいて生成することを可能にする。これらのアセットは、さまざまな物理シミュレーションエンジンに直接インポートされ、細かな物理制御をサポートし、訓練と評価における下流タスクを支援する。EmbodiedGenは、使いやすく、フル機能を備えたツールキットであり、Image-to-3D、Text-to-3D、テクスチャ生成、関節オブジェクト生成、シーン生成、レイアウト生成の6つの主要モジュールで構成されている。EmbodiedGenは、生成AIを活用して、身体性知能関連研究のニーズに応じた汎用性と評価の課題に対処するために、生成的な3Dアセットで構成された多様でインタラクティブな3Dワールドを生成する。コードはhttps://horizonrobotics.github.io/robot_lab/embodied_gen/index.htmlで公開されている。
言語モデルの能力を忠実に評価することは、モデル開発に役立つ実践的な知見を得る上で極めて重要です。しかし、この領域における厳密な因果的評価は、複雑な交絡効果や大規模な再学習に伴う膨大な計算コストといった、重要な方法論的課題に直面しています。これらの課題に対処するため、我々は因果的表現学習フレームワークを提案します。このフレームワークでは、観測されたベンチマーク性能を、少数の潜在能力因子の線形変換としてモデル化します。重要な点として、これらの潜在因子は、基本モデルを共通の交絡因子として適切に制御した後、因果的に関連付けられているものとして特定されます。このアプローチをOpen LLM Leaderboardの6つのベンチマークで評価された1500以上のモデルを含む包括的なデータセットに適用した結果、観測された性能変動を確実に説明する簡潔な3ノードの線形因果構造を特定しました。この因果構造をさらに解釈することで、単なる数値的な順位付けを超えた重要な科学的知見が得られました。具体的には、一般的な問題解決能力から始まり、指示追従能力を経て、数学的推論能力に至る明確な因果的方向性が明らかになりました。我々の結果は、潜在的なモデル能力間の根底にある因果関係を正確に解明する上で、評価時に基本モデルの変動を慎重に制御することが不可欠であることを強く示唆しています。
図のキャプションは、読者が図の主要なメッセージを理解し記憶する上で重要な役割を果たします。多くのモデルがこれらのキャプションを生成するために開発され、著者がより高品質なキャプションを容易に作成するのを支援しています。しかし、著者はほぼ常に、AIが生成した一般的なキャプションを、自身の執筆スタイルや分野のスタイルに合わせて修正する必要があり、パーソナライゼーションの必要性が浮き彫りになっています。言語モデルのパーソナライゼーション(LaMP)の進展にもかかわらず、これらの技術はテキストのみの設定に焦点を当てることが多く、入力とプロファイルの両方がマルチモーダルであるシナリオに対応することは稀です。本論文では、マルチモーダルな図プロファイルを伴うパーソナライズされた図キャプション生成のためのデータセットであるLaMP-Capを紹介します。LaMP-Capでは、各ターゲット図に対して、必要な入力(図画像など)だけでなく、同じ文書から最大3つの他の図(それぞれに画像、キャプション、図に言及する段落を含む)をプロファイルとして提供し、文脈を特徴づけます。4つのLLMを用いた実験では、プロファイル情報を使用することで、一貫してオリジナルの著者作成キャプションに近いキャプションを生成できることが示されました。アブレーションスタディでは、プロファイル内の画像が図に言及する段落よりも有用であることが明らかになり、テキストのみのプロファイルよりもマルチモーダルなプロファイルを使用する利点が強調されました。
自動化された攻撃技術が急速に進化する中、CAPTCHAは悪意のあるボットに対する重要な防御メカニズムとしての役割を果たし続けている。しかし、既存のCAPTCHAスキームは、静的な歪んだテキストや難読化された画像から、インタラクティブなクリック、スライドパズル、論理ベースの質問まで、多様なモダリティを包含しているにもかかわらず、そのセキュリティの堅牢性を厳密に評価するための統一された大規模なマルチモーダルベンチマークがコミュニティにはまだ存在しない。このギャップを埋めるため、我々はMCA-Benchを導入する。これは、異種のCAPTCHAタイプを単一の評価プロトコルに統合した包括的かつ再現可能なベンチマークスイートである。共有された視覚言語モデルバックボーンを活用し、各CAPTCHAカテゴリに対して専門的なクラッキングエージェントをファインチューニングすることで、一貫したクロスモーダル評価を可能にする。大規模な実験により、MCA-Benchが現代のCAPTCHA設計の脆弱性スペクトルを様々な攻撃設定下で効果的にマッピングし、特に課題の複雑さ、インタラクションの深さ、モデルの解決可能性がどのように相互に関連するかについて初めて定量的な分析を提供することが明らかになった。これらの知見に基づき、我々は3つの実践可能な設計原則を提案し、主要な未解決の課題を特定し、体系的なCAPTCHAの強化、公平なベンチマーク、そしてより広範なコミュニティ協力の基盤を築く。データセットとコードはオンラインで公開されている。
未校正ビデオストリームからの動的3Dシーンのリアルタイム再構築は、多くの実世界の応用において極めて重要である。しかし、既存の手法は、以下の3つの主要な課題を同時に解決するのに苦戦している:1) 未校正の入力をリアルタイムで処理すること、2) 動的シーンの進化を正確にモデル化すること、3) 長期的な安定性と計算効率を維持すること。これに対処するため、我々はStreamSplatを提案する。これは、任意の長さの未校正ビデオストリームをオンラインで動的3Dガウススプラッティング(3DGS)表現に変換する初の完全フィードフォワードフレームワークであり、時間的に局所的な観察からシーンのダイナミクスを復元することが可能である。我々は、3DGS位置予測のための静的エンコーダにおける確率的サンプリングメカニズムと、動的デコーダにおける双方向変形フィールドという2つの主要な技術的革新を提案する。これにより、堅牢かつ効率的な動的モデル化が可能となる。静的および動的ベンチマークにおける広範な実験により、StreamSplatが再構築品質と動的シーンモデル化の両面で従来の手法を一貫して上回り、かつ任意の長さのビデオストリームのオンライン再構築を独自にサポートすることが実証された。コードとモデルはhttps://github.com/nickwzk/StreamSplatで公開されている。