翻訳付きの日次キュレーションされたAI研究論文
課題解決タスクとは、コードベースを修正して特定の課題に対処するパッチを生成することです。しかし、SWE-benchなどの既存のベンチマークはほぼPythonに限定されており、多様なソフトウェアエコシステムにおける大規模言語モデル(LLM)の評価には不十分です。これを解決するため、我々はJava、TypeScript、JavaScript、Go、Rust、C、C++をカバーする多言語課題解決ベンチマーク「Multi-SWE-bench」を導入しました。このベンチマークには、2,456の候補から68人の専門家アノテーターが慎重に選定した1,632の高品質なインスタンスが含まれており、正確で信頼性の高い評価を提供できるようになっています。Multi-SWE-benchに基づき、我々は最先端のモデルを3つの代表的な手法(Agentless、SWE-agent、OpenHands)を用いて評価し、重要な実証的知見を含む包括的な分析を提示します。さらに、課題解決タスクのための大規模な強化学習(RL)トレーニングデータセットを構築することを目的とした「Multi-SWE-RL」オープンソースコミュニティを立ち上げました。最初の貢献として、7つのプログラミング言語にまたがる4,723の整然としたインスタンスを公開し、この分野におけるRL研究の基盤を築きました。さらに重要なことに、我々はデータ生成パイプライン全体と詳細なチュートリアルをオープンソース化し、オープンソースコミュニティが継続的に貢献し、データセットを拡大することを奨励しています。我々は、Multi-SWE-benchと成長を続けるMulti-SWE-RLコミュニティが、RLの可能性を最大限に引き出し、AGIの夜明けに一歩近づくための触媒となることを期待しています。
数学的推論は人間の知性の基盤であり、大規模言語モデル(LLM)の高度な能力を測る重要な指標です。しかし、研究コミュニティはまだ、数学中心のLLM事前学習の要求に応えるためのオープンで大規模かつ高品質なコーパスを欠いています。本論文では、MegaMathを紹介します。これは、以下の手法を用いて多様な数学関連のソースからキュレーションされたオープンデータセットです。(1) Webデータの再検討: Common Crawlから数学文書を再抽出し、数学指向のHTML最適化、fasttextベースのフィルタリング、重複排除を行い、インターネット上の高品質なデータを取得しました。(2) 数学関連コードデータの再収集: 大規模なコードトレーニングコーパスであるStack-V2から高品質な数学関連コードを特定し、データの多様性をさらに高めました。(3) 合成データの探索: WebデータやコードデータからQA形式のテキスト、数学関連コード、テキストとコードが交互に現れるブロックを合成しました。これらの戦略を統合し、広範なアブレーションを通じてその有効性を検証することで、MegaMathは既存のオープンな数学事前学習データセットの中で最大量かつ最高品質の371Bトークンを提供します。
大規模言語モデル(LLMs)は、様々なエージェント計画タスクにおいて顕著な性能を発揮してきました。しかし、従来のエージェント計画アプローチは、「洪水灌漑」的な方法論を採用し、ゴールドトラジェクトリ、外部フィードバック、およびドメイン知識を無差別にエージェントモデルに注入しています。この手法は、意思決定における状況的自己認識という人間の基本的な認知原則を見落としています。状況的自己認識とは、状況の要求を動的に評価し、意思決定中に戦略的にリソースを活用する能力です。このギャップを埋めるために、我々はエージェントの知識的自己認識を提案します。これは、LLMベースのエージェントが知識の利用を自律的に調整することを可能にする新しいパラダイムです。具体的には、人間のように知識的自己認識を持つエージェントを適用するデータ中心のアプローチであるKnowSelfを提案します。具体的には、エージェントの自己探索トラジェクトリに特殊トークンをマークするためのヒューリスティックな状況判断基準を考案し、トレーニングデータを収集します。二段階のトレーニングプロセスを通じて、エージェントモデルは特定の特殊トークンを生成することで異なる状況間を切り替え、最小限のコストで最適な計画効果を達成します。我々の実験では、KnowSelfが外部知識を最小限に使用しながら、異なるタスクやモデルにおいて様々な強力なベースラインを上回ることを実証しています。コードはhttps://github.com/zjunlp/KnowSelfで公開されています。
本研究では、従来のフレームワークVARGPTを発展させた高度な統合型視覚自己回帰モデルVARGPT-v1.1を提案する。本モデルは、視覚理解のための次トークン予測と画像合成のための次スケール生成という二重のパラダイムを維持している。具体的には、VARGPT-v1.1は以下の要素を統合している:(1) 反復的視覚指示チューニングとDirect Preference Optimization (DPO) による強化学習を組み合わせた新たなトレーニング戦略、(2) 830万の視覚生成指示ペアを含む拡張トレーニングコーパス、(3) Qwen2を使用したアップグレードされた言語モデルバックボーン、(4) 強化された画像生成解像度、(5) アーキテクチャ変更なしで実現された新たな画像編集機能。これらの進化により、VARGPT-v1.1はマルチモーダル理解とテキストから画像への指示追従タスクにおいて最先端の性能を達成し、理解と生成の両方の指標で大幅な改善を示している。特に、視覚指示チューニングを通じて、モデルは前身モデルとのアーキテクチャ的一貫性を維持しつつ画像編集機能を獲得し、統合された視覚理解、生成、編集の可能性を明らかにしている。我々の研究結果は、適切に設計された統合型視覚自己回帰モデルが大規模言語モデル(LLM)からの柔軟なトレーニング戦略を効果的に採用し、有望なスケーラビリティを示すことを示唆している。コードベースとモデルウェイトはhttps://github.com/VARGPT-family/VARGPT-v1.1で公開されている。
Transformerは現代の大規模言語モデルの基盤となっていますが、その二次的な計算複雑性が長系列処理における効率性を制限しています。最近、線形複雑性を持つ状態空間モデル(SSM)であるMambaの進展により、効率性の向上が期待されていますが、不安定な文脈学習やマルチタスク汎化の問題を抱えています。本論文では、TransformerとMambaを共有パラメータ行列(例:QKVおよびCBx)を通じて統合し、異なるトークン長や層において動的に注意機構とSSM機構を切り替えることができる新しいフレームワーク、TransMambaを提案します。我々は、TransformerとMambaを橋渡しするために、注意出力をSSM互換の状態に変換するMemory converterを設計し、変換が行われるTransPointsにおいてシームレスな情報の流れを確保します。さらに、TransPointのスケジューリングについても詳細に検討し、さらなる改善を図ります。広範な実験を通じて、TransMambaがベースラインと比較して優れた学習効率と性能を達成することを実証し、TransformerとMambaのパラダイム間の深い一貫性を検証しました。これにより、次世代の系列モデリングに向けたスケーラブルなソリューションを提供します。
エージェントと環境の相互作用において、エージェントは計画を立てて行動を実行することでその能力を拡張します。しかし、LLMベースのエージェントは、新しい環境に展開されたり、非従来型の行動空間をナビゲートする必要がある場合に、大きな課題に直面します。エージェントが環境を自律的に探索し、ワークフローを最適化し、行動の理解を深めることを可能にするために、我々はSynWorldを提案します。このフレームワークは、エージェントが行動空間内で多段階の行動呼び出しを用いて可能なシナリオを合成し、モンテカルロ木探索(MCTS)による探索を行い、現在の環境における行動知識を効果的に洗練することを可能にします。我々の実験は、SynWorldが新しい環境における行動知識を学習するための効果的で汎用的なアプローチであることを示しています。コードはhttps://github.com/zjunlp/SynWorldで公開されています。
基盤モデルを搭載した自律エージェントは、様々な現実世界のアプリケーションで広く採用されています。しかし、悪意のある指示や攻撃に対して非常に脆弱であり、プライバシーの侵害や経済的損失などの深刻な結果を招く可能性があります。さらに重要なことに、エージェントの複雑で動的な性質により、既存のLLM向けのガードレールは適用できません。これらの課題に対処するため、我々はShieldAgentを提案します。これは、論理推論を通じて他の保護対象エージェントのアクショントラジェクトリに対して明示的な安全ポリシーの遵守を強制する初のガードレールエージェントです。具体的には、ShieldAgentはまず、ポリシードキュメントから検証可能なルールを抽出し、それらをアクションベースの確率的ルール回路のセットとして構造化することで、安全ポリシーモデルを構築します。保護対象エージェントのアクショントラジェクトリが与えられると、ShieldAgentは関連するルール回路を取得し、包括的なツールライブラリと形式検証用の実行可能なコードを活用してシールディングプランを生成します。さらに、エージェント向けのガードレールベンチマークが不足していることを踏まえ、我々はShieldAgent-Benchを導入します。これは、6つのWeb環境と7つのリスクカテゴリにわたるSOTA攻撃を通じて収集された、3,000の安全関連のエージェント指示とアクショントラジェクトリのペアからなるデータセットです。実験の結果、ShieldAgentはShieldAgent-Benchおよび3つの既存のベンチマークでSOTAを達成し、従来の手法を平均11.3%上回り、90.1%の高い再現率を示しました。さらに、ShieldAgentはAPIクエリを64.7%削減し、推論時間を58.2%短縮し、エージェントの保護における高い精度と効率を実証しました。
マルチターンインタラクションのための効果的なAIエージェントを訓練するには、現実的な人間とエージェントのダイナミクスを捉えた高品質なデータが必要ですが、そのようなデータは希少で、手動で収集するにはコストがかかります。本論文では、検証可能で多様なマルチターンエージェントデータを生成する2段階フレームワーク「APIGen-MT」を紹介します。第1段階では、エージェントパイプラインが、LLMレビュアーの委員会と反復フィードバックループを活用して、グラウンドトゥルースアクションを含む詳細なタスク設計図を作成します。これらの設計図は、シミュレートされた人間とエージェントの相互作用を通じて完全なインタラクショントラジェクトリに変換されます。1Bから70Bパラメータまでのサイズを持つxLAM-2-fc-rシリーズのモデルファミリーを訓練しました。我々のモデルは、tau-benchやBFCLベンチマークにおいて、GPT-4oやClaude 3.5などの最先端モデルを上回り、特にマルチターン設定では、より小さいモデルがより大きなモデルを凌駕し、複数の試行にわたって優れた一貫性を維持しました。包括的な実験により、検証済みの設計図から詳細を生成するアプローチが、高品質な訓練データを提供し、より信頼性が高く効率的で能力のあるエージェントの開発を可能にすることが実証されました。AIエージェント研究の進展のために、収集した合成データと訓練済みのxLAM-2-fc-rモデルをオープンソースとして公開します。モデルはHuggingFace(https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4)で利用可能で、プロジェクトのウェブサイトはhttps://apigen-mt.github.ioです。
既存のMLLM(マルチモーダル大規模言語モデル)ベンチマークは、統一型MLLM(U-MLLM)の評価において以下の理由から重大な課題に直面しています:1)伝統的なタスクに対する標準化されたベンチマークが欠如しており、一貫性のある比較が困難であること、2)混合モダリティ生成のベンチマークが存在せず、マルチモーダル推論能力を適切に評価できないこと。本論文では、U-MLLMを体系的に評価するための包括的な評価フレームワークを提案します。我々のベンチマークは以下の要素を含みます:1. 標準化された伝統的タスク評価。12のデータセットからサンプリングし、10のタスクと30のサブタスクをカバーすることで、研究間での一貫性と公平性を確保します。2. 統一タスク評価。画像編集、画像生成を伴う常識的質問応答、幾何学的推論など、マルチモーダル推論をテストする5つの新規タスクを導入します。3. 包括的モデルベンチマーク。Janus-Pro、EMU3、VILA-U、Gemini2-flashなど12の主要なU-MLLMを、専門的な理解モデル(例:Claude-3.5-Sonnet)や生成モデル(例:DALL-E-3)とともに評価します。我々の調査結果は、既存のU-MLLMにおける大幅な性能差を明らかにし、混合モダリティタスクを効果的に処理できるより堅牢なモデルの必要性を強調しています。コードと評価データはhttps://mme-unify.github.io/で公開されています。
単一画像からの人体再構築は、デジタルヒューマンモデリングアプリケーションにおいて重要であるが、依然として非常に困難な課題である。現在のアプローチでは、3D再構築とアニメーションのための多視点画像を合成するために生成モデルに依存している。しかし、単一の人体画像から直接複数の視点を生成することは、幾何学的不整合を引き起こし、再構築されたモデルにおいて断片化やぼやけた四肢などの問題を生じさせる。これらの制限を克服するため、我々はHumanDreamer-Xを提案する。これは、多視点人体生成と再構築を統合パイプラインに統合する新しいフレームワークであり、再構築された3Dモデルの幾何学的一貫性と視覚的忠実度を大幅に向上させる。このフレームワークでは、3D Gaussian Splattingが明示的な3D表現として機能し、初期の幾何学と外観の優先順位を提供する。この基盤の上に、HumanFixerが3DGSレンダリングを復元するように訓練され、フォトリアルな結果を保証する。さらに、多視点人体生成におけるアテンションメカニズムに内在する課題を探求し、幾何学的詳細と多視点間の同一性一貫性を効果的に向上させるアテンションモジュレーション戦略を提案する。実験結果は、我々のアプローチが生成と再構築のPSNR品質指標をそれぞれ16.45%と12.65%向上させ、最大25.62 dBのPSNRを達成することを示している。また、実世界データに対する汎化能力と、様々な人体再構築バックボーンモデルへの適用性も示している。
本論文では、Comprehensive Relightingを紹介します。これは、任意のシーンからの人体の画像やビデオにおいて、照明を制御し調和させる初のオールインワンアプローチです。このような汎用性の高いモデルを構築することは、データセットの不足により非常に困難であり、既存の画像ベースのリライティングモデルは特定のシナリオ(例:顔や静止した人間)に限定されていました。この課題に対処するため、我々は事前学習済みの拡散モデルを汎用画像事前分布として再利用し、粗から細へのフレームワークで人間のリライティングと背景の調和を共同でモデル化します。さらに、リライティングの時間的整合性を向上させるために、教師なしの時間的照明モデルを導入し、多くの実世界のビデオから照明のサイクル一貫性を学習します。推論時には、この時間的照明モジュールが拡散モデルと時空間的特徴ブレンディングアルゴリズムを通じて組み合わされ、追加の学習を必要としません。また、入力画像の高周波詳細を保持するために、新しいガイド付きリファインメントを後処理として適用します。実験では、Comprehensive Relightingは強力な汎用性と照明の時間的整合性を示し、既存の画像ベースの人間リライティングおよび調和手法を凌駕しています。
医用画像および動画のセグメンテーションは、精密医療において重要なタスクであり、2D画像向けのタスク特化型または汎用モデルの開発において大きな進展が見られてきました。しかし、3D画像や動画向けの汎用モデルの構築と包括的なユーザー調査に関する研究は限られています。本論文では、3D画像および動画セグメンテーションのためのプロンプト可能なセグメンテーション基盤モデルであるMedSAM2を紹介します。このモデルは、45万5千組以上の3D画像とマスクのペア、および7万6千フレームからなる大規模な医用データセットを用いてSegment Anything Model 2をファインチューニングすることで開発され、幅広い臓器、病変、および画像モダリティにおいて従来のモデルを上回る性能を発揮します。さらに、大規模データセットの作成を容易にするための人間参加型パイプラインを実装し、5,000件のCT病変、3,984件の肝臓MRI病変、および251,550フレームの心エコー動画のアノテーションを含む、これまでで最も大規模なユーザー調査を実施しました。その結果、MedSAM2が手作業のコストを85%以上削減できることが実証されました。MedSAM2はまた、ローカルおよびクラウド展開のためのユーザーフレンドリーなインターフェースを備えた広く使用されているプラットフォームに統合されており、研究および医療環境において効率的でスケーラブルかつ高品質なセグメンテーションを支援する実用的なツールとなっています。
限られた計算予算のもとで時間分解能と空間的詳細さのバランスを取ることは、ビデオベースのマルチモーダル大規模言語モデル(MLLM)における重要な課題である。既存の手法では、通常、ビデオ表現を事前に定義されたルールに従って圧縮し、それをLLMに入力するため、不可逆的な情報の損失が生じ、入力指示が無視されることが多い。この問題に対処するため、我々は、このトレードオフを自然に回避し、より多くの入力フレームを使用しながら空間的詳細を保持する新しいスロー・ファストアーキテクチャを提案する。人間がビデオを最初にざっと見てから関連する部分に焦点を当てる方法に着想を得て、我々のスロー・ファスト設計は二重トークン戦略を採用している:1)「ファスト」ビジュアルトークン——圧縮されたビデオ特徴のコンパクトなセット——は、テキスト埋め込みとともにLLMに入力され、迅速な概要を提供する;2)「スロー」ビジュアルトークン——非圧縮のビデオ特徴——は、特別に設計されたハイブリッドデコーダ層を介してテキスト埋め込みによってクロスアテンションされ、線形計算量で指示を意識した関連する視覚的詳細の抽出を可能にする。我々は、全体のアーキテクチャと主要コンポーネントの最適化のために体系的な探索を行った。実験結果は、我々のモデルがセルフアテンションのみのベースラインを大幅に上回り、計算量をわずか3%増加させるだけで入力容量を16フレームから128フレームに拡張し、5つのビデオ理解ベンチマークで平均16%の性能向上を達成することを示している。我々の7Bモデルは、同規模のモデルの中で最先端の性能を達成した。さらに、我々のスロー・ファストアーキテクチャはプラグアンドプレイ設計であり、他のビデオMLLMに統合して効率とスケーラビリティを向上させることができる。
本研究では、大規模言語モデル(LLM)のバイアス、倫理、公平性、および事実性を評価するための新しいフレームワークであるBEATSを紹介します。BEATSフレームワークを基盤として、29の異なる指標にわたるLLMのパフォーマンスを測定するバイアスベンチマークを提示します。これらの指標は、人口統計学的、認知的、社会的バイアスから、倫理的推論、グループ公平性、および事実性に関連する誤情報リスクに至るまで、幅広い特性をカバーしています。これらの指標により、LLMが生成する応答が、システム的不平等を強化または拡大する社会的偏見を永続させる程度を定量的に評価することが可能です。このベンチマークで高得点を達成するためには、LLMがその応答において非常に公平な振る舞いを示す必要があり、責任あるAI評価のための厳格な基準となっています。実験データに基づく実証結果によると、業界をリードするモデルが生成する出力の37.65%に何らかのバイアスが含まれており、これらのモデルを重要な意思決定システムで使用することの重大なリスクが浮き彫りになりました。BEATSフレームワークとベンチマークは、LLMをベンチマークし、バイアスを駆動する要因を診断し、緩和策を開発するためのスケーラブルで統計的に厳密な方法論を提供します。BEATSフレームワークを通じて、私たちの目標は、より社会的に責任があり、倫理的に整合したAIモデルの開発を支援することです。
音波が物体に当たると、物体は振動し、高周波で微妙な視覚的変化を生み出します。この変化を利用して音を復元することが可能です。初期の研究では、サンプリングレート、帯域幅、視野角、光路の簡素さといった要素間のトレードオフに常に直面していました。近年のイベントカメラハードウェアの進歩は、高周波信号の捕捉能力に優れているため、視覚的音響復元への応用において大きな可能性を示しています。しかし、既存のイベントベースの振動復元手法は、音響復元においてまだ最適とは言えません。本研究では、イベントストリームから得られる時空間情報を最大限に活用した非接触音響復元のための新しいパイプラインを提案します。まず、新しいシミュレーションパイプラインを使用して大規模なトレーニングセットを生成します。次に、イベントのスパース性を活用して空間情報を捕捉し、Mambaを使用して長期的な時間情報をモデル化するネットワークを設計しました。最後に、信号品質をさらに向上させるために、異なる位置からの情報を集約する空間集約ブロックをトレーニングします。音波によって引き起こされるイベント信号を捕捉するために、勾配を強化するレーザーマトリックスを使用したイメージングシステムを設計し、テスト用の複数のデータシーケンスを収集しました。合成データと実世界のデータを用いた実験結果は、本手法の有効性を示しています。
最近の行動クローニングの進歩により、ロボットが複雑な操作タスクを実行できるようになりました。しかし、特に実世界のアプリケーションにおいて、トレーニング性能を正確に評価することは依然として困難です。なぜなら、行動クローニングの損失は実際のタスク成功率と相関が低いことが多いためです。その結果、研究者たちはコストと時間がかかる実世界の評価から得られる成功率メトリクスに頼らざるを得ず、最適なポリシーの特定や過学習・未学習の検出が非現実的になっています。これらの問題に対処するため、我々はreal-is-simという新しい行動クローニングフレームワークを提案します。このフレームワークは、ポリシー開発の全プロセス(データ収集、トレーニング、デプロイメント)において、動的なデジタルツイン(Embodied Gaussiansに基づく)を組み込んでいます。シミュレーション世界と物理世界を継続的に整合させることで、実世界でデモンストレーションを収集しつつ、シミュレータから状態を抽出することが可能になります。シミュレータは、任意の視点からの画像入力をレンダリングしたり、シーン内のオブジェクトから低レベルの状態情報を抽出したりすることで、柔軟な状態表現を可能にします。トレーニング中は、ポリシーをシミュレータ内でオフラインかつ高度に並列化可能な方法で直接評価できます。最後に、デプロイメント時には、ポリシーはシミュレータ内で実行され、実ロボットがシミュレートされたロボットの関節を直接追跡します。これにより、ポリシーの実行が実ハードウェアから切り離され、従来のドメイン転移の課題を軽減します。我々はreal-is-simをPushT操作タスクで検証し、シミュレータ内で得られた成功率と実世界評価との間に強い相関があることを示しました。システムの動画はhttps://realissim.rai-inst.comでご覧いただけます。
衛星画像から農地の境界を正確に描画することは、土地管理や作物モニタリングにおいて極めて重要です。しかし、現在の手法は、データセットの規模が限られていること、解像度の不一致、多様な環境条件といった課題に直面しています。本研究では、この課題をインスタンスセグメンテーションとして再定式化し、大規模かつ多解像度のデータセットであるField Boundary Instance Segmentation - 22M(FBIS-22M)を導入することで対応します。FBIS-22Mは、672,909枚の高解像度衛星画像パッチ(0.25mから10mまで)と22,926,427個の個別農地のインスタンスマスクを含み、農業データセットと他のコンピュータビジョン分野のデータセットとのギャップを大幅に縮めます。さらに、この新しいFBIS-22Mデータセットで学習したインスタンスセグメンテーションモデルであるDelineate Anythingを提案します。提案モデルは、既存手法に対して[email protected]で88.5%、[email protected]:0.95で103%の大幅な改善を達成し、新たな最先端を確立しました。また、推論速度が大幅に速く、多様な画像解像度や未見の地理的領域に対する強力なゼロショット汎化能力も示しています。コード、事前学習済みモデル、およびFBIS-22Mデータセットは、https://lavreniuk.github.io/Delineate-Anythingで公開されています。
事前学習済みのText-to-Image(T2I)モデルをカスタムポートレートデータセットでファインチューニングすることは、テキスト駆動によるポートレート属性のカスタマイズにおける主流の手法です。しかし、ファインチューニング中のセマンティック・ポリューション(意味的汚染)により、既存の手法では、ターゲット属性をカスタマイズしながらも、元のモデルの振る舞いを維持し、インクリメンタル学習を達成することが困難です。この問題を解決するため、我々はSPF-Portraitを提案します。これは、テキスト駆動によるポートレートカスタマイズにおいて、セマンティック・ポリューションを排除しつつ、カスタマイズされた意味を純粋に理解するための先駆的な研究です。 SPF-Portraitでは、従来のファインチューニングパスに対して、元のモデルを参照として導入するデュアルパスパイプラインを提案します。コントラスティブ学習を通じて、ターゲット属性への適応を確保し、他の無関係な属性を意図的に元のポートレートと整合させます。さらに、ターゲットセマンティクスの正確な応答領域を表す新しいSemantic-Aware Fine Control Mapを導入し、コントラスティブパス間の整合プロセスを空間的にガイドします。この整合プロセスは、元のモデルの性能を効果的に維持するだけでなく、過剰な整合を回避します。さらに、直接的なクロスモーダル監視に内在する表現の不一致を軽減しつつ、ターゲット属性の性能を強化するための新しい応答強化メカニズムを提案します。 大規模な実験により、SPF-Portraitが最先端の性能を達成することが実証されています。プロジェクトのウェブページは以下の通りです:https://spf-portrait.github.io/SPF-Portrait/