翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)および大規模ビジョン言語モデル(LVLMs)は、印象的な言語/ビジョン推論能力を示し、ショッピングアシスタントやAIソフトウェアエンジニアなどの特定のアプリケーション向けエージェントの構築という最近のトレンドを引き起こしました。最近、多くのデータサイエンスベンチマークが提案され、データサイエンス分野におけるそれらのパフォーマンスを調査しています。しかし、既存のデータサイエンスベンチマークは、その単純化された設定のため、実世界のデータサイエンスアプリケーションと比較してまだ不十分です。このギャップを埋めるために、私たちはDSBenchを紹介します。これは、現実的なタスクでデータサイエンスエージェントを評価するために設計された包括的なベンチマークです。このベンチマークには、EloquenceとKaggleのコンペティションから収集された466のデータ分析タスクと74のデータモデリングタスクが含まれています。DSBenchは、長いコンテキスト、マルチモーダルなタスク背景、大規模データファイルやマルチテーブル構造での推論、エンドツーエンドのデータモデリングタスクを含むことにより、実世界に近い設定を提供しています。最先端のLLMs、LVLMs、およびエージェントの評価結果は、それらがほとんどのタスクに苦戦しており、最も優れたエージェントでデータ分析タスクの34.12%しか解決できず、34.74%の相対パフォーマンスギャップ(RPG)を達成していることを示しています。これらの結果は、より実用的で知的、自律的なデータサイエンスエージェントの開発にさらなる進歩が必要であることを強調しています。
大規模言語モデル(LLMs)は、コンピューターエージェントとしての顕著な潜在能力を示し、計画や推論を必要とするマルチモーダルタスクにおいて、人間の生産性とソフトウェアの利用性を向上させることができます。しかし、現実的な環境でのエージェントのパフォーマンスを測定することは依然として課題です。なぜなら、ほとんどのベンチマークが特定のモダリティやドメイン(例:テキストのみ、Webナビゲーション、Q&A、コーディング)に限定されているためですし、また、タスクの多段階の連続性があるため、完全なベンチマーク評価は遅い(数日のオーダー)ことがあります。これらの課題に対処するために、私たちはWindows Agent Arenaを導入します。これは、Windowsオペレーティングシステム(OS)に特化した再現可能な一般環境であり、エージェントが実際のWindows OS内で自由に操作し、タスクを解決する際に人間のユーザーが利用できる同じ幅広いアプリケーション、ツール、Webブラウザを使用できます。私たちはOSWorldフレームワーク(Xie et al.、2024)を適応して、計画、画面理解、ツールの使用能力が必要な代表的なドメインにわたる150以上の多様なWindowsタスクを作成します。私たちのベンチマークはスケーラブルであり、Azureでシームレスに並列化することができ、わずか20分で完全なベンチマーク評価を行うことができます。Windows Agent Arenaの機能を示すために、新しいマルチモーダルエージェントであるNaviを紹介します。当該エージェントは、Windowsドメインにおいて成功率19.5%を達成し、無補助の人間の74.5%のパフォーマンスと比較されます。Naviは、別の人気のあるWebベースのベンチマークであるMind2Webでも高いパフォーマンスを示しています。Naviのパフォーマンスについての包括的な定量的および定性的分析を提供し、Windows Agent Arenaを使用したエージェント開発とデータ生成の将来の研究の機会についての洞察を提供します。 Webページ:https://microsoft.github.io/WindowsAgentArena コード:https://github.com/microsoft/WindowsAgentArena
最近の大規模言語モデル(LLMs)の進歩により、科学的発見を加速させる可能性に対する楽観論が高まっており、新しいアイデアを自律的に生成および検証する研究エージェントを提案する作品が増加しています。しかしながら、LLMシステムが新規で専門レベルのアイデアを生み出すという最初の段階を踏むことはもちろん、研究プロセス全体を遂行することができるかどうかを示す評価はまだ行われていません。私たちは、交絡要因をコントロールしながら研究アイデアの生成を評価し、専門のNLP研究者とLLMのアイデーションエージェントとの初の対決を行う実験設計を確立することで、この課題に取り組んでいます。100人以上のNLP研究者を募集し、新しいアイデアを書かせ、LLMと人間のアイデアの盲目的なレビューを行うことで、現在のLLMの研究アイデーション能力に関する初の統計的に有意な結論を得ます:LLMが生成したアイデアは、人間の専門家のアイデアよりも新規性が高く(p < 0.05)、実現可能性についてはわずかに弱いと判断されます。エージェントのベースラインを詳細に調査することで、LLMの自己評価の失敗や生成における多様性の不足など、研究エージェントの構築と評価における課題を特定します。最後に、専門家であっても新規性の判断が難しいことを認識し、研究者を募集してこれらのアイデアを完全なプロジェクトに実行させるエンドツーエンドの研究設計を提案し、これらの新規性と実現可能性の判断が研究成果において意味のある違いをもたらすかどうかを調査することができるようにします。
テキストから画像への変換(T2I)拡散モデルは、個々のインスタンスの視覚的に魅力的な画像を生成する点で優れていますが、複数のインスタンスの特徴生成を正確に配置および制御することに苦労しています。レイアウトから画像へ(L2I)のタスクは、境界ボックスを空間制御信号として組み込むことで配置の課題に対処するために導入されましたが、依然として正確なインスタンスの特徴生成には至っていません。この課題に対処するために、私たちはインスタンス特徴生成(IFG)タスクを提案しています。IFGタスクは、生成されたインスタンスにおいて位置の正確さと特徴の忠実度の両方を確保することを目指しています。IFGタスクに対処するために、私たちはインスタンス特徴アダプタ(IFAdapter)を導入しています。IFAdapterは、外観トークンを追加し、インスタンスレベルの特徴を空間位置と整列させるためにインスタンス意味マップを利用することで、特徴描写を向上させます。IFAdapterは、プラグアンドプレイモジュールとして拡散プロセスをガイドし、さまざまなコミュニティモデルに適応可能です。評価のために、私たちはIFGベンチマークを提供し、モデルが正確な位置と特徴でインスタンスを生成する能力を客観的に比較するための検証パイプラインを開発しています。実験結果は、IFAdapterが定量的および定性的評価の両方で他のモデルを上回ることを示しています。
大規模言語モデルは、構造化データ、複雑な推論、またはツールの使用を活用する難しいシナリオでまだ苦労しています。本論文では、高コストな人手注釈に頼らずに、LLMに新しいスキルを教えるために使用できる新しい手法であるSource2Synthを提案します。Source2Synthは、カスタムデータソースを入力として受け取り、現実世界のソースに基づく中間推論ステップを持つ合成データポイントを生成します。Source2Synthは、回答可能性に基づいて低品質の生成物を破棄することでデータセットの品質を向上させます。この手法の汎用性を示すために、2つの難しい領域に適用します。マルチホップ質問応答(MHQA)における推論能力をテストし、表形式の質問応答(TQA)におけるツールの使用をテストします。WikiSQLにおけるTQAのパフォーマンスは、ファインチューニングされたベースラインと比較して25.51%、HotPotQAにおけるMHQAのパフォーマンスは22.57%向上します。
最近のテキストから画像へのモデルにおける画期的な進展は、個人の画像生成における有望な研究領域を開拓し、ユーザーが自然言語プロンプトを使用して特定の対象の多様な画像を作成できるようにしています。ただし、既存の手法は、単一の参照画像のみを与えられた場合に性能が低下することがよくあります。これらの手法は入力に過剰適合しやすく、テキストプロンプトに関係なく非常に類似した出力を生成します。本論文では、過剰適合を緩和することにより、1回の個人化の課題に取り組み、テキストプロンプトを介して制御可能な画像の作成を可能にします。具体的には、テキストエンコーダに焦点を当てた選択的なファインチューニング戦略を提案します。さらに、特定の3つの主要なテクニックを導入して個人化の性能を向上させます:(1)特徴の分離を促進し過剰適合を緩和するための拡張トークン、(2)言語のドリフトを減らし多様なプロンプトに対する一般化を促進するための知識保存損失、および(3)効率的なトレーニングのためのSNR重み付きサンプリング。包括的な実験により、当社の手法が単一の参照画像のみを使用して高品質で多様な画像を効率的に生成し、メモリおよびストレージ要件を大幅に削減することが示されています。
DreamHOIを提案します。これは、人間と物体の相互作用(HOIs)をゼロショットで合成する革新的な手法であり、3D人間モデルがテキスト記述に基づいて任意の物体とリアルに相互作用することを可能にします。このタスクは、実世界の物体のさまざまなカテゴリや幾何学、および多様なHOIsを包括するデータセットの希少性によって複雑化されます。豊富なデータの必要性を回避するために、数十億の画像キャプションペアでトレーニングされたテキストから画像への拡散モデルを活用しています。これらのモデルから得られたスコア蒸留サンプリング(SDS)勾配を使用して、スキン付き人間メッシュの表現を最適化します。これらの勾配は画像空間の編集を予測します。ただし、画像空間の勾配を複雑な表現パラメータに直接逆伝播させることは、その勾配の局所性のために効果がありません。この問題を克服するために、スキン付きメッシュの二重暗黙的-明示的表現を導入し、(暗黙的な)ニューラル放射輝度場(NeRFs)と(明示的な)スケルトン駆動メッシュ表現を組み合わせます。最適化中に、暗黙的形式と明示的形式の間を移行し、NeRF生成を確立しながらメッシュ表現を洗練します。我々のアプローチの有効性を実証するために、幅広い実験を通じて検証し、リアルなHOIsを生成する能力を示しました。
大規模言語モデル(LLMs)の波によって推進され、大規模ビジュアル言語モデル(LVLMs)が画像とテキストの間のギャップを埋める画期的な進歩として登場しました。ただし、ビデオは言語と空間的時間データ構造の複雑な関係のため、LVLMsが適切に機能することが難しい状況となっています。最近の大規模ビデオ言語モデル(LVidLMs)は、静的なビジュアルデータの特徴を言語特徴の潜在空間に整列させることで、LLMsの能力を十分に活用するために一般的な多様なタスクを調整しています。本論文では、物体の軌跡を介した細かい整列アプローチを探求し、空間的および時間的次元の両方で異なるモダリティにわたるものです。したがって、私たちはトラジェクトリによるピクセル時間整列という新しいLVidLMを提案し、PiTeと名付け、有望な適用可能なモデル特性を示しています。細かいビデオ言語の整列を実現するために、動画とキャプションの両方に現れ、言及されるすべての個々のオブジェクトのピクセルレベルでの移動軌跡のデータセットPiTe-143kを収集し、自動注釈パイプラインを使用しています。一方、PiTeは、多様なビデオ関連の多様なタスクで驚異的な能力を示し、最先端の手法を大幅に凌駕しています。
この研究は、2Dマスクから3Dガウススプラッティングを正確にセグメンテーションするという課題に取り組んでいます。従来の手法は、各ガウスに一意のラベルを割り当てるために反復的な勾配降下法に頼ることが多く、最適化に時間がかかり、サブ最適な解が生じることがあります。代わりに、私たちは3D-GSセグメンテーションのための直感的でありながらもグローバルに最適なソルバーを提案しています。私たちの手法の中心的な洞察は、再構築された3D-GSシーンにおいて、2Dマスクのレンダリングが各ガウスのラベルに関して線形関数であるということです。そのため、最適なラベル割り当ては、閉形式の線形計画法によって解決できます。この解決策は、スプラッティングプロセスのアルファブレンディング特性を活用して単一ステップ最適化を行います。背景バイアスを目的関数に組み込むことで、ノイズに対する3Dセグメンテーションにおける当社の手法の優れた堅牢性が示されます。驚くべきことに、最適化は30秒以内に完了し、最良の既存手法よりも約50倍高速です。幅広い実験により、当社の手法がさまざまなシーンをセグメンテーションする際の効率性と堅牢性、およびオブジェクトの削除やインペインティングなどの下流タスクにおける優れたパフォーマンスが示されます。デモとコードは、https://github.com/florinshen/FlashSplat で入手可能です。
未知の分布(OOD)物体検出は、オープンセットのOODデータが存在しないため、困難なタスクです。最近のテキストから画像への生成モデルの進歩に触発され、Stable Diffusionなどの生成モデルの潜在能力を研究し、大規模なオープンセットデータでトレーニングされた生成モデルがOODサンプルを合成する可能性を検討します。これにより、OOD物体検出が向上します。我々はSyncOODを導入します。これは、大規模な基盤モデルの能力を活用して、テキストから画像への生成モデルから意味のあるOODデータを自動的に抽出する単純なデータキュレーション手法です。これにより、モデルは市販の基盤モデルに包括されたオープンワールドの知識にアクセスできます。合成されたOODサンプルは、軽量でプラグアンドプレイのOOD検出器のトレーニングを補完するために使用され、したがって、インディストリビューション(ID)/OODの決定境界を効果的に最適化します。複数のベンチマークを通じた包括的な実験により、SyncOODが既存の手法を大幅に上回り、最小限の合成データ使用量で新たな最先端のパフォーマンスを確立することが示されました。