翻訳付きの日次キュレーションされたAI研究論文
正準表面マッピングは、物体の各ピクセルを3Dテンプレート上の対応する点に割り当てることで、キーポイント検出を一般化します。DensePoseによって人間の解析のために普及したこの概念は、その後、より多くのカテゴリに適用しようとする試みがなされてきましたが、手動による監督のコストが高いため、限定的な成功しか収めていません。本研究では、SHICという手法を導入し、手動の監督なしで正準マップを学習し、ほとんどのカテゴリで教師あり手法よりも優れた結果を達成します。私たちのアイデアは、DINOやStable Diffusionのような基盤となるコンピュータビジョンモデルを活用することです。これらのモデルはオープンエンドであり、自然なカテゴリに対する優れた事前知識を持っています。SHICは、基盤モデルの特徴を使用して、画像からテンプレートへの対応関係を推定する問題を、画像から画像への対応関係を予測する問題に還元します。この還元は、物体の画像をテンプレートの非写実的なレンダリングとマッチングすることで行われ、このタスクのための手動アノテーションを収集するプロセスを模倣します。これらの対応関係は、対象となる任意の物体の高品質な正準マップを監督するために使用されます。また、画像生成器がテンプレートビューのリアリズムをさらに向上させ、モデルのための追加の監督源を提供することも示します。
日常的なデジタルタスク(例:世帯の食料品の注文)に対処する自律エージェントは、APIを介して複数のアプリ(例:メモ、メッセージング、ショッピングアプリ)を操作するだけでなく、環境との相互作用に基づいて複雑な制御フローを持つ豊富なコードを反復的に生成する必要がある。しかし、既存のツール使用のベンチマークは不十分であり、単純なAPI呼び出しのシーケンスを必要とするタスクしかカバーしていない。 このギャップを埋めるため、我々はAppWorld Engineを構築した。これは、457のAPIを介して操作可能な9つの日常アプリからなる高品質の実行環境(6万行のコード)であり、約100人の架空のユーザーの生活をシミュレートする現実的なデジタル活動が組み込まれている。さらに、AppWorld Benchmark(4万行のコード)を作成し、750の自然で多様かつ挑戦的な自律エージェントタスクを提供する。これらのタスクは、豊かでインタラクティブなコード生成を必要とし、状態ベースのユニットテストによる堅牢なプログラム評価をサポートする。これにより、タスクを完了するための異なる方法を許容しつつ、予期せぬ変更(すなわち、副次的損害)をチェックすることができる。最先端のLLMであるGPT-4oは、我々の「通常」タスクの約49%と「挑戦」タスクの約30%しか解決できないのに対し、他のモデルは少なくとも16%少ない結果となった。これは、ベンチマークの難易度と、AppWorldがインタラクティブなコーディングエージェントのフロンティアを押し広げる可能性を示している。プロジェクトのウェブサイトはhttps://appworld.dev/で公開されている。
本論文では、正確なビデオキャプション生成のためのWOrLd要約フレームワーク「Wolf」を提案する。Wolfは、専門家の混合アプローチを採用し、視覚言語モデル(VLM)の補完的な強みを活用する自動キャプション生成フレームワークである。画像モデルとビデオモデルの両方を利用することで、本フレームワークは異なるレベルの情報を捕捉し、効率的に要約する。このアプローチは、ビデオ理解、自動ラベリング、キャプション生成の向上に応用可能である。キャプションの品質を評価するため、生成キャプションと正解キャプションの類似性と品質を評価するLLMベースの指標「CapScore」を導入する。さらに、自律走行、一般シーン、ロボティクスの3つのドメインにおいて、人間が注釈を付けた4つのデータセットを構築し、包括的な比較を可能にする。Wolfは、研究コミュニティの最先端手法(VILA1.5、CogAgent)や商用ソリューション(Gemini-Pro-1.5、GPT-4V)と比較して優れたキャプション生成性能を達成することを示す。例えば、GPT-4Vと比較して、Wolfは困難な運転ビデオにおいてCapScoreの品質面で55.6%、類似性面で77.4%向上させる。最後に、ビデオキャプション生成のベンチマークを確立し、リーダーボードを導入することで、ビデオ理解、キャプション生成、データ整合性の進展を加速することを目指す。リーダーボード: https://wolfv0.github.io/leaderboard.html。
本論文では、テキスト検索のための長文脈多言語テキスト表現モデル(TRM)とリランカーのゼロからの構築に向けた体系的な取り組みを紹介します。まず、RoPEとアンパディングを強化したテキストエンコーダ(ベースサイズ)を導入し、8192トークンのネイティブな文脈長(従来の多言語エンコーダの512トークンよりも長い)で事前学習を行いました。次に、コントラスティブ学習を用いてハイブリッドTRMとクロスエンコーダリランカーを構築しました。評価の結果、我々のテキストエンコーダは同サイズの従来の最先端モデルXLM-Rを上回りました。同時に、我々のTRMとリランカーは大規模な最先端モデルBGE-M3と同等の性能を達成し、長文脈検索ベンチマークではより優れた結果を示しました。さらに、提案モデルが学習と推論の両方において高い効率性を発揮することが分析により明らかになりました。我々は、これらの効率性と有効性が様々な研究や産業応用に貢献できると考えています。
ペン状物体の把持操作は、ハンマーやドライバーなど多くの工具が同様の形状をしていることから、日常生活において重要なスキルである。しかし、現在の学習ベースの手法は、高品質なデモンストレーションの不足やシミュレーションと現実世界との大きな隔たりにより、このタスクに苦戦している。本研究では、ペン状物体を回転させる能力を示すことで、学習ベースの把持操作システムの限界を押し広げる。まず、特権情報を用いたオラクルポリシーを強化学習で訓練し、シミュレーション内で高精度な軌道データセットを生成する。これには二つの目的がある:1) シミュレーション内で感覚運動ポリシーを事前訓練すること;2) 現実世界で開ループ軌道再生を行うことである。次に、これらの現実世界の軌道を用いて感覚運動ポリシーを微調整し、現実世界のダイナミクスに適応させる。50未満の軌道で、我々のポリシーは異なる物理特性を持つ10以上のペン状物体を複数回転させることを学習する。設計選択に関する包括的な分析を提示し、開発中に得られた教訓を共有する。
ビジョントランスフォーマーは、コンピュータビジョンの分野を大きく進歩させ、堅牢なモデリング能力とグローバルな受容野を提供しています。しかし、その高い計算コストは、長いシーケンスを処理する際の適用性を制限しています。この問題に対処するため、状態空間モデル(SSM)がビジョンタスクで注目を集めており、線形計算複雑性を提供します。最近、Mamba2において、SSMの改良版である状態空間双対性(SSD)が導入され、モデルの性能と効率が向上しました。しかし、SSD/SSMの本質的な因果性は、非因果的なビジョンタスクでの応用を制限します。この制限を解決するため、我々はSSDの非因果形式を持つVisual State Space Duality(VSSD)モデルを提案します。具体的には、隠れ状態とトークン間の相互作用の大きさを捨てながら、それらの相対的な重みを保持することを提案し、これによりトークンの寄与が前のトークンに依存することを緩和します。マルチスキャン戦略の導入とともに、スキャン結果を統合して非因果性を達成できることを示し、これによりビジョンタスクにおけるSSDの性能が向上するだけでなく、効率も向上します。画像分類、検出、セグメンテーションを含むさまざまなベンチマークで広範な実験を行い、VSSDが既存の最先端のSSMベースのモデルを凌駕することを示します。コードと重みはhttps://github.com/YuHengsss/VSSDで公開されています。
単一画像からの3Dオブジェクト再構築における最近の進展は、主にオブジェクト形状の精度向上に焦点を当ててきました。しかし、これらの技術は、オブジェクト、地面、カメラ間の相互関係を正確に捉えることができない場合が多く、その結果、再構築されたオブジェクトは平坦な表面上に配置された際に浮いているように見えたり、傾いて見えたりすることがあります。この制限は、影のレンダリングやオブジェクトの姿勢操作といった3D対応の画像編集アプリケーションに大きな影響を及ぼします。この問題に対処するため、我々はORG(Object Reconstruction with Ground)という新しいタスクを提案します。このタスクは、地面表面と共に3Dオブジェクトの形状を再構築することを目的としています。我々の手法では、カメラ、オブジェクト、地面の関係を表すために2つのコンパクトなピクセルレベル表現を使用します。実験結果から、提案されたORGモデルは未見のデータに対してオブジェクトと地面の形状を効果的に再構築し、従来の単一画像からの3D再構築技術と比較して、影生成や姿勢操作の品質を大幅に向上させることが示されました。