翻訳付きの日次キュレーションされたAI研究論文
主体駆動型のテキストから画像生成は、新しい主体の画像を所望のコンテキストで生成し、主体の視覚的特徴とテキストプロンプトの意味内容の両方を正確に捉えることを目指しています。従来の手法は、主体の整合性のために時間とリソースを費やす微調整に依存していますが、最近のゼロショット手法は、オンザフライの画像プロンプティングを活用し、しばしば主体の整合性を犠牲にしています。本論文では、大規模なテキストから画像生成モデルにおけるジプティク生成の新たなゼロショット手法である「Diptych Prompting」を紹介します。Diptych Promptingは、左パネルに参照画像を配置した不完全なジプティクを作成し、右パネルでテキスト条件付きのインペインティングを行います。さらに、参照画像から背景を除去することで不要な内容の漏洩を防ぎ、インペインティング中にパネル間の注意重みを強化することで生成された主体の細かい詳細を向上させます。実験結果は、当手法がゼロショット画像プロンプティング手法を大幅に上回り、ユーザーによって視覚的に好まれる画像を生成することを確認しています。さらに、当手法は主体駆動型の生成だけでなく、スタイル化された画像生成や主体駆動型の画像編集もサポートし、多様な画像生成アプリケーションでの汎用性を示しています。プロジェクトページ: https://diptychprompting.github.io/
この研究は、675の根本的に解決不可能な問題に対する大規模言語モデル(LLMs)の不確実性を認識する能力を評価するために設計された新しい評価フレームワークを紹介しています。意図的に解らない答えを持つ大学レベルのグランドチャレンジ問題のキュレーションされたデータセットを用いて、オープンソースおよびクローズドソースの12の最先端LLMsを評価しました。これらのモデルが、無知を認める傾向があるか、それとも妥当ながらも不正確な回答を生成するかを評価しました。最も優れたモデルは、生物学から哲学、数学までの分野で、問題の解決策が不明であることを認める正解率が62%から68%の範囲でスコアリングされました。問題の難易度とモデルの精度との間には逆の関係があり、GPT-4は、より難しい問題(35.8%)よりも簡単な問題(20.0%)で不確実性を認識する割合が高いことが示されました。このパターンは、問題がより解決可能に見えるとき、モデルが推測的な回答を生成する傾向がある可能性があることを示しています。研究はまた、問題のカテゴリによって著しい変動があり、モデルは発明やNP困難な問題で不確実性を認識するのが難しく、一方で哲学的および心理学的な課題では比較的良い結果を示しました。これらの結果は、人工一般知能(AGI)評価に関する研究の増加に貢献し、不確実性認識が将来の機械知能評価の重要な要素であることを強調しています。この不可能性テストは、現在のLLMsが自らの知識の限界を認識する能力における現在の制限を実証することで、普遍的知能テストの以前の理論的フレームワークを拡張し、モデルの訓練アーキテクチャや評価手法を改善する新たな方向性を示唆しています。
物質アニシングという完全自動化された統合拡散フレームワークを提案します。このフレームワークは、3Dオブジェクトのために物理ベースの材料を生成するよう設計されています。既存の複雑なパイプラインやケース固有の最適化に依存する方法とは異なり、Material Anythingは、さまざまな照明条件下のオブジェクトに適応可能な堅牢でエンドツーエンドのソリューションを提供します。私たちのアプローチは、事前にトレーニングされた画像拡散モデルを活用し、トリプルヘッドアーキテクチャとレンダリング損失を組み合わせて安定性と材料品質を向上させています。さらに、拡散モデル内での信頼マスクを導入し、テクスチャのあるオブジェクトと無いオブジェクトの両方を効果的に扱えるようにしています。これにより、さまざまな照明条件下で一貫したUV準備済みの材料出力を確保するため、これらの信頼マスクによって誘導されるプログレッシブな材料生成戦略とUVスペース材料リファイナーを採用しています。広範な実験により、当社のアプローチが広範囲のオブジェクトカテゴリと照明条件にわたって既存の方法を凌駕することが示されています。
本論文は、OpenAIのO1モデルの機能を複製する現在のアプローチを批判的に検討し、その中でも知識蒸留技術の広範でありながらしばしば非公開であることに焦点を当てています。以前の研究ではO1複製への基本的な技術的経路を探求していましたが、この研究では、O1のAPIからの単純な蒸留と監督された微調整を組み合わせることで、複雑な数学的推論タスクで優れたパフォーマンスを実現できることを明らかにしています。多くの実験を通じて、数万のサンプルをO1から蒸留した基本モデルを単純に微調整することで、O1-previewよりもアメリカン・インビテーショナル・マスマティクス・エグザミネーション(AIME)で優れたパフォーマンスを達成することを示しています。さらに、数学的推論にとどまらず、O1から蒸留されたモデルの一般化能力を探求し、幻覚、安全性、オープンドメインのQAなど多様なタスクにおいて、我々のモデルが強力な一般化能力を示し、微調整後には諂いに対して著しく影響を受けにくくなりました。この発見を公開することで、AI研究の透明性を促進し、分野内での不透明な技術的主張の現在の傾向に挑戦するために、我々は故意にこれを公表しています。本研究には以下が含まれます:(1)蒸留プロセスとその効果の詳細な技術的説明、(2)O1複製の試みを技術的透明性と再現性に基づいて評価し分類する包括的なベンチマークフレームワーク、(3)蒸留アプローチへの過度な依存の制限と潜在的リスクについての批判的な議論。我々の分析は、より能力の高いAIシステムの追求は重要であるが、第一原理思考に基づく研究者の育成が最も重要であるという重要な苦い教訓で結実しています。
評価と評価は人工知能(AI)と自然言語処理(NLP)における長年の重要な課題でした。しかしながら、従来の方法、マッチングベースまたは埋め込みベースのいずれも、微妙な属性を判断し、満足のいく結果を提供することがしばしばできません。大規模言語モデル(LLMs)の最近の進歩は、「LLMを判定者として」のパラダイムを着想させ、LLMsがさまざまなタスクやアプリケーション全体でスコアリング、ランキング、または選択を行うために活用されています。本論文は、LLMに基づく判断と評価の包括的な調査を提供し、この新興分野を推進するための詳細な概要を提供します。まず、入力と出力の両面から詳細な定義を示します。次に、何を判断するか、どのように判断するか、どこで判断するかという3つの側面からLLMを判定者として探るための包括的な分類法を紹介します。最後に、LLMを判定者として評価するためのベンチマークを編纂し、主要な課題と有望な方向を強調し、この有望な研究分野における貴重な示唆を提供し、将来の研究を刺激することを目指しています。LLMを判定者として評価するための論文リストやその他のリソースは、https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge および https://llm-as-a-judge.github.io で見つけることができます。
一般人工知能の重要な進歩があるにもかかわらず、例えばGPT-4のようなものでも、医療領域(一般医療AI、GMAI)における効果は、専門的な医学知識の不在により制約されています。この課題に対処するために、私たちはGMAI-VL-5.5Mを提案します。これは、数百の専門医学データセットを画像とテキストのペアに精巧に変換して作成された包括的なマルチモーダル医学データセットです。このデータセットは包括的なタスクカバレッジ、多様なモダリティ、高品質な画像テキストデータを特徴としています。このマルチモーダルデータセットを基盤として、私たちは進行的な3段階のトレーニング戦略を持つ一般医療ビジョン言語モデルであるGMAI-VLを提案します。このアプローチは、視覚的およびテキスト情報を統合することでモデルの能力を大幅に向上させ、マルチモーダルデータを処理し、正確な診断と臨床判断をサポートする能力を向上させます。実験評価により、GMAI-VLが視覚的質問応答や医用画像診断など、幅広いマルチモーダル医療タスクで最先端の結果を達成することが示されました。私たちの貢献には、GMAI-VL-5.5Mデータセットの開発、GMAI-VLモデルの導入、および複数の医療領域での新たなベンチマークの確立が含まれます。コードとデータセットはhttps://github.com/uni-medical/GMAI-VL で公開されます。
第2回大規模言語モデル(LLM)ハッカソンの成果を発表します。このハッカソンは、世界中のハイブリッドな場所で参加者を巻き込み、34チームの提出物が生まれました。提出物は7つの主要なアプリケーション領域にまたがり、LLMの多様な有用性を示しました。それは、(1) 分子および材料特性の予測、(2) 分子および材料の設計、(3) 自動化と新しいインタフェース、(4) 科学的コミュニケーションと教育、(5) 研究データ管理と自動化、(6) 仮説の生成と評価、および(7) 科学文献からの知識抽出と推論です。各チームの提出物は、コードへのリンクと簡潔な論文として、サマリーテーブルにまとめられています。チームの成績に加えて、ハッカソンイベントとそのハイブリッド形式について議論しました。この形式には、トロント、モントリオール、サンフランシスコ、ベルリン、ローザンヌ、東京の物理的なハブが含まれており、地域と仮想の協力を可能にするためのグローバルオンラインハブも備えています。全体として、前回のハッカソンからLLMの機能が大幅に向上したことが強調され、LLMが材料科学や化学研究のアプリケーションでの展開が続く可能性を示唆しています。これらの成果は、LLMが多様な機械学習タスクのための汎用モデルとして、および科学研究のカスタムアプリケーションの迅速なプロトタイピングのプラットフォームとしての二重の有用性を示しています。
OneDiffusionは、多様なタスクを横断的にサポートする、多目的で大規模な拡散モデルです。このモデルは、テキスト、深度、ポーズ、レイアウト、および意味マップなどの入力からの条件付き生成を可能にし、また画像のぼやけの除去、拡大、深度推定やセグメンテーションなどの逆プロセスを処理します。さらに、OneDiffusionは、マルチビュー生成、カメラポーズ推定、および連続画像入力を使用した即座の個人化も可能です。当モデルは、トレーニング中にすべてのタスクをノイズスケールが異なるフレームシーケンスとして扱うことで、推論時に任意のフレームを条件付き画像として扱えるようにします。統合されたトレーニングフレームワークにより、専門的なアーキテクチャが不要となり、スケーラブルなマルチタスクトレーニングをサポートし、任意の解像度にスムーズに適応して汎化性とスケーラビリティを向上させます。実験結果は、比較的小規模なトレーニングデータセットにもかかわらず、テキストから画像への変換、マルチビュー生成、ID保存、深度推定、カメラポーズ推定などの生成と予測の両方のタスクで競争力のあるパフォーマンスを示しています。当モデルのコードとチェックポイントは、https://github.com/lehduong/OneDiffusion で無料で入手可能です。
マルチヘッドのエキスパートの混合(MH-MoE)は、複数のエキスパートからの情報を集合的に処理するためのマルチヘッドメカニズムを使用することで、優れた性能を示しています。本論文では、FLOPsとパラメータの均等性を保持しながら、疎なエキスパートモデルと同等の性能を持つMH-MoEの新しい実装を提案します。言語モデルに関する実験結果は、新しい実装が通常のMoEおよび細かく分類されたMoEモデルよりも品質向上をもたらすことを示しています。さらに、当社の実験では、MH-MoEがBitNetなどの1ビットの大規模言語モデル(LLM)と互換性があることを示しています。
インタラクティブ医用画像セグメンテーション(IMIS)は、大規模で多様かつ密に注釈付けされたデータセットの入手が限られているため、モデルの汎化と異なるモデル間での一貫した評価が妨げられてきました。本論文では、一般的なIMIS研究の重要な進展として、IMed-361Mベンチマークデータセットを紹介します。まず、複数のデータソースから6.4百万枚以上の医用画像とそれに対応する正解マスクを収集し、標準化しました。次に、ビジョン基盤モデルの強力な物体認識能力を活用して、各画像に対して密なインタラクティブマスクを自動生成し、その品質を厳格な品質管理と粒度管理を通じて確保しました。従来の特定のモダリティに制限されたり、スパースな注釈に制約を受ける従来のデータセットとは異なり、IMed-361Mは14のモダリティと204のセグメンテーションターゲットを網羅し、計361百万枚のマスクが含まれており、画像あたり平均56枚のマスクがあります。最後に、このデータセット上でIMISベースラインネットワークを開発し、クリック、境界ボックス、テキストプロンプト、およびそれらの組み合わせを含むインタラクティブ入力を介した高品質のマスク生成をサポートするものです。我々は、既存のインタラクティブセグメンテーションモデルと比較して、医用画像セグメンテーションタスクにおけるその性能を複数の視点から評価し、優れた精度と拡張性を示しました。医療コンピュータビジョンの基盤モデルに関する研究を促進するために、IMed-361Mおよびモデルをhttps://github.com/uni-medical/IMIS-Benchで公開しています。
コンピュータ断層撮影(CT)は医用画像の中でも最も人気のあるモダリティの1つです。CT画像は、体全体の解剖構造をカバーする容積医用セグメンテーションタスク向けの最大の公開データセットに貢献しています。大量の全身CT画像は、STU-Netなどの強力なモデルを事前学習する機会を提供し、監督学習で事前学習されたモデルを使用して多数の解剖構造をセグメント化することが可能です。ただし、これらの事前学習モデルがさまざまな後段医用セグメンテーションタスクにどのような条件で転送できるかは依然として不明です。この問題に対処するためには、これらの条件を見つけるために包括的な評価のための大規模ベンチマークが不可欠です。したがって、私たちは、モダリティ、ターゲット、およびサンプルサイズが異なる87の公開データセットを収集し、全身CT事前学習モデルの転送能力を評価しました。そして、複数のモデルスケールを持つ代表的なモデルであるSTU-Netを使用して、モダリティおよびターゲット間での転移学習を行いました。実験結果は、次のように示しています:(1)ファインチューニングにおいてデータセットサイズに関するボトルネック効果がある可能性があり、中規模のデータセットよりも小規模および大規模のデータセットの両方で改善が見られます。 (2)全身CTで事前学習されたモデルは、MRIなど他のモダリティにも適応性が高いモダリティ転送を示します。 (3)全身CTでの事前学習は、構造検出において強力なパフォーマンスをサポートするだけでなく、病変検出においても効果を示し、ターゲットタスク間での適応性を示しています。この転移学習の大規模なオープン評価が、将来の容積医用画像セグメンテーションの研究を導くことを期待しています。
AdamWは、トランスフォーマーの事前学習におけるデフォルトの最適化手法でした。長年にわたり、コミュニティはより速く安定した最適化手法を探し続けてきましたが、その結果は限定的でした。本研究では、PyTorchに1行の修正を提案し、任意の運動量ベースの最適化手法を「Cautious Optimizer」としてリネームします。例えば、C-AdamWやC-Lionです。理論的な結果から、この修正がAdamのHamiltonian関数を保持し、Lyapunov解析における収束保証を壊さないことが示されています。さらに、理論的な洞察により、新しい最適化手法のファミリー全体が明らかになります。その中から、最も単純なものを実験的に選択し、LlamaとMAEの事前学習において最大1.47倍の高速化を示しました。コードは以下のリンクから入手可能です:https://github.com/kyleliang919/C-Optim
ストーリーテリングビデオ生成(SVG)は、最近登場した課題であり、入力テキストスクリプトで記述されたストーリーを一貫して表現する長い、複数の動き、複数のシーンからなるビデオを作成するためのものです。SVGは、メディアやエンターテインメントにおける多様なコンテンツ制作に大きな可能性を秘めていますが、同時に重要な課題も抱えています:(1)オブジェクトは細かく複雑な動きを示さなければならず、(2)複数のオブジェクトがシーン全体で一貫して現れる必要があり、(3)被写体はシーン内でシームレスな遷移を伴う複数の動きが必要とされます。これらの課題に対処するために、私たちはDreamRunnerを提案します。これは、小説的なストーリーからビデオを生成する手法です。まず、大規模言語モデル(LLM)を使用して入力スクリプトを構造化し、粗いシーン計画と細かいオブジェクトレベルのレイアウトおよび動きの計画の両方を容易にします。次に、DreamRunnerは、各シーンのオブジェクトに対するターゲット動きの事前情報をキャプチャするための検索拡張型のテスト時適応を提示し、検索されたビデオに基づいた多様な動きのカスタマイズをサポートし、複雑なスクリプトされた動きを持つ新しいビデオの生成を容易にします。最後に、細かいオブジェクト動きのバインディングおよびフレームごとの意味的制御のための新しい空間的時間領域ベースの3Dアテンションおよび事前注入モジュールSR3AIを提案します。DreamRunnerをさまざまなSVGベースラインと比較し、キャラクターの一貫性、テキストの整合性、スムーズな遷移において最先端のパフォーマンスを示しました。さらに、DreamRunnerは、合成的なテキストからビデオを生成する際の細かい条件に従う能力に強く、T2V-ComBenchでベースラインを大幅に上回りました。最後に、私たちはDreamRunnerの多様な質的例を用いて、複数のオブジェクト間の相互作用を生成する堅牢な能力を検証しました。
ビジュアルトークナイザーは画像生成において基本的です。これらは視覚データを離散的なトークンに変換し、トランスフォーマーベースのモデルが画像生成で優れた性能を発揮できるようにします。成功を収めているにも関わらず、VQGANのようなVQベースのトークナイザーは、制約された語彙サイズによる重要な制約に直面しています。コードブックを単純に拡張するだけでは、しばしばトレーニングの不安定性や性能の低下を招き、スケーラビリティが重要な課題となります。本研究では、大きなコードブックを複数の独立したサブコードブックに分解することで、VQベースのトークナイザーを活性化する革新的な手法であるFactorized Quantization(FQ)を紹介します。この因数分解により、大きなコードブックのルックアップ複雑さが低減され、より効率的でスケーラブルなビジュアルトークナイゼーションが可能となります。各サブコードブックが異なるかつ補完的な情報を捉えるようにするため、冗長性を明示的に減少させ、サブコードブック全体で多様性を促進するdisentanglement regularizationを提案します。さらに、表現学習をトレーニングプロセスに統合し、CLIPやDINOなどの事前学習済みビジョンモデルを活用して、学習された表現に意味豊かさを注入します。この設計により、当該トークナイザーが多様な意味レベルを捉え、より表現豊かで分離された表現を生み出すことが確実となります。実験結果は、提案されたFQGANモデルが視覚トークナイザーの再構成品質を大幅に向上させ、最先端の性能を達成していることを示しています。さらに、このトークナイザーが効果的に自己回帰型画像生成に適応できることを示しています。https://showlab.github.io/FQGAN
ユーザーのビジュアル履歴が、日常生活を反映した画像を通じて、彼らの興味や好みに関する貴重な洞察を提供し、個人化に活用できるという仮説を立てています。この目標を達成するための多くの課題の中で、最も重要なのはビジュアル履歴に含まれる多様性とノイズです。これには、推薦タスクに必ずしも関連しない画像、ユーザーの興味を反映していない画像、あるいは好みに関連しない可能性がある画像が含まれています。既存の推薦システムは、オンラインショッピングの履歴などのタスク固有のユーザーインタラクションログに依存するか、テキスト信号に焦点を当てています。私たちは、画像表現を抽出し、フィルタリングし、洗練し、これらの信号を個人化に活用する新しいアプローチであるVisualLensを提案しています。私たちは、タスクに依存しないビジュアル履歴を持つ2つの新しいベンチマークを作成し、当社の手法がHit@3で最先端の推薦手法よりも5-10%、GPT-4oよりも2-5%改善されることを示しています。私たちのアプローチは、従来の方法が失敗するシナリオにおける個人化推薦の道を開いています。
我々は、新しい概念を学習する方法を提示しますが、その際にはそのテキスト記述のみを使用します。この方法を「知識転送」と呼びます。人間の知覚と同様に、新しい概念を導入するためにクロスモーダル相互作用を活用しています。我々は、事前に訓練されたビジュアルエンコーダには、既に学習された十分な低レベルの特徴(例:形状、外観、色)が存在し、これらを使用して以前に知られていなかった高レベルの概念を記述することができると仮説を立てています。新しい概念のテキスト記述が提供されると、我々の方法は、ビジュアルエンコーダの既知の低レベルの特徴をその高レベルのテキスト記述に整列させることで機能します。知識転送は、対象概念の単一の記述のみを必要とすることで、多モーダルモデルに新しい概念を非常に効率的に導入できることを示しています。我々のアプローチは、別々のテキストエンコーダとビジュアルエンコーダ(例:CLIP)およびモダリティ間で共有されるパラメータの両方と互換性があります。また、同じ原則に従うことで、知識転送がモデルに既知の概念を改善できることも示しています。知識転送を活用することで、ゼロショットパフォーマンスを向上させ、分類、セグメンテーション、画像テキスト検索、キャプショニングなどのさまざまなタスクでの性能を向上させることができます。
x86からARMアーキテクチャへの移行は、ARMのエネルギー効率と従来のセクターでのパフォーマンスの向上によって、様々な領域でますます一般的になっています。ただし、このISAの変更は、x86ソフトウェアの広範なレガシーエコシステムと、プロプライエタリなエコシステムやソフトウェアスタック間のポータビリティの不足により、主な課題を提起しています。本論文では、x86アセンブリをARMアセンブリに自動変換する軽量なLLMベースのトランスパイラであるCRTを紹介します。当社の手法は、x86のCISCベースとARMのRISCベースのコンピューティングパラダイム間の基本的なアーキテクチャ上のギャップを埋めると同時に、プログラムのセマンティクスを保持し、パフォーマンスを最適化します。CRTを、様々な実世界のアプリケーションで評価し、包括的なテストスイートでx86からARMv5への変換精度が79.25%、x86からRISC-Vへの変換精度が88.68%であることを達成しました。Apple M2ハードウェア(ARMv8)での実用展開では、当社の変換コードは、AppleのRosetta 2仮想化エンジンと比較して1.73倍の高速化を実現し、メモリ効率が2.41倍、エネルギー消費が1.47倍向上します。テストと分析を通じて、CRTがCISC/RISCの分断を成功裏に乗り越え、機械「言語」の壁を超えて正しく実行可能なRISCコードを生成することを示しました。当社のコード、モデル、トレーニングデータセット、およびベンチマークは、以下のURLから公開しています:https://ahmedheakl.github.io/asm2asm/。
既存の大規模多文化モデル(LMMs)は一般的に、ごく一部の地域と言語に焦点を当てています。LMMsが改良を続ける中で、文化的な文脈を理解し、地域の感受性を尊重し、資源の乏しい言語をサポートすることがますます重要になっています。これらの要素を効果的に統合しつつ、対応する視覚的手がかりを取り入れることが求められます。文化的に多様なグローバルな多文化モデルを追求する中で、提案されたAll Languages Matter Benchmark(ALM-bench)は、100言語を対象としたLMMsの評価において、これまでで最も大規模かつ包括的な取り組みを表しています。ALM-benchは、既存のモデルに挑戦し、様々な言語でのテキストと画像を組み合わせた文化的に多様な画像を理解し、推論する能力をテストします。これには、LMM研究で従来不十分だった多くの資源の乏しい言語も含まれます。このベンチマークは、真偽、多肢選択、および記述式の質問形式を備えた堅牢で微妙な評価フレームワークを提供し、さらに、短文と長文の回答カテゴリに分けられています。ALM-benchの設計は、視覚的および言語的推論の難易度の様々なレベルを扱うモデルの能力を包括的に評価することを保証します。グローバルな文化の豊かな多様性を捉えるために、ALM-benchは、伝統や儀式から有名人や祝祭までの13の異なる文化的側面からコンテンツを慎重にキュレーションしています。これにより、ALM-benchは、最先端のオープンソースおよびクローズドソースのLMMsの厳格なテスト環境を提供するだけでなく、文化的および言語的包括性の重要性を強調し、多様なグローバル人口に効果的に役立つモデルの開発を奨励しています。当該ベンチマークは一般に公開されています。
テキストベースの3Dシーンの生成と編集は、直感的なユーザーインタラクションを通じてコンテンツ作成を効率化するために重要な潜在能力を持っています。最近の進歩では、高品質かつリアルタイムなレンダリングのために3Dガウススプラッティング(3DGS)を活用していますが、既存の方法はしばしば専門化され、タスクに焦点を当てており、生成と編集の両方のための統一されたフレームワークが欠如しています。本論文では、このギャップに対処する包括的なフレームワークであるSplatFlowを紹介します。SplatFlowには、2つの主要なコンポーネントが含まれており、それは、マルチビューの整流フロー(RF)モデルとガウススプラッティングデコーダ(GSDecoder)です。マルチビューRFモデルは潜在空間で動作し、テキストプロンプトに応じて、多視点画像、深度、およびカメラの姿勢を同時に生成することで、実世界の設定における多様なシーンスケールや複雑なカメラ軌跡といった課題に対処します。その後、GSDecoderはこれらの潜在的な出力を効率的に3DGS表現に変換するためのフィードフォワード3DGS手法を介して翻訳します。トレーニングフリーの逆変換およびインペインティング技術を活用することで、SplatFlowはシームレスな3DGS編集を可能にし、追加の複雑なパイプラインを必要とせずに、オブジェクトの編集、新しいビューの合成、カメラの姿勢推定など、幅広い3Dタスクを統一されたフレームワーク内でサポートします。MVImgNetおよびDL3DV-7KデータセットでSplatFlowの能力を検証し、さまざまな3D生成、編集、およびインペインティングベースのタスクにおけるその汎用性と効果を示します。
Chain-of-Thought(CoT)がLLM(Large Language Models)の複雑なタスクにおける性能を著しく向上させることはよく知られています。ただし、それは推論速度を遅くし、計算コストを高めるため、多くの研究者がLLMが中間ステップを明示的に生成する必要がない暗黙のCoTを使用しようと試みてきました。しかし、その効果と典型的な明示的CoT方法との間にはまだ差があります。これにより、暗黙のCoTは本当に明示的なCoTと同等なのかという疑念が残ります。したがって、本研究ではこの問いに実験を通じて取り組みます。LLMが暗黙のCoTを行う際に、モデルの隠れた状態から中間ステップの情報を調査します。驚くべき結果は、LLMが中間ステップについてほとんど考えていないことを示唆し、彼らが厳密な段階的推論ではなく経験に頼っている可能性があることを示しています。さらに、LLMの暗黙の推論能力が影響を受けやすく不安定であることがわかり、複雑なタスクを効果的にサポートするためには明示的なCoTの必要性を再確認しています。
現代のLLMスケーリングにおける基本的なオープンチャレンジは、新たな能力に関する理解の不足です。特に、言語モデルの事前トレーニング損失は、計算量の関数として非常に予測可能であることが知られています。しかし、下流の能力ははるかに予測しにくく、時には新たな飛躍さえも示すことがあり、これが将来のモデルの能力を予測することを難しくしています。本研究では、まず「出現予測」という課題を提起します。つまり、現在のランダムな少数ショットの精度を持つLLMにアクセスがある場合、将来のモデル(GPT-N+1)がそのタスクで非自明な精度を持つかどうかを予測できるでしょうか。次に、この問題に対する単純な洞察を見つけます。特定のタスクでLLMをファインチューニングすることで、出現が起こるスケーリングのポイントを、より能力の低いモデルにシフトさせることができます。この洞察を実用化するために、異なる量のデータでLLMをファインチューニングし、いつ出現が起こるかを予測するパラメトリックな関数を適合させることができます(つまり、「出現法則」)。私たちは、大規模なオープンソースのLLMが既に出現を示している4つの標準的なNLPベンチマーク(MMLU、GSM8K、CommonsenseQA、CoLA)を使用して、このアプローチを検証します。小規模なLLMのみを使用して、いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現しているかどうかを正確に予測できることがわかります。最後に、出現予測の2つの現実的な用途のケーススタディを提示します。
近年の深層学習フレームワークの主要な支柱として、モダンなシーケンスモデル(例:Transformers、線形RNNなど)が効率性、表現力、および長距離依存関係の捕捉能力により台頭しています。これらのシーケンスモデルをグラフ構造データに適用することは、メッセージパッシングニューラルネットワーク(MPNNs)に代わる選択肢として最近人気を集めています。ただし、良いグラフシーケンスモデルの構成要素や、異なるシーケンスモデルをグラフ上の学習に採用する際の利点と欠点についての共通の基盤が不足しています。このため、まず、グラフシーケンスモデル(GSM)を提案し、グラフ用のシーケンスモデルを採用するための統一フレームワークを以下の3つの主要ステップで構成します:(1)トークン化、つまりグラフを一連のシーケンスに変換すること、(2)ローカルエンコーディング、つまり各ノード周りのローカルな近傍をエンコードすること、および(3)グローバルエンコーディング、つまり長距離依存関係を捉えるためにスケーラブルなシーケンスモデルを使用すること。このフレームワークにより、異なるシーケンスモデルの支柱の力をグラフタスクで理解し、評価し、比較することができます。Transformersやモダンな再帰モデルの表現力に関する理論的評価を通じて、グローバルおよびローカルなグラフタスクの観点から、両方のモデルには負の側面と正の側面があることを示します。この観察に基づいて、Hierarchical Affinity Clustering(HAC)アルゴリズムを使用してグラフを階層的なシーケンスにトークン化し、その後、これらのシーケンスをエンコードするためにTransformerのハイブリッドアーキテクチャを使用する高速ハイブリッドモデルであるGSM++を提案します。理論的および実験的結果は、GSM++の設計をサポートし、GSM++がほとんどのベンチマーク評価でベースラインを上回ることを示しています。
Category-Agnostic Pose Estimation(CAPE)は、1つまたは数枚の注釈付きサポート画像を使用して、単一のモデルでさまざまなオブジェクトカテゴリにわたるキーポイントを特定します。最近の研究では、ポーズグラフを使用すること(つまり、キーポイントを単独の点ではなくグラフ内のノードとして扱うこと)が、遮蔽物や対称性の問題を解決するのに役立つことが示されています。ただし、これらの手法は、等重みのエッジを持つ静的なポーズグラフを前提としており、最適でない結果につながります。本研究では、エッジの重みを予測して局所化を最適化するEdgeCapeという新しいフレームワークを導入します。さらに、構造的先行情報を活用するために、ノード間のホップ数に基づいて自己注意相互作用を調整するマルコフ構造バイアスの統合を提案します。これにより、モデルがグローバルな空間依存関係を捉える能力が向上します。100のカテゴリと20,000以上の画像を含むMP-100ベンチマークで評価した結果、EdgeCapeは1ショット設定で最先端の結果を達成し、同様の規模の手法の中で5ショット設定でリードし、キーポイントの局所化精度を著しく向上させました。当該コードは公開されています。
3Dにおけるオープンワールドの部位セグメンテーションを研究しています:任意のテキストクエリに基づいて、任意のオブジェクト内の任意の部位をセグメント化します。従来の手法はオブジェクトカテゴリや部位語彙に制限がありました。AIの最近の進歩により、2Dでの効果的なオープンワールド認識能力が示されています。この進歩に触発され、私たちは、どのオブジェクトにもゼロショットで適用できる3D部位セグメンテーションのためのオープンワールド、直接予測モデルを提案します。私たちの手法であるFind3Dは、インターネットからの大規模な3Dアセットで一般カテゴリのポイント埋め込みモデルを人間の注釈なしでトレーニングします。これには、データを注釈付けするための基盤モデルによってパワーアップされたデータエンジンと、コントラスティブトレーニング手法が組み合わされています。私たちは、次にベストな手法に比べてmIoUで最大3倍の改善を達成し、複数のデータセットで強力なパフォーマンスと汎化を実現しています。私たちのモデルは、既存のベースラインよりも6倍から300倍以上高速です。一般カテゴリのオープンワールド3D部位セグメンテーションの研究を促進するために、一般オブジェクトと部位のためのベンチマークも公開しています。プロジェクトのウェブサイト:https://ziqi-ma.github.io/find3dsite/