翻訳付きの日次キュレーションされたAI研究論文
Transformerは最近、視覚表現を学習するための強力なツールとして登場しました。本論文では、教師ありおよび自己教師ありViTネットワークの特徴マップに存在するアーティファクトを特定し、その特性を明らかにします。これらのアーティファクトは、推論時に主に画像の低情報量な背景領域に現れる高ノルムのトークンに対応しており、内部計算のために再利用されています。この問題を解決するために、Vision Transformerの入力シーケンスに追加のトークンを提供するというシンプルでありながら効果的なソリューションを提案します。このソリューションは、教師ありおよび自己教師ありモデルの両方において問題を完全に解決し、密な視覚予測タスクにおける自己教師あり視覚モデルの新たな最先端を確立し、より大規模なモデルを用いた物体発見手法を可能にし、最も重要なこととして、下流の視覚処理のためのより滑らかな特徴マップとアテンションマップを実現します。
我々はAny-Modality Augmented Language Model(AnyMAL)を提案する。これは、多様な入力モダリティ信号(テキスト、画像、ビデオ、オーディオ、IMUモーションセンサーなど)を推論し、テキスト応答を生成する統一モデルである。AnyMALは、LLaMA-2(70B)を含む最先端の大規模言語モデル(LLM)の強力なテキストベースの推論能力を継承し、事前学習されたアライナーモジュールを通じてモダリティ固有の信号を共通のテキスト空間に変換する。さらに、マルチモーダルLLMの能力を強化するため、単純なQ&Aを超えた多様なトピックとタスクをカバーする手動で収集されたマルチモーダル命令セットでモデルをファインチューニングする。我々は、人間評価と自動評価を含む包括的な実証分析を行い、様々なマルチモーダルタスクにおいて最先端の性能を実証する。
近年の3Dコンテンツ作成の進展は、主にスコア蒸留サンプリング(SDS)を介した最適化ベースの3D生成に依存しています。有望な結果が示されているものの、これらの手法はサンプルごとの最適化が遅く、実用的な使用が制限されることが多いです。本論文では、効率性と品質を同時に実現する新しい3Dコンテンツ生成フレームワークであるDreamGaussianを提案します。私たちの重要な洞察は、生成的な3Dガウシアンスプラッティングモデルを設計し、それに伴うメッシュ抽出とUV空間でのテクスチャリファインメントを組み合わせることです。Neural Radiance Fieldsで使用される占有プルーニングとは対照的に、3Dガウシアンの段階的な密度化が3D生成タスクにおいて大幅に速く収束することを実証します。テクスチャ品質をさらに向上させ、下流のアプリケーションを容易にするために、3Dガウシアンをテクスチャ付きメッシュに変換する効率的なアルゴリズムを導入し、詳細をリファインするための微調整ステージを適用します。広範な実験により、提案手法の優れた効率性と競争力のある生成品質が実証されています。特に、DreamGaussianは単一視点画像からわずか2分で高品質なテクスチャ付きメッシュを生成し、既存の手法と比較して約10倍の高速化を達成します。
大規模言語モデル(LLM)は、人工知能の分野に革命をもたらし、従来は人間にしかできないと考えられていた自然言語処理タスクを可能にしました。本論文では、私たちの大規模言語モデルシリーズの第一弾となるQwenを紹介します。Qwenは、さまざまなパラメータ数を備えた個別のモデルを含む包括的な言語モデルシリーズです。これには、ベースの事前学習済み言語モデルであるQwenと、人間のアライメント技術を用いてファインチューニングされたチャットモデルであるQwen-Chatが含まれます。ベース言語モデルは、多数の下流タスクにおいて一貫して優れた性能を示し、特に人間のフィードバックからの強化学習(RLHF)を用いて訓練されたチャットモデルは非常に競争力があります。これらのチャットモデルは、エージェントアプリケーションを作成するための高度なツール使用能力と計画能力を備えており、コードインタプリタの使用などの複雑なタスクにおいても、より大規模なモデルと比較しても印象的な性能を発揮します。さらに、ベース言語モデルを基に構築された、コーディングに特化したモデルであるCode-QwenとCode-Qwen-Chat、および数学に焦点を当てたモデルであるMath-Qwen-Chatを開発しました。これらのモデルは、オープンソースモデルと比較して大幅に性能が向上しており、プロプライエタリモデルにわずかに及ばない程度です。
本論文では、ガウススプラッティングに基づくテキストから3D生成(GSGEN)を提案する。これは高品質な3Dオブジェクトを生成するための新しいアプローチである。従来の手法では、3D事前情報と適切な表現の欠如により、不正確な幾何学と限られた忠実度が課題となっていた。我々は、最新の最先端表現である3Dガウススプラッティングを活用し、3D事前情報の組み込みを可能にする明示的な性質を利用して既存の欠点を解決する。具体的には、本手法は幾何学最適化段階と外観精緻化段階を含む漸進的最適化戦略を採用する。幾何学最適化では、通常の2D SDS損失とともに3D幾何学事前情報の下で粗い表現を確立し、合理的で3D整合性のある大まかな形状を保証する。その後、得られたガウシアンに対して反復的な精緻化を行い、詳細を充実させる。この段階では、コンパクトネスに基づく高密度化によりガウシアンの数を増やし、連続性を向上させ忠実度を高める。これらの設計により、本アプローチは繊細な詳細とより正確な幾何学を備えた3Dコンテンツを生成できる。広範な評価により、特に高周波成分の捕捉において本手法の有効性が実証された。ビデオ結果はhttps://gsgen3d.github.ioで提供されている。コードはhttps://github.com/gsgen3d/gsgenで公開されている。
最大32,768トークンまでの効果的なコンテキストウィンドウをサポートする一連の長文脈LLMを提案します。我々のモデルシリーズは、Llama 2を基盤に、より長いトレーニングシーケンスと長文テキストをアップサンプリングしたデータセットを用いて継続事前学習を行うことで構築されています。言語モデリング、合成コンテキストプロービングタスク、および幅広い研究ベンチマークにおいて詳細な評価を実施しました。研究ベンチマークでは、我々のモデルはほとんどの通常タスクで一貫した改善を示し、長文脈タスクではLlama 2を大幅に上回る結果を達成しました。特に、人間による注釈付きの長文指示データを必要としないコスト効率の良い指示チューニング手順により、70Bバリアントは既にgpt-3.5-turbo-16kの長文脈タスク全体の性能を凌駕しています。これらの結果に加えて、我々の手法の個々のコンポーネントについて詳細な分析を提供します。Llamaの位置エンコーディングについて掘り下げ、長い依存関係をモデル化する際のその限界について議論します。また、事前学習プロセスにおける様々な設計選択の影響を検証し、データミックスやシーケンス長のトレーニングカリキュラムを含めます。我々のアブレーション実験は、事前学習データセットに豊富な長文テキストを含むことが強力な性能を達成する鍵ではないことを示唆しており、長文脈の継続事前学習が長いシーケンスでゼロから事前学習を行うよりも効率的で同様に効果的であることを経験的に検証しました。
私たちは、アニメ産業において重要でありながら十分に研究されていない課題、すなわちカートゥーン線画のインビトゥイーニングに取り組むことを目指しています。インビトゥイーニングは、2つの白黒線画の中間フレームを生成するプロセスであり、時間とコストがかかるため、自動化の恩恵を受けることができます。しかし、ラスター画像全体のマッチングとワープに依存する既存のフレーム補間手法は、線画のインビトゥイーニングには不向きであり、しばしば繊細な線構造を損なうぼやけたアーティファクトを生成します。線画の精度とディテールを保つために、私たちは新しいアプローチであるAnimeInbetを提案します。これは、ラスター線画を端点のグラフに幾何学的に変換し、インビトゥイーニングタスクを頂点再配置を伴うグラフ融合問題として再定義します。私たちの手法は、線画のスパース性と独特の構造を効果的に捉えながら、インビトゥイーニング中にディテールを保持することができます。これは、私たちの新しいモジュール、すなわち頂点幾何埋め込み、頂点対応Transformer、効果的な頂点再配置メカニズム、および可視性予測器によって可能になります。私たちの手法を訓練するために、MixamoLine240という新しい線画データセットを導入します。これは、グラウンドトゥルースのベクタライゼーションとマッチングラベルを備えています。私たちの実験は、AnimeInbetが高品質でクリーンかつ完全な中間線画を合成し、特に大きな動きがある場合において、既存の手法を量的および質的に上回ることを示しています。データとコードはhttps://github.com/lisiyao21/AnimeInbetで利用可能です。
コントラスティブ・ランゲージ・イメージ事前学習(CLIP)は、コンピュータビジョンの研究と応用を進展させ、現代の認識システムや生成モデルを推進するアプローチです。私たちは、CLIPの成功の主な要因はそのデータであり、モデルアーキテクチャや事前学習の目的ではないと考えています。しかし、CLIPはそのデータと収集方法について非常に限られた情報しか提供しておらず、そのモデルパラメータを用いてデータを再現しようとする研究が生まれています。本研究では、CLIPのデータキュレーション手法を明らかにし、それをコミュニティに公開することを目指して、メタデータキュレーション・ランゲージ・イメージ事前学習(MetaCLIP)を紹介します。MetaCLIPは、生データプールとメタデータ(CLIPの概念から派生)を取り込み、メタデータ分布に基づいてバランスの取れたサブセットを生成します。私たちの実験研究は、モデルとトレーニング設定を厳密に分離し、データのみに焦点を当てています。400Mの画像-テキストデータペアを持つCommonCrawlにMetaCLIPを適用すると、複数の標準ベンチマークでCLIPのデータを上回ります。ゼロショットImageNet分類では、MetaCLIPは70.8%の精度を達成し、ViT-BモデルでのCLIPの68.3%を上回ります。1Bのデータにスケーリングし、同じトレーニング予算を維持すると、72.4%を達成します。私たちの観察は、ViT-Hが80.5%を達成するなど、さまざまなモデルサイズで一貫しています。キュレーションコードとメタデータに基づくトレーニングデータ分布は、https://github.com/facebookresearch/MetaCLIP で公開されています。
CLIPなどの視覚言語モデルに基づいて構築された分類器は、幅広い画像分類タスクにおいて驚異的なゼロショット性能を示しています。先行研究では、プロンプトテンプレートに基づいて各クラスの記述子セットを自動生成するさまざまな方法が検討されてきました。これには、手動で設計されたテンプレートから、大規模言語モデルから得られたテンプレート、さらにはランダムな単語や文字から構築されたテンプレートまで含まれます。一方で、エンコードされたクラス記述子からゼロショット分類器を導出する方法はほとんど変化がなく、具体的には、エンコードされたクラス記述子の平均とエンコードされた画像とのコサイン類似度を最大化するクラスに分類するという方法が一般的です。しかし、すべてのクラス記述子を均等に重み付けすることは、特定の記述子が与えられた画像の視覚的手がかりにより適合する場合には最適ではない可能性があります。本研究では、ゼロショット分類器を自動調整する方法であるAutoCLIPを提案します。AutoCLIPは、推論時にクラス記述子と画像の類似度の統計に基づいて、各プロンプトテンプレートに画像ごとの重みを割り当てます。AutoCLIPは完全に教師なしで、非常に低いオーバーヘッドを持ち、数行のコードで簡単に実装できます。我々は、幅広い視覚言語モデル、データセット、およびプロンプトテンプレートにおいて、AutoCLIPがベースラインを一貫して上回り、最大で3パーセントポイントの精度向上を達成することを示します。
道路利用者の将来の行動を確実に予測することは、自動運転車両の安全な計画において重要な要素です。本論文では、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、マルチエージェントの運動予測をこの領域における言語モデリングタスクとして定式化します。我々のモデルであるMotionLMは、いくつかの利点を提供します。第一に、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数最適化を必要としません。代わりに、シーケンストークンに対する平均対数確率を最大化するという単一の標準的な言語モデリング目的関数を活用します。第二に、個々のエージェントの軌跡生成を行った後に相互作用を評価するといった事後的なヒューリスティックを回避します。その代わりに、MotionLMは単一の自己回帰デコードプロセスにおいて、相互作用するエージェントの将来に対する結合分布を生成します。さらに、モデルの逐次的な因数分解により、時間的に因果関係のある条件付きロールアウトが可能となります。提案手法は、Waymo Open Motion Datasetにおけるマルチエージェント運動予測の新たな最先端性能を確立し、インタラクティブチャレンジリーダーボードで1位を獲得しました。
近年の生成画像技術の進展により、未知の領域に高品質で説得力のある画像コンテンツを生成するアウトペインティングやインペインティングモデルが登場しています。しかし、これらのモデルが生成するコンテンツは、本来のシーンに関する十分な文脈を持たないため、必然的に非本物となります。本研究では、画像の欠損部分を本来あるべきコンテンツで埋める新しい生成アプローチであるRealFillを提案します。RealFillは、シーンのわずかな参照画像のみを使用してパーソナライズされる生成インペインティングモデルです。これらの参照画像はターゲット画像と位置合わせされている必要はなく、視点、照明条件、カメラの絞り、または画像スタイルが大幅に異なる場合でも使用できます。パーソナライズされた後、RealFillはターゲット画像を、元のシーンに忠実で視覚的に説得力のあるコンテンツで完成させることができます。我々は、多様で挑戦的なシナリオをカバーする新しい画像補完ベンチマークでRealFillを評価し、既存のアプローチを大きく上回る性能を示すことを確認しました。詳細な結果はプロジェクトページ(https://realfill.github.io)をご覧ください。
大規模言語モデル(LLM)の急速な進化に伴い、その能力と限界を評価する包括的な評価スイートの必要性が高まっています。既存のLLMリーダーボードでは、他の論文で報告されたスコアを参照することが多く、設定やプロンプトが一貫していないため、結果を良くするために都合の良い設定やプロンプトを選ぶことが無意識に促される可能性があります。本研究では、OpenAI Evalsを基盤としたオープンソースで再現可能なLLM評価スイート「GPT-Fathom」を紹介します。10以上の主要なLLMおよびOpenAIのレガシーモデルを、7つの能力カテゴリーにわたる20以上の精選されたベンチマークで、統一された設定のもと体系的に評価します。OpenAIの過去のモデルに関する回顧的研究は、GPT-3からGPT-4への進化の道筋について貴重な洞察を提供します。現在、コミュニティはGPT-3がどのようにしてGPT-4へと進化したか、例えばコードデータの追加がLLMの推論能力を向上させるか、SFTやRLHFによってLLMのどの側面が改善されるか、アライメント税がどれほどかといった技術的詳細を知りたがっています。我々の分析は、これらの疑問の多くに光を当て、先進的なLLMの透明性を高めることを目指しています。
多様で現実的な動画を、広範な意味的クラスにわたる自然な音声サンプルに基づいて生成するタスクを考察する。このタスクにおいて、生成される動画は入力音声と全体的にも時間的にも整合している必要がある。全体的には、入力音声は出力動画全体と意味的に関連付けられ、時間的には、入力音声の各セグメントはその動画の対応するセグメントと関連付けられる。既存のテキスト条件付き動画生成モデルと事前学習済み音声エンコーダモデルを利用する。提案手法は、軽量なアダプタネットワークに基づいており、音声ベースの表現をテキストから動画を生成するモデルが期待する入力表現にマッピングすることを学習する。これにより、テキスト、音声、そして我々の知る限り初めて、テキストと音声の両方に基づく動画生成が可能となる。本手法を、音声と動画のサンプルが意味的に多様な3つのデータセットで広範に検証し、さらに、生成された動画と入力音声サンプルの整合性を評価する新しい評価指標(AV-Align)を提案する。AV-Alignは、両モダリティにおけるエネルギーピークの検出と比較に基づいている。最近の最先端手法と比較して、本手法は、内容と時間軸の両面において、入力音声により良く整合した動画を生成する。また、本手法によって生成された動画は、視覚的な品質が高く、より多様であることも示す。
ロボットが多様なタスクを実行するためには、意味的に豊かでありながらコンパクトで、タスク駆動型の知覚と計画に効率的な3D世界表現が必要です。最近のアプローチでは、大規模な視覚言語モデルから得られる特徴量を活用して、3D表現に意味情報をエンコードしようと試みています。しかし、これらのアプローチでは、ポイントごとの特徴ベクトルを持つマップが生成される傾向があり、大規模な環境ではスケーラビリティに欠け、また環境内のエンティティ間の意味的空間関係を含んでいないため、下流の計画タスクに有用ではありません。本研究では、ConceptGraphsという、3Dシーンに対するオープン語彙のグラフ構造表現を提案します。ConceptGraphsは、2D基盤モデルを活用し、その出力をマルチビュー関連付けによって3Dに融合することで構築されます。この結果得られる表現は、大規模な3Dデータセットを収集したりモデルをファインチューニングしたりする必要なく、新しい意味クラスに一般化します。我々は、抽象的な(言語による)プロンプトで指定され、空間的および意味的概念にわたる複雑な推論を必要とする、いくつかの下流計画タスクを通じて、この表現の有用性を実証します。(プロジェクトページ: https://concept-graphs.github.io/ 解説動画: https://youtu.be/mRhNkQwRYnc)
言語モデル、特にTransformerベースのアーキテクチャの成功は、他の分野にも波及し、小分子、タンパク質、ポリマーを扱う「科学的言語モデル」の台頭をもたらしました。化学分野では、言語モデルが分子発見サイクルの加速に貢献しており、創薬の初期段階における有望な最近の研究成果がその証左となっています。本稿では、分子発見における言語モデルの役割を概観し、デノボ創薬、物性予測、反応化学におけるその強みを強調します。また、科学的言語モデリングの分野への参入障壁を下げる貴重なオープンソースソフトウェア資産を紹介します。最後に、チャットボットインターフェースと計算化学ツールへのアクセスを組み合わせた未来の分子設計のビジョンを描きます。本稿は、言語モデルがどのように化学発見を加速するか、また今後どのように活用されるかを理解したい研究者、化学者、AI愛好家にとって貴重なリソースとなるでしょう。
本研究では、創造的かつ制御可能な映像編集の課題に対処するための多機能フレームワークであるCCEditを提案します。CCEditは、幅広いユーザー編集要件に対応し、映像の構造と外観を分離する革新的なアプローチを通じて、強化された創造的制御を実現します。構造的整合性を維持するためにControlNetアーキテクチャを活用しつつ、DreamBoothやLoRAなどの最先端のテキストから画像への生成パーソナライゼーション技術と互換性のある適応型時間モジュールをシームレスに統合しています。さらに、参照条件付き映像編集を導入し、キーフレーム編集というより管理しやすいプロセスを通じて、ユーザーが映像編集に対して精密な創造的制御を行使できるようにしました。広範な実験的評価により、提案するCCEditフレームワークの卓越した機能性と編集能力が確認されています。デモ動画はhttps://www.youtube.com/watch?v=UQw4jq-igN4でご覧いただけます。