翻訳付きの日次キュレーションされたAI研究論文
構造情報は、文書、表、チャートなどのテキスト豊富な画像の意味を理解するために重要である。既存の視覚的文書理解のためのマルチモーダル大規模言語モデル(MLLMs)はテキスト認識能力を備えているが、テキスト豊富な文書画像に対する一般的な構造理解能力を欠いている。本研究では、視覚的文書理解における構造情報の重要性を強調し、MLLMsの性能を向上させるための統一構造学習(Unified Structure Learning)を提案する。我々の統一構造学習は、文書、ウェブページ、表、チャート、自然画像の5つのドメインにわたる構造認識解析タスクとマルチグレインのテキスト位置特定タスクから構成される。構造情報をより良くエンコードするために、レイアウト情報を維持しつつ、畳み込みを通じて水平方向に隣接するパッチを統合することで視覚的特徴の長さを短縮する、シンプルで効果的なビジョン・トゥ・テキストモジュールH-Reducerを設計した。これにより、LLMが高解像度画像をより効率的に理解できるようになる。さらに、公開されているテキスト豊富な画像に対して構造認識テキストシーケンスとマルチグレインのテキストとバウンディングボックスのペアを構築し、構造学習をサポートする包括的なトレーニングセットDocStruct4Mを構築した。最後に、文書ドメインにおける詳細な説明能力を引き出すために、小規模ながら高品質な推論チューニングデータセットDocReason25Kを構築した。我々のモデルDocOwl 1.5は、10の視覚的文書理解ベンチマークで最先端の性能を達成し、7B LLMを用いたMLLMsのSOTA性能を5/10のベンチマークで10ポイント以上向上させた。我々のコード、モデル、データセットはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5で公開されている。
本論文は、汎用性と効率性の向上を目的としたタスク非依存型プロンプト圧縮に焦点を当てている。自然言語における冗長性を考慮し、既存のアプローチではLLaMa-7Bなどの因果的言語モデルから得られる情報エントロピーに基づいて、トークンや語彙単位を削除することでプロンプトを圧縮している。しかし、情報エントロピーは最適な圧縮指標とは言えないという課題がある:(i) 一方向のコンテキストしか活用せず、プロンプト圧縮に必要なすべての重要な情報を捕捉できない可能性がある;(ii) プロンプト圧縮の目的と整合していない。 これらの課題を解決するため、我々はLLMから知識を抽出して重要な情報を失うことなくプロンプトを圧縮するためのデータ蒸留手順を提案し、同時に抽出型テキスト圧縮データセットを導入する。プロンプト圧縮をトークン分類問題として定式化し、圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。また、Transformerエンコーダを基本アーキテクチャとして使用し、双方向のコンテキストからプロンプト圧縮に必要なすべての重要な情報を捕捉する。我々のアプローチは、XLM-RoBERTa-largeやmBERTなどのより小さなモデルで圧縮目的を明示的に学習することで、レイテンシを低減する。 我々の手法を、MeetingBank、LongBench、ZeroScrolls、GSM8K、BBHなどのドメイン内およびドメイン外のデータセットで評価した。その結果、我々のモデルは小規模であるにもかかわらず、強力なベースラインを上回る性能向上を示し、異なるLLM間での頑健な汎化能力を実証した。さらに、我々のモデルは既存のプロンプト圧縮手法よりも3倍から6倍高速であり、2倍から5倍の圧縮率でエンドツーエンドのレイテンシを1.6倍から2.9倍加速した。
非構造化テキストを構造化された意味のある形式に変換し、有用なカテゴリラベルで整理することは、下流の分析やアプリケーションのためのテキストマイニングにおける基本的なステップです。しかし、ラベル分類体系を生成し、テキストベースのラベル分類器を構築するための既存の手法の多くは、依然としてドメイン専門知識と手作業によるキュレーションに大きく依存しており、そのプロセスは費用と時間がかかります。これは特に、ラベル空間が十分に定義されておらず、大規模なデータアノテーションが利用できない場合に課題となります。本論文では、これらの課題に対処するために、大規模言語モデル(LLMs)を活用します。LLMsのプロンプトベースのインターフェースは、大規模な疑似ラベルの誘導と使用を容易にします。我々は、TnT-LLMという2段階のフレームワークを提案します。このフレームワークは、LLMsを利用して、特定のユースケースにおいて最小限の人的労力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化します。第1段階では、ゼロショットの多段階推論アプローチを導入し、LLMsが反復的にラベル分類体系を生成・洗練できるようにします。第2段階では、LLMsをデータラベラーとして使用し、軽量な教師あり分類器を確実に構築、展開、大規模に提供するためのトレーニングサンプルを生成します。TnT-LLMを、オープンドメインのチャットベース検索エンジンであるBing Copilot(旧Bing Chat)のユーザー意図と会話ドメインの分析に適用します。人間による評価と自動評価指標を用いた広範な実験により、TnT-LLMが最先端のベースラインと比較して、より正確で関連性の高いラベル分類体系を生成し、大規模な分類において精度と効率の良いバランスを達成することが示されました。また、実世界のアプリケーションにおける大規模テキストマイニングのためにLLMsを使用する際の課題と機会について、実践的な経験と洞察を共有します。
オープンソースの大規模言語モデル(LLMs)は、様々な自然言語処理(NLP)タスクにおいて大きな成功を収めているが、エージェントとしての振る舞いにおいては、APIベースのモデルに比べてまだ大きく劣っている。一般的なLLMsにエージェント能力を統合する方法は、重要なかつ緊急の課題となっている。本論文では、まず以下の3つの重要な観察結果を示す:(1)現在のエージェント訓練用コーパスは、フォーマットの遵守とエージェント推論が混在しており、事前訓練データの分布から大きく乖離している;(2)LLMsは、エージェントタスクに必要な能力に対して異なる学習速度を示す;(3)現在のアプローチは、エージェント能力を向上させる際に幻覚(hallucination)を引き起こす副作用がある。これらの知見に基づき、我々はエージェント向けに言語モデルを効果的にファインチューニングするためのAgent-FLANを提案する。訓練コーパスの慎重な分解と再設計を通じて、Agent-FLANはLlama2-7Bが様々なエージェント評価データセットにおいて、従来の最良の成果を3.5%上回ることを可能にした。また、包括的に構築されたネガティブサンプルを用いることで、Agent-FLANは我々が確立した評価ベンチマークに基づいて幻覚問題を大幅に軽減した。さらに、モデルサイズをスケールアップする際にLLMsのエージェント能力を一貫して向上させるとともに、LLMsの一般的な能力もわずかに向上させた。コードはhttps://github.com/InternLM/Agent-FLANで公開予定である。
高速なビデオ生成を実現するAnimateDiff-Lightningを提案します。本モデルは、プログレッシブな敵対的拡散蒸留を用いて、少ステップでのビデオ生成において新たな最先端性能を達成します。ビデオモダリティに適応させるための修正について議論します。さらに、複数のベース拡散モデルの確率流を同時に蒸留することを提案し、より広範なスタイル互換性を持つ単一の蒸留モーションモジュールを実現します。コミュニティの利用に向けて、蒸留されたAnimateDiff-Lightningモデルを公開できることを嬉しく思います。
大規模なロボットシステムは通常、タスクに対してテキストベースの指示に依存していますが、本研究では異なるアプローチを探求します:ロボットは人間の行動を観察することで直接タスクを推論できるか?この転換には、ロボットが人間の意図を解読し、それを自身の物理的制約と環境内で実行可能なアクションに変換する能力が必要です。本論文では、Vid2Robotという新しいエンドツーエンドのビデオベース学習フレームワークを紹介します。Vid2Robotは、操作タスクのビデオデモンストレーションと現在の視覚的観察を入力として、直接ロボットのアクションを生成します。これは、人間のビデオとロボットの軌跡からなる大規模なデータセットで訓練された統一表現モデルによって実現されます。このモデルは、クロスアテンション機構を活用して、プロンプトビデオの特徴をロボットの現在の状態に融合し、観察されたタスクを模倣する適切なアクションを生成します。さらに、ポリシーの性能を向上させるために、人間とロボットのビデオ表現間の整合性を強化する補助的なコントラスティブ損失を提案します。Vid2Robotを実世界のロボットで評価し、人間のデモンストレーションビデオを使用した場合、他のビデオ条件付きポリシーと比較して20%の性能向上を示しました。加えて、本モデルは、観察された動きをあるオブジェクトから別のオブジェクトに転送する能力や、長期的な構成といった新たな能力を示し、実世界での応用可能性を実証しています。プロジェクトウェブサイト:vid2robot.github.io
ビジョン・ランゲージモデル(VLM)は、マルチモーダルタスクにおいてますます高い性能を達成しています。しかし、特に小規模なVLMでは推論能力が限られており、一方で大規模言語モデル(LLM)の推論能力は多くの改善が見られています。本研究では、LLMの能力をVLMに転移する手法を提案します。最近導入されたChartQAにおいて、本手法をchen2023pali3のPaLI3-5B VLMに適用した結果、最先端の性能を達成し、さらにPlotQAとFigureQAにおいても大幅な性能向上を実現しました。 まず、チャート表現を改善するために、liu2023deplotによる改良版チャート・ツー・テーブル翻訳タスクを用いて事前学習段階を継続します。次に、元のトレーニングセットよりも20倍大きなデータセットを構築することを提案します。一般的な推論能力を向上させ、数値演算を改善するために、チャートのテーブル表現を使用して推論トレースを合成します。最後に、hsieh2023distillingによって導入されたマルチタスク損失を使用してモデルをファインチューニングします。 我々のバリアントであるChartPaLI-5Bは、上流のOCRシステムを使用せずに、PaLIX-55Bのような10倍大きなモデルを上回り、PaLI3-5Bベースラインと比較して推論時間を一定に保ちます。さらに、chen2023programによるシンプルなプログラム・オブ・シンクプロンプトで根拠を洗練すると、最近導入されたGemini UltraとGPT-4Vを上回る性能を発揮します。
画像や動画からガウススプラッティングによる4Dフィールドを生成することは、その制約の少なさから困難な課題です。最適化プロセスでは入力動画から測光的な参照を引き出したり、生成モデルによって規制することは可能ですが、ガウシアンの動きを直接的に監督する手法はまだ十分に研究されていません。本論文では、3Dガウシアンのダイナミクスと連続フレーム間のピクセル速度を結びつける新しい概念である「ガウシアンフロー」を提案します。ガウシアンフローは、ガウシアンのダイナミクスを画像空間にスプラッティングすることで効率的に取得できます。この微分可能なプロセスにより、オプティカルフローからの直接的な動的監督が可能になります。本手法は、特に既存の手法では扱いにくい複雑な動きを含むコンテンツにおいて、ガウススプラッティングを用いた4D動的コンテンツ生成および4D新視点合成に大きく貢献します。また、4D生成で発生する一般的な色のずれ問題も、改善されたガウシアンダイナミクスによって解決されます。広範な実験による優れた視覚的品質は、本手法の有効性を示しています。定量的および定性的な評価により、本手法が4D生成と4D新視点合成の両タスクにおいて最先端の結果を達成することが示されました。プロジェクトページ: https://zerg-overmind.github.io/GaussianFlow.github.io/
与えられた画像から高品質な3Dアセットを生成することは、AR/VRなどの様々なアプリケーションにおいて非常に望ましい。近年の単一画像からの3D生成の進展では、最適化なしに物体の3Dモデルを推論するフィードフォワードモデルが探求されている。単一物体の生成では有望な結果が得られているものの、これらの手法は複数の物体を本質的に含む複雑な3Dアセットのモデル化に苦戦することが多い。本研究では、複数のモデルを組み合わせることを学習することで、複雑な構成を持つ高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseを提案する。1) まず、モデルとデータの両方の観点からこの「複数物体ギャップ」を詳細に分析する。2) 次に、異なる物体の再構築された3Dモデルを用いて、それらのサイズ、回転角度、位置を調整し、与えられた画像に一致する3Dアセットを作成する。3) このプロセスを自動化するために、事前学習された拡散モデルから空間認識スコア蒸留サンプリング(SSDS)を適用し、物体の位置決めをガイドする。提案するフレームワークは、標準的なスコア蒸留サンプリングと比較して物体の空間的アラインメントを重視し、より正確な結果を達成する。大規模な実験により、ComboVerseが既存の手法を上回る構成3Dアセットの生成を実現することが検証された。
本研究では、事前学習済み拡散モデルを用いた高解像度画像生成に焦点を当て、モデルが学習解像度を超えて適用された際に生じる反復パターンや構造的歪みといった課題に取り組みます。この問題を解決するため、周波数領域解析の観点から、新規の学習不要アプローチであるFouriScaleを提案します。事前学習済み拡散モデルの元々の畳み込み層を、拡張技術とローパス操作を組み合わせて置き換えることで、それぞれ構造的一貫性とスケール一貫性を異なる解像度間で実現します。さらに、パディング後にクロップする戦略を加えることで、本手法は様々なアスペクト比のテキストから画像への生成を柔軟に処理できます。FouriScaleをガイダンスとして用いることで、本手法は生成画像の構造的整合性と忠実度のバランスを成功裏に保ち、任意サイズ・高解像度・高品質な生成能力を驚異的に実現します。その簡潔さと互換性から、本手法は超高解像度画像合成の今後の探求に貴重な知見を提供します。コードはhttps://github.com/LeonHLJ/FouriScaleで公開予定です。
テキストから画像への拡散モデルの顕著な有効性は、そのビデオ領域への応用可能性の広範な探求を促してきた。ゼロショット手法は、モデルの再学習を必要とせずに画像拡散モデルをビデオに拡張することを目指している。最近の手法は主に、フレーム間の対応関係を注意機構に組み込むことに焦点を当てている。しかし、有効な特徴に注意を向けるべき場所を決定する際のソフトな制約は、時として不十分であり、時間的な不整合を引き起こすことがある。本論文では、FRESCOを導入し、フレーム内の対応関係をフレーム間の対応関係とともに活用することで、より堅牢な時空間的制約を確立する。この強化により、フレーム間で意味的に類似したコンテンツの一貫した変換が保証される。単なる注意のガイダンスを超えて、我々のアプローチは、入力ビデオとの高い時空間的一貫性を達成するための特徴の明示的な更新を含み、結果として得られる翻訳ビデオの視覚的整合性を大幅に向上させる。広範な実験により、提案されたフレームワークが高品質で一貫性のあるビデオを生成する有効性が実証され、既存のゼロショット手法を上回る顕著な改善が示された。
近年、3Dガウシアンスプラッティングは、高速かつ高品質なレンダリング能力で知られる3D再構成および生成の強力な技術として登場しました。これらの課題に対処するため、本論文では、テキスト入力から効率的に3Dガウシアン表現を生成する新しい拡散ベースのフレームワーク、GVGENを提案します。私たちは2つの革新的な技術を提案します:(1) 構造化された体積表現。まず、無秩序な3Dガウシアンポイントを構造化された形式のGaussianVolumeとして配置します。この変換により、固定数のガウシアンで構成される体積内の複雑なテクスチャ詳細を捉えることが可能になります。これらの詳細表現を最適化するため、Candidate Pool Strategyと呼ばれる独自の剪定および密度化手法を提案し、選択的最適化を通じて詳細の忠実度を向上させます。(2) 粗から細への生成パイプライン。GaussianVolumeの生成を簡素化し、詳細な3Dジオメトリを持つインスタンスを生成する能力をモデルに与えるため、粗から細へのパイプラインを提案します。これは最初に基本的な幾何構造を構築し、その後完全なガウシアン属性を予測します。私たちのフレームワーク、GVGENは、既存の3D生成手法と比較して定性的および定量的な評価において優れた性能を示します。同時に、高速な生成速度(約7秒)を維持し、品質と効率のバランスを効果的に実現しています。
セマンティックUVマップを用いた3D人体のテクスチャリングは、適切に展開されたUVの取得が困難であるため、依然として課題となっています。最近のテキストから3Dへの進展により、大規模なテキストから画像(T2I)モデルを使用した多視点レンダリングの監督が可能になりましたが、生成速度、テキストの一貫性、テクスチャ品質に関する問題が残っており、既存のデータセットにおけるデータ不足を引き起こしています。本論文では、TexDreamerを紹介します。これは、初のゼロショットマルチモーダル高精細3D人体テクスチャ生成モデルです。効率的なテクスチャ適応ファインチューニング戦略を活用し、大規模T2IモデルをセマンティックUV構造に適応させながら、その元の汎化能力を保持します。新たな特徴変換モジュールを活用することで、トレーニングされたモデルは、テキストまたは画像から数秒以内に高精細な3D人体テクスチャを生成することが可能です。さらに、ArTicuLated humAn textureS(ATLAS)を紹介します。これは、最大の高解像度(1024 X 1024)3D人体テクスチャデータセットであり、5万枚の高精細テクスチャとテキスト記述を含んでいます。