翻訳付きの日次キュレーションされたAI研究論文
DALLE-3やStable Diffusionのようなテキストから画像を生成するモデルが急速に普及する一方で、これらのモデルはしばしば幻覚、バイアス、安全でない低品質な出力といった課題に直面しています。これらの問題を効果的に解決するためには、マルチモーダルな評価者からのフィードバックに基づいて、これらのモデルを望ましい挙動に整合させることが重要です。しかし、その重要性にもかかわらず、現在のマルチモーダル評価者はその能力と限界について不十分な評価しか受けておらず、整合性の欠如や安全でないファインチューニングの結果を招く可能性があります。この問題に対処するため、我々はMJ-Benchという新しいベンチマークを導入しました。このベンチマークは、画像生成モデルに対するフィードバックを提供するマルチモーダル評価者を、整合性、安全性、画像品質、バイアスという4つの主要な観点から評価するための包括的な選好データセットを組み込んでいます。具体的には、小規模なCLIPベースのスコアリングモデル、オープンソースのVLM(例:LLaVAファミリー)、クローズドソースのVLM(例:GPT-4o、Claude 3)など、多様なマルチモーダル評価者を、選好データセットの各分解されたサブカテゴリで評価します。実験の結果、クローズドソースのVLMは一般的により良いフィードバックを提供し、GPT-4oが平均して他の評価者を上回ることが明らかになりました。オープンソースのVLMと比較して、小規模なスコアリングモデルはテキストと画像の整合性および画像品質に関してより良いフィードバックを提供する一方で、VLMはその強力な推論能力により、安全性と生成バイアスに関してより正確なフィードバックを提供します。フィードバックのスケールに関するさらなる研究では、VLM評価者は一般的に数値スケールよりも自然言語(リッカート尺度)でより正確で安定したフィードバックを提供できることが明らかになりました。特に、これらのマルチモーダル評価者からの個別のフィードバックを使用してエンドツーエンドでファインチューニングされたモデルに対する人間の評価は同様の結論を提供し、MJ-Benchの有効性をさらに確認しています。すべてのデータ、コード、モデルはhttps://huggingface.co/MJ-Benchで利用可能です。
大規模言語モデル(LLM)は、高リソース言語タスクにおいて驚異的な翻訳能力を発揮しますが、低リソース言語での性能は、事前学習中の多言語データの不足によって制限されています。この問題に対処するため、我々は35,000 A100-SXM4-80GB GPU時間を費やし、LLaMAシリーズモデルに対して大規模な多言語継続事前学習を実施し、100以上の言語に対応した翻訳サポートを実現しました。語彙拡張やデータ拡張などのトレーニング戦略を包括的に分析することで、LLaMAXを開発しました。注目すべきは、一般化能力を損なうことなく、LLaMAXが既存のオープンソースLLM(10 spBLEUポイント以上)を大幅に上回る翻訳性能を達成し、Flores-101ベンチマークにおいて専門的な翻訳モデル(M2M-100-12B)と同等の性能を発揮することです。広範な実験により、LLaMAXが堅牢な多言語基盤モデルとして機能し得ることが示されました。コード(\url{https://github.com/CONE-MT/LLaMAX/.})とモデル(\url{https://huggingface.co/LLaMAX/.})は公開されています。
本論文は、各タイムステップで新たな情報を処理する際に一定時間を要する、非常に長いシーケンス向けのニューラルアーキテクチャの構築という課題に取り組む。我々のアプローチであるAssociative Recurrent Memory Transformer (ARMT)は、ローカルコンテキストのためのTransformerの自己注意機構と、長いコンテキストに分散されたタスク固有情報を保存するためのセグメントレベル再帰に基づいている。ARMTが連想検索タスクにおいて既存の手法を上回り、最近のBABILongマルチタスク長文コンテキストベンチマークにおいて、5000万トークンにわたる単一事実質問に79.9%の精度で答えることで新たな性能記録を樹立したことを示す。トレーニングと評価のためのソースコードはGitHubで公開されている。
画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションや動きの実行など、多様な編集を実行できるべきであり、これには多くの形式の推論が必要です。現在の一般的な指示に基づく編集モデルは、アクションや推論中心の編集において重大な欠点を抱えています。オブジェクト、属性、またはスタイルの変更は、視覚的に静的なデータセットから学習することが可能です。一方で、アクションや推論中心の編集のための高品質なデータは不足しており、物理的なダイナミクス、時間性、空間的推論などをカバーする全く異なるソースから得る必要があります。この目的のために、私たちはAURORAデータセット(Action-Reasoning-Object-Attribute)を慎重にキュレーションしました。これは、ビデオやシミュレーションエンジンから人間が注釈を付け、キュレーションした高品質なトレーニングデータのコレクションです。私たちは、高品質なトレーニングデータの重要な側面に焦点を当てています:トリプレット(ソース画像、プロンプト、ターゲット画像)は、プロンプトによって記述された単一の意味のある視覚的変更を含み、つまり、ソース画像とターゲット画像の間の真に最小限の変更です。私たちのデータセットの価値を示すために、AURORAでファインチューニングされたモデルを、8つの多様な編集タスクをカバーする新しい専門家によるベンチマーク(AURORA-Bench)で評価しました。私たちのモデルは、人間の評価者によって判断された場合、以前の編集モデルを大幅に上回りました。自動評価においては、以前のメトリクスに重要な欠陥があることを発見し、意味的に難しい編集タスクでの使用に注意を促します。代わりに、識別的理解に焦点を当てた新しい自動メトリクスを提案します。私たちの取り組みが、(1)高品質なトレーニングデータセットと評価ベンチマークのキュレーション、(2)重要な評価の開発、(3)最先端のモデルのリリースを通じて、一般的な画像編集のさらなる進展を促進することを願っています。
従来のオープンソース大規模マルチモーダルモデル(LMM)にはいくつかの制約がありました:(1)視覚表現と事前学習済み大規模言語モデル(LLM)を整合させるためにアダプターが必要で、ネイティブな統合が欠如していること、(2)単一モーダルの生成に限定されていること、(3)マルチモーダル生成をサポートする場合でも、視覚モデリングと生成に別個の拡散モデルに依存していることです。これらの制約を緩和するため、我々はAnoleを提案します。Anoleは、画像とテキストの交互生成のためのオープンで自己回帰型のネイティブ大規模マルチモーダルモデルです。AnoleはMeta AIのChameleonを基盤として構築し、データ効率とパラメータ効率の両面で革新的なファインチューニング戦略を採用しています。Anoleは高品質で一貫性のあるマルチモーダル生成能力を実証しています。我々はモデル、トレーニングフレームワーク、および指示チューニングデータをオープンソースとして公開しました。
大規模言語モデルは現実世界のアプリケーションで広く使用されており、大量の文書に対する推論を担うことが多い。この分野での注目すべき進展は、拡張されたコンテキスト能力を備えたモデルであり、一部は200万トークン以上を処理できる。しかし、このような長いコンテキストモデルの能力は、実際の生産システムにおいてまだ不確かであり、現実世界のユースケースでの性能をベンチマークする必要性が生じている。この課題に対処するため、我々は標準的なテストの限界を克服する評価フレームワーク「SWiM」を提案する。8つの長いコンテキストモデルに対してこのフレームワークをテストした結果、GPT-4やClaude 3 Opusのような強力なモデルでも、コンテキストウィンドウの中央に情報がある場合に性能が低下する(lost-in-the-middle効果)ことが明らかになった。次に、このベンチマークに加えて、我々はmedoid votingというシンプルだが効果的なトレーニング不要のアプローチを提案する。このアプローチでは、コンテキスト内の文書をランダムに並べ替えて複数回応答を生成し、その中からmedoid(中央値)となる回答を選択することで、この効果を緩和する。我々は、単一文書のQAタスクにおいてmedoid votingを評価し、最大24%の精度向上を達成した。
本論文では、指示ベースの画像編集のための大規模(約400万の編集サンプル)で自動生成されたデータセットであるUltraEditを紹介する。我々の主要なアイデアは、InstructPix2PixやMagicBrushなどの既存の画像編集データセットの欠点を解決し、大規模で高品質な画像編集サンプルを生成するための体系的なアプローチを提供することである。UltraEditは以下のような特徴を有する:1)大規模言語モデル(LLM)の創造性と人間の評価者による文脈内編集例を活用することで、より広範な編集指示を提供する;2)データソースは写真や芸術作品などの実画像に基づいており、テキストから画像を生成するモデルだけに依存するデータセットと比較して、多様性が高くバイアスが低減されている;3)高品質で自動生成された領域アノテーションにより強化された、領域ベースの編集もサポートする。実験結果から、UltraEditで訓練された標準的な拡散ベースの編集ベースラインは、MagicBrushおよびEmu-Editベンチマークで新記録を樹立することが示された。分析により、実画像のアンカーと領域ベースの編集データの重要性がさらに確認された。データセット、コード、モデルはhttps://ultra-editing.github.ioで公開されている。
近年の3D AIGC(人工知能生成コンテンツ)の進展により、テキストや画像から直接3Dオブジェクトを生成することが可能となり、アニメーションや製品設計における大幅なコスト削減が期待されています。しかし、3Dアセットの詳細な編集やカスタマイズは依然として長年の課題となっています。具体的には、3D生成手法は、2D画像生成手法と比較して、細かな指示に正確に従う能力が不足しています。例えば、3D AIGCでおもちゃを生成できたとしても、望まないアクセサリーや衣装が付いている場合を想像してください。この課題に取り組むため、私たちはTailor3Dという新しいパイプラインを提案します。これは、編集可能な両面画像から迅速にカスタマイズされた3Dアセットを生成するものです。私たちは、テイラーのようにオブジェクトを局所的に変更したり、全体的なスタイル転送を行ったりする能力を模倣することを目指しています。複数の視点から3Dアセットを作成するのとは異なり、両面画像を使用することで、個々の視点を編集する際に発生する重複領域の矛盾を解消します。具体的には、まず前面図を編集し、その後マルチビューディフュージョンを通じてオブジェクトの背面図を生成します。その後、背面図を編集します。最後に、Dual-sided LRM(両面低ランクモデル)を提案し、前面と背面の3D特徴をシームレスに結合します。これは、テイラーが衣類の前面と背面を縫い合わせるのと同様です。Dual-sided LRMは、前面と背面図の不完全な一貫性を修正し、編集能力を向上させ、メモリ負荷を軽減しながら、LoRA Triplane Transformerを用いて統一された3D表現にシームレスに統合します。実験結果は、Tailor3Dが3D生成および編集タスク(3D生成フィルやスタイル転送など)において有効であることを示しています。Tailor3Dは、ユーザーフレンドリーで効率的な3Dアセット編集ソリューションを提供し、各編集ステップはわずか数秒で完了します。
オープンソースのコード大規模言語モデル(LLM)の最近の進展は、GPT-3.5やGPT-4といった強力なクローズドソースのLLMから生成されたデータをファインチューニングすることで、驚くべきコーディング能力を示しています。本論文では、クローズドソースのLLMにクエリを送るのではなく、自身からデータを生成することで、インストラクションチューニングされたコードLLMをさらに改善する方法を探ります。私たちの重要な観察は、形式的言語(コード)と非形式的言語(自然言語)の翻訳の間の不整合です。形式的言語を非形式的言語に翻訳する方が、その逆よりも直感的であるという点です。この観察に基づいて、私たちはINVERSE-INSTRUCTを提案します。これは、逆にコードスニペットから指示を要約するものです。具体的には、コードのためのインストラクションチューニングコーパスと、その結果として得られたインストラクションチューニングされたコードLLMを前提として、コードLLMにコード要約と自己評価を通じて、元のコーパスに対する追加の高品質な指示を生成させます。その後、元のコーパスと自己生成されたコーパスを組み合わせてベースLLMをファインチューニングし、より強力なインストラクションチューニングされたLLMを生成します。私たちは、InverseCoderと名付けた一連のコードLLMを提示し、Pythonのテキストからコード生成、多言語コーディング、データサイエンスコード生成など、幅広いベンチマークで元のコードLLMの性能を上回ることを示します。
大規模なテキストからビデオ(T2V)拡散モデルは、最近、自然言語の記述を驚くほどフォトリアルなビデオに変換する前例のない能力を示しています。有望な結果にもかかわらず、重要な課題が残っています。これらのモデルは、複数の概念とアクションの間の複雑な構成的な相互作用を完全に理解するのに苦労しています。この問題は、いくつかの単語が最終的なビデオに支配的な影響を与え、他の概念を覆い隠すときに発生します。この問題に対処するために、私たちはVicoを導入します。Vicoは、すべての概念が適切に表現されることを明示的に保証する、構成的なビデオ生成のための汎用フレームワークです。その核心において、Vicoは入力トークンが生成されたビデオにどのように影響するかを分析し、モデルを調整して、いかなる単一の概念も支配的にならないようにします。具体的には、Vicoはすべての層からアテンションの重みを抽出し、空間的・時間的アテンショングラフを構築し、ソーステキストトークンからビデオターゲットトークンへの最大フローとして影響を推定します。拡散モデルにおけるアテンションフローの直接計算は通常不可能ですが、サブグラフフローに基づく効率的な近似を考案し、高速でベクトル化された実装を採用することで、フロー計算を管理可能で微分可能にします。ノイジーな潜在変数を更新してこれらのフローをバランスさせることで、Vicoは複雑な相互作用を捉え、結果としてテキスト記述に密接に従うビデオを生成します。私たちの方法を、構成的なT2Vとビデオ編集のための複数の拡散ベースのビデオモデルに適用します。実験結果は、私たちのフレームワークが生成されたビデオの構成の豊かさと精度を大幅に向上させることを示しています。私たちのウェブサイトhttps://adamdad.github.io/vico/をご覧ください。
大規模視覚言語モデル(LVLM)は、与えられた画像に存在しない物体を生成する「物体幻覚」に悩まされることが多い。現在の物体幻覚のベンチマークは主に単一の物体クラスの存在に焦点を当てており、個々の実体ではなく、この研究では、複数の物体に同時に注目するタスクにおいて、モデルがどのように誤認識するか(例えば、存在しない物体を発明したり、注意が散漫になったりするか)を体系的に調査する。本論文では、単一画像内の物体クラスの分布をテスト中に考慮し、視覚的参照プロンプトを使用して曖昧さを排除する自動評価プロトコルである「認識ベースの物体プロービング評価(ROPE)」を導入する。多物体幻覚を引き起こす潜在的要因の包括的な実証研究と分析を通じて、以下のことが明らかになった。(1) LVLMは、単一の物体に注目する場合と比較して、複数の物体に注目する際により多くの幻覚に悩まされる。(2) テストされた物体クラスの分布が幻覚の挙動に影響を与え、LVLMがショートカットや疑似相関に従う可能性を示唆している。(3) 幻覚的挙動は、データ固有の要因、顕著性と頻度、およびモデルの内在的挙動に影響を受ける。我々は、現実的な視覚シーンで頻繁に発生する複数の物体を認識し、推論する能力をLVLMに持たせ、その課題を軽減するための進捗を定量化し、洞察を提供することを目指す。
近年、大規模言語モデル(LLM)の台頭に伴い、プラグアンドプレイ型AIシステムへの需要が高まっています。さまざまなAI技術の中でも、プロンプトエンジニアリングは特に重要な役割を果たしています。しかし、ユーザーは学習曲線の急勾配や多大な時間投資のためにプロンプト作成に苦労することが多く、既存の自動プロンプトエンジニアリング(APE)モデルも使いにくい場合があります。この問題を解決するため、我々はLLMベースのプラグアンドプレイ型APEシステムであるPASを提案します。PASは、高品質で自動生成されたプロンプト補完データセットで訓練されたLLMを活用し、優れた性能を発揮します。包括的なベンチマークにおいて、PASは従来のAPEモデルと比較して平均6.09ポイントの改善を示し、最先端(SoTA)の結果を達成しました。さらに、PASは非常に効率的で、わずか9000のデータポイントでSoTA性能を実現しています。加えて、PASは追加の人的労力を必要とせずに、自律的にプロンプト拡張データを生成することが可能です。その柔軟性により、既存のすべてのLLMと互換性があり、幅広いタスクに適用できます。PASは人間による評価においても優れた結果を示し、ユーザー向けのプラグインとしての適性を裏付けています。この高い性能、効率性、柔軟性を兼ね備えたPASは、プロンプトエンジニアリングの改善を通じてLLMの使いやすさと効果を高めるための貴重なシステムです。
専門タスク向けにデプロイ可能なモデルを作成する最も信頼性の高い方法の一つは、十分な量の高品質なタスク固有のデータを取得することです。しかし、専門タスクの場合、そのようなデータセットが存在しないことがよくあります。既存の手法では、大規模言語モデル(LLM)からそのようなデータを作成し、その知識をより小さなモデルに蒸留することでこの問題に対処しています。しかし、これらの手法はLLMの出力品質に制限され、繰り返しの多いまたは誤ったデータを生成しがちです。本研究では、Retrieval Based Distillation(ReBase)という手法を提案します。この手法では、まず豊富なオンラインソースからデータを検索し、それをドメイン固有のデータに変換します。この方法により、データの多様性が大幅に向上します。さらに、ReBaseはChain-of-Thought推論を生成し、LLMの推論能力を蒸留します。4つのベンチマークでこの手法をテストした結果、SQuADでは最大7.8%、MNLIでは1.37%、BigBench-Hardでは1.94%の性能向上が確認されました。
最近の研究によると、深層学習モデルの単純な特徴を好む帰納的バイアスが、ショートカット学習の原因の一つである可能性が示唆されています。しかし、モデルが学習する無数の特徴の複雑さを理解することには、これまで限定的な焦点しか当てられていませんでした。本研究では、V-informationに基づき、特徴を抽出するために複雑な計算的変換を必要とするかどうかを捉える、新しい特徴複雑度の定量化指標を導入します。このV-information指標を用いて、標準的なImageNet学習済み視覚モデルから抽出された、最終層の直前の層における方向として表現された10,000の特徴の複雑度を分析します。本研究では、以下の4つの主要な問いに取り組みます。第一に、複雑度の関数として特徴がどのように見えるかを問い、モデル内に単純な特徴から複雑な特徴までのスペクトラムが存在することを明らかにします。第二に、特徴が学習のどの段階で獲得されるかを問い、単純な特徴が学習の初期段階で支配的であり、より複雑な特徴が徐々に現れることを発見します。第三に、単純な特徴と複雑な特徴がネットワークのどこを流れるかを調査し、単純な特徴が残差接続を介して視覚的階層をバイパスする傾向があることを明らかにします。第四に、特徴の複雑度とネットワークの意思決定における重要性との関連性を探り、複雑な特徴は重要性が低い傾向があることを発見します。驚くべきことに、重要な特徴は学習中に早期の層でアクセス可能になり、沈殿プロセスのように、モデルがこれらの基礎要素を基に構築できるようになります。
本論文は、ユーザーが「選択」することで生成視覚AIにおける創造的制御を推進する。従来のテキストやスケッチベースの手法から離れ、我々は初めてユーザーが視覚概念をパーツ単位で選択し、創造的な取り組みを行うことを可能にする。その結果、選択された視覚概念を正確に捉えた細粒度の生成が実現され、全体的に忠実で説得力のある結果が保証される。これを実現するために、まずオブジェクトを教師なし特徴クラスタリングによってパーツに分解する。次に、パーツをテキストトークンにエンコードし、それらに対してエントロピーベースの正規化アテンション損失を導入する。この損失設計により、モデルはオブジェクトのパーツ構成に関する一般的な事前トポロジー知識を学習し、さらに新しいパーツ構成に一般化して、生成が全体的に忠実に見えることを保証する。最後に、ボトルネックエンコーダを使用してパーストークンを投影する。これにより、共有知識を活用し、インスタンス間の情報交換を促進することで、忠実度が向上し、学習が加速される。論文と補足資料に掲載された視覚結果は、PartCraftが「魅力的」で創造的な鳥を例に、高度にカスタマイズされた革新的な創造物を制作する際の説得力のある力を示している。コードはhttps://github.com/kamwoh/partcraftで公開されている。
エンティティリンキング(EL)モデルは、与えられた文脈に基づいて言及を対応するエンティティにマッピングするよう十分に訓練されています。しかし、ELモデルは、トレーニングデータが限られているため、ロングテールエンティティの曖昧性解消に苦戦します。一方、大規模言語モデル(LLM)は、珍しい言及を解釈するのに優れています。しかし、専門的な訓練が不足しているため、LLMは正しいエンティティIDを生成するのに苦労します。さらに、LLMをELタスクに特化して訓練するには多大なコストがかかります。これらの洞察を基に、我々はLLM-Augmented Entity Linking(LLMAEL)を提案します。これは、LLMによるデータ拡張を通じてエンティティリンキングを強化するプラグアンドプレイアプローチです。我々は、LLMを知識豊富な文脈拡張ツールとして活用し、言及中心の説明を追加入力として生成しつつ、タスク固有の処理には従来のELモデルを維持します。6つの標準データセットでの実験では、基本的なLLMAELがほとんどの場合でベースラインELモデルを上回り、ファインチューニングされたLLMAELは全ての6つのベンチマークで新たな最先端の結果を達成しました。
大規模言語モデル(LLM)は、さまざまなドメインや広範なアプリケーションにおける長文質問応答タスクで幻覚(hallucination)を示す。現在の幻覚検出および軽減データセットは、ドメインとサイズが限られており、膨大な労力コストと既存の幻覚アノテーターの信頼性不足により、スケーリングが困難である。LLMの幻覚をスケーラブルに監視するために、本論文では、幻覚アノテーションデータセットを段階的に拡大し、幻覚アノテーターの精度を向上させる反復的自己学習フレームワークを提案する。Expectation Maximization(EM)アルゴリズムに基づき、各反復において、まず幻覚アノテーションパイプラインを適用してスケールアップされたデータセットにアノテーションを行い、その後、そのデータセットでより正確な幻覚アノテーターを訓練する。この新しい幻覚アノテーターは、次の反復で使用される幻覚アノテーションパイプラインに採用される。大規模な実験結果により、最終的に得られた7Bパラメータの幻覚アノテーターがGPT-4の性能を上回り、HaluEvalとHalluQAにおいてゼロショット推論による新たな最先端の幻覚検出結果を達成することが示された。このアノテーターは、大規模データセット上でさまざまなLLMの幻覚レベルを評価するだけでなく、LLM生成の幻覚を軽減するのにも役立ち、HaluEvalにおけるNatural Language Inference(NLI)メトリックが25%から37%に向上した。