翻訳付きの日次キュレーションされたAI研究論文
拡散モデルは、画像や動画の生成において顕著な成功を収めてきました。本研究では、拡散モデルが高性能なニューラルネットワークパラメータの生成にも適用可能であることを実証します。我々のアプローチはシンプルで、オートエンコーダと標準的な潜在拡散モデルを活用します。オートエンコーダは、訓練済みネットワークパラメータのサブセットから潜在表現を抽出します。その後、拡散モデルを訓練して、ランダムノイズからこれらの潜在パラメータ表現を合成します。そして、新たな表現を生成し、それをオートエンコーダのデコーダに通すことで、ネットワークパラメータの新しいサブセットとして即座に使用可能な出力を得ます。様々なアーキテクチャとデータセットにおいて、我々の拡散プロセスは、訓練済みネットワークと同等またはそれ以上の性能を持つモデルを、最小限の追加コストで一貫して生成します。特に、生成されたモデルが訓練済みネットワークとは異なる挙動を示すことを経験的に発見しました。これらの結果は、拡散モデルの多様な活用についてさらなる探求を促すものです。
一般化された指示チューニング(GLANと称する)を紹介する。これは大規模言語モデル(LLM)の指示チューニングに対する一般的でスケーラブルな手法である。従来の研究がシード例や既存のデータセットに依存して指示チューニングデータを構築するのに対し、GLANは事前にキュレーションされた人間の知識と能力の分類体系を入力として排他的に利用し、すべての学問分野にわたる大規模な合成指示データを生成する。具体的には、人間の教育システムにおける体系的な構造に着想を得て、LLMを活用して人間の知識と能力をさまざまな分野、サブ分野、そして最終的には個別の学問分野に半自動的に分解することで分類体系を構築する。その後、各学問分野に対して包括的な科目リストを生成し、再びLLMを活用して各科目に特化したシラバスを設計する。シラバスの各授業セッションに詳細化された細かいキーコンセプトを用いることで、人間の知識とスキルの全範囲にわたる多様な指示を生成することが可能となる。Mistralなどの大規模言語モデルを用いた広範な実験により、GLANが数学的推論、コーディング、学術試験、論理的推論から一般的な指示追従に至るまで、これらのタスクに特化したトレーニングデータを使用せずに複数の次元で優れていることが実証された。さらに、GLANは容易にカスタマイズが可能であり、新しい分野やスキルを分類体系に新たなノードとして組み込むだけで追加することができる。
ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例:物体、シーン、基本的な動作)を記述するテキストを出力するように設計されています。しかし、現実世界のビデオの多くは数分から数時間に及び、異なる時間的粒度にまたがる複雑な階層構造を持っています。本研究では、1秒から2時間まで大幅に異なる長さのビデオ入力を処理し、複数の階層レベルでビデオキャプションを出力できる再帰的ビデオキャプションモデル「Video ReCap」を提案します。この再帰的なビデオと言語のアーキテクチャは、異なるビデオ階層間の相乗効果を活用し、長時間のビデオを効率的に処理できます。ビデオの階層構造を学習するために、カリキュラム学習のトレーニングスキームを採用し、基本的な動作を記述するクリップレベルのキャプションから始め、セグメントレベルの記述に焦点を当て、最後に長時間のビデオの要約を生成します。さらに、Ego4Dに8,267の手動で収集された長距離ビデオ要約を追加したEgo4D-HCapデータセットを紹介します。私たちの再帰的モデルは、異なる階層レベルで柔軟にキャプションを生成できるだけでなく、EgoSchemaでのVideoQAなどの他の複雑なビデオ理解タスクにも有用です。データ、コード、およびモデルは以下で利用可能です:https://sites.google.com/view/vidrecap
私たちは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダーであるVideoPrismを紹介します。VideoPrismは、3600万の高品質なビデオとキャプションペア、および582Mのノイズの多い並列テキスト(例:ASRトランスクリプト)を含む異種コーパスで事前学習を行います。この事前学習アプローチは、セマンティックビデオ埋め込みのグローバル-ローカル蒸留とトークンシャッフリングスキームによってマスクオートエンコーディングを改善し、VideoPrismがビデオモダリティに主に焦点を当てながら、ビデオに関連する貴重なテキストを活用できるようにします。私たちは、Webビデオ質問応答から科学のためのCVまで、4つの広範なビデオ理解タスクグループでVideoPrismを広範にテストし、33のビデオ理解ベンチマークのうち30で最先端のパフォーマンスを達成しました。
大規模言語モデル(LLM)ベースのアシスタントが進化する情報ニーズに効果的に適応するためには、新しいデータを用いた継続的な学習を通じてその事実知識を更新可能にする必要がある。これを行うための標準的な手法は、新しい文書に対する継続的な事前学習と、その後の質問応答(QA)ペアを用いた指示チューニング(instruction-tuning)から成る。しかし、この手法で学習されたLLMは、文書のパープレキシティが最小化されているにもかかわらず、質問に答えることに苦労することがわかった。我々は、QAペアは一般的に単純である一方、文書はより複雑で、多くの事実を入り組んだ形で織り交ぜていることを発見した。したがって、複雑な文書から知識をエンコードするプロセスにおいて、その知識がどのように質問を通じてアクセスされるかを考慮に入れるため、LLMに文書の継続的な事前学習の前にQAペアを提示することが有益であると仮説を立てた。これに基づき、我々は文書学習の前に質問を用いて指示チューニングを行う「事前指示チューニング(Pre-Instruction-Tuning, PIT)」を提案する。これは、文書学習後に知識を抽出する方法を学ぶ標準的な指示チューニングとは対照的である。大規模な実験とアブレーションスタディにより、PITがLLMの新規文書からの知識吸収能力を大幅に向上させ、標準的な指示チューニングを17.8%上回ることが実証された。
LLM(大規模言語モデル)はNLP(自然言語処理)を変革し、さまざまな分野で有望な成果を示していますが、金融分野での可能性は十分に探求されていません。これは、徹底的な評価の欠如や金融タスクの複雑さによるものです。LLMの急速な発展と相まって、LLMのための体系的な金融評価ベンチマークの緊急な必要性が浮き彫りになっています。本論文では、FinBenを紹介します。FinBenは、金融分野におけるLLMの能力を徹底的に評価するために特別に設計された、初の包括的なオープンソース評価ベンチマークです。FinBenは、Cattell-Horn-Carroll理論に基づいて難易度の3つのスペクトラムに分類された23の金融タスクにわたる35のデータセットを包含し、LLMの帰納的推論、連想記憶、定量的推論、結晶化知能などの認知能力を評価します。GPT-4、ChatGPT、最新のGeminiを含む15の代表的なLLMを評価した結果、金融分野におけるそれらの強みと限界が明らかになりました。その結果、GPT-4は定量化、抽出、数値推論、株式取引でリードしている一方、Geminiは生成と予測で優れていることがわかりました。しかし、両者とも複雑な抽出と予測に苦戦しており、ターゲットを絞った改善の必要性が明確に示されました。指示チューニングは単純なタスクのパフォーマンスを向上させますが、複雑な推論や予測能力の改善には至りません。FinBenは、タスクとモデルの定期的な更新を通じて、金融分野におけるLLMの継続的な評価を目指し、AIの発展を促進します。
本論文では、分解された低ランクテンソルで表現されるカメラポーズとシーン形状を、2D画像のみを教師信号として共同で最適化するアルゴリズムを提案する。まず、1D信号に基づくパイロットスタディを行い、その知見を3Dシナリオに適用する。ボクセルベースのNeRFにおける素朴な共同ポーズ最適化が容易に準最適解に陥ることを明らかにする。さらに、周波数スペクトルの分析に基づき、2Dおよび3D放射輝度場に対して畳み込みガウシアンフィルタを適用し、粗から細かい訓練スケジュールを実現することで、カメラポーズの共同最適化を可能にする。分解された低ランクテンソルの特性を活用することで、我々の手法は計算オーバーヘッドを最小限に抑えつつ、力任せの3D畳み込みと同等の効果を達成する。共同最適化のロバスト性と安定性をさらに向上させるため、平滑化された2D教師信号、ランダムにスケーリングされたカーネルパラメータ、エッジ誘導型損失マスクといった技術も提案する。広範な定量的・定性的評価を通じて、提案手法が新規視点合成において優れた性能を発揮し、最適化の迅速な収束を実現することを示す。
本論文では、カメラ姿勢なしに1枚または少数の画像から物体の高密度かつ高解像度な視点を合成する3D物体再構成のためのニューラルアーキテクチャMVDiffusion++を提案する。MVDiffusion++は、驚くほどシンプルな2つのアイデアにより、優れた柔軟性とスケーラビリティを実現している:1)2D潜在特徴間の標準的なセルフアテンションが、カメラ姿勢情報を明示的に使用せずに、任意の数の条件付き視点と生成視点間の3D一貫性を学習する「姿勢フリーアーキテクチャ」、および2)トレーニング中に多数の出力視点を破棄する「視点ドロップアウト戦略」であり、これによりトレーニング時のメモリ使用量を削減し、テスト時に高密度かつ高解像度な視点合成を可能にする。トレーニングにはObjaverseを、評価にはGoogle Scanned Objectsを使用し、標準的な新規視点合成および3D再構成のメトリクスを用いて、MVDiffusion++が現在の最先端技術を大幅に上回ることを示す。また、MVDiffusion++とテキストから画像を生成するモデルを組み合わせたテキストから3Dを生成するアプリケーション例も示す。
3Dメッシュのテクスチャを手動で作成することは、熟練したビジュアルコンテンツクリエーターにとっても時間のかかる作業です。本論文では、ユーザーが提供するテキストプロンプトに基づいて、入力された3Dメッシュに自動的にテクスチャを適用する高速なアプローチを提案します。重要な点として、このアプローチでは、結果として得られるテクスチャにおいて照明と表面材質/反射率を分離し、メッシュを任意の照明環境で適切に再照明およびレンダリングできるようにします。本論文では、ControlNetアーキテクチャに基づく新しいテキストから画像へのモデルであるLightControlNetを導入します。このモデルでは、所望の照明を条件付け画像として指定することが可能です。我々のテキストからテクスチャへのパイプラインは、2段階でテクスチャを構築します。第1段階では、LightControlNetを使用して、メッシュの視覚的に一貫した参照ビューの疎なセットを生成します。第2段階では、Score Distillation Sampling (SDS)に基づくテクスチャ最適化を適用し、LightControlNetと連携してテクスチャの品質を向上させながら、表面材質と照明を分離します。我々のパイプラインは、従来のテキストからテクスチャへの手法よりも大幅に高速でありながら、高品質で再照明可能なテクスチャを生成します。
触覚は人間にとって重要な感覚モダリティであるが、これまでマルチモーダル生成言語モデルには組み込まれていなかった。これは、触覚データに対する自然言語ラベルの取得が困難であることや、触覚計測値を視覚観察と言語記述の両方と整合させる複雑さが部分的に原因となっている。このギャップを埋めるための一歩として、本研究では44Kの実世界視覚-触覚ペアの新しいデータセットを導入し、人間による英語ラベル(10%)とGPT-4Vによるテキスト擬似ラベル(90%)を付与した。このデータセットを使用して、オープン語彙分類のための視覚-言語整合触覚エンコーダと、訓練されたエンコーダを用いたテキスト生成のための触覚-視覚-言語(TVL)モデルを訓練した。結果は、触覚を組み込むことで、TVLモデルが既存の任意のモダリティペアで訓練されたモデルよりも触覚-視覚-言語の整合性を向上させる(+29%分類精度)ことを示唆している。データセットのごく一部しか人間によるラベルが付与されていないにもかかわらず、TVLモデルは、新しい触覚-視覚理解ベンチマークにおいて、GPT-4V(+12%)およびオープンソースの視覚-言語モデル(+32%)よりも視覚-触覚理解が向上していることを示している。コードとデータ:https://tactile-vlm.github.io。
マルチモーダル大規模言語モデル(MLLMs)の目覚ましい進展にもかかわらず、特にプロンプト内の欺瞞的な情報を扱う際に幻覚的な応答を生成するという課題から免れることはできていない。この脆弱性を定量的に評価するため、我々はMAD-Benchを提案する。これは、存在しない物体、物体の数、空間関係、視覚的混乱など6つのカテゴリに分けられた850のテストサンプルからなる注意深く選ばれたベンチマークである。我々は、GPT-4V、Gemini-Proから、LLaVA-1.5やCogVLMなどのオープンソースモデルまで、人気のあるMLLMsの包括的な分析を提供する。実験的には、GPT-4Vと他のモデルとの間に大きな性能差が観察され、LRV-InstructionやLLaVA-RLHFのような以前の堅牢な指示チューニングモデルも、この新しいベンチマークでは効果的ではないことがわかった。GPT-4VはMAD-Benchで75.02%の精度を達成する一方、我々の実験における他のモデルの精度は5%から35%の範囲であった。さらに、欺瞞的なプロンプトに追加の段落を加えて、モデルが質問に答える前に再考するよう促す解決策を提案する。驚くべきことに、この単純な方法で精度が倍増することもあるが、絶対的な数値はまだ満足のいくレベルには達していない。我々は、MAD-Benchが欺瞞的なプロンプトに対するモデルの耐性を高めるためのさらなる研究を刺激する貴重なベンチマークとなることを期待している。
単一文書ニュース要約においては、近年、事実的一貫性(ファクトチェック)や虚偽生成(ハルシネーション)の評価に関する研究が進み、忠実性の面で大きな進展が見られてきた。本研究では、これらの進歩が他のテキスト要約領域にも適用可能かどうかを検証する。我々は、トピックフォーカス型対話要約における新しい評価ベンチマークを提案し、様々なサイズの大規模言語モデル(LLM)によって生成された要約を対象とする。これらの要約に対して、事実的一貫性に関する二値的な文レベルの人間によるアノテーションを提供し、事実的に不整合な文の詳細な説明を付与する。分析の結果、既存のLLMはモデルのサイズに関わらず、対話領域において多くの事実的誤りを生成することが明らかになった。一方で、GPT-4を含むLLMが二値的な事実評価者として機能する場合、その性能は低く、現行の最先端の専門的な事実性評価指標に劣ることが示された。最後に、我々は精選されたエラータクソノミーを用いてハルシネーションのタイプを分析した。その結果、モデル生成要約には多様なエラーとエラー分布が存在し、非LLMベースの評価指標がLLMベースの評価者よりも全てのエラータイプをより適切に捕捉できることが明らかになった。
Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo