翻訳付きの日次キュレーションされたAI研究論文
私たちは、テキスト豊かな画像理解、視覚的参照およびグラウンディング、およびマルチ画像推論の能力を向上させるために設計された新しいファミリーのマルチモーダル大規模言語モデル(MLLMs)であるMM1.5を提案します。MM1アーキテクチャを基に構築されたMM1.5は、モデルトレーニングにデータ中心のアプローチを採用し、継続的な事前トレーニングのための高品質OCRデータや合成キャプション、および監督されたファインチューニングのための最適化された視覚的な指示チューニングデータの混合物の影響を体系的に探求しています。当社のモデルは1Bから30Bのパラメータを持ち、密なモデルと専門家の混合(MoE)の両方を包括しており、慎重なデータキュレーションとトレーニング戦略が、小規模(1Bおよび3B)でも強力なパフォーマンスを生み出すことが示されています。さらに、ビデオ理解向けに設計されたMM1.5-Videoと、モバイルUI理解向けに調整されたMM1.5-UIという2つの専門的なバリアントを紹介しています。広範な経験的研究と削除を通じて、最終的な設計に影響を与えるトレーニングプロセスと意思決定に関する詳細な洞察を提供し、MLLM開発における将来の研究に有益なガイダンスを提供しています。
大規模言語モデルの命令に従う能力により、人間は自然な方法でAIエージェントとやり取りすることができます。ただし、特定の長さの応答を生成する必要がある場合、大規模言語モデルは、数値制約を正確に認識することの困難さから、しばしばユーザーのニーズを満たすのに苦労します。生成された応答の長さを制御する大規模言語モデルの能力を探るために、私たちはターゲット長生成タスク(TLG)を提案し、モデルが指定された応答長に適合する性能を評価するための2つのメトリクス、Precise Match(PM)とFlexible Match(FM)を設計します。さらに、Meta Length Tokens(MLTs)を用いた新しいモデルに依存しないアプローチであるRulerを紹介します。Rulerは、指示に基づいた長さ制約に従って指定された長さの応答を生成する能力をLLMに装備します。さらに、Rulerは、長さ制約が明示的に提供されていない場合でも適切なMLTを自動生成することができ、優れた汎用性と汎用性を示します。包括的な実験は、異なるLLMにおけるRulerの効果を示し、ターゲット長生成タスクにおいて、例えば、PMで平均27.97の利益、FMで平均29.57の利益を得ることができます。さらに、Rulerの効力と汎用性をさらに裏付けるために包括的な削除実験を実施します。私たちのコードとデータは、https://github.com/Geaming2002/Ruler で入手可能です。
私たちは、ハイパーコネクションを提案します。これは、残差接続の代替手段として機能するシンプルで効果的な手法です。このアプローチは、残差接続の変種で見られる一般的な欠点、つまり勾配の消失と表現の崩壊の間のシーソーエフェクトに特に対処しています。理論的には、ハイパーコネクションにより、ネットワークが異なる深さの特徴間の接続の強度を調整し、レイヤーを動的に再配置することが可能となります。我々は、大規模言語モデルの事前学習に焦点を当てた実験を行い、密なモデルや疎なモデルを含む場合、ハイパーコネクションが残差接続よりも著しい性能向上を示すことを確認しました。視覚タスクに関する追加の実験も同様の改善を示しています。この手法が広範囲のAI問題において広く適用可能であり、有益であると期待しています。
様々な領域にわたる特定の対話データセットの希少性は、学術的なトピックから日常会話まで、さまざまなアプリケーションのための対話システムの開発を制限しています。既存の研究は、対話データセットがあまり一般的すぎるか、必要なスケールのトレーニング用データと一致しないニッチな領域の対話データセットによって制約されることがよくあります。このギャップに対処するために、DiaSynthを導入します。DiaSynthは、幅広い領域で高品質で文脈豊かな対話を生成できる合成対話生成フレームワークです。私たちのアプローチは、自然な人間の対話を密接に模倣する文脈豊かで特定の領域に密接な対話を作成するために、Chain of Thought(CoT)推論を用いたLarge Language Model(LLM)を用いて、シミュレートされたペルソナ、サブトピック、多様な会話特性を取り入れた対話を動的に生成する点で既存のフレームワークと異なります。DiaSynthは、現実的な会話を模倣するカスタマイズされた対話を生成します。私たちは、DialogSumとSAMSumからのfew-shot例を使用して合成データを生成することで実験を行います。合成データでファインチューニングされた事前学習言語モデルは、ベースモデルを16.47%上回ります。また、ドメイン内データと合成データでファインチューニングされたモデルの比較では、合成データがドメイン内データの分布の90.48%を捉えることができることが示されます。生成されたデータの品質もLLMのサイズとともに向上します。これらの結果は、DiaSynthが従来のデータ収集方法に対する堅牢な代替手段としての潜在能力を検証しています。
注意メカニズム、特にソフトマックスアテンションは、GPTなどのトランスフォーマーベースのモデルの成功に重要な役割を果たしてきました。ただし、シーケンスの長さに関連するソフトマックスアテンションの二次メモリ複雑度は、より長いシーケンスの処理において重要な課題を提起しています。本研究では、コサイン類似性によってソフトマックス演算を置き換えた新しいアテンションメカニズムであるCottentionを紹介します。コサイン類似性の特性を活用し、アテンション方程式を再配置することで、Cottentionはシーケンスの長さに関連するネイティブな線形メモリ複雑度を実現し、ソフトマックスアテンションよりもメモリ効率が高くなります。Cottentionを有限の隠れ状態を持つ再帰ニューラルネットワーク(RNN)として再定式化できることを示し、推論時の一定のメモリ使用を可能にします。Cottentionを双方向BERTおよび因果GPTのタスクで評価し、ソフトマックスアテンションと比較可能な性能を示しながら、メモリ要件を大幅に削減します。効率的な計算を確保するために、Cottention用のカスタムCUDAカーネルを開発します。結果は、Cottentionがソフトマックスアテンションに対する有望な代替手段であり、ネイティブな線形メモリ複雑度と推論中の一定のメモリフットプリントを維持する能力により、性能を犠牲にすることなく、より長いシーケンスの処理を可能にすることを示しています。
ロボットの操作に関する以前の研究は、基盤となる3Dモーションの制約と利用可能性に関する理解が限られている。これらの課題に対処するために、我々はUniAffと呼ばれる包括的なパラダイムを提案する。これは、3Dオブジェクト中心の操作とタスク理解を統一した枠組みで統合するものである。具体的には、19のカテゴリからの900の可動式オブジェクトと12のカテゴリからの600のツールで構成される、操作に関連する主要属性でラベル付けされたデータセットを構築した。さらに、MLLMsを活用して、操作に関連する表現を推論し、利用可能性の認識や3Dモーションの制約に関する推論を行った。シミュレーションと実世界の両方での包括的な実験により、UniAffがツールと可動式オブジェクトのロボット操作の汎化を大幅に向上させることが示された。UniAffが将来の統一されたロボット操作タスクの一般的な基準として機能することを期待している。画像、動画、データセット、およびコードは、プロジェクトのウェブサイトで公開されています:https://sites.google.com/view/uni-aff/home
現在、一般的なロボットモデルのトレーニングにおける障害の1つは異質性です。従来のロボット学習方法は、しばしば特定の具現化のためにデータを収集してトレーニングし、これは高コストで過学習しやすいです。この研究は、異なる具現化およびスケールでのロボットデータによる異種事前トレーニングを通じてポリシー表現の学習問題を研究しています。私たちは異種事前トレーニングトランスフォーマー(HPT)を提案します。これは、ポリシーニューラルネットワークの大規模で共有可能なトランクを事前にトレーニングして、タスクと具現化に関係ない共有表現を学習します。この一般的なアーキテクチャは、異なる具現化からの特定の固有運動感覚と視覚入力をトークンの短いシーケンスに整列させ、そのようなトークンを処理して異なるタスクのロボットの制御にマッピングします。最近の大規模な多具現実世界のロボットデータセットやシミュレーション、展開されたロボット、人間のビデオデータセットを活用し、異質性を持つポリシーの事前トレーニングを調査します。我々は、トレーニング目標のスケーリング振る舞いを調査する実験を行い、52のデータセットに及ぶ範囲で検討します。HPTはいくつかのベースラインを上回り、複数のシミュレーターベンチマークや実世界の環境で未知のタスクにおいて、微調整されたポリシーのパフォーマンスを20%以上向上させます。コードやビデオについては、プロジェクトのウェブサイト(https://liruiw.github.io/hpt/)をご覧ください。
拡散モデルによって生成された画像は、デジタルアートやビジュアルマーケティングにおいてますます人気が高まっています。しかしながら、このような生成された画像は既存のコンテンツを複製する可能性があり、コンテンツの独自性の課題を提起します。既存の画像コピー検出(ICD)モデルは、手作業で作成されたレプリカを検出する際には正確ですが、拡散モデルからの課題を見落としています。これが私たちにICDiffを導入する動機となります。ICDiffは、拡散モデルに特化した初のICDです。このために、Diffusion-Replication(D-Rep)データセットを構築し、それに対応する革新的な深層埋め込み手法を提案します。D-Repは、最先端の拡散モデル(Stable Diffusion V1.5)を使用して、40,000の画像レプリカペアを生成し、これらは0(非複製)から5(完全複製)までの6つの複製レベルに手動で注釈付けされます。私たちの手法であるPDF-Embeddingは、各画像レプリカペアの複製レベルを確率密度関数(PDF)に変換し、これを監督信号とします。直感的に、隣接する複製レベルの確率は連続的で滑らかであるべきです。実験結果は、PDF-EmbeddingがD-Repテストセットでプロトコル駆動型の手法や非PDF選択肢を上回ることを示しています。さらに、PDF-Embeddingを利用することで、よく知られた拡散モデルの複製比率がオープンソースギャラリーに対して10%から20%に及ぶことがわかります。
本論文では、コード編集に関するフィードバックを提供するモデルを訓練するための包括的な強化学習環境であるCoffee-Gymを提案します。Coffee-Gymには、主に2つの要素が含まれています:(1) コーディング問題のための人間のコード編集トレースと誤ったコードの編集に対する機械生成のフィードバックを含むデータセットであるCoffee;(2) 修正されたコードのパフォーマンスを単体テストで評価することで、フィードバックの有用性を忠実に反映する報酬関数であるCoffeeEval。これらにより、Coffee-Gymは、強化学習でフィードバックモデルを訓練するための高品質なデータセットの入手困難さに対処し、SOTA報酬モデル(GPT-4)よりもより正確な報酬を提供します。Coffee-Gymを適用することで、オープンソースのコードLLMのコード編集を向上させるフィードバックモデルを導き出し、これらをクローズドソースのLLMと比較可能にします。データセットとモデルのチェックポイントを一般に公開します。
大規模言語モデル(LLMs)がますます高度化するにつれて、それらが構成的汎化を示す能力―訓練中に遭遇しなかった新しい方法で学習したスキルを組み合わせる能力―が注目を集めています。特に、訓練データを超えたシナリオでのこの種の汎化は、AIの安全性と整合性の研究においても大きな関心事です。最近の研究では、SKILL-MIX評価が導入され、モデルに特定のk-タプルの言語スキルを使用した短い段落を作成するように課題が与えられました。小規模モデルはk=3でも作成に苦労しましたが、GPT-4のような大規模モデルはk=5および6ではかなりうまく機能しました。 本論文では、SKILL-MIXに類似したセットアップを使用して、より小さなモデルが例から構成的汎化を学習する能力を評価します。修辞、文学、推論、心の理論、常識を含む多様な言語スキルを利用し、GPT-4を使用して、kスキルのランダムなサブセットを示すテキストサンプルを生成しました。これらの組み合わせスキルテキストで7Bおよび13Bパラメータモデルを後続のファインチューニングし、kの値を増やすことで、次の結果が明らかになりました:(1)k=2および3のスキルの組み合わせでトレーニングすると、モデルは訓練中にそのような例を見たことがないにもかかわらず、k=4および5のスキルを持つテキストを作成する能力が顕著に向上します。 (2)スキルカテゴリがトレーニングと保持されたグループに分割された場合、モデルは、ファインチューニング中にトレーニングスキルしか見ていないにもかかわらず、テスト中に保持されたスキルを持つテキストを作成する能力が大幅に向上し、以前に見たことのないスキルでもトレーニングアプローチの効果を示しています。この研究は、スキル豊富な(おそらく合成の)テキストをトレーニングに取り入れることが、モデルの構成能力を大幅に向上させる可能性があることも示唆しています。
質問分解は、複雑な質問に答えさせるための効果的な戦略として登場しています。ただし、既存の手法は主に単一モード言語モデルに焦点を当てている一方で、多モード大規模言語モデル(MLLMs)の質問分解能力はまだ未開拓です。この論文では、MLLMs上での視覚的な質問分解を探求します。具体的には、デコンポーズされたサブ質問の品質を評価するためのデータセットといくつかの評価基準を含む体系的な評価フレームワークを導入し、既存のMLLMsが高品質のサブ質問を生成するのに苦労していることが明らかになります。この制限に対処するために、モデルの質問分解能力を向上させるための特定のファインチューニングデータセットであるDecoVQA+を提案します。適切な選択的分解を実行するためのモデルを可能にすることを目指して、効率的なファインチューニングパイプラインを提案します。ファインチューニングパイプラインには、提案されたデータセットと選択的分解のためのトレーニング目的が含まれます。ファインチューニングされたMLLMsは、サブ質問の品質と選択的質問分解の方針において著しい改善を示し、さらに、VQAベンチマークデータセットでの選択的分解による高い精度も達成します。
オーディオウォーターマーキング技術は、メッセージをオーディオに埋め込み、正確にウォーターマーク付きオーディオからメッセージを抽出します。従来の手法は、信号の時間領域または変換領域にウォーターマークを埋め込むためのアルゴリズムを、専門家の経験に基づいて開発してきました。深層ニューラルネットワークの発展により、深層学習ベースのニューラルオーディオウォーターマーキングが登場しました。従来のアルゴリズムと比較して、ニューラルオーディオウォーターマーキングは、トレーニング中にさまざまな攻撃を考慮することでより優れた頑健性を実現します。ただし、現在のニューラルウォーターマーキング手法は、低容量と不十分な知覚性の問題に直面しています。さらに、極めて重要であり、ニューラルオーディオウォーターマーキングにおいてさらに顕著なウォーターマークの位置特定の問題は、十分に研究されていませんでした。本論文では、効率的な位置特定のためのデュアル埋め込みウォーターマーキングモデルを設計します。また、頑健性トレーニングにおける逆可能なニューラルネットワーク内の攻撃レイヤーの影響を考慮し、モデルを改善してその合理性と安定性の両方を向上させます。実験結果は、提案されたモデル、IDEAWが、既存の手法と比較して、より高い容量とより効率的な位置特定能力を持ち、さまざまな攻撃に耐えることを示しています。