翻訳付きの日次キュレーションされたAI研究論文
私たちは、長文脈の入力と出力をサポートする汎用性の高い大規模視覚言語モデルであるInternLM-XComposer-2.5(IXC-2.5)を紹介します。IXC-2.5は、わずか7BのLLMバックエンドでGPT-4Vレベルの能力を達成し、さまざまなテキスト画像理解と構成アプリケーションで優れています。24Kのインタリーブされた画像テキストコンテキストでトレーニングされ、RoPE外挿を介して96Kの長文脈にシームレスに拡張できます。この長文脈能力により、IXC-2.5は広範な入力と出力コンテキストを必要とするタスクで優れた性能を発揮します。以前の2.0バージョンと比較して、InternLM-XComposer-2.5は視覚言語理解において3つの主要なアップグレードを特徴としています:(1)超高解像度理解、(2)細粒度ビデオ理解、(3)マルチターンマルチ画像対話。理解に加えて、IXC-2.5は、追加のLoRAパラメータを使用してテキスト画像構成の2つの魅力的なアプリケーションに拡張します:(1)ウェブページの作成、(2)高品質のテキスト画像記事の構成。IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回りました。また、16の主要なタスクでGPT-4VとGemini Proを上回るか、それらと競合しています。InternLM-XComposer-2.5は、https://github.com/InternLM/InternLM-XComposerで公開されています。
下流のアプリケーションシナリオを密接に反映するベンチマークは、表形式機械学習(ML)における新たな研究の円滑な採用に不可欠です。本研究では、既存の表形式ベンチマークを検証し、学術界で利用可能なデータセットにおいて、産業グレードの表形式データに共通する2つの特性が十分に反映されていないことを明らかにしました。第一に、実世界の展開シナリオでは、表形式データは時間とともに変化することが多いです。これはモデルのパフォーマンスに影響を与え、正確なモデル評価のためには時間ベースの訓練およびテスト分割が必要となります。しかし、既存の学術用表形式データセットには、そのような評価を可能にするタイムスタンプメタデータが欠けていることが多いです。第二に、生産環境におけるデータセットの相当部分は、大規模なデータ収集および特徴量エンジニアリングパイプラインに由来します。特定のデータセットごとに、これは予測的、非情報的、および相関的な特徴量の絶対数および相対数に異なる影響を与え、結果としてモデル選択に影響を及ぼす可能性があります。これらの学術ベンチマークにおけるギャップを埋めるため、我々はTabReDを導入します。TabReDは、金融からフードデリバリーサービスまで幅広いドメインをカバーする8つの産業グレードの表形式データセットのコレクションです。我々は、TabReDが提供する特徴量が豊富で時間的に進化するデータ設定において、多数の表形式MLモデルを評価します。時間ベースのデータ分割による評価は、学術ベンチマークでより一般的なランダム分割による評価と比較して、異なるメソッドランキングをもたらすことを示します。さらに、TabReDデータセットにおいては、MLPのようなアーキテクチャとGBDTが最良の結果を示し、より洗練されたDLモデルの有効性はまだ証明されていません。
Classifier-free guidance (CFG)は、条件付き拡散モデルの品質を向上させるための標準的な手法となっています。しかし、CFGを適用するためには、メインの拡散モデルと並行して無条件モデルを訓練するか、あるいはnull条件を定期的に挿入するように訓練手順を変更する必要があります。また、CFGを無条件モデルに拡張する明確な方法も存在しません。本論文では、CFGの基本原理を再検討し、特別な訓練手順を必要とせずにCFGの利点を提供する新しい手法、independent condition guidance (ICG)を提案します。我々のアプローチは、条件付き拡散モデルの訓練プロセスを簡素化し、任意の事前訓練済み条件付きモデルに対して推論中にも適用可能です。さらに、すべての拡散ネットワークにエンコードされたタイムステップ情報を活用することで、CFGの拡張版であるtime-step guidance (TSG)を提案します。TSGは無条件モデルを含む任意の拡散モデルに適用可能です。我々のガイダンス手法は実装が容易で、CFGと同様のサンプリングコストを有します。広範な実験を通じて、ICGが様々な条件付き拡散モデルにおいて標準的なCFGと同等の性能を発揮することを示します。さらに、TSGが条件情報に依存することなく、CFGと同様の方法で生成品質を向上させることを実証します。
視覚プロジェクターは、マルチモーダル大規模言語モデル(MLLM)において、視覚エンコーダと大規模言語モデル(LLM)の間の重要な橋渡しとして機能します。通常、MLLMは単純なMLPを採用し、1対1の変換を通じてすべての視覚コンテキストを保持します。しかし、視覚トークンは冗長であり、高解像度画像を扱う際に大幅に増加する可能性があり、MLLMの効率を著しく損なうことがあります。最近の研究では、リサンプラーやアブストラクターを導入して、生成される視覚トークンの数を削減しようとしています。しかし、これらの手法は細かい詳細を捉えられず、MLLMの視覚推論能力を損なうことがあります。本研究では、新しい視覚プロジェクターを提案し、粗から細へのスキームを採用して、凝縮された視覚トークンを生成するために豊かな特性を注入します。具体的には、まず視覚特徴を低解像度のポイントクエリとして補間し、全体の視覚表現を基盤として提供します。次に、高解像度の多レベル領域ベースの手がかりを細かい参照キーと値として利用する領域からポイントへの注入モジュールを導入し、それらが対応するローカルコンテキスト領域内で完全に吸収されるようにします。このステップにより、粗いポイントクエリが効果的に更新され、後続のLLM推論のための豊かなクエリに変換されます。大規模な実験により、我々のアプローチが視覚トークンを75%~89%圧縮しつつ、多様なベンチマークで同等またはそれ以上の性能を達成し、大幅に高い効率を実現することが示されています。ソースコードはhttps://github.com/CircleRadon/TokenPackerで公開されています。
近年、音声生成タスクは多くの研究関心を集めている。実用的なアプリケーションと音声生成を統合するためには、正確な時間制御性が不可欠である。本研究では、時間制御を可能にする音声生成フレームワーク「PicoAudio」を提案する。PicoAudioは、モデル設計を工夫することで時間情報を統合し、音声生成をガイドする。具体的には、データクローリング、セグメンテーション、フィルタリング、および細粒度の時間整合性を持つ音声-テキストデータのシミュレーションを活用している。主観的および客観的評価の結果、PicoAudioはタイムスタンプと発生頻度の制御性において、現在の最先端生成モデルを大幅に上回ることが示された。生成サンプルはデモウェブサイトhttps://PicoAudio.github.ioで公開されている。
拡散モデル(DMs)は生成学習に革命をもたらしました。これらのモデルは、データを単純なガウス分布にエンコードするために拡散プロセスを利用します。しかし、複雑で潜在的に多峰性を持つデータ分布を単一の連続的なガウス分布にエンコードすることは、不必要に困難な学習問題を引き起こすと考えられます。本論文では、この課題を簡素化するために、補完的な離散潜在変数を導入したDiscrete-Continuous Latent Variable Diffusion Models(DisCo-Diff)を提案します。我々は、エンコーダによって推論される学習可能な離散潜在変数をDMsに追加し、DMとエンコーダをエンドツーエンドで学習します。DisCo-Diffは事前学習済みネットワークに依存しないため、フレームワークとして普遍的に適用可能です。離散潜在変数を導入することで、DMの複雑なノイズからデータへのマッピングを学習する際の曲率が低減され、学習が大幅に簡素化されます。さらに、オートリグレッシブトランスフォーマーを用いて離散潜在変数の分布をモデル化しますが、DisCo-Diffでは少数の離散変数と小さなコードブックしか必要としないため、このステップは簡単です。我々は、DisCo-Diffをトイデータ、いくつかの画像合成タスク、および分子ドッキングで検証し、離散潜在変数を導入することで一貫してモデルの性能が向上することを確認しました。例えば、DisCo-DiffはODEサンプラーを用いて、クラス条件付きImageNet-64/128データセットにおいて最先端のFIDスコアを達成しました。
大規模言語モデル(LLMs)は、その卓越した推論能力、汎用性、そして多様な領域における流暢さで知られており、音声関連タスクの強化に向けた有望な道筋を示しています。本論文では、デコーダのみのLLMsを音声テキスト翻訳(S2TT)タスクに統合することに焦点を当てます。我々は、LLMが直接エンコードされた音声表現を消費し、テキスト翻訳を生成することを可能にするデコーダのみのアーキテクチャを提案します。さらに、異なるパラメータ効率的なファインチューニング技術とタスク定式化の効果を調査します。我々のモデルは、独自データを使用せずに訓練されたモデルの中で、CoVoST 2とFLEURSにおいて最先端の性能を達成します。また、提案モデルの設計選択を検証し、LLMsをS2TTに統合するための洞察をもたらすための分析も行います。
大規模言語モデル(LLM)は、有害または一般的に許容されない出力を引き出すための手法である「ジェイルブレイク」に対して脆弱です。安全性対策は、ジェイルブレイク攻撃に対する防御効果に基づいて開発・評価されており、安全性が堅牢性と同等であるという信念を示しています。しかし、我々は、出力フィルタやアラインメントのファインチューニングといった現在の防御メカニズムが、モデルの安全性を確保するために根本的に不十分であり、今後も不十分であり続けると主張します。これらの防御は、二重意図のクエリや、無害な出力を組み合わせて有害な目的を達成する能力から生じるリスクに対処できていません。この重要なギャップを埋めるため、我々は、モデルの出力から許容されない情報漏洩を悪用して悪意のある目的を達成する「推論的敵対者」と呼ばれる情報理論的脅威モデルを導入します。これらは、特定の許容されない出力を生成させることのみを目的とする、一般的に研究されているセキュリティ敵対者とは区別されます。我々は、質問の分解と回答の集約を通じて、推論的敵対者を自動化する可能性を示します。安全性を保証するために、我々は検閲メカニズムのための情報検閲基準を定義し、許容されない情報の漏洩を制限します。この制限を保証する防御メカニズムを提案し、安全性と有用性の間の本質的なトレードオフを明らかにします。我々の研究は、安全なLLMをリリースするための要件と、それに伴う有用性のコストについて、初めて理論的に根拠のある理解を提供します。
位置バイアスは、現代の言語モデル(LMs)において広く見られる問題であることが証明されており、モデルが与えられたコンテキスト内での位置に基づいてコンテンツを優先する傾向があります。このバイアスは、予期せぬモデルの失敗を引き起こし、さまざまなアプリケーションにおける性能、堅牢性、信頼性を損なうことがしばしばあります。私たちのメカニズム分析によると、位置バイアスは、ほぼすべての最先端のLMsで採用されている2つのコンポーネントに起因しています:因果的注意(causal attention)と相対的位置エンコーディング(relative positional encodings)です。具体的には、因果的注意は一般的にモデルに遠くのコンテンツを優先させる傾向があり、RoPEなどの相対的位置エンコーディングは近くのコンテンツを優先することを、検索拡張型質問応答(QA)の分析に基づいて明らかにしました。さらに、物体検出に関する私たちの実証研究は、視覚言語モデル(VLMs)にも位置バイアスが存在することを示しています。 上記の分析に基づき、私たちは、異なる入力セグメントの順序(例:LM-as-a-judgeにおけるオプション、QAにおける検索されたドキュメント)によって引き起こされる位置バイアスを、トレーニング不要のゼロショット方式で排除することを提案します。私たちの方法は、セグメント間の因果的注意を双方向注意に変更し、入力プロンプトで提供された順序ではなく、モデルの注意値を使用してセグメントの相対的な順序を決定します。これにより、セグメントレベルでの位置不変推論(Position-INvariant inferencE, PINE)を可能にします。位置バイアスを排除することで、LM-as-a-judgeや検索拡張型QAなど、位置バイアスが広く存在する下流タスクにおいて、モデルの性能と信頼性が向上します。 特に、PINEは、LMsを推論ペアの評価に適応させる際に非常に有用です:ほとんどの場合で8から10パーセントポイントの性能向上を一貫して提供し、Llama-3-70B-InstructをRewardBenchの推論サブセットにおいてGPT-4-0125-previewよりも優れた性能に導きます。