翻訳付きの日次キュレーションされたAI研究論文
GPT-4oの顕著なマルチモーダル機能とインタラクティブな体験は、実用的な応用における重要な役割を強調していますが、高性能なオープンソースの相当物が不足しています。本論文では、画像、ビデオ、音声、テキストのモダリティを同時に処理および分析し、高度なマルチモーダルなインタラクティブ体験と強力な性能を提供する、初のオープンソース7Bマルチモーダル大規模言語モデル(MLLM)であるBaichuan-Omniを紹介します。我々は、7Bモデルから始まり、オーディオ、画像、ビデオ、テキストのモダリティを横断的に整列させ、マルチタスクのファインチューニングを行う2つの段階を経る効果的なマルチモーダルトレーニングスキーマを提案します。このアプローチにより、言語モデルが視覚と音声データを効果的に処理できるようになります。様々なオムニモーダルおよびマルチモーダルのベンチマークで強力なパフォーマンスを示し、この貢献がマルチモーダル理解とリアルタイムインタラクションの推進においてオープンソースコミュニティに競争力のあるベースラインとなることを目指しています。
拡散モデル、例えばStable Diffusionなどは、視覚生成において著しい進歩を遂げていますが、そのパラダイムは自己回帰言語モデルと根本的に異なるため、統合された言語-ビジョンモデルの開発が複雑化しています。LlamaGenなどの最近の取り組みでは、離散的なVQVAEトークンを用いた自己回帰画像生成が試みられましたが、関与するトークンの数が多いため、この手法は非効率で遅いとされています。本研究では、Meissonicを提案し、非自己回帰のマスク画像モデリング(MIM)を、SDXLなどの最先端の拡散モデルと同等のレベルに引き上げます。包括的なアーキテクチャ革新、高度な位置符号化戦略、最適化されたサンプリング条件を組み込むことで、MeissonicはMIMの性能と効率を大幅に向上させます。さらに、高品質なトレーニングデータを活用し、人間の選好スコアに基づくマイクロ条件を統合し、特徴圧縮レイヤーを使用して画像の忠実度と解像度をさらに向上させます。我々のモデルは、高品質で高解像度の画像を生成する点で、しばしばSDXLなどの既存モデルを凌駕します。幅広い実験により、Meissonicの能力が検証され、テキストから画像への合成において新たな標準としての潜在能力が示されます。1024×1024解像度の画像を生成できるモデルチェックポイントを公開します。
情報取得増強生成(RAG)は、多くの知識ベースタスクにおいて大規模言語モデル(LLM)を効果的に強化するための重要な手段です。しかし、既存のRAG手法は、知識集約型の推論タスクに苦労しています。なぜなら、これらのタスクに必要な有用な情報が散在しているためです。この特性により、既存のRAG手法は、鍵となる情報を正確に特定し、そのようなノイズの多い拡張を用いてグローバルな推論を行うことが困難となります。本論文では、知識集約型の推論に取り組む際に人間が生の情報をさまざまな構造化された知識に変換する認知理論に着想を得て、タスクに最適な構造タイプを特定し、元の文書をこの構造化された形式に再構築し、その結果の構造に基づいて回答を推論することができる新しいフレームワークであるStructRAGを提案します。さまざまな知識集約型タスクを対象とした包括的な実験により、StructRAGが最先端の性能を達成し、特に困難なシナリオで優れた成績を収め、複雑な実世界のアプリケーションにおいてLLMを強化するための効果的な解決策としての潜在能力を示しています。
大視覚言語モデル(VLMs)は、大規模な言語モデルとビジョンエンコーダを組み合わせ、さまざまなタスクで有望性を示しています。しかし、事前学習とファインチューニングの間のドメインのギャップにより、タスク固有のアプリケーションでしばしば性能が低下します。本研究では、タスク固有のモデル(TSMs)を統合することで、VLMsのタスク固有の適応性を高める新しいフレームワークであるVITaskを紹介します。VITaskは、例示プロンプティング(EP)、応答分布の整合(RDA)、および対照的な応答チューニング(CRT)という3つの主要な戦略を採用し、VLMsの応答分布を調整することでタスク固有のパフォーマンスを向上させます。EPは、TSMの特徴がVLMsを導くことを可能にし、RDAは、例示プロンプトモデルから学習することで、TSMなしで推論中にVLMsを適応させます。CRTは、正しい画像応答ペアのランキングをさらに最適化し、望ましくない応答を生成するリスクを軽減します。9つの画像モダリティを横断する12の医学診断データセットでの実験結果は、VITaskがバニラの指示チューニングされたVLMsおよびTSMsを上回り、両モデルから補完的な特徴を効果的に統合する能力を示しています。さらに、VITaskは、柔軟なTSM統合や不完全な指示に対する堅牢性など、実用的な利点を提供し、タスク固有のVLMチューニングのための多目的かつ効率的なソリューションとなっています。当該コードは、https://github.com/baiyang4/VITask で入手可能です。
大規模言語モデル(LLM)の事前学習を加速させるためには、効率的なデータ選択が重要です。データ効率性を向上させるためにさまざまな手法が提案されていますが、これらのアプローチ間の相反点に対処し、LLMの事前学習に最適なデータ選択を実現するための研究は限られています。この問題に取り組むために、私たちは新しいマルチエージェント協調データ選択メカニズムを提案します。このフレームワークでは、各データ選択方法が独立したエージェントとして機能し、エージェントコンソールがLLMトレーニングプロセス全体ですべてのエージェントからの情報を動的に統合するよう設計されています。私たちは多くの実験的研究を行い、私たちのマルチエージェントフレームワークを評価しました。実験結果は、私たちのアプローチがデータ効率性を著しく向上させ、LLMトレーニングの収束を加速し、最先端の手法に比べて複数の言語モデルベンチマークで平均パフォーマンスが10.5%向上したことを示しています。
ディープニューラルネットワーク内の特徴が層を超えてどのように進化するかを理解することは、機械的解釈可能性における基本的な課題であり、特に多義性と特徴の重畳のために特に重要です。Sparse Autoencoders(SAEs)は、個々の層から解釈可能な特徴を抽出するために使用されてきましたが、これらの特徴を層を超えて整列させることは未解決の課題でした。本論文では、ニューラルネットワークの異なる層間でSAEの特徴を整列させるための革新的なデータフリーメソッドであるSAE Matchを紹介します。当該手法は、SAEの折りたたまれたパラメータ間の平均二乗誤差を最小化することにより特徴を整列させることを含みます。この手法は、特徴のスケールの違いを考慮するために、エンコーダとデコーダの重みに活性化閾値を組み込む技術です。Gemma 2言語モデルでの幅広い実験を通じて、当該手法が効果的に層を超えた特徴の進化を捉え、特徴の整列の品質を向上させることを示します。また、特徴が数層にわたって持続し、当該手法が層を超えて隠れた状態を近似できることも示します。本研究は、ニューラルネットワークにおける特徴のダイナミクスの理解を推進し、機械的解釈可能性研究のための新しいツールを提供しています。
最近の生成モデルの進歩により、素晴らしいコンテンツを生成する驚異的な能力が示されています。しかし、ほとんどのモデルは独自の高品質データで訓練されており、一部のモデルはパラメータを保持し、アクセス可能なアプリケーションプログラミングインタフェース(API)のみを提供しており、下流のタスクに対する利点が制限されています。公開されているリソースを使用して先進的なモデルに匹敵するテキストから画像を生成するモデルの訓練の実現可能性を探るために、EvolveDirectorを紹介します。このフレームワークは、公開APIを介して先進的なモデルとやり取りし、テキスト-画像データのペアを取得してベースモデルを訓練します。豊富なデータでの実験では、先進モデルの生成データで訓練されたモデルがその生成能力を近似できることが示されました。ただし、1,000万以上の大規模なサンプルが必要です。これには、時間、計算リソース、特に有料APIの呼び出しに関連する費用がかかります。この問題に対処するために、事前に訓練された大規模なビジョン言語モデル(VLM)を活用して、ベースモデルの進化を導きます。VLMは訓練中にベースモデルを継続的に評価し、差別、拡張、削除、および変異操作によって訓練データセットを動的に更新および洗練します。実験結果は、このパラダイムが必要なデータ量を大幅に削減することを示しています。さらに、複数の先進モデルに近づく際、EvolveDirectorはそれらによって生成された最高のサンプルを選択して強力でバランスの取れた能力を学習できます。最終的に訓練されたモデルEdgenは、これらの先進モデルを上回る性能を発揮します。コードとモデルの重みは、https://github.com/showlab/EvolveDirector で入手できます。
GPT-4、PaLM、およびLLaMAなどの大規模言語モデル(LLMs)は、さまざまな推論タスクで著しい改善を示しています。ただし、Llama-3-8BやDeepSeekMath-Baseなどのより小さなモデルは、複雑な数学的推論に苦労しています。これは、推論エラーを効果的に特定および修正できないためです。最近の反射ベースの手法は、自己反省と自己修正を可能にすることで、これらの問題に対処しようとしていますが、推論ステップでのエラーを独立して検出する際にはまだ課題があります。これらの制限を克服するために、私たちはSuperCorrectという新しい2段階フレームワークを提案します。このフレームワークは、大規模な教師モデルを使用して、より小さな学習モデルの推論および反省プロセスの両方を監督および修正します。最初の段階では、教師モデルから階層的な高レベルおよび詳細な思考テンプレートを抽出して、学習モデルを導き、より細かい推論思考を引き出すようにします。2番目の段階では、クロスモデル協調直接的な選好最適化(DPO)を導入して、学習モデルの自己修正能力を向上させます。これにより、トレーニング中に教師モデルの修正トレースに従うことで、学習モデルに誤った思考を効果的に特定および解決する方法を教えます。このクロスモデルDPOアプローチにより、学習モデルは教師モデルからのエラー駆動の洞察によって思考のボトルネックを打破し、難しい問題に取り組むための新しいスキルと知識を獲得します。包括的な実験は、従来の手法よりも優れていることを一貫して示しています。特に、当社のSuperCorrect-7Bモデルは、MATH/GSM8Kベンチマークにおいて、強力なDeepSeekMath-7Bを7.8%/5.3%、Qwen2.5-Math-7Bを15.1%/6.3% 上回り、すべての7Bモデルの中で新しいSOTAパフォーマンスを達成しています。コード: https://github.com/YangLing0818/SuperCorrect-llm
大規模言語モデル(LLMs)は、役割演技、創造的執筆、数学的推論、およびコーディングなど、さまざまな領域で印象的な能力を示しています。これらの進展にもかかわらず、LLMsは依然として長さの制御に課題を抱えており、トークンレベルの操作と厳格な長さ制限のデータに対する不十分なトレーニングにより、特定の長さ制約に従うことが頻繁に失敗します。この問題を位置認識の欠如から来るものと捉え、それに対処するためにPositionID PromptingとPositionID Fine-Tuningという新しいアプローチを提案します。これらの手法は、モデルが生成中にテキストの長さを継続的に監視および管理する能力を向上させます。さらに、LLMsがコピー&ペースト操作を正確に実行するためのPositionID CP Promptingを導入します。さらに、長さの制御とコピー&ペーストの能力を評価するための2つのベンチマークを開発します。実験により、当社の手法がモデルが長さ制約やコピー&ペーストの正確さに著しく改善し、応答品質を損なうことなく、ということが示されました。
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスとビジョン研究において重要な課題です。3Dデータの希少性から、最先端のアプローチでは、Score Distillation Sampling(SDS)を介して最適化された事前学習済み2D拡散事前分布が利用されています。進歩はあるものの、複数のオブジェクトや入り組んだ相互作用を備えた複雑な3Dシーンを作成することは依然として難しいです。この課題に取り組むため、最近の手法ではボックスやレイアウトのガイダンスを組み込んでいます。しかし、これらのレイアウトガイド付きの構成手法は、一般的に粗く表現力に欠けるため、細かい制御を提供するのが難しいことがよくあります。これらの課題に対処するために、我々は新しいSDSアプローチ、Semantic Score Distillation Sampling(SemanticSDS)を導入しました。この手法は、構成テキストから3D生成の表現力と精度を効果的に向上させるよう設計されています。我々の手法は、異なるレンダリングビュー間で一貫性を維持し、さまざまなオブジェクトや部品を明確に区別する新しい意味的埋め込みを統合しています。これらの埋め込みは意味マップに変換され、領域固有のSDSプロセスを指示し、精密な最適化と構成生成を可能にします。明示的な意味的ガイダンスを活用することで、我々の手法は既存の事前学習済み拡散モデルの構成能力を引き出し、特に複雑なオブジェクトやシーンにおいて、3Dコンテンツ生成の品質を向上させます。実験結果は、我々のSemanticSDSフレームワークが最先端の複雑な3Dコンテンツを生成するのに非常に効果的であることを示しています。コード:https://github.com/YangLing0818/SemanticSDS-3D
Transformerベースの言語モデルによる推論は、プロンプト処理ステップから始まります。このステップでは、モデルが最初の出力トークンを生成し、将来の生成ステップで必要となるKVキャッシュを保存します。プロンプト処理ステップは計算コストが高く、プロンプトの長さやバッチサイズが増加すると、エッジデバイス上で数十秒以上かかることがあります。これにより、モデルの出力にかなりの遅延が生じ、ユーザーエクスペリエンスが低下します。「最初のトークンまでの時間」(TTFTとして知られる)を削減するために、事前学習済みモデルの最初の出力を生成する時間を短縮するために、KV予測という新しい手法を導入します。この手法では、小さな補助モデルを使用してプロンプトを処理し、基本モデルが使用するKVキャッシュの近似値を生成します。この近似されたKVキャッシュは、補助モデルに再度クエリを送信する必要なく、基本モデルと共に自己回帰生成に使用されます。我々の手法が、ベースラインと比較してパレート最適な効率-精度のトレードオフを生み出すことを示します。TriviaQAでは、TTFT FLOPs予算の範囲で、15%〜50%の相対精度向上を実証します。また、HumanEvalのPythonコード補完では、固定されたTTFT FLOPs予算で最大30%の精度向上を実証します。さらに、Apple M2 Pro CPUでモデルをベンチマークし、FLOPsの改善がハードウェア上でTTFTの高速化につながることを示します。我々は、https://github.com/apple/corenet/tree/main/projects/kv-prediction でコードを公開しています。
離散拡散は、標準ベンチマークにおいて、最先端のパフォーマンスを達成し、オートレグレッシブモデルを上回るかそれに匹敵しています。本研究では、計画されたノイズ除去を伴う離散拡散(DDPD)という新しいフレームワークを紹介します。このフレームワークは、生成プロセスをプランナーとデノイザーの2つのモデルに分割します。推論時には、プランナーが次にどの位置をノイズ除去するか選択し、ノイズ除去が必要な最も破損した位置を特定します。これには、最初に破損した位置と追加の微調整が必要な位置の両方が含まれます。この計画とノイズ除去のアプローチにより、最適な順序で破損を特定し、ノイズ除去することで、生成中のより効率的な再構築が可能となります。DDPDは、従来のデノイザーのみのマスク拡散手法を上回り、text8、OpenWebText、およびImageNet 256×256でのトークンベースの生成などの言語モデリングベンチマークで優れた結果を達成します。特に、言語モデリングにおいて、DDPDは、生成的な困惑度の観点で、拡散ベースとオートレグレッシブ手法との間の性能差を著しく縮小させます。コードはhttps://github.com/liusulin/DDPDで入手可能です。
ZeroCompは、トレーニング中に対になった合成シーン画像を必要としない効果的なゼロショット3Dオブジェクト合成アプローチを提案します。当手法は、内在画像からの条件付けにControlNetを活用し、Stable Diffusionモデルと組み合わせて、シーン事前情報を利用することで、効果的なレンダリングエンジンとして機能します。トレーニング中、ZeroCompは、ジオメトリ、アルベド、およびマスク処理されたシェーディングに基づく内在画像を使用し、合成オブジェクトのあるシーンとないシーンの対になった画像を必要としません。トレーニングが完了すると、リアルな合成物を作成するためにシェーディングを調整しながら、仮想3Dオブジェクトをシーンにシームレスに統合します。高品質な評価データセットを開発し、ZeroCompが定量的および人間の知覚基準で、明示的な照明推定や生成技術を使用する手法を上回ることを示しています。さらに、ZeroCompは、合成室内データのみを使用してトレーニングされている場合でも、リアルおよび屋外画像合成に拡張され、画像合成においてその効果を示しています。
Rectified Flow Transformers(RFTs)は、優れたトレーニングおよび推論効率を提供し、拡散モデルのスケーリングアップにおいて最も実現可能な方向である可能性が高い。ただし、生成解像度の向上に関する進展は、データ品質とトレーニングコストのために比較的遅れている。チューニング不要の解像度外挿は、代替手段として提示されているが、現在の手法はしばしば生成安定性を低下させ、実用的な適用を制限している。本論文では、既存の解像度外挿手法を検討し、Text-to-Image RFTsの解像度潜在能力を最大化するためのI-Maxフレームワークを紹介する。I-Maxには以下の特徴がある:(i)安定した外挿のための新しいProjected Flow戦略、および(ii)モデル知識を高解像度に一般化するための高度な推論ツールキット。Lumina-Next-2KおよびFlux.1-devを用いた実験は、I-Maxが解像度外挿における安定性を向上させ、画像の詳細な出現とアーティファクトの修正をもたらす能力を示し、チューニング不要の解像度外挿の実用的な価値を確認している。
DA-Codeは、エージェントベースのデータサイエンスタスクでLLM(Large Language Models)の評価を行うために特別に設計されたコード生成ベンチマークを紹介します。このベンチマークには3つの主要な要素があります。まず、DA-Code内のタスクは本質的に挑戦的であり、従来のコード生成タスクとは異なり、グラウンディングとプランニングにおける高度なコーディングスキルを要求します。第二に、DA-Codeの例はすべて実際の多様なデータに基づいており、幅広い複雑なデータ整形や分析タスクをカバーしています。第三に、モデルがタスクを解決するためには、複雑なデータサイエンスプログラミング言語を利用して、入念なデータ処理を行い、回答を導出する必要があります。我々は、実行可能な環境で設定されたベンチマークを構築し、現実世界のデータ分析シナリオに合わせてスケーラブルにしました。アノテーターは、評価の正確性と堅牢性を確保するために評価スイートを入念に設計しています。我々はDA-Agentのベースラインを開発しました。実験の結果、ベースラインは他の既存のフレームワークよりも優れたパフォーマンスを示しますが、現在の最高のLLMを使用しても正解率はわずか30.5%にとどまり、改善の余地が十分にあります。弊社のベンチマークはhttps://da-code-bench.github.ioで公開されています。
最近、炎上を招くまたは誤解を招く「偽」ニュースコンテンツの増加が一般的になってきました。同時に、AIツールを使用して、ありとあらゆるシーンを描写した写真のような画像を生成することがこれまで以上に簡単になっています。これら2つを組み合わせたAI生成の偽ニュースコンテンツは特に強力で危険です。AI生成の偽ニュースの拡散に対抗するため、私たちはMiRAGeNewsデータセットを提案します。これは、最先端のジェネレータからの12,500組の高品質な実画像とAI生成画像キャプションペアのデータセットです。私たちのデータセットは、人間(60%のF-1)や最先端の多モーダルLLM(24%未満のF-1)にとって重要な課題を提起することがわかりました。私たちは、我々のデータセットを使用して、ドメイン外の画像ジェネレータやニュース発行者からの画像キャプションペアにおいて、最先端のベースラインよりも+5.1%のF-1を改善する多モーダル検出器(MiRAGe)を訓練しました。AI生成コンテンツの検出に関する将来の研究を支援するために、私たちはコードとデータを公開します。
大規模言語モデル(LLM)から多様な応答を生成することは、計画/検索や合成データ生成などのアプリケーションにとって重要であり、多様性は世代間で異なる回答を提供します。従来のアプローチは、多様性を高めるために温度を上げることに依存していました。しかし、一般的な考えとは異なり、このアプローチが温度が上昇するにつれて個々の生成物の品質が低下するだけでなく、モデルの次トークンの確率が真の回答の分布に類似していることに依存していることを示します。我々は、代わりのアプローチ、言語モデル自体を使用して空間を層に分割する方法を提案します。推論時には、ランダムな層が選択され、その層内からサンプルが抽出されます。多様性を測定するために、我々はCoverageQAという、複数の同様にありえる回答を持つ未明確な質問のデータセットを導入し、出力分布と有効な正解回答の均一分布との間のKLダイバージェンスを測定して多様性を評価します。プロプライエタリモデルの各応答/解決策の確率を計算することは不可能なため、我々は正解解決策のリコールを測定します。我々の評価結果は、SimpleStratを使用することで、GPT-4oと比較してリコールが0.05高く、Llama 3と比較してKLダイバージェンスが平均0.36低下することを示しています。
大規模言語モデル(LLMs)は、Chain-of-Thought(CoT)プロンプティングを活用して、さまざまな複雑なタスクで顕著なパフォーマンスを発揮しています。最近の研究では、LLMsの推論能力を転送するために、推論蒸留と呼ばれる知識蒸留(KD)アプローチが提案されています。このアプローチは、LLM教師によって生成された複数段階の根拠による言語モデルを微調整することで、LLMsの推論能力を転送します。しかし、LLM教師モデルからの不十分な蒸留セットに関する2つの課題、つまり1)データ品質と2)ソフトラベルの提供について、不十分に考慮されています。本論文では、Mentor-KDを提案し、上記の課題に対処しながら、LLMsの複数段階の推論能力をより小さなLMに効果的に蒸留します。具体的には、メンターである中間サイズのタスク固有の微調整モデルを活用して、追加のCoT注釈を増やし、推論蒸留中に学習モデルにソフトラベルを提供します。幅広いモデルと複雑な推論タスクにわたる実験を実施し、Mentor-KDの効果を確認しました。
大規模言語モデル(LLMs)は印象的な能力を示すが、人間の好みとの注意深い整合が必要です。従来のトレーニング時の手法は、人間の好みのデータセットを使用してLLMsを微調整しますが、膨大なトレーニングコストがかかり、さまざまなユーザーの好みを扱うために繰り返しトレーニングが必要です。テスト時の整合手法は、凍結されたLLMsを再トレーニングせずにガイドするために報酬モデル(RMs)を使用することでこれを解決します。ただし、既存のテスト時のアプローチは、完全な応答を評価するために設計された軌道レベルのRMsに依存しており、部分的な応答から次のトークンの報酬を計算する必要がある自己回帰テキスト生成には適していません。この問題に対処するために、私たちはGenARMを導入します。これは、自己回帰報酬モデルを活用するテスト時の整合アプローチであり、効率的かつ効果的な自己回帰生成のために設計された新しい報酬パラメータ化です。理論的には、このパラメータ化がKL正則化強化学習フレームワーク内で従来のRMsによって達成可能な任意の分布に凍結されたLLMsを確実にガイドできることを示します。実験結果は、GenARMが従来のテスト時の整合ベースラインを大幅に上回り、トレーニング時の手法と同等のパフォーマンスを発揮することを示しています。さらに、GenARMは、大きなLLMsを小さなRMsと整合させるための高いトレーニングコストなしに効率的な弱から強いガイダンスを実現します。さらに、GenARMは、異なるユーザーの好みに再トレーニングすることなく、好みの次元間でリアルタイムのトレードオフを可能にする多目的整合をサポートします。
ソナー画像合成は、水中探査、海洋生物学、防衛などの応用の進展に不可欠です。従来の手法はしばしばソナーセンサーを使用した広範囲で費用のかかるデータ収集に依存しており、データの質と多様性が危ぶまれています。これらの制約を克服するため、本研究では新しいソナー画像合成フレームワークであるSynth-SONARを提案しています。このフレームワークは、拡散モデルとGPTプロンプティングを活用しています。Synth-SONARの主な革新点は次の3つです。まず、生成AIベースのスタイルインジェクション技術を統合し、公開されている実際の/シミュレートされたデータと組み合わせることで、ソナー研究用の最大のソナーデータコーパスの1つを生成します。第二に、デュアルテキスト条件付けソナー拡散モデル階層が、品質と多様性が向上した粗粒度および細かい粒度のソナー画像を合成します。第三に、高レベル(粗い)および低レベル(詳細)のテキストベースのソナー生成手法が、ビジュアル言語モデル(VLM)とGPTプロンプティングで利用可能な高度な意味情報を活用します。推論中、この手法はテキストプロンプトから多様でリアルなソナー画像を生成し、テキストの記述とソナー画像生成との間のギャップを埋めます。これは、私たちの知る限りでは、GPTプロンプティングがソナー画像に初めて適用されたものです。Synth-SONARは、高品質の合成ソナーデータセットを生成する点で最先端の結果を達成し、その多様性とリアリティを著しく向上させています。