翻訳付きの日次キュレーションされたAI研究論文
このレポートでは、先行モデルであるCodeQwen1.5からの大幅なアップグレードであるQwen2.5-Coderシリーズを紹介します。このシリーズには、Qwen2.5-Coder-1.5BとQwen2.5-Coder-7Bの2つのモデルが含まれています。コードに特化したモデルであるQwen2.5-Coderは、Qwen2.5アーキテクチャを基盤に構築され、5.5兆以上のトークンからなる膨大なコーパスで事前学習されています。緻密なデータクリーニング、スケーラブルな合成データ生成、バランスの取れたデータの混合を通じて、Qwen2.5-Coderは印象的なコード生成能力を示し、一般的な汎用性を保持しています。このモデルは、コード生成、補完、推論、修復を含む10以上のベンチマークで、同じモデルサイズの大きなモデルを一貫して上回る、最先端のパフォーマンスを達成しました。Qwen2.5-Coderシリーズのリリースにより、コードインテリジェンスの研究の限界を押し広げるだけでなく、許容的なライセンスによって開発者による実世界のアプリケーションでのより広範な採用を促進すると考えています。
私たちは、従来の決められた解像度アプローチを再定義する前のQwen-VLモデルの高度なアップグレードであるQwen2-VLシリーズを提案します。Qwen2-VLは、変動する解像度の画像を異なる数のビジュアルトークンに動的に処理するNaive Dynamic Resolutionメカニズムを導入しています。このアプローチにより、モデルはより効率的で正確なビジュアル表現を生成し、人間の知覚プロセスに密接に合致しています。モデルはまた、テキスト、画像、ビデオ間の位置情報の効果的な融合を容易にするMultimodal Rotary Position Embedding(M-RoPE)を統合しています。画像とビデオの両方を処理するための統一されたパラダイムを採用することで、モデルの視覚認識能力を向上させています。大規模なマルチモーダルモデルの可能性を探るために、Qwen2-VLは大規模なビジョン言語モデル(LVLMs)のスケーリング則を調査しています。モデルサイズ(2B、8B、72Bパラメータのバージョンを含む)とトレーニングデータ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のあるパフォーマンスを達成しています。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetなどの主要モデルと比較して、さまざまなマルチモーダルベンチマークで類似の結果を達成し、他の汎用モデルを凌駕しています。コードはhttps://github.com/QwenLM/Qwen2-VLで入手可能です。
広範なテキスト理解と文脈学習には、完全な文脈を活用する言語モデルが必要です。長い文脈モデルを直接トレーニングする際の実装上の課題から、多くの手法が提案されてきました。長い文脈を扱うためのモデルを拡張するための方法です。ただし、データとモデルクラスの違いにより、これらのアプローチを比較することが難しく、長い文脈のパフォーマンスを評価する方法や、標準的な評価との違いについて不確実性が生じています。我々は、拡張方法のための制御されたプロトコルを実装し、標準化された評価を行い、一貫したベースモデルと拡張データを活用しています。我々の研究は、長い文脈の振る舞いに関するいくつかの洞察をもたらしました。まず、長い文脈のタスクでも一般的なパフォーマンス指標としてパープレキシティの重要な役割を再確認しています。第二に、現在の近似アテンション手法が長い文脈のタスク全般で一貫してパフォーマンスが低いことを見つけました。最後に、正確なファインチューニングベースの手法が一般的に拡張範囲内で効果的であることを確認し、一方で外挿は依然として難しいことを確認しました。すべてのコードベース、モデル、およびチェックポイントはオープンソースで公開され、AI開発のこの重要な分野における透明性を促進し、さらなる研究を容易にします。
プロンプトを介した連想(CoT)は、大規模言語モデル(LLM)から推論能力を引き出すための事実上の方法です。しかし、この追加の「思考」が本当にどの種類のタスクに役立つのでしょうか?これを分析するために、CoTを使用した100以上の論文をカバーする定量的なメタ分析を実施し、14つのモデルにわたる20のデータセットの独自評価を行いました。結果は、CoTが主に数学や論理を含むタスクにおいて強力な性能向上をもたらし、他のタイプのタスクではずっと小さな利益しかもたらさないことを示しています。MMLUでは、CoTなしで回答を直接生成すると、問題やモデルの応答に等号が含まれている場合を除いて、CoTとほぼ同じ精度が得られます。これは、象徴的な操作と推論を示しています。この発見に基づき、計画と実行を分離し、ツールで補助されたLLMと比較することで、これらの問題におけるCoTの振る舞いを分析します。CoTの多くの利益は象徴的な実行の改善によるものですが、象徴的なソルバーを使用する場合に比べて性能が劣っています。結果から、CoTは選択的に適用でき、推論コストを節約しながら性能を維持できることが示されます。さらに、プロンプトベースのCoTを超えて、LLMアプリケーション全体の中間計算をよりよく活用する新しいパラダイムへの移行が必要であることを示唆しています。
個人化は、多くの言語タスクやアプリケーションにおいて重要な役割を果たしており、同じ要件を持つユーザーでも、個々の興味に基づいて異なる出力を好むことがあります。これにより、ユーザーの好みに合わせたカスタマイズされた出力を生成するためのさまざまな個人化アプローチの開発が進んでいます。その中には、各ユーザーに対して独自の個人用大規模言語モデル(LLM)を微調整することを含むものもありますが、これは広範な適用にはコストがかかりすぎます。代替アプローチでは、ユーザーの関連する過去のテキストをデモとして取得することで、個人化情報をプラグアンドプレイの形で導入します。しかし、この検索ベースの戦略は、ユーザー履歴の連続性を壊し、ユーザーの全体的なスタイルやパターンを捉えられず、したがって最適なパフォーマンスを発揮できません。これらの課題に対処するために、我々は新しい個人用LLMモデルを提案します。これは、軽量なプラグインユーザーエンベッダーモジュールを介して、すべてのユーザーの過去のコンテキストをモデリングして、個々のユーザーごとにユーザー固有の埋め込みを構築します。この埋め込みをタスクの入力に付加することで、LLMはユーザーの習慣や好みをより良く理解し、捉えることができ、その結果、自身のパラメータを調整することなく、より個人化された出力を生成することができます。言語モデル個人化(LaMP)ベンチマークのさまざまなタスクでの包括的な実験により、提案されたモデルが既存の個人用LLMアプローチを大幅に上回ることが示されました。
選好チューニングは、深層生成モデルを人間の選好に合わせるための重要なプロセスです。この調査は、選好チューニングと人間のフィードバックの統合における最近の進歩について包括的な概要を提供します。論文は、次の3つの主要セクションに分かれています:1)導入と準備:強化学習フレームワーク、選好チューニングタスク、モデル、およびさまざまなモダリティ(言語、音声、ビジョン)におけるデータセットについての導入、さらに異なるポリシーアプローチ、2)各選好チューニングアプローチの詳細な検討:選好チューニングで使用される手法の詳細な分析、および3)応用、議論、および将来の方向性:選好チューニングの応用に関する探究、下流タスクでの評価方法、および将来の研究方向に対する展望。私たちの目標は、研究者や実務家のためにこの分野の理解を高めるために、選好チューニングとモデルの整合性に関する最新の方法論を提示することです。この分野でのさらなる関与とイノベーションを促進することを願っています。
Mixture-of-Experts(MoE)モデルは、エキスパートのルーティングを通じた疎な計算により、密なモデルよりも効果的にスケーリングされます。これにより、選択的にわずかなエキスパートモジュールのみを活性化することが可能です。ただし、疎な計算は従来のトレーニング手法に課題を提起します。なぜなら、離散的なエキスパートのルーティングが標準の誤差逆伝播を妨げ、それにより勾配ベースの最適化が困難になるからです。MoEのスケーリング能力をより良く追求するために、私たちはGRIN(GRadient-INformed MoE training)を導入しました。これは、エキスパートのルーティングのための疎な勾配推定を組み込み、トークンのドロップを回避するためにモデルの並列処理を構成します。オートレグレッシブ言語モデリングにGRINを適用し、トップ2の16times3.8B MoEモデルを開発しました。われわれのモデルは、わずか6.6Bのアクティブ化されたパラメータで、7Bの密なモデルを上回り、同じデータでトレーニングされた14Bの密なモデルと同等のパフォーマンスを発揮します。さまざまなタスクを通じた包括的な評価は、GRINがMoEの効果を著しく向上させる潜在能力を実証し、MMLUで79.4、HellaSwagで83.7、HumanEvalで74.4、MATHで58.9を達成しています。
ビッグデータと大規模言語モデルの時代の到来により、ゼロショット個人用迅速カスタマイズが重要なトレンドとして浮上しています。本報告書では、オーディオブック制作に特化した技術とモデルであるTakin AudioLLMを紹介します。主にTakin TTS、Takin VC、およびTakin Morphingを含むこれらのモデルは、ゼロショット音声生成が可能であり、実際の人間の音声とほとんど区別がつかない高品質の音声を生成し、個々のニーズに合わせて音声コンテンツをカスタマイズすることを容易にします。具体的には、まずTakin TTSを紹介し、強化されたニューラル音声コーデックとマルチタスクトレーニングフレームワークに基づくニューラルコーデック言語モデルであり、ゼロショットで高忠実度の自然な音声を生成する能力を持っています。Takin VCでは、スピーカーの類似性を向上させるために効果的なコンテンツと音色の共同モデリングアプローチを提唱し、自然さと表現力をさらに高めるために条件付きフローマッチングベースのデコーダーを推奨しています。最後に、高度に分離された音色と抑揚のモデリングアプローチを採用したTakin Morphingシステムを提案し、個人が好みの音色と抑揚で音声生成を精密かつコントロール可能な方法でカスタマイズできるようにしています。幅広い実験により、Takin AudioLLMシリーズモデルの有効性と堅牢性が検証されています。詳細なデモについては、https://takinaudiollm.github.io を参照してください。
我々は古くからの探求に乗り出す:物体の隠れた次元を、見える部分のほんの一部から垣間見る。この課題に取り組むために、Vista3Dというフレームワークを提案する。Vista3Dは、わずか5分で迅速かつ一貫した3D生成を実現する。Vista3Dの中心には、粗い段階と細かい段階がある。粗い段階では、単一の画像からガウススプラッティングを用いて初期ジオメトリを迅速に生成する。細かい段階では、学習されたガウススプラッティングから直接符号付き距離関数(SDF)を抽出し、異なる可能な等値面表現で最適化する。さらに、可視および隠れた物体の両方の側面を捉えるために、2つの独立した暗黙の関数を使用した分離表現を用いて生成の品質を向上させる。さらに、2D拡散事前確率からの勾配を3D感知拡散事前確率と角度拡散事前確率の組み合わせによって調和させる。幅広い評価を通じて、Vista3Dが生成された3D物体の一貫性と多様性のバランスを効果的に維持することを示す。デモとコードは、https://github.com/florinshen/Vista3D で入手可能となります。
本論文では、SoloAudioという新しい拡散ベースの生成モデルを紹介し、ターゲット音声抽出(TSE)のためのものです。当アプローチは、音声に対して潜在的な拡散モデルをトレーニングし、以前のU-Netバックボーンをスキップ接続されたTransformerで置き換え、潜在的な特徴に作用します。SoloAudioは、CLAPモデルをターゲット音声の特徴抽出器として利用することで、音声指向および言語指向のTSEの両方をサポートします。さらに、SoloAudioは、最先端のテキストから音声へのモデルによって生成された合成音声をトレーニングに利用し、ドメイン外データや未知の音声イベントに対する強力な汎化能力を示します。この手法をFSD Kaggle 2018混合データセットとAudioSetからの実データで評価し、SoloAudioはドメイン内外の両方のデータで最先端の結果を達成し、印象的なゼロショットおよびフューショットの能力を示します。ソースコードとデモが公開されています。
私たちは、多様で効率的なオーディオキャプショニング向けに調整された非自己回帰拡散モデルであるDiffusion-based Audio Captioning(DAC)を紹介します。言語バックボーンに依存する既存のキャプショニングモデルは、さまざまなキャプショニングタスクで顕著な成功を収めてきましたが、生成速度や多様性の面での十分な性能が不足しており、オーディオ理解やマルチメディアアプリケーションの進展を妨げています。当社の拡散ベースのフレームワークは、キャプショニングにおける固有の利点を提供します。これは、その固有の確率性と包括的なコンテキストモデリングに起因しています。厳密な評価を通じて、DACが既存のベンチマークと比較して、キャプション品質においてSOTAの性能レベルを達成するだけでなく、生成速度と多様性の面でも著しく優れていることを示します。DACの成功は、テキスト生成が拡散バックボーンを使用してオーディオおよびビジュアル生成タスクとシームレスに統合される可能性があり、異なるモダリティ間で統一されたオーディオ関連の生成モデルの道を開いています。
オフラインのマルチエージェント強化学習(MARL)は、静的データセットを使用して、マルチエージェントシステムの最適制御ポリシーを見つける研究の興味深い方向です。この分野はデータ駆動型であると定義されていますが、これまでの取り組みは最先端の結果を達成するためにデータを無視してきました。まず、文献を調査することで、この主張を裏付けます。ほとんどの研究が自身のデータセットを生成しており、一貫した方法論が欠如しており、これらのデータセットの特性についてわずかな情報しか提供していないことを示します。次に、データの性質を無視することが問題である理由を、アルゴリズムのパフォーマンスが使用されるデータセットに密接に結びついているという顕著な例を挙げて示し、この分野の実験のための共通の基盤が必要であることを説明します。これに対応して、オフラインMARLにおけるデータの使用とデータの認識の向上に向けて大きな一歩を踏み出し、以下の3つの重要な貢献を行います:(1)新しいデータセットを生成するための明確なガイドライン、(2)80以上の既存のデータセットの標準化、一貫した保存形式と使いやすいAPIを使用し、公開リポジトリにホストされる、(3)これらのデータセットをよりよく理解するための分析ツールのスイートを提供し、さらなる開発を支援します。
数学は長い間、主に人間の理解のために自然言語を通じて伝えられてきました。機械化された数学と証明支援システムの台頭により、非形式的な数学テキストを理解する必要性が高まっていますが、既存のベンチマークのほとんどは英語に焦点を当てており、他の言語を見落としています。本論文では、ルーマニアの数学推論ベンチマークであるRoMathを紹介します。RoMathには、数学のさまざまな領域と難易度レベルをカバーする3つのデータセット、RoMath-Baccalaureate、RoMath-Competitions、RoMath-Syntheticが含まれており、非英語の言語モデルの向上と多言語AIの開発を促進することを目指しています。ルーマニア語に焦点を当てることで、ユニークな言語的特徴を持つリソースが限られている言語に対処し、英語中心のモデルの制限に対処し、単純な自動翻訳を超えた専用リソースの必要性を強調しています。いくつかのオープンウェイト言語モデルをベンチマークし、代表的でない言語のためのリソース作成の重要性を強調します。コードとデータセットを公開しています。
AIエージェントは、科学的研究を含むさまざまな重要なタスクでユーザーを支援する潜在能力を持っています。有用なエージェントの開発を促進するためには、挑戦的であると同時に、現実世界の興味深いタスクに直接対応するベンチマークが必要です。本論文では、科学的研究の重要ながら驚くほど挑戦的な側面である「計算再現性」を取り組むAIエージェントの精度を測定するために設計された、そのようなベンチマークを紹介します。このタスクは科学プロセスに基本的なものであり、提供されたコードとデータを使用して研究結果を再現することを含みます。私たちは、3つの分野(コンピュータサイエンス、社会科学、医学)にまたがる90の科学論文に基づく270のタスクで構成されるベンチマークであるCORE-Bench(計算再現性エージェントベンチマーク)を紹介します。CORE-Benchのタスクには3つの難易度レベルがあり、言語のみのタスクとビジョン言語のタスクの両方が含まれています。私たちは、エージェントの精度を迅速かつ並列化可能な方法で測定する評価システムを提供し、各ランの評価時間をシーケンシャルな実装に比べて数日節約します。私たちは、2つのベースラインエージェント、汎用AutoGPTとタスク固有のCORE-Agentを評価しました。両バリアントをGPT-4oとGPT-4o-miniという2つの基礎言語モデルを使用してテストしました。最高のエージェントは、最も難しいタスクで21%の精度を達成し、日常的な科学的タスクの自動化における改善の余地を示しました。既存の作業を再現できるエージェントを持つことは、新しい研究を行い、他の研究エージェントのパフォーマンスを検証および改善できるエージェントを構築するための必要な段階です。CORE-Benchが再現性の状態を改善し、将来の研究エージェントの開発を促進できることを願っています。
機能的磁気共鳴イメージング(fMRI)データから3Dビジュアルを再構築することは、認知神経科学とコンピュータビジョンの両方にとって非常に興味深いものです。この課題を前進させるために、我々はfMRI-3Dデータセットを提示します。このデータセットには15人の参加者のデータが含まれ、合計4768個の3Dオブジェクトが展示されています。データセットには2つのコンポーネントが含まれており、以前に紹介されたfMRI-ShapeとfMRI-Objaverseが含まれています。fMRI-Shapeは以下のURLからアクセス可能であり、fMRI-Objaverseは本論文で提案され、以下のURLで利用可能です。fMRI-Objaverseには5人の被験者のデータが含まれており、そのうち4人はfMRI-Shapeのコアセットの一部であり、それぞれの被験者が117のカテゴリにわたる3142個の3Dオブジェクトを観察しており、すべてのオブジェクトにはテキストキャプションが付属しています。これにより、データセットの多様性と潜在的な応用が大幅に向上します。さらに、fMRI信号から3Dビジュアル情報をデコードするために設計された新しいフレームワークであるMinD-3Dを提案します。このフレームワークは、最初にfMRIデータから特徴を抽出し集約する神経融合エンコーダを使用し、次に特徴ブリッジ拡散モデルを用いてビジュアル特徴を生成し、最後に生成的トランスフォーマーデコーダを使用して3Dオブジェクトを再構築します。我々は、モデルのパフォーマンスを評価するために意味レベルと構造レベルの両方でメトリクスを設計することで新たな基準を確立します。さらに、我々はモデルの有効性を分析し、fMRI信号内の抽出された特徴と視覚的ROIの帰属を評価します。実験により、MinD-3Dが高い意味的および空間的精度で3Dオブジェクトを再構築するだけでなく、人間の脳が3Dビジュアル情報を処理する方法についての理解を深めることが示されました。プロジェクトページは以下のURLにあります:https://jianxgao.github.io/MinD-3D。
複数文書要約(MDS)の課題に取り組む際、抽出型および生成型の要約技術を網羅する多数の手法が提案されてきました。しかしながら、各アプローチにはそれぞれ独自の制約があり、どちらか一方に完全に依存することは効果的ではありません。新興かつ有望な戦略として、抽出型と生成型の要約手法を統合する協調的な手法が挙げられます。この分野における研究が豊富である一方で、ベトナム語処理の文脈において、この組み合わせ手法に関する研究はまだ少ないです。本論文では、抽出型と生成型の手法を統合した二つのコンポーネントパイプラインアーキテクチャを活用した新しいベトナム語MDSフレームワークを提案します。最初のコンポーネントは、各文書内のキーセンテンスを特定するために抽出型アプローチを採用します。これは、事前学習されたBERTネットワークを修正して、シャムおよびトリプレットネットワーク構造を使用して意味のあるフレーズ埋め込みを導出することで達成されます。二番目のコンポーネントでは、生成型要約のためにVBD-LLaMA2-7B-50bモデルを使用し、最終的な要約文書を生成します。提案されたフレームワークは、VN-MDSデータセットで39.6%のROUGE-2スコアを達成し、最先端のベースラインを上回る良好なパフォーマンスを示しています。
人間の価値観とその測定は長年にわたり学際的な研究課題となっています。AIの最近の進歩により、この分野への関心が再燃し、大規模言語モデル(LLMs)が価値観の測定のツールおよび対象として台頭しています。本研究では、価値観の測定に関する理論的基盤として、テキストに明示された選択的知覚に基づく、LLMベースのデータ駆動型価値測定パラダイムである「価値観の生成心理測定法(GPV)」を紹介します。我々は、正確な知覚レベルの価値測定のためにLLMを微調整し、LLMがテキストを知覚に解析する能力を検証し、GPVパイプラインの中核を形成します。GPVを人間が執筆したブログに適用することで、その安定性、妥当性、および従来の心理学的ツールに対する優越性を示します。そして、LLMの価値測定にGPVを拡張することで、以下の点で現行技術を進化させます:1)スケーラブルかつ自由形式の出力に基づいてLLMの価値を測定する心理測定法、これにより文脈に応じた測定が可能となる;2)従来の手法の応答バイアスを示す測定パラダイムの比較分析;および3)LLMの価値とその安全性を結びつける試み、異なる価値観の予測力とLLMの安全性への様々な価値の影響を明らかにします。学際的な取り組みを通じて、次世代の心理測定のためにAIを活用し、価値に沿ったAIの実現を目指します。