翻訳付きの日次キュレーションされたAI研究論文
拡散ベースの大規模言語モデル(dLLM)は、最近、自己回帰型LLMの強力な代替として登場し、並列デコードと双方向モデリングにより、より高速な推論と高いインタラクティブ性を提供しています。しかし、コード生成やテキスト補完において優れた性能を発揮する一方で、根本的な安全性の問題が存在します。既存のアライメント機構は、文脈を意識したマスク入力の敵対的プロンプトに対してdLLMを保護することができず、新たな脆弱性を露呈しています。この問題に対処するため、我々はDIJAを提案します。DIJAは、dLLMの独特な安全性の弱点を利用した、初の体系的な研究およびジェイルブレイク攻撃フレームワークです。具体的には、DIJAは、dLLMのテキスト生成メカニズム、すなわち双方向モデリングと並列デコードを利用した、敵対的なマスクテキストプロンプトを構築します。双方向モデリングは、有害な場合でも、マスクされた範囲に対して文脈的に一貫した出力を生成するようモデルを駆動し、並列デコードは、モデルの動的フィルタリングや安全でないコンテンツの拒否サンプリングを制限します。これにより、標準的なアライメント機構が機能しなくなり、アライメント調整されたdLLMにおいて、プロンプトに有害な行動や安全でない指示が直接含まれている場合でも、有害な補完が可能になります。包括的な実験を通じて、DIJAが既存のジェイルブレイク手法を大幅に上回り、dLLMアーキテクチャにおけるこれまで見過ごされていた脅威の側面を明らかにすることを示します。特に、我々の手法は、Dream-InstructにおいてキーワードベースのASRで最大100%を達成し、JailbreakBenchにおいては、最も強力な既存のベースラインであるReNeLLMを、評価者ベースのASRで最大78.5%、StrongREJECTスコアで37.7ポイント上回りました。さらに、ジェイルブレイクプロンプトにおいて有害なコンテンツを書き換えたり隠したりする必要がありません。我々の研究結果は、この新興の言語モデルクラスにおける安全性アライメントの再考が急務であることを強調しています。コードはhttps://github.com/ZichenWen1/DIJAで公開されています。
ロシア語音声合成には、母音の弱化、子音の無声化、可変的なアクセントパターン、同綴異義語の曖昧性、不自然なイントネーションなど、独特の課題が存在します。本論文では、スタジオ品質のロシア語音声2,000時間以上を網羅し、句読点やアクセント記号を含む包括的なテキスト注釈を備えた新しいデータセット「Balalaika」を紹介します。実験結果から、Balalaikaで訓練されたモデルは、既存のデータセットで訓練されたモデルを音声合成と音声強調タスクの両方において大幅に上回ることが示されています。本論文では、データセット構築のパイプライン、注釈方法論、比較評価の結果について詳細に説明します。
私たちはFranca(フランカ:自由な者)を紹介します。これは、データ、コード、重みのすべてが完全にオープンソースである初めてのビジョン基盤モデルであり、多くの場合において最先端のプロプライエタリモデル(例:DINOv2、CLIP、SigLIPv2など)の性能に匹敵し、それを凌駕します。私たちのアプローチは、Web-SSLにインスパイアされた透明性の高いトレーニングパイプラインに基づいており、公開されているデータ(ImageNet-21KとReLAION-2Bのサブセット)を使用しています。モデルのリリースに加えて、SSLクラスタリング手法の重要な限界に取り組みます。現代のモデルは、Sinkhorn-Knoppのようなクラスタリングアルゴリズムを使用して画像特徴を大規模なコードブックに割り当てることに依存していますが、クラスタリングセマンティクスに内在する曖昧さを考慮していません。これを解決するために、私たちはネストされたマトリョーシカ表現に基づくパラメータ効率の高いマルチヘッドクラスタリングプロジェクターを導入します。この設計は、モデルサイズを増やすことなく、特徴をより細かいクラスターに段階的に洗練し、性能とメモリ効率の両方を実現します。さらに、新しい位置情報分離戦略を提案し、密な表現から位置バイアスを明示的に除去することで、セマンティックコンテンツのエンコーディングを改善します。これにより、いくつかのダウンストリームベンチマークで一貫した向上が得られ、よりクリーンな特徴空間の有用性が示されます。私たちの貢献は、透明性の高い高性能ビジョンモデルの新たな基準を確立し、より再現性が高く一般化可能な基盤モデルへの道を広くAIコミュニティに開くものです。コードとモデルチェックポイントはhttps://github.com/valeoai/Francaで公開されています。
大規模言語モデル(LLMs)の時代において、アライメントは、より信頼性が高く、制御可能で、能力のある機械知能を追求する上で、基本的でありながら困難な問題として浮上している。推論モデルや会話型AIシステムの最近の成功は、これらのシステムを強化するための強化学習(RL)の重要な役割を強調し、RLとLLMアライメントの交差点における研究関心の高まりを引き起こしている。本論文は、逆強化学習(IRL)の視点を通じて、LLMアライメントにおける最近の進展を包括的にレビューし、LLMアライメントで使用されるRL技術と従来のRLタスクで使用される技術の違いを強調する。特に、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的な意味について議論する。まず、RLの基本概念を紹介し、この分野に不慣れな読者に基礎を提供する。次に、この研究アジェンダにおける最近の進展を検討し、LLMアライメントのためのIRLを実施する上での主要な課題と機会について議論する。方法論的な考察を超えて、データセット、ベンチマーク、評価指標、インフラストラクチャ、計算効率の高いトレーニングおよび推論技術などの実践的な側面を探る。最後に、スパース報酬RLに関する文献から洞察を引き出し、未解決の疑問と潜在的な研究方向性を特定する。多様な研究からの知見を統合することで、この分野の構造的かつ批判的な概要を提供し、未解決の課題を強調し、RLおよびIRL技術を通じてLLMアライメントを改善するための有望な将来の方向性を概説することを目指す。
単一画像から内容とスタイルを分離するコンテンツ・スタイル分解(CSD)は、抽出された内容の再文脈化と抽出されたスタイルのスタイライゼーションを可能にし、視覚的合成における創造的な柔軟性を大幅に向上させます。最近のパーソナライゼーション手法では、明示的なコンテンツとスタイルの分解が探求されていますが、これらは拡散モデルに特化したままです。一方、Visual Autoregressive Modeling(VAR)は、次スケール予測パラダイムを採用した有望な代替手法として登場し、拡散モデルに匹敵する性能を達成しています。本論文では、VARをCSDの生成フレームワークとして探求し、そのスケールごとの生成プロセスを活用して分解を改善します。この目的のために、我々はCSD-VARという新しい手法を提案します。この手法は、以下の3つの主要な革新を導入します:(1)内容とスタイル表現をそれぞれのスケールに合わせることで分離を強化するスケール認識型交互最適化戦略、(2)スタイル表現への内容の漏れを軽減するSVDベースの補正方法、(3)内容の同一性保持を強化する拡張キー・バリュー(K-V)メモリ。このタスクをベンチマークするために、我々はCSD-100というデータセットを導入します。このデータセットは、様々な芸術的スタイルで描かれた多様な被写体を特徴とする、コンテンツ・スタイル分解に特化して設計されています。実験結果は、CSD-VARが従来の手法を上回り、優れた内容保持とスタイライゼーションの忠実度を達成することを示しています。
本論文は、視覚符号化と言語復号を単一のモデルに統合したモノリシック型マルチモーダル大規模言語モデル(MLLM)に焦点を当てる。既存のモノリシックMLLMの構造と事前学習戦略は、不安定な最適化や破滅的忘却に悩まされることが多い。これらの課題に対処するため、我々の鍵となるアイデアは、事前学習済みのLLMに新しい視覚パラメータ空間を埋め込み、ノイズの多いデータから視覚知識を安定して学習するためにデルタチューニングを活用することである。この原理に基づき、まず、マルチモーダルエキスパート混合アーキテクチャを通じて一連の視覚エキスパートを組み込んだ高度なモノリシックMLLMであるMono-InternVLを導入する。さらに、Mono-InternVLの視覚能力を最大化するために、革新的な内生的視覚事前学習(EViP)を設計し、段階的学習を通じてその能力を向上させる。Mono-InternVLは既存のMLLMに対して競争力のある性能を発揮するが、データコストが比較的高い。そこで、改良されたEViP(EViP++)を備えた、より安価で強力なモノリシックMLLMであるMono-InternVL-1.5をさらに提示する。EViP++は、Mono-InternVL-1.5に追加の視覚注意エキスパートを導入し、事前学習プロセスを効率的に再編成する。推論時には、MoE操作を高速化するための融合CUDAカーネルを含む。これらの設計により、Mono-InternVL-1.5は学習と推論のコストを大幅に削減しつつ、Mono-InternVLと同等の競争力のある性能を維持する。我々のアプローチを評価するため、15のベンチマークで広範な実験を実施した。結果は、Mono-InternVLが15のベンチマークのうち12で既存のモノリシックMLLMを上回り、例えばOCRBenchではEmu3に対して114ポイントの改善を示した。モジュール型の対応モデルであるInternVL-1.5と比較して、Mono-InternVL-1.5は同様のマルチモーダル性能を達成しつつ、初回トークンのレイテンシを最大69%削減した。コードとモデルはhttps://github.com/OpenGVLab/Mono-InternVLで公開されている。
マスクされたトークン予測は、言語、視覚、音声といった多様なモダリティを単一の事前学習タスクを通じて統合する可能性を秘めた強力な事前学習目標として注目を集めています。しかし、一般的な音声理解への応用は未開拓のままであり、BEATsが唯一の注目すべき例となっています。BEATsはオープンソースの事前学習コードが存在しないため、限定的な修正しか加えられていません。さらに、BEATsはAudioSetのみで学習されており、より広範な下流タスクへの適用性が制限されています。これらの課題を解決するため、我々はOpenBEATsを提案します。これは、マルチドメイン音声事前学習を通じてBEATsを拡張するオープンソースフレームワークです。我々は、音声質問応答、含意関係、キャプション生成といった音声推論タスクを含む、6種類のタスク、25のデータセット、3つの音声ドメインにわたる包括的な評価を実施しました。OpenBEATsは、6つのバイオアコースティクスデータセット、2つの環境音データセット、5つの推論データセットにおいて、パラメータサイズが4分の1でありながら、10億パラメータを超えるモデルを上回る最先端の性能を達成しました。これらの結果は、マルチドメインデータセットとマスクされたトークン予測タスクが、汎用的な音声表現を学習する上で有効であることを示しています。さらなる研究と再現性を促進するため、我々はすべての事前学習および評価コード、事前学習済みおよびファインチューニング済みのチェックポイント、トレーニングログをhttps://shikhar-s.github.io/OpenBEATsで公開しています。
マルチモーダル大規模言語モデル(MLLMs)は、クロスモーダル理解に革命をもたらしたが、視覚的入力と矛盾する虚偽の内容、すなわち「幻覚」の問題に依然として苦戦している。既存の幻覚緩和手法は、計算コストが過大であるか、訓練データとモデル出力の間に分布の不一致を引き起こすかのいずれかの問題を抱えている。本研究では、幻覚が主にテキスト生成の初期段階で発生し、その後の出力に伝播するという重要な洞察を明らかにした。これを解決するため、人間のアノテーションに依存しないフレームワークである**SENTINEL**(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning)を提案する。具体的には、まずモデル出力を反復的にサンプリングし、2つのオープン語彙検出器を用いてオブジェクトの存在をクロスチェックし、文を幻覚あり/なしのカテゴリに分類することで、高品質なドメイン内選好ペアをブートストラップする。次に、文脈に一貫した正例と幻覚を含む負例を用いて、文脈を考慮した選好データを反復的に構築する。最後に、幻覚が最初に現れる文レベルで識別学習を強調する文脈を考慮した選好損失(C-DPO)を用いてモデルを訓練する。実験結果は、SENTINELが元のモデルと比較して幻覚を90%以上削減し、幻覚ベンチマークおよび一般的な能力ベンチマークにおいて従来の最先端手法を上回ることを示しており、その優位性と汎化能力を実証している。モデル、データセット、およびコードはhttps://github.com/pspdada/SENTINELで公開されている。
現代の情報伝達の主要な媒体として、ソーシャルネットワーキングサービス(SNS)は急速な成長を遂げており、プラットフォームのコンテンツ管理とインタラクション品質の向上に重要な課題を提起しています。最近、大規模言語モデル(LLM)の開発が潜在的な解決策を提供していますが、既存の研究は個別のタスクに焦点を当てており、個々のシナリオ内でのデータスケーリングによる利益の逓減に直面するだけでなく、多様な現実世界の文脈に柔軟に適応することができません。これらの課題に対処するため、我々はRedOneを紹介します。これは、単一タスクベースラインの性能ボトルネックを打破し、SNSのための包括的な基盤を確立するために設計されたドメイン固有のLLMです。RedOneは、大規模な実世界のデータセットを使用し、継続的な事前学習、教師ありファインチューニング、および選好最適化からなる3段階のトレーニング戦略を通じて開発されました。広範な実験を通じて、RedOneは強力な汎用能力を維持し、8つの主要なSNSタスクで平均14.02%、SNSの二言語評価ベンチマークで7.56%の改善を達成しました。さらに、オンラインテストでは、RedOneは有害コンテンツ検出における露出率を11.23%削減し、投稿閲覧検索におけるクリックページ率を14.95%向上させました。これらの結果は、RedOneがSNSのための堅牢なドメイン固有のLLMとして確立され、さまざまなタスクにわたる優れた汎化能力と現実世界のシナリオでの有望な適用性を示しています。
大規模言語モデルの評価は複雑な課題であり、これまでにいくつかのアプローチが提案されてきた。最も一般的なのは、自動化されたベンチマークを使用する方法で、LLMがさまざまなトピックの多肢選択問題に回答する必要がある。しかし、この方法には一定の限界があり、最も懸念されるのは人間との相関が低い点である。別のアプローチとして、人間がLLMを評価する方法がある。ただし、評価すべきモデルの数が多くかつ増加しているため、従来の研究のように評価者を募集し、モデルの応答をランク付けする方法は、スケーラビリティの問題を抱えており、非現実的(かつ高コスト)である。もう一つの代替案は、LMアリーナのような公開アリーナを利用する方法で、ユーザーは自由にモデルを評価し、任意の質問に対して2つのモデルの応答をランク付けできる。その結果はモデルのランキングとして集計される。LLMのエネルギー消費量はますます重要な側面となっており、エネルギー意識が人間のモデル選択にどのように影響するかを評価することは興味深い。本論文では、Generative Energy Arena(GEA)を紹介する。GEAは、評価プロセスにモデルのエネルギー消費量の情報を組み込んだアリーナである。GEAを用いた予備的な結果も提示されており、ユーザーがエネルギー消費量を認識している場合、ほとんどの質問において、より小型でエネルギー効率の高いモデルを好むことが示されている。これは、ほとんどのユーザーインタラクションにおいて、より複雑で高性能なモデルによる追加コストとエネルギー消費は、応答の知覚品質の向上を正当化するほどではないことを示唆している。
本研究は、FTSE 100指数に適用されたエクスペクタイルベースの手法に焦点を当て、変動の激しい市場における定量的リスク管理のフレームワークを提示する。伝統的なリスク指標であるバリュー・アット・リスク(VaR)は、2008年の金融危機やその後の市場の変動期において、市場のストレス下で重大な限界を示してきた。本研究では、従来の分位点ベースのアプローチの欠点を克服するため、テールリスクに対する感度を高め、極端な市場条件下での安定性を向上させた先進的なエクスペクタイルベースのフレームワークを開発する。研究では、FTSE 100の20年間にわたるリターンデータを使用し、高ボラティリティ期、市場暴落期、回復期を含む期間を分析対象とする。本手法では、エクスペクタイル回帰モデルのための新しい数学的定式化、時系列分析を用いた閾値決定技術の強化、および堅牢なバックテスト手順を導入する。実証結果は、エクスペクタイルベースのバリュー・アット・リスク(EVaR)が、様々な信頼水準や市場条件において、従来のVaR指標を一貫して上回ることを示している。このフレームワークは、変動期において優れた性能を発揮し、モデルリスクを低減し、予測精度を向上させる。さらに、本研究は金融機関向けの実践的な導入ガイドラインを確立し、規制遵守とポートフォリオ管理のためのエビデンスに基づく提言を提供する。これらの知見は、金融リスク管理に関する文献に大きく貢献し、変動の激しい市場環境に対処する実務家にとって有用なツールを提供するものである。