翻訳付きの日次キュレーションされたAI研究論文
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Model, LLM)の推論能力を向上させる有望なアプローチとして注目を集めている。しかし、これまでのオープンな取り組みは主に数学やコードに焦点を当てており、一般的な推論への広範な適用性に関する理解が限られている。その主な課題は、多様な推論領域にわたる信頼性が高くスケーラブルなRL報酬信号の欠如にある。本研究では、Guruという92,000件の検証可能な例からなるRL推論コーパスを紹介する。このコーパスは、数学、コード、科学、論理、シミュレーション、表形式の6つの推論領域にまたがり、各領域ごとに報酬設計、重複排除、フィルタリングを経て構築され、RLトレーニングの信頼性と有効性を確保している。Guruに基づき、LLM推論におけるRLの既存の知見を体系的に再検証し、領域間で顕著な差異を観察した。例えば、先行研究ではRLが主に事前学習済みモデルから既存の知識を引き出すとされているが、我々の結果はより微妙なパターンを示している。事前学習中に頻繁に登場する領域(数学、コード、科学)では、クロスドメインRLトレーニングが容易に効果を発揮する一方で、事前学習での露出が限られている領域(論理、シミュレーション、表形式)では、有意な性能向上を達成するためにドメイン内トレーニングが必要であり、RLが真のスキル習得を促進する可能性が示唆される。最後に、Guru-7BとGuru-32Bという2つのモデルを提示する。これらは、公開されているデータを用いてRLトレーニングされたオープンモデルの中で最先端の性能を達成し、6つの推論領域にわたる17タスクの評価スイートにおいて、最良のベースラインをそれぞれ7.9%と6.7%上回った。また、我々のモデルは、特に事前学習データに現れにくい複雑なタスクにおいて、ベースモデルのPass@k性能を効果的に向上させることを示す。汎用推論を促進するため、データ、モデル、トレーニングおよび評価コードをhttps://github.com/LLM360/Reasoning360で公開する。
本論文では、自己回帰モデリングとフローマッチングを活用した改良型ネイティブ統合マルチモーダルモデル、すなわちShow-o2を提案する。3D因果的変分オートエンコーダ空間を基盤として、空間的(時間的)融合のデュアルパスを通じて統合された視覚表現を構築し、画像と動画のモダリティにわたるスケーラビリティを確保しながら、効果的なマルチモーダル理解と生成を実現する。言語モデルを基盤として、自己回帰モデリングとフローマッチングをそれぞれ言語ヘッドとフローヘッドにネイティブに適用し、テキストトークンの予測と画像/動画の生成を促進する。2段階のトレーニングレシピを設計し、より大規模なモデルへの効果的な学習とスケーリングを可能にする。結果として得られたShow-o2モデルは、テキスト、画像、動画を含む多様なモダリティにわたる幅広いマルチモーダル理解と生成タスクを処理する汎用性を実証する。コードとモデルはhttps://github.com/showlab/Show-oで公開されている。
テキスト読み上げおよび音声生成モデルの進展に伴い、AIシステムの感情理解能力を評価するための堅牢なベンチマークの必要性が高まっている。現在の音声感情認識(SER)データセットは、感情の粒度、プライバシーに関する懸念、または演技に依存している点でしばしば制約がある。本論文では、音声感情検出のための新たなリソースであるEmoNet-Voiceを紹介する。EmoNet-Voiceは、大規模な事前学習データセット「EmoNet-Voice Big」(11の声、40の感情、4つの言語にわたる4,500時間以上の音声を含む)と、人間の専門家による注釈を付けた新たなベンチマークデータセット「EmoNet-Voice Bench」で構成されている。EmoNet-Voiceは、40の感情カテゴリーにわたる細かいスペクトルと異なる強度レベルでSERモデルを評価するために設計されている。最先端の音声生成技術を活用し、特定の感情を引き出すように設計されたシーンを演じる俳優をシミュレートした合成音声クリップをキュレーションした。重要な点として、心理学の専門家による厳密な検証を行い、知覚された強度ラベルを付与した。この合成かつプライバシー保護を考慮したアプローチにより、既存のデータセットではしばしば欠如している敏感な感情状態を含めることが可能となった。最後に、人間の専門家との高い一致を示す音声感情認識の新たな基準を設定するEmpathic Insight Voiceモデルを紹介する。現在のモデル環境における評価を通じて、怒りのような高覚醒感情が集中のような低覚醒状態よりもはるかに検出しやすいといった貴重な知見が得られた。
近年、マルチモーダル大規模言語モデル(MLLMs)は、その強力な視覚理解能力により、研究の注目を集めている。様々な視覚タスクで印象的な結果を達成している一方で、チャートからコードへの生成タスクにおける性能は最適とは言えない。このタスクでは、与えられたチャートを再現するための実行可能なコードを生成する必要があり、正確な視覚理解だけでなく、視覚要素を構造化されたコードに正確に変換する能力が求められる。MLLMsに直接この複雑なタスクを実行させるよう促しても、満足のいく結果が得られないことが多い。この課題に対処するため、我々は構造化された指示に基づく反復的改良手法である{ChartIR}を提案する。まず、視覚理解とコード変換という2つのタスクを区別する。視覚理解の部分を達成するために、記述指示と差異指示という2種類の構造化された指示を設計する。記述指示は参照チャートの視覚要素を捉え、差異指示は参照チャートと生成されたチャートの間の不一致を特徴付ける。これらの指示は視覚的特徴を言語表現に効果的に変換し、それによって後続のコード変換プロセスを促進する。次に、全体のチャート生成パイプラインを初期コード生成と反復的改良の2段階に分解し、最終出力を段階的に向上させる。実験結果は、他の手法と比較して、我々の手法がオープンソースモデルのQwen2-VLとクローズドソースモデルのGPT-4oの両方で優れた性能を達成することを示している。
音楽作品の特性を正確に反映する詳細なキャプションは、音楽データベースを充実させ、音楽AIの研究を推進する上で重要な役割を果たす。本論文では、キャプション生成とキー検出、ボーカル検出などの補助的な音楽特徴検出タスクを統合したマルチタスク音楽キャプションモデル「SonicVerse」を提案する。これにより、低レベルの音響的詳細と高レベルの音楽的属性の両方を直接捉えることを可能にする。主な貢献は、音声入力を言語トークンに変換しつつ、専用の補助ヘッドを通じて音楽特徴を検出する投影ベースのアーキテクチャである。これらのヘッドの出力も言語トークンに投影され、キャプション入力を強化する。このフレームワークは、短い音楽フラグメントに対する豊かで記述的なキャプションを生成するだけでなく、大規模言語モデルを使用して出力を連鎖させることで、長い音楽作品に対する詳細な時間情報付き記述の生成を直接可能にする。モデルの訓練のために、モジュール式音楽特徴抽出器であるMIRFLEXを使用してMusicBenchデータセットに音楽特徴を注釈付けし、音声、キャプション、音楽特徴データをペアリングした。実験結果は、この方法で特徴を組み込むことで生成されるキャプションの品質と詳細が向上することを示している。
最近の大規模言語モデル(LLMs)は、推論ベンチマークにおいて高い精度を報告しています。しかし、観察された結果が真の推論によるものか、それとも訓練セットの統計的回想起因によるものかは依然として不明です。因果関係の階梯(Pearl, 2009)とその3つのレベル(関連性、介入、反事実)に着想を得て、本論文ではRE-IMAGINEを紹介します。これは、LLMsの推論能力の階層を特徴づけるフレームワークであり、階層の異なるレベルで問題のバリエーションを生成する自動化されたパイプラインを備えています。中間的なシンボリック表現で問題を変更することにより、RE-IMAGINEは記憶だけでは解けない任意に多くの問題を生成します。さらに、このフレームワークは一般的であり、数学、コード、論理などの推論領域にわたって機能します。我々は、広く使用されている4つのベンチマークでこのフレームワークを実証し、複数のLLMsファミリーを評価しました。その結果、問題のバリエーションでモデルに問い合わせた際に性能の低下が観察されました。これらの評価は、過去の性能に対する統計的回想への依存度を示しており、推論階層全体にわたるスキルを対象としたさらなる研究への扉を開くものです。