翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)はその驚異的な能力にもかかわらず、パラメトリックな知識にのみ依存しているため、事実誤認を含む応答を生成することがしばしばあります。Retrieval-Augmented Generation(RAG)は、関連する知識を検索して言語モデルを拡張するアドホックなアプローチであり、このような問題を軽減します。しかし、検索が必要かどうかや、検索された文章が関連しているかどうかを問わず、固定数の文章を無差別に取得して組み込むことは、言語モデルの汎用性を低下させたり、役に立たない応答生成につながる可能性があります。本論文では、検索と自己反映を通じて言語モデルの品質と事実性を向上させる新しいフレームワークであるSelf-Reflective Retrieval-Augmented Generation(Self-RAG)を提案します。このフレームワークでは、単一の任意の言語モデルを訓練し、オンデマンドで文章を適応的に検索し、検索された文章と自身の生成内容を反映するための特別なトークン(反映トークン)を使用します。反映トークンを生成することで、推論段階で言語モデルを制御可能にし、多様なタスク要件に応じてその動作を調整することができます。実験結果は、Self-RAG(7Bおよび13Bパラメータ)が、多様なタスクにおいて最先端のLLMや検索拡張モデルを大幅に上回ることを示しています。具体的には、Self-RAGはOpen-domain QA、推論、事実検証タスクにおいてChatGPTや検索拡張されたLlama2-chatを上回り、長文生成における事実性と引用精度の向上においてもこれらのモデルに対して顕著な改善を示しています。
AIを活用した音楽処理は多様な分野であり、生成タスク(例:音色合成)から理解タスク(例:音楽分類)まで数十のタスクを包含しています。開発者やアマチュアにとって、音楽処理における要件を満たすためにこれら全てのタスクを把握することは非常に困難です。特に、音楽データの表現方法やプラットフォーム間でのモデルの適用性に大きな違いがあることを考慮すると、その難しさは一層増します。そのため、これらのタスクを整理・統合し、実践者が自身のニーズを自動的に分析し、適切なツールを呼び出して要件を満たすのを支援するシステムを構築することが必要です。大規模言語モデル(LLM)のタスク自動化における最近の成功に触発され、我々はMusicAgentというシステムを開発しました。このシステムは、多数の音楽関連ツールと自律的なワークフローを統合し、ユーザーの要件に対応します。具体的には、1) Hugging Face、GitHub、Web APIなど多様なソースからツールを収集するツールセット、2) LLM(例:ChatGPT)によって強化された自律的なワークフローを構築し、これらのツールを整理し、ユーザーのリクエストを複数のサブタスクに分解し、対応する音楽ツールを自動的に呼び出します。このシステムの主な目的は、ユーザーがAI音楽ツールの複雑さから解放され、創造的な側面に集中できるようにすることです。ユーザーがツールを簡単に組み合わせる自由を与えることで、シームレスで豊かな音楽体験を提供します。
近年のテキストから3D生成への手法は、画像拡散モデルと最適化戦略の進展により、印象的な3Dコンテンツ作成能力を実現している。しかし、現在の手法は、複数の相互作用するオブジェクトが異なる属性と結びついた複雑な意味を持つプロンプトに対して、正確な3Dコンテンツを生成するのに苦戦している。本研究では、Progressive3Dと名付けた一般的なフレームワークを提案し、複雑なプロンプトに対して正確な3Dコンテンツを作成するために、生成プロセスを一連の局所的な段階的編集ステップに分解する。さらに、各編集ステップにおいて、ユーザー定義の領域プロンプトによって決定された領域のみでコンテンツの変更が発生するように制約をかける。加えて、プロンプト間の意味的差異に最適化プロセスがより焦点を当てることを促すために、重複する意味的コンポーネント抑制技術を提案する。広範な実験により、提案するProgressive3Dフレームワークが、複雑な意味を持つプロンプトに対して正確な3Dコンテンツを生成し、異なる3D表現に基づく様々なテキストから3D生成手法に対して一般的に適用可能であることが示された。