翻訳付きの日次キュレーションされたAI研究論文
Chain-of-Thought(CoT)プロンプティングは、大規模言語モデル(LLM)のさまざまなタスクにおける性能向上に寄与することが示されています。このアプローチでは、LLMは回答を提供する前に人間のような推論ステップを生成するように見えます(いわゆるCoT推論)。これにより、LLMが意図的な推論プロセスを行っているかのように認識されることが多いです。しかし、初期の研究結果から、CoT推論は見かけほど深くない可能性が示唆されており、さらなる探求を促しています。本論文では、データ分布の観点からCoT推論を研究し、CoT推論が学習データ内の構造化された帰納的バイアスを反映しているかどうかを調査します。これにより、モデルは訓練中に見られた推論パスを条件付きで生成できるようになり、その有効性は訓練データとテストクエリ間の分布の不一致の度合いに根本的に制約されます。この観点から、CoT推論をタスク、長さ、形式の3つの次元で分析します。各次元を調査するために、LLMをゼロから訓練し、さまざまな分布条件下で体系的に探るための孤立した制御環境であるDataAlchemyを設計します。我々の結果は、CoT推論が訓練分布を超えると脆い幻影となり消えてしまうことを明らかにします。この研究は、CoT推論がなぜ、いつ失敗するのかを深く理解し、真の汎用的な推論を達成するための継続的な課題を強調します。
近年の研究では、複雑なグラフィカルユーザーインターフェース(GUI)ベースのコンピュータタスクを実行可能な自律エージェントの構築が進められており、人間とコンピュータの相互作用に革命をもたらす可能性があります。有望な結果が得られているものの、既存の取り組みは主に短期的な相互作用に焦点を当てており、結果のみの検証に依存しているため、長期的なタスクの分解と実行を必要とする現実世界のGUIアプリケーションにおけるスケーラビリティが制限されています。本研究では、現実的なコンピュータ環境で動作する汎用GUIエージェントの開発と評価を促進するために設計された、検証可能な長鎖GUIデータセット「VeriGUI」を紹介します。このデータセットは、以下の2つの重要な次元を強調しています:(1)長鎖の複雑性。タスクは相互依存するサブタスクのシーケンスに分解され、数百のステップにわたるように設計されており、どのサブタスクも有効な開始点として機能できるよう明示的に設計されています。(2)サブタスクレベルの検証可能性。各サブタスク内で多様な探索戦略を可能にしつつ、各サブタスクレベルの目標が検証可能で一貫性を保つようにしています。このデータセットは、デスクトップとウェブの両方にわたるGUIタスクの軌跡で構成され、人間の専門家によって注釈が付けられています。VeriGUIを用いたさまざまな基盤モデルを持つエージェントによる広範な実験では、長期的なタスクの処理において大きな性能差が明らかになり、GUIエージェントにおけるより堅牢な計画と意思決定能力の必要性が浮き彫りになりました。
大規模言語モデル(LLM)駆動エージェントの顕著な能力により、複雑な多段階タスクに対処する高度なシステムが実現されているが、そのコストの増大はスケーラビリティとアクセシビリティを脅かしている。本研究は、性能を犠牲にすることなくコスト効率の高い設計を実現するための重要なニーズに対応し、現代のエージェントシステムにおける効率性と有効性のトレードオフについて初めて体系的に検証するものである。我々は以下の3つの主要な問いに焦点を当てる:(1)エージェントタスクは本質的にどの程度の複雑性を必要とするか?(2)追加モジュールが収穫逓減をもたらすのはどのような場合か?(3)効率的なエージェントフレームワークの設計を通じて、どの程度の効率性を向上させることができるか?GAIAベンチマークを用いた実証分析を通じて、LLMバックボーンの選択、エージェントフレームワークの設計、およびテスト時のスケーリング戦略の影響を評価する。コスト・オブ・パス指標を用いて、これらの次元における効率性と性能のトレードオフを定量化する。我々の知見に基づき、タスク要件に最適な複雑性を持つ新たなエージェントフレームワーク「Efficient Agents」を開発した。Efficient Agentsは、主要なオープンソースエージェントフレームワークであるOWLの性能の96.7%を維持しつつ、運用コストを0.398から0.228に削減し、コスト・オブ・パスを28.4%改善した。本研究は、効率的で高性能なエージェントシステムを設計するための実践的な洞察を提供し、AI駆動ソリューションのアクセシビリティと持続可能性を推進するものである。
本論文では、任意のAIエージェントに対する大規模言語モデル(LLM)の強化学習(RL)ベースのトレーニングを可能にする、柔軟で拡張性の高いフレームワーク「Agent Lightning」を提案します。既存の手法ではRLトレーニングがエージェントと密結合していたり、シーケンス連結とマスキングに依存していたりするのに対し、Agent Lightningはエージェントの実行とトレーニングを完全に分離し、LangChain、OpenAI Agents SDK、AutoGenなどのフレームワークを使用して開発された既存のエージェントや、ゼロから構築されたエージェントと、ほぼコード変更なしでシームレスに統合できます。エージェントの実行をマルコフ決定過程として定式化することで、統一されたデータインターフェースを定義し、クレジット割り当てモジュールを含む階層型RLアルゴリズム「LightningRL」を提案します。これにより、任意のエージェントによって生成された軌跡をトレーニング遷移に分解することが可能になり、RLがマルチエージェントシナリオや動的ワークフローなどの複雑な相互作用ロジックを扱えるようになります。システム設計においては、トレーニングとエージェントを分離するアーキテクチャを導入し、エージェントのランタイムに観測可能性フレームワークを組み込むことで、標準化されたエージェントのファインチューニングインターフェースを提供します。テキストからSQLへの変換、検索拡張生成、数学ツール使用タスクにおける実験を通じて、安定した継続的な改善が確認され、本フレームワークが実世界のエージェントトレーニングとデプロイメントにおいて持つ可能性が示されています。
強化学習(RL)を大規模言語モデル(LLM)に応用する研究は、これまで主に数学的推論や単発のコード生成などの単一ターン問題に焦点が当てられてきた。これらの問題はトークンレベルの多ターンMDP(マルコフ決定過程)として見なすことができるが、この見方は環境がフィードバックを提供しないという特殊な多ターン相互作用のケースに相当する。これは、ソフトウェア工学(SWE)などの多くの現実世界の領域とは対照的であり、これらの領域では、各アクションに対して非自明な観測を返すステートフルな環境との豊富な多ターン相互作用が要求される。 このギャップを埋めるため、我々はRLをこの一般的な領域に適用する成功例を示す。修正版のDecoupled Advantage Policy Optimization(DAPO)アルゴリズムを使用し、Qwen2.5-72B-Instructを基にしたエージェントを訓練して、現実世界のソフトウェア工学タスクを解決する。我々のアプローチにより、SWE-bench Verifiedベンチマークにおけるエージェントの成功率が、20%のリジェクトファインチューニングされたベースラインから39%に向上し、教師モデルに依存することなく達成された。SWE-rebenchでは、我々のエージェントはDeepSeek-V3-0324やQwen3-235B-A22Bなどの主要なオープンウェイトモデルと同等またはそれ以上の性能を示し、同一のスキャフォールディングを使用して、複雑な現実世界の問題に対応するより強力な自律エージェントを構築するための実現可能な道筋を提供する。
大規模視覚言語モデル(LVLM)をコンピュータ利用エージェント(CUA)として再利用することで、主に人間によるラベル付けデータに基づく大きなブレークスルーがもたらされてきた。しかし、これらのモデルは、特に人間による注釈が欠如しているシナリオにおいて、新規かつ専門的なソフトウェアに対応するのに苦労することが多い。この課題に対処するため、我々はSEAgentを提案する。これは、CUAが未知のソフトウェアとの相互作用を通じて自律的に進化することを可能にするエージェント型自己進化フレームワークである。具体的には、SEAgentはコンピュータ利用エージェントが経験学習を通じて新規ソフトウェア環境を自律的に習得することを可能にする。エージェントは新規ソフトウェアを探索し、反復的な試行錯誤を通じて学習し、単純から複雑へと組織化された自動生成タスクに段階的に取り組む。この目標を達成するため、我々は段階的な軌跡評価のためのワールドステートモデルと、ますます多様で挑戦的なタスクを生成するカリキュラムジェネレータを設計した。エージェントのポリシーは、失敗行動の敵対的模倣と成功行動に対するグループ相対ポリシー最適化(GRPO)から構成される経験学習を通じて更新される。さらに、専門家エージェントからの個別の経験的洞察を統合する専門家からジェネラリストへのトレーニング戦略を導入し、継続的な自律進化が可能なより強力なジェネラリストCUAの開発を促進する。この統一エージェントは、最終的に専門ソフトウェアにおける個別の専門家エージェントのアンサンブルを上回る性能を達成する。我々は、OS-World内の5つの新規ソフトウェア環境においてSEAgentの有効性を検証した。我々のアプローチは、競合するオープンソースCUAであるUI-TARSに対して、成功率を11.3%から34.5%へと23.2%の大幅な改善を達成した。
インタラクティブなマルチモーダルエージェントは、生の視覚観測を言語条件付き行動の一貫したシーケンスに変換する必要があるが、これは現在の視覚言語モデル(VLM)がまだ持っていない能力である。従来の強化学習(RL)の取り組みは、原理的にはVLMにそのようなスキルを付与することが可能であったが、学習された行動がトレーニングシミュレータを超えて一般化するかどうかをほとんど検証しておらず、脆弱なハイパーパラメータ調整または状態変動が少ない密な報酬環境に依存していた。本研究では、軽量でハイパーパラメータフリーのRLアルゴリズムであるVision-Language Decoupled Actor-Critic(VL-DAC)を提案する。VL-DACは、行動トークンにPPO更新を適用しながら、環境ステップレベルでのみ価値を学習する。この配置は、我々の知る限り、大規模なVLMやLLMに対してこれまでに探索されていないものである。この単純な分離により、不安定な重み付け項が除去され、より速く、より信頼性の高い収束が得られる。VL-DACを使用して、1つの安価なシミュレータ(MiniWorld、Gym-Cards、ALFWorld、またはWebShop)で単一のVLMをトレーニングするだけで、広範に一般化するポリシーが生成される。BALROG(ゲーム中心のエージェント制御)では相対的に+50%、VSI-Benchの最も難しい部分(空間計画)では相対的に+5%、VisualWebBench(ウェブナビゲーション)では+2%の向上が得られ、一般的な画像理解精度を低下させることなく達成された。これらの結果は、単純なRLアルゴリズムが安価な合成世界で完全にVLMをトレーニングし、実画像のエージェント制御、空間推論、ウェブナビゲーションのベンチマークで測定可能な向上をもたらすことができる最初の証拠を提供する。
社会的知性は、大規模言語モデル(LLM)にとって重要な能力となり、現実世界の社会的タスク(例:調整、説得、協力、交渉)に効果的に関与することを可能にしています。強化学習(RL)は、社会的に知的なエージェントを訓練するのに自然に適しています。なぜなら、RLはモデルが直接社会的相互作用を通じて洗練された戦略を学習することを可能にするからです。しかし、社会的相互作用には、RL訓練に障壁を設ける2つの重要な特性があります:(1)部分観測可能性。発話が間接的かつ遅延した効果を持ち、クレジット割り当てを複雑にする。(2)多次元性。ラポート構築や知識探索などの行動が、目標達成に間接的に寄与する。これらの特性により、単一次元のエピソードレベル報酬に基づくマルコフ決定過程(MDP)ベースのRLは非効率で不安定になります。これらの課題に対処するため、我々はSotopia-RLを提案します。これは、粗いエピソードレベルのフィードバックを発話レベル、多次元の報酬に精緻化する新しいフレームワークです。発話レベルのクレジット割り当ては、結果を個々の発話に帰属させることで部分観測可能性を緩和し、多次元報酬は社会的相互作用の豊かさを完全に捉え、報酬ハッキングを減らします。オープンエンドの社会的学習環境であるSotopiaでの実験では、Sotopia-RLが最先端の社会的目標達成スコア(Sotopia-hardで7.17、Sotopia-fullで8.31)を達成し、既存のアプローチを大幅に上回ることが示されました。アブレーション研究は、RL訓練における発話レベルのクレジット割り当てと多次元報酬設計の両方が必要であることを確認しています。我々の実装は、https://github.com/sotopia-lab/sotopia-rl で公開されています。
薬物毒性は、医薬品開発における主要な課題の一つである。近年、機械学習モデルによるin silico毒性予測が進化しているが、注釈付きデータへの依存性や解釈可能性の欠如がその適用範囲を制限している。これにより、複雑な生物学的メカニズムに起因する臓器特異的毒性を捉える能力が制約されている。大規模言語モデル(LLM)は、段階的な推論とテキストデータの統合を通じて有望な代替手段を提供するが、従来のアプローチでは生物学的文脈や透明な論理が欠けていた。この問題を解決するため、我々はCoToxを提案する。CoToxは、LLMと連鎖的思考(CoT)推論を統合した新しいフレームワークであり、化学構造データ、生物学的経路、および遺伝子オントロジー(GO)用語を組み合わせて、段階的な推論を通じて解釈可能な毒性予測を生成する。GPT-4oを使用して、CoToxが従来の機械学習モデルや深層学習モデルを上回ることを示す。さらに、さまざまなLLMにおける性能を検証し、CoToxが最も効果的な領域を特定する。また、化学構造をSMILESよりもLLMが理解しやすいIUPAC名で表現することで、モデルの推論能力が向上し、予測性能が改善されることを確認した。医薬品開発における実用性を実証するため、関連する細胞タイプに対する薬物処理をシミュレーションし、得られた生物学的文脈をCoToxフレームワークに組み込んだ。このアプローチにより、CoToxは生理学的応答と整合性のある毒性予測を生成することができ、ケーススタディで示された。この結果は、LLMベースのフレームワークが解釈可能性を向上させ、早期段階の薬物安全性評価を支援する可能性を強調している。本研究で使用したコードとプロンプトは、https://github.com/dmis-lab/CoToxで公開されている。
マルチモーダル大規模モデルは、ウェブエージェントの開発を大幅に進化させ、人間の認知に近い形でデジタル環境を認識し、相互作用することを可能にしました。本論文では、ウェブエージェントが効果的に認知的推論を行うためには、まず十分な知識を獲得する必要があると主張します。そこで、ウェブエージェントの能力を2つの重要な段階に分解します:知識内容の学習と認知的プロセスです。これを形式化するため、我々はWeb-CogKnowledge Frameworkを提案し、知識を「事実的」「概念的」「手続き的」の3つに分類します。このフレームワークでは、知識内容の学習は、エージェントの「記憶」と「理解」のプロセスに対応し、最初の2つの知識タイプに依存し、学習の「何」を表します。一方、認知的プロセスは「探索」に対応し、手続き的知識に基づいており、推論と行動の「方法」を定義します。知識獲得を促進するため、我々はWeb-CogDatasetを構築しました。これは14の実世界のウェブサイトからキュレーションされた構造化リソースであり、ウェブエージェントに必要な中核知識を体系的に習得するように設計されています。このデータセットは、エージェントの概念的基盤(理解が構築される「名詞」)として機能するだけでなく、推論と行動の方法を学ぶ基盤としても役立ちます。この基盤を基に、我々はこれらのプロセスを新しい知識駆動型のChain-of-Thought(CoT)推論フレームワークを通じて実践化し、提案するエージェントであるWeb-CogReasonerを開発・訓練しました。広範な実験により、特に構造化された知識が決定的な役割を果たす未見のタスクへの一般化において、既存モデルを大幅に上回る優位性が明らかになりました。厳密な評価を可能にするため、我々はWeb-CogBenchを導入しました。これは、定義された知識領域と認知能力にわたってエージェントのパフォーマンスを評価・比較するための包括的な評価スイートです。我々のコードとデータはhttps://github.com/Gnonymous/Web-CogReasonerで公開されています。
ウェブページデザインをコードに変換する(デザイン・ツー・コード)プロセスは、フロントエンド開発者にとってユーザーインターフェース(UI)開発において重要な役割を果たし、視覚的なデザインと機能的な実装の間のギャップを埋める。近年のマルチモーダル大規模言語モデル(MLLMs)はデザイン・ツー・コードタスクにおいて大きな可能性を示しているが、コード生成中にレイアウトを正確に保持することがしばしば困難である。この問題に対処するため、我々は人間の認知における連鎖的思考(Chain-of-Thought, CoT)に着想を得て、レイアウトを思考として扱う(Layout-as-Thought, LaT)ことでコード生成中のウェブページデザインのレイアウト保持を強化する新たなアプローチ、LaTCoderを提案する。具体的には、まずウェブページデザインを画像ブロックに分割するためのシンプルかつ効率的なアルゴリズムを導入する。次に、CoTベースのアプローチを用いてMLLMsに各ブロックのコード生成を促す。最後に、絶対位置指定とMLLMベースの方法という2つのアセンブリ戦略を適用し、動的選択によって最適な出力を決定する。LaTCoderの有効性を評価するため、複数の基盤MLLMs(DeepSeek-VL2、Gemini、GPT-4o)を用いて、公開ベンチマークおよび複雑なレイアウトを特徴とする新たに導入されたより挑戦的なベンチマーク(CC-HARD)で実験を行った。自動評価指標における実験結果は、大幅な改善を示している。具体的には、DeepSeek-VL2を使用した場合、直接プロンプティングと比較してTreeBLEUスコアが66.67%向上し、MAEが38%減少した。さらに、人間による選好評価の結果は、アノテーターがLaTCoderによって生成されたウェブページを60%以上のケースで好むことを示しており、我々の手法の有効性を強く裏付けている。
テキストから画像を生成するモデルの評価には、人間の知覚との整合性が求められる。しかし、既存の人間中心の評価指標は、データカバレッジの限界、最適でない特徴抽出、非効率な損失関数によって制約を受けている。これらの課題に対処するため、我々はHuman Preference Score v3(HPSv3)を提案する。(1) 我々はHPDv3を公開した。これは、最先端の生成モデルから低品質から高品質までの実世界の画像までを含む、108万のテキスト-画像ペアと117万の注釈付きペアワイズ比較を統合した、初の広範な人間選好データセットである。(2) 我々は、不確実性を考慮したランキング損失を用いて訓練されたVLMベースの選好モデルを導入し、細かいランキングを実現した。さらに、Chain-of-Human-Preference(CoHP)を提案する。これは、追加データなしで画像品質を向上させる反復的な画像改良手法であり、各ステップで最良の画像を選択するためにHPSv3を使用する。大規模な実験により、HPSv3が広範な画像評価のための堅牢な指標として機能し、CoHPが画像生成品質を向上させるための効率的で人間に整合したアプローチを提供することが示された。コードとデータセットはHPSv3ホームページで公開されている。
本論文では、単一のビデオ入力から高品質な動的3Dコンテンツを生成する新しいビデオ-to-4D生成フレームワークを提案する。直接的な4D拡散モデリングは、データ構築のコストが高く、3D形状、外観、および動きを同時に表現する高次元性のため、非常に困難である。これらの課題に対処するため、我々はDirect 4DMesh-to-GS Variation Field VAEを導入し、3Dアニメーションデータから正準ガウシアンスプラット(GS)とその時間的変動を直接エンコードし、高次元アニメーションをコンパクトな潜在空間に圧縮する。この効率的な表現を基に、入力ビデオと正準GSを条件とした時間認識型Diffusion Transformerを用いて、ガウシアン変動場拡散モデルを学習する。Objaverseデータセットから厳選されたアニメーション可能な3Dオブジェクトで学習した結果、我々のモデルは既存手法と比較して優れた生成品質を示した。また、合成データのみで学習しているにもかかわらず、実世界のビデオ入力に対して顕著な汎化性能を発揮し、高品質なアニメーション3Dコンテンツ生成への道を開いた。プロジェクトページ: https://gvfdiffusion.github.io/。
ビデオ仮想試着(VVT)技術は、eコマース広告やエンターテイメント分野での有望な応用可能性から、学術的に大きな注目を集めている。しかし、既存のエンドツーエンド手法の多くは、限られたペア型の衣料品中心データセットに依存しており、高度な視覚モデルやテスト時入力の事前情報を効果的に活用できていない。そのため、制約のないシナリオにおいて、細かな衣料品のディテールを正確に保持し、時間的な一貫性を維持することが困難となっている。これらの課題に対処するため、我々はDiffusion Transformers(DiTs)を基盤とした2段階のフレームワークであるDreamVVTを提案する。このフレームワークは、多様な非ペア型の人間中心データを活用して現実世界のシナリオにおける適応性を向上させる能力を本質的に備えている。さらに、事前学習済みモデルやテスト時入力からの事前知識を活用するため、第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合されたマルチフレーム試着モデルを使用して、高忠実度かつ意味的に一貫したキーフレーム試着画像を生成する。これらの画像は、後続のビデオ生成のための補完的な外観ガイダンスとして機能する。第2段階では、入力コンテンツから骨格マップと細かな動きおよび外観の記述を抽出し、これらをキーフレーム試着画像とともに、LoRAアダプターで強化された事前学習済みビデオ生成モデルに入力する。これにより、未見領域に対する長期的な時間的整合性が確保され、非常に説得力のある動的モーションが実現される。定量的および定性的な実験結果は、DreamVVTが現実世界のシナリオにおいて、詳細な衣料品コンテンツの保持と時間的安定性の点で既存手法を凌駕することを示している。プロジェクトページはhttps://virtu-lab.github.io/にて公開中である。
人工知能(AI)学会は、研究の進展、知識の共有、学術コミュニティの育成において不可欠な存在です。しかし、その急速な拡大により、集中型の学会モデルはますます持続不可能な状況に陥っています。本論文では、科学的な情報発信、公平性、コミュニティの健全性という基本的な目標を脅かす構造的危機について、データに基づいた診断を提供します。私たちは、以下の4つの主要なストレスの領域を特定しました:(1) 科学的には、著者1人あたりの論文発表率が過去10年間で2倍以上に増加し、年間4.5本を超えていること、(2) 環境的には、1つの学会のカーボンフットプリントが開催都市の1日の排出量を上回っていること、(3) 心理的には、オンラインコミュニティの議論の71%がネガティブな感情を反映し、35%がメンタルヘルスの懸念に言及していること、(4) 運営的には、NeurIPS 2024のような主要な学会の参加者が会場の収容能力を上回り始めていることです。これらの圧力は、学会の核心的な使命とシステムが乖離していることを示しています。これに対応して、私たちは「コミュニティ連携型学会(Community-Federated Conference, CFC)」モデルを提案します。このモデルでは、査読、発表、ネットワーキングを、グローバルに調整されつつも地域ごとに組織されるコンポーネントに分離し、AI研究にとってより持続可能で包括的かつ強靭な道筋を提供します。
大規模言語モデル(LLMs)は長文脈タスクを可能にするが、キー・バリュー(KV)キャッシュの増大に伴う効率性の課題に直面している。本論文では、静的チャネルスパース性を活用して重要でないキー(K)キャッシュチャネルを剪定する学習ベースの手法「LeanK」を提案する。新規の2段階トレーニングプロセスにより、LeanKは特定のスパース率とハードウェアアライメント要件を満たすチャネル単位の静的マスクを学習する。LeanKはGPUメモリを削減し、精度を犠牲にすることなくデコードを高速化する。実験では、最大70%のKキャッシュと16%-18%のVキャッシュメモリ削減を実証している。カスタムデコードカーネルにより、アテンション計算が1.3倍高速化される。また、学習された重要度分布を分析することで、長文脈推論中のモデルチャネルとアテンションヘッドに関する洞察を提供する。コードはhttps://aka.ms/LeanKで公開されている。
大規模言語モデル(LLM)は、長い文脈を処理する際に、前方干渉(proactive interference)による著しい性能低下に悩まされる。これは、文脈の前半部分にある無関係な情報が推論や記憶の想起を妨げる現象である。多くの研究がLLMの能力を拡張するための外部メモリシステムに焦点を当てる中、我々は補完的なアプローチを提案する:LLMにアクティブコンテキスト管理(Active Context Management, ACM)ツールを装備し、内部の作業メモリを積極的に形成する能力を与えることである。我々は、Sculptorというフレームワークを導入し、LLMに3つのカテゴリのツールを提供する:(1) コンテキストの断片化、(2) 要約、隠蔽、復元、(3) インテリジェント検索。このアプローチにより、LLMは人間が関連情報に選択的に焦点を当て、注意散漫をフィルタリングするのと同様に、自身の注意と作業メモリを積極的に管理できるようになる。情報が疎なベンチマークであるPI-LLM(前方干渉)およびNeedleBench Multi-Needle Reasoningでの実験的評価により、Sculptorが特定のトレーニングなしでもLLMのツール呼び出し汎化能力を活用し、性能を大幅に向上させることが実証された。アクティブコンテキスト管理を可能にすることで、Sculptorは前方干渉を軽減するだけでなく、多様な長文脈タスクにおける信頼性の高い推論のための認知的基盤を提供する。これは、単に大きなトークンウィンドウを増やすのではなく、明示的なコンテキスト制御戦略がスケールにおける堅牢性の鍵であることを強調している。
自動形式化は、自然言語で記述された数学的命題を形式言語に翻訳することを目指す。LLM(大規模言語モデル)がこの分野の進展を加速しているものの、既存の手法は依然として精度の低さに悩まされている。効果的な自動形式化には、形式言語のドメイン知識を包括的に習得する能力と、自然言語の問題理解および非形式的-形式的な整合性を推論する能力という2つの重要な能力が必要である。前者がなければ、モデルは正しい形式的対象を特定できず、後者がなければ、現実世界の文脈を解釈し、それを正確に形式的表現にマッピングすることが困難となる。これらの課題に対処するため、我々はThinkingFを提案する。これは、両方の能力を向上させるデータ合成およびトレーニングパイプラインである。まず、形式知識が豊富な大規模な例を蒸留・選択して構築したデータセットと、専門家が設計したテンプレートに基づいて非形式的から形式的な推論軌跡を生成したデータセットを作成する。次に、これらのデータセットを用いてSFT(Supervised Fine-Tuning)とRLVR(Reinforcement Learning with Value-based Rewards)を適用し、両方の能力をさらに融合・洗練させる。その結果、7Bおよび32Bのモデルは、包括的な形式知識と強力な非形式的-形式的推論能力を兼ね備えた。特に、StepFun-Formalizer-32Bは、FormalMATH-Liteで40.5%、ProverBenchで26.7%のSOTA BEq@1スコアを達成し、これまでの汎用モデルおよび専門モデルをすべて上回った。
大規模言語モデルにより、エージェントはオープンなウェブ環境で自律的にタスクを実行できるようになりました。しかし、ウェブ内の潜在的な脅威が進化するにつれ、ウェブエージェントは長期的な操作においてタスクのパフォーマンスと新たなリスクのバランスを取るという課題に直面しています。この課題は重要であるにもかかわらず、現在の研究は単一目的の最適化や単一ターンのシナリオに限定されており、ウェブ環境における安全性と有用性の両方を協調的に最適化する能力が欠けています。このギャップを埋めるため、我々はHarmonyGuardを提案します。これは、ポリシー強化と目的最適化を活用して有用性と安全性の両方を向上させるマルチエージェント協調フレームワークです。HarmonyGuardは、以下の2つの基本的な能力を特徴とするマルチエージェントアーキテクチャを備えています:(1) 適応的ポリシー強化:HarmonyGuard内のポリシーエージェントは、非構造化された外部ドキュメントから構造化されたセキュリティポリシーを自動的に抽出・維持し、進化する脅威に対応してポリシーを継続的に更新します。(2) 二重目的最適化:安全性と有用性という二重の目的に基づき、HarmonyGuardに統合されたユーティリティエージェントは、マルコフリアルタイム推論を行って目的を評価し、メタ認知能力を活用してそれらを最適化します。複数のベンチマークでの広範な評価により、HarmonyGuardは既存のベースラインと比較してポリシー遵守率を最大38%、タスク完了率を最大20%向上させ、全てのタスクにおいて90%以上のポリシー遵守率を達成することが示されました。我々のプロジェクトはこちらで公開されています:https://github.com/YurunChen/HarmonyGuard。
大規模音声言語モデル(LALMs)の現在のアプローチは、閉じたデータソースや独自モデルに依存することが多く、その汎用性とアクセシビリティが制限されている。本論文では、MiDashengLMを紹介する。これは、我々の新規ACAVCapsトレーニングデータセットを用いた一般的な音声キャプションを通じて、効率的かつ包括的な音声理解を実現するための新規オープン音声言語モデルである。MiDashengLMは、完全な透明性と再現性を確保するために、公開されている事前学習データセットと教師ありファインチューニング(SFT)データセットのみに依存している。その中核には、多様な聴覚情報を効果的に処理するために設計されたオープンソースの音声エンコーダーであるDashengが統合されている。従来の研究が主に自動音声認識(ASR)ベースの音声-テキストアラインメントに焦点を当てていたのに対し、我々の戦略は一般的な音声キャプションに焦点を当て、音声、音響、音楽情報を一つのテキスト表現に融合し、複雑な音声シーンの包括的なテキスト表現を可能にしている。最後に、MiDashengLMは、初回トークンまでの時間(TTFT)において最大4倍の高速化を実現し、比較可能なモデルと比べて最大20倍のスループット向上を提供する。チェックポイントは、https://huggingface.co/mispeech/midashenglm-7b および https://github.com/xiaomi-research/dasheng-lm でオンラインで利用可能である。
インスタンスセグメンテーションは、生体医学画像において、細胞などの個々のオブジェクトを正確に区別するために重要であり、これらのオブジェクトはしばしば重なり合い、サイズも多様である。最近では、オブジェクトクエリがセグメンテーションを導くクエリベースの手法が高い性能を示している。U-Netは医療画像セグメンテーションにおいて標準的なアーキテクチャであるが、クエリベースのアプローチにおけるその潜在能力はほとんど未開拓である。本研究では、IAUNetという新しいクエリベースのU-Netアーキテクチャを提案する。コアデザインは、完全なU-Netアーキテクチャを基盤とし、新たに開発された軽量な畳み込みピクセルデコーダによって強化されており、モデルの効率性を向上させ、パラメータ数を削減している。さらに、複数のスケールにわたってオブジェクト固有の特徴を洗練するTransformerデコーダを提案する。最後に、2025 Revvity Full Cell Segmentation Datasetを紹介する。これは、明視野画像における重なり合う細胞質の詳細なアノテーションを提供するユニークなリソースであり、生体医学インスタンスセグメンテーションの新たなベンチマークを設定するものである。複数の公開データセットおよび独自のデータセットを用いた実験により、IAUNetは、最先端の完全畳み込みモデル、Transformerベースモデル、クエリベースモデル、および細胞セグメンテーション専用モデルのほとんどを凌駕し、細胞インスタンスセグメンテーションタスクにおいて強力なベースラインを確立することを示した。コードはhttps://github.com/SlavkoPrytula/IAUNetで公開されている。
固有表現抽出(NER)は、非構造化された臨床記録や生物医学文献に存在する医療データの80%以上から構造化された情報を抽出するための基盤技術である。大規模言語モデルの最近の進展にもかかわらず、多様なエンティティタイプにおいて最先端の性能を維持しつつ計算効率を保つことは依然として重要な課題である。本研究では、OpenMed NERを紹介する。これは、軽量なドメイン適応事前学習(DAPT)とパラメータ効率の高いLow-Rank Adaptation(LoRA)を組み合わせたオープンソースのドメイン適応型トランスフォーマーモデルのスイートである。我々のアプローチでは、倫理的に収集された公開研究リポジトリおよび匿名化された臨床記録(PubMed、arXiv、MIMIC-III)から編纂された35万パッセージのコーパスに対して、DeBERTa-v3、PubMedBERT、BioELECTRAをバックボーンとして使用し、コスト効率の良いDAPTを実施する。その後、LoRAを用いたタスク固有のファインチューニングを行い、モデルパラメータの1.5%未満を更新する。我々は、化学物質、疾患、遺伝子、種にわたる12の確立された生物医学NERベンチマークでモデルを評価した。OpenMed NERは、これらの12のデータセットのうち10つで新しい最先端のmicro-F1スコアを達成し、多様なエンティティタイプにわたって大幅な向上を示した。我々のモデルは、基礎的な疾患および化学物質ベンチマーク(例:BC5CDR-Disease、+2.70 pp)において最先端を進める一方、より専門的な遺伝子および臨床細胞株コーパスでは5.3および9.7パーセンテージポイント以上の大幅な改善を提供する。この研究は、戦略的に適応されたオープンソースモデルがクローズドソースソリューションを凌駕できることを示している。この性能は、単一のGPUで12時間未満のトレーニング時間と低いカーボンフットプリント(< 1.2 kg CO2e)で達成され、EU AI法などの新興データ保護およびAI規制への準拠を支援するために設計された許諾ライセンスのオープンソースチェックポイントを生成する。
Rustのコンパイル時の安全性保証は、安全クリティカルなシステムに最適であり、レガシーなCコードベースをRustに翻訳する需要を生み出しています。このタスクに対してさまざまなアプローチが登場していますが、それらには固有のトレードオフが存在します。ルールベースのソリューションは、コードの安全性と慣用的な要件を満たすことに課題を抱えており、LLMベースのソリューションは、コードベース全体にわたるモジュール間の依存関係が重いため、意味的に等価なRustコードを生成することにしばしば失敗します。最近の研究では、どちらのソリューションも小規模なプログラムに限定されていることが明らかになっています。本論文では、Cプロジェクト全体を等価なRustプロジェクトに変換するための自動化フレームワークであるEvoC2Rustを提案します。EvoC2Rustは、プロジェクトレベルの翻訳のためにスケルトンガイド翻訳戦略を採用しています。パイプラインは3つの進化的段階で構成されています:1)まず、Cプロジェクトを機能モジュールに分解し、特徴マッピングを強化したLLMを使用して定義とマクロを変換し、型チェックされた関数スタブを生成します。これにより、コンパイル可能なRustスケルトンが形成されます。2)次に、関数を段階的に翻訳し、対応するスタブプレースホルダーを置き換えます。3)最後に、LLMと静的解析を統合してコンパイルエラーを修復します。進化的拡張を通じて、EvoC2RustはルールベースとLLMベースの両方のソリューションの利点を組み合わせています。オープンソースのベンチマークと6つの産業プロジェクトでの評価により、EvoC2RustがプロジェクトレベルのCからRustへの翻訳において優れた性能を発揮することが示されました。平均して、LLMベースのアプローチと比較して、構文と意味の正確性がそれぞれ17.24%と14.32%向上し、ルールベースのツールと比較してコードの安全性が96.79%高くなりました。モジュールレベルでは、EvoC2Rustは産業プロジェクトにおいて、複雑なコードベースや長い関数であっても、92.25%のコンパイル率と89.53%のテスト合格率を達成しました。
本論文では、3D全身人体ポーズのための拡散モデルに基づく事前モデルであるDPoser-Xを提案する。関節構造を持つ人体ポーズの本質的な複雑さと、高品質な全身ポーズデータセットの不足により、汎用的でロバストな全身人体ポーズ事前モデルの構築は依然として困難な課題である。これらの制約に対処するため、我々は拡散モデルを身体ポーズ事前モデル(DPoser)として導入し、それを表現力豊かな全身人体ポーズモデリングのためのDPoser-Xに拡張した。本手法は、様々なポーズ中心のタスクを逆問題として統一し、変分拡散サンプリングを通じてそれらを解決する。下流アプリケーションにおける性能を向上させるため、ポーズデータの特性に特化した新しい切り捨てタイムステップスケジューリング手法を提案する。また、全身データセットと部位特化データセットを効果的に組み合わせるマスク付きトレーニングメカニズムを提案し、特定の動作への過剰適合を避けつつ身体部位間の相互依存関係を捉えることを可能にした。広範な実験により、DPoser-Xが身体、手、顔、および全身ポーズモデリングの複数のベンチマークにおいてロバスト性と汎用性を発揮することが示された。本モデルは、最先端の代替手法を一貫して上回り、全身人体ポーズ事前モデリングの新たなベンチマークを確立した。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の複雑な推論能力を大幅に向上させてきた。しかし、RLVRは本質的にオンポリシー戦略を採用しており、LLMの膨大な行動空間と希薄な報酬のため、基盤となるLLMの能力限界を突破することが困難である。特に、RLVRは能力限界の崩壊を引き起こし、LLMの問題解決範囲を狭める可能性がある。この問題に対処するため、我々はRL-PLUSを提案する。これは、内部の探索と外部データを統合し、より強力な推論能力を実現し、基盤モデルの限界を超えるための新しいハイブリッドポリシー最適化手法である。RL-PLUSは、外部データからの分布のミスマッチを解決するための多重重要度サンプリングと、高価値かつ未探索の推論パスへモデルを導くための探索ベースのアドバンテージ関数という2つのコアコンポーネントを統合している。我々は、理論分析と広範な実験を通じて、本手法の優位性と汎用性を実証する。既存のRLVR手法と比較して、RL-PLUSは1)6つの数学推論ベンチマークで最先端の性能を達成し、2)6つの分布外推論タスクで優れた性能を示し、3)多様なモデルファミリーにわたって一貫した大幅な改善をもたらし、平均相対改善率は最大69.2%に達する。さらに、Pass@k曲線の分析により、RL-PLUSが能力限界の崩壊問題を効果的に解決することが示された。
視覚的グラウンディングは、自然言語の記述に基づいてシーン内の物体や領域を特定することを目的としており、自動運転における空間認識の重要な要素です。しかし、既存の視覚的グラウンディングタスクは、しばしば細かい詳細を捉えられないバウンディングボックスに依存しています。バウンディングボックス内のすべてのボクセルが占有されているわけではないため、物体の表現が不正確になることがあります。この問題に対処するため、我々は挑戦的な屋外シーンにおける3D占有グラウンディングのベンチマークを導入します。nuScenesデータセットに基づいて構築されたこのベンチマークは、自然言語とボクセルレベルの占有アノテーションを統合し、従来のグラウンディングタスクに比べてより正確な物体認識を提供します。さらに、我々は3D占有グラウンディングのためのエンドツーエンドモデルであるGroundingOccを提案します。このモデルは、視覚、テキスト、点群の特徴を組み合わせて、粗から細へと物体の位置と占有情報を予測します。具体的には、GroundingOccは特徴抽出のためのマルチモーダルエンコーダ、ボクセル単位の予測を行うための占有ヘッド、および位置決めを洗練するためのグラウンディングヘッドで構成されています。さらに、2Dグラウンディングモジュールと深度推定モジュールが幾何学的理解を強化し、モデルの性能を向上させます。ベンチマークでの大規模な実験により、我々の手法が3D占有グラウンディングにおいて既存のベースラインを上回ることが実証されました。データセットはhttps://github.com/RONINGOD/GroundingOccで公開されています。
長文の事実性評価は、モデルが短いプロンプトに対して正確かつ包括的な応答を生成する能力を評価するものである。既存のベンチマークでは、人間による検証が不足していることが多く、品質上の問題を引き起こす可能性がある。この課題に対処するため、我々は大規模な人間検証済みプロンプトセットであるFACTORYを導入する。FACTORYは、モデルインザループアプローチを用いて開発され、人間によって精緻化されたものであり、事実を求める、回答可能で、曖昧さのない挑戦的なプロンプトを含んでいる。我々は、FACTORYおよび既存のデータセットを用いて、6つの最先端言語モデルに対する人間による評価を実施した。その結果、FACTORYは挑戦的なベンチマークであることが示された:SOTAモデルの応答における主張の約40%が事実に基づいていないのに対し、他のデータセットではわずか10%であった。我々の分析は、FACTORYが従来のベンチマークよりも優れている点を明らかにし、その信頼性と、モデルがロングテールの事実を横断的に推論する必要性を強調している。
モバイルネットワークにおける根本原因分析(RCA)は、解釈可能性、ドメイン知識、および因果推論の必要性から、依然として困難な課題である。本研究では、大規模言語モデル(LLM)を活用した軽量なRCAフレームワークを提案する。これを行うために、RCA能力をベンチマークするために設計された注釈付きトラブルシューティング問題のデータセットであるTeleLogsを導入する。評価の結果、既存のオープンソースの推論LLMはこれらの問題に対処するのに苦労しており、ドメイン固有の適応の必要性が浮き彫りになった。この問題に対処するため、教師ありファインチューニングと強化学習を組み合わせた二段階のトレーニング手法を提案し、LLMの精度と推論品質を向上させる。提案手法は、一連のRCAモデルをファインチューニングしてドメイン知識を統合し、構造化された多段階の診断説明を生成することで、解釈可能性と有効性の両方を向上させる。複数のLLMサイズにわたる広範な実験により、最先端の推論モデルおよび非推論モデルを大幅に上回る性能向上が示され、ランダム化されたテストバリアントへの強い一般化能力も確認された。これらの結果は、ネットワーク運用および管理における実用的で説明可能なRCAのためのドメイン適応型・推論強化LLMの可能性を示している。
自動運転には、道路形状、交通参加者、およびそれらの意味的関係を含む正確なシーン理解が必要です。オンラインHDマップ生成シナリオでは、ラスターベースの表現は視覚モデルに適していますが、幾何学的精度に欠けます。一方、グラフベースの表現は構造的詳細を保持しますが、正確なマップがないと不安定になります。両者の補完的な強みを活用するため、我々はDiffSemanticFusionを提案します。これは、マルチモーダル軌道予測と計画のための融合フレームワークです。我々のアプローチは、セマンティックラスターフューズドBEV空間上で推論を行い、オンラインHDマップ表現の安定性と表現力を向上させるマップ拡散モジュールによって強化されます。このフレームワークを、軌道予測と計画指向のエンドツーエンド自動運転という2つの下流タスクで検証しました。実世界の自動運転ベンチマークであるnuScenesとNAVSIMでの実験により、いくつかの最先端手法を上回る性能向上が示されました。nuScenesでの予測タスクでは、DiffSemanticFusionをオンラインHDマップを活用したQCNetと統合し、5.1%の性能向上を達成しました。NAVSIMでのエンドツーエンド自動運転では、DiffSemanticFusionが最先端の結果を達成し、NavHardシナリオで15%の性能向上を実現しました。さらに、広範なアブレーションと感度分析により、我々のマップ拡散モジュールが他のベクトルベースのアプローチにシームレスに統合され、性能を向上させることが示されました。すべての成果物はhttps://github.com/SunZhigang7/DiffSemanticFusionで公開されています。
Text-to-3D(T23D)生成はデジタルコンテンツ制作を変革してきたが、予測不可能な結果をもたらす試行錯誤的なプロンプトプロセスがボトルネックとなっている。テキストから画像への視覚的プロンプトエンジニアリングは進展しているものの、3D生成への応用では、多視点一貫性評価や空間理解といった独自の課題が存在する。本論文では、Sel3DCraftを提案する。これは、T23Dのための視覚的プロンプトエンジニアリングシステムであり、非構造化な探索をガイド付きの視覚的プロセスに変換する。我々のアプローチは、以下の3つの主要な革新を導入する:検索と生成を組み合わせたデュアルブランチ構造による多様な候補探索、MLLMを活用した多視点ハイブリッドスコアリング手法と革新的な高レベルメトリクスを用いた人間の専門家と一致する3Dモデルの評価、そして直感的な欠陥識別と改良を可能にするプロンプト駆動型視覚分析スイートである。広範なテストとユーザー調査により、Sel3DCraftがデザイナーの創造性を支援する点で他のT23Dシステムを凌駕することが示された。
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(LLMs)の指示追従能力を向上させるが、難易度評価の不十分さによる訓練効率の低さが課題である。さらに、RLVRは過剰最適化に陥りやすく、LLMsがユーザー指示の本来の意図に沿わずに検証のショートカットを利用する傾向がある。本論文では、RLVR訓練を堅牢かつサンプル効率の高いパイプラインに組み込むフレームワークである「指示追従デコレータ(Instruction Following Decorator, IFDecorator)」を提案する。IFDecoratorは以下の3つのコンポーネントで構成される:(1) 指示とハイブリッド検証を共進化させ、段階的に難易度の高い指示-検証ペアを生成する協調的-敵対的データフライホイール、(2) 意図整合性を強制するバイパスモジュール「IntentCheck」、(3) ショートカット利用行動を検出する診断メカニズム「トリップワイヤ」。本手法を適用したQwen2.5-32B-Instruct-IFDecoratorは、IFEvalにおいて87.43%の精度を達成し、GPT-4oなどの大規模なプロプライエタリモデルを上回った。さらに、FollowBenchにおいても大幅な改善を示しつつ、一般的な能力を維持した。トリップワイヤは、報酬ハッキング率の大幅な低減を実現した。今後の研究のために、モデル、コード、データを公開する予定である。
大規模言語モデル(LLM)の推論能力の進展により、数学的問題の解決、コーディングタスク、および一般的なパズルにおけるパフォーマンスが大幅に向上している。しかし、特に複雑な指示に対する正確な指示遵守の効果は一貫していない。本研究では、思考段階における怠惰な推論が、指示遵守の不十分さの主な要因であることを明らかにした。この問題を緩和するため、厳格な指示制約を満たすために不可欠なプレビューと自己チェックを含む厳密な推論プロセスを可能にする包括的なフレームワークを提案する。具体的には、まず複雑な制約を持つ指示を生成し、フィルタリングプロセスを適用して有効なプロンプトを取得し、それらをハード、イージー、パスの3つの異なるプロンプトデータセットに分類する。次に、パスのプロンプトに対してリジェクションサンプリングを行い、高品質で小規模なデータセットをキュレーションし、モデルのコールドスタート初期化と効果的な推論パターンへの適応を促進する。その後、エントロピー保存型の教師ありファインチューニング(Entropy-SFT)戦略と、ルールベースの密な報酬に基づくトークン単位のエントロピー適応型強化学習(TEA-RL)を組み合わせて採用する。このアプローチにより、モデルはその推論メカニズムを変革し、プレビューと自己チェックを含む汎用的な推論能力を育む。指示遵守ベンチマークで実施した広範な実験により、さまざまなモデルスケールにおいて顕著なパフォーマンス向上が実証された。特に、我々のLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルやDoubao-1.6のようなクローズドソースモデルを上回る結果を示した。
3D異常検出(AD)は、高精度な工業製品の異常や欠陥を検出する上で大きな可能性を示している。しかし、既存の手法は通常、クラス固有の方法で訓練されており、新たに出現するクラスからの学習能力も欠けている。本研究では、Continual 3D Anomaly Detection(C3D-AD)と名付けた継続学習フレームワークを提案し、多クラスの点群に対する一般化された表現を学習するだけでなく、時間の経過とともに新たに出現するクラスも扱うことができる。具体的には、特徴抽出モジュールにおいて、異なるタスクの多様な製品タイプから効率的に一般化された局所特徴を抽出するため、カーネルアテンションとランダム特徴層(KAL)を導入し、特徴空間を正規化する。次に、データを正確かつ継続的に再構築するため、学習可能なアドバイザーを備えた効率的なカーネルアテンション(KAA)メカニズムを提案し、エンコーダとデコーダの両方において、新しいカテゴリからの情報を学習しながら、冗長な古い情報を捨てる。最後に、タスク間での表現の一貫性を保つため、表現リハーサル損失関数を設計した再構築とパラメータ摂動(RPP)モジュールを提案し、モデルが以前のカテゴリ情報を記憶し、カテゴリ適応的な表現を返すことを保証する。3つの公開データセットでの広範な実験により、提案手法の有効性が実証され、Real3D-AD、Anomaly-ShapeNet、MulSen-ADにおいて、それぞれ66.4%、83.1%、63.4%の平均AUROC性能を達成した。
本論文では、機械学習モデルの完全なライフサイクルにわたって、初期開発と検証から継続的な本番環境での監視およびガードレールの実装まで、バイアスを体系的に管理、評価、定量化するアプローチを網羅します。大規模言語モデル(LLMs)向けのバイアス評価および評価テストスイート(BEATS)に関する基礎的な研究を基盤として、著者らはLLMsにおける一般的なバイアスと公平性に関連するギャップを共有し、LLMs内のバイアス、倫理、公平性、および事実性に対処するためのデータとAIガバナンスフレームワークについて議論します。本論文で議論されるデータとAIガバナンスアプローチは、実践的で現実世界のアプリケーションに適しており、本番環境への展開前にLLMsを厳密にベンチマークし、継続的なリアルタイム評価を容易にし、LLM生成応答を積極的に管理することを可能にします。AI開発のライフサイクル全体にわたってデータとAIガバナンスを実施することにより、組織はGenAIシステムの安全性と責任を大幅に向上させ、差別のリスクを効果的に軽減し、潜在的な評判やブランド関連の損害から保護することができます。最終的に、本記事を通じて、社会的に責任があり倫理的に整合した生成人工知能を活用したアプリケーションの作成と展開の進展に貢献することを目指します。
音楽録音は、特に専門的な設備や知識がない非専門的な環境で作成される場合、過剰なリバーブ、歪み、クリッピング、トーンバランスの崩れ、狭まったステレオイメージといった音質の問題に悩まされることが多い。これらの問題は通常、個別の専門ツールや手動調整を用いて修正される。本論文では、テキストベースの制御により幅広い音響アーティファクトに対処する、音楽修復およびマスタリングのための初の統合生成モデルであるSonicMasterを紹介する。SonicMasterは、自然言語の指示に基づいて特定のエンハンスメントを適用するか、一般的な修復のために自動モードで動作することができる。このモデルを訓練するために、5つのエンハンスメントグループ(イコライゼーション、ダイナミクス、リバーブ、振幅、ステレオ)に属する19の劣化関数を用いて一般的な劣化タイプをシミュレートし、劣化したトラックと高品質なトラックのペアからなる大規模なデータセットであるSonicMasterデータセットを構築した。我々のアプローチは、フローマッチング生成訓練パラダイムを活用し、テキストプロンプトに導かれて劣化した入力をクリーンでマスタリングされたバージョンにマッピングする音響変換を学習する。客観的な音質メトリクスは、SonicMasterが全てのアーティファクトカテゴリーにおいて音質を大幅に改善することを示している。さらに、主観的なリスニングテストでは、リスナーがSonicMasterのエンハンスメントされた出力を元の劣化した音声よりも好むことが確認され、我々の統合アプローチの有効性が強調されている。
テキストから画像を生成する拡散モデルは、数十億枚の画像(人気のある芸術作品を含む)を学習することで、芸術的なコンテンツを生成する際に顕著な能力を発揮することが示されています。しかし、これらのモデルが内部でどのように絵画の内容やスタイルといった概念を表現しているかという根本的な疑問は、未だに解明されていません。従来のコンピュータビジョンでは、内容とスタイルは直交していると仮定されていますが、拡散モデルは訓練中にこの区別について明示的な指導を受けていません。本研究では、トランスフォーマーベースのテキストから画像を生成する拡散モデルが、芸術作品を生成する際に内容とスタイルの概念をどのように符号化するかを調査します。クロスアテンションヒートマップを活用して、生成された画像のピクセルを特定のプロンプトトークンに帰属させることで、内容を記述するトークンとスタイルを記述するトークンに影響を受けた画像領域を分離します。我々の調査結果は、拡散モデルが特定の芸術的プロンプトや要求されたスタイルに応じて、内容とスタイルの分離を様々な程度で示すことを明らかにしています。多くの場合、内容トークンは主にオブジェクト関連の領域に影響を与え、スタイルトークンは背景やテクスチャ領域に影響を与えることが示されており、内容とスタイルの区別に対する萌芽的な理解が示唆されています。これらの知見は、大規模生成モデルが明示的な監督なしに複雑な芸術的概念を内部でどのように表現しているかを理解するための一助となります。コードとデータセット、およびアテンションマップを可視化するための探索ツールをhttps://github.com/umilISLab/artistic-prompt-interpretationで公開しています。