翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、自律的なツール使用と複雑な問題解決のための多段階推論を可能とするエージェント型システムへと進化してきました。しかし、汎用基盤モデルを基にしたポストトレーニング手法は、特にオープンソースの実装において、エージェントタスクで一貫して低い性能を示しています。その根本的な原因として、堅牢なエージェント基盤モデルの欠如が挙げられます。これにより、ポストトレーニング中にモデルは多様なエージェント行動を学習しつつ、専門家のデモンストレーションに適合させる必要があり、根本的な最適化の緊張が生じています。この問題に対処するため、我々は初めて、深層研究エージェントのトレーニングパイプラインに「エージェント型継続事前学習(Agentic CPT)」を組み込むことを提案し、強力なエージェント基盤モデルを構築します。このアプローチに基づき、我々は「AgentFounder」という深層研究エージェントモデルを開発しました。AgentFounder-30Bを10のベンチマークで評価し、最先端の性能を達成するとともに、強力なツール使用能力を維持しています。特に、BrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでPass@1 31.5%の結果を示しました。
本論文は、AIエージェントがウェブ規模の膨大な情報を統合し、洞察に満ちたレポートを生成するという複雑な課題であるオープンエンド型深層研究(OEDR)に取り組む。現在のアプローチは二重の制約に悩まされている。すなわち、計画と証拠収集を分離した静的な研究パイプラインと、長文脈の失敗問題(「中間での喪失」や幻覚など)に陥りやすいワンショット生成パラダイムである。これらの課題に対処するため、我々は人間の研究プロセスを模倣した新しいデュアルエージェントフレームワーク「WebWeaver」を提案する。プランナーは動的なサイクルで動作し、証拠収集とアウトライン最適化を反復的に交互に行うことで、証拠のメモリバンクにリンクされた包括的でソースに基づいたアウトラインを生成する。ライターは階層的な検索と執筆プロセスを実行し、セクションごとにレポートを構成する。各部分に必要な証拠のみをメモリバンクからターゲット検索することで、長文脈問題を効果的に軽減する。我々のフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなどの主要なOEDRベンチマークにおいて新たな最先端を確立した。これらの結果は、人間中心の反復的アプローチの有効性を裏付けており、適応的な計画と焦点を絞った統合が、高品質で信頼性が高く、構造化されたレポートを生成するために重要であることを示している。
人間の認知的限界を超越することは、LLM(大規模言語モデル)トレーニングにおける重要なフロンティアである。DeepResearchのような独自のエージェントシステムは、BrowseCompのような極めて複雑な情報探索ベンチマークにおいて、従来達成不可能だった超人的な能力を実証している。我々は、その成功の鍵が、オープンソースモデルには見られない洗練された推論パターン、すなわち広大な情報空間をナビゲートする際に極度の不確実性を体系的に低減する能力にあると仮定する。この洞察に基づき、我々はこの重要な能力を習得させるための完全なポストトレーニング手法であるWebSailorを導入する。我々のアプローチは、構造化されたサンプリングと情報の難読化による新規で高不確実性なタスクの生成、RFTコールドスタート、そして効率的なエージェント強化学習トレーニングアルゴリズムであるDuplicating Sampling Policy Optimization(DUPO)を含む。この統合されたパイプラインにより、WebSailorは複雑な情報探索タスクにおいて全てのオープンソースエージェントを大幅に上回り、独自エージェントの性能に匹敵し、能力ギャップを埋めることに成功した。
大規模言語モデル(LLM)ベースのウェブエージェントは、知識集約型タスクにおいて高い性能を発揮しますが、ReActのようなパラダイムではコンテキストウィンドウの制約に直面します。複数のエンティティ、複雑に絡み合った関係性、および高い不確実性を伴う複雑なクエリでは、完全な解決策に到達する前に広範な検索サイクルが必要となり、コンテキスト予算が急速に枯渇してしまいます。この課題を克服するため、我々はReSumという新しいパラダイムを提案します。ReSumは、定期的なコンテキスト要約を通じて無限の探索を可能にし、拡大するインタラクション履歴をコンパクトな推論状態に変換することで、コンテキスト制約を回避しつつ、これまでの発見を維持します。パラダイム適応のため、ReSum-GRPOを提案し、GRPOをセグメント化された軌跡トレーニングとアドバンテージブロードキャストと統合することで、エージェントが要約条件付き推論に慣れるようにします。3つのベンチマークで様々な規模のウェブエージェントを用いた広範な実験により、ReSumがReActに対して平均4.5%の絶対的な改善をもたらし、ReSum-GRPOトレーニング後にはさらに最大8.2%の向上が得られることが示されました。特に、1Kのトレーニングサンプルだけで、我々のWebResummer-30B(WebSailor-30BのReSum-GRPOトレーニング版)は、BrowseComp-zhで33.3%のPass@1、BrowseComp-enで18.3%のPass@1を達成し、既存のオープンソースウェブエージェントを凌駕しています。
高度なエージェント的知能は、大規模言語モデルを実用的な現実世界のアプリケーションに展開するための前提条件です。多様な現実世界のAPIは、正確で堅牢な関数呼び出し知能を要求し、エージェントがさまざまな環境での相互作用を通じてこれらの能力を発展させる必要があります。関数呼び出し能力の広がりは、エージェントが訓練される環境の多様性と密接に関連しています。本研究では、一般的なエージェント的知能を進展させるための一歩として、環境のスケールアップを行います。これにより、二つの中心的な課題が生じます:(i) どのようにして原則に基づいて環境をスケールアップするか、(ii) これらの環境との相互作用から得られた経験を通じて、エージェント的能力を効果的に訓練するか。これらに対処するため、完全にシミュレートされた異種環境を自動的に構築し、関数呼び出しシナリオの空間を体系的に広げるスケーラブルなフレームワークを設計します。さらに、二段階のエージェント微調整戦略を採用します:まずエージェントに基本的なエージェント的能力を付与し、その後、ドメイン固有の文脈に特化させます。エージェント的ベンチマーク、tau-bench、tau2-Bench、およびACEBenchでの広範な実験により、我々の訓練済みモデルであるAgentScalerが、モデルの関数呼び出し能力を大幅に向上させることが実証されました。
深層研究システムの最近の進展により、AIエージェントが外部ソースから自律的に知識を発見し統合する可能性が示されています。本論文では、そのようなエージェントを構築するための新しいフレームワークであるWebResearcherを紹介します。このフレームワークは2つの主要なコンポーネントで構成されています:(1) WebResearcherは、深層研究をマルコフ決定過程として再定式化する反復的深層研究パラダイムであり、エージェントが定期的に発見を進化するレポートに統合しながら、焦点を絞ったワークスペースを維持することで、既存の単一コンテキストアプローチを悩ませるコンテキストの窒息やノイズ汚染を克服します。(2) WebFrontierは、ツールを活用した複雑性のエスカレーションを通じて高品質なトレーニングデータを生成するスケーラブルなデータ合成エンジンであり、受動的な知識の想起と能動的な知識の構築の間のギャップを埋める研究タスクの体系的作成を可能にします。特に、我々のパラダイムから得られたトレーニングデータは、従来の単一コンテキスト手法のツール使用能力も大幅に向上させることが分かりました。さらに、我々のパラダイムは並列思考を通じて自然にスケールし、より包括的な結論を得るための並列マルチエージェント探索を可能にします。6つの挑戦的なベンチマークでの広範な実験により、WebResearcherが最先端の性能を達成し、フロンティアのプロプライエタリシステムさえも凌駕することが実証されました。
現代のゲーム開発において重要な基盤である高品質な3Dアセットの作成は、長年にわたり労力を要する専門的なワークフローが特徴でした。本論文では、Hunyuan3D Studioを紹介します。これは、ゲーム向けの3Dアセット生成を自動化し、効率化することでゲーム制作パイプラインを革新することを目的とした、エンドツーエンドのAI駆動型コンテンツ作成プラットフォームです。Hunyuan3D Studioの中核には、パートレベル3D生成、ポリゴン生成、セマンティックUVなどの高度なニューラルモジュールを統合した、一貫性がありユーザーフレンドリーなシステムが組み込まれています。この統合されたフレームワークにより、単一のコンセプト画像やテキスト記述から、最適化されたジオメトリと高精細なPBRテクスチャを備えた完成度の高いプロダクションレベルの3Dモデルへの迅速な変換が可能となります。Hunyuan3D Studioによって生成されたアセットは、視覚的に魅力的であるだけでなく、現代のゲームエンジンの厳格な技術要件にも準拠しており、反復時間を大幅に短縮し、3Dコンテンツ作成の参入障壁を低くします。創造的な意図から技術的なアセットまでシームレスに橋渡しするHunyuan3D Studioは、ゲーム開発とインタラクティブメディアにおけるAI支援ワークフローの大きな飛躍を表しています。
大規模言語モデル(LLM)のポリシー勾配最適化を、シングルストリームの観点から再検討する。GRPOのような主流のグループベース手法は、オンザフライのベースラインを用いて分散を低減するが、重大な欠点を抱えている。頻繁に発生する縮退グループが学習信号を消滅させ、同期バリアがスケーラビリティを妨げるのだ。本論文では、これらの問題を設計上排除したシングルストリーム・ポリシー最適化(SPO)を提案する。SPOは、グループごとのベースラインを永続的でKL適応型のバリュートラッカーに置き換え、バッチ全体でグローバルにアドバンテージを正規化することで、各サンプルに対して安定した低分散の学習信号を提供する。グループフリーであるため、SPOはより高いスループットを実現し、生成時間が変動する長期視野やツール統合環境において効果的にスケールする。さらに、永続的なバリュートラッカーは、優先サンプリングによる適応型カリキュラムを自然に可能にする。Qwen3-8Bを用いた実験では、SPOはGRPOよりも滑らかに収束し、より高い精度を達成するとともに、縮退グループに費やされる計算リソースを排除する。アブレーション研究により、SPOの利点がベースライン推定とアドバンテージ正規化に対する原理に基づいたアプローチに起因することが確認され、LLM推論におけるより堅牢で効率的な道筋が示される。Qwen3 8Bを用いた5つの難易度の高い数学ベンチマークにおいて、SPOはGRPOに対して平均maj@32を+3.4パーセンテージポイント(pp)向上させ、BRUMO 25では+7.3 pp、AIME 25では+4.4 pp、HMMT 25では+3.3 ppという顕著な絶対ポイントの向上を達成し、評価されたk値全体でpass@kにおいて一貫した相対的向上を実現する。SPOの成功は、RLアルゴリズムに付随的な複雑性を追加するという主流のトレンドに挑戦し、アーキテクチャ的な回避策ではなく基本原理がLLM推論の次の進化を牽引する道筋を示している。
本論文では、単一視点の2D画像と多視点の3Dデータを共有の視覚トークン空間を通じて接続するSpatial Region 3D(SR-3D)対応の視覚言語モデルを提案します。SR-3Dは柔軟な領域プロンプティングをサポートし、ユーザーが任意のフレーム上のバウンディングボックスやセグメンテーションマスク、または直接3D空間で領域を注釈付けできるようにします。これにより、多フレームにわたる網羅的なラベリングを必要としません。この機能は、2D視覚特徴を3D位置埋め込みで強化することで実現されており、3Dモデルが強力な2D事前知識を活用して、関心対象が同一視点内に同時に存在しない場合でも、フレーム間でのより正確な空間推論を行うことを可能にします。一般的な2D視覚言語タスクと専門的な3D空間ベンチマークの両方における広範な実験により、SR-3Dが最先端の性能を達成し、シーン理解における2Dと3Dの表現空間を統合する効果を実証しています。さらに、センサーによる3D入力や真値の3Dアノテーションがない実世界のビデオにおいても適用可能であり、SR-3Dが空間関係や計測値を正確に推論できることを確認しました。
大規模言語モデル(LLM)は最近、自動定理証明(ATP)の分野を大きく進展させ、広く採用されているテスト時のスケーリング戦略、特に反射的Chain-of-Thought(CoT)推論とサンプリングパスの増加を通じて、大幅な性能向上を達成しています。しかし、これらの手法はどちらも推論時に大きな計算コストを伴います。さらに、既存のコスト分析は通常、サンプリングパスの数のみを規制しており、異なるスケーリング戦略によって導入されるサンプリングコストの大きな差異を無視しています。本論文では、ATPモデルのための異なるテスト時スケーリング戦略の効率を体系的に比較し、現在の最先端(SOTA)オープンソース手法の非効率性を実証します。その後、元の性能を維持しながらトークン使用量とサンプリングパスを大幅に削減するアプローチを調査します。具体的には、統合されたEconRLパイプラインに組み込むことで相乗効果を発揮する2つの補完的な手法を提案します:(1)不必要なトークン消費を軽減するための動的Chain-of-Thought(CoT)切り替えメカニズム、(2)制約付きサンプリングパス下でのパス率を向上させるための学習可能なプレフィックスを備えた多様な並列スケーリング強化学習(RL)。miniF2FとProofNetでの実験により、我々のEconProverがベースライン手法と同等の性能をわずか12%の計算コストで達成できることを示します。この研究は、性能を犠牲にすることなく軽量なATPモデルを展開するための実践的な洞察を提供します。
人間は、新しい車を運転するなど、未知の状況に適応する際に驚くほどデータ効率が良い。一方で、強化学習(RL)を用いて訓練されたニューラルネットワークポリシーなどの現代のロボット制御システムは、単一の環境に高度に特化している。この過剰適合のため、シミュレーションと現実のギャップ(Sim2Real)のような小さな違いでも破綻し、システムの最小限の変更でもシステム同定と再訓練を必要とする。本研究では、クアッドローター制御のための高度に適応可能な基盤ポリシーを訓練する方法であるRAPTORを提案する。我々の方法は、単一のエンドツーエンドのニューラルネットワークポリシーを訓練し、多様なクアッドローターを制御することを可能にする。32gから2.4kgまでの10種類の実機クアッドローターをテストし、それらはモータータイプ(ブラシ付き vs. ブラシレス)、フレームタイプ(柔軟 vs. 剛性)、プロペラタイプ(2/3/4枚羽)、フライトコントローラー(PX4/Betaflight/Crazyflie/M5StampFly)も異なる。わずか2084パラメータの3層の小さなポリシーが、多様なプラットフォームへのゼロショット適応に十分であることを発見した。隠れ層の再帰性を使用することで、インコンテキスト学習による適応が可能となる。このポリシーは、新しいメタ模倣学習アルゴリズムを通じて訓練され、1000台のクアッドローターをサンプリングし、それぞれに対して強化学習を用いて教師ポリシーを訓練する。その後、1000の教師ポリシーを単一の適応可能な学生ポリシーに蒸留する。結果として得られた基盤ポリシーは、ミリ秒単位で未知のクアッドローターにゼロショット適応する。我々は、基盤ポリシーの能力を多数の条件下(軌道追跡、屋内/屋外、風の擾乱、突き刺し、異なるプロペラ)で広範にテストした。
マルチモーダル推論は、人工知能における根本的な課題として残されている。テキストベースの推論においては大きな進展が見られるものの、GPT-3のような最先端のモデルでさえ、マルチモーダルシナリオでは高い性能を維持することが困難である。このギャップを埋めるため、我々は視覚とテキストのモダリティを効果的に橋渡しするキャプション支援型推論フレームワークを提案する。本手法はICML 2025 AI for Math Workshop & Challenge 2: SeePhysにおいて1位を獲得し、その有効性と堅牢性を実証した。さらに、幾何学的推論のためのMathVerseベンチマークにおいてもその汎用性を検証し、本手法の多様性を示した。我々のコードはhttps://github.com/OpenDCAI/SciReasonerで公開されている。
本論文では、単眼入力からペアとなるRGB映像とキネマティックパーツ映像を生成するフレームワーク、Stable Part Diffusion 4D(SP4D)を提案する。従来のパーツセグメンテーション手法が外観に基づく意味的手がかりに依存するのに対し、SP4Dはキネマティックパーツ、すなわち物体の関節構造に整合し、視点や時間を超えて一貫性のある構造的構成要素を生成することを学習する。SP4Dは、RGBフレームと対応するパーツセグメンテーションマップを共同で合成するデュアルブランチ拡散モデルを採用している。アーキテクチャを簡素化し、異なるパーツ数を柔軟に可能にするため、パーツマスクを連続的なRGB風画像にマッピングする空間カラーエンコーディングスキームを導入した。このエンコーディングにより、セグメンテーションブランチはRGBブランチの潜在VAEを共有しつつ、単純な後処理でパーツセグメンテーションを復元することが可能となる。双方向拡散融合(BiDiFuse)モジュールは、ブランチ間の一貫性を強化し、パーツ予測の空間的・時間的整合性を促進するコントラスティブパーツ一貫性損失によってサポートされる。生成された2Dパーツマップは、わずかな手動調整で3Dにリフトし、骨格構造とハーモニックスキニングウェイトを導出できることを実証する。SP4Dのトレーニングと評価のために、Objaverse XL(Deitke et al., 2023)から選別・処理された20,000以上のリグ付きオブジェクトからなるキュレーションデータセット、KinematicParts20Kを構築した。各オブジェクトは、マルチビューRGBおよびパーツ映像シーケンスとペアになっている。実験により、SP4Dが実世界の映像、新規生成オブジェクト、稀な関節ポーズを含む多様なシナリオに強く汎化し、下流のアニメーションやモーション関連タスクに適したキネマティックを意識した出力を生成することが示された。
近年、マルチモーダル大規模言語モデル(MLLMs)がさまざまな分野で注目を集めている。しかし、その広範な採用は深刻な安全性の問題も引き起こしている。本論文では、MLLMsの新たな安全性リスクを明らかにする:MLLMsの出力傾向は、慎重に最適化された画像によって任意に操作される可能性がある。このような攻撃は、文脈上関連性がありながらも偏った応答を生成することが多く、明らかに有害でも非倫理的でもないため、検出が困難である。具体的には、本論文では、選好ハイジャック画像を用いてMLLMsの応答傾向を操作する新たな手法、Preference Hijacking(Phi)を提案する。この手法は推論時に動作し、モデルの変更を必要としない。さらに、ユニバーサルハイジャック摂動を導入する。これは、異なる画像に埋め込むことで、攻撃者が指定した選好に向けてMLLMsの応答をハイジャックする転移可能な要素である。さまざまなタスクにおける実験結果は、本手法の有効性を示している。Phiのコードはhttps://github.com/Yifan-Lan/Phiで公開されている。
我々は、ランキングタスクがThurstoneモデルと静的に等価であるという分析に基づき、検索性能を最適化する新しいトレーニング手法「zELO」を提案する。zELO手法に基づき、教師なしデータを使用して最先端のオープンウェイトリランカーモデル群(zerank-1およびzerank-1-small)をトレーニングした。これらのモデルは、金融、法律、コード、STEMなど複数のドメインにおいて最高の検索スコアを達成し、NDCG@10とRecallの両方においてクローズドソースのプロプライエタリリランカーを上回った。また、これらのモデルは高い汎用性を示し、ドメイン外データや顧客のプライベートデータセットにおいてもゼロショット性能を維持した。トレーニングデータは112,000クエリと各クエリあたり100ドキュメントを含み、アノテーションのないクエリとドキュメントからエンドツーエンドで10,000 H100時間未満でトレーニングされた。
最近の複素ガウス窓を用いたウィンドウ付きQFT格子アルゴリズム~chen2024quantumのステップ9で議論の的となっている「ドメイン拡張」に対して、シンプルで完全に正確かつ仮定の少ない代替案を提案します。公開されたステップ9は、周期性とサポートの不一致に悩まされています。我々は、ペアシフト差分構築を提示し、これにより未知のオフセットを一貫して相殺し、Z_{P}上の正確な一様CRT剰余類状態を生成し、その後QFTを使用して意図されたモジュラー線形関係を強制します。このユニタリ操作は可逆的であり、poly(log M_2)ゲートを使用し、アルゴリズムの漸近的性質を維持します。プロジェクトページ: https://github.com/yifanzhang-pro/quantum-lattice。
大規模言語モデル(LLM)の圧縮技術、特に量子化とプルーニングの分野では、最近目覚ましい進展が見られています。しかし、これらの技術がそれぞれの限界に近づくにつれ、単一の手法に依存してさらなる圧縮を図ることがますます困難になってきています。本研究では、量子化とスパース性を組み合わせるという代替ソリューションを探求します。この併用アプローチは有望ではあるものの、重み分布に対する本質的に相反する要件(量子化はコンパクトな範囲を好むのに対し、プルーニングは高い分散を必要とする)により、新たな困難が生じます。この問題に対処するため、我々は最適脳修復(Optimal Brain Restoration, OBR)を提案します。これは、量子化とプルーニングの間でエラー補償を行うことで両者を整合させる、汎用的でトレーニング不要なフレームワークです。OBRは、下流タスクにおける性能劣化を最小化するために、二次のヘッシアン目的関数に基づいて構築され、代理近似を通じて扱いやすい問題に再定式化され、最終的にはグループエラー補償によって閉形式解に到達します。実験結果から、OBRは既存のLLMに対してW4A4KV4量子化と50%のスパース性を実現し、FP16密行列ベースラインと比較して最大4.72倍の高速化と6.4倍のメモリ削減を達成することが示されました。
連続体ロボットは、複雑な肺気道へのアクセスと標的型介入を可能にすることで、気管支鏡検査手技を進化させています。しかし、その開発は現実的なトレーニングおよびテスト環境の不足によって制限されています。実際のデータは倫理的制約や患者の安全上の懸念から収集が困難であり、自律アルゴリズムの開発には現実的な画像と物理的フィードバックが必要です。本論文では、ROOM(Realistic Optical Observation in Medicine)を紹介します。これは、フォトリアリスティックな気管支鏡トレーニングデータを生成するための包括的なシミュレーションフレームワークです。患者のCTスキャンを活用することで、我々のパイプラインは、現実的なノイズや光の鏡面反射を含むRGB画像、メトリック深度マップ、表面法線、オプティカルフロー、および医療関連スケールでのポイントクラウドを含む多モーダルセンサーデータをレンダリングします。ROOMによって生成されたデータは、医療ロボティクスにおける2つの代表的なタスク――多視点姿勢推定と単眼深度推定――において検証され、最先端の手法がこれらの医療環境に適用するために克服すべき多様な課題を実証しています。さらに、ROOMが生成するデータを使用して既存の深度推定モデルを微調整することで、これらの課題を克服できることを示し、ナビゲーションなどの他の下流アプリケーションも可能にします。我々は、ROOMが臨床環境では捕捉が困難な多様な患者解剖学的構造と手技シナリオにわたる大規模なデータ生成を可能にすることを期待しています。コードとデータ: https://github.com/iamsalvatore/room。
病理画像をギガピクセル級のWhole Slide Images(WSI)にデジタル化することは、計算病理学(CPath)に新たな道を開きました。陽性組織はギガピクセルWSIのごく一部しか占めないため、既存のMultiple Instance Learning(MIL)手法は通常、注意メカニズムを通じて重要なインスタンスを特定することに焦点を当てています。しかし、これにより分類が容易なインスタンスに偏りが生じ、難しいインスタンスが無視される傾向があります。最近の研究では、識別境界を正確にモデル化するためには難しい例が重要であることが示されています。この考え方をインスタンスレベルで適用し、我々はマスクされた難しいインスタンスマイニング(MHIM-MIL)を用いた新しいMILフレームワークを詳細に設計しました。このフレームワークは、一貫性制約を持つSiamese構造を利用して難しいインスタンスを探索します。MHIM-MILは、クラスを意識したインスタンス確率を使用し、モーメンタム教師を用いて重要なインスタンスをマスクし、暗黙的に難しいインスタンスをマイニングして学生モデルを訓練します。多様で冗長でない難しいインスタンスを得るために、大規模なランダムマスキングを採用し、グローバルリサイクルネットワークを使用してキーフィーチャーが失われるリスクを軽減します。さらに、学生は指数移動平均を使用して教師を更新し、新しい難しいインスタンスを特定して後続の訓練イテレーションに活用し、最適化を安定させます。がん診断、サブタイピング、生存分析タスク、および12のベンチマークでの実験結果は、MHIM-MILが最新の手法を性能と効率の両面で上回ることを示しています。コードは以下で公開されています: https://github.com/DearCaat/MHIM-MIL。
差分プライバシー(DP)を適用した合成データ生成は、本来ならモデル学習やその他の分析に利用できないプライベートなデータセットを活用するための有望な技術です。これまでの研究文献では、非構造化テキストや画像データのプライベート生成に焦点が当てられてきましたが、企業環境では、自然言語フィールドやコンポーネントを含む構造化データ(例えば表形式データ)がより一般的です。既存の合成データ評価手法(例:FID)では、このようなデータセットの構造的特性や相関関係を捉えることが困難です。本研究では、自然言語データを含む構造化データセットから生成された合成データを評価するためのフレームワークおよびベンチマークであるStruct-Benchを提案します。Struct-Benchフレームワークでは、ユーザーがデータセットの構造を文脈自由文法(CFG)として表現する必要があります。私たちのベンチマークは、5つの実世界データセットと2つの合成生成データセットで構成され、それぞれにCFGが注釈付けされています。これらのデータセットが、最先端のDP合成データ生成手法にとっても大きな課題であることを示します。Struct-Benchには、さまざまなメトリクスのリファレンス実装とリーダーボードも含まれており、研究者がプライバシー保護型合成データ生成手法をベンチマークし、調査するための標準化された評価プラットフォームを提供します。さらに、構造化データに対するPrivate Evolution(PE)の合成データ品質を向上させるためにStruct-Benchを活用する方法を示すケーススタディも提示します。ベンチマークとリーダーボードは、https://struct-bench.github.io で公開されています。
仮想アナログモデリングにおけるデジタル信号処理アルゴリズムを介した自動微分は、近年注目を集めている。これらのアルゴリズムは、密行列乗算に依存するブラックボックス型ニューラルネットワークと比較して、一般的に計算効率が高い。その微分可能な性質により、ニューラルネットワークと統合し、勾配降下法を用いて共同で学習することが可能であり、より効率的なシステムを実現する。さらに、信号処理アルゴリズムはニューラルネットワークよりも大幅に少ないパラメータを有するため、ニュートン・ラフソン法の適用が可能である。この方法は、二次的な記憶容量を犠牲にする代わりに、勾配降下法よりも高速かつ堅牢な収束を提供する。本論文では、ニュートン・ラフソン法によって最適化されたパラメータを持つフィードフォワード型デジタルコンプレッサーを用いて、アナログレベルリングアンプをエミュレートする方法を提案する。我々は、デジタルコンプレッサーが目標ユニットであるTeletronix LA-2Aの動作を成功裏に近似できることを実証する。ヘッセ行列の計算に関する異なる戦略をベンチマークし、再帰フィルタの並列アルゴリズムを活用して、現代のGPU上で効率的な学習を実現する。結果として得られたモデルはVSTプラグインとして公開され、https://github.com/aim-qmul/4a2a でオープンソース化されている。