翻訳付きの日次キュレーションされたAI研究論文
ユニバーサルフォトメトリックステレオ(PS)は、特定の照明モデルに依存せず、任意の照明条件下での物体から高品質な表面法線を復元することを目的としています。SDM-UniPSやUni MS-PSなどの最近の進展にもかかわらず、2つの根本的な課題が残っています:1)変化する照明と表面法線特徴の深い結合性。観測された輝度の曖昧さにより、明るさの変化が照明の変化によるものか、表面の向きによるものかを判断することが困難であること。2)複雑な表面における高周波幾何学的詳細の保持。複雑な形状が自己陰影、相互反射、微妙な法線の変化を生み出し、従来の特徴処理操作では正確に捉えることが難しいことです。
本研究では、テキストから画像への生成、画像編集、文脈内生成など多様な生成タスクを統一的に解決するための汎用的でオープンソースの生成モデル、OmniGen2を紹介します。OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティに対して独立したデコード経路を備え、共有されないパラメータと分離された画像トークナイザーを採用しています。この設計により、OmniGen2は既存のマルチモーダル理解モデルを基盤としつつ、VAE入力を再適応する必要なく、元のテキスト生成能力を維持することが可能です。OmniGen2のトレーニングを支援するため、画像編集や文脈内生成データを含む包括的なデータ構築パイプラインを開発しました。さらに、画像生成タスクに特化したリフレクションメカニズムを導入し、OmniGen2に基づいた専用のリフレクションデータセットをキュレーションしました。比較的控えめなパラメータサイズにもかかわらず、OmniGen2はテキストから画像への生成や画像編集を含む複数のタスクベンチマークで競争力のある結果を達成しています。文脈内生成(サブジェクト駆動タスクとも呼ばれる)をさらに評価するため、OmniContextという新しいベンチマークを導入しました。OmniGen2は、オープンソースモデルの中で一貫性の面で最先端の性能を発揮します。今後の研究を支援するため、モデル、トレーニングコード、データセット、およびデータ構築パイプラインを公開します。プロジェクトページ: https://vectorspacelab.github.io/OmniGen2; GitHubリンク: https://github.com/VectorSpaceLab/OmniGen2
大規模言語モデル(LLM)による超長文生成は広く求められるシナリオであるが、最大生成長の制限やシーケンス長の増加に伴う全体的な品質の低下により、依然として重要な課題となっている。従来のアプローチ、例えばLongWriterは、一般的に「教示」に依存しており、これは合成された長文出力に対する教師あり微調整(SFT)を含む。しかし、この戦略は合成SFTデータに大きく依存しており、その構築は困難かつコストがかかり、しばしば一貫性や整合性に欠け、過度に人工的で構造的に単調になる傾向がある。本研究では、注釈付きや合成データに一切依存せず、完全にゼロから始めて、強化学習(RL)を活用することで、LLMに超長文かつ高品質なテキスト生成能力を発現させるインセンティブベースのアプローチを提案する。我々は、R1-Zeroと同様に、ベースモデルからRLトレーニングを開始し、執筆プロセスにおける計画と洗練を促進する推論に従事するよう導く。これを支援するため、LLMを長さ制御、執筆品質、構造フォーマットの改善に向けて導く専門的な報酬モデルを採用する。実験的評価により、Qwen2.5-32Bからトレーニングされた我々のLongWriter-Zeroモデルが、長文執筆タスクにおいて従来のSFT手法を一貫して上回り、WritingBenchおよびArena-Writeの全てのメトリクスで最先端の結果を達成し、DeepSeek R1やQwen3-235Bなどの100B+モデルをも凌駕することが示された。我々は、データとモデルチェックポイントをhttps://huggingface.co/THU-KEG/LongWriter-Zero-32Bでオープンソースとして公開する。
検証可能な報酬を用いた強化学習(RLVR)は、LLMの推論能力を向上させる上で有望な可能性を示しています。しかし、その成功は主に数学やコードの領域に限定されています。この主な制約は、ドメイン固有の検証器への過度な依存に起因しており、複雑さが過大でスケーラビリティが限定的という結果を招いています。この課題に対処するため、我々はLLMが正しい自由形式の回答を生成する内在的な確率が、そのまま推論報酬(すなわち、推論プロセスが正しい回答に導く度合い)の自己評価を示すという重要な観察を行いました。この洞察に基づき、我々はRLVRをより広範な一般領域に拡張するシンプルな検証器不要のフレームワークであるRLPRを提案します。RLPRは、参照回答に対するLLM自身のトークン確率スコアを報酬信号として使用し、トレーニング中に期待報酬を最大化します。このノイズの多い確率報酬の高い分散に対処することが重要であることを見出し、LLMの内在的な確率から正確で安定した報酬を確保するために、prob-to-rewardと安定化手法を提案します。4つの一般領域ベンチマークと3つの数学ベンチマークにおける包括的な実験により、RLPRがGemma、Llama、Qwenベースのモデルにおいて、両領域で推論能力を一貫して向上させることが示されました。特に、RLPRはTheoremQAでVeriFreeを7.6ポイント、Minervaで7.5ポイント上回り、7つのベンチマーク全体で強力な検証器モデル依存アプローチであるGeneral-Reasonerを平均1.6ポイント上回る結果を示しました。
動的視点合成は、移動する被写体を任意の視点からフォトリアルに生成することを目的としている。このタスクは、モノクロ動画に依存する場合に特に困難であり、構造と動きを分離することが不良設定問題となり、教師信号も不足しがちである。本研究では、パーソナライズド拡散モデルを活用して、ガウススプラッティング表現を訓練するための疑似多視点教師信号を合成する新しい4次元再構成フレームワークであるVideo Diffusion-Aware Reconstruction (ViDAR)を提案する。シーン固有の特徴を条件付けることで、ViDARは細かな外観の詳細を回復しつつ、モノクロの曖昧さによって導入されるアーティファクトを軽減する。拡散ベースの教師信号の時空間的不整合に対処するために、合成視点と基盤となるシーン幾何学を整合させる拡散対応損失関数とカメラポーズ最適化戦略を提案する。極端な視点変化を含む難易度の高いベンチマークDyCheckでの実験により、ViDARが視覚品質と幾何学的整合性において全ての最先端ベースラインを上回ることを示す。さらに、動的領域におけるベースラインに対するViDARの大幅な改善を強調し、シーンの動きの多い部分の再構成性能を比較するための新しいベンチマークを提供する。プロジェクトページ: https://vidar-4d.github.io
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の中間推論ステップを監督するための強力なフレームワークとして最近注目を集めています。従来のPRMは主にモデルの最終出力レスポンスに基づいて訓練されており、特にDeepseek-R1のような最先端の推論モデルによって生成される軌跡-レスポンス型の出力において、中間思考軌跡を堅牢に評価するのに苦労していました。本研究では、軌跡-レスポンス型の推論トレースを評価するために明示的に設計された新しい軌跡認識型PRMであるReasonFlux-PRMを紹介します。ReasonFlux-PRMは、ステップレベルと軌跡レベルの両方の監督を組み込んでおり、構造化された連鎖思考データに沿ったきめ細かい報酬割り当てを可能にします。私たちはReasonFlux-PRMを、オフラインおよびオンライン設定の両方で報酬監督をサポートするように適応させました。これには、(i) 下流の教師ありファインチューニングのための高品質なモデル蒸留データの選択、(ii) 強化学習中のポリシー最適化のための密なプロセスレベル報酬の提供、(iii) 報酬ガイドによるBest-of-Nテストタイムスケーリングの実現が含まれます。AIME、MATH500、GPQA-Diamondなどの挑戦的な下流ベンチマークでの実証結果は、ReasonFlux-PRM-7Bが強力なPRM(例:Qwen2.5-Math-PRM-72B)や人間がキュレートしたベースラインよりも高品質なデータを選択することを示しています。さらに、私たちが導出したReasonFlux-PRM-7Bは、教師ありファインチューニングで平均12.1%、強化学習で4.5%、テストタイムスケーリングで6.3%の一貫した性能向上を達成しました。また、リソースが制約されたアプリケーションやエッジデプロイメントのための効率的なReasonFlux-PRM-1.5Bも公開しています。プロジェクト: https://github.com/Gen-Verse/ReasonFlux
被写体から動画生成への技術は近年大きな進展を遂げてきた。しかし、既存のモデルは依然としてテキスト指示に忠実に従う点において重大な課題に直面している。この制約は、一般的に「コピー&ペースト問題」として知られており、広く用いられているペア内学習パラダイムに起因している。このアプローチでは、対象動画と同じシーンから参照画像をサンプリングすることにより、被写体のアイデンティティが背景や文脈的属性と不可分に結びついてしまう。この問題を解決するため、我々はPhantom-Dataを提案する。これは、多様なカテゴリにわたる約100万のアイデンティティ整合ペアを含む、初の汎用クロスペア被写体-動画整合性データセットである。本データセットは、以下の3段階のパイプラインを通じて構築された:(1)一般的かつ入力に整合した被写体検出モジュール、(2)5,300万以上の動画と30億枚の画像からの大規模クロスコンテキスト被写体検索、(3)文脈変動下での視覚的整合性を保証するための事前知識に基づくアイデンティティ検証。包括的な実験により、Phantom-Dataを用いた学習は、ペア内ベースラインと同等のアイデンティティ整合性を維持しつつ、プロンプトの整合性と視覚的品質を大幅に向上させることが示された。
近年、エージェント型AIはますます人気のある研究分野となっています。しかし、現在のエージェント研究の実践には標準化と科学的厳密性が欠けており、異なる手法間の公平な比較が困難であると私たちは主張します。その結果、エージェントフレームワークにおけるさまざまな設計選択が有効性にどのように影響するかは依然として不明であり、その進歩を測定することは依然として困難です。本研究では、GAIAベンチマークとBrowseCompを用いて、主要なエージェントコンポーネントにおける人気のある設計選択の影響を公平かつ厳密に検証するための系統的な実証研究を行います。標準的な評価プロトコルの欠如により、過去の研究(オープンソースのものも含む)は再現性がなく、ランダム実行間で大きなばらつきがあることがわかりました。そこで、比較を安定させるためにより堅牢な評価プロトコルを導入します。私たちの研究は、効果的なエージェントにとってどのコンポーネントと設計が重要であるかを明らかにし、一方で論理的と思われるものの冗長なものも特定します。これらの知見に基づいて、私たちはOAgentsという新しい基盤エージェントフレームワークを構築し、オープンソースとして公開しました。OAgentsは、オープンソースプロジェクトの中で最先端の性能を達成し、さまざまなエージェントコンポーネントのモジュール設計を提供することで、エージェント型AIの将来の研究を促進します。
本論文は、視覚的理解と生成を共有する離散的な意味表現に統合しようとするマルチモーダルフレームワークを提案する。その中核となるのは、テキストアラインドトークナイザ(TA-Tok)であり、大規模言語モデル(LLM)の語彙から投影されたテキストアラインドコードブックを使用して画像を離散トークンに変換する。視覚とテキストを拡張された語彙を持つ統一された空間に統合することで、我々のマルチモーダルLLM「Tar」は、モダリティ固有の設計を必要とせず、共有インターフェースを通じてクロスモーダルな入力と出力を可能にする。さらに、効率と視覚的詳細のバランスを取るためのスケール適応型エンコーディングとデコーディング、および高忠実度の視覚的出力を生成するための生成的デトークナイザを提案する。多様なデコードニーズに対応するため、高速な自己回帰モデルと拡散ベースのモデルという2つの補完的なデトークナイザを利用する。モダリティ融合を強化するため、高度な事前学習タスクを調査し、視覚的理解と生成の両方で改善を示す。ベンチマークを跨いだ実験により、Tarは既存のマルチモーダルLLM手法に匹敵またはそれを上回り、より速い収束と高いトレーニング効率を達成することが示された。コード、モデル、データはhttps://tar.csuhan.comで公開されている。
我々は、環境をインタラクティブに探索可能なビデオ生成器を構築するための新しいメモリ機構を提案する。これまで同様の成果は、シーンの3Dジオメトリを段階的に再構築しながら2Dビューをアウトペインティングする手法や、短いコンテキストウィンドウを持つビデオ生成器によって達成されてきた。しかし、前者は誤差が急速に蓄積する問題があり、後者は長期的なシーン一貫性の維持に苦戦する。これらの制約を解決するため、我々はSurfel-Indexed View Memory(VMem)を導入する。この機構は、過去のビューを3D表面要素(サーフェル)に基づいて幾何学的にインデックス化し、記憶する。VMemは、新しいビューを生成する際に最も関連性の高い過去のビューを効率的に検索することを可能にする。関連するビューのみに焦点を当てることで、我々の手法は、すべての過去のビューをコンテキストとして使用する場合と比べて、計算コストを大幅に削減しながら、想像された環境の一貫した探索を実現する。我々は、挑戦的な長期的シーン合成ベンチマークにおいて本手法を評価し、シーン一貫性とカメラ制御の面で既存手法を上回る性能を示す。
本論文では、大規模事前学習済み視覚エンコーダにおける密な画像表現を強化し、文脈内シーン理解を向上させるための新しい教師なしポストトレーニング手法であるDIPを提案する。従来の複雑な自己蒸留アーキテクチャに依存する手法とは異なり、本手法はメタ学習の原理に基づき、下流の文脈内シナリオを明示的に模倣する疑似タスクを用いて視覚エンコーダを訓練する。ラベルなしデータに対するポストトレーニングを可能にするため、事前学習済み拡散モデルと視覚エンコーダ自体を組み合わせた文脈内タスク生成の自動メカニズムを提案する。DIPはシンプルで教師なし、かつ計算効率が高く、単一のA100 GPUで9時間未満の計算時間を要する。疑似文脈内タスクを通じて密な表現を学習することで、多様な下流の実世界文脈内シーン理解タスクにおいて優れた性能を発揮する。初期の視覚エンコーダや従来手法を上回り、密な表現を改善するための実用的かつ効果的なソリューションを提供する。コードは以下で公開されている: https://github.com/sirkosophia/DIP
本論文では、ユーザ制御信号からインタラクティブな映像生成を可能にするニューラルネットワークベースの現実世界ゲームエンジン「RealPlay」を紹介する。従来のゲーム風ビジュアルに焦点を当てた研究とは異なり、RealPlayは現実世界の映像に似たフォトリアリスティックで時間的に一貫性のある映像シーケンスを生成することを目指す。本エンジンはインタラクティブなループで動作し、ユーザは生成されたシーンを観察し、制御コマンドを発行し、それに応答する短い映像チャンクを受け取る。このようなリアルで応答性の高い生成を実現するため、低遅延フィードバックのための反復的チャンク単位予測、反復間の時間的一貫性、正確な制御応答といった主要な課題に取り組む。RealPlayは、ラベル付きゲームデータとラベルなし現実世界映像の組み合わせで学習され、現実世界のアクションアノテーションを必要としない。特に、2つの形式の一般化が観察される:(1) 制御転送—RealPlayは仮想シナリオから現実世界シナリオへの制御信号を効果的にマッピングする;(2) エンティティ転送—学習ラベルはカーレースゲームに由来するが、RealPlayは車両を超えて自転車や歩行者など多様な現実世界エンティティの制御に一般化する。プロジェクトページは以下で確認できる:https://wenqsun.github.io/RealPlay/
ユーザープロファイリングは、レコメンデーションシステムにおいて極めて重要であり、生のユーザーインタラクションデータを簡潔で構造化された表現に変換し、パーソナライズされたレコメンデーションを実現します。従来の埋め込みベースのプロファイルは解釈可能性と適応性に欠けていましたが、大規模言語モデル(LLM)の最近の進展により、意味的に豊かで透明性の高いテキストベースのプロファイルが可能になりました。しかし、既存の手法は固定された形式に縛られることが多く、ユーザー行動の多様性を十分に捉えることができません。本論文では、多様で適応的なユーザープロファイルを生成する新しいフレームワークであるLettinGoを紹介します。LLMの表現力を活用し、下流のレコメンデーションタスクからの直接的なフィードバックを取り入れることで、教師ありファインチューニング(SFT)が課す厳格な制約を回避します。代わりに、Direct Preference Optimization(DPO)を用いてプロファイル生成器をタスク固有のパフォーマンスに適合させ、プロファイルが適応的かつ効果的であることを保証します。LettinGoは3つの段階で動作します:(1)複数のLLMを用いて多様なユーザープロファイルを探索、(2)レコメンデーションシステムにおける影響に基づいてプロファイルの品質を評価、(3)タスクパフォーマンスから得られたペアワイズ選好データを用いてプロファイル生成を適合させます。実験結果は、本フレームワークがレコメンデーションの精度、柔軟性、文脈認識を大幅に向上させることを示しています。この研究は、次世代レコメンデーションシステムにおける重要な革新として、プロファイル生成を強化するものです。
マルチモーダル大規模言語モデル(MLLM)は、一般的なタスクにおいて堅牢な推論能力を示し始めていますが、医療分野への応用はまだ初期段階にあります。医療MLLMの推論能力を強化するためには、連鎖的思考(CoT)のトレーニングデータを構築することが不可欠です。しかし、既存のアプローチでは、重要な診断に向けた効果的な推論パスを検索し評価するための包括的なフレームワークが不足しています。この課題に対処するため、我々はMentor-Intern Collaborative Search(MICS)を提案します。これは、厳密で効果的な医療CoTデータを生成するための新しい推論パス検索スキームです。MICSはまず、メンターモデルを活用して推論を段階的に初期化し、次に各インタンモデルにそれらの開始されたパスに沿って思考を続けるよう促し、最後に複数のインタンモデルの全体的な推論性能に基づいて最適な推論パスを選択します。推論性能は、生成された推論パスの品質を評価するMICS-Scoreによって決定されます。最終的に、我々は難易度がランク付けされた多タスク医療推論データセットMMRPと、カリキュラム学習戦略を通じて設計された新しい医療MLLMであるChiron-o1を構築しました。Chiron-o1は、視覚的質問応答と一般化可能な推論能力を備えています。広範な実験により、MICSを使用して構築されたCoTデータセットでトレーニングされたChiron-o1が、一連の医療視覚的質問応答および推論ベンチマークにおいて最先端の性能を達成することが実証されました。コードはGitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMsで公開されています。
本研究では、フィードフォワードアーキテクチャを用いて、各タイムステップにおけるビデオフレームと3Dガウス粒子の4次元時空間グリッドを計算可能な初のフレームワークを提案する。提案アーキテクチャは、4Dビデオモデルと4D再構成モデルの2つの主要コンポーネントから構成される。最初の部分では、空間的および時間的アテンションを逐次的または並列的に実行する現行の4Dビデオ拡散アーキテクチャを分析し、既存手法の限界を指摘する。さらに、単一の層内で空間的および時間的アテンションを実行する新たな融合アーキテクチャを導入する。本手法の鍵は、同一フレーム内、同一タイムスタンプ、または同一視点からのトークンにのみアテンションを行うスパースアテンションパターンである。第二の部分では、既存の3D再構成アルゴリズムを拡張し、ガウシアンヘッド、カメラトークン置換アルゴリズム、および追加の動的層とトレーニングを導入する。全体として、4D生成における新たな最先端技術を確立し、視覚的品質と再構成能力の両方を向上させる。
生成3Dモデルの評価は、自動化されたメトリクスと人間の品質認識との間の不一致により、依然として課題を抱えている。現在のベンチマークは、3D構造を無視する画像ベースのメトリクスや、知覚的魅力や実世界での有用性を捉えられない幾何学的測定に依存している。このギャップを埋めるため、我々は3D Arenaを提案する。これは、ペアワイズ比較を用いた大規模な人間の嗜好収集を通じて、画像から3D生成モデルを評価するためのオープンプラットフォームである。 2024年6月の立ち上げ以来、このプラットフォームは8,096人のユーザーから19の最先端モデルに対して123,243票を収集し、生成3Dにおける最大規模の人間の嗜好評価を確立した。我々は100の評価プロンプトからなるiso3dデータセットを提供し、統計的な不正検出を通じて99.75%のユーザー真正性を達成する品質管理を実証した。ELOベースのランキングシステムは信頼性の高いモデル評価を提供し、プラットフォームは確立された評価リソースとなっている。 この嗜好データの分析を通じて、我々は人間の嗜好パターンに関する洞察を提示する。我々の調査結果は、視覚的プレゼンテーションの特徴に対する嗜好を明らかにし、ガウススプラット出力がメッシュに対して16.6 ELOの優位性を持ち、テクスチャ付きモデルがテクスチャなしモデルに対して144.1 ELOの優位性を持つことを示している。我々は、多基準評価、タスク指向評価、フォーマットを考慮した比較を含む評価方法の改善に関する提言を提供する。プラットフォームのコミュニティエンゲージメントは、3D Arenaを分野のベンチマークとして確立するとともに、生成3Dにおける人間中心の評価の理解を進めるものである。
Mixture of Experts(MoE)アーキテクチャは、大規模言語モデル(LLM)のスケーリングと推論効率の維持を両立する強力なパラダイムとして登場しました。しかし、その膨大なメモリ要件により、リソースが制限された環境でのファインチューニングやデプロイが事実上不可能となっています。この課題に対処するため、我々はSlimMoEを提案します。これは、大規模なMoEモデルを、ゼロからトレーニングするという過大なコストをかけずに、より小型で効率的なバリアントに変換する多段階圧縮フレームワークです。本手法では、エキスパートのスリム化と中間段階を経た知識転移を通じてパラメータ数を体系的に削減し、ワンショットプルーニング手法でよく見られる性能低下を効果的に緩和します。このフレームワークを用いて、Phi 3.5-MoE(総パラメータ41.9B/活性化パラメータ6.6B)を、元のモデルのトレーニングデータの10%未満である400Bトークンのみを使用して、Phi-mini-MoE(総パラメータ7.6B/活性化パラメータ2.4B)とPhi-tiny-MoE(総パラメータ3.8B/活性化パラメータ1.1B)に圧縮しました。これらの圧縮モデルは、単一のGPU(Phi-mini-MoEはA100、Phi-tiny-MoEはA6000)でファインチューニング可能であり、学術的またはリソースが限られた環境での使用に非常に適しています。実験結果では、これらの圧縮モデルが同サイズの他のモデルを上回り、より大規模なモデルとも競争力のある性能を示しています。例えば、Phi-mini-MoEは、活性化パラメータの2/3のみを使用してPhi-3-miniと同等以上の性能を達成し、Llama 3.1 8Bと同等のMMLUスコアを記録しながら、大幅に低いレイテンシを実現しています。我々の研究結果は、構造化プルーニングと段階的蒸留を組み合わせることで、高品質でコンパクトなMoEモデルを作成する効果的な方法を示しており、MoEアーキテクチャのより広範な採用への道を開くものです。我々は、これらのモデルをhttps://huggingface.co/microsoft/Phi-mini-MoE-instruct および https://huggingface.co/microsoft/Phi-tiny-MoE-instruct で公開しています。
本論文では、FinCoTを提案する。これは、ドメイン固有の専門家の金融推論から得られた知見を組み込み、大規模言語モデルの推論トレースを導く構造化された連鎖的思考(CoT)プロンプト手法である。我々は、FinNLPにおいて3つの主要なプロンプトスタイルが存在することを明らかにした:(1) 標準プロンプト--ゼロショットプロンプト、(2) 非構造化CoT--タグの使用など明示的な推論構造を持たないCoTプロンプト、(3) 構造化CoTプロンプト--構造化された推論ステップを定義する明示的な指示や例を含むCoTプロンプト。従来、FinNLPは主に標準または非構造化CoTプロンプトを用いたプロンプトエンジニアリングに焦点を当ててきた。しかし、構造化CoTプロンプトはこれまでの研究で十分な注目を集めてこなかった。さらに、構造化CoTプロンプトにおける推論構造の設計は、非ドメイン専門家のヒューリスティックに基づくことが多い。本研究では、FinNLPにおける各プロンプト手法を調査し、3つの主要なプロンプトスタイルとFinCoTを、10の金融ドメインにわたるCFA形式の質問で評価した。その結果、FinCoTはパフォーマンスを63.2%から80.5%に、Qwen-2.5-7B-Instructでは69.7%から74.2%に向上させ、生成されるトークン数を構造化CoTプロンプトと比較して8分の1に削減することが観察された。我々の知見は、ドメインに沿った構造化プロンプトが、パフォーマンスの向上と推論コストの削減だけでなく、より解釈可能で専門家の推論に沿ったトレースを生み出すことを示している。
複雑なダイナミクスを持つ長時間ビデオにおける照明編集は、ビジュアルコンテンツの作成や操作、さらにはシミュレーションから現実(sim2real)および現実から現実(real2real)への転移を通じた具現化AIのデータスケールアップなど、さまざまな下流タスクにおいて重要な価値を持つ。しかしながら、既存のビデオ再照明技術は、主にポートレートビデオに限定されているか、時間的一貫性と計算効率のボトルネックに陥っている。本論文では、提案する二段階最適化メカニズムを特徴とする新しいパラダイム、TC-Lightを提案する。膨張型ビデオ再照明モデルによって予備的に再照明されたビデオから始め、第一段階で外観埋め込みを最適化してグローバルな照明を整列させる。次に、第二段階で提案する正規ビデオ表現、すなわちユニークビデオテンソル(UVT)を最適化して、細かなテクスチャと照明を整列させる。性能を包括的に評価するために、長時間かつ高度にダイナミックなビデオベンチマークも確立した。広範な実験により、本手法が物理的に妥当な再照明結果を優れた時間的一貫性と低い計算コストで実現することが示された。コードとビデオデモはhttps://dekuliutesla.github.io/tclight/で公開されている。
DeepSeek-R1は、ルールベースの報酬システムを通じて大規模言語モデル(LLM)の推論能力を向上させることに成功しました。これは「完璧な」報酬システムであり、報酬ハッキングを効果的に軽減しますが、そのような報酬関数はしばしば離散的です。私たちの実験的観察によると、離散的な報酬は勾配異常、不安定な最適化、および収束の遅れを引き起こす可能性があります。この問題に対処するため、私たちはReDit(Reward Dithering)を提案します。これは、単純なランダムノイズを加えることで離散的な報酬信号をディザリングする方法です。この摂動された報酬により、学習プロセス全体を通じて探索的な勾配が継続的に提供され、よりスムーズな勾配更新と収束の加速が可能になります。注入されたノイズはまた、平坦な報酬領域に確率性を導入し、モデルが新しいポリシーを探索し、局所最適から脱出することを促します。多様なタスクにわたる実験は、ReDitの有効性と効率性を実証しています。平均して、ReDitはバニラGRPOと同等の性能を約10%のトレーニングステップで達成し、さらに、同様のトレーニング期間でバニラGRPOよりも4%の性能向上を示します。可視化により、ReDitによる勾配問題の大幅な軽減が確認されています。さらに、これらの利点をさらに検証するための理論的分析が提供されています。
生成AI(GenAI)アプリケーションの最近のトレンドとして、クラウド専用環境からエンドユーザーデバイスへの移行が進んでおり、リソース管理、システム効率、ユーザーエクスペリエンスにおいて新たな課題が生じています。本論文では、エンドユーザーデバイス上で動作するGenAIモデルのシステム効率と応答時間を評価するための包括的なベンチマークフレームワーク「ConsumerBench」を提案します。既存のベンチマークが専用GPU上での排他的なモデルアクセスを前提としているのに対し、ConsumerBenchは制約のあるハードウェア上で並行して実行される現実的なマルチアプリケーションシナリオをシミュレートします。さらに、ConsumerBenchは複数のアプリケーション間の連携を必要とする複雑なタスクをシミュレートするカスタマイズ可能なワークフローをサポートします。ConsumerBenchは、レイテンシやサービスレベル目標(SLO)達成率などのアプリケーションレベルのメトリクスと、CPU/GPU使用率やメモリ帯域幅などのシステムレベルのメトリクスの両方を捕捉します。広範な実験を通じて、ConsumerBenchはリソース共有の非効率性、貪欲な割り当て下での不公平なスケジューリング、静的モデルサーバー設定のパフォーマンス上の欠点を明らかにします。また、本論文では、コンシューマー向けGPUアーキテクチャに特化したカスタムカーネルの利点や、SLOを意識したスケジューリング戦略を実装することの価値について、モデル開発者やシステム設計者向けの実践的な洞察を提供します。
報酬モデル(RMs)は、人間のフィードバックを通じて大規模言語モデル(LLMs)を整合させるための基盤であるが、報酬ハッキングに悩まされることが多い。これらのモデルは、応答の長さやフォーマットなどの表面的または偽りの属性に固執し、トレーニングデータの相関から学んだこれらの手がかりを、品質の真の因果的要素(例:事実性、関連性)と誤解する傾向がある。これは、標準的なトレーニング目的関数がこれらの要素を切り離すのに苦労し、脆弱なRMsと整合しないポリシーを生み出すためである。我々は、報酬ハッキングを軽減するために明示的な因果モデルに基づいた新しいフレームワークであるCrome(Causally Robust Reward Modeling)を紹介する。Cromeは、トレーニング中に以下の合成ターゲット拡張を採用する:(1)特定の因果的属性に沿って異なるペアである因果的拡張。これにより、各因果的属性に沿った感度を個別に強化する。(2)主に偽りの属性に沿って変化する同点ラベルペアである中立的拡張。これにより、偽りの属性に沿った不変性を強化する。特に、我々の拡張は、偽りの要素に関する知識なしに、因果的ルーブリックに沿った回答介入のみを通じて生成され、これはオラクルLLMに問い合わせることで特定される。実験的に、CromeはRewardBenchにおいて標準的なベースラインを大幅に上回り、平均精度を最大5.4%向上させ、特定のカテゴリーでは最大13.2%および7.2%の向上を達成した。Cromeの堅牢性は、増加するNにわたるBest-of-N推論設定において、RewardBench(チャット、チャットハード、安全性、推論タスクをカバー)、安全性に焦点を当てたWildGuardTest、推論に特化したGSM8kを含む様々なベンチマークで得られた一貫した向上によってさらに証明されている。
本研究では、言語モデル(LLM)内の潜在部分空間を活性化することで、科学技術コード生成を特定のプログラミング言語に向けて誘導できるかどうかを検証する。まず、5つの因果的LLMを科学技術コーディングプロンプトで評価し、4つのプログラミング言語間でのベースラインバイアスを定量化した。C++またはCPPトークンに対して最も活性化されたMLP重みを摂動させる静的ニューロン帰属法は脆弱であり、プロンプトスタイルやモデルスケールにわたる一般化が限定的であることが判明した。これらの制約に対処するため、勾配精製適応活性化誘導フレームワーク(G-ACT)を開発した:プロンプトごとの活性化差分を少数の誘導方向にクラスタリングし、軽量な層ごとのプローブをオンラインで訓練・精製して適切な誘導ベクトルを選択する。LLaMA-3.2 3Bでは、このアプローチによりCPP言語への生成バイアスが確実に誘導され、平均プローブ分類精度が15%向上し、初期層(0-6)では標準ACTフレームワークと比較してプローブ分類精度が61.5%向上した。LLaMA-3.3 70Bでは、アテンションヘッドの信号がより拡散するが、主要層でのターゲット注入により言語選択が改善される。層ごとのプローブは推論オーバーヘッドを若干増加させるものの、層のサブセットのみを誘導することで実用的であり、再現可能なモデル動作を可能にする。これらの結果は、実用的なエージェントシステムにおける概念レベルの制御のためのスケーラブルで解釈可能かつ効率的なメカニズムを示している。
人間の指示から多視点画像を生成することは、3Dコンテンツ作成において極めて重要である。主な課題は、複数の視点間で一貫性を維持し、多様な条件下で形状とテクスチャを効果的に合成することである。本論文では、任意のプロンプトから一貫した多視点画像を段階的に生成するために、オートリグレッシブモデルを活用したMulti-View Auto-Regressive (MV-AR) 手法を提案する。まず、ARモデルの次トークン予測能力は、段階的な多視点合成を促進する上でその有効性を大幅に向上させる。広く離れた視点を生成する際、MV-ARはその前のすべての視点を利用して効果的な参照情報を抽出することができる。次に、アーキテクチャ設計とトレーニング戦略を通じて様々なプロンプトに対応する統一モデルを提案する。複数の条件に対処するために、テキスト、カメラポーズ、画像、形状のための条件注入モジュールを導入する。多モーダル条件を同時に管理するために、段階的なトレーニング戦略を採用する。この戦略では、最初にテキストから多視点 (t2mv) モデルをベースラインとして採用し、条件をランダムにドロップおよび組み合わせることによって包括的なX-to-multi-view (X2mv) モデルの開発を促進する。最後に、高品質なデータの不足による過学習問題を緩和するために、「Shuffle View」データ拡張技術を提案し、トレーニングデータを数倍に拡大する。実験により、MV-ARの性能と汎用性が実証され、様々な条件下で一貫した多視点画像を生成し、主要な拡散ベースの多視点画像生成モデルと同等の性能を発揮することが示された。コードとモデルは https://github.com/MILab-PKU/MVAR で公開される。
スパースオートエンコーダ(SAE)は、大規模言語モデルの表現を解釈可能な特徴に分解するための有望な解決策として注目されている。しかし、PauloとBelrose(2025)は異なる初期化シード間での不安定性を指摘し、Heapら(2025)はSAEがモデル内部の特徴を捉えられない可能性があることを指摘している。これらの問題は、SAEを外部データセット(ウェブから収集されたものや他のモデルによって生成されたもの)で訓練することに起因している可能性が高い。これらのデータセットには、モデルの汎化能力を超えた分布外(OOD)データが含まれており、その結果、モデルの内部活性化を誤って表現する「偽の特徴(Fake Features)」と呼ばれるSAE特徴が生じる可能性がある。これらの問題に対処するため、我々はFaithfulSAEを提案する。これは、モデル自身の合成データセットを用いてSAEを訓練する手法である。FaithfulSAEを用いることで、OODが少ない指示データセットでSAEを訓練することで、シード間でのSAEの安定性が向上することを実証した。特に、FaithfulSAEはウェブベースのデータセットで訓練されたSAEをSAEプロービングタスクで上回り、7つのモデルのうち5つでより低い偽の特徴比率を示した。全体として、我々のアプローチは外部データセットへの依存を排除し、モデル内部の特徴をより適切に捉えることで解釈可能性を向上させるとともに、SAE訓練データセットの重要性がしばしば見過ごされている点を強調している。
大規模言語モデル(LLMs)は、長いコンテキスト長を必要とするアプリケーションでますます使用されていますが、コンテキストが長くなるにつれて、キー・バリュー(KV)キャッシュがGPU上のメモリボトルネックとなることがよくあります。この問題に対処するため、我々はCommutative Vector Quantization(CommVQ)を提案し、長いコンテキストのLLM推論におけるメモリ使用量を大幅に削減します。まず、軽量なエンコーダとコードブックを用いた加法量子化を導入し、KVキャッシュを圧縮します。これは単純な行列乗算によってデコード可能です。デコード時の計算コストをさらに削減するため、コードブックをRotary Position Embedding(RoPE)と可換になるように設計し、Expectation-Maximization(EM)アルゴリズムを用いて訓練します。これにより、デコードをセルフアテンションメカニズムに効率的に統合することが可能になります。我々のアプローチは、加法量子化による高精度と、RoPE可換コードブックによる低オーバーヘッドを実現します。長いコンテキストのベンチマークとGSM8Kでの実験により、我々の方法は2ビット量子化でFP16 KVキャッシュサイズを87.5%削減し、最先端のKVキャッシュ量子化手法を上回ることを示しました。特に、最小限の精度損失で1ビットKVキャッシュ量子化を可能にし、LLaMA-3.1 8Bモデルを単一のRTX 4090 GPUで128Kのコンテキスト長で実行できるようにします。ソースコードは以下で公開されています:https://github.com/UMass-Embodied-AGI/CommVQ。
その印象的な能力にもかかわらず、アライメントされた大規模言語モデル(LLM)は、多様性に欠ける出力を生成することが多い。この生成における安定性は何によって引き起こされるのだろうか?我々は、モデルの出力分布における確率集中という観点からこの現象を調査する。この集中を定量化するために、生成中の有効な次のステップの数を測定するトークン不変の指標である分岐係数(Branching Factor, BF)を導入する。我々の実証分析から、以下の2つの重要な知見が得られた:(1)BFは生成が進むにつれて減少することが多く、LLMが生成するにつれてより予測可能になることを示唆している。(2)アライメントチューニングは、最初からモデルの出力分布を大幅にシャープにし、ベースモデルに比べてBFをほぼ1桁減少させる(例えば、12から1.2へ)。この顕著な減少は、アライメントされたモデルがデコーディング戦略に対して感度が低く見える理由を説明するのに役立つ。この洞察を基に、我々はこの安定性が複雑な推論に驚くべき影響を与えることを発見した。例えば、アライメントされたChain-of-Thought(CoT)モデル(DeepSeek蒸留モデルなど)は、この効果を活用している。より長い推論チェーンを生成することで、生成を後半のより決定論的(BFが低い)な段階に押し込み、より安定した出力を実現する。我々は、アライメントチューニングがモデルの挙動を根本的に変えるのではなく、ベースモデルに既に存在する低エントロピーの軌道を解放するスタイル的なトークン(例:「Sure」)に向かわせるものであると仮説を立てる。この見解は、ベースモデルにそのようなトークンでプロンプトを与えることで同様にBFを減少させることができるというナッジング実験によって支持されている。全体として、我々の研究結果は、BFがLLMの出力を理解し制御するための強力な診断ツールであることを示している。アライメントが変動性を減少させる仕組み、CoTが安定した生成を促進する仕組み、そしてベースモデルを多様性から遠ざける方法を明らかにしている。
AI生成コード、ディープフェイク、その他の合成コンテンツの検出は、新たな研究課題として浮上している。大規模言語モデル(LLM)によって生成されたコードが一般的になるにつれ、各サンプルの背後にある特定のモデルを識別することがますます重要になっている。本論文は、CプログラムにおけるLLM著者帰属に関する初の体系的な研究を提示する。我々は、CodeT5のエンコーダ-デコーダアーキテクチャからデコーダを除外し、分類に焦点を当てた新たなモデルであるCodeT5-Authorshipをリリースした。このモデルのエンコーダ出力(最初のトークン)は、GELU活性化関数とドロップアウトを備えた2層の分類ヘッドを通過し、可能な著者に対する確率分布を生成する。我々のアプローチを評価するため、8つの最先端LLMによって生成された32,000のコンパイル可能なCプログラムからなるベンチマークLLM-AuthorBenchを導入した。我々のモデルを、7つの従来の機械学習分類器と、BERT、RoBERTa、CodeBERT、ModernBERT、DistilBERT、DeBERTa-V3、Longformer、LoRAファインチューニングされたQwen2-1.5Bを含む8つのファインチューニングされたトランスフォーマーモデルと比較した。二値分類において、我々のモデルはGPT-4.1とGPT-4oなどの密接に関連するモデルによって生成されたCプログラムを識別する際に97.56%の精度を達成し、5つの主要なLLM(Gemini 2.5 Flash、Claude 3.5 Haiku、GPT-4.1、Llama 3.3、DeepSeek-V3)間の多クラス帰属において95.40%の精度を達成した。オープンサイエンスを支援するため、CodeT5-Authorshipアーキテクチャ、LLM-AuthorBenchベンチマーク、および関連するすべてのGoogle ColabスクリプトをGitHubで公開している: https://github.com/LLMauthorbench/。
近年のマルチモーダル大規模言語モデル(MLLMs)は、ベンチマークとなる視覚-言語タスクにおいて優れた性能を発揮しているが、入力視覚品質がその応答にどのように影響するかについてはほとんど知られていない。画像の知覚品質が高いことが、MLLMの理解力を向上させることに直結するのだろうか?本研究では、主要なMLLMsと一連の視覚-言語ベンチマークを対象に、各画像に制御された劣化やスタイル的変化を適用し、初めての体系的な調査を行った。驚くべきことに、視覚品質のパラドックスを発見した:モデル、タスク、さらには個々のインスタンスの性能が、画像が人間の知覚する忠実度から逸脱する場合に向上することがある。市販の復元パイプラインでは、これらの特異な選好を調整することができない。このギャップを埋めるため、視覚品質テストタイムチューニング(VQ-TTT)を導入した。これは、軽量な適応モジュールであり、(1)凍結された視覚エンコーダの前に学習可能な低ランクカーネルを挿入して周波数内容を調整し、(2)LoRAを介して浅い視覚エンコーダ層のみを微調整するものである。VQ-TTTは、各入力画像を単一のフォワードパスで動的に調整し、タスク固有のモデル選好に合わせる。評価されたすべてのMLLMsとデータセットにおいて、VQ-TTTは外部モデルやキャッシュされた特徴、追加のトレーニングデータなしに、平均精度を大幅に向上させた。これらの発見は、MLLMsにとって「より良い」視覚入力を再定義し、AIが主要なデータ顧客となる新時代において、普遍的に「クリーン」な画像ではなく、適応的な画像の必要性を強調するものである。
4D事前学習をスケールアップし、特定の時間における少数の視点から物体を再構築し、任意の視点と時間での表現を学習する一般的な時空間表現を獲得できるだろうか?私たちは、4D-LRMによってこの問いに肯定的な回答を提供する。4D-LRMは、制約のない視点とタイムスタンプからの入力を取り、任意の新しい視点と時間の組み合わせをレンダリングする初の大規模4D再構築モデルである。従来の4Dアプローチ(最適化ベース、幾何学ベース、生成モデルなど)が効率性、汎用性、忠実性に苦戦していたのに対し、4D-LRMは統一された時空間表現を学習し、時間を跨いだポーズ付き画像トークンからピクセルごとの4Dガウシアンプリミティブを直接予測することで、原理的には無限のフレームレートでの高速かつ高品質なレンダリングを可能にする。私たちの結果は、時空間事前学習をスケールアップすることが、正確で効率的な4D再構築を可能にすることを示している。4D-LRMは新しい物体への汎化、時間を跨いだ補間、多様なカメラ設定の処理が可能であり、単一のA100 GPU上で1.5秒未満で24フレームのシーケンスを1回のフォワードパスで再構築する。
医療視覚質問応答は、医療画像に基づいて自然言語の質問に答えるモデルを可能にすることで、臨床意思決定を支援することを目指しています。近年のマルチモーダル学習の進歩により性能は大幅に向上しましたが、現在の手法では回答の信頼性が限定的で、解釈可能性も低いという課題があり、臨床医や患者がモデル生成の回答を理解し信頼する能力を損なっています。この問題に対処するため、本研究ではまず「Thinking with Visual Grounding (ThinkVG)」データセットを提案します。このデータセットでは、回答生成が中間推論ステップに分解され、医療画像の関連する視覚領域を明示的に基づかせることで、きめ細かい説明可能性を提供します。さらに、強化学習のための新しい検証可能な報酬メカニズムを導入し、ポストトレーニングをガイドすることで、モデルの推論プロセスと最終的な回答の整合性を向上させます。注目すべきは、提案手法がトレーニングデータのわずか8分の1を使用して同等の性能を達成し、その効率性と有効性を実証している点です。データセットはhttps://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVGで公開されています。
音楽基盤モデルの最近の進展により、音響表現学習が向上しているが、多様な音楽伝統における有効性は依然として限定的である。本論文では、異文化間の音楽表現学習と理解を強化するために開発された多文化適応型基盤モデル「CultureMERT-95M」を紹介する。これを実現するため、学習率の再ウォーミングと再ディケイを統合した二段階の継続事前学習戦略を提案し、限られた計算資源でも安定した適応を可能にした。ギリシャ、トルコ、インドの音楽伝統を含む650時間の多文化データミックスで学習を行った結果、非西洋音楽の自動タグ付けタスクにおいてROC-AUCとAPの平均4.9%の改善が達成され、従来の最先端モデルを上回りつつ、西洋中心のベンチマークでの忘却を最小限に抑えた。さらに、重み空間で単一文化適応モデルを統合する多文化適応の代替手法であるタスク算術を調査した。タスク算術は、非西洋の自動タグ付けタスクにおいて多文化学習モデルと同等の性能を示し、西洋データセットでの回帰も見られなかった。異文化間評価では、単一文化モデルが音楽伝統間で異なる効果で転移するのに対し、多文化適応モデルが全体的に最高の性能を達成した。世界音楽表現学習の研究を支援するため、CultureMERT-95MとCultureMERT-TA-95Mを公開し、より文化的に意識された音楽基盤モデルの開発を促進する。
大規模言語モデル(LLMs)は目覚ましい進歩を遂げてきたが、その展開においては、特にセーフティメカニズムを回避するジャイルブレイク攻撃に対する重大な脆弱性が明らかになっている。ガードレール——LLMのインタラクションを監視・制御する外部防御メカニズム——は、有望な解決策として登場した。しかし、現在のLLMガードレールの状況は断片的であり、統一された分類体系と包括的な評価フレームワークが欠如している。本Systematization of Knowledge(SoK)論文では、LLM向けジャイルブレイクガードレールの初の包括的分析を提示する。我々は、6つの主要な次元に沿ってガードレールを分類する新規の多次元分類体系を提案し、その実用的な有効性を評価するためのセキュリティ・効率性・有用性評価フレームワークを導入する。広範な分析と実験を通じて、既存のガードレールアプローチの強みと限界を特定し、攻撃タイプ間での普遍性を探り、防御の組み合わせを最適化するための洞察を提供する。本研究は、将来の研究開発のための構造化された基盤を提供し、堅牢なLLMガードレールの原則に基づいた進展と展開を導くことを目指している。コードはhttps://github.com/xunguangwang/SoK4JailbreakGuardrailsで公開されている。
ストーリービジュアライゼーションは、複数のパネルにわたって物語を描く視覚シーンを生成する人気のタスクとなっています。この設定における中心的な課題は、特にキャラクターやオブジェクトが物語全体を通じて持続し進化する方法において、視覚的一貫性を維持することです。拡散モデルの最近の進展にもかかわらず、現在のアプローチでは主要なキャラクター属性を保持できないことが多く、一貫性のない物語が生じます。本研究では、複数パネルのストーリービジュアライゼーションにおける不整合を自律的に識別、修正、洗練する協調型マルチエージェントフレームワークを提案します。エージェントは反復ループで動作し、シーケンス全体を再生成することなく、パネルレベルのきめ細かい更新を可能にします。私たちのフレームワークはモデルに依存せず、Fluxのような整流フロートランスフォーマーやStable Diffusionのような潜在拡散モデルなど、さまざまな拡散モデルと柔軟に統合できます。定量的および定性的な実験により、本手法がマルチパネル一貫性の点で従来のアプローチを上回ることが示されています。
近年のマルチモーダル大規模言語モデル(MLLM)は、高品質なキャプションで訓練された場合でも、パーソナライズされた画像キャプションの生成に苦戦することが多い。本研究では、既存のポストトレーニングベースのMLLMパーソナライゼーション手法において、そのような制限が依然として存在することを観察した。具体的には、教師ありファインチューニング(SFT)を通じて大規模なキャプションデータでポストチューニングされたにもかかわらず、これらのモデルは現実世界のシナリオ、例えばマルチコンセプト画像キャプショニングにおいて、忠実な記述を生成することに頻繁に失敗する。しかし、そのような複雑な設定における大規模で高品質なキャプションを取得することは、コストがかかり困難である。SFTのデータ中心的な性質に対処するため、我々は強化学習(RL)ベースのポストトレーニングフレームワークを提案する。我々の知る限り、これはパーソナライズされた画像キャプショニングのためにMLLMをポストトレーニングする初めてのRLベースのアプローチである。我々の手法は、MLLMの視覚認識能力とパーソナライズされた生成能力の両方を大幅に向上させ、特に挑戦的なマルチコンセプト画像キャプショニングタスクにおいて、既存のSFTベースのベースラインを一貫して上回る。
大規模言語モデル(LLMs)の最近の進展は、自然言語処理において目覚ましい進歩をもたらしているが、その計算量とメモリ要求は、特に長文脈推論において依然として大きな課題となっている。本論文では、事前学習済みTransformerモデルを効率的な線形化注意機構と高度なメモリ管理によって強化する新たなフレームワーク、TPTT(Transforming Pretrained Transformer into Titans)を提案する。TPTTは、Memory as Gate(MaG)や混合線形化注意(LiZA)などの技術を採用している。また、Hugging Face Transformersライブラリと完全に互換性があり、パラメータ効率的なファインチューニング(LoRA)を通じて、完全な再学習なしに任意の因果的LLMをシームレスに適応させることが可能である。約10億パラメータのモデルを用いたMMLUベンチマークにおいて、TPTTの有効性を示し、効率性と精度の両面で大幅な改善を観察した。例えば、Titans-Llama-3.2-1Bは、ベースラインと比較してExact Match(EM)が20%向上した。統計分析と最新の最先端手法との比較により、TPTTの実用的な拡張性と堅牢性が確認された。コードはhttps://github.com/fabienfrfr/tpttで、Pythonパッケージはhttps://pypi.org/project/tptt/で公開されている。
新生児死亡は、未開発国だけでなく一部の先進国においても依然として懸念すべき現実である。Macro Tradesのデータによると、世界全体では出生1,000件あたり26.693人の乳児が死亡している。この数を減少させるためには、危険にさらされている新生児の早期予測が重要である。そのような予測を行うことで、母子に対する十分なケアを提供し、早期の乳児死亡を回避する機会が得られる。この文脈において、機械学習を用いて新生児がリスクにさらされているかどうかを判断する研究が行われた。予測モデルの訓練には、140万人の新生児の過去データが使用された。機械学習および深層学習の手法として、ロジスティック回帰、K近傍法、ランダムフォレスト分類器、極限勾配ブースティング(XGBoost)、畳み込みニューラルネットワーク、長短期記憶(LSTM)がデータセットを用いて実装され、新生児死亡率を予測する最も正確なモデルの特定が試みられた。機械学習アルゴリズムの中では、XGBoostとランダムフォレスト分類器が94%の最高精度を達成し、深層学習モデルの中ではLSTMが99%の最高精度を示した。したがって、LSTMを使用することが、予防措置が必要かどうかを予測するための最も適切なアプローチであると考えられる。
LLMを用いたハードウェアRTLコード生成における最近の進展にもかかわらず、既存のソリューションは、実用的なアプリケーションシナリオと現実世界のRTLコード開発の要件との間に依然として大きな隔たりを抱えている。従来のアプローチは、過度に単純化されたハードウェア記述に焦点を当てるか、複雑な仕様を処理するために広範な人間のガイダンスに依存しており、そのスケーラビリティと自動化の可能性を制限している。本論文では、この隔たりを埋めるために、複雑な仕様ドキュメントを直接処理し、対応するRTLコード実装を生成するように設計されたLLMエージェントシステム「Spec2RTL-Agent」を提案し、LLMベースのRTLコード生成をより現実的なアプリケーション設定に向けて前進させる。この目標を達成するために、Spec2RTL-Agentは、以下の3つの主要な要素を統合した新しいマルチエージェント協調フレームワークを導入する:(1) 仕様を構造化された段階的な実装計画に変換する推論と理解モジュール、(2) 複数の表現にわたってコードを反復的に洗練し、RTL変換のための正確性と合成可能性を向上させる漸進的コーディングとプロンプト最適化モジュール、(3) 生成中のエラーの原因を特定し追跡する適応的リフレクションモジュール。自然言語から直接RTLを生成する代わりに、本システムは戦略的に合成可能なC++コードを生成し、それをHLS向けに最適化する。このエージェント駆動の洗練により、単純な直接RTL生成アプローチと比較して、より高い正確性と互換性が確保される。Spec2RTL-Agentを3つの仕様ドキュメントで評価し、既存の方法と比較して最大75%少ない人間の介入で正確なRTLコードを生成することを示す。これは、非構造化仕様からのRTL生成において、ハードウェア設計における人間の努力への依存を軽減する初の完全自動化されたマルチエージェントシステムとしての役割を強調している。