翻訳付きの日次キュレーションされたAI研究論文
AIエージェントの台頭は、自律的なツール利用と環境相互作用に起因する複雑な安全性・セキュリティ課題をもたらしています。現在のガードレイルモデルは、エージェント特有のリスク認識とリスク診断の透明性を欠いています。複雑で多岐にわたる危険な行動を網羅するエージェント向けガードレイルを実現するため、我々はまず、リスクの発生源(どこで)、故障モード(どのように)、結果(何が)という3次元で直交的に分類する統一的な分類体系を提案します。この構造化された階層的分類体系に基づき、新たな細粒度のエージェント安全性ベンチマーク(ATBench)と、エージェントの安全性・セキュリティのための診断型ガードレイルフレームワーク(AgentDoG)を導入します。AgentDoGはエージェントの行動軌跡にわたる細粒度で文脈依存的な監視を提供します。さらに重要なのは、AgentDoGが安全でない行動と、一見安全だが不合理な行動の根本原因を診断できる点であり、効果的なエージェントアライメントを促進するため、二値ラベルを超えた発生経路と透明性を提供します。AgentDoGのバリアントは、QwenおよびLlamaモデルファミリーにわたり、3つのサイズ(4B、7B、8Bパラメータ)で利用可能です。大規模な実験結果により、AgentDoGが多様で複雑な対話シナリオにおけるエージェント安全性モデレーションで最先端の性能を達成することが実証されています。全てのモデルとデータセットは公開されています。
人間が自身の直接的な能力を超える問題に直面した際、ツールに頼るという行動様式は、マルチモーダル大規模言語モデル(MLLM)における視覚的推論能力を向上させる有望なパラダイムを提供する。したがって、効果的な推論には、新しいツールや新しいタスクに直面した場合でも、どのツールをいつ呼び出し、どのように複数のステップにわたって組み合わせるかを知ることが不可欠である。本論文では、ツール特化的または明示的に監督された行動ではなく、一般的な推論スキルとしてツール使用を学習するマルチモーダルモデル群であるAdaReasonerを提案する。AdaReasonerは以下の要素によって実現されている:(i) モデルに長期的で多段階のツール相互作用を曝すスケーラブルなデータキュレーションパイプライン、(ii) 最終タスクの成功に基づいてツール選択と順序付けを最適化する強化学習アルゴリズムであるTool-GRPO、(iii) ツール使用を動的に調整する適応的学習メカニズム。これらの構成要素が統合されることで、モデルはタスク文脈と中間結果からツールの有用性を推論し、複数ツールの協調や未見ツールへの一般化を可能にする。実験では、AdaReasonerが強力なツール適応性と一般化行動を示す:明示的に訓練されていないにもかかわらず、有益なツールを自律的に採用し、無関係なツールを抑制し、タスク要求に基づいてツール使用頻度を調整する。これらの能力は、困難なベンチマークにおいて最先端の性能に変換され、70億パラメータのベースモデルを平均+24.9%改善し、VSPやJigsawを含む複数のタスクでGPT-5のような強力なプロプライエタリシステムを凌駕する。
ロボットマニピュレーションにおける大きな可能性を秘めた高度なVision-Language-Action(VLA)基盤モデルは、コスト効率(例えば適応に必要なデータ量やGPU時間)を確保しつつ、タスクやプラットフォームを超えて忠実に汎化することが期待される。この目的に向けて、我々は9種類の一般的なデュアルアームロボット構成から得られた約20,000時間の実世界データを用いてLingBot-VLAを開発した。3つのロボットプラットフォームにおける体系的な評価(各プラットフォームが100のタスクを遂行し、タスク当たり130回の学習後エピソードを実施)を通じて、本モデルは競合モデルを明確に上回る性能を示し、強力なパフォーマンスと広範な汎化性を実証した。さらに、効率的なコードベースを構築し、8GPU学習設定においてGPU当たり毎秒261サンプルの処理速度を達成。これは既存のVLA向けコードベース比で1.5~2.8倍(依存するVLMベースモデルにより変動)の高速化に相当する。これらの特徴により、本モデルが実世界での展開に適していることを保証する。ロボット学習分野の発展に貢献するため、コード・ベースモデル・ベンチマークデータを公開し、より挑戦的なタスクの実現と健全な評価基準の促進に重点を置く。
人間は内部世界モデルを構築し、そのモデル内の概念を操作することで推論を行う。近年のAIの進歩、特に連鎖的思考(CoT)推論は、こうした人間の認知能力を近似しており、世界モデルは大規模言語モデル内に埋め込まれていると考えられている。数学やプログラミングといった形式的で抽象的な領域では、現在のシステムが主に言語的推論に依存することで専門家レベルの性能を達成している。しかし、物理的・空間的知能のような、より豊かな表現と事前知識を必要とする領域では、依然として人間に大きく遅れを取っている。そのため、言語生成と視覚生成の両方が可能な統合マルチモーダルモデル(UMM)の出現は、相補的なマルチモーダル経路に基づくより人間らしい推論への関心を呼び起こしているが、その利点は未だ不明確である。本論文は世界モデルの観点から、視覚生成がいつ、どのように推論に利益をもたらすかについて、初めて体系的な研究を行う。我々の核心的な主張は「視覚的優位性仮説」である:物理世界に根ざした特定の課題においては、視覚生成がより自然に世界モデルとして機能するのに対し、純粋に言語的な世界モデルは表現的限界や事前知識の不足に起因するボトルネックに直面する。理論的には、内部世界モデリングをCoT推論の中核要素として形式化し、異なる形態の世界モデル間の差異を分析する。実証的には、視覚的と言語的が交互に行われるCoT推論を必要とする課題を特定し、新しい評価スイートVisWorld-Evalを構築する。最先端のUMMを用いた制御実験により、視覚的世界モデリングが有利な課題では、交互型CoTが純粋に言語的なCoTを大幅に上回るが、それ以外の課題では明確な優位性がないことを示す。総合して、本研究はより強力で人間らしいマルチモーダルAIのためのマルチモーダル世界モデリングの可能性を明らかにする。
インターネット上の音声・映像クリップは、時間とともに変化する音と動きを通じて意味を伝達し、テキスト単独では表現しきれない情報を含んでいます。AIモデルがこうした信号を人間の文化的文脈で理解できるか検証するため、私たちはAVMeme Examを開発しました。これは人間が厳選した、音声・歌曲・音楽・効果音など1,000以上に及ぶ代表的なインターネットミームのベンチマークです。各ミームには、表面的な内容から文脈や感情、使用法や世界知識に至るまでの理解度を測る独自のQ&A、さらに公開年・文字起こし・要約・機微性などのメタデータが付属しています。本ベンチマークを用いて、最先端のマルチモーダル大規模言語モデル(MLLM)と人間参加者を体系的に評価しました。結果が示す一貫した課題は、現行モデルが歌詞のない音楽や効果音で著しく低い性能を示し、表面的な内容と比べて文脈や文化的背景を踏まえた思考が困難だということです。これらの発見は、人間に寄り添うマルチモーダル知能における重大な隔たりを浮き彫りにし、単なる聴覚・視覚的な表面を超えて、文脈的・文化的に知覚できるモデルの必要性を訴えるものです。プロジェクトページ: avmemeexam.github.io/public
ビジョン言語モデル(VLM)の飛躍的進歩にもかかわらず、現行のアーキテクチャは細粒度の視覚情報を保持する能力に限界があり、結果として粗粒度のマルチモーダル理解に留まることが多い。本研究では、この欠点を主流のVLMに内在する最適化パラダイムの不備に帰因する。具体的には、視覚信号を単なる受動的条件付けの入力として扱い、教師信号として位置付けない「テキスト主導型最適化バイアス」が原因である。この問題を解決するため、我々は「視覚を入力として」から「視覚を目標として」へ最適化目標を根本的に転換する、視覚言語統一自己回帰監督(VLUAS)パラダイムを採用したYoutu-VLを提案する。視覚トークンを予測ストリームに直接統合することで、Youtu-VLは視覚的詳細と言語的コンテンツの双方に統一的な自己回帰監督を適用する。さらに、このパラダイムを視覚中心タスクに拡張し、タスク固有の追加要素なしで標準VLMが視覚中心タスクを実行可能にする。大規模な実証評価により、Youtu-VLが一般マルチモーダルタスクと視覚中心タスクの両方で競合力のある性能を達成し、包括的な汎用視覚エージェント開発の堅牢な基盤を確立することを実証した。
大規模言語モデル(LLM)は、生成エージェントシミュレーション(例:AI Town)を促進し、「動的な世界」を創出することで、エンターテインメントから研究に至るまで極めて大きな価値を有しています。しかし、非専門家、特にプログラミングスキルを持たないユーザーにとって、視覚化可能な環境を独自にカスタマイズすることは容易ではありません。本論文では、World Craftを提案します。これは、ユーザーのテキスト記述から実行可能かつ視覚化可能なAI Townを構築するためのエージェント型世界創造フレームワークです。本フレームワークは、World ScaffoldとWorld Guildの2つの主要モジュールで構成されます。World Scaffoldは、インタラクティブなゲームシーンを開発するための構造化され簡潔な標準化手法であり、LLMが実行可能なAI Town風環境をカスタマイズするための効率的な足場として機能します。World Guildは、大まかな記述からユーザーの意図を段階的に分析し、World Scaffoldに必要な構造化コンテンツ(環境レイアウトやアセットなど)を合成するマルチエージェントフレームワークです。さらに、リバースエンジニアリングを通じて高品質な誤り訂正データセットを構築し、空間知識の強化とレイアウト生成の安定性・制御性の向上を図るとともに、詳細な分析のための多次元評価指標を報告します。大規模な実験により、本フレームワークが既存の商用コードエージェント(CursorおよびAntigravity)やLLM(Qwen3およびGemini-3-Pro)を、シーン構築と物語的意図の伝達において大幅に上回ることを実証し、環境創造の民主化に向けたスケーラブルなソリューションを提供します。
長文脈対応の大規模言語モデル(LLM)の急速な発展により、検索拡張生成(RAG)の必要性に関する議論が再燃している。しかし実証研究によれば、長文脈推論には依然として「lost-in-the-middle」現象、高い計算コスト、複数文書推論におけるスケーラビリティの低さといった限界が存在する。一方、従来のRAGシステムは効率的であるものの、セマンティックノイズを導入し構造化された複数文書統合を支援できないフラットなチャンク単位検索に制約されている。 本論文ではFABLEを提案する。これはLLMを知識編成と検索の両方に統合した、フォレストベースの適応的双経路LLM拡張検索フレームワークである。FABLEはマルチグラニュラリティの意味構造を持つLLM拡張型階層的フォレスト索引を構築し、LLM誘導型階層トラバーサルと構造認識伝播を組み合わせた双経路戦略により細粒度な証拠取得を実現する。さらに明示的なバジェット制御により適応的な効率性のトレードオフを可能にする。 大規模な実験により、FABLEが常にSOTAのRAG手法を凌駕し、最大94%のトークン削減を達成しながら全文脈LLM推論と同等の精度を達成することが実証された。これは長文脈LLMが構造化検索の必要性を軽減するどころかむしろ増幅することを示している。
近年、大規模言語モデルに伴う安全性リスクが顕在化し、有害コンテンツの生成を抑制する必要性が緊急の課題となっている。LLM安全性アライメントの主流パラダイムは通常、敵対的プロンプト生成を行う攻撃役、安全防御を行う防御役、応答評価を行う評価役の3役割が連携する枠組みを採用している。本論文では、TriPlay-RLと名付けた閉ループ強化学習フレームワークを提案する。これは3役割間の反復的かつ共進化的な協調を可能とし、手動アノテーションをほぼゼロに抑えている。実験結果では、攻撃役は敵対的有效性を20%-50%向上させながら高い出力多様性を維持し、防御役は一般的な推論能力を劣化させることなく安全性性能を10%-30%向上させ、評価役は反復を通じて細粒度の判断能力を継続的に洗練し、不安全な応答・単純な拒否・有用な指示応答を精度よく識別できることが示された。全体として、本フレームワークは統一的な学習ループ内での継続的共進化を実現し、LLM安全性アライメントの効率的かつスケーラブルなパラダイムを確立するものである。
大規模言語モデル(LLM)のスケーリングは限界に直面している。モデルの幅を広げても収穫逓減が生じ、文脈長を延ばしても本質的な表現力は向上しない。一方、深さ方向のスケーリングは理論上優れた表現力を提供するが、現在のTransformerアーキテクチャでは極端な深さでの安定した学習が困難である。本研究では、大規模化における不安定性から現代のLLMではPre-LNに置き換えられたPost-LayerNorm(Post-LN)の定式化を再検討する。Post-LNの主要な失敗モードは、ResNetスタイルの残差経路に起因しており、深層ネットワークで勾配消失を引き起こすことを明らかにする。我々は、この残差経路をHighwayスタイルの接続に置き換えたPost-LN Transformer「Keel」を提案する。この修正により、残差分岐を通じた勾配の流れが維持され、上位層から下位層への信号消失が防止される。従来手法とは異なり、Keelは特殊な初期化や複雑な最適化手法を必要とせず、極深度での安定した学習を可能にする。Keelは1000層を超える深さで頑健に学習し、Pre-LNと比較してパープレキシティと深さスケーリング特性を一貫して改善する。これらの知見は、Highwayスタイルの接続と組み合わせたPost-LNが、深層スケーラブルなLLM構築のための簡潔かつ効果的な基盤を提供し、将来の無限深度アーキテクチャの可能性を開くことを示唆している。
対話モデルのアライメントにおいて大きな進展が見られるにもかかわらず、大規模言語モデル(LLM)は有害な振る舞いを引き起こす敵対的攻撃に対して脆弱性を残している。活性化ステアリング技術は推論時介入手法として有望であるが、既存手法には重大な限界がある:活性化加算は係数の慎重な調整を必要とし層ごとのノルム変動に敏感であり、方向性 ablation は二値的な制御しか提供しない。Angular Steering に関する最近の研究は2D部分空間内の回転による連続制御を導入するが、その実用的実装はノルム保存を破り、分布シフトと生成崩壊を引き起こす(特に70億パラメータ未満のモデルで顕著)。本論文では Selective Steering を提案し、以下の二つの革新的手法によりこれらの課題に対処する:(1)活性化分布の完全性を維持する数学的に厳密なノルム保存回転定式化、(2)特徴表現が逆符号のクラスアライメントを示す層にのみステアリングを適用する識別的な層選択。9つのモデルによる実験では、Selective Steering が従来手法より5.5倍高い攻撃成功率を達成し、パープレキシティ違反ゼロ、標準ベンチマークでの約100%の能力維持を実証した。本手法は制御可能かつ安定したLLM振る舞い変更のための原理的で効率的な枠組みを提供する。コード:https://github.com/knoveleng/steering
現代のデータ並列(DP)訓練は、バランスの取れたワークロード下ではシンプルで効率的であることから、パラメータサーバ(PS)よりも集団通信を重視している。しかし、大規模言語モデル(LLM)の事後訓練では、系列長の高い分散により、バランスの取れたワークロードという前提が成り立たなくなる。不均衡なワークロード下では、集団通信は同期の障壁を生み出し、ワークロードが小さいデバイスの利用効率低下を招く。この訓練動態の変化により、不均衡に対する頑健性という観点からPSパラダイムの再評価が求められている。本研究では、オンデマンド通信(ODC)を提案する。ODCは、集団的なall-gatherおよびreduce-scatterを直接的なポイントツーポイント通信に置き換えることで、PSを完全分散データ並列(FSDP)に適応させる。FSDPと比較して、ODCは同期の障壁を層ごと1回からミニバッチごと1回に削減し、各デバイスのワークロードを分離するため、処理の速いワーカーが待機状態にならない。また、ミニバッチレベルでのよりシンプルで効果的な負荷分散を可能にする。多様なLLM事後訓練タスクにおいて、ODCは一貫してデバイス使用率と訓練スループットを向上させ、標準的なFSDPと比べて最大36%の高速化を達成した。これらの結果は、ODCがLLM事後訓練において広く見られる不均衡なワークロードに極めて適合していることを示している。ODCの実装およびFSDPとの統合は、https://github.com/sail-sg/odc で公開されている。
我々はSimpleSegを提案する。これは、マルチモーダル大規模言語モデル(MLLM)にネイティブなピクセルレベル知覚を付与する、驚くほど単純でありながら極めて効果的なアプローチである。本手法はセグメンテーションを単純な系列生成問題として再定義する:モデルは物体輪郭を描く点群(テキスト座標)の系列を言語空間内で直接予測する。高精度を実現するため、IoUベースの報酬を用いた強化学習が点系列を正解輪郭に合致するよう調整する、2段階のSFtoRL学習パイプラインを導入する。標準的なMLLMアーキテクチャには、特殊な構造を追加せずとも解放可能な、低レベル知覚に対する強力な内在能力が備わっていることを見出した。セグメンテーションベンチマークにおいて、SimpleSegは複雑なタスク特化型設計に依存する手法に比肩し、しばしば凌駕する性能を達成する。本成果は、精密な空間理解が単純な点予測から創発し得ることを示し、補助コンポーネントの必要性への通説に挑戦するとともに、より統一的で高機能な視覚言語モデルへの道を開くものである。ホームページ:https://simpleseg.github.io/
近年、査読中の論文、プレプリント、あるいは既発表の論文において、実在する研究に対応しない虚偽の引用や参考文献が頻繁に観察されるようになっている。このような虚偽の引用は科学の信頼性に対する深刻な懸念材料である。採録論文に出現した場合、学会の信頼性にも悪影響を及ぼしうる。本研究では、こうした虚偽の引用を「HalluCitation」と呼び、その蔓延状況と影響を体系的に調査する。ACL、NAACL、EMNLPにおいて2024年と2025年に発表された全ての論文(本会議、Findings、ワークショップ論文を含む)を分析した。その結果、約300本の論文に少なくとも1件のHalluCitationが含まれており、その大半が2025年に発表されたことが明らかになった。特に、最も最近の学会であるEMNLP 2025ではこれらの論文の半数が確認され、問題が急増している実態が示された。さらに、EMNLP 2025では本会議及びFindings採録論文100本以上が該当し、信頼性に影響を及ぼしている。
拡散モデルは最先端の性能を達成するが、人間の選好や意図に合致した出力を生成できず、審美性に欠け意味論的一貫性の低い画像が生じる場合が多い。既存のアライメント手法は困難なトレードオフを伴う:ファインチューニング手法は報酬の過最適化による多様性の喪失に悩まされ、テスト時スケーリング手法は計算コストが大きく最適化不足になりがちである。これらの課題を解決するため、我々は効率的かつ効果的なテスト時アライメントを実現するハイパーネットワークを訓練する新規フレームワークHyperAlignを提案する。HyperAlignは潜在状態の修正ではなく、低ランク適応重みを動的に生成し、拡散モデルの生成演算子を変調する。これにより、入力潜在変数・タイムステップ・プロンプトに基づいてノイズ除去軌道を適応的に調整し、報酬条件付きアライメントを実現する。ハイパーネットワークの適用頻度により性能と効率のバランスが異なる複数のHyperAlign変種を導入する。さらに、報酬ハッキングを軽減するため、選好データで正則化された報酬スコア目的関数を用いてハイパーネットワークを最適化する。Stable DiffusionやFLUXを含む複数の拡張生成パラダイムでHyperAlignを評価した結果、意味論的一貫性と視覚的魅力の向上において、既存のファインチューニング及びテスト時スケーリング手法を大幅に上回る性能を示した。
ベンチマークは大規模言語モデル(LLM)の開発進捗を追跡する重要なツールであるが、データセットと評価手法の不正確さがその有効性を常に損なっている。本論文では、Omni-MATHデータセットを手動で修正したOmni-MATH-2を提示する。これは、精選された厳密解答用サブセット(n=4181)とタグ付けされた非標準サブセット(n=247)で構成される。各問題はLaTeXのコンパイル可能性、解答可能性、検証可能性を確保するため監査され、不足している図や情報の追加、証明・推定・画像を要する問題へのタグ付け、不要な要素の除去が行われた。このプロセスにより、データセット起因のノイズが大幅に削減され、モデル性能のより正確な評価が可能となる。 注釈付きデータセットにより、GPT-5 miniと従来のOmni-Judgeを比較することで、評価器起因のノイズの評価も可能になった。その結果、精選サブセットとタグ付きサブセットの両方において、評価器間に大きな不一致が認められた。専門家による注釈分析によれば、評価器間不一致事例の96.4%においてOmni-Judgeが誤っており、ベンチマークが飽和するはるか以前から、モデル間の能力差を識別できないことが示された。問題が難しくなるにつれ、評価器の誤差がモデル間の真の差異を覆い隠すのを防ぐためには、ますます高精度な評価器が不可欠であることがわかる。最後に、タグ付き問題サブセットにおいて、現在の失敗モードを特定できた評価器は一つもなかった。これは、モデル性能の正確なベンチマークを構築するには、データセットの品質と評価器の信頼性の両方が重要であることを示している。
Gタンパク質共役型受容体(GPCR)は多様な生理的プロセスを制御し、現代薬理学の中心的存在である。しかし、受容体の活性化は直接的な結合親和性ではなく複雑なアロステリック効果に起因することが多く、従来のアッセイ法は速度が遅くコストが高い上にこれらの動的性質を捕捉するよう最適化されていないため、GPCRモジュレーターの創出は依然として困難である。本論文では、GPCRモジュレーター探索のために特別に開発された深層学習フレームワーク「GPCR-Filter」を提案する。我々は実験的に検証された90,000以上の高品質なGPCR-リガンドペアからなるデータセットを構築し、学習と評価の強固な基盤を提供した。GPCR-Filterは、高精度なGPCR配列表現のためのESM-3タンパク質言語モデルと、リガンド構造を符号化するグラフニューラルネットワークを統合し、注意機構に基づく融合メカニズムにより受容体-リガンド間の機能的関係を学習する。複数の評価設定において、GPCR-Filterは常に最先端の化合物-タンパク質相互作用モデルを凌駕し、未見の受容体やリガンドへの強い一般化性能を示した。特に、本モデルは5-HT1A受容体のマイクロモル濃度レベルのアゴニストを、異なる化学骨格から見事に同定した。これらの結果は、GPCR-FilterがGPCRモジュレーター探索における拡張性と有効性を兼ね備えた計算手法であり、複雑なシグナル伝達系に対するAI支援型創薬を推進するものであることを示している。
深度センサーはロボットプラットフォームに広く搭載されており、高速かつ高精細な深度シミュレーション技術の進歩により、深度観測データで訓練されたロボットポリシーが多様なタスクにおいて強固なシミュレーションtoリアル転移を実現している。しかしながら、深度モダリティの表現学習は、大規模基盤モデルが最新技術を定義するRGBモダリティと比較して未開拓の領域である。この課題に対処するため、我々はロボット応用向けに深度画像のみで完全に訓練された自己教師あり基盤モデルDeFMを提案する。選別された6000万枚の深度画像データセットに対しDINOスタイルの自己蒸留目標を用いることで、DeFMは多様な環境・タスク・センサーに汎化する幾何学的および意味的表現を学習する。複数スケールにわたる計量認識を保持するため、新規の入力正規化戦略を導入する。さらに、リソース制約の厳しいロボットシステムに適したコンパクトモデルへDeFMを蒸留する。深度ベースの分類、セグメンテーション、ナビゲーション、移動、把持のベンチマーク評価において、DeFMは最高水準の性能を達成し、シミュレーションから実世界環境への強力な汎化能力を示す。我々は全ての事前学習モデルを公開し、タスク固有のファインチューニングなしで深度ベースのロボット学習に即座に利用可能とする。Webページ: https://de-fm.github.io/
チーム紛争の解決には、タスク固有の能力だけでなく、共通基盤を見出し合意形成を図る社会的知性が不可欠である。AIエージェントが複雑な作業で協働する機会が増える中、効果的なチームメンバーとして機能するためには調整能力の習得が必須となる。しかし我々は、現状のエージェントにはこの能力が欠けていると仮説を立てた。これを検証するため、4つのプログラミング言語における12のライブラリにわたる600以上の協調的コーディング課題からなるベンチマーク「CooperBench」を開発した。各課題では、2つのエージェントに独立実装可能だが調整不足で衝突し得る異なる機能を割り当てる。課題は専門家が作成したテスト付きの実際のオープンソースリポジトリに基づく。最先端のコーディングエージェントを評価した結果、調整の呪いと呼ばれる現象を確認した:エージェントは協働時の成功率が、両タスクを単独で実行した場合に比べ平均30%低下した。これはチームメンバー追加で生産性が向上する人間のチームと著しい対照をなす。分析により3つの主要課題が明らかになった:(1) 曖昧・タイミング不良・不正確なメッセージによる通信路の渋滞、(2) 有効な通信があっても約束からの逸脱、(3) 他エージェントの計画や通信について誤った期待を抱く傾向。大規模シミュレーションでは、役割分担・リソース分割・交渉といった稀だが興味深い創発的調整行動も観察された。本研究は協調的コーディングの新たなベンチマークを提供するとともに、個々のエージェント能力の追求から社会的知性の開発へとパラダイム転換を促すものである。
Verilogの設計サイクルは本質的に人的負荷が高く、広範なドメイン知識を必要とする。大規模言語モデル(LLM)は自動化への有望な道筋を示すが、限られた学習データと内在的な逐次推論では、ハードウェアシステムに固有の厳密な形式論理と並行性を捉えられない。これらの障壁を克服するため、我々はEvolVEを提案する。これはチップ設計タスクにおいて複数の進化戦略を分析する初のフレームワークであり、モンテカルロ木探索(MCTS)が機能的正しさの最大化に優れ、アイデア誘導型改良(IGR)が最適化に卓越することを明らかにした。さらに構造化テストベンチ生成(STG)を活用して進化プロセスを加速する。複雑な最適化ベンチマークの不足に対処するため、全国集積回路コンテストに由来する産業規模の問題を対象としたIC-RTLを導入した。評価では、EvolVEがVerilogEval v2で98.1%、RTLLM v2で92%を達成し新たなstate-of-the-artを確立。さらに産業規模のIC-RTLスイートでは、ハフマン符号で最大66%、全問題の幾何平均で17%のPower-Performance-Area(PPA)積削減を実現し、コンテスト参加者による参照実装を凌駕した。IC-RTLベンチマークのソースコードはhttps://github.com/weiber2002/ICRTLで公開されている。
継続学習、すなわちモデルが既存の能力を劣化させることなく新たなスキルや知識を獲得する能力は、基盤モデルにおける根本的な課題であり続けている。方策オン型強化学習は忘却を軽減できるが、多くの場合利用不可能な明示的な報酬関数を必要とする。専門家による実演からの学習という主要な代替手段は、本質的に方策オフ型である教師ありファインチューニング(SFT)が主流である。本研究では、実演データから直接方策オン型学習を可能にする簡便な手法、自己蒸留ファインチューニング(SDFT)を提案する。SDFTは、実演条件付きモデルを自身の教師として利用することで文脈内学習を活用し、新たなスキルを獲得しながら事前の能力を保持する方策オンレベルの訓練信号を生成する。スキル学習と知識獲得タスクにわたる実験において、SDFTは一貫してSFTを上回り、新規タスクの精度を高めつつ、破滅的な忘却を大幅に軽減した。逐次学習実験では、SDFTにより単一モデルが性能の後退なく時間の経過とともに複数のスキルを蓄積できることが示され、実演からの継続学習に向けた実用的な道筋として方策オン型蒸留の有効性が確立された。