翻訳付きの日次キュレーションされたAI研究論文
拡散言語モデルは高速な並列生成の可能性を秘めている一方、自己回帰(AR)モデルは因果構造が言語モデリングに自然に適合するため、一般に品質面で優れています。これにより根本的な疑問が生じます:高いスループット、高いGPU利用率、そしてARモデル並みの品質を両立する相乗効果は達成可能か?既存手法はこれら二つの側面を効果的に両立できておらず、ARモデルを優先して弱いモデルで逐次起草する(投機的デコーディング)ことで起草効率が低下するか、あるいは拡散モデルに何らかの左から右への(AR的な)デコーディングロジックを適用するものの、品質劣化が生じ、並列化の可能性を損なっています。本論文ではTiDARを提案します。これは、拡散モデルでトークンを起草(Thinking)し、自己回帰的に最終出力をサンプリング(Talking)するシーケンスレベルのハイブリッドアーキテクチャで、特別に設計された構造化アテンションマスクを用いて単一のフォワードパス内で処理を完結します。この設計はGPUの計算密度を最大限に活用し、起草能力と検証能力の強力なバランスを実現します。さらにTiDARは、スタンドアロンモデルとしてサービス運用に適した(低オーバーヘッドな)設計となっています。1.5Bおよび8Bスケールの生成タスクと尤度タスクにおいて、ARモデル、投機的デコーディング、拡散モデル変種に対してTiDARを詳細に評価しました。並列起草・サンプリングと正確なKVキャッシュサポートにより、TiDARは測定スループットで投機的デコーディングを上回り、DreamやLladaなどの拡散モデルを効率性と品質の両面で凌駕します。特に注目すべきは、TiDARがARモデルとの品質差を初めて解消しつつ、毎秒4.71倍から5.91倍ものトークンを生成できる点です。
我々は、挑戦的な3Dオープンワールド環境において、数時間に及ぶ複雑なミッションをリアルタイムで完遂可能な汎用エージェントを開発するための初のオープンレシピ「Lumine」を紹介する。Lumineは、視覚言語モデルを基盤としたエンドツーエンドの手法で知覚、推論、行動を統合する人間的なインタラクションパラダイムを採用している。5Hzで生のピクセルデータを処理し、30Hzのキーボード・マウス操作を生成し、必要に応じて適応的に推論を呼び出す。『原神』で訓練されたLumineは、人間レベルの効率で5時間に及ぶモンドストのメインストーリーを完遂し、自然言語の指示に従って、3Dオープンワールド探索と2D GUI操作の両方において、収集、戦闘、パズル解決、NPCインタラクションなど幅広いタスクを実行する。ドメイン内の性能に加えて、Lumineは強力なゼロショットクロスゲーム汎化能力を示す。微調整なしで、『鳴潮』における100分のミッションと『崩壊:スターレイル』の第1章5時間を完遂する。これらの有望な結果は、Lumineが異なる世界とインタラクション力学において有効であることを強調し、オープンエンド環境における汎用エージェントへの具体的な一歩を示している。
ヒト化合物同定は創薬初期段階における中核的課題であり、従来は多大な実験リソースを要してきました。人工知能、特に大規模言語モデル(LLM)の最近の進歩により、コスト削減と効率向上を実現する仮想スクリーニング手法が可能になっています。しかし、これらのツールの複雑化に伴い、ウェットラボ研究者による利用が制限される問題が生じています。マルチエージェントシステムは、LLMの解釈可能性と専門モデル・ツールの精密性を組み合わせることで、この課題に対する有望な解決策を提供します。本研究では、自然言語クエリからカスタマイズされたヒト化合物同定パイプラインを構築・実行するマルチエージェントシステム「MADD」を提案します。MADDは4つの連携エージェントを採用し、デノボ化合物生成とスクリーニングにおける主要なサブタスクを処理します。7つの創薬ケースでMADDを評価し、既存のLLMベースソリューションに対する優位性を実証します。MADDを用いて、5つの生物学的標的に対するAIファースト創薬デザインの先駆的応用を実現し、同定されたヒト分子を公開します。最後に、300万以上の化合物に対するクエリ-分子ペアとドッキングスコアから成る新規ベンチマークを導入し、創薬デザインのエージェント化の未来に貢献します。
拡散モデルに基づく動画生成は現実的な映像を生成可能だが、既存の画像・テキスト条件付けでは精密な動きの制御が困難である。従来の動作条件付き合成手法は、計算コストが高く適用範囲が限定されるモデル固有のファインチューニングを要する場合が多かった。本研究では、画像から動画への拡散モデル(I2V)において、訓練不要で即応可能な動作・外観制御フレームワーク「Time-to-Move(TTM)」を提案する。核心となる着想は、切り貼り操作や深度ベース再投影などユーザーフレンドリーな操作で得られる大まかな参照アニメーションを活用することにある。SDEditが画像編集に粗いレイアウト手がかりを利用する手法に着想を得て、我々はこうした粗いアニメーションを動きの手がかりとして扱い、そのメカニズムを動画領域に適応させる。画像条件付けで外観を保持しつつ、領域依存的な戦略「デュアルクロックデノイジング」を導入。動作指定領域では強固な整合性を強制し、他の領域では柔軟性を許容することで、ユーザ意図への忠実性と自然な動態のバランスを実現する。このサンプリング過程の軽量な修正は、追加の訓練や実行時コストを伴わず、あらゆる基盤モデルと互換性がある。物体動作とカメラ動作のベンチマークによる大規模実験により、TTMが実写性と動作制御の面で訓練ベースの既存手法に匹敵または凌駕することを示す。さらにTTMは、ピクセルレベル条件付けによる精密な外観制御という独自の機能を実現し、テキストプロンプトのみの限界を超える。動画例とコードはプロジェクトページ(https://time-to-move.github.io/)で公開中。
我々はMotif-2-12.7Bを紹介する。これは、アーキテクチャの革新とシステムレベルの最適化を組み合わせることで、大規模言語モデルの効率フロンティアを押し広げる新しいオープンウェイト基盤モデルである。限られた計算予算下でのスケーラブルな言語理解と堅牢な指示汎化を目的として設計されたMotif-2-12.7Bは、Motif-2.6Bを基盤とし、Grouped Differential Attention(GDA)を統合することで、信号とノイズ制御の注意経路を分離し表現効率を改善している。本モデルは、言語、数学、科学、プログラミングなど多様な領域にわたる5.5兆トークンで、データ構成比を段階的に変更するカリキュラム駆動型データスケジューラを使用して事前学習されている。学習システムは、MuonClipオプティマイザと、融合PolyNorm活性化関数およびParallel Muonアルゴリズムを含むカスタム高性能カーネルを活用し、大規模分散環境においてスループットとメモリ効率の大幅な向上を実現している。学習後処理では、一般的な指示への遵守、合成的理解、言語的精度を段階的に強化する3段階の教師ありファインチューニングパイプラインを採用している。Motif-2-12.7Bは、多様なベンチマークで競争力のある性能を示し、慎重に設計されたアーキテクチャのスケーリングと最適化された学習設計が、はるかに大規模なモデルの能力に匹敵し得ることを実証している。
大規模言語モデル(LLM)に外部ツールを組み込むことで、複雑な多段階タスクの実行が可能となる。しかし、ツール学習は現在、データ生成とモデル学習が分離された非対話的な静的合成データパイプラインによって妨げられている。この手法では、モデルの特定の弱点に適応的に焦点を当てることができず、ノイズの多いラベルが残存するため、学習効率が低下する。本研究では、データ合成とモデル学習を緊密に統合し、このループを閉じる完全自動化されたモデル認識型データ進化フレームワーク「LoopTool」を提案する。LoopToolは、3つの連携モジュールを通じてデータとモデルを反復的に改善する:(1)貪欲能力プロービング(GCP)はモデルの習得済み能力と失敗能力を診断し、(2)判断誘導型ラベル検証(JGLV)はオープンソースの判定モデルを用いて注記エラーを発見・修正し、データセットを段階的に浄化する。(3)エラー駆動型データ拡張(EDDE)は特定された失敗に基づいて新たな難易度の高いサンプルを生成する。この閉ループプロセスはコスト効率の良いオープンソースエコシステム内で動作し、高価なクローズドソースAPIへの依存を排除する。実験により、LoopToolで学習した8Bモデルが、32Bのデータ生成モデルを大幅に上回り、BFCL-v3およびACEBenchベンチマークにおいて同規模モデルとして新たなstate-of-the-artを達成することを示す。本研究は、閉ループ型の自己改善データパイプラインがLLMのツール利用能力を劇的に強化できることを実証する。
Vision-Language-Action(VLA)モデルは汎用ロボットマニピュレーションにおいて強力な可能性を示しているが、専門家による実演データへの依存性が失敗からの学習や自己修正の能力を制限している。強化学習(RL)は物理環境との自己改善型相互作用を通じてこれらの課題に対処するが、実機における高いサンプル複雑性が問題となる。本研究では、実環境との相互作用を伴わないオンライン方策VLA強化学習のための理論的枠組みであるWorld-Model-based Policy Optimization(WMPO)を提案する。広く用いられている潜在世界モデルとは対照的に、WMPOはピクセルベースの予測に焦点を当て、ウェブスケール画像で事前学習されたVLA特徴量と「想像」軌跡を整合させる。特に重要な点として、WMPOは方策にオンラインGRPOを可能にし、一般的に用いられるオフライン方策手法よりも優れた性能を発揮する。シミュレーションと実機環境の両方における大規模実験により、WMPOが(i)サンプル効率を大幅に改善し、(ii)より強力な総合性能を達成し、(iii)自己修正といった創発的振る舞いを示し、(iv)頑健な汎化能力と生涯学習能力を発揮することを実証した。
ユーザーインターフェース(UI)開発では、デザインモックアップを機能するコードに変換する作業が必要ですが、このプロセスは反復的で労力を要するものとなっています。最近のVision-Languageモデル(VLM)はUIからコードへの自動生成を実現していますが、生成されるのは静的なHTML/CSS/JavaScriptのレイアウトであり、インタラクティブ性に欠けています。この課題に対処するため、我々はインタラクティブなUIからコードへの生成と検証を実現する初のエージェント型フレームワーク「WebVIA」を提案します。本フレームワークは3つのコンポーネントで構成されます:1)複数状態のUIスクリーンショットを取得する探索エージェント、2)実行可能なインタラクティブコードを生成するUI2Codeモデル、3)インタラクティブ性を検証する検証モジュールです。実験により、WebVIAエージェントが汎用エージェント(例:Gemini-2.5-Pro)よりも安定かつ正確なUI探索を実現することが示されました。さらに、ファインチューニングしたWebVIA-UI2Codeモデルは、実行可能でインタラクティブなHTML/CSS/JavaScriptコードの生成において大幅な改善を示し、インタラクティブおよび静的なUI2Codeベンチマークの両方でベースモデルを凌駕する性能を発揮しました。コードとモデルはhttps://zheny2751-dotcom.github.io/webvia.github.io/(https://webvia.github.io)で公開しています。
マルチモーダル大規模言語モデル(MLLMs)は、視覚言語質問応答タスクにおいて顕著な能力を発揮している。しかしながら、これらのモデルは数学的問題解決のような複雑な推論タスクの達成においてしばしば課題に直面する。従来の研究は専門的な数学データセットに対するファインチューニングに焦点を当ててきた。しかし、これらのデータセットは一般的に教師モデルから直接抽出されたものであり、静的な推論パターンのみを捉え、学生モデルと比較して大きな隔たりを残している。この固定化された教師由来データセットへの依存は、学習データの範囲を超えた新規またはより複雑な問題にモデルが適応する能力を制限するだけでなく、頑健な一般化に必要な反復的な深みを欠いている。これらの制限を克服するため、我々はMLLMsのための数学的自己進化フレームワークである\methodを提案する。従来のワンショットファインチューニングのパラダイムとは対照的に、\methodは推論、反省、報酬ベースのフィードバックからなるサイクルを通じてモデルを反復的に洗練させる。具体的には、前段階の推論から得られた正しい推論経路を組み込み、専門的な結果報酬モデル(ORM)からの反省を統合することによる反復的ファインチューニングを活用する。\methodの有効性を検証するため、一連の挑戦的ベンチマークで評価を行い、バックボーンモデルを大幅に上回る性能向上を示す。特にMathVL-testにおける実験結果は、オープンソースのマルチモーダル数学推論モデルQVQを凌駕している。コードとモデルはhttps://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/で公開されている。
Webエージェントは、環境固有のタスクと実演データの不足により、新しいウェブサイトへの適応に苦戦している。近年、この課題解決に向けて合成データ生成の手法が探求されているが、生成されたタスクには実行不能な虚偽内容が含まれる、収集された軌跡には冗長や不一致の行動ノイズが混入するなど、データ品質の問題が生じている。本論文では、タスクと軌跡の二重精緻化を通じて合成データの品質向上を目指す完全合成監督フレームワーク「SynthAgent」を提案する。本手法ではまず、ウェブ要素の分類別探索を通じて多様なタスクを合成し、対象環境の効率的な網羅性を確保する。軌跡収集段階では、実際の観測値との矛盾を検出したタスクを動的に修正し、タスクの一貫性を保ちつつ虚偽内容を軽減する。収集後は大域的文脈に基づく軌跡精緻化を実施し、ノイズや不一致の可能性を低減する。最終的に、精緻化された合成データを用いてオープンソースのWebエージェントを対象環境に適応させるためファインチューニングを行う。実験結果では、SynthAgentが既存の合成データ手法を凌駕することを示し、高品質な合成監督の重要性を実証する。コードはhttps://github.com/aiming-lab/SynthAgent で公開予定である。
拡散モデルは、分類器不要ガイダンス(CFG)のようなガイダンス手法を用いることで、強力な生成性能を示している。これらの手法は、サンプリング軌道を変更することで出力品質を向上させる。一般的に、ターゲットとなる出力を改善するために、無条件出力など別の出力を意図的に劣化させる。これは、恒等混合やぼかし条件といったヒューリスティックな摂動関数を用いて行われる。しかし、これらのアプローチには原理的な基盤が欠けており、手動で設計された歪みに依存している。 本研究では、敵対的シンクホーン注意ガイダンス(ASAG)を提案する。これは、最適輸送の観点から拡散モデル内の注意スコアを再解釈し、シンクホーンアルゴリズムを用いて意図的に輸送コストを攪乱する新規手法である。ASAGは、注意機構を単純に破壊するのではなく、セルフアテンション層内に敵対的コストを注入し、クエリとキー間の画素単位の類似性を低減する。この意図的な劣化は、誤った注意のアラインメントを弱め、条件付き及び無条件のサンプル品質の向上につながる。ASAGは、テキストから画像への拡散において一貫した改善を示し、IP-AdapterやControlNetなどの下流アプリケーションにおける制御性と忠実度を高める。本手法は軽量でプラグアンドプレイが可能であり、モデルの再学習を必要とせずに信頼性を向上させる。
OpenAI Codex、Claude Code、Cursorなどのエージェント型コーディングツールは、ソフトウェアエンジニアリングの風景を一変させつつある。これらのAI駆動システムは、複雑な開発タスクを自律的に計画・実行する自律的なチームメイトとして機能する。特に、外部から観測可能な動作を変更せずに内部的なコード品質を向上させる持続可能なソフトウェア開発の要であるリファクタリングにおいて、エージェントは能動的な参加者となった。しかしながら、その利用が広まる一方で、実践においてエージェントによるリファクタリングがどのように利用されているか、人間主導のリファクタリングと比較してどう異なるか、コード品質にどのような影響を与えるかについて、実証的な理解が決定的に欠如している。この実証的ギャップを埋めるため、本稿では実世界のオープンソースJavaプロジェクトにおけるAIエージェント生成リファクタリングに関する大規模調査を実施する。AIDevデータセットから得られた12,256のプルリクエストと14,988のコミットに含まれる15,451のリファクタリングインスタンスを分析した。実証分析の結果、この開発パラダイムにおいてリファクタリングが一般的かつ意図的な活動であり、エージェントがコミットの26.1%で明示的にリファクタリングを対象としていることが明らかになった。リファクタリングタイプの分析から、エージェントの作業は、変数型の変更(11.8%)、パラメータ名変更(10.4%)、変数名変更(8.5%)といった、低水準で一貫性志向の編集が支配的であり、人間のリファクタリングで一般的な高水準な設計変更よりも局所的な改善を好む傾向が示された。さらに、エージェントによるリファクタリングの動機は、保守性(52.5%)と可読性(28.1%)に集中しており、内部品質への関心が圧倒的である。加えて、コード品質メトリクスの定量的評価により、エージェントによるリファクタリングは、特に中規模の変更において、構造的メトリクスに統計的に有意ではあるが小幅な改善をもたらし、クラスサイズと複雑性を減少させることが示された(例:Class LOC 中央値 Δ = -15.25)。
言語モデルは驚異的な自然言語生成能力を示すが、幻覚(ハルシネーション)に陥りやすく、統語的に一貫した応答を生成しながらも事実に反する情報を生成する問題が残っている。本研究では、構造化された知識グラフに対する形式的検証により真実性の制約を強制することで、言語モデルの幻覚を抑制することを目的としたアーキテクチャ上の解決策であるLicensing Oracleを提案する。データスケーリングやファインチューニングに依存する統計的アプローチとは異なり、Licensing Oracleはモデルの生成プロセスに決定的な検証ステップを組み込み、事実的に正確な主張のみが行われることを保証する。Licensing Oracleの有効性を評価するため、ベースラインの言語モデル生成、事実想起のためのファインチューニング、不回答行動のためのファインチューニング、検索拡張生成(RAG)など、いくつかの最先端手法と比較する実験を行った。その結果、RAGやファインチューニングは性能を向上させるものの、幻覚を完全には排除できないことが明らかとなった。対照的に、Licensing Oracleは完全な不回答精度(AP = 1.0)とゼロの誤回答(FAR-NE = 0.0)を達成し、有効な主張のみが89.1%の精度で生成されることを保証した。この研究は、Licensing Oracleのようなアーキテクチャ上の革新が、構造化された知識表現が存在する領域における幻覚に対して、必要十分な解決策を提供し、統計的手法では達成できない保証を提供することを示している。Licensing Oracleは事実ベースの領域における幻覚への対処に特化して設計されているが、そのフレームワークは将来のAIシステムにおける真実性制約付き生成の基盤を築き、信頼性が高く認識論的に基礎付けられたモデルへの新たな道筋を提供するものである。