翻訳付きの日次キュレーションされたAI研究論文
画像生成と編集技術の最近の進歩は、バーチャル試着に新たな可能性をもたらしました。しかし、既存の手法は複雑な実世界の要求に十分対応できていません。本論文では、堅牢性、写実性、汎用性、高い効率性を兼ね備えた商用レベルのバーチャル試着システム「Tstars-Tryon 1.0」を提案します。第一に、極端なポーズ、厳しい照明変動、モーションブラーといった実世界の困難な条件においても、高い成功率を維持します。第二に、衣服の質感、素材特性、構造的特徴を忠実に再現し、AI生成特有のアーティファクトを大幅に抑制した、微細なディテールを持つ写実的な結果を生成します。第三に、アパレル試用に留まらず、8つのファションカテゴリにわたる最大6枚の参照画像を用いた柔軟なマルチ画像合成をサポートし、人物のアイデンティティと背景の調整制御を実現します。第四に、商用展開における遅延のボトルネックを克服するため、推論速度を徹底的に最適化し、シームレスなユーザー体験のためのほぼリアルタイム生成を実現しています。これらの機能は、エンドツーエンドのモデルアーキテクチャ、スケーラブルなデータエンジン、堅牢なインフラ、多段階トレーニングパラダイムから構成される統合システム設計によって実現されています。大規模な評価と製品展開により、Tstars-Tryon1.0が総合的に優れた性能を達成することを実証しました。今後の研究発展のために、包括的なベンチマークも公開しています。本モデルは淘宝アプリで産業規模で展開され、数百万ユーザーへの数千万リクエスト処理を担っています。
人間-物体インタラクション(HOI)動画の合成は、eコマース、デジタル広告、仮想マーケティングなどにおいて幅広い実用価値を有する。しかし、現在の拡散モデルは写真的なレンダリング能力を持つにもかかわらず、(i)手や顔などの敏感な領域の構造的安定性と、(ii)物理的に妥当な接触(例:手と物体の相互貫通の回避)において未だ頻繁に失敗する。本論文では、人物参照画像、製品参照画像、テキストプロンプト、音声を条件としたHOI動画合成のためのエンドツーエンドフレームワークであるCoInteractを提案する。CoInteractは、Diffusion Transformer(DiT)バックボーンに組み込まれた2つの相補的な設計を導入する。第一に、空間的に監督されたルーティングによりトークンを軽量な領域特化エキスパートに振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、最小限のパラメータオーバーヘッドで微細な構造的忠実性を向上させる。第二に、RGB外観ストリームと補助的HOI構造ストリームを共同でモデル化し、インタラクション幾何学の事前知識を注入するデュアルストリーム訓練パラダイムであるSpatially-Structured Co-Generationを提案する。訓練時には、HOIストリームがRGBトークンに注意を向け、その監督信号が共有バックボーンの重みを正則化する。推論時には、HOIブランチは除去され、オーバーヘッドゼロのRGB生成を実現する。実験結果により、CoInteractが構造的安定性、論理的一貫性、インタラクションの現実性において既存手法を大幅に上回ることを実証する。
言語モデルエージェントシステムでは、一般的に反応的プロンプティングが用いられています。これは単一の指示によってモデルをオープンエンドな推論とツール使用の連鎖へ導く手法ですが、制御フローや中間状態が暗黙的となるため、エージェントの挙動を制御することが難しくなる可能性があります。LangGraph、DSPy、CrewAIなどのオーケストレーションフレームワークは明示的なワークフロー定義によって構造化を図っていますが、ワークフロー論理がPythonと密結合するため、エージェントの保守や修正が困難になります。本論文では、明示的な制御フローとモジュラー構造を持つLLMエージェントワークフローを定義するためのAgentSPEX(Agent Specification and Execution Language)を提案します。これに加えて、カスタマイズ可能なエージェントハーネスも提供します。AgentSPEXは型付きステップ、分岐とループ、並列実行、再利用可能なサブモジュール、明示的状態管理をサポートし、これらのワークフローは、ツールアクセス、サンドボックス化された仮想環境、チェックポイント機能、検証、ロギングを備えたエージェントハーネス内で実行されます。さらに、作成と検査のための同期化されたグラフビューとワークフロービューを備えたビジュアルエディタを提供します。深層研究および科学研究用の即時利用可能なエージェントを含め、7つのベンチマークでAgentSPEXを評価します。最後に、ユーザー調査を通じて、AgentSPEXが既存の一般的なエージェントフレームワークよりも解釈性とアクセシビリティに優れたワークフロー作成パラダイムを提供することを示します。
スパースビュー3D再構成は、カジュアルな撮影からシーンをモデリングするために不可欠であるが、非生成的再構成では依然として課題が多い。既存の拡散ベースの手法は新規視点の合成によってこの問題を緩和するが、多くの場合1つまたは2つの撮影フレームのみを条件付けとしており、幾何学的一貫性が制限され、大規模または多様なシーンへの拡張性が限定されている。我々はAnyReconを提案する。これは任意の順不同のスパース入力を用いた再構成のための拡張性のあるフレームワークであり、明示的な幾何学的制御を保持しつつ、柔軟な条件付け基数をサポートする。長距離条件付けをサポートするため、本手法は撮影ビューキャッシュを前置することで永続的なグローバルシーンメモリを構築し、時間的圧縮を除去して大きな視点変化下でもフレームレベル対応を維持する。優れた生成モデルに加えて、大規模3Dシーンにおいては生成と再構成の相互作用が極めて重要であることも明らかにした。そこで、明示的3D幾何メモリと幾何学駆動型撮影ビュー検索を通じて生成と再構成を結合する、幾何学を考慮した条件付け戦略を導入する。効率性を確保するため、4ステップの拡散蒸留とコンテキストウィンドウ疎注意を組み合わせ、二次計算量を削減する。大規模実験により、不規則な入力、大きな視点間隔、長い軌跡にわたるロバストで拡張性のある再構成を実証する。
テスト時学習(TTT)は、推論時にラベルなしテストインスタンスに対してモデルパラメータを適応させる手法であり、オフライン学習の限界を超えて継続的に能力を拡張する。初期の成果にもかかわらず、既存のLRM向けTTT手法は急速に頭打ちとなり、追加のテスト時計算資源の恩恵を受けない。外部キャリブレーションがない場合、政策モデルが進化するにつれて自己生成される報酬信号が次第に乖離し、性能の頭打ちと多様性の崩壊を同時に引き起こす。我々はTEMPOを提案する。これはラベル付きデータセットを用いた定期的な批評家キャリブレーションと、ラベルなし質問に対する政策改良を交互に実行するTTTフレームワークである。この交互手順を期待値最大化(EM)アルゴリズムを通じて形式化することで、従来手法が重要なキャリブレーション段階を省略した不完全な変種と解釈できることを明らかにする。この段階を再導入することで証拠下限(ELBO)が強化され、持続的な改善が可能となる。多様なモデルファミリー(Qwen3とOLMO3)と推論タスクにわたる実験で、TEMPOはOLMO3-7BをAIME 2024で33.0%から51.1%に、Qwen3-14Bを42.3%から65.8%に改善し、高い多様性を維持した。
大規模言語モデル(LLM)はコード生成において強力な成果を上げているが、GUIアプリケーション、特にゲームの生成能力については十分に研究されていない。既存のベンチマークは主にテストケースを通じて正確性を評価するが、GUIアプリケーションは対話的でイベント駆動型であり、一連のユーザー操作にわたる正しい状態遷移を必要とするため、この評価手法は不適切である。したがって、その評価は合格/不合格の結果だけでなく、インタラクションフローとUIロジックを考慮すべきである。この問題を研究するため、我々はPython、TypeScript、JavaScriptで書かれた43の多言語GUIアプリケーションから構築したリポジトリ対応ベンチマーク「PlayEval」を提案する。従来のGUIベンチマークがデスクトップ環境への適応が困難であったのに対し、PlayEvalは6つの主要GUIアプリケーションカテゴリを網羅し、コード生成評価を直接サポートする。さらに、k個生成された候補のうち少なくとも1つが論理エラーなくエンドツーエンドでプレイ可能かどうかを測定する指標「Play@k」を提案する。信頼性の高い評価を支援するため、タスク指向のGUIプレイスルーを実行し、論理違反を自動検出するLLMベースのエージェント「PlayTester」を開発した。10の最先端コードLLMを用いた実験では、高いコンパイル成功率にもかかわらずPlay@3がほぼゼロとなり、論理的に正しいGUIアプリケーション生成における重大な弱点が明らかになった。この課題に対処するため、リポジトリ対応のマルチエージェントフレームワーク「PlayCoder」を提案する。これはGUIアプリケーションコードを生成、評価、反復的に修正するクローズドループを実現する。PlayCoderはオープンソースおよびクローズドソースモデルにおいて、機能的正確性と意味的整合性の両方を大幅に改善し、最大38.1%のExec@3と20.3%のPlay@3を達成した。ケーススタディではさらに、従来の指標では見逃されていたサイレント論理バグを特定し、対象を絞った編集によって修正できることを示す。
パラメータ効率型ファインチューニング(PEFT)は、大規模言語モデル(LLM)の全パラメータファインチューニングにおける学習コストを、事前学習済みのバックボーンを固定したまま、タスク固有の少数のパラメータのみを学習することで削減する手法である。しかし、Low-Rank Adaptation(LoRA)のような既存の手法は、独立した低ランクの摂動を個々の重みに直接付加することで適応を実現しており、適応の局所的なパラメータ化をもたらす。本研究では、集中型PEFTフレームワークであるShadowPEFTを提案する。これは、深度共有のシャドウモジュールを通じて層レベルの洗練を行うものである。ShadowPEFTは各トランスフォーマー層において並列のシャドウ状態を維持し、それを繰り返し進化させることで、次第に豊富な隠れ状態を生成する。この設計により、適応は分散的な重み空間の摂動から、共有された層空間における洗練プロセスへと移行する。シャドウモジュールはバックボーンから分離されているため、深度を超えて再利用可能であり、独立して事前学習でき、必要に応じて分離モードで展開できるため、エッジコンピューティングシナリオに有益である。生成タスクと理解タスクのベンチマークによる実験では、ShadowPEFTが同程度の学習可能パラメータ予算のもとで、LoRAやDoRAに匹敵するか、あるいはそれを上回る性能を示した。シャドウ事前学習、クロスデータセット転移、パラメータスケーリング、推論レイテンシ、システムレベル評価に関する追加分析は、集中型の層空間適応が従来の低ランクPEFTに対して競争力と柔軟性を備えた代替手法であることを示唆している。
現在、実行可能なビジュアルワークフローは実世界の産業導入において主流のパラダイムとして台頭し、高い信頼性と制御性を提供している。しかし、現状ではこのようなワークフローはほぼ完全に手作業によるエンジニアリングで構築されている:開発者はワークフローを注意深く設計し、各ステップのプロンプトを作成し、要件の変化に応じてロジックを繰り返し修正する必要があり、開発コストが高く、時間がかかり、エラーが発生しやすい。大規模言語モデルがこのマルチラウンドの対話プロセスを自動化できるかどうかを研究するため、我々は自然言語から直接実行可能なビジュアルワークフローを生成するベンチマークであるChat2Workflowを導入し、繰り返し発生する実行エラーを軽減する堅牢なエージェントフレームワークを提案する。Chat2Workflowは実世界の業務ワークフローの大規模コレクションから構築され、各インスタンスは生成されたワークフローがDifyやCozeなどの実用的なワークフロープラットフォームに変換して直接デプロイ可能なように設計されている。実験結果は、最先端の言語モデルが高レベルの意図を捉えることができる場合が多いものの、正確で安定した実行可能なワークフロー、特に複雑な要件や変化する要件の下での生成に苦戦することを示している。我々のエージェントフレームワークは最大5.34%の解決率向上をもたらすが、残る実世界との隔たりは、Chat2Workflowが産業グレードの自動化を推進する基盤として位置づけられることを示している。コードはhttps://github.com/zjunlp/Chat2Workflowで公開されている。
強化学習による大規模言語モデルエージェントの訓練が拡大を続ける中、複雑な環境下でのエージェント行動を確実に検証することはますます困難になっている。既存のアプローチはルールベースの検証器やLLM-as-a-Judgeモデルに依存しているが、これらは限られた領域を超えて一般化することが難しい。Agent-as-a-Judgeはこの制限を、検証可能な証拠を取得するために環境やツールと能動的に相互作用することで解決するが、その能力は未だ十分に探究されていない。 本研究では、検索、データシステム、グラフィカルユーザーインターフェースの3領域にわたる155タスクと516の注釈付き軌跡から構成されるベンチマークAJ-Benchを導入し、Agent-as-a-Judgeを体系的に評価する。このベンチマークは、審判エージェントの情報獲得能力、状態検証能力、プロセス検証能力を包括的に評価する。実験結果は、LLM-as-a-Judgeベースラインを一貫して上回る性能向上を示すと同時に、エージェントベース検証における重大な未解決課題も明らかにする。データとコードはhttps://aj-bench.github.io/で公開している。
命令追従型情報検索(IF-IR)は、クエリに関連する文書を見つけるだけでなく、必須属性や除外条件、出力設定などの明示的なユーザー制約に従う必要がある検索システムを研究する分野です。しかし、ほとんどの検索モデルは主に意味的関連性を重視して訓練されており、トピックに合致する文書と命令を満たす文書を区別できないことが多いです。我々は極性反転に基づくデュアルビューデータ合成戦略を提案します。具体的には、クエリ、命令の下で関連性のある文書、クエリには合致するが命令に違反するハードネガティブ文書が与えられたとき、LLMを用いて二つの文書の関連性ラベルが入れ替わる相補的な命令を生成します。関連性ラベルが反転した相補的命令の下で同一の文書ペアを提示することにより、訓練信号は検索モデルに固定的なトピックの手がかりに依存するのではなく、命令を通じて同一の候補集合を再評価することを強制します。3億500万パラメータのエンコーダモデルにおいて、本手法はFollowIRベンチマークの性能を45%向上させ、同等または更大規模の汎用埋め込みモデルを凌駕します。データ量を統一した直接比較を通じて、データの多様性と命令監督が相補的な役割を果たすことをさらに示します。前者は一般的な検索品質を維持し、後者は命令への感度を向上させます。これらの結果は、広範な能力と命令認識性を兼ね備えた検索システム構築における、標的型データ合成の価値を浮き彫りにしています。
コードスイッチングはグローバルコミュニケーションにおいて遍在する言語現象であるが、現代の情報検索システムは未だに単一言語コンテキスト向けに設計され、評価されることが主流である。この重大な乖離を埋めるため、我々はコードスイッチングIRに焦点を当てた総合的研究を提案する。混合言語クエリの真の自然さを捉えるため、人手注釈によるデータセットを構築し、CSR-L(Code-Switching Retrieval benchmark-Lite)を導入する。統計的、密、後期相互作用モデルにわたる評価を通じて、コードスイッチングが基本的な性能ボトルネックとして作用し、堅牢な多言語モデルであってもその有効性を低下させることを明らかにする。この失敗は、単一言語テキストとコードスイッチングテキストの間の埋め込み空間における大幅な乖離に起因することを示す。調査を拡大し、11の多様なタスクを網羅する総合的なベンチマークCS-MTEBを提案し、最大27%の性能低下を観測した。最後に、語彙拡張のような標準的な多言語技術では、これらの欠陥を完全に解決するには不十分であることを示す。これらの知見は、現行システムの脆弱性を浮き彫りにし、コードスイッチングが将来のIR最適化における重要なフロンティアであることを立証する。
タスク算術は、事前学習済みモデルを編集する効率的かつ学習不要な手法を提供するが、その成功に対する理論的な説明は未確立である。既存の「重みの分離性」という概念は、干渉のないタスク合成の理想的な結果を記述するが、その根本原因を明らかにしない。特に、事前学習済みモデル(θ_0)やタスクベクトル(τ_t)のどの内在的特性がこの分離性を可能にするかは未解明のままだ。本論文では、異なるタスクに異なる内部特徴を割り当てるモデルの能力である「タスク-特徴特化(TFS)」を基本原理として提案する。まず、TFSが重みの分離性の十分条件であることを証明する。さらに重要なことに、TFSが観測可能な幾何学的帰結、すなわち重みベクトルの直交性を生じさせることを発見した。これにより、TFSが機能的な成果(分離性)と計測可能な幾何学的特性(直交性)の両方の共通原因として位置づけられる。この関係性が本手法の核心的知見となる:抽象的なTFS特性を直接強制するのは困難であるため、その具体的な幾何学的帰結である直交性を形成することで、間接的に重みの分離性を促進できる。そこで我々は、ファインチューニング中にτ_tを構成する重み更新量(ΔW)に対して内部的な直交構造を能動的に強制する、簡潔で効果的な正則化手法OrthoRegを提案する。そしてOrthoRegが分離性を促進することを理論的に証明する。大規模な実験により、OrthoRegが様々なタスク算術手法の性能を一貫して大幅に向上させることを実証する。コードはhttps://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}で公開されている。
本論文では、現実の場所をシミュレートする、空間的に接地された3D一貫性・航法可能な環境の生成問題に取り組む。既存のビデオ生成モデルは、テキスト(T2V)または画像(I2V)プロンプトと整合性のある説得力のある連続シーケンスを生成できる。しかし、任意の気象条件下および動的オブジェクト配置下での現実世界の再構築能力は、自動運転やロボティクスシミュレーションを含む下流アプリケーションにとって不可欠である。この目的のために、我々はCityRAGを提案する。これは、生成を物理シーンに接地させるための文脈として地理参照データの大規模コーパスを活用しつつ、複雑な動きや外観変化に関する学習済み事前分布を維持するビデオ生成モデルである。CityRAGは時間的に非整合なトレーニングデータに依存し、これによりモデルは基礎となるシーンとその一時的属性を意味的に分離して学習する。実験により、CityRAGがコヒーレントな数分間の物理的に接地されたビデオシーケンスを生成し、数千フレームにわたって気象及び照明条件を維持し、ループクロージャを達成し、複雑な軌道をナビゲートして現実世界の地理を再構築できることを実証する。
オートリグレッシブ動画拡散は、ストリーミング動画合成における有望なパラダイムとして台頭しており、ステップ蒸留が推論加速の主要な手段となっている。大規模言語モデルにおける支配的な加速戦略である投機的デコーディングが、オートリグレッシブ動画生成に効果的に適応できるかどうかは未解決の問題であった。なぜなら、動画ブロックは連続的な時空間テンソルであり、正確な棄却サンプリングのためのトークンレベルの分布が存在しないためである。本研究では、**SDVG**を提案する。SDVGは、トークン検証を画像品質ルーターに置き換えることで、ブロックベースのオートリグレッシブ動画拡散に投機的デコーディングを導入する。1.3Bパラメータのドラフターが4回のノイズ除去ステップを経て候補ブロックを提案し、各ブロックはVAEでデコードされた後、ImageRewardによって最悪フレーム集約(全フレームの報酬の最小値を採用)を用いてスコアリングされる。これにより、平均化では見逃されがちな単一フレームのアーティファクトを検出する。固定閾値τ以上のスコアを得たブロックは14BパラメータのターゲットモデルのKVキャッシュに受け入れられ、それ以外はターゲットモデルによって再生成される。2つの追加的な設計選択が極めて重要であることが判明した:最初のブロックは常に強制的に棄却されシーン構成を固定し、τは単一の調整パラメータとして滑らかな品質-速度のパレートフロンティアを描く。1003のMovieGenVideoBenchプロンプト(832x480)を用いた評価では、τ=-0.7において、SDVGはターゲットモデルのみのVisionReward品質の98.1%(0.0773 vs. 0.0788)を維持しつつ1.59倍の高速化を達成し、95.7%の品質維持率では2.09倍の高速化に達した。一方、ドラフターのみの生成を一貫して17%以上上回った。本フレームワークは学習不要、アーキテクチャ変更不要であり、既存のオートリグレッシブ動画生成パイプラインにシームレスに統合可能である。
日常的なタスクには目標が伴い、この目標に沿ってモデルを事前学習することが、専門家へと変える鍵となる。本論文では、目標志向の言語モデル(LM)事前学習を、ニューロン活性化グラフランキング(NAG-based Ranking)と呼ばれる、訓練不要で解釈可能な目標事前学習データ選択フレームワークを導入して検討する。ブラックボックス的な表現を用いるのではなく、我々の手法は、任意の既製大規模言語モデル(LLM)内の高影響力ニューロンのスパースな集合によって、各目標入力を直接的に特徴づける。具体的には、ニューロンの影響力を定量化し、層を跨いで最も影響力の大きいニューロンを選択してコンパクトなニューロン活性化グラフ(NAG)を構築し、目標事例とのNAG類似度に基づいて候補データをランク付けする。6つのベンチマークで実験を行った結果、NAG-based Rankingは、目標志向の事前学習においてランダムサンプリングよりも平均4.9%向上させ、HellaSwagでは既存の最先端ベースラインを5.3%の精度で上回った。また、より実用的なマルチターゲット設定においても有効性を維持し、最良の設定では2つのベースラインをそれぞれ1.1%、4.1%上回った。さらに、NAGがなぜ、どのように機能するかについて包括的な分析を提供する。例えば、NAGで選択されたニューロン(全ニューロンのわずか0.12%)を不活性化すると23.5%の性能低下を引き起こし、NAGを最終層のみに制限すると平均4.1%の低下を招くことから、NAGが目標特徴を学習するためのスパースな「機能的バックボーン」を捉えていることが示唆される。コードはhttps://github.com/asillycat/NAGで公開している。
従来の写真画像編集では、ユーザーが画像品質やカメラパラメータを適切に調整するための指示を行うために、十分な美的理解を備えていることが求められてきた。しかし、このパラダイムは、美的意図の明示的な人間による指示に依存しており、その指示は曖昧であったり、不完全であったり、非専門家のユーザーには理解が困難であったりすることが多い。本研究では、画像編集を密結合な推論から生成へのプロセスとして定式化する自動写真画像編集手法、SmartPhotoCrafterを提案する。提案モデルはまず、Image Criticモジュールによる画像品質の理解と欠陥の特定を行い、次にPhotographic Artistモジュールが画像の魅力を高めるための標的編集を実現し、明示的な人間の指示を不要とする。マルチステージの学習パイプラインを採用する:(i) 基礎的な美的理解と編集能力を確立するファウンデーション事前学習、(ii) 豊富な意味的ガイダンスを組み込むための推論誘導型マルチ編集監督による適応、(iii) 推論と生成を共同で最適化する協調的推論から生成への強化学習。学習において、SmartPhotoCrafterは写真写実的な画像生成を重視しつつ、画像修復とレタッチの両タスクをサポートし、色調関連の意味論への一貫した準拠を実現する。また、推論と制御可能な生成、効果的なモジュール間連携、そして最終的に高品質な写真強調を段階的に構築する、ステージ特化型データセットを構築した。実験により、SmartPhotoCrafterは自動写真強調タスクにおいて既存の生成モデルを凌駕し、写真写実的な結果を達成するとともに、レタッチ指示に対するより高い色調感度を示すことを実証した。プロジェクトページ: https://github.com/vivoCameraResearch/SmartPhotoCrafter。
3Dビジョンの最近の進歩により、3D理解(形状分類、セグメンテーション、再構成など)または3D生成(合成、補完、編集など)のいずれかに特化したモデルが開発されてきた。しかし、これらのタスクは個別に取り組まれることが多く、断片化されたアーキテクチャと表現により、知識伝達とホリスティックなシーンモデリングが妨げられている。これらの課題に対処するため、我々は単一アーキテクチャ内で3D生成と理解を共同学習する統一フレームワーク「UniMesh」を提案する。第一に、拡散ベースの画像生成と暗黙的形状デコーダを橋渡しするクロスモデルインターフェースとして機能する新規のMesh Headを導入する。第二に、閉ループの潜在変数、プロンプト、再生成サイクルによるユーザ主導の意味的メッシュ編集を可能にする反復推論の幾何学的実装であるChain of Mesh(CoM)を開発する。第三に、3Dキャプション生成のような高レベルタスクにおける失敗を診断・修正するため、Actor-Evaluator-Self-reflectionの三要素に基づく自己反省機構を組み込む。実験結果により、UniMeshが標準ベンチマークで競争力のある性能を達成するだけでなく、反復的編集および生成と理解の相互強化における新規機能を解放することを実証する。コード:https://github.com/AIGeeksGroup/UniMesh ウェブサイト:https://aigeeksgroup.github.io/UniMesh
大規模言語モデル(LLM)のファインチューニングは、Low-Rank Adaptation(LoRA)などのパラメータ効率の良い手法が存在するにも関わらず、内部表現のレイヤごとの役割が十分に理解されていないため、適応を適用すべき箇所について経験則に依存した構造的な不確実性が残っている。本研究では、隠れ状態の変化を高次元の幾何学的軌道としてモデル化し、グローバルな構造的変化を保持しつつ局所的な冗長な変化を除去する、パラメータ不要かつ学習不要な多角形簡略化手法であるRamer-Douglas-Peucker(RDP)アルゴリズムを提案し、表現経路に沿った重要な分岐点を同定する。決定的に、これらの幾何学的な枢軸を単なる分析のためではなく、パラメータ効率的ファインチューニングにおいてどのレイヤを適応すべきかを決定する直接的な判断信号として利用する。この幾何学的意識に基づくレイヤ選択戦略をQwen3-8B-BaseのLoRAファインチューニングに統合した結果、RDPで選択された13レイヤのみを用いてMMLU-Mathにおいて優れた性能(81.67%)を達成し、全36レイヤの適応(79.32%)やランダムな13レイヤ選択(75.56%)、ベースラインのQwen3-8B-Baseモデル(74.25%)を大幅に上回った。これらの結果は、表現軌道の内在的幾何学を活用することが、モデル適応時のレイヤ選択を最適化するためのロバストで解釈可能かつ学習不要な信号を提供することを実証している。
マルチモーダル大規模言語モデル(MLLM)は、自動評価ツールとしてますます利用されるようになっており、このパラダイムは「MLLM-as-a-Judge」として知られている。しかし、その信頼性やバイアスに対する脆弱性については、未だ十分に検討されていない。我々は、多くのMLLM評価器が重要な視覚的またはテキスト的な手がかりを確実に統合できず、証拠が欠落または不一致の場合に信頼性の低い評価を生み出し、意味的に関連性のない摂動に対して不安定性を示すことを発見した。この問題に対処するため、我々はMLLM-as-a-Judgeシステムにおける「構成バイアス」を体系的に定義し、それを評価するベンチマーク「MM-JudgeBias」を提案する。MM-JudgeBiasは、クエリ、画像、応答に対して制御された摂動を導入し、感度を測るBias-Deviation(BD)と安定性を測るBias-Conformity(BC)という2つの相補的な指標を通じてモデルの挙動を評価する。29のソースベンチマークから抽出・精選した1,800以上のマルチモーダルサンプルからなるデータセットは、多様なタスクと領域にわたる9種類のバイアスタイプの詳細な診断を可能にする。26の最先端MLLMを用いた実験では、体系的なモダリティ軽視と非対称的な評価傾向が明らかになり、より信頼性の高い評価器の必要性が浮き彫りとなった。
Transformerベースのクリックスルー率(CTR)予測モデルにおいて、パラメータ数を増加させるスケーリング手法は、計算量とストレージのオーバーヘッドを増大させ、スケーリングの野望と厳しい産業環境でのデプロイ制約との間に広がる溝を生み出している。本論文では、共有モデル層の再帰的再利用により訓練時の計算量を増加させつつ、計算量とパラメータ増加を分離する「ループスケーリング」パラダイムを導入するLoopCTRを提案する。LoopCTRは、Hyper-Connected ResidualsとMixture-of-Expertsで強化されたサンドイッチアーキテクチャを採用し、各ループ深度でプロセス監視を行うことで、マルチループの利点を共有パラメータに符号化する。これにより、「訓練時はマルチループ、推論時はゼロループ」という戦略が可能となり、ループなしの単一のフォワードパスですべてのベースラインを凌駕する性能を達成する。3つの公開ベンチマークと1つの産業データセットを用いた実験により、State-of-the-Artの性能を実証した。オラクル分析ではさらに0.02~0.04 AUCの未開拓の潜在性能が明らかになり、より少ないループで訓練されたモデルがより高いオラクル性能上限を示すことから、適応的推論における有望な研究方向が示唆された。
Uniform Discrete Diffusion Model(UDM)は近年、離散生成モデリングの有望なパラダイムとして登場したが、強化学習との統合はほとんど検討されていない。我々は、GRPOをUDMに単純に適用すると学習が不安定になり、性能向上も限定的となることを確認した。この問題に対処するため、我々はUDMとRLを統合する初のフレームワークである\Oursを提案する。本手法は以下の二つの重要な知見に基づいている:(i)最終的なクリーンなサンプルを行動として扱うことで、より正確で安定した最適化信号が得られること、(ii)拡散の順過程による軌道の再構築が、確率経路と事前学習分布の整合性を高めること。さらに、学習効率をさらに向上させるため、Reduced-StepとCFG-Freeという二つの戦略を導入する。\Oursは、複数のT2Iタスクにおいてベースモデルの性能を大幅に改善する。特に、GenEvalの精度は69%から96%に、PickScoreは20.46から23.81に向上し、連続設定と離散設定の両方でState-of-the-Art性能を達成した。OCRベンチマークでは精度が8%から57%に上昇し、本手法の一般化能力がさらに実証された。コードはhttps://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}で公開されている。
一般的な画像編集タスクでは、実世界のコンテンツ編集における主要パラダイムとして、強力な生成拡散モデルが採用されることが多い。一方、Diffusion-DPOやFlow-GRPOなどの強化学習(RL)手法が生成品質をさらに向上させているものの、人間フィードバックからの強化学習(RLHF)を拡散ベースの編集に効率的に適用する方法は、スケーラブルな人間嗜好データセットや多様な編集ニーズに特化したフレームワークの不足により、ほとんど未開拓のままである。このギャップを埋めるため、我々は人間嗜好に沿った編集のための学習後フレームワーク「HP-Edit」を提案し、8つの一般的なタスクを網羅し共通物体編集のバランスを取った実世界データセット「RealPref-50K」を導入する。具体的には、HP-Editは少量の人間嗜好スコアリングデータと事前学習済み視覚大規模言語モデル(VLM)を活用し、自動的な人間嗜好評価器「HP-Scorer」を開発する。その後、HP-Scorerを、スケーラブルな嗜好データセットの効率的な構築と、編集モデルの学習後調整における報酬関数の両方に利用する。さらに、実世界編集性能を評価するベンチマーク「RealPref-Bench」も導入する。大規模な実験により、本手法がQwen-Image-Edit-2509などのモデルを大幅に強化し、その出力を人間の嗜好により密接に一致させることを実証する。
密度汎関数理論(DFT)は、現代の計算化学および材料科学の多くを支えている。しかし、実験的に測定可能な特性に対するDFTに基づく予測の信頼性は、未知の交換相関(XC)汎関数を近似する必要性によって根本的に制限され続けている。精度向上のための従来のパラダイムは、ますます複雑に手作りされた汎関数形に依存してきた。このアプローチは、計算効率と精度の間の長年にわたるトレードオフを生み出し、それは実験室実験の信頼性のある予測モデリングには依然として不十分である。本論文では、深層学習に基づくXC汎関数であるSkalaを紹介する。Skalaは、主族元素化学のベンチマークセットGMTKN55において2.8 kcal/molの誤差で最先端のハイブリッド汎関数を精度で凌駕しつつ、半局所DFTに特徴的な低い計算コストを維持する。この精度と効率の間の歴史的トレードオフからの脱却は、データから電子構造の非局所的な表現を直接学習することにより、コストが増大する手作りの特徴量の必要性を回避することで実現されている。波動関数法に基づく前例のない量の高精度参照データを活用し、我々は、現代の深層学習が、訓練データセットの拡大に伴って系統的に改善可能な神経交換相関モデルを可能にし、第一原理シミュレーションが次第に予測性を高めていく立場にあることを確立する。
近年の研究では、大規模言語モデル(LLM)を進化的・主体的な最適化システム内で編成することの可能性が示されてきた。しかし、これらの最適化の成果を駆動するメカニズムは未だ十分に解明されていない。本研究では、LLM誘導型進化探索に関する大規模調査を実施し、8つのタスクにおいて15種類のLLMの最適化軌跡を収集した。ゼロショット問題解決能力は最終的な最適化結果と相関するものの、それは分散の一部を説明するに過ぎない。すなわち、初期能力が類似するモデルであっても、劇的に異なる探索軌跡と結果を生み出すことが多い。これらの軌跡を分析した結果、強力なLLM最適化器は局所的精緻化器として振る舞い、頻繁な漸進的改善を行いながら、意味空間内で探索を次第に局所化することが明らかとなった。逆に、より弱い最適化器は大きな意味的ドリフトを示し、散発的なブレークスルーの後に停滞する傾向があった。特筆すべきは、解の新規性に関する様々な指標は最終性能を予測せず、新規性が有益に働くのは、解空間の高性能領域周辺で探索が十分に局所化されている場合に限られることである。我々の結果は、LLMベースの最適化システムを理解し改善する上で軌跡分析が重要であることを示し、その設計と訓練に対する実践的な知見を提供する。
大規模言語モデル(LLM)の失敗事例を分析するための解釈可能性ツールの利用が増加しているが、既存研究は主に短いプロンプトや単純な設定に焦点を当てており、一般的に使用されるベンチマークにおけるそれらの挙動は十分に検討されていない。この課題に対処するため、我々は現実的な設定におけるLLMの失敗分析の実用的ツールとして、対照的なLRPベースの帰属分析を検討する。我々は失敗分析を対照的帰属問題として定式化し、誤った出力トークンと正しい代替トークン間のロジット差を入力トークンおよび内部モデル状態に帰属させるとともに、長文脈入力における層間帰属グラフの構築を可能にする効率的な拡張手法を提案する。この枠組みを用いて、ベンチマーク横断的な系統的実証研究を実施し、データセット・モデルサイズ・学習チェックポイント間での帰属パターンを比較する。結果から、このトークンレベルの対照的帰属分析が一部の失敗事例において有益な信号をもたらし得る一方、普遍的に適用可能ではないことが明らかとなり、現実的なLLM失敗分析における有用性と限界の両方が示された。コードはhttps://aka.ms/Debug-XAIで公開している。
言語モデルは、仮説の生成、候補解の提案、システムの実装、そしてそれらの反復的な改善を通じて、科学的発見においてますます重要な役割を果たしている。これらの試行錯誤ループの核心には、検証器、シミュレータ、またはタスク固有のスコアリング関数を用いて候補解に関するフィードバックを得るプロセスである「評価」が存在する。先行研究は評価の重要性を指摘してきたが、評価駆動型発見ループを原理的かつ効果的にスケールアップし、科学的発見の境界を押し広げる方法という問題を明確に定式化してこなかった。本論文はこの問題に取り組む。我々は、並列探索、フィードバック駆動型改善、局所選択を戦略的に組み合わせた一般的なフレームワークであるSimple Test-time Evaluation-driven Scaling(SimpleTES)を提案し、適切な次元に沿って評価駆動型発見ループをスケールさせることで解き放たれる大幅な性能向上を明らかにする。6つの領域にわたる21の科学的課題において、SimpleTESはgpt-ossモデルを用いて最先端の解を発見し、フロンティアモデルのベースラインと洗練された最適化パイプラインの両方を一貫して上回った。具体的には、広く使用されているLASSOアルゴリズムを2倍以上高速化し、ゲートオーバーヘッドを24.5%削減する量子回路ルーティングポリシーを設計し、既知の最良結果を上回る新たなエルデシュ最小重複構成を発見した。新規発見に加えて、SimpleTESはフィードバック駆動学習を自然に監督する軌跡レベルの履歴を生成する。成功した軌跡で事後学習すると、モデルは既知課題の効率が向上するだけでなく、未知課題へも一般化し、ベースモデルが発見できない解を見出す。以上の結果は、効果的な評価駆動ループのスケーリングがLLM駆動科学の発展における中心的な軸であることを示し、その利益を実現するためのシンプルかつ実用的なフレームワークを提供する。
現在のAIエージェントフレームワークは、個々のタスクの自動化において顕著な進歩を遂げているが、既存のシステムはすべて単一ユーザーにサービスを提供するものに留まっている。人間の生産性は、人々が調整、交渉、委任を行う社会的・組織的関係に依存している。エージェントが一人のユーザーのためにタスクを実行する段階から、そのユーザーを代表して他者と協働する段階に移行する際、ユーザーを跨ぐエージェント間協働のためのインフラは完全に欠如しており、それを保護するためのガバナンスメカニズムは言うまでもない。我々は、AIエージェントの次のフロンティアは、個々の能力の強化ではなく、人間の協働関係のデジタル化にあると主張する。この目的に向けて、我々は人間共生型エージェントパラダイムを提案する。各ユーザーは永続的に紐付けられたエージェントシステムを所有し、これは所有者に代わって協働を行う。これにより、ノードがエージェントではなく人間となるネットワークを形成する。このパラダイムは三つのガバナンス基本要素に基づく。階層化アイデンティティアーキテクチャは、マネージャーエージェントを複数の文脈特化型アイデンティティエージェントから分離する。マネージャーエージェントはグローバルな知識を保持するが、構造的に外部通信から隔離されている。スコープ化された認可は、アイデンティティ単位のアクセス制御を強制し、境界侵害を所有者にエスカレーションする。アクションレベルの説明責任は、あらゆる操作を所有者のアイデンティティと認可に紐付けて記録し、完全な監査可能性を保証する。我々はこのパラダイムをClawNetにおいて具体化した。これはアイデンティティ管理されたエージェント協働フレームワークであり、中央オーケストレーターを通じてアイデンティティ紐付けと認可検証を強制し、複数ユーザーが各自のエージェントを通じて安全に協働することを可能にする。
大規模視覚言語モデル(LVLM)は、生成された応答が視覚的入力と一致しない「視覚幻覚」の問題に依然として悩まされている。既存の手法は、大規模な計算コストを伴う注釈付きデータを用いたファインチューニングに依存するか、幻覚発生の動的な性質を考慮しない静的な事後処理戦略を採用している。これらの問題に対処するため、本論文では外部監督を必要とせず、推論時に動的に幻覚を軽減する新しい自己報酬フレームワークを提案する。実証的側面では、視覚幻覚が段階的な動的パターンを示し、各意味的段階の開始時にピークに達することを明らかにする。この知見に基づき、段階的な自己報酬信号に導かれたオンライン幻覚補正手法PSRD(段階的 **自己報酬復号化**)を提案する。復号化中の反復的な自己評価コストを削減するため、LVLMから幻覚ガイダンス信号を軽量な報酬モデルへ蒸留する。この報酬モデルは、復号化プロセスにおける標的介入のためのオンザフライなガイダンスを提供し、精密な幻覚抑制を可能にする。提案するPSRDは、LLaVA-1.5-7Bの幻覚発生率を50.0%大幅に削減し、4つのLVLMにおける5つの幻覚評価ベンチマークで既存の事後処理手法を一貫して上回る。さらなる分析により、PSRDが幻覚の伝播を効果的に軽減し、高性能と推論効率の間の高度に制御可能なトレードオフを達成することが確認された。
スマートウォッチやスマートグラスなどのエッジデバイスは、電力および計算リソースの制約から、最小規模の100M-1Bパラメータ言語モデルですら継続的に実行することができない。一方、クラウド推論では数秒の遅延が生じ、応答性の高いアシスタントという体感を損なう。本研究では、マイクロ言語モデル(μLM)を提案する。これは超コンパクトなモデル(8M-30Mパラメータ)であり、文脈に基づいた応答の最初の4-8語をデバイス上で瞬時に生成し、クラウドモデルがそれを完成させることで、クラウドの遅延を隠蔽する。この極小規模においても有用な言語生成が可能であることを示し、我々のモデルが既存の70M-256Mクラスのモデル数種に匹敵する性能を発揮することを実証する。さらに、クラウドモデルを「応答者」ではなく「継続者」として再定義する協調生成フレームワークを設計し、文中でのシームレスな引継ぎと、ローカルで生成された冒頭部が不適切な場合の3種類の誤り訂正による構造化されたグレースフルリカバリを実現する。実験結果から、μLMが開始した応答を大規模モデルがシームレスに完成できることが示され、桁違いに非対称な協調が可能であること、ひいては極度にリソースが制約されたデバイスにおける応答性の高いAIを実現できることが明らかとなった。モデルチェックポイントとデモはhttps://github.com/Sensente/micro_language_model_swen_project で公開している。
我々は、整数または整数の部分範囲に制約された数値ラベルの予測問題を研究する。例えば、ソーシャルメディア投稿における「いいね」の数や、公共レンタルステーションにおける利用可能な自転車の台数などが該当する。これらを連続値としてモデル化し、従来の回帰分析を適用することは可能だが、この手法はラベルの基礎となる分布を離散から連続へ変化させてしまう。離散分布には特定の利点があるため、整数ラベルを直接、離散分布によってモデル化できるかどうかが課題となる。この離散分布のパラメータは、各インスタンスの特徴量から予測される。さらに、我々はニューラルネットワークの出力分布に焦点を当てる。これにより、ネットワークの重みを学習するために誤差逆伝播法と勾配降下法が適用可能であるよう、分布のパラメータが連続値である必要が生じる。我々は、既存のものと新規のものを含む複数の分布オプションを調査し、表形式データ学習、時系列予測、画像生成などの様々なタスクで検証する。その結果、全体的に最高の性能を示すのは二つの分布であることがわかった。一つはビット単位分布であり、ターゲット整数をビット表現し、各ビットにベルヌーイ分布を仮定する。もう一つはラプラス分布の離散版であり、連続的平均値を中心に指数関数的に減衰する裾野を持つ分布を使用する。
近年の音声間翻訳(S2ST)システムは意味的精度において高い性能を達成しているものの、実用的意図を伝える笑い声や泣き声といった非言語的発声(NV)を一貫して除去しており、実世界での有用性を大きく制限している。本研究ではこの問題に対し、3つの貢献を行う。第一に、データ不足の課題を克服するため、拡張性のある表現豊かなデータセットを構築する合成パイプラインを提案する。第二に、表現に特化したアダプタと、複数の表現状態を混合するソフト重み付けルータを備えたMixture-of-LoRA-Expertsアーキテクチャ「MoVE」を提案する。第三に、事前学習済みAudioLLMが驚異的なデータ効率を実現することを示す。精選された30分のデータで強力な性能が得られる。英語-中国語S2STにおける評価では、強力なベースラインと比較し、MoVEは76%の事例で目標NVを再現し、全ての比較システム中で最高の人間評価による自然さおよび感情的真実性を達成した。既存のS2STシステムが最大14%のNVしか保持しないのに対し、この結果は顕著である。
分散型自律組織(DAOs)は、提案を審査し意味的ソーシャルエンジニアリングを緩和するためのエッジネイティブな憲法ファイアウォールとして、小型言語モデル(SLMs)の採用を検討しつつある。推論時計算量(システム2)のスケーリングは形式的論理を強化するが、高度に敵対的な暗号経済ガバナンス環境におけるその有効性は未解明のままである。この問題に対処するため、我々はQwen-3.5-9Bに対して厳密なモデル内アブレーションを実行する840推論からなる実証フレームワーク「Sentinel-Bench」を開発した。凍結された重み間での潜在推論を切り替えることで、敵対的Optimism DAOデータセットに対する推論時計算量の影響を分離した。その結果、深刻な計算量-精度逆転現象を明らかにした。自己回帰ベースライン(システム1)は、13秒未満で100%の敵対的頑健性、100%の法的一貫性、状態確定性を達成した。一方、システム2推論は26.7%の推論非収束(認知的崩壊)率を主要因として破滅的な不安定性を導入した。この崩壊は試行間合意安定性を72.6%に劣化させ、17倍の遅延オーバーヘッドを課し、ガバナンス抽出可能価値(GEV)とハードウェア集中化に対する重大な脆弱性をもたらした。稀ではあるが(敵対的試行の1.5%)、「推論誘発性追従現象」を実証的に捕捉した。これはモデルが敵対的罠への失敗を合理化するために極めて長い内的独白(平均25,750文字)を生成する現象である。ビザンチン故障耐性(BFT)制約下で動作するエッジネイティブSLMsにおいては、分散型合意形成にはシステム2の反復的審議よりもシステム1のパラメータ化された直感が構造的・経済的に優位であると結論付ける。 コードとデータセット:https://github.com/smarizvi110/sentinel-bench
マルチモーダル推論モデル(MRM)は、思考の連鎖(Chain-of-Thought: CoT)に基づく思考を活用することで、数学的・論理的問題解決に革命をもたらしてきた。しかし本論文では、このパラダイムが汎用的な空間知能において苦戦することを示す。我々は13の空間ベンチマークにおいて17のモデルを包括的に評価し、決定的なギャップを特定した:CoTプロンプティングは、視覚的空間推論における性能を一貫して低下させる。さらに、新規のNo-Image++アブレーションを通して、MRMおよびCoTプロンプトが適用されたマルチモーダル言語モデル(MLM)が深刻なショートカット学習に陥っており、画像が存在しない場合でもテキストの事前情報から視覚的詳細を幻覚することを実証する。これらの知見は、空間タスクにおけるテキストのみのCoTの有効性に疑問を投げかけ、視覚中心の推論パラダイムの必要性を強く示唆するものである。
マルチモーダル大規模言語モデル(MLLM)は視覚言語ベンチマークで顕著な進展を遂げているが、視覚的認知および視覚空間的推論能力については未解明な部分が多い。本研究では、古典的な人間の知能検査に着想を得た8つの視覚認知タスクから構成される多肢選択式ベンチマーク「Mind's Eye」を提案する。タスクは新たに考案した「A-R-T」 taxonomy(抽象化、関係性、変換)に基づいて体系化され、パターン帰納、類推的関係マッピング、心的変換といった流動性知能の中核的プロセスを測定する。閉鎖系およびオープンソースの多様なMLLMを評価し、その性能を被験者(人間)の成績と比較した。人間の正答率は80%に達したのに対し、最高性能のMLLMでも50%を下回った。誤り分析からは、(i)視覚的注意の配分、(ii)内的知覚操作、(iii)基礎となる視覚概念の抽象化の弱さ、における失敗が明らかになった。これらの結果は、現行のMLLMが人間と比較して限定的な視覚空間推論能力しか有していないことを示唆し、認知科学的基盤に立った評価枠組みの必要性を浮き彫りにする。
ゲームUIの実装では、スタイライズされたモックアップを対話型エンジンエンティティへ変換する必要がある。しかし、既存の「スクリーンショットtoコード」ツールは、ゲームインターフェースに典型的な不規則な幾何学形状や深い視覚的階層構造の処理に課題を抱えている。この課題を解決するため、我々は静的スクリーンショットを編集可能なエンジンアセットへ変換するパイプライン「SPRITE」を提案する。SPRITEはVision-Languageモデル(VLM)と構造化YAML中間表現を統合することで、複雑なコンテナ関係や非矩形レイアウトを明示的に抽出する。ゲームUIベンチマークを用いた評価とプロ開発者による専門家レビューを通じて、再現精度とプロトタイピング効率を検証した。結果、SPRITEが単調なコーディング作業を自動化し、複雑なネスト構造を解決することで開発効率を向上させることを実証した。エンジン内での迅速な反復を可能にするSPRITEは、ゲーム開発における芸術的デザインと技術的実装の境界を効果的に曖昧にする。プロジェクトページ: https://baiyunshu.github.io/sprite.github.io/