翻訳付きの日次キュレーションされたAI研究論文
我々は、ハイブリッド推論と効率的な推論を実現するロシア語LLM「T-pro 2.0」を発表します。本モデルは直接回答と推論トレース生成をサポートし、キリル文字に最適化されたトークナイザーと改良版EAGLE speculative decodingパイプラインにより遅延を低減しています。再現性と拡張性を担保するため、モデル重み、T-Wix 500k指示データセット、T-Math推論ベンチマーク、EAGLE重みをHugging Faceで公開。これらのリソースにより、ロシア語推論の研究やモデル・推論パイプラインの拡張が可能となります。公開Webデモでは推論モードと非推論モードを実装し、当社の推論スタックが複数領域で達成する高速化を提示。T-pro 2.0は、効率的で実用的なロシア語LLMアプリケーション構築・評価のためのアクセス可能なオープンシステムとして機能します。
大規模言語モデル(LLM)は、検証可能な報酬を用いた強化学習(RLVR)によって複雑な推論タスクの解決において著しい進展を遂げている。この進歩は、信頼性の高い検証器による自動化された監視からも切り離せない。しかし、現在の結果ベース検証器(OV)は、思考連鎖(CoT)の長い推論過程における信頼性の低い中間ステップを検査できない。一方、現在のプロセスベース検証器(PV)は、人的アノテーションのコストが膨大であることから高品質なアノテーションが不足しているため、複雑で長いCoTにおける誤りを確実に検出するのが困難である。そこで我々は、長いCoTから要約された結果の論理プロセスを検証する「結果ベース・プロセス検証器(OPV)」を提案し、正確かつ効率的な検証と大規模なアノテーションを実現する。提案する検証器を強化するため、専門家のアノテーションを伴う反復的な能動学習フレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実なケースにアノテーションを付与し、その後、拒否微調整(RFT)とRLVRを通じて次のラウンドに向けた新たなOPVを学習させる。大規模な実験により、OPVの優れた性能と幅広い適用性が実証された。OPVは、保持しておいた\thisbench において新たなstate-of-the-artを達成し、Qwen3-Max-Previewのようなはるかに大規模なオープンソースモデルをF1スコア83.1対76.3で上回った。さらにOPVは、合成データセット内の偽陽性を効果的に検出し、専門家の評価と高い一致を示した。政策モデルと連携する場合、OPVは一貫して性能向上をもたらし、例えば計算予算が拡大するにつれて、AIME2025におけるDeepSeek-R1-Distill-Qwen-32Bの精度を55.2%から73.3%に引き上げた。
強化学習(RL)は、大規模言語モデルやマルチモーダルモデルにおいて有効性が実証されてきたが、最近では2D画像生成の強化にも成功裏に拡張されている。しかし、RLを3D生成に応用する試みは、3Dオブジェクトの高い空間的複雑さ(大域的に一貫したジオメトリと細粒度の局所テクスチャを必要とするため)から、ほとんど未開拓の領域である。これにより、3D生成は報酬設計とRLアルゴリズムに極めて敏感となる。これらの課題に対処するため、我々はテキストから3Dへの自己回帰生成におけるRLについて、複数の次元で初めて体系的な研究を実施した。(1) 報酬設計:報酬の次元とモデル選択を評価し、人間の嗜好との整合性が重要であること、および汎用マルチモーダルモデルが3D属性に対して頑健な信号を提供することを示した。(2) RLアルゴリズム:GRPOの変種を検討し、トークンレベル最適化の有効性を明らかにするとともに、訓練データ量と反復回数のスケーリング効果を調査した。(3) テキスト-to-3Dベンチマーク:既存のベンチマークが3D生成モデルの暗黙的推論能力を測定できないため、MME-3DRを新たに導入した。(4) 高度なRLパラダイム:3D生成の自然な階層性に着想を得て、専用の報酬アンサンブルによる大域から局所への階層的3D生成を最適化するHi-GRPOを提案した。これらの知見に基づき、粗い形状からテクスチャ洗練までを専門とする、初のRL強化型テキスト-to-3DモデルAR3D-R1を開発した。本研究が3D生成におけるRL駆動型推論への知見を提供することを期待する。コードはhttps://github.com/Ivan-Tang-3D/3DGen-R1で公開されている。
大規模言語モデル(LLM)は、検証可能な報酬による強化学習(RLVR)を通じて、複雑な推論タスクの解決において著しい進展を遂げている。この進歩は、信頼性の高い検証器による自動化された監視からも切り離せない。しかしながら、現在の結果ベース検証器(OV)は、思考連鎖(CoT)の長い推論過程における信頼性の低い中間ステップを検査できない。一方、現在のプロセスベース検証器(PV)は、人的アノテーションの膨大なコストにより高品質な注釈が不足していることから、複雑で長いCoTにおける誤りの検出を確実に行うことが困難である。そこで我々は、長いCoTから要約された結果の論理プロセスを検証する結果ベースプロセス検証器(OPV)を提案し、正確かつ効率的な検証と大規模な注釈付けを実現する。提案する検証器を強化するため、専門家の注釈を用いた反復的な能動学習フレームワークを採用し、より少ない注釈コストでOPVの検証能力を段階的に向上させる。具体的には各反復で、現在の最良OPVが最も不確実なケースに注釈を付与し、その後リジェクト微調整(RFT)とRLVRを通じて新たなOPVを訓練し、次のラウンドに備える。大規模な実験により、OPVの優れた性能と幅広い適用性が実証された。OPVは自社開発のOPV-Benchにおいて新たな最先端結果を達成し、Qwen3-Max-Previewのようなはるかに大規模なオープンソースモデル(F1スコア76.3)を上回る83.1のF1スコアを記録した。さらにOPVは合成データセット内の偽陽性を効果的に検出し、専門家評価と高い一致を示した。政策モデルと連携する場合、OPVは一貫して性能向上をもたらし、例えば計算予算の拡大に伴いAIME2025におけるDeepSeek-R1-Distill-Qwen-32Bの精度を55.2%から73.3%に向上させた。
大規模言語モデル(LLM)エージェントは強力な数学的問題解決能力を示し、形式的証明システムの補助により国際数学オリンピック(IMO)レベルの問題さえ解くことが可能です。しかし、補助的構図に対する発見的手法の弱さから、幾何学問題解決におけるAIは依然としてAlphaGeometry 2のような専門モデルが主流であり、これらは学習と評価の両方で大規模なデータ合成と探索に大きく依存しています。本研究では、幾何学問題でメダリスト級の性能を発揮するLLMエージェントを初めて構築し、InternGeometryを提案します。InternGeometryは、命題と補助構図の反復的提案、記号エンジンによる検証、エンジンのフィードバックに基づく反省を通じて、幾何学における発見的手法の限界を克服します。動的メモリ機構により、InternGeometryは問題ごとに記号エンジンと200回以上対話可能です。学習効率をさらに高めるため、訓練段階ごとに合成問題の複雑性を段階的に増加させる複雑性増強強化学習(CBRL)を導入しました。InternThinker-32Bを基盤とするInternGeometryは、13Kの訓練事例のみ(AlphaGeometry 2の使用データ量のわずか0.004%)で、IMO幾何学問題(2000-2024)50問中44問を解決し、金メダリスト平均スコア(40.9)を上回り、LLMエージェントの専門レベル幾何学タスクにおける可能性を実証しました。さらにInternGeometryは、人間の解答には現れない独自の補助構図をIMO問題に対して提案可能です。今後の研究発展のため、モデル・データ・記号エンジンを公開予定です。
モーションキャプチャは現在、デジタルヒューマンを超えたコンテンツ制作の基盤技術となっているが、既存のパイプラインの多くは依然として特定の種族やテンプレートに依存している。我々はこの課題を「カテゴリ不可知的なモーションキャプチャ(CAMoCap)」として定式化する:単眼カメラ映像と任意のリグ付き3Dアセットをプロンプトとして与えられたとき、特定のアセットを直接駆動するBVHなどの回転ベースのアニメーションを再構築することが目的である。本論文ではMoCapAnythingを提案する。これは参照誘導型の分解フレームワークであり、まず3D関節軌跡を予測し、制約を考慮した逆運動学を通じてアセット固有の回転を復元する。システムは3つの学習可能モジュールと軽量なIKステージで構成される:(1)アセットのスケルトン、メッシュ、レンダリング画像から関節ごとのクエリを抽出する参照プロンプトエンコーダ、(2)密な視覚的特徴量を計算し、粗い4D変形メッシュを再構築することで映像と関節空間のギャップを埋める動画特徴抽出器、(3)これらの手がかりを融合して時間的に一貫性のある軌跡を生成する統一運動デコーダである。また、1038のモーションクリップから成るTruebones Zooを構築し、各クリップに標準化されたスケルトン-メッシュ-レンダリングの三要素を提供する。ドメイン内ベンチマークと実世界映像の両方における実験により、MoCapAnythingが高品質な骨格アニメーションを実現し、異種リグ間での意味のある種族間リターゲティングを示すことが確認された。これにより、任意のアセットに対するスケーラブルなプロンプト駆動型3Dモーションキャプチャが可能となる。プロジェクトページ: https://animotionlab.github.io/MoCapAnything/
大規模言語モデル(LLM)が研究プロトタイプから実用システムへ移行するにつれ、実務家はモデル出力が要求される制約を満たすことを検証する信頼性の高い手法を必要とすることが多い。サンプリングに基づく推定値はモデル挙動の直感を提供するが、確固たる保証は提供しない。本論文では、LLMの制約充足に関する確定的で健全な確率限界を計算する初の実用的フレームワークBEAVERを提案する。任意の接頭辞閉鎖された意味的制約が与えられた下で、BEAVERは新規のトークントライとフロンティアデータ構造を用いて生成空間を体系的に探索し、反復毎に数学的に健全な限界を維持する。我々は検証問題を形式化し、手法の健全性を証明し、複数の最先端LLMにおける正当性検証、プライバシー検証、セキュアコード生成タスクでBEAVERを評価する。BEAVERは同一の計算予算下でベースライン手法と比較し、6~8倍厳密な確率限界を達成し、3~4倍多くの高リスクインスタンスを特定する。これにより、緩い限界や経験的評価では提供できない精密な特性評価とリスク評価が可能となる。
本論文では、科学的発見の基盤となる、不可視の微視的実体の空間的関係を認識し推論する能力である「微視的空間知能(MiSI)」の概念を提案する。この領域における視覚言語モデル(VLM)の可能性を評価するため、体系的なベンチマークフレームワーク「MiSI-Bench」を構築した。本フレームワークは約4,000の分子構造から導出された16万3,000以上の質問応答ペアと58万7,000の画像を特徴とし、基礎的な空間変換から複雑な関係同定までを評価する9つの相補的タスクを網羅している。実験結果から、現状の最先端VLMはこのベンチマークにおいて人間の水準を大幅に下回ることが明らかになった。一方、ファインチューニングした70億パラメータモデルは、空間変換タスクでは人間を凌駕するなど大きな可能性を示したが、水素結合認識のような科学的根拠を要するタスクでの低性能は、科学的AGIに向けた進歩には明示的な領域知識の統合が不可欠であることを示唆している。データセットはhttps://huggingface.co/datasets/zongzhao/MiSI-bench で公開されている。
マルチモーダル理解・生成・再構成の表現を単一のトークナイザーに統合することは、統一モデル構築における重要な課題である。従来研究は主にデュアルエンコーダの枠組みでこの問題に取り組み、例えば理解と生成にそれぞれ別個のエンコーダを利用する方法や、対照損失で意味表現と低次元特徴のバランスを取る方法が提案されてきた。本論文では、表現オートエンコーダのベクトル量子化版であるVQRAEを提案する。これは統一トークナイザー内で、画像理解のための連続的意味特徴と視覚生成のための離散トークンを生成する統合表現の先駆的な探求である。具体的には、事前学習済み視覚基盤モデルに対称ViTデコーダを組み合わせ、2段階の学習戦略を採用する。第一段階ではエンコーダを固定し、ピクセル再構成を目的として高次元の意味的VQコードブックを学習する。第二段階では自己蒸留制約を用いてエンコーダを共同最適化する。この設計により、マルチモーダル理解能力を維持するための意味情報損失を無視可能にしつつ、生成と微細な再構成に適した離散トークンを実現する。さらに、画像再構成における従来の低次元コードブックの一般的手法とは対照的に、意味エンコーダの量子化において高次元コードブックに依存する興味深い特性を明らかにした。意味的VQコードブックは1536次元において100%の利用率を達成できる。VQRAEは、視覚理解・生成・再構成の複数ベンチマークで競合する性能を示し、離散性の利点による自己回帰パラダイムにおける良好なスケーリング特性を有する。
画像思考パラダイムは、視覚情報を連鎖思考(CoT)に動的要素として統合することで、顕著な視覚推論能力を示してきた。しかし、高品質な推論データが乏しいことに依存するため、強化学習によるマルチモーダル連鎖思考(iMCoT)の最適化は依然として課題である。本研究では、iMCoTを自己呼び出し機能を持つ言語のみのCoTとして再構成する新しい視覚推論パラダイム「自己呼び出し連鎖思考(sCoT)」を提案する。具体的には、メインエージェントが複雑な視覚推論タスクを原子サブタスクに分解し、パラメータ共有サブエージェント(仮想複製)を呼び出して分離されたコンテキストで解決させる。sCoTはモダリティ間の明示的な交互作用を必要としないため、高い学習効果と効率性を実現する。sCoTはグループ相対方策最適化を採用し、効果的な推論行動を強化して最適化を促進する。HR-Bench 4Kでの実験により、sCoTが強力なベースライン手法と比較して、GPU時間を約75%削減しつつ、総合的な推論性能を最大1.9%向上させることが示された。コードはhttps://github.com/YWenxi/think-with-images-through-self-callingで公開されている。
生成的ワールドモデルは、多様な環境における視覚運動ポリシーとの相互作用シミュレーションにおいて大きな可能性を秘めている。フロンティアなビデオモデルは、現実的な観測値と環境相互作用をスケーラブルかつ汎用的な方法で生成することを可能にする。しかし、ロボティクスにおけるビデオモデルの利用は、主に分布内評価、すなわちポリシーの学習や基盤ビデオモデルのファインチューニングに用いられたシナリオと同様の場面に限定されてきた。本報告では、ビデオモデルがロボティクスにおけるポリシー評価の全ユースケース、すなわち公称性能の評価から分布外(OOD)汎化性能、物理的・意味的な安全性の検証に至るまで、利用可能であることを実証する。我々は、フロンティアなビデオ基盤モデル(Veo)上に構築された生成的評価システムを紹介する。このシステムは、ロボットの行動条件付けとマルチビュー一貫性のサポートに最適化されるとともに、生成的画像編集とマルチビュー補完を統合し、実世界シーンの現実的なバリエーションを複数の汎化軸に沿って合成する。本システムが、新規の相互作用対象物、新規の視覚的背景、新規の妨害対象物を含むように編集されたシーンを正確にシミュレートするという、ビデオモデルの基本能力を保持することを実証する。この高精度性により、公称条件およびOOD条件下での異なるポリシーの相対的性能を正確に予測し、異なる汎化軸がポリシー性能に与える相対的影響を判定し、物理的または意味的な安全性制約に違反する行動を暴露するためのポリシーのレッドチーミングを実行することが可能となる。我々は、双腕マニピュレータにおける8つのGemini Roboticsポリシーチェックポイントと5つのタスクに対して1600回以上に及ぶ実世界評価を通じて、これらの能力を検証する。
本論文では、単眼画像からのステレオ合成のための拡散ベースフレームワーク「StereoSpace」を提案する。本手法は、明示的な深度推定やワーピングを用いず、視点条件付けのみによって幾何学をモデル化する。正規化された平行化空間と条件付けにより、生成器は対応点の推定とディオクルージョン領域の補完をエンドツーエンドで学習する。公平かつ情報漏洩のない評価を確保するため、推論時にグランドトゥルースや代理ジオメトリ推定を一切用いないエンドツーエンド評価プロトコルを構築した。このプロトコルでは、実用性を反映する指標として、知覚的快適性を測るiSQoEと幾何学的一貫性を測るMEt3Rを重視する。StereoSpaceは、ワープ&インペイント、潜在空間ワーピング、ワープ条件付けといった従来手法を凌駕し、レイヤードシーンや非ランバート面においても鋭い視差と高いロバスト性を実現した。これにより、視点条件付け拡散モデルが、深度情報に依存しないスケーラブルなステレオ生成手法として有効であることを立証する。
正規化層は長らく深学習アーキテクチャの必須構成要素と見なされてきたが、近年導入されたDynamic Tanh(DyT)は代替手法の可能性を示した。点単位関数であるDyTは安定した収束のために極端な値を制約し、正規化レベルの性能を達成する。本研究はこれを超える関数設計をさらに探求する。まず点単位関数の内在的特性が学習と性能に与える影響を分析し、これらの知見に基づいてより効果的な関数設計の大規模探索を実施する。この探求を通じて、Derf(x) = erf(αx + s)(erf(x)は再スケーリングされたガウス累積分布関数)を導入し、最も高性能な設計として同定した。Derfは、画像認識・生成を含む視覚領域、音声表現、DNA配列モデリングなど広範な領域でLayerNorm、RMSNorm、DyTを凌駕する。Derfの性能向上は、より強力なフィッティング能力ではなく、改善された汎化性能に由来することが示唆される。その簡潔さと優れた性能により、Derfは正規化不要のTransformerアーキテクチャにおける実用的な選択肢となる。
Video Question Answering (VideoQA) タスクは、基盤モデルが動的な実世界のシナリオを効果的に知覚し、理解し、推論できるかどうかを評価する重要な場として機能する。しかし、既存のマルチモーダル大規模言語モデル (MLLM) は、複雑で推論集約的な VideoQA タスクにおいて、ビデオフレーム内の空間関係をモデル化しつつ、時間的進化の因果的ダイナミクスを理解することを同時に行うことに苦戦している。本研究では、MLLM に包括的かつ拡張可能なビデオツールキットを装備し、MLLM の時空間推論能力を強化するとともに、ツールの量と多様性の調和を確保する。ツール呼び出しシーケンスをより適切に制御し、ツールチェーンのショートカット問題を回避するため、我々は時間的ツールと空間的ツールを戦略的にスケジュールし、それによってビデオ内のキーエリアを段階的に特定する時空間推論フレームワーク (STAR) を提案する。我々の STAR フレームワークは、軽量なツールを使用して GPT-4o を強化し、VideoMME で 8.2%、LongVideoBench で 4.6% の向上を達成した。提案するビデオツールキットと STAR フレームワークは、自律的で知的なビデオ分析アシスタントの構築に向けた重要な一歩となると信じている。コードは https://github.com/fansunqi/VideoTool で公開されている。
日常的な人間の動画から操作スキルを学習するロボットは、煩雑なロボットデータ収集なしに広範な能力を獲得できる可能性がある。本論文では、一般的な人間-物体相互作用ビデオを、現実的で物理的に接地された相互作用を持つ、動作の一貫したロボット操作ビデオに変換する、ビデオ間翻訳フレームワークを提案する。本手法は学習のためにペアとなった人間-ロボットビデオを一切必要とせず、ペアになっていないロボットビデオのセットのみを必要とするため、システムの拡張が容易である。本稿では、身体性のギャップを埋める転移可能な表現を導入する:学習ビデオにおいてロボットアームを修復(inpainting)して背景をクリーンにし、単純な視覚的合図(把持部の位置と向きを示すマーカーと矢印)を重ね合わせることで、生成モデルがシーンにロボットアームを再挿入する条件付けが可能となる。テスト時には、人間のビデオに対しても同様の処理(人物の修復と人間の姿勢合図の重ね合わせ)を適用し、人間の動作を模倣した高品質なロボットビデオを生成する。時間的一貫性を確保し、その豊富な事前知識を活用するため、SOTAのビデオ拡散モデル(Wan 2.2)を文脈学習(in-context learning)の方法でファインチューニングする。実験結果は、本手法がベースラインと比較して有意により現実的で接地されたロボット動作を実現することを示しており、ラベル付けされていない人間のビデオからのロボット学習のスケールアップに向けた有望な方向性を示唆している。プロジェクトページ: https://showlab.github.io/H2R-Grounder/
FACTSリーダーボードを紹介します。これは、オンラインリーダーボードスイートおよび関連ベンチマーク群であり、様々なシナリオにわたって言語モデルが事実に基づいた正確なテキストを生成する能力を包括的に評価します。本スイートは、4つの異なるサブリーダーボードにおけるモデルの性能を集約することで、事実性に関する総合的な測定を提供します:(1) **FACTS Multimodal** - 画像に基づく質問への応答の事実性を測定、(2) **FACTS Parametric** - 内部パラメータから閉じた本形式の知識質問に答えることでモデルの世界知識を評価、(3) **FACTS Search** - モデルが検索APIを利用しなければならない情報探索シナリオにおける事実性を評価、(4) **FACTS Grounding (v2)** - 長文応答が提供された文書に基づいているかどうかを評価し、大幅に改善された判定モデルを特徴とします。各サブリーダーボードは自動判定モデルを用いてモデルの応答を採点し、最終的なスイートスコアはこれら4要素の平均値であり、モデルの全体的な事実性に対する堅牢でバランスの取れた評価を提供するように設計されています。FACTSリーダーボードスイートは積極的に維持され、外部からの参加を可能にしつつその完全性を守るために、公開用と非公開用のデータ分割を含みます。詳細は https://www.kaggle.com/benchmarks/google/facts でご覧いただけます。
4Dガウシアンスプラッティング(4DGS)の最近の進展により、3Dガウシアンスプラッティング(3DGS)の高速レンダリング能力が時間領域に拡張され、動的シーンのリアルタイムレンダリングが可能となった。しかし、残る主要な課題の一つは、長期的な動きを含む動的ビデオのモデリングである。既存手法を単純に拡張すると、深刻なメモリ爆発、時間的なフリッカー、時間経過に伴う出現・消失オクルージョンの処理失敗が生じる。これらの課題に対処するため、我々はAnchor Relayに基づく双方向ブレンディング(ARBB)機構を特徴とする新しい4DGSフレームワーク、MoRelを提案する。本手法は、長期的な動的シーンを時間的に一貫性があり、メモリ効率的にモデリングする。我々の手法は、キーフレーム時間インデックスにおいて局所的な正準アンカー空間を段階的に構築し、アンカーレベルでフレーム間変形をモデル化することで、時間的一貫性を強化する。キーフレームアンカー(KfA)間の双方向変形を学習し、学習可能な不透明度制御を通じて適応的にブレンドすることで、時間的な不連続性とフリッカーアーティファクトを軽減する。さらに、特徴量分散に基づいてレンダリング品質を維持しつつKfAを効果的に高密度化する、特徴量分散誘導型階層的高密度化(FHD)スキームを導入する。実世界の長期的4Dモーション処理能力を効果的に評価するため、SelfCap_{LR}と呼ぶ新たな長期的4Dモーション包含データセットを構築した。これは、従来の動的ビデオデータセットと比較して、平均動的モーション量が大きく、空間的に広い範囲でキャプチャされている。全体として、我々のMoRelは、メモリ使用量を抑えつつ、時間的に一貫性がありフリッカーのない長期的4D再構成を実現し、動的ガウシアンベース表現における拡張性と効率性の両方を実証している。
映像統合モデルは、理解と生成において強力な能力を示すが、強力な内部視覚言語モデル(VLM)を備えている場合でも、推論を考慮した映像編集には課題を抱えている。この乖離は以下の二つの要因に起因すると考えられる:1)既存のデータセットが推論を意識した映像編集の学習と評価に不適切であること、2)モデルの推論能力と編集能力の間にある本質的な断絶により、豊富な理解が編集プロセスを効果的に指示することを妨げていること。この乖離を埋めるには、推論と視覚的変換を結びつける統合的なフレームワークが必要である。この課題に対処するため、我々は推論を考慮した映像編集(RVE)タスクを提案する。これは編集過程において物理的な妥当性と因果的ダイナミクスについて推論することを要求するものである。体系的な評価を可能にするため、二つの相補的なサブセット(推論考慮型映像編集と文脈内映像生成)から構成される総合的なベンチマークRVE-Benchを構築した。これらのサブセットは多様な推論次元と実世界の編集シナリオを網羅している。この基盤に立脚し、生成と評価を単一アーキテクチャ内に統合する自己反省的推論(SRF)フレームワークReViSEを提案する。本モデルは内部VLMにより、編集された映像が与えられた指示を論理的に満たしているか評価することで内発的フィードバックを提供する。この差分フィードバックは学習過程中に生成器の推論行動を洗練させる。RVE-Benchにおける大規模な実験により、ReViSEが編集精度と視覚的忠実度を大幅に向上させ、推論考慮型映像編集サブセットにおいて従来の最先端手法を32%上回るOverallスコアを達成することを実証した。
視覚概念の個人化は、アイデンティティ、表情、照明、スタイルといった特定の画像属性のみを、未見の文脈に転移させることを目的としている。しかし、既存手法は汎用画像エンコーダーから得られる全体的な埋め込みに依存しており、これらは複数の視覚要素を絡み合わせるため、単一属性を分離することが困難である。このため、情報漏洩や不整合な合成が生じることが多い。この課題を解決するため、我々は高精度で属性特化的な表現を学習する、初のオープン語彙画像属性エンコーダーであるOmni-Attributeを提案する。本手法ではデータとモデルを共同で設計する:(i) 保持すべき属性と抑制すべき属性が注釈付けされた意味的に関連する画像ペアを構築し、エンコーダーに明示的に教示する。(ii) 生成的忠実性と対照的な乖離のバランスを取る二重目的学習パラダイムを採用する。その結果得られる埋め込みは、オープン語彙属性検索、個人化、合成的生成において有効であり、複数のベンチマークで最先端の性能を達成する。
現実世界のAIソフトウェア工学では、大規模なリポジトリを推論対象とし、長期間のセッション内外で持続的なメモリを維持し、テスト時に複雑なツールチェーンを堅牢に調整できるコーディングエージェントが求められています。既存のオープンソースコーディングエージェントは透明性を提供しますが、このような産業規模のワークロードが要求される場面ではしばしば不十分です。一方、プロプライエタリなコーディングエージェントは実用的な性能に優れるものの、拡張性、解釈可能性、制御性が限られています。本論文では、産業規模で動作可能なオープンソースのAIソフトウェアエンジニアであるConfucius Code Agent (CCA)を提案します。CCAは、Confucius SDK上に構築されています。Confucius SDKは、エージェント体験(AX)、ユーザー体験(UX)、開発者体験(DX)という3つの相補的な視点を中心に設計されたオープンソースのエージェント開発プラットフォームです。このSDKは、長文脈推論のための階層的な作業メモリを備えた統一オーケストレータ、セッションを跨ぐ継続的学習のための永続的なノート記録システム、堅牢なツール使用のためのモジュラー式拡張モジュールを導入しています。さらに、メタエージェントが、ビルド-テスト-改善のループを通じてエージェント設定の合成、評価、改良を自動化し、新しいタスク、環境、ツールスタックへの迅速なエージェント開発を可能にします。これらのメカニズムを備えたConfucius SDK上で具現化されたCCAは、現実世界のソフトウェア工学タスクにおいて強力な性能を発揮します。SWE-Bench-Proでは、CCAは54.3%というResolve@1の状態-of-the-art性能を達成し、従来のコーディングエージェントを大幅に上回ります。Confucius SDKとCCAは一体となり、AIエージェントのための透明性が高く拡張可能で再現性のある基盤を提供し、研究プロトタイプと製品グレードシステム間のギャップを埋め、産業規模でのエージェント開発とデプロイメントを支援します。
大規模言語モデル(LLM)エージェントは複雑な対話型タスクに広く展開されているが、プライバシー制約のため、動的環境における集中型最適化や共進化が妨げられることが多い。連合学習(FL)は静的なデータセットにおいて有効性が実証されているものの、エージェントのオープンエンドな自己進化への拡張は未開拓の領域である。標準的なFLを直接適用するには課題がある。異種混合のタスクと疎な軌道レベルの報酬は深刻な勾配衝突を引き起こし、大域的最適化プロセスを不安定にする。このギャップを埋めるため、我々はLLMエージェントのための連合自己進化フレームワーク「Fed-SE」を提案する。Fed-SEは「局所的進化‐大域的集約」のパラダイムを確立する。局所的には、エージェントはフィルタリングされた高リターンの軌道に対してパラメータ効率的なファインチューニングを適用し、安定した勾配更新を実現する。大域的には、Fed-SEは環境固有のダイナミクスを分離する低ランク部分空間内で更新を集約し、クライアント間の負の転移を効果的に低減する。5つの異種環境での実験により、Fed-SEが連合学習ベースラインと比較して平均タスク成功率を約18%向上させ、プライバシー制約下での展開において、ロバストな環境間知識転送における有効性が実証された。
ロールプレイングエージェント(RPA)は、多ターンにわたる指示への追従、領域知識の提示、一貫した言語スタイルの採用など、多くの相反する技能を同時に習得する必要がある。既存研究は、表面的な手がかりに過剰適合して多様性が低下する教師ありファインチューニング(SFT)に依存するか、あるいはRPAの総合的最適化に必要な多次元学習に失敗する強化学習(RL)を適用している。本論文では、一般的なRPAのための多次元かつ細粒度な評価基準最適化を実現する強化学習フレームワーク「MOA(Multi-Objective Alignment)」を提案する。MOAは、最適化性能を向上させるため、複数の細粒度評価基準に同時に学習させる新たな多目的最適化戦略を導入する。さらに、モデル出力の多様性と品質の問題に対処するため、オフポリシー指導を伴う思考拡張ロールアウトも採用した。PersonaGymやRoleMRCなどの難易度の高いベンチマークによる大規模な実験により、MOAが8Bパラメータモデルにおいて、多くの次元でGPT-4oやClaudeなどの強力なベースラインを匹敵もしくは凌駕する性能を発揮させることを実証した。これは、MOAが役割知識、人物スタイル、多様なシナリオ、複雑な多ターン対話という要求を同時に満たすRPA構築における大きな可能性を示している。
具身AIの進歩により、ヒューマノイドロボットの知能化に大きな可能性が開かれた。しかし、Vision-Language-Action(VLA)モデルと世界モデルの双方の発展は、大規模で多様な訓練データの不足によって深刻な制約を受けている。有望な解決策として、Web規模の人間動作ビデオを「ロボット化」する手法が提案され、政策訓練において有効性が実証されている。しかし既存手法は主にエゴセントリックビデオにロボットアームを「重ねる」方式であり、三人称ビデオにおける複雑な全身動作や場景オクルージョンに対処できないため、人間動作のロボット化には不向きである。この課題を解決するため、我々はX-Humanoidを提案する。これはWan 2.2モデルをビデオ対ビデオ構造に適合させ、人間-ヒューマノイド変換タスク向けにファインチューニングした生成的ビデオ編集手法である。このファインチューニングには対をなす人間-ヒューマノイドビデオが必要なため、Unreal Engineを用いてコミュニティ資産を17時間以上の合成ペアビデオに変換するスケーラブルなデータ生成パイプラインを構築した。学習済みモデルをEgo-Exo4Dの60時間分のビデオに適用し、360万フレーム以上の新規大規模「ロボット化」ヒューマノイドビデオデータセットを生成・公開した。定量分析とユーザスタディにより、本手法が既存ベースラインを凌駕することを確認:ユーザの69%が動作一貫性で、62.1%が身体性の正確さで当手法を最高と評価した。
近年、ビジョン言語モデル(VLM)に基づくアプローチは、SVG生成において印象的な成果を上げている。しかし、これらの手法はテキストのみを生成し、デコーディング過程で視覚信号を欠くため、複雑な意味構造の処理に苦戦し、視覚的に魅力的かつ幾何学的に一貫性のあるSVGの生成に失敗することが多い。本論文では、画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデル、DuetSVGを提案する。DuetSVGは画像データセットとSVGデータセットの両方で学習される。推論時には、モデルが内在的に持つ視覚的予測をガイダンスとして活用し、SVGデコーディングの品質を向上させる新しいテスト時スケーリング戦略を適用する。大規模な実験により、本手法が既存手法を凌駕し、多様なアプリケーション領域において、視覚的に忠実で、意味的に整合性が取れ、構文的にクリーンなSVGを生成できることを実証する。