翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)における効果的な下流性能の発揮には、学習後データの多様性が重要である。既存の多くの手法では、テキストベースの指標を用いて言語的多様性を定量化するが、このような指標は下流性能を決定するタスク関連特徴に対して弱い信号しか提供しない。本研究では、解釈可能な特徴空間でデータ多様性を測定するFeature Activation Coverage(FAC)を提案する。この指標に基づき、疎なオートエンコーダーでシードデータセットから欠損特徴を特定し、これらの特徴を明示的に反映した合成サンプルを生成する多様性駆動型データ合成フレームワーク「FAC Synthesis」をさらに構築した。実験結果から、本手法が指示追従、毒性検出、報酬モデリング、行動制御などの多様なタスクにおいて、データ多様性と下流性能の両方を一貫して向上させることが示された。興味深いことに、LLaMA、Mistral、Qwenといったモデルファミリー間で共有可能な解釈可能な特徴空間を同定し、モデル間知識転移を実現した。本研究はLLMのデータ中心最適化を探求するための堅牢かつ実用的な方法論を提供するものである。
音声クエリ検索は、現代の情報検索における重要なインタラクションモードである。しかし、既存の評価データセットは制約のあるノイズ条件下での単純なクエリに限定されることが多く、複雑な音響的摂動下での音声クエリ検索システムのロバスト性評価には不十分である。この課題に対処するため、我々は大規模データセットと統一評価プロトコルを含む音声クエリ検索のロバスト性ベンチマーク「SQuTR」を提案する。SQuTRは、6つの一般的に使用される英語と中国語のテキスト検索データセットから37,317のユニークなクエリを集約し、複数ドメインと多様なクエリタイプを網羅している。200人の実話者による音声プロファイルを使用して音声を合成し、制御されたSNRレベル下で17カテゴリの実世界環境ノイズを混合することで、静かな環境から高ノイズ条件まで再現性のあるロバスト性評価を可能にした。統一プロトコルに基づき、代表的なカスケード型およびエンドツーエンド検索システムに対する大規模評価を実施した。実験結果は、ノイズの増加に伴い検索性能が低下し、システム間で大幅に異なる低下率を示すことを明らかにした。大規模検索モデルでさえ極端なノイズ条件下では苦戦し、ロバスト性が依然として重大なボトルネックであることが示された。総合的に、SQuTRはベンチマーキングと診断分析のための再現性のあるテストベッドを提供し、音声クエリからテキスト検索におけるロバスト性の将来研究を促進する。
我々はMedXIAOHEを提案する。これは実世界の臨床応用における汎用医療理解と推論を推進する医療視覚言語基盤モデルである。MedXIAOHEは多様な医療ベンチマークでState-of-the-Art性能を達成し、複数の能力において主要なクローズドソースマルチモーダルシステムを凌駕している。これを実現するため、我々は異種混合の医療コーパスを体系化して知識カバレッジを拡大し(稀有病などの)ロングテールギャップを軽減するエンティティ認識継続事前学習フレームワークを提案する。医療専門家レベルの推論と対話を実現するため、MedXIAOHEは強化学習とツール拡張エージェント訓練を通じて多様な医療推論パターンを統合し、検証可能な判断軌跡を伴う多段階診断推論を可能とする。実世界での信頼性向上のため、ユーザー選好基準、証拠に基づく推論、低幻覚の長文レポート生成を統合し、医療指示への適合性を改善している。本報告では実践的な設計選択、スケーリングの知見、評価フレームワークを公開し、今後の研究発展を促すことを目的とする。
マルチモーダル大規模言語モデル(MLLM)は広範な視覚理解に優れる一方、決定的な証拠が微小で大域的な文脈に埋もれやすい細粒度知覚には依然として課題を抱えています。近年の「画像を用いた思考」手法は、推論時に注目領域を反復的に拡大・縮小することでこの問題を緩和しますが、繰り返しのツール呼び出しと視覚的再エンコーディングにより高い遅延が生じます。この課題に対処するため、我々は領域から画像への知識蒸留(Region-to-Image Distillation)を提案します。これにより、拡大操作を推論時のツールから学習時の基本要素へと変換し、エージェント的な拡大の利点をMLLMの単一フォワードパスに内在化させます。具体的には、まず微細なクロップ領域を拡大して強力な教師モデルに高品質なVQAデータを生成させ、その後この領域に根ざした監督信号を元画像へ蒸留します。このようなデータで学習後、小型の生徒モデルはツール使用なしで「一瞥による」細粒度知覚能力を向上させます。この能力を厳密に評価するため、我々は6つの細粒度知覚次元にわたる845のVQAデータからなるハイブリッド注釈ベンチマーク「ZoomBench」を開発し、大域-領域間の「拡大ギャップ」を定量化するデュアルビュープロトコルを導入しました。実験結果から、提案モデルは複数の細粒度知覚ベンチマークで最先端の性能を達成し、視覚推論やGUIエージェントなどの一般的なマルチモーダル認知タスクも改善することが示されました。さらに、「画像を用いた思考」が必須となる場合と、その利益が単一フォワードパスへ蒸留可能な場合の境界について考察します。コードはhttps://github.com/inclusionAI/Zooming-without-Zooming で公開しています。
仮説。人工汎用知能の本質は、圧縮問題である。効果的な圧縮には共鳴が必要である:深層学習は、そのアーキテクチャがデータの基本構造と整合したときに最高のスケーリングを発揮する。これらが基本原理である。しかし、現代の視覚アーキテクチャはこれらの真実から逸脱している:視覚信号は高度に冗長である一方、識別情報、すなわち「驚き」は疎である。現在のモデルは密なピクセルグリッドを均一に処理し、動きと意味を定義する予測残差に集中せず、静的な背景に膨大な計算を浪費している。我々は、視覚理解を解決するためには、アーキテクチャをビデオの情報理論的原則、すなわちコーデックに整合させなければならないと主張する。 手法。OneVision-Encoderは、予測的視覚構造を意味に圧縮することでビデオを符号化する。Codec Patchificationを採用することで、OV-Encoderは均一な計算を放棄し、信号エントロピーが豊富な領域(3.1%〜25%)のみに専念する。不規則なトークンレイアウトの下で空間的・時間的推論を統一するため、OneVision-Encoderは共有3D RoPEを採用し、100万を超える意味概念に対する大規模クラスタ識別目標で学習され、対象の永続性と運動ダイナミクスを共同で捕捉する。 実証結果。結果は我々の核心的な仮説を実証する:効率と精度はトレードオフではなく、正の相関にある。LLMに統合された場合、視覚トークン数と事前学習データ量を大幅に削減しているにも関わらず、Qwen3-ViTやSigLIP2のような強力な視覚バックボーンを、16の画像、ビデオ、文書理解ベンチマークで一貫して上回る。特に、ビデオ理解タスクでは、OV-EncoderはQwen3-ViTに対して平均4.1%の改善を達成する。コーデック整合的なパッチレベルの疎性は基本原理であり、次世代視覚汎化モデルのためのスケーラブルなエンジンとしてのOV-Encoderを可能にする。
ビデオ言語モデル(VideoLM)は、AIシステムにビデオの時間的ダイナミクスを理解する能力を与える。最大コンテキスト長の制約に適合するため、現在の手法はキーフレームサンプリングを使用しているが、時間的なカバレッジが疎であるため、マクロレベルのイベントとミクロレベルの詳細の両方を見落とす可能性がある。さらに、各フレームの完全な画像とそのトークンを処理することは、大幅な計算オーバーヘッドを招く。これらの制限に対処するため、我々はビデオコーデックの基本要素(具体的には動きベクトルと残差情報)を活用することを提案する。これらは本来、ほとんどのフレームで高価な完全画像エンコーディングを必要とせずに、ビデオの冗長性と疎性を符号化するものである。この目的のために、我々は軽量なTransformerベースのエンコーダを導入し、コーデック基本要素を集約し、その表現を画像エンコーダの埋め込みと整合させるための事前学習戦略を通じて、エンドツーエンドのファインチューニング時の収束を加速する。我々の手法は、標準的なVideoLMと比較して、最初のトークンまでの時間を最大86%、トークン使用量を最大93%削減する。さらに、キーフレームとコーデック基本要素の密度を変化させることで、一般的な質問応答、時間的推論、長尺理解、空間的シーン理解にわたる14の多様なビデオ理解ベンチマークにおいて、性能を維持または向上させることに成功している。
本論文では、人間に近い推論を行い、細粒度な住所結論を導出可能なGeoAgentモデルを提案する。従来の強化学習ベースの手法は性能と解釈可能性において画期的な成果を達成してきたが、地理的特性と矛盾するAI生成の連鎖思考(CoT)データと学習戦略への依存が依然として課題となっている。これらの問題を解決するため、我々はまず地理専門家とプロフェッショナルプレイヤーによって注釈付けされたCoTデータから構成される新しい測位データセットGeoSeekを導入する。さらに、地理タスクの内在的特性を徹底的に調査し、地理的類似性報酬と一貫性エージェントによって評価される一貫性報酬を学習支援として提案する。これにより、モデルが地理的観点から正解へ収束すると同時に、推論プロセスの完全性と一貫性が保証される。実験結果では、GeoAgentが複数の粒度において既存手法および一連の汎用VLLMを凌駕し、人間の思考に極めて近い推論を生成することを示す。
意味論的運動に基づく映像検索は、基本的でありながら未解決の問題である。既存の映像表現手法は、学習データと目的から継承されたバイアスにより、運動ダイナミクスよりも静的外観やシーン文脈に過度に依存している。逆に、光フローなどの従来の運動中心の入力は、高次元の運動を理解するために必要な意味的基盤を欠いている。この内在的バイアスを実証するため、制御された合成データと新たに人手で注釈付けされた実世界データセットを組み合わせたSimMotionベンチマークを導入する。既存モデルがこれらのベンチマークで著しく低い性能を示し、外観から運動を分離することにしばしば失敗することを明らかにする。この課題を解決するため、事前学習済み意味モデルからの特徴量に対して時間統計量(特に高次モーメント)を計算する、簡潔で学習不要な手法SemanticMomentsを提案する。我々のベンチマーク全体で、SemanticMomentsは既存のRGB、フロー、テキスト教師付き手法を一貫して上回る。これは、意味特徴空間における時間統計量が、運動中心の映像理解のためのスケーラブルで知覚的に基礎付けられた基盤を提供することを実証している。
検証可能な報酬を用いた強化学習(RL)は、視覚言語モデルの視覚的推論能力を高める標準的な学習後段階となっているが、教師ありファインチューニングによるコールドスタート初期化(IN)と比較して、RLが実際にどのような能力を改善するかは不明なままである。エンドツーエンドのベンチマーク向上は複数の要因が混在するため、改善を特定のスキルに帰属させることが困難である。この隔たりを埋めるため、我々はフランケンシュタイン風の分析フレームワークを提案する:(i)因果的プロービングによる機能局在、(ii)パラメータ比較による更新特性評価、(iii)モデルマージによる転移可能性テスト。その結果、RLは主に中後期層において一貫した推論時シフトを誘導し、これらの中期~後期の改良がRLによる向上に対して転移可能(マージによる)かつ必要不可欠(凍結による)であることがわかった。全体として、視覚的推論におけるRLの確かな貢献は、視覚認識の均一な強化ではなく、視覚から推論への整合性と推論性能を改善する中期~後期トランスフォーマー計算の体系的な洗練であることを示唆しており、マルチモーダル推論の改善を理解する上でベンチマークのみに依存した評価の限界を浮き彫りにしている。
AIエージェントは、ますます複雑なタスクに取り組むことができるようになっています。より野心的な目標を達成するためには、AIエージェントが問題を意味のある形で管理可能なサブコンポーネントに分解し、その完了を他のAIエージェントや人間に安全に委任できる必要があります。しかし、既存のタスク分解および委任手法は単純なヒューリスティックに依存しており、環境変化に動的に適応したり、予期せぬ失敗を堅牢に処理したりすることはできません。本稿では、インテリジェントなAI委任のための適応的フレームワークを提案します。これは、タスク割り当てを含む一連の意思決定シーケンスであり、権限、責任、説明責任の移転、役割と境界に関する明確な仕様、意図の明確化、および二者(またはそれ以上)の当事者間の信頼を確立するメカニズムも組み込まれています。提案するフレームワークは、複雑な委任ネットワークにおける人間とAIの両方の委任者および被委任者に適用可能であり、新興のエージェント型ウェブにおけるプロトコル開発に貢献することを目指しています。
多様なハードウェリにおける汎用身体性エージェントの構築は、ロボティクスにおける中心的な課題であり、しばしば「単一頭脳・多様な形態」パラダイムとして捉えられてきた。この進歩は、断片化したデータ、不統一な表現、不一致な訓練目標によって妨げられている。本研究では、ABot-M0フレームワークを提案する。これは体系的なデータキュレーションパイプラインを構築するとともに、モデルアーキテクチャと訓練戦略を共同最適化し、異種混在の生データを統一的で効率的な表現へとエンドツーエンドで変換することを可能にする。6つの公開データセットから、サンプルのクリーニング、標準化、バランス調整を行い、600万以上の軌跡と9,500時間以上のデータを有し、多様なロボット形態とタスクシナリオを網羅する大規模データセットUniACT-datasetを構築した。統一的な事前学習は、プラットフォームやタスクを超えた知識転移と汎化性能を向上させ、汎用身体性知能を支える。行動予測の効率性と安定性を向上させるため、我々は「行動多様体仮説」を提案する:有効なロボット行動は、高次元空間全体に存在するのではなく、物理法則とタスク制約によって支配される低次元で滑らかな多様体上に存在する。これに基づき、Action Manifold Learning (AML) を導入する。AMLはDiTバックボーンを用いて、クリーンで連続的な行動系列を直接予測する。これにより、学習はノイズ除去から実行可能な多様体への射影へと転換され、デコード速度と方策の安定性が向上する。ABot-M0は、VLMの意味情報と幾何学的事前情報、さらにVGGTやQwen-Image-Editなどのプラグアンドプレイ型3Dモジュールからのマルチビュー入力を統合するデュアルストリーム機構により、モジュラー知覚をサポートする。これにより、バックボーンを変更することなく空間理解が強化され、3D推論における標準VLMの限界が緩和される。実験により、各コンポーネントが独立して動作し、相乗効果をもたらすことが示された。再現性と将来の研究のため、全てのコードとパイプラインを公開する予定である。
シミュレーションは、視覚言語行動(VLA)モデルの学習データを拡充するための、スケーラブルで低コストな手法を提供し、高価な実ロボットによる実演データへの依存を軽減する。しかし、ほとんどのシミュレーション-実環境共同訓練手法は教師ありファインチューニング(SFT)に依存しており、シミュレーションを静的な実演データの供給源として扱うだけで、大規模な閉ループ相互作用を活用していない。その結果、実世界での性能向上や汎化性能は往々にして限定的となる。本論文では、対話型シミュレーションを活用しつつ実世界での能力を維持する、強化学習(RL)ベースのシミュレーション-実環境共同訓練(RL-Co)フレームワークを提案する。我々の手法は、汎用的な2段階設計に従う。まず、実世界とシミュレーションの実演データを混合したデータセットでSFTを用いてポリシーをウォームスタートし、次に、シミュレーション内で強化学習によるファインチューニングを実施する。この際、実世界データに対する補助的な教師あり損失を追加し、ポリシーを固定点に拘束して破滅的忘却を軽減する。代表的なVLAアーキテクチャであるOpenVLAとπ_{0.5}を用いた4つの実世界タブレットップマニピュレーション課題で本フレームワークを評価した結果、実データのみによるファインチューニングやSFTベースの共同訓練と比較して一貫した改善が観察され、OpenVLAでは実世界成功率が+24%、π_{0.5}では+20%向上した。成功率の向上に加えて、RL共同訓練は、未見のタスク変種に対するより強力な汎化性能と、実世界データ効率の大幅な改善をもたらし、実ロボットの性能向上に向けてシミュレーションを活用する実用的かつスケーラブルな経路を提供する。
ユニバーサルな映像理解には、多様な実世界シナリオにおいて、時間的に変化する微細な視覚・聴覚情報のモデリングが求められる。しかし、既存モデルの性能は、複雑な視聴覚コンテンツを単一で不完全な記述として表現し、微細な構造化や信頼性の高い注釈を欠く、映像指示データによって主に制約されている。この問題に対処するため、我々は以下を提案する:(i) **ASID-1M** — 単一属性および複数属性の監督付きで、100万の構造化された微細な視聴覚指示注釈からなるオープンソースデータセット;(ii) **ASID-Verify** — 注釈のためのスケーラブルなデータキュレーションパイプライン。記述と対応する視聴覚コンテンツ間の意味的・時間的一貫性を強制する自動検証・洗練機能を備える;(iii) **ASID-1M** で教師ありファインチューニング(SFT)により学習された映像理解モデル **ASID-Captioner**。視聴覚キャプション生成、属性別キャプション生成、キャプションに基づく質疑応答、キャプションに基づく時間的定位を含む7つのベンチマークによる実験では、ASID-Captionerが微細なキャプションの品質を向上させつつ、幻覚を減少させ、指示追従性を改善することが示された。本モデルはオープンソースモデルの中でState-of-the-artの性能を達成し、Gemini-3-Proに匹敵する競争力を有する。
大規模言語モデル(LLM)の推論は、リソースが制約された環境ではメモリフットプリントとメモリ帯域幅によって律速されることが多く、量子化は効率的なサービス提供のための基本技術となっている。学習後量子化(PTQ)は4ビットでは高い精度を維持するが、2-3ビットでは精度が劣化する。根本的に、既存手法は各グループに対して形状不変の量子化グリッド(例えばUINT2の固定均一間隔)を強制するため、誤差最小化の実行可能集合が厳しく制限される。この問題に対処するため、本論文ではBit-Plane Decomposition Quantization(BPDQ)を提案する。BPDQはビットプレーンとスカラー係数を用いて可変量子化グリッドを構築し、近似二次情報を用いてこれらを反復的に改良しながら量子化誤差を段階的に補償し、出力差異を最小化する。2ビット領域において、BPDQは単一のRTX 3090でQwen2.5-72Bを動作させ、GSM8K精度83.85%(16ビット時の90.83%対比)を達成する。さらに理論分析により、可変グリッドが実行可能集合を拡大すること、および量子化プロセスがヘッセ行列が誘導する幾何学において最適化目標と一貫して整合することを示す。コード:github.com/KingdalfGoodman/BPDQ。
拡散大規模言語モデル(dLLM)は、トークンの並列生成が可能であることから、自己回帰(AR)LLMの有力な代替として登場した。このパラダイムは、コード生成において特に有効である。なぜなら、コード生成では構造全体の計画性や非逐次的な修正が重要となるからだ。しかしながら、この可能性にもかかわらず、dLLMをCUDAカーネル生成に特化させることは依然として課題が多い。これは、高度な専門性が要求されることに加え、高品質な訓練データが極度に不足していることが主な原因である。これらの課題に対処するため、我々は高性能CUDAカーネルに最適化された拡張教師ありファインチューニングデータセット「CuKe」を構築した。さらに、CUDAカーネル穴埋め段階とエンドツーエンドのCUDAカーネル生成段階からなる、二段階選別強化学習(BiC-RL)フレームワークを提案する。この訓練フレームワークを活用し、我々はCUDAカーネル生成向けに設計された拡散大規模言語モデルシリーズ「DICE」を開発した。DICEは1.7B、4B、8Bという3つのパラメータ規模を有する。KernelBenchを用いた大規模な実験により、DICEは同等規模の自己回帰LLMおよび拡散LLMの両方を大きく上回り、CUDAカーネル生成において新たなstate-of-the-artを確立することを実証した。
科学的推論には、領域特化的な知識を扱うために高度なツールキットを統合することが本質的に求められる。しかし、現在のベンチマークでは、このような厳密なワークフローを実行するためにツールを調整するエージェントの能力がほとんど評価されていない。この隔たりを埋めるため、我々はSciAgentGymを提案する。これは、堅牢な実行基盤を備え、4つの自然科学分野にわたる1,780の領域特化的なツールを特徴とするスケーラブルな対話型環境である。これを補完するものとして、基本動作から長期的なワークフローに至るまで、エージェント能力を厳密に試験するために設計された段階的評価スイート、SciAgentBenchを提示する。評価結果から、決定的なボトルネックが明らかとなった:最先端のモデルは、複雑な科学的ツール利用に苦戦する。GPT-5のような最先端モデルであっても、相互作用の時間的視野が長くなるにつれ、成功率は60.6%から30.9%へと急激に低下し、その主な原因は多段階ワークフローの実行失敗にある。この問題に対処するため、我々はSciForgeを提案する。これはツールアクション空間を依存関係グラフとしてモデル化し、論理を考慮した訓練軌道を生成するデータ合成手法である。これらの軌道でファインチューニングした我々のSciAgent-8Bは、遥かに大規模なQwen3-VL-235B-Instructを性能で上回り、さらに科学的ツール利用能力の分野横断的な正の転移を示した。これらの結果は、次世代の自律的科学エージェントの有望な可能性を裏付けるものである。
強化学習(RL)ファインチューニングは、推論集約型タスクにおいて大規模言語モデル(LLM)を強化する主要技術として確立され、その応用は視覚言語モデル(VLM)にも広がりつつある。RLで調整されたVLMは視覚的推論ベンチマークで性能向上を示すものの、視覚的基盤付けの弱さ、幻覚、テキスト情報への過度な依存といった課題に依然として直面している。本研究では、誤解を招くキャプションや不正確な思考連鎖(CoT)といった単純で制御されたテキスト摂動が、ロバスト性と信頼度を大幅に低下させることを実証する。さらに、オープンソースのマルチモーダル推論モデルにおいて、CoTの一貫性を考慮するとこれらの影響がより顕著になることを示す。エントロピーベースの指標により、これらの摂動が正解選択肢に対するモデルの不確実性と確率質量を再形成し、モデル固有の較正誤差の傾向を浮き彫りにすることが明らかとなった。 これらの脆弱性を深く理解するため、RLファインチューニングの動態を分析した結果、精度と信頼性のトレードオフを発見した。すなわち、ファインチューニングはベンチマーク精度を向上させる一方で、付随するCoTの信頼性や文脈変化に対する頑健性を同時に損なう可能性がある。敵対的データ拡張はロバスト性を改善するが、それ単独では信頼性の低下を防げない。信頼性を考慮した報酬を組み込むことで回答と推論の整合性を回復できるが、データ拡張と併用すると、訓練が近道戦略に陥り、ロバスト性の獲得が困難になる場合がある。これらの知見は総じて、精度のみに焦点を当てた評価の限界を明らかにし、正答性、頑健性、視覚に基づく推論の信頼性を統合的に重視する新たな訓練・評価手法の必要性を提起するものである。
拡散モデルやフローマッチングなどの反復的生成ポリシーは、連続制御において優れた表現力を提供するが、行動の対数密度が直接利用できないため、最大エントロピー強化学習を複雑にする。この問題に対処するため、我々は速度場の運動エネルギーを正則化する尤度不要のフレームワーク「Field Least-Energy Actor-Critic (FLAC)」を提案する。重要な洞察は、高エントロピーな参照過程(例えば一様分布)に対する一般化シュレーディンガー橋問題としてポリシー最適化を定式化することである。この視点により、明示的な行動密度を必要とせず、収益を最適化しながら高エントロピー参照に近づくことが、自然に最大エントロピー原理として導かれる。本フレームワークでは、運動エネルギーは参照からの乖離を物理的に根拠づける指標として機能し、経路空間のエネルギー最小化は誘導される終端行動分布の偏差を抑える。この視点に基づき、エネルギー正則化付きポリシー反復手法と、ラグランジュ双対機構による運動エネルギーの自動調整を実現する実用的なオフポリシーアルゴリズムを導出する。実験では、FLACは高次元ベンチマークにおいて強力なベースラインと比較して優れた、あるいは同等の性能を達成しつつ、明示的な密度推定を回避する。
本報告では、高性能かつ高速で滑らかなリアルタイム実行に最適化された先進的な視覚言語行動(VLA)モデル「Xiaomi-Robotics-0」を紹介する。本手法の鍵は、慎重に設計された訓練レシピとデプロイ戦略にある。Xiaomi-Robotics-0はまず、大規模なクロスエンボディメントのロボット軌跡データと視覚言語データで事前訓練され、基盤となる事前訓練済みVLMの視覚的・意味的知識の破滅的な忘却を回避しつつ、広範で一般化可能な行動生成能力を獲得する。事後訓練段階では、実ロボット展開時の推論遅延に対処するため、非同期実行のためのVLAモデル訓練技術を複数提案する。デプロイ時には、連続して予測される行動チャンクのタイムステップを注意深く調整し、連続的でシームレスなリアルタイム展開を保証する。Xiaomi-Robotics-0をシミュレーションベンチマークおよび、精密で高度な両手操作を要する2つの挑戦的な実ロボットタスクで広範囲に評価した。結果は、本手法が全てのシミュレーションベンチマークで最高性能を達成することを示した。さらに、Xiaomi-Robotics-0はコンシューマーグレードのGPUを用いて実ロボット上で高速かつ滑らかに展開でき、両実ロボットタスクにおいて高い成功率とスループットを実現した。将来の研究の発展に貢献するため、コードとモデルチェックポイントをhttps://xiaomi-robotics-0.github.io で公開している。
空間的知能を達成するには、視覚的な妥当性を超えて、物理法則に基づいた世界シミュレーターを構築する必要がある。コード生成LLMは静的な3Dシーン生成を進展させたが、このパラダイムを4Dダイナミクスに拡張することは依然として重要な課題である。本課題には2つの根本的課題がある:マルチスケール文脈の絡み合い(単一的な生成では局所的なオブジェクト構造と大域的な環境レイアウトのバランスが取れない)と、意味論的・物理的実行ギャップ(オープンループのコード生成は動的忠実性に欠ける物理的幻覚を引き起こす)である。我々はCode2Worldsを提案する。これは4D生成を言語からシミュレーションコードへの生成として定式化するフレームワークである。第一に、検索強化されたオブジェクト生成と階層的な環境オーケストレーションを分離するデュアルストリームアーキテクチャを提案する。第二に、動的忠実性を確保するため、物理を考慮した閉ループ機構を確立する。これは動的特性をスクリプトする後処理エージェントと、自己反省を行ってシミュレーションコードを反復的に改良するVLMモーション批評家を連動させる。Code4Dベンチマークによる評価では、Code2Worldsがベースラインを41%のSGS向上と49%高いRichnessで上回り、従来の静的手法にはない物理を考慮したダイナミクスを独自に生成することを示した。コード:https://github.com/AIGeeksGroup/Code2Worlds。ウェブサイト:https://aigeeksgroup.github.io/Code2Worlds。
拡散ベースの生成モデルの最近の進歩は、画像およびビデオの再照明技術に新たなパラダイムを確立している。しかし、これらの機能を4D再照明に拡張することは、主にペアとなった4D再照明学習データの不足と、極端な視点変化における時間的一貫性の維持の難しさから、依然として課題が多い。本研究では、極端な視点変化下でも目標照明下で一貫性のある4Dビデオを合成する、学習不要の新しいフレームワークであるLight4Dを提案する。まず、幾何学的完全性を保持しながら照明制御を潜在空間に効果的に注入する、時間認識型戦略であるDisentangled Flow Guidanceを導入する。次に、時間的一貫性を強化するため、IC-Lightアーキテクチャ内にTemporal Consistent Attentionを開発し、さらに確定的正則化を組み込んで外観のちらつきを排除する。大規模な実験により、本手法が時間的一貫性と照明忠実度において競争力のある性能を達成し、-90度から90度までのカメラ回転を頑健に処理できることを実証する。コード: https://github.com/AIGeeksGroup/Light4D. ウェブサイト: https://aigeeksgroup.github.io/Light4D.
我々は、マルチモーダルな理解・生成・編集のための統一離散フローマッチングフレームワーク「UniDFlow」を提案する。本手法は、タスク特化型LoRAアダプタにより理解と生成を分離し、目的関数の干渉と表現の混在を回避する。さらに、新たな参照ベースマルチモーダル選好調整により、同一条件付け下での相対的出力最適化を行い、大規模再学習なしで忠実性と制御性を向上させる。UniDFlowは8つのベンチマークでSOTA性能を達成し、インペインティング、文脈対応画像生成、参照ベース編集、構成的生成といったタスクに対し、明示的なタスク特化訓練なしに強力なゼロショット汎化性能を示す。
推薦システム設計の自動化における従来手法(ニューラルアーキテクチャ探索など)は、人間の事前知識に基づいて定義された固定の探索空間に制約され、所定の演算子範囲内での革新に留まることが多い。近年のLLM駆動型コード進化フレームワークは、固定探索空間から開放的なプログラム空間へ対象を移行させたものの、主にスカラー指標(NDCGやヒット率など)に依存しており、モデル失敗の質的洞察や改善の方向的ガイダンスを提供できない。この課題に対処するため、本研究では**Self-EvolveRec**を提案する。この新規フレームワークは、質的批評を行うユーザシミュレータと定量的内部検証を行うモデル診断ツールを統合し、方向的フィードバックループを構築する。さらに、推薦アーキテクチャの進化に伴って評価基準が動的に適応することを保証するため、診断ツールとモデルの共進化戦略を導入する。大規模実験により、Self-EvolveRecが推薦精度とユーザ満足度の両面において、従来のNASおよびLLM駆動コード進化ベースライン手法を有意に上回ることを実証した。実装コードはhttps://github.com/Sein-Kim/self_evolverec で公開されている。
音声拡散モデルはテキストから高忠実度の音楽を合成できるが、高次概念を表現する内部メカニズムは未解明な部分が多い。本研究では、アクティベーション・パッチングを用いて、特定楽器の有無やボーカル、ジャンル特性といった意味的な音楽概念が、最先端の音声拡散アーキテクチャにおいて、ごく少数の共有された注意層によって制御されていることを実証する。さらに、これらの層に Contrastive Activation Addition と Sparse Autoencoder を適用することで、生成音声の制御精度が向上することを示し、特殊化現象の直接的な利点を明らかにする。特定された層の活性化を操作することで、テンポの調整や楽曲のムード変更といった特定の音楽要素を高精度に変更できることを実証する。
ステアリング手法は、大規模言語モデルの振る舞いを隠れ表現内の意味的方向の特定によって制御するが、通常は推論時の活性化介入を通じて実現され、モデルの内部状態に固定的で全体的な修正を適用する。こうした介入は効果的であるものの、強力な制御下では望ましくない属性と有用性のトレードオフを引き起こしがちである。なぜなら、多くの振る舞いがモデル構成要素のごく少数で不均質な部分集合によって支配されているという事実を無視しているためである。本研究では、Steer2Editを提案する。これは理論的に基礎付けられた、訓練不要のフレームワークであり、ステアリングベクトルを推論時の制御信号から、コンポーネントレベルでのランク1重み編集のための診断信号へと変換する。Steer2Editは、生成中にステアリング方向を一律に注入する代わりに、個々の注意ヘッドとMLPニューロンにわたって振る舞いへの影響を選択的に再分配し、標準的な順方向計算を保持し、最適化された並列推論との互換性を維持する解釈可能な編集を実現する。安全性アライメント、幻覚緩和、推論効率化にわたる実験において、Steer2Editは一貫してより好ましい属性と有用性のトレードオフを達成する:下流タスクの性能が同等の場合、安全性を最大17.2%向上させ、真実性を9.8%増加させ、推論長を平均12.2%短縮する。全体として、Steer2Editは、ステアリング信号を解釈可能で訓練不要なパラメータ更新へと変換することにより、表現ステアリングと重み編集の間の原理的な架け橋を提供する。
大規模言語モデル(LLM)は推薦システムにおける有望な領域であるが、研究指針とリソース配分の最適化に不可欠な予測可能なスケーリング則の不在により、その発展は阻害されてきた。この要因として、従来の継続事前学習(CPT)における生のユーザーインタラクションデータに内在するノイズ、バイアス、不完全性が考えられる。本論文では、LLMに対して精選された教育的カリキュラムを構築することでこれらの問題を回避する、高品質な合成データを生成する新しい階層的フレームワークを提案する。我々の合成的データを用いて学習した標準的な逐次モデルが、下流の順位付けタスクにおいて実データで学習したモデルを大幅に上回る性能(SasRecにおいてrecall@100で+130%)を示すことを実証し、本カリキュラムが一般化可能なユーザ嗜好パターンの学習に優位性を持つことを強力に裏付ける。さらに、この高品質な推薦特化データで継続事前学習されたLLMにおいて、ロバストなべき乗則スケーリングが初めて経験的に確認された。実験では、複数の合成的データ様式にわたり、一貫して予測可能なパープレキシティ低減が観測される。これらの発見は、推薦領域におけるLLM能力の信頼性高いスケーリング手法の基盤を確立し、研究焦点をデータ欠陥の緩和から高品質な構造化情報の活用へと転換させるものである。
大規模基盤モデルは、視覚と言語の複雑な問題に対する強力なオープンワールド汎化能力を示しているが、ロボティクスにおいて同レベルの汎化は未達成である。根本的な課題の一つは、モデルのゼロショット能力が限定的であり、未経験のシナリオへの効果的な汎化を妨げている点にある。本研究では、GeneralVLA(知識誘導軌道計画による汎用視覚言語行動モデル)を提案する。これは、階層型視覚言語行動モデルであり、基盤モデルの汎化能力をより効果的に利用して、ゼロショット操作を可能にし、ロボティクス向けデータを自動生成する。具体的には、高層のASM(アフォーダンス分割モジュール)がシーンの画像キーポイントアフォーダンスを認識するようファインチューニングされ、中層の3DAgentがタスク理解、技能知識、軌道計画を実行して所望のロボットエンドエフェクタ軌道を示す3D経路を生成する、階層型VLAモデルのクラスを検討する。この中間的な3D経路予測は、精密操作が可能な低層の3D認識制御ポリシーへのガイダンスとして機能する。従来手法と比較して、本手法は実世界のロボットデータ収集や人間による実演を一切必要とせず、多様なタスクと視点に対してはるかにスケーラブルである。実験では、GeneralVLAが14のタスクに対して軌道の生成に成功し、VoxPoserなどの最先端手法を大幅に上回る性能を示した。生成された実演データは、人間の実演やVoxPoser、Scaling-up、Code-As-Policiesによって生成されたデータで学習する場合よりも、よりロバストな行動模倣ポリシーの訓練に利用できる。我々は、GeneralVLAがロボティクス向けデータ生成とゼロショット設定での新規タスク解決の両方に対するスケーラブルな手法となり得ると確信している。コード: https://github.com/AIGeeksGroup/GeneralVLA. ウェブサイト: https://aigeeksgroup.github.io/GeneralVLA.
ポストトレーニング量子化(PTQ)は、メモリ制約のあるデバイスに大規模言語モデル(LLM)を展開するために不可欠であるが、モデルを静的にし、ファインチューニングを困難にする。強化学習(RL)を含む標準的なファインチューニング手法は、本質的に逆伝播と高精度な重みに依存して勾配を計算する。したがって、パラメータ空間が離散的かつ非微分可能である量子化モデルには適用できない。進化戦略(ES)は逆伝播を必要としない代替手法を提供するが、量子化パラメータの最適化は、勾配の消失や不正確さにより依然として失敗する可能性がある。本論文では、量子化空間内で直接全パラメータのファインチューニングを実行する最適化手法である、量子化進化戦略(QES)を提案する。QESは二つの革新に基づいている:(1)高精度の勾配信号を保持するための積分誤差フィードバックを組み込み、(2)メモリ使用量を低精度推論レベルに削減するためのステートレスシードリプレイを利用する。QESは、算術推論タスクにおいて既存のゼロ次ファインチューニング手法を大幅に上回り、量子化モデルのための直接的なファインチューニングを可能にする。これにより、量子化空間内でのLLMの完全なスケールアップの可能性が開かれる。ソースコードはhttps://github.com/dibbla/Quantized-Evolution-Strategies で公開されている。
我々はscPilotを発表します。これはオミクスネイティブ推論を実践する初の体系的なフレームワークであり、大規模言語モデル(LLM)が自然言語で対話しながら、単一細胞RNA-seqデータとオンデマンドのバイオインフォマティクスツールを直接参照します。scPilotは、細胞タイプ注釈、発生軌道再構築、転写因子ターゲティングといった単一細胞解析の核心を、モデルが解決し、正当化し、必要に応じて新たな証拠で修正すべき段階的推論問題へと変換します。 進捗を測定するため、我々はscBenchを公開しました。これは9つの専門家精選データセットと評価器から成るスイートであり、様々なLLMに対するscPilotのオミクスネイティブ推論能力を忠実に評価します。o1を用いた実験では、反復的オミクスネイティブ推論により細胞タイプ注釈の平均精度が11%向上し、Gemini-2.5-Proはワンショットプロンプトと比較して軌道グラフ編集距離を30%削減しつつ、マーカー遺伝子の曖昧性や制御ロジックを説明する透明な推論軌跡を生成することが示されました。LLMを生のオミクスデータに接地することで、scPilotは監査可能で解釈可能、かつ診断情報に富んだ単一細胞解析を実現します。 コード、データ、パッケージはhttps://github.com/maitrix-org/scPilot で利用可能です。
個々の樹冠のマッピングは、都市の樹木インベントリの維持や森林の健全性のモニタリングなど、環境の理解と保全に寄与する重要な課題である。しかし、航空画像から樹冠を自動的に分離することは、テクスチャや樹冠の部分的重複などの要因により困難である。本研究では、航空レーザー測量(ALS)データから得られた擬似ラベルを用いて、RGB画像およびマルチスペクトル画像から個々の樹木をセグメンテーション・分離する深層学習モデルを訓練する手法を提案する。ALSから得られた擬似ラベルは、ゼロショットインスタンスセグメンテーションモデルであるSegment Anything Model 2(SAM 2)を用いて強化できることを示す。本手法は、手動アノテーションを一切必要とせず、光学画像ベースのモデル向けにドメイン特化した訓練アノテーションを取得する方法を提供し、同じタスク向けに一般領域で展開された既存のあらゆるモデルを性能で凌駕するセグメンテーションモデルを実現する。
開示されたCVEに対応する脆弱性修正コミットを特定することは、安全なソフトウェア保守において不可欠であるが、大規模リポジトリには数百万のコミットが含まれ、そのうちごく一部のみがセキュリティ問題に対処するため、規模に応じた対応は依然として困難である。従来の機械学習技術や最近の大規模言語モデル(LLM)ベースの手法を含む既存の自動アプローチは、精度と再現率のトレードオフが不十分であることが多い。ランダムにサンプリングされたコミットで頻繁に評価されるこれらの手法は、現実世界の難易度を大幅に過小評価していることが明らかになった。現実世界では、候補コミットは既にセキュリティ関連であり、非常に類似している。本論文では、脆弱性修正識別のための法科学的でエージェントベースのフレームワークであるFaviaを提案する。Faviaは、スケーラブルな候補ランキングと、深い反復的意味推論を組み合わせる。Faviaはまず、効率的なランキング段階を用いてコミットの検索空間を絞り込む。その後、ReActベースのLLMエージェントを用いて各コミットを厳密に評価する。専用のツールとともに、コミット前のリポジトリを環境としてエージェントに提供することで、エージェントは脆弱なコンポーネントの特定を試み、コードベースをナビゲートし、コード変更と脆弱性の根本原因との間の因果関係を確立する。この証拠駆動のプロセスにより、単一パスまたは類似性ベースの手法では見逃されがちな、間接的、複数ファイルにわたる、非自明な修正を頑健に識別できる。3,708の実世界リポジトリからなる800万以上のコミットを含む大規模データセットCVEVC上でFaviaを評価し、現実的な候補選択条件下で、従来の手法およびLLMベースのベースライン手法を一貫して凌駕し、最も強力な精度-再現率のトレードオフと最高のF1スコアを達成することを示す。
言語識別(LID)は、ウェブデータから高品質な多言語データセットを構築する上で不可欠な工程である。既存のLIDツール(OpenLIDやGlotLIDなど)は、近縁言語の識別や、有効な自然言語とノイズの区分に課題を抱えることが多く、特に低リソース言語において言語別サブセットの汚染を招いている。本研究では、OpenLID分類器を拡張し、より多くの訓練データの追加、問題のある言語変種クラスタの統合、ノイズをマークするための特殊ラベルの導入を行った。この拡張システムをOpenLID-v3と称し、複数のベンチマークでGlotLIDと比較評価する。開発過程では、3つの近縁言語群(ボスニア語、クロアチア語、セルビア語;北イタリア及び南フランスのロマンス諸語変種;スカンディナビア諸語)に焦点を当て、既存データセットが不十分な場合に新たな評価データセットを構築した。アンサンブル手法は精度向上に寄与するが、低リソース言語のカバレッジを大幅に減少させることも確認された。OpenLID-v3はhttps://huggingface.co/HPLT/OpenLID-v3 で公開されている。