翻訳付きの日次キュレーションされたAI研究論文
GLM-4.5を紹介します。これは、総パラメータ数355B、活性化パラメータ数32BのオープンソースのMixture-of-Experts(MoE)大規模言語モデルで、思考モードと直接応答モードの両方をサポートするハイブリッド推論手法を特徴としています。23Tトークンにわたる多段階トレーニングと、専門家モデルの反復および強化学習を組み合わせた包括的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディング(ARC)タスクにおいて強力な性能を発揮し、TAU-Benchで70.1%、AIME 24で91.0%、SWE-bench Verifiedで64.2%のスコアを達成しました。競合モデルと比べてはるかに少ないパラメータ数でありながら、GLM-4.5は評価されたすべてのモデルの中で総合3位、エージェントベンチマークでは2位にランクインしています。推論およびエージェントAIシステムの研究を推進するため、GLM-4.5(355Bパラメータ)とそのコンパクト版であるGLM-4.5-Air(106Bパラメータ)の両方を公開します。コード、モデル、および詳細情報はhttps://github.com/zai-org/GLM-4.5で入手可能です。
バーチャル試着は、対象の衣服を着用した人物のリアルな画像を合成することを目的としていますが、特にポーズや外見の変化下での衣服と身体の対応関係を正確にモデル化することは、依然として大きな課題です。本論文では、Voostを提案します。Voostは、単一の拡散トランスフォーマーを用いてバーチャル試着と試着解除を共同で学習する、統一されたスケーラブルなフレームワークです。両タスクを共同でモデル化することにより、Voostは各衣服と人物のペアが両方向を監督できるようにし、生成方向や衣服カテゴリーに対する柔軟な条件付けをサポートします。これにより、タスク固有のネットワーク、補助的な損失関数、追加のラベルなしで、衣服と身体の関係推論を強化します。さらに、解像度やマスクの変化に対するロバスト性を向上させるための注意温度スケーリングと、タスク間の双方向の一貫性を活用する自己修正サンプリングという2つの推論時技術を導入します。広範な実験により、Voostが試着と試着解除のベンチマークにおいて最先端の結果を達成し、アライメント精度、視覚的忠実度、一般化能力において強力なベースラインを一貫して上回ることが実証されました。
大規模言語モデル(LLM)ベースのエージェントは多様なタスクに優れているが、手動で設計されたり静的なパラメータに埋め込まれたりする脆弱な手続き記憶に悩まされている。本研究では、エージェントに学習可能で更新可能かつ生涯にわたる手続き記憶を付与する戦略を探る。我々は、過去のエージェント軌跡を細粒度のステップバイステップの指示と高レベルのスクリプトのような抽象化の両方に蒸留するMempを提案し、手続き記憶の構築、検索、更新のための異なる戦略の影響を探る。その内容を継続的に更新、修正、廃棄する動的なレジームと組み合わせることで、このリポジトリは新しい経験と共に進化する。TravelPlannerとALFWorldでの実証評価では、記憶リポジトリが洗練されるにつれて、エージェントは類似タスクにおいて着実に高い成功率と効率性を達成することが示された。さらに、より強力なモデルから構築された手続き記憶はその価値を保持し、それをより弱いモデルに移行しても大幅な性能向上が得られる。
マルチモーダル大規模言語モデル(MLLM)の出現により、純粋な視覚入力を用いてグラフィカルユーザーインターフェース(GUI)上で動作する自律エージェントの開発が加速しています。ここで根本的な課題となるのは、自然言語の指示を確実に基盤づけることです。これには、各要素の座標を正確に特定する空間的アラインメントと、さらに重要な、指示を機能的に適切なUI要素にマッチングする意味的アラインメントが必要です。検証可能な報酬を用いた強化学習(RLVR)は、これらのMLLMの空間的アラインメントを改善するのに有効であることが証明されていますが、非効率的な探索が意味的アラインメントのボトルネックとなり、モデルが難しい意味的関連性を学習するのを妨げていることがわかりました。この探索問題に対処するため、我々は新しいポリシー最適化フレームワークである適応的探索ポリシー最適化(AEPO)を提案します。AEPOは、効率性の第一原理η=U/Cから導出された理論的に根拠のある適応的探索報酬(AER)関数によって導かれる、より広範な探索を強制する多回答生成戦略を採用しています。我々のAEPOで訓練されたモデル、InfiGUI-G1-3BとInfiGUI-G1-7Bは、複数の挑戦的なGUI基盤づけベンチマークで新たな最先端の結果を達成し、一般化と意味理解をテストするために設計されたベンチマークにおいて、ナイーブなRLVRベースラインに対して最大9.0%の相対的な改善を示しました。リソースはhttps://github.com/InfiXAI/InfiGUI-G1で利用可能です。
近年、大規模推論モデル(LRMs)は、Chain-of-Thought(CoT)の長さをスケールアップすることで、コード推論において顕著な能力を発揮しています。しかし、過度に長い推論トレースは、トレーニングコスト、推論遅延、および展開の実現可能性において大きな課題を引き起こします。この課題に対処するために様々なCoT圧縮手法が登場していますが、それらには本質的なトレードオフが存在します:トークンレベルの手法はしばしば構文的および論理的一貫性を損ない、一方でパープレキシティに基づくステップレベルの手法は論理的に重要な推論ステップを確実に捕捉することができません。本論文では、CoT圧縮のための新しい粗密フレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案します。ASAPはまず、コア推論構造を保持するためにアンカーガイド付きプルーニングを実行し、後続処理のための探索空間を効率的に削減します。次に、新しいファーストトークンサプライズメトリックに基づいて論理的に不可欠な推論ステップを選択することで、論理を意識したプルーニングを可能にします。最後に、ASAPはモデルにこれらの簡潔なCoTを推論時に自律的に生成し活用することを教え、コーディングタスクにおける効率的な推論を実現します。実験結果は、ASAPが複数のコード生成ベンチマークにおいて最先端の精度を達成しつつ、トレーニングおよび推論コストを大幅に削減することを示しています。挑戦的なLiveCodeBench v4_v5ベンチマークにおいて、我々のアプローチは最強のベースラインと比較してトークン生成を23.5%、推論遅延を43.5%削減しつつ、Pass@1で36.19%の競争力のある精度を達成しました。我々の結果は、強力で効率的なLRMsを構築するための有望な方向性を示しています。
大規模な活性化値は、トランスフォーマーの隠れ状態におけるスカラー値であり、典型的な活性化値よりも桁違いに大きな値を達成し、モデルの機能性にとって重要であることが示されています。これまでの研究では、完全に訓練されたモデルにおけるこれらの現象を特徴づけてきましたが、訓練中のそれらの出現の時間的ダイナミクスについては十分に理解されていません。本論文では、Pythiaモデルファミリーをテストベッドとして、トランスフォーマー訓練全体を通じた大規模な活性化値の発展に関する初の包括的な分析を提示します。複数の訓練チェックポイントにわたる様々なモデルサイズの系統的な分析を通じて、大規模な活性化値の出現が予測可能な数学的パターンに従い、5つの主要なパラメータを用いた指数関数的に変調された対数関数で正確にモデル化できることを示します。我々は、アーキテクチャ仕様のみからこれらの数学的パラメータを予測する機械学習フレームワークを開発し、定常状態の挙動に対して高い精度を、出現タイミングと大きさに対して中程度の精度を達成しました。これらの発見により、設計選択を通じて大規模な活性化値の出現の主要な側面を予測し、潜在的に制御することが可能となり、モデルの安定性、訓練サイクルの長さ、解釈可能性、最適化に重要な意味を持ちます。我々の発見は、大規模な活性化値の出現がモデル設計によって支配され、訓練開始前に予測し、潜在的に制御できることを示しています。
Neural Radiance Fields (NeRF) と Gaussian Splatting (GS) は最近、3Dシーンの表現とレンダリングを大きく変革しました。NeRFは、ニューラルネットワークを通じてボリュメトリック表現を学習することで高精細な新規視点合成を実現しますが、その暗黙的なエンコーディングは編集や物理的相互作用を困難にします。一方、GSはシーンを明示的なガウシアンプリミティブの集合として表現し、リアルタイムレンダリング、高速なトレーニング、そしてより直感的な操作を可能にします。この明示的な構造により、GSはインタラクティブな編集や物理ベースのシミュレーションとの統合に特に適しています。本論文では、NeRFのフォトリアルなレンダリング品質とGSの編集可能で構造化された表現を組み合わせたハイブリッドモデル、GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing) を紹介します。外観モデリングに球面調和関数を使用する代わりに、各ガウシアンにトレーニング可能な特徴埋め込みを割り当てます。これらの埋め込みは、各クエリポイントに最も近いk個のガウシアンに基づいてNeRFネットワークを条件付けるために使用されます。この条件付けを効率的にするために、修正されたレイトレーシングパイプラインに基づく高速な最近傍ガウシアン検索、Ray-Traced Gaussian Proximity Search (RT-GPS) を導入します。また、ガウシアンの特徴を初期化および更新するために、マルチ解像度ハッシュグリッドを統合します。これらのコンポーネントを組み合わせることで、リアルタイムで局所性を意識した編集が可能になります。ガウシアンプリミティブが再配置または変更されると、その補間された影響が即座にレンダリング出力に反映されます。暗黙的および明示的表現の長所を組み合わせることで、GENIEは直感的なシーン操作、動的な相互作用、物理シミュレーションとの互換性をサポートし、ジオメトリベースの編集とニューラルレンダリングの間のギャップを埋めます。コードは (https://github.com/MikolajZielinski/genie) で公開されています。
ビジョン・ランゲージモデル(VLMs)は、幅広いタスクにおいて優れた汎化能力を示しています。しかし、特定の下流シナリオに直接適用する場合、タスク固有の適応なしでは性能が十分でないことが多いです。データ効率を保ちつつその有用性を高めるため、最近の研究ではラベル付きデータに依存しない教師なし適応手法に焦点が当てられています。この分野への関心が高まる中、教師なしVLM適応に特化した統一的なタスク指向のサーベイが不足しています。このギャップを埋めるため、本論文ではこの分野の包括的かつ構造化された概要を提示します。ラベルなし視覚データの可用性と性質に基づいた分類体系を提案し、既存のアプローチを4つの主要なパラダイムに分類します:データフリー転送(データなし)、教師なしドメイン転送(豊富なデータ)、エピソード的テストタイム適応(バッチデータ)、オンラインテストタイム適応(ストリーミングデータ)。この枠組みの中で、各パラダイムに関連する核心的な方法論と適応戦略を分析し、この分野の体系的な理解を確立することを目指します。さらに、多様なアプリケーションにおける代表的なベンチマークをレビューし、未解決の課題と将来の研究に向けた有望な方向性を強調します。関連文献のアクティブに維持されているリポジトリはhttps://github.com/tim-learn/Awesome-LabelFree-VLMsで利用可能です。
アイアンマンに登場するJ.A.R.V.I.Sのような、能力と汎用性を兼ね備えたAIアシスタントを作りたいという夢は、長い間人々の想像を掻き立ててきた。(マルチモーダル)大規模言語モデル((M)LLM)の進化により、この夢は現実に近づいている。OSが提供する環境やインターフェース(例えばグラフィカルユーザーインターフェース(GUI))内で動作し、タスクを自動化する(M)LLMベースのエージェントが大幅に進歩したためだ。本論文では、これらの高度なエージェントを「OSエージェント」と称し、その包括的な調査を提示する。まず、OSエージェントの基本を明らかにし、環境、観測空間、行動空間といった主要な構成要素を探り、理解、計画、接地といった必須の能力を概説する。次に、OSエージェントを構築するための方法論を検討し、ドメイン固有の基盤モデルやエージェントフレームワークに焦点を当てる。評価プロトコルとベンチマークの詳細なレビューを通じて、OSエージェントが多様なタスクでどのように評価されているかを明らかにする。最後に、現在の課題を議論し、安全性とプライバシー、パーソナライゼーションと自己進化といった将来の研究の有望な方向性を特定する。本調査は、OSエージェント研究の現状を整理し、学術的な探求と産業の発展を導くための洞察を提供することを目的としている。この分野のさらなる革新を促進するため、動的なリソースとしてオープンソースのGitHubリポジトリを維持している。ACL 2025に採択された9ページ版の本論文は、この領域の簡潔な概要を提供するものである。
本論文では、大規模言語モデル(LLM)を活用してテキストシリアライズされた3Dメッシュを理解および生成する新規フレームワーク、MeshLLMを提案する。本手法は、LLMのトークン長に対応する際のデータセット規模の制約や、メッシュシリアライズ中の3D構造情報の損失といった既存手法の主要な課題に対処する。我々は、3Dメッシュを構造的に意味のあるサブユニットに分割するPrimitive-Mesh分解戦略を導入し、これにより150万件以上のサンプルを有する大規模データセットを構築した。このデータセットは従来手法の約50倍の規模であり、LLMのスケーリング法則の原則により適している。さらに、頂点から面の接続性を推論し、ローカルメッシュアセンブリのトレーニング戦略を提案することで、LLMがメッシュトポロジーと空間構造を捉える能力を大幅に向上させた。実験結果から、MeshLLMは最新のLLaMA-Meshをメッシュ生成品質と形状理解の両面で凌駕し、テキストシリアライズされた3Dメッシュを処理する上での大きな可能性を示している。
マルチモーダル大規模言語モデル(MLLM)は、高リソース言語において顕著な性能を示しています。しかし、低リソース言語の文脈ではその有効性が大幅に低下します。現在の多言語強化手法は、テキストモダリティに限定されるか、機械翻訳に依存する場合がほとんどです。このようなアプローチは、モデルが基本的な言語能力を獲得し、「薄い記述」を生成するのに役立ちますが、マルチモーダルな情報量と文化的基盤の重要性を無視しています。これらは、低リソース言語のユーザーに効果的にサービスを提供するために不可欠です。このギャップを埋めるため、本研究では、低リソース言語設定において真に効果的なMLLMのための2つの重要な目標、すなわち1)言語能力と2)文化的基盤を特定し、特に文化的意識に重点を置いています。これらの二重の目標を達成するために、各目標に合わせてデータを収集するデュアルソース戦略を提案します。文化についてはネイティブのウェブaltテキストを、言語学についてはMLLMが生成したキャプションをソースとします。具体的な実装として、マルチモーダルで多言語のデータセットであるMELLAを紹介します。実験結果は、MELLAでファインチューニングした後、さまざまなMLLMバックボーンにおいて8つの言語で全般的な性能向上が見られ、モデルが「厚い記述」を生成することを示しています。性能向上が文化的知識の強化と言語能力の強化の両方に起因することを検証します。私たちのデータセットはhttps://opendatalab.com/applyMultilingualCorpusで見つけることができます。
視覚言語モデル(VLM)は、言語的推論と視覚的推論を統合する際に顕著な能力を示してきたが、動的な時空間的相互作用を理解する点では根本的に限界がある。人間は、物体の動き、回転、視点の変化を容易に追跡し、推論する能力を持っている。これは、現実世界の動的な理解において不可欠な能力であるが、現在のVLMには明らかに欠けている。本論文では、VLMの時空間的推論能力を評価するために特別に設計された最初のベンチマークであるVLM4Dを紹介する。このベンチマークは、並進運動や回転運動、視点認識、運動の連続性を強調した、多様な実世界および合成動画と、慎重に選ばれた質問-回答ペアで構成されている。最先端のオープンソースおよびクローズドソースのVLMを包括的に評価した結果、人間のベースラインと比較して大きな性能ギャップが確認され、既存モデルの根本的な欠陥が浮き彫りになった。詳細な分析により、VLMは特に複数の視覚的手がかりを統合し、時間的整合性を維持することに苦労していることが明らかになった。さらに、4D特徴フィールド再構成や特定の時空間的教師ありファインチューニングなどの有望な方向性を探り、それらが時空間的理解を強化する上で有効であることを実証した。本研究は、VLMの空間的および時間的基盤を改善するための深い探求を促し、動的環境におけるより有能で信頼性の高い視覚的知能への道を開くことを目指している。
マルチモーダル大規模言語モデル(MLLMs)の出現により、グラフィカルユーザーインターフェース(GUI)エージェントの能力が大幅に向上した。しかしながら、既存のGUIエージェントの訓練および推論技術は、推論設計のジレンマ、報酬の非効率性、視覚的ノイズといった課題に依然として直面している。これらの問題に対処するため、我々はUI-AGILEを提案する。これは、訓練および推論の両段階においてGUIエージェントを強化する包括的なフレームワークである。訓練段階では、教師あり微調整(SFT)プロセスに対する一連の改善を提案する:1)高精度なグラウンディングを促進するための連続報酬関数、2)計画性と速度およびグラウンディング精度のバランスを取るための「シンプル思考」報酬、3)複雑なタスクにおける学習を改善し、報酬の希薄化問題を緩和するためのクロッピングベースの再サンプリング戦略。推論段階では、高解像度ディスプレイ上でのグラウンディング精度を大幅に向上させるために、画像を小さな管理可能な部分に分解する新規手法「分解グラウンディングと選択」を提示する。実験結果は、UI-AGILEがScreenSpot-ProおよびScreenSpot-v2の2つのベンチマークにおいて最先端の性能を達成することを示している。例えば、提案した訓練および推論の強化手法を併用することで、ScreenSpot-Proにおいて最良のベースラインと比較して23%のグラウンディング精度の向上が得られた。
最近の3Dリライティング手法では、2D画像リライティングの生成事前分布を統合することで、3D表現の外観を変更しつつ基礎となる構造を保持することに成功を見せています。しかし、入力画像から直接リライティングを行う2Dリライティング用の生成事前分布は、被写体の本質的特性を推論して活用することができず、大規模なマルチビューデータを考慮することもできないため、リライティングの品質が低下する傾向にあります。本論文では、Lightswitchという新しい微調整済みマテリアルリライティング拡散フレームワークを提案します。このフレームワークは、推論された本質的特性からの手がかりを組み込みつつ、任意の数の入力画像をターゲットの照明条件に効率的にリライティングします。マルチビュー情報とマテリアル情報の手がかりをスケーラブルなノイズ除去スキームと共に使用することで、多様なマテリアル構成を持つオブジェクトの密なマルチビューデータを一貫して効率的にリライティングします。我々の2Dリライティング予測の品質は、画像から直接リライティングを行う従来の最先端リライティング事前分布を上回ることを示します。さらに、LightSwitchは、合成および実物体のリライティングにおいて、わずか2分で最先端の拡散逆レンダリング手法に匹敵またはそれを上回る性能を発揮することを実証します。