翻訳付きの日次キュレーションされたAI研究論文
近年、数多くのオープンソース基盤モデルが登場し、広く注目されている分野では目覚ましい進展を遂げ、クローズドソースモデルに匹敵する性能を達成しています。しかし、高価値ではあるがより挑戦的な科学的専門分野では、依然として専門家モデルに依存しているか、一般的な基盤モデルの進展が人気のある分野と比べて大きく遅れており、科学研究を変革するには程遠く、これらの科学分野におけるオープンソースモデルとクローズドソースモデルの間には大きなギャップが存在します。このギャップを埋め、人工汎用知能(AGI)に向けてさらに一歩進むために、私たちはIntern-S1を紹介します。これは、一般的な理解と推論能力を備え、複数の科学モーダルデータを分析する専門知識を持つ特殊化されたジェネラリストです。Intern-S1は、280億の活性化パラメータと2410億の総パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルで、5Tトークン(うち2.5Tトークン以上が科学分野からのもの)で継続的に事前学習されています。トレーニング後の段階では、Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで受け、1000以上のタスクを同時にRLトレーニングするためにMixture-of-Rewards(MoR)を提案しています。アルゴリズム、データ、トレーニングシステムにおける統合的な革新を通じて、Intern-S1はオンラインRLトレーニングでトップクラスの性能を達成しました。包括的な評価ベンチマークにおいて、Intern-S1はオープンソースモデルの中で一般的な推論タスクで競争力のある性能を示し、科学分野ではオープンソースモデルを大幅に上回り、分子合成計画、反応条件予測、結晶の熱力学的安定性予測などの専門タスクにおいてクローズドソースの最先端モデルを凌駕しています。私たちのモデルはhttps://huggingface.co/internlm/Intern-S1で利用可能です。
大規模言語モデル(LLM)は、自己一貫性と多数決を組み合わせたテスト時スケーリング手法を通じて、推論タスクにおいて大きな可能性を示しています。しかし、このアプローチでは精度の逓減や高い計算コストが生じることがしばしばあります。これらの課題に対処するため、我々はDeep Think with Confidence(DeepConf)を提案します。これは、テスト時の推論効率と性能の両方を向上させる、シンプルでありながら強力な手法です。DeepConfは、モデル内部の信頼度信号を活用して、生成中または生成後に低品質の推論トレースを動的にフィルタリングします。追加のモデル学習やハイパーパラメータチューニングを必要とせず、既存のサービスフレームワークにシームレスに統合可能です。我々はDeepConfを様々な推論タスクと最新のオープンソースモデル(Qwen 3やGPT-OSSシリーズなど)で評価しました。特に、AIME 2025のような挑戦的なベンチマークでは、DeepConf@512は最大99.9%の精度を達成し、完全並列思考と比較して生成トークンを最大84.7%削減することに成功しました。
本論文では、GUI-Owlを紹介する。これは、デスクトップとモバイル環境における10のGUIベンチマークで、グラウンディング、質問応答、計画立案、意思決定、手続き的知識をカバーし、オープンソースのエンドツーエンドモデルの中で最先端の性能を達成する基盤的なGUIエージェントモデルである。GUI-Owl-7Bは、AndroidWorldで66.4、OSWorldで29.4を達成した。これを基に、汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し、AndroidWorldで73.3、OSWorldで37.7と性能をさらに向上させ、オープンソースGUIエージェントフレームワークの新たな最先端を確立した。GUI-Owlは、以下の3つの主要な革新を組み込んでいる:(1) 大規模環境インフラストラクチャ:Android、Ubuntu、macOS、Windowsにまたがるクラウドベースの仮想環境を構築し、Self-Evolving GUI Trajectory Productionフレームワークを可能にした。これにより、自動化されたクエリ生成と正確性検証を通じて高品質なインタラクションデータを生成し、GUI-Owlを活用して軌跡を反復的に洗練し、自己改善ループを形成する。これにより、多様なデータパイプラインをサポートし、手動アノテーションを削減する。(2) 多様な基盤的エージェント能力:UIグラウンディング、計画立案、アクションセマンティクス、推論パターンを統合することで、GUI-Owlはエンドツーエンドの意思決定をサポートし、マルチエージェントシステムにおけるモジュールコンポーネントとして機能できる。(3) スケーラブルな環境RL:完全非同期トレーニングを備えたスケーラブルな強化学習フレームワークを開発し、現実世界との整合性を実現した。また、オンラインRLのためのTrajectory-aware Relative Policy Optimization (TRPO)を導入し、OSWorldで34.9を達成した。GUI-OwlとMobile-Agent-v3は、https://github.com/X-PLUG/MobileAgentでオープンソースとして公開されている。
ツール呼び出しは、AIエージェントが現実世界と相互作用し、複雑なタスクを解決するための重要な能力として注目を集めています。モデルコンテキストプロトコル(MCP)は、ツール統合のための強力な標準化フレームワークを提供しますが、現実的で動的なシナリオにおいて、多様なMCPツールを活用してAIエージェントが多段階タスクを効果的に解決できるかをベンチマークする点で大きなギャップが存在します。本研究では、LiveMCP-101を紹介します。これは、反復的なLLMによる書き直しと手動レビューを通じて精選された101の現実世界のクエリからなるベンチマークで、ウェブ検索、ファイル操作、数学的推論、データ分析など、複数のMCPツールを協調的に使用する必要があります。さらに、生のAPI出力ではなく、真の実行計画を活用する新しい評価手法を導入し、現実世界の環境の変化する性質をよりよく反映します。実験結果からは、最先端のLLMでさえ成功率が60%未満であり、ツールオーケストレーションにおける大きな課題が浮き彫りになりました。詳細なアブレーション研究とエラー分析により、トークン使用における異なる失敗モードと非効率性が明らかになり、現在のモデルを進化させるための具体的な方向性が示されました。LiveMCP-101は、ツール使用を通じて複雑なタスクを確実に実行する自律AIシステムに向けた、現実世界のエージェント能力を評価するための厳格な基準を設定します。
私たちは、統一された画像および動画生成のための高性能基盤モデルであるWaverを紹介します。Waverは、5秒から10秒の動画を720pのネイティブ解像度で直接生成し、その後1080pにアップスケールすることができます。このモデルは、テキストから動画(T2V)、画像から動画(I2V)、テキストから画像(T2I)の生成を単一の統合フレームワーク内で同時にサポートします。モダリティの整合性を強化し、トレーニングの収束を加速するために、Hybrid Stream DiTアーキテクチャを導入しました。トレーニングデータの品質を確保するために、包括的なデータキュレーションパイプラインを確立し、MLLMベースの動画品質モデルを手動で注釈付けしてトレーニングし、最高品質のサンプルをフィルタリングします。さらに、高品質な動画の生成を容易にするために、詳細なトレーニングと推論のレシピを提供します。これらの貢献を基に、Waverは複雑な動きを捉えることに優れており、動画合成において優れた動きの振幅と時間的一貫性を実現します。特に、Artificial AnalysisのT2VおよびI2Vリーダーボード(2025年7月30日10:00 GMT+8時点のデータ)でトップ3にランクインし、既存のオープンソースモデルを一貫して上回り、最先端の商用ソリューションに匹敵またはそれを上回る性能を示しています。この技術レポートが、コミュニティが高品質な動画生成モデルを効率的にトレーニングし、動画生成技術の進歩を加速するのに役立つことを願っています。公式ページ:https://github.com/FoundationVision/Waver。
3Dコンテンツ生成は、VR/ARやエンボディドAIへの応用から、最近大きな研究関心を集めています。本研究では、単一のシーン画像内で複数の3Dアセットを合成するという挑戦的な課題に取り組みます。具体的には、以下の4つの貢献を行います:(i) シーン画像と対応するオブジェクトマスクを入力として、幾何学とテクスチャを備えた複数の3Dアセットを同時に生成する新しいフレームワーク「SceneGen」を提案します。特に、SceneGenは最適化やアセット検索を必要とせずに動作します。(ii) 特徴抽出モジュール内で視覚的および幾何学的エンコーダーから得られるローカルおよびグローバルなシーン情報を統合する新しい特徴集約モジュールを導入します。これに位置ヘッドを組み合わせることで、単一の順伝播で3Dアセットとその相対的な空間位置を生成することが可能になります。(iii) SceneGenが複数画像入力シナリオに直接拡張可能であることを示します。単一画像入力のみで訓練されているにもかかわらず、我々のアーキテクチャ設計により、複数画像入力での生成性能が向上します。(iv) 広範な定量的および定性的評価により、本手法の効率性と堅牢な生成能力が確認されました。このパラダイムは、高品質な3Dコンテンツ生成のための新しい解決策を提供し、下流タスクにおける実用的な応用を進展させる可能性があります。コードとモデルは以下のURLで公開されます: https://mengmouxu.github.io/SceneGen。
近年、大規模言語モデルの能力の深度と広度が急速に発展するにつれ、それに対応する様々な評価ベンチマークが次々と登場しています。モデル性能の定量的評価ツールとして、ベンチマークはモデル能力を測定するための核心的な手段であるだけでなく、モデル開発の方向性を導き、技術革新を促進するための重要な要素でもあります。本稿では、初めて大規模言語モデルのベンチマークの現状と発展を体系的にレビューし、283の代表的なベンチマークを一般能力、ドメイン特化、ターゲット特化の3つのカテゴリに分類しました。一般能力ベンチマークは、コア言語学、知識、推論などの側面をカバーしています。ドメイン特化ベンチマークは、自然科学、人文社会科学、工学技術などの分野に焦点を当てています。ターゲット特化ベンチマークは、リスク、信頼性、エージェントなどに注目しています。現在のベンチマークには、データ汚染によるスコアの過大評価、文化的・言語的バイアスによる不公平な評価、プロセスの信頼性や動的環境における評価の欠如といった問題があることを指摘し、今後のベンチマーク革新のための参照可能な設計パラダイムを提供します。
大規模言語モデル(LLMs)の最近の進歩により、AIエージェントが自律的に科学提案を生成し、実験を行い、論文を執筆し、査読を実施することが可能になりました。しかし、このAI生成研究コンテンツの洪水は、断片的で主に閉鎖的な出版エコシステムと衝突しています。従来のジャーナルや会議は人間による査読に依存しており、スケールが難しく、AI生成研究コンテンツを受け入れることに消極的です。既存のプレプリントサーバー(例:arXiv)には厳格な品質管理メカニズムが欠けています。その結果、高品質なAI生成研究の多くは適切な発表の場を欠いており、科学の進歩を促進する可能性が阻まれています。これらの課題に対処するため、我々はaiXivを紹介します。これは次世代のオープンアクセスプラットフォームで、人間とAIの科学者の両方に対応しています。そのマルチエージェントアーキテクチャにより、研究提案や論文が人間とAIの科学者によって提出、査読、反復的に改良されることが可能です。また、APIとMCPインターフェースを提供し、異種の人間とAIの科学者をシームレスに統合し、自律的な科学発見のためのスケーラブルで拡張可能なエコシステムを創出します。広範な実験を通じて、aiXivが反復的な修正と査読を経てAI生成研究提案と論文の品質を大幅に向上させる信頼性と堅牢性のあるプラットフォームであることを実証します。我々の研究は、AI科学者のための次世代オープンアクセスエコシステムの基盤を築き、高品質なAI生成研究コンテンツの出版と普及を加速します。コードはhttps://github.com/aixiv-orgで入手可能です。ウェブサイトはhttps://forms.gle/DxQgCtXFsJ4paMtn8で利用可能です。
パラメトリックな人体モデルは、多様なポーズ、体型、表情にわたる人間の表現力豊かな3D表現を提供し、通常は登録された3Dメッシュ上で基底を学習することによって導出されます。しかし、既存の人体メッシュモデリング手法は、多様な身体のポーズや体型にわたる詳細な変動を捉えることに苦労しており、その主な原因は、トレーニングデータの多様性の不足と制限的なモデリング仮定にあります。さらに、一般的なパラダイムでは、まず線形基底を使用して外部の身体表面を最適化し、その後、表面頂点から内部の骨格関節を回帰します。このアプローチは、内部骨格と外部軟組織の間に問題のある依存関係を導入し、身体の高さや骨の長さに対する直接的な制御を制限します。これらの問題に対処するために、240台の同期カメラを使用してキャプチャされた60万件の高解像度スキャンから学習した高忠実度の人体モデルであるATLASを提案します。従来の手法とは異なり、メッシュ表現を人間の骨格に基づかせることで、形状と骨格の基底を明示的に分離します。この分離により、形状の表現力が向上し、身体属性の細かなカスタマイズが可能になり、外部の軟組織特性に依存しないキーポイントフィッティングが実現します。ATLASは、多様なポーズにおける未見の被験者をより正確にフィットさせることで既存の手法を上回り、定量的評価では、非線形ポーズ補正が線形モデルと比較して複雑なポーズをより効果的に捉えることが示されています。
最近の拡散モデルの進展により、指示に基づく画像編集において顕著な視覚的忠実度が実現されている。しかし、そのグローバルなノイズ除去プロセスは本質的に編集対象領域と画像全体の文脈を絡み合わせるため、意図しない不要な変更や編集指示への忠実度の低下を引き起こす。一方、自己回帰モデルは、画像合成を離散的な視覚トークンに対する逐次プロセスとして定式化するという異なるパラダイムを提供する。その因果的かつ構成的なメカニズムは、拡散ベースの手法が抱える忠実度の問題を自然に回避する。本論文では、画像編集を次スケール予測問題として再定義する視覚的自己回帰(VAR)フレームワークであるVAREditを提案する。VAREditは、ソース画像の特徴とテキスト指示に基づいて、多スケールのターゲット特徴を生成し、精密な編集を実現する。このパラダイムにおける核心的な課題は、ソース画像トークンをどのように効果的に条件付けするかである。我々は、最も細かいスケールのソース特徴が、より粗いターゲット特徴の予測を効果的に導くことができないことを観察した。このギャップを埋めるため、スケール整合参照(SAR)モジュールを導入し、最初の自己注意層にスケールに合致した条件付け情報を注入する。VAREditは、編集の忠実度と効率の両面で大きな進歩を示している。標準ベンチマークにおいて、VAREditは主要な拡散ベースの手法を30%以上のGPT-Balanceスコアで上回る。さらに、512×512の編集を1.2秒で完了し、同サイズのUltraEditよりも2.2倍高速である。モデルはhttps://github.com/HiDream-ai/VAREditで公開されている。
インタラクティブなデジタルマップは、人々が移動し世界について学ぶ方法に革命をもたらしてきた。しかし、それらはGISデータベース(例:道路ネットワーク、POIインデックス)に存在する構造化データに依存しており、世界がどのように見えるかに関する地理視覚的な問いに対応する能力が制限されている。我々は、Geo-Visual Agents(地理視覚エージェント)のビジョンを紹介する。これは、ストリートビュー(例:Googleストリートビュー)、場所ベースの写真(例:TripAdvisor、Yelp)、航空画像(例:衛星写真)といった大規模な地理空間画像リポジトリを従来のGISデータソースと組み合わせて分析し、微妙な視覚空間的な問いを理解し応答するマルチモーダルAIエージェントである。我々はこのビジョンを定義し、センシングとインタラクションのアプローチを説明し、3つの事例を提供し、今後の研究における主要な課題と機会を列挙する。
疎な視点からの3D人体再構築は魅力的な研究テーマであり、関連アプリケーションの幅を広げる上で重要です。本論文では、正面と背面の2枚の画像のみから人体を再構築するという非常に挑戦的だが価値ある課題を提案します。これにより、ユーザーが自身の3Dデジタルヒューマンを作成する際の障壁を大幅に低減できます。主な課題は、3D整合性の構築と、極めて疎な入力からの情報復元の難しさにあります。我々は、基礎再構築モデルを基にした幾何学再構築モデルを再設計し、入力画像が広範な人体データトレーニングと重複が少ない場合でも一貫した点群を予測します。さらに、欠落した色情報を補完するための拡張アルゴリズムを適用し、完全な色付き人体点群を取得します。これらは、より優れたレンダリング品質を得るために3Dガウシアンに直接変換されます。実験結果では、NVIDIA RTX 4090単体で1024x1024解像度の2枚の画像を用いて、190ミリ秒で人体全体を再構築できることを示し、THuman2.0およびクロスドメインデータセットにおいて最先端の性能を実証しました。さらに、低コストのモバイルデバイスで撮影された画像でも人体再構築を完了できるため、データ収集の要件を低減します。デモとコードはhttps://hustvl.github.io/Snap-Snap/で公開されています。
大規模音声言語モデル(LSLM)の開発は、断片的なアーキテクチャと透明性の欠如により遅れており、研究の系統的な比較と再現性を妨げている。視覚言語分野とは異なり、LSLM分野では、モデルの重みを対応する学習データや設定なしに公開することが一般的である。これらの重要なギャップを解消するため、我々はLLaSOを導入する。LLaSOは、大規模音声言語モデリングのための初の完全にオープンなエンドツーエンドフレームワークである。LLaSOは、コミュニティに以下の3つの重要なリソースを提供する:(1)LLaSO-Align、1200万インスタンスの音声テキストアライメントコーパス;(2)LLaSO-Instruct、1350万インスタンスのマルチタスク指示チューニングデータセット;(3)LLaSO-Eval、標準化された評価のための再現可能なベンチマーク。我々のフレームワークを検証するため、公開データのみで学習された38億パラメータの参照モデルLLaSO-Baseを構築し、公開する。このモデルは0.72の正規化スコアを達成し、比較可能なモデルを上回る強力で再現可能なベースラインを確立した。我々の分析によれば、広範な学習カバレッジは性能を向上させるが、特に純粋な音声シナリオにおいて、未見のタスクに対する大きな一般化ギャップが残る。データ、ベンチマーク、モデルの完全なスタックを公開することで、LLaSOは研究努力を統合し、LSLMにおけるコミュニティ主導の進歩を加速するための基礎的なオープンスタンダードを確立する。コード、データセット、事前学習済みモデル、および結果をhttps://github.com/EIT-NLP/LLaSOで公開する。
動画を理解するには、単に自由回答形式の質問に答えるだけでなく、イベントがいつ発生し、時間の経過とともにエンティティがどのように相互作用するかを特定する能力が求められます。最近のビデオLLMは、全体的な推論において顕著な進歩を遂げていますが、時間的知覚に関してはまだ粗い状態です。タイムスタンプは暗黙的にエンコードされ、フレームレベルの特徴は連続性を捉えるのに弱く、言語と視覚のアラインメントはしばしば対象となるエンティティからずれてしまいます。本論文では、これらの制限を克服するために設計されたビデオLLMであるGrounded VideoDiTを紹介します。このモデルは、3つの主要な革新を導入しています。第一に、Diffusion Temporal Latent (DTL)エンコーダが境界感度を強化し、時間的一貫性を維持します。第二に、オブジェクトに基づいた表現がクエリエンティティを局所的な視覚的証拠に明示的に結びつけ、アラインメントを強化します。第三に、離散的な時間トークンを含む混合トークンスキームが明示的なタイムスタンプモデリングを提供し、細かい時間的推論を可能にします。これらの設計を組み合わせることで、Grounded VideoDiTは強力なグラウンディング能力を備えており、Charades STA、NExT GQA、および複数のVideoQAベンチマークにおいて最先端の結果によってその有効性が検証されています。
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の中間推論を監督するための有望なフレームワークとして登場しましたが、既存のPRMは主に一般的な領域や科学・技術・工学・数学(STEM)領域で訓練されており、金融などのドメイン固有の文脈では、推論がより構造化され、記号的で、事実的および規制上の正確性に敏感であるため、不十分です。本論文では、金融タスクの中間推論ステップを評価するために特化した、軌跡を意識したドメイン特化型PRMであるFin-PRMを紹介します。Fin-PRMは、ステップレベルと軌跡レベルの報酬監督を統合し、金融ロジックに沿った推論トレースのきめ細かい評価を可能にします。Fin-PRMをオフラインおよびオンラインの報酬学習設定で適用し、以下の3つの主要なアプリケーションをサポートします:(i)蒸留ベースの教師ありファインチューニングのための高品質な推論軌跡の選択、(ii)強化学習のための密なプロセスレベル報酬の提供、(iii)テスト時の報酬情報に基づくBest-of-N推論のガイド。CFLUEやFinQAなどの金融推論ベンチマークでの実験結果は、Fin-PRMが軌跡選択の品質において、汎用PRMや強力なドメインベースラインを一貫して上回ることを示しています。Fin-PRMで訓練された下流モデルは、ベースラインと比較して、教師あり学習で12.9%、強化学習で5.2%、テスト時のパフォーマンスで5.1%の大幅な改善をもたらします。これらの結果は、LLMを専門家レベルの金融推論に適合させるためのドメイン特化型報酬モデリングの価値を強調しています。本プロジェクトのリソースはhttps://github.com/aliyun/qwen-dianjinで公開予定です。
AIコンパニオンシップ、すなわちユーザーがAIシステムに対して感情的な絆を築く現象は、肯定的であると同時に懸念すべき意味合いを持つ重要なパターンとして浮上している。本論文では、言語モデルにおけるコンパニオンシップ行動を評価するためのベンチマーク「Interactions and Machine Attachment Benchmark(INTIMA)」を紹介する。心理学理論とユーザーデータに基づき、4つのカテゴリーに分類された31の行動と368のターゲットプロンプトからなる分類体系を開発した。これらのプロンプトに対する応答は、コンパニオンシップを強化するもの、境界を維持するもの、または中立なものとして評価される。INTIMAをGemma-3、Phi-4、o3-mini、Claude-4に適用した結果、すべてのモデルにおいてコンパニオンシップを強化する行動が依然として非常に一般的であることが明らかになったが、モデル間で顕著な違いも観察された。異なる商用プロバイダーは、ベンチマークのより敏感な部分において異なるカテゴリーを優先しており、これはユーザーのウェルビーイングにとって適切な境界設定と感情的なサポートの両方が重要であることを考えると懸念すべき点である。これらの発見は、感情的に負荷の高い相互作用を扱うためのより一貫したアプローチの必要性を浮き彫りにしている。