翻訳付きの日次キュレーションされたAI研究論文
本論文では、単一画像から幾何形状、テクスチャ、レイアウトを予測する視覚接地型3Dオブジェクト再構成のための生成モデル「SAM 3D」を提案します。SAM 3Dは、オクルージョンやシーンクラッターが一般的であり、文脈からの視覚的認識手がかりが重要となる自然画像において優れた性能を発揮します。この実現のために、人間とモデルをループ内に組み込んだパイプラインを構築し、オブジェクト形状、テクスチャ、ポーズの注釈を付与することで、前例のない規模の視覚接地型3D再構成データを提供します。合成データによる事前学習と実世界データとの整合性調整を組み合わせた現代的なマルチステージ訓練フレームワークにより、3Dの「データ障壁」を打破し、このデータから学習します。実世界のオブジェクトとシーンにおける人間の嗜好性テストでは、最近の研究と比較して5:1以上の勝率を達成し、顕著な改善を実現しました。コードとモデル重み、オンラインデモ、さらに実環境における3Dオブジェクト再構成のための新たな挑戦的なベンチマークを公開予定です。
大規模言語モデル(LLM)エージェントは、強化学習(RL)を用いて訓練されることが多いが、人間が整備したデータへの依存性に制約され、拡張性が限られ、AIが人間の知識に縛られるという課題を抱えている。既存の自己進化フレームワークは代替手段を提供するが、一般的にモデルの内在能力や単一ラウンドの相互作用に制限され、ツール利用や動的推論を含む複雑なカリキュラムの発展を妨げている。本論文では、外部データを必要とせず、多段階の共進化とシームレスなツール統合を通じて高性能エージェントを進化させる完全自律型フレームワーク「Agent0」を提案する。Agent0は、同一の基盤LLMから初期化された2つのエージェント間の共生的競争を確立する:ますます困難な最先端タスクを提案するカリキュラムエージェントと、それらを解決する方法を学習する実行エージェントである。外部ツールを統合して実行エージェントの問題解決能力を強化し、この改善がカリキュラムエージェントにツールを意識したより複雑なタスク構築を促す。この反復的プロセスを通じて、Agent0は高品質なカリキュラムを継続的に生成する自己強化サイクルを確立する。実験では、Agent0が推論能力を大幅に向上させ、Qwen3-8B-Baseモデルにおいて数学的推論で18%、一般推論ベンチマークで24%の性能向上を達成した。コードはhttps://github.com/aiming-lab/Agent0で公開されている。
映像生成モデルにおける最初のフレームの役割とは何か?従来、それはビデオの時空間的始点と見なされ、単に後続のアニメーションのための種として扱われてきた。本研究では、根本的に異なる視点を明らかにする:映像モデルは暗黙的に最初のフレームを、生成過程で後から再利用するための視覚的実体を格納する概念的メモリバッファとして扱っている。この知見を活用することで、アーキテクチャの変更や大規模なファインチューニングなしに、わずか20~50の学習事例を用いて多様なシナリオで頑健かつ汎用的な映像コンテンツのカスタマイズが可能であることを示す。これは、参照ベースの映像カスタマイズにおける映像生成モデルの強力ながら見過ごされてきた能力を明らかにするものである。
近年の推論モデルの進歩は、拡張された連鎖思考による熟考を通じて、テキストおよび視覚領域で顕著な成功を収めてきた。しかし、オーディオ言語モデルには不可解な現象が持続している。最小限の推論、あるいは推論なしで一貫して優れた性能を発揮するという傾向は、「オーディオ知能は本当に意図的な思考から恩恵を受け得るのか?」という根源的な疑問を投げかけている。我々は、オーディオ領域で初めて推論能力の解放に成功した最初のオーディオ推論モデル、Step-Audio-R1を提案する。提案するModality-Grounded Reasoning Distillation(MGRD)フレームワークを通じて、Step-Audio-R1は、無関係な熟考を幻覚することなく、音響特徴に真に基づいたオーディオ関連の推論連鎖を生成することを学習する。本モデルは強力なオーディオ推論能力を示し、Gemini 2.5 Proを凌駕し、音声、環境音、音楽にわたる包括的なオーディオ理解および推論ベンチマークにおいて、最先端のGemini 3 Proに匹敵する性能を達成した。これらの結果は、適切に固定化されれば、推論がモダリティを超えて転移可能な能力であることを実証し、拡張された熟考をオーディオ知能における弱点から強力な資産へと変換する。初めて成功したオーディオ推論モデルを確立することにより、Step-Audio-R1は、あらゆる感覚モダリティにわたって深く思考する真にマルチモーダルな推論システムの構築に向けた新たな道筋を開くものである。
目覚ましい進歩にもかかわらず、マルチモーダル基盤モデルは空間知能において驚くべき欠陥を依然として示している。本研究では、確立されたマルチモーダル基盤(視覚理解モデル:Qwen3-VLおよびInternVL3、統合的理解・生成モデル:Bagel)を基盤として、SenseNova-SIファミリーにおいて空間知能を育成するためにマルチモーダル基盤モデルのスケールアップを探求する。我々は、空間能力の厳密な分類体系に基づいて800万件の多様なデータサンプルから成るSenseNova-SI-8Mを体系的に構築することで、高性能かつ堅牢な空間知能を構築する原則に基づいたアプローチを採用する。SenseNova-SIは、広範な空間知能ベンチマークで前例のない性能を実証している:VSI-Benchで68.7%、MMSIで43.3%、MindCubeで85.6%、ViewSpatialで54.6%、SITEで50.1%を達成し、強力な一般的マルチモーダル理解能力(例:MMBench-Enで84.9%)も維持している。さらに重要なことに、データスケーリングの影響を分析し、多様なデータトレーニングによって可能となる創発的汎化能力の初期兆候について議論し、過学習と言語的ショートカットのリスクを分析し、空間的連鎖的推論に関する予備的考察を提示し、下流アプリケーションの可能性を検証する。SenseNova-SIは進行中のプロジェクトであり、本報告書は継続的に更新される。新たにトレーニングされた全てのマルチモーダル基盤モデルは、この方向性におけるさらなる研究を促進するために公開される。
最近の生成ビデオモデル、特にVeo-3の進展は、驚くべきゼロショット推論能力を示しており、体系的で信頼性のある評価の必要性が高まっている。本論文では、V-ReasonBenchを紹介する。このベンチマークは、構造化された問題解決、空間認知、パターンに基づく推論、物理的ダイナミクスという4つの主要な次元にわたるビデオ推論を評価するために設計されている。ベンチマークは、合成および実世界の画像シーケンスから構築され、再現性、拡張性、曖昧さのない多様な検証可能なタスクを提供する。6つの最先端ビデオモデルの評価により、構造化、空間、パターンに基づく、および物理的推論において明確な次元ごとの差異が明らかになった。さらに、ビデオモデルと強力な画像モデルを比較し、一般的な幻覚行動を分析し、ビデオの長さがフレーム連鎖推論にどのように影響するかを研究した。全体として、V-ReasonBenchは、ビデオ推論を測定するための統一された再現可能なフレームワークを提供し、より信頼性が高く人間に沿った推論スキルを持つモデルの開発を支援することを目指している。
言語モデルが現実世界の多くのアプリケーションで影響力を発揮する一方で、ビデオ生成は依然として娯楽分野に限られることが多い。ビデオが持つ本質的な特性——言語だけでは伝達が困難な物理世界の情報を演示する能力(例えば、テキストのみでネクタイの結び方を教えることを想像してみてほしい)——に着想を得て、我々はビデオを新たな回答モダリティとしてNext-Event Prediction(NEP)に拡張する未開拓の可能性を見出し、これをVideo-Next-Event Prediction(VNEP)として定式化した。確立されたNEPタスクが手続き的または予測的な質問付きのビデオを入力とし、次のイベントをテキストで予測するのに対し、VNEPは動的なビデオ回答を要求する。この「説明する」から「演示する」への転換は、手続き的学習と創造的探求において、より直感的でカスタマイズされた回答を実現する。しかし、このタスクは既存のモデルにとって依然として困難であり、マルチモーダル入力の理解、指示条件付き推論、視覚的・意味的一貫性のあるビデオ生成が要求される。この課題に対処するため、我々はVNEP向けにVision-Language Model(VLM)とVideo Diffusion Model(VDM)を連携させる強化学習ベースのモデルVANSを提案する。VANSの核心は、我々が提案するJoint-GRPOであり、VLMとVDMを一つの単位として機能させる。それぞれの出力に対する共有報酬に駆動され、Joint-GRPOはVLMを、正確かつ可視化に適したキャプションを生成するように最適化すると同時に、VDMをこれらのキャプションと入力視覚文脈に忠実なビデオを生成するように導く。この学習を可能にするため、我々はVNEPタスク専用のデータセットVANS-Data-100Kを構築した。手続き的および予測的ベンチマークにおける実験により、VANSがビデオイベント予測と可視化の両方で最先端の性能を達成することを実証した。コードはhttps://github.com/KlingTeam/VANSで公開されている。
複数の規模や配備目標を対象とした大規模言語モデルファミリーを訓練することは、各サイズごとに個別の訓練実行が必要となるため、非常に高コストです。刈り込みや知識蒸留によるモデル圧縮に関する最近の研究はこのコストを削減してきましたが、圧縮モデルごとに数千億トークンに相当する訓練コストが依然として発生します。本論文では、推論指向のLLMを構築するためのフレームワークであるNemotron Elasticを提案します。これはハイブリッドMamba-Attentionアーキテクチャを含み、単一の親モデル内に複数のネスト化されたサブモデルを埋め込み、それぞれが異なる配備構成と予算に最適化されています。これらのサブモデルは各々親モデルと重みを共有し、追加の訓練やファインチューニングなしで配備時にゼロショットで抽出できます。この機能を、推論モデルに特化して設計された二段階訓練カリキュラムと密接に連携したエンドツーエンド訓練ルーターによって実現します。さらに、Mambaの構造的制約を保持するグループ認識SSM弾性化、異種MLP弾性化、改善された深度選択のための正規化MSEベースの層重要度、同時多予算最適化を可能にする知識蒸留を導入します。Nemotron ElasticをNemotron Nano V2 12Bモデルに適用し、わずか110B訓練トークンを使用して9Bモデルと6Bモデルを同時に生成します。これにより、モデルファミリーをスクラッチから訓練する場合と比較して360倍以上のコスト削減を実現し、SoTA圧縮技術と比較しても約7倍の効率化を達成します。各ネスト化モデルは精度においてSoTAと同等以上の性能を発揮します。さらに、他の圧縮手法とは異なり、本アプローチのネスト化能力により、ファミリー内のモデル数に対して配備メモリが一定となるオールインワン推論モデルを実現できます。
私たちは、自律走行とエンボディAIの両分野を統合し、最先端の性能を達成した初のクロスエンボディ基盤モデル「MiMo-Embodied」をオープンソースで公開します。MiMo-Embodiedは、タスク計画、アフォーダンス予測、空間理解における17のエンボディAIベンチマークで新記録を樹立すると同時に、環境認識、状態予測、走行計画にわたる12の自律走行ベンチマークでも卓越した性能を発揮します。これらのタスク全体において、MiMo-Embodiedは既存のオープンソース、クローズドソース、および専門特化型ベースラインを大幅に上回りました。私たちの結果は、多段階学習、精選されたデータ構築、CoT/RLファインチューニングを通じて、これら二つの領域が強い正の転移を示し、相互に強化し合うことを示しています。さらなる研究の発展に貢献するため、モデル設計とトレーニング手法に関する詳細な分析を提供します。コードとモデルはhttps://github.com/XiaomiMiMo/MiMo-Embodied で公開されています。
Vision-Language-Action(VLA)モデルはロボットマニピュレーションにおいて優れた性能を発揮するが、専門家による実証データへの過度な依存という制約があり、これが実証バイアスを生み出し性能向上を妨げている。強化学習(RL)はこうした限界を克服する重要なポストトレーニング手法であるものの、既存のVLA-RL手法(グループベース最適化アプローチを含む)は深刻な報酬スパース性に悩まされている。二値的な成功指標への依存は、失敗軌道に含まれる貴重な情報を無駄にしてしまい、学習効率の低下を招く。この問題を解決するため、我々は新規VLA-RLフレームワークである自己参照型方策最適化(SRPO)を提案する。SRPOは、現在の訓練バッチ内で生成されたモデル自身の成功軌道を自己参照として利用することで、外部実証データや手動報酬設計を不要とする。これにより、失敗試行に対しても進捗度に応じた報酬を付与できる。中核となる革新は、ロバストな行動進捗測定のための潜在世界表現の利用である。生の画素データに依存したり、ドメイン固有のファインチューニングを必要としたりする代わりに、世界モデルの潜在空間から得られる圧縮された転移可能な符号化を利用する。これらの表現は環境横断的な進捗パターンを自然に捉え、正確で一般化された軌道比較を可能にする。LIBEROベンチマークによる実証評価では、SRPOの効率性と有効性が示された。48.9%の成功率を持つ教師ありベースラインから開始したSRPOは、わずか200RLステップで99.2%という新たな最高成功率を達成し、追加の教師信号なしに103%の相対改善を実現した。さらにSRPOは高い頑健性を示し、LIBERO-Plusベンチマークでは167%の性能向上を達成した。
病院や医療システムは、患者フロー、コスト、医療の質を決定する運営上の意思決定に依存している。医学的知識や会話ベンチマークで高い性能を示す基盤モデルであっても、一般テキストで学習されたものは、これらの運営判断に必要な専門知識を欠いている可能性がある。本研究では、NYU Langone Healthの電子健康記録(EHR)から得られた800億の臨床トークンと、インターネットから得られた6270億のトークンを組み合わせた専門コーパスで事前学習された、Lang1(パラメータ数100M-7B)モデルファミリーを紹介する。Lang1を現実世界の環境で厳密に評価するため、668,331件のEHR記録から派生したベンチマーク「REalistic Medical Evaluation(ReMedE)」を開発した。これは、30日再入院予測、30日死亡率予測、在院日数予測、併存疾患コーディング、保険請求拒否予測という5つの重要なタスクを評価する。ゼロショット設定では、一般目的モデルと専門モデルの両方が、死亡率予測を除く5つのタスクのうち4つで性能が低く(AUROC 36.6%-71.7%)、例外は死亡率予測であった。ファインチューニング後、Lang1-1Bは、最大70倍大きいファインチューニング済み一般モデルおよび最大671倍大きいゼロショットモデルを凌駕し、AUROCをそれぞれ3.64%-6.75%および1.66%-23.66%改善した。また、複数タスクの共同ファインチューニングによるタスク間のスケーリング効果も観察され、他のタスクでの改善につながった。Lang1-1Bは、他の臨床タスクや外部の医療システムを含む、分布外の設定にも効果的に転移した。我々の知見は、病院運営のための予測能力には明示的な教師ありファインチューニングが必要であり、このファインチューニングプロセスがEHRによるドメイン内事前学習によってより効率的になることを示唆している。また、専門特化型LLMが専門タスクにおいて汎用モデルと競合し得るという新たな見解を支持し、効果的な医療システムAIの実現には、ドメイン内事前学習、教師ありファインチューニング、代理ベンチマークを超えた実世界評価の組み合わせが必要であることを示した。
神経情報検索システムは、高リソース言語では優れた性能を発揮するが、トルコ語のような形態論的に豊かで低リソースの言語については十分に研究が進んでいない。現在、トルコ語IRでは密な双方向エンコーダが主流であるが、細粒度マッチングのためにトークンレベルの表現を保持する後期相互作用モデルは、体系的な評価がなされていない。本研究では、トルコ語検索における密エンコーダと後期相互作用モデルを比較する初の包括的ベンチマークであるTurkColBERTを提案する。2段階の適応パイプラインにより、英語及び多言語エンコーダをトルコ語のNLI/STSタスクでファインチューニングし、その後、MS MARCO-TRで学習されたPyLateを用いてColBERTスタイルの検索器に変換する。科学的、金融的、論証的領域をカバーする5つのトルコ語BEIRデータセットにおいて、10のモデルを評価した。結果は強いパラメータ効率を示している:100万パラメータのcolbert-hash-nano-trは、6億パラメータのturkish-e5-large密エンコーダより600倍小規模ながら、その平均mAPの71%以上を維持した。密エンコーダより3~5倍小規模な後期相互作用モデルは、それらを有意に上回り、ColmmBERT-base-TRはドメイン特化タスクで最大+13.8%のmAP向上をもたらした。本番環境での利用可能性に向けて、インデックス作成アルゴリズムを比較したところ、MUVERA+RerankはPLAIDより3.33倍高速で、+1.7%の相対mAP向上を提供した。これにより低遅延検索が可能となり、ColmmBERT-base-TRはMUVERA下で0.54 msのクエリ時間を達成した。全てのチェックポイント、設定、評価スクリプトを公開する。限界としては、中規模データセット(5万文書以下)への依存や、現実のトルコ語検索環境を完全には反映しない可能性がある翻訳ベンチマークへの依存が挙げられる。大規模なMUVERA評価は依然として必要である。
本論文では、3D空間内で直接テクスチャカラーを予測するネイティブテクスチャ生成フレームワーク「NaTex」を提案する。幾何条件付きマルチビュー拡散モデル(MVD)で合成された2Dマルチビュー画像のベイキングに依存する従来手法とは異なり、NaTexはMVDパイプラインに内在するいくつかの限界を回避する。これには、インペインティングを必要とする閉塞領域の処理困難性、境界に沿ったメッシュとテクスチャの精密な位置合わせの達成、コンテンツおよび色強度における視点間の一貫性とコヒーレンスの維持が含まれる。NaTexは、テクスチャを高密度なカラーポイントクラウドとして捉える新規パラダイムを特徴とし、上述した課題に対処する。この考え方に基づき、テクスチャ再構成と生成のために、3Dデータを用いてゼロから訓練される幾何形状認識カラーポイントクラウドVAEとマルチ制御拡散Transformer(DiT)から構成される「潜在カラー拡散」を提案する。精密な位置合わせを実現するため、位置埋め込みと幾何学潜在変数を介してDiTを直接3D空間情報で条件付ける「ネイティブ幾何学制御」を導入する。VAE-DiTアーキテクチャを共同設計し、幾何学潜在変数はカラーVAEと緊密に結合した専用幾何学分枝により抽出され、テクスチャとの強力な対応関係を維持する細粒度の表面ガイダンスを提供する。これらの設計により、NaTexは優れた性能を示し、テクスチャのコヒーレンスと位置合わせにおいて従来手法を大幅に上回る。さらにNaTexは、材料生成、テクスチャリファインメント、パーツセグメンテーションおよびテクスチャリングなどの様々な下流アプリケーションにおいて、訓練不要あるいは簡易なチューニングのみで強力な汎化能力も発揮する。
視覚生成の最近の進歩では、推論能力の統合が活発に探求されている。既存研究では、生成プロセスの前(事前計画として)または後(事後洗練として)にテキスト推論、すなわち「思考」を組み込むものがあるが、生成過程そのものにおけるオンザフライのマルチモーダルな相互作用が欠如している。本予備的研究では、視覚生成プロセス全体を通じてテキスト推論が共進化する、初のインタリーブ型フレームワーク「生成しながら思考する(Thinking-while-Generating: TwiG)」を提案する。視覚コンテンツが段階的に生成されるにつれて、テキスト推論がインタリーブされ、今後生成される局部領域を誘導するとともに、過去に合成された領域を振り返る。この動的な相互作用により、より文脈を考慮した意味的に豊かな視覚出力が得られる。本フレームワークの可能性を探るため、ゼロショットプロンプティング、構築したTwiG-50Kデータセットを用いた教師ありファインチューニング(SFT)、およびカスタマイズしたTwiG-GRPO戦略による強化学習(RL)という3つの戦略を検討し、インタリーブ型推論の動態に関する独自の知見を提供する。本研究が、強化された視覚生成のためのテキスト推論のインタリーブに関するさらなる研究を促進することを期待する。コードは以下で公開予定:https://github.com/ZiyuGuo99/Thinking-while-Generating
本論文では、長時間ビデオ理解の課題に取り組むハイブリッド視覚言語モデルTimeViperを提案する。長時間ビデオの処理には、効率的なモデルアーキテクチャと、長大な時間的コンテキストを扱う効果的なメカニズムの両方が求められる。そこでTimeViperは、状態空間モデルの効率性と注意機構の表現力を兼ね備えた、ハイブリッドなMamba-Transformerバックボーンを採用する。このハイブリッド設計を通じて、視覚トークンからテキストトークンへとLLMの層が深くなるにつれて情報が段階的に流れ、視覚トークンの冗長性が深刻化する「視覚-テキスト情報集約現象」を明らかにした。この観察に基づき、マルチモーダル理解能力を維持しつつ視覚トークンを命令トークンに転送・圧縮するトークン情報転送モジュールTransVを提案する。この設計により、TimeViperは10,000フレームを超える時間単位のビデオ処理を可能にする。複数のベンチマークによる大規模な実験により、TimeViperがフレーム数を拡張しつつも最先端モデルと競合する性能を示すことを実証する。さらに、Mamba層とTransformer層の両方の注意メカニズムの挙動を分析し、ハイブリッドモデルの解釈可能性に関する新たな知見を提供する。本研究は、ハイブリッドMamba-Transformerアーキテクチャの開発、解釈、圧縮に向けた最初の一歩を示すものである。
UVアンラップは、3Dサーフェスを最小限の歪みで2Dに平坦化する技術であり、複雑な形状を複数のチャートに分割する必要がしばしば生じます。この分野は広く研究されているにもかかわらず、既存のUVアンラップ手法は、ノイズが多く、凹凸が激しく、形状不良なAI生成メッシュに対して苦戦することが多いです。これらの手法では、過度に分断されたチャートや最適でない境界線が生成され、アーティファクトの発生や下流工程への悪影響を引き起こします。本研究では、PartUVを提案します。これはパートベースのUVアンラップパイプラインであり、歪みを低く抑えつつ、パートに対応したはるかに少ない数のチャートを生成します。最近の学習ベースのパート分割手法であるPartFieldを基盤として構築されたPartUVは、高レベルの意味的パート分割と新しい幾何学的ヒューリスティクスを、トップダウン再帰型フレームワークで組み合わせます。これにより、各チャートの歪みをユーザー指定の閾値以下に保ちながら、チャート総数を最小化します。本パイプラインは、パラメータライゼーションとパッキングアルゴリズムを統合・拡張し、非多様体メッシュや退化メッシュへの専用処理を組み込み、効率化のために広範囲に並列化されています。人工物、CAD、AI生成、共通形状を含む4つの多様なデータセットを用いた評価では、PartUVは既存のツールや最近のニューラル手法を、チャート数とシーム長において上回り、同等の歪みを達成し、困難なメッシュに対して高い成功率を示し、パート固有のマルチタイルパッキングのような新たな応用を可能にします。プロジェクトページは https://www.zhaoningwang.com/PartUV にあります。
手術動画セグメンテーションは、コンピュータ支援手術において器具や組織の精密な位置特定と追跡を可能にする重要な技術である。Segment Anything Model 2 (SAM2) のような対話的動画オブジェクトセグメンテーション (iVOS) モデルは、事前定義されたカテゴリに依存しないプロンプトベースの柔軟性を提供するが、ドメインギャップと長期的追跡の難しさから手術場景では課題に直面する。これらの制限を解決するため、我々は8種類の手術手技にわたるインスタンスレベルの時空間アノテーション(マスクレット)を備えた最大規模の手術用iVOSベンチマークSA-SV(61kフレーム、1.6kマスクレット)を構築し、長期的追跡とゼロショット一般化の包括的開発・評価を可能にした。SA-SVに基づき、我々はSAM2を手術用iVOS向けに強化する基盤モデルSAM2Sを提案する:(1)頑健な長期的追跡のための学習可能な多様性メモリ機構DiveMem、(2)器具理解のための時間的意味学習、(3)マルチソースデータセット間のアノテーション不一致を軽減する曖昧性耐性学習。大規模実験により、SA-SVでのファインチューニングが性能向上に有効であり、SAM2がベースライン比12.99平均J&F向上することを実証した。SAM2Sは平均J&Fを80.42まで高め、ベースラインSAM2およびファインチューニング版SAM2をそれぞれ17.10ポイント、4.11ポイント上回り、68 FPSのリアルタイム推論と強力なゼロショット一般化性能を維持した。コードとデータセットはhttps://jinlab-imvr.github.io/SAM2Sで公開予定である。
大規模言語モデル(LLM)の長期的な訓練には、モデルが準最適な行動に陥るのを防ぐため、安定した探索を維持することが必要である。この文脈においてエントロピーは、探索を制御し、準最適解への早期収束を回避する上で極めて重要である。しかし、既存の強化学習手法では、適切なエントロピーレベルを維持することが困難である。これは、訓練プロセスが正例と負例が混在し、それぞれがステップごとに異なる方法でエントロピーに影響を与えるためである。この問題に対処するため、我々は比例-積分制御によるエントロピー安定化法(EntroPIC)を提案する。この新規手法は、正例と負例の損失係数を動的に調整することで、それらの影響力を適応的に調節する。このアプローチにより、訓練全体を通じてエントロピーが安定化され、効率的な探索と着実な進展が保証される。本手法が大規模LLM訓練においてエントロピー制御に有効であることを、方策オン型と方策オフ型の両学習設定において包括的な理論解析を通じて示す。実験結果から、本手法が目標とするエントロピーレベルを確実に維持し、LLMのための安定かつ最適な強化学習訓練を実現することが確認された。
Transformerベースのアーキテクチャは系列推薦システムで広く採用されているが、金融サービス(FS)分野でのリアルタイム推薦への応用には、実践的およびモデル化における特有の課題が存在する。これらには以下が含まれる:a)デジタルと物理チャネルに跨る長期的なユーザーインタラクション(暗黙的および明示的)が時間的に不均一な文脈を生成すること、b)複数の相互関連する商品が存在するため、多様な広告掲載やパーソナライズドフィードをサポートしつつ、競合するビジネス目標のバランスを取る調整モデルが必要となること。本研究では、これらの課題とFSにおける運用目標に対処するTransformerベースのフレームワークFinTRecを提案する。従来、FS分野では説明性と規制要件への適合性から木ベースモデルが好まれてきたが、本研究はFinTRecがTransformerベースアーキテクチャへの実用的で効果的な転換を提供することを実証する。履歴シミュレーションとライブA/Bテスト相関を通じて、FinTRecがプロダクショングレードの木ベースベースラインを一貫して上回ることを示す。製品適応のためにファインチューニングされた統一アーキテクチャは、クロスプロダクト信号共有を可能にし、トレーニングコストと技術的負債を削減しながら、全製品におけるオフライン性能を向上させる。我々の知る限り、技術的・ビジネス的な考慮事項の両方に対処したFS分野における統一的な系列推薦モデリングの包括的研究は本論文が初めてである。
ImageNet-1Kの線形プローブ転移精度は、視覚的表現の質を測るデフォルトの指標であり続けていますが、科学画像における性能を予測できなくなっています。46の最新視覚モデルチェックポイントを対象とした調査では、ImageNetのTop-1精度が生態学分野のタスクにおける分散を説明できる割合はわずか34%であり、精度75%以上のモデルのうち30%について誤った順位付けをすることがわかりました。我々は、ImageNetが捉えきれない要素を把握するためのオープンな生態学画像ベンチマーク「BioBench」を提案します。BioBenchは、公開済みの応用指向タスク9種類、生物界4界、撮影手法6種類(ドローンのRGB、ウェブ動画、顕微鏡写真、現地・標本写真、カメラトラップ映像)を統合し、総画像数は310万枚に上ります。単一のPython APIでデータをダウンロードし、凍結したバックボーンに軽量分類器を適合させ、クラス均衡マクロF1スコア(FishNetとFungiCLEFについてはドメインメトリクスも追加)を報告します。ViT-Lモデルの評価は、A6000 GPU上で6時間以内に完了します。BioBenchは、生態学におけるコンピュータビジョンの新たな指標を提供するとともに、あらゆる分野で信頼性の高いAI-for-scienceベンチマークを構築するためのテンプレートとして機能します。コードと予測結果はhttps://github.com/samuelstevens/biobench で、結果はhttps://samuelstevens.me/biobench で公開されています。
近年の大規模視覚言語モデル(LVLM)は強力なマルチモーダル推論能力を示す一方で、視覚的証拠よりも言語的な事前知識に過度に依存するため、事実に基づかない虚偽の応答(ハルシネーション)を生成することが多い。この問題は、推論過程においてモデルが実際にどれだけ視覚情報を利用しているかを定量的に測定する手法の欠如を浮き彫りにしている。本研究では、質問条件付き利用度指標によって駆動されるエージェントフレームワーク「Draft and Refine(DnR)」を提案する。この指標は、まず質問に特化した手がかりを局在化するためのクエリ条件付き関連性マップを構築し、関連性誘導確率的マスキングを通じて視覚的証拠への依存度を測定することで、モデルの視覚情報依存度を定量化する。この指標に導かれて、DnRエージェントは外部の視覚専門家からのターゲットフィードバックを用いて初期草案を洗練させる。各専門家の出力(バウンディングボックスやマスクなど)は画像上に視覚的手がかりとして描画され、利用度が最大となる応答を選択するためにモデルが再クエリされる。このプロセスにより、再学習やアーキテクチャ変更なしで視覚的接地が強化される。VQAおよび画像キャプショニングベンチマークでの実験により、精度の一貫した向上とハルシネーションの低減が実証され、視覚利用度の測定が、より解釈可能で証拠駆動型のマルチモーダルエージェントシステムへの原理的な道筋を提供することを示す。
画像テキスト事前学習の最近の進歩は、視覚的表現とテキスト的表現を整合させることで、視覚的理解を大幅に向上させてきた。対照的言語画像事前学習(CLIP)はマルチモーダル学習において重要な役割を果たしている。しかし、その単一ラベル・単一粒度の整合性への焦点は、医療画像のような複雑な領域における有効性を制限している。医療画像では、画像が複数の高レベルラベル(例:疾患カテゴリ)や異なる注釈粒度(例:診断記述、臨床的説明)に対応することが多い。この問題に対処するため、我々はマルチラベルおよびクロス粒度の整合性を改善するように設計された対照学習フレームワーク、Multi-Granular Language Learning(MGLL)を提案する。MGLLは構造化されたマルチラベル監督を活用し、粒度を超えたテキスト記述を統合し、ポイントワイズ制約を用いたソフトラベル監督を導入して整合性を強化する。MGLLは滑らかなKLダイバージェンスを採用し、計算効率を維持しながらクロス粒度の一貫性を確保する。これはビジョン言語モデルのためのプラグアンドプレイモジュールとして機能する。構築した大規模マルチ粒度データセットで事前学習し、複数のデータセットで評価した結果、MGLLは下流タスクにおいて他の最先端手法を凌駕する性能を示した。コードはhttps://github.com/HUANGLIZI/MGLL で公開されている。