翻訳付きの日次キュレーションされたAI研究論文
低ランク適応(LoRA)は、大規模な事前学習モデルのパラメータ効率的なファインチューニングを大幅に進化させた。LoRAは、事前学習されたモデルの重みに、低ランク行列更新を形成する2つの小さな行列の積を追加することで拡張する。最近の研究では、これらの2つの行列間のスケールの不一致が不安定な学習ダイナミクスを引き起こし、最適でない性能をもたらすことが示されている。本論文では、SingLoRAを提案する。SingLoRAは、低ランク適応を再定式化し、重み更新を単一の低ランク行列とその転置行列の積として学習する。このシンプルな設計により、行列間のスケールの衝突が本質的に除去され、安定した最適化が保証され、パラメータ数がほぼ半減する。SingLoRAを無限幅ニューラルネットワークの枠組みで分析し、構成的に安定した特徴学習を保証することを示す。複数のタスクにおける広範な実験により、これらの利点が検証された。常識推論において、MNLIデータセットでLLama 7BをSingLoRAでファインチューニングした結果、91.3%の精度を達成し、LoRA(89.1%)およびLoRA+(90.2%)を上回りながら、それらのパラメータ予算の60%のみを使用した。画像生成において、Stable DiffusionをSingLoRAでファインチューニングすることで、DreamBoothでの画像忠実度が大幅に向上し、DINO類似度スコアが0.151を達成した。これは、DoRA(0.148)およびLoRA(0.143)のスコアを上回るものである。
大規模言語モデル(LLMs)は、特に中間ステップを言語化する明示的な連鎖的思考(CoT)推論に導かれる場合、印象的な推論能力を示している。CoTは解釈可能性と精度の両方を向上させるが、自然言語推論への依存がモデルの表現帯域幅を制限している。潜在推論は、多段階の推論をモデルの連続的な隠れ状態で完全に実行し、トークンレベルの監督を排除することで、このボトルネックに対処する。潜在推論研究を推進するため、本調査はこの新興分野の包括的な概観を提供する。まず、ニューラルネットワーク層が推論の計算基盤として果たす基本的な役割を検証し、階層的表現が複雑な変換をどのようにサポートするかを強調する。次に、活性化ベースの再帰、隠れ状態伝播、明示的な推論トレースを圧縮または内在化するファインチューニング戦略など、多様な潜在推論手法を探る。最後に、マスク拡散モデルを介した無限深度の潜在推論など、グローバルに一貫性があり可逆的な推論プロセスを可能にする先進的なパラダイムについて議論する。これらの視点を統合することで、潜在推論の概念的枠組みを明確にし、LLM認知の最前線における研究の将来の方向性を示すことを目指す。最新の論文とリポジトリを収集した関連GitHubリポジトリは以下で利用可能である: https://github.com/multimodal-art-projection/LatentCoT-Horizon/
明示的かつ編集可能な部品構造を持つ3Dアセットの作成は、インタラクティブアプリケーションの進展において重要である。しかし、ほとんどの生成手法は単一の形状しか生成せず、その有用性が制限されている。本論文では、部品を意識した3Dオブジェクト生成のための新しいフレームワークであるOmniPartを紹介する。OmniPartは、コンポーネント間の高い意味的デカップリングを実現しつつ、堅牢な構造的結束を維持するように設計されている。OmniPartは、この複雑なタスクを2つの相乗的な段階に分離する点でユニークである:(1) 自己回帰型の構造計画モジュールが、直感的な部品分解を可能にする柔軟な2D部品マスクに基づいて、制御可能で可変長の3D部品バウンディングボックスのシーケンスを生成する。この際、直接的な対応関係や意味的ラベルを必要としない。(2) 事前学習された全体的な3Dジェネレータから効率的に適応された空間条件付き整流フローモデルが、計画されたレイアウト内で全ての3D部品を同時に一貫して合成する。本アプローチは、ユーザー定義の部品粒度、正確な位置決めをサポートし、多様な下流アプリケーションを可能にする。広範な実験により、OmniPartが最先端の性能を達成し、より解釈可能で編集可能かつ汎用性の高い3Dコンテンツへの道を開くことが示された。
LLMベースのWebエージェントは最近大きな進展を遂げていますが、その多くはクローズドソースシステムで行われており、オープンソースの代替手段とのギャップが広がっています。この進展は、2つの主要な課題によって妨げられてきました。1つ目は、単一ステップのタスクに焦点を当てすぎて、多段階のWebインタラクションの複雑さを見落としていることです。2つ目は、LLMベースのWebエージェントをポストトレーニングするために必要な高い計算コストです。これに対処するため、我々はLLM Webエージェントのポストトレーニングにおける計算リソース配分に関する初の統計的根拠に基づいた研究を提示します。我々のアプローチは、Llama 3.1 8Bの学生モデルをLlama 3.3 70Bの教師モデルに模倣させるための教師あり微調整(SFT)を行い、その後オンポリシー強化学習(RL)を適用する2段階のパイプラインを使用します。このプロセスはハイパーパラメータの選択に非常に敏感であり、網羅的な探索は現実的ではありません。他の研究者が高コストな試行錯誤を避けられるよう、1,370の設定をサンプリングし、ブートストラップ法を用いて効果的なハイパーパラメータを推定しました。結果として、SFTとオンポリシーRLを組み合わせることで、WorkArenaとMiniWob++の両方で単独のアプローチを一貫して上回ることが示されました。さらに、この戦略はMiniWob++において純粋なSFTのピーク性能を達成するために必要な計算リソースの55%しか必要とせず、計算性能のパレートフロンティアを効果的に押し上げ、クローズドソースモデルとのギャップを埋める唯一の戦略となりました。
現実世界の設定におけるVision-and-Language Navigation(VLN)では、エージェントが連続的な視覚ストリームを処理し、言語指示に基づいた低遅延でのアクション生成が求められる。Video-based Large Language Models(Video-LLMs)が最近の進歩を牽引しているが、現在のVideo-LLMに基づくVLN手法は、細かな視覚理解、長期的なコンテキストモデリング、および計算効率の間でトレードオフに直面することが多い。本論文では、StreamVLNを紹介する。これは、視覚、言語、およびアクションの入力を交互に扱うマルチモーダル推論をサポートするために、ハイブリッドなスロー・ファストコンテキストモデリング戦略を採用したストリーミングVLNフレームワークである。ファストストリーミングの対話コンテキストは、アクティブな対話のスライディングウィンドウを通じて迅速なアクション生成を促進し、スローアップデートのメモリコンテキストは、3Dを意識したトークンプルーニング戦略を用いて過去の視覚状態を圧縮する。このスロー・ファスト設計により、StreamVLNは効率的なKVキャッシュの再利用を通じて一貫したマルチターン対話を実現し、長いビデオストリームを限られたコンテキストサイズと推論コストでサポートする。VLN-CEベンチマークでの実験では、安定した低遅延を保ちつつ、最先端の性能を実証し、現実世界での展開における堅牢性と効率性を確保している。プロジェクトページは以下である:https://streamvln.github.io/{https://streamvln.github.io/}。
自然言語の数学的記述を形式的で実行可能なコードに翻訳することは、自動定理証明における基本的な課題である。これまでの研究は生成とコンパイルの成功に焦点を当ててきたが、生成された形式化が元の問題の意味的意図を真に捉えているかどうかを評価する批評フェーズにはほとんど注意が払われてこなかった。本論文では、批評を受動的な検証者から能動的な学習コンポーネントへと昇華させる、新たな批評誘導型強化学習フレームワーク「CriticLean」を紹介する。具体的には、まず、Lean 4の形式化の意味的忠実度を厳密に評価するために、教師あり微調整と強化学習によって訓練された「CriticLeanGPT」を提案する。次に、モデルが意味的に正しい形式化と誤った形式化を区別する能力を測定するためのベンチマーク「CriticLeanBench」を導入し、訓練されたCriticLeanGPTモデルが強力なオープンソースおよびクローズドソースのベースラインを大幅に上回ることを示す。CriticLeanフレームワークを基盤として、豊富なドメイン多様性、広範な難易度カバレッジ、および人間による評価に基づく高い正確性を備えた28万5千以上の問題を含むデータセット「FineLeanCorpus」を構築する。全体として、我々の研究結果は、信頼性の高い形式化を生成するために批評フェーズを最適化することが不可欠であることを強調しており、CriticLeanが今後の形式的数学的推論の進展に貴重な洞察を提供することを期待する。
大規模言語モデル(LLMs)は論理的およびアルゴリズム的推論において優れているが、その感情的知性(EQ)は認知能力に比べて依然として大きく遅れをとっている。検証可能な報酬からの強化学習(RLVR)は他の分野で進展を遂げているものの、対話、特に感情的知性への応用は未だ十分に探求されていない。本研究では、シミュレートされたユーザーからの検証可能な感情報酬を活用し、LLMsの高次共感能力を育成する初のエンドツーエンド強化学習フレームワークであるRLVERを提案する。このフレームワーク内では、自己一貫性のある感情的シミュレートユーザーが対話ロールアウトに参加し、会話中に決定論的感情スコアを生成し、LLMの学習を導く報酬信号として機能する。公開されているQwen2.5-7B-InstructモデルをPPOでファインチューニングすることで、そのSentient-Benchmarkスコアを13.3から79.2に向上させながら、数学的およびコーディング能力をほぼ維持した。広範な実験により以下のことが明らかになった:(i)RLVERは複数の対話能力を一貫して向上させる;(ii)思考モデルと非思考モデルは異なる傾向を示す—思考モデルは共感と洞察において優れ、非思考モデルは行動を好む;(iii)GRPOはしばしば安定した向上をもたらすが、PPOは特定の能力をより高いレベルに押し上げることができる;(iv)より困難な環境が必ずしも良いとは限らず、適度な環境がより強い結果をもたらすことがある。我々の結果は、RLVERが感情的知性を備えた広範な能力を持つ言語エージェントに向けた実用的な道筋であることを示している。
近年、ビデオ生成技術はオープンドメイン設定において顕著な進歩を遂げてきたが、医療ビデオ生成は依然として十分に探求されていない。医療ビデオは、臨床トレーニング、教育、シミュレーションなどのアプリケーションにおいて重要であり、高い視覚的忠実度だけでなく、厳密な医療的精度も要求される。しかし、現在のモデルは医療関連のプロンプトに適用されると、非現実的または誤った内容を生成することが多く、これは主に医療分野に特化した大規模で高品質なデータセットの不足によるものである。このギャップを埋めるため、我々はMedVideoCap-55Kを導入する。これは、医療ビデオ生成のための初の大規模で多様かつキャプション豊富なデータセットであり、55,000以上の現実世界の医療シナリオにわたるクリップを厳選して提供し、汎用医療ビデオ生成モデルのトレーニングの強固な基盤を提供する。このデータセットを基に、我々はMedGenを開発し、オープンソースモデルの中でリーディングな性能を達成し、視覚品質と医療的精度の両方において複数のベンチマークで商用システムと肩を並べる。我々のデータセットとモデルが貴重なリソースとして機能し、医療ビデオ生成のさらなる研究を促進することを期待する。コードとデータはhttps://github.com/FreedomIntelligence/MedGenで公開されている。
グラフィカルユーザーインターフェース(GUI)エージェントは、プラットフォーム(例:Linux)を横断して自律的に動作し、視覚要素との相互作用を通じてタスクを完了します。具体的には、ユーザーの指示は一連のアクションプロポーザルに分解され、それぞれがGUIとの相互作用に対応します。各アクションの後、エージェントは更新されたGUI環境を観察して次のステップを計画します。しかし、二つの主要な課題が生じます:i)タスクプランニング(すなわち、アクションプロポーザルのシーケンス)における曖昧さの解決。適切なプランを選択することは容易ではなく、多くの有効なプランが存在する可能性があります;ii)複雑で高解像度のインターフェースにおいて、アクションを正確にグラウンディングすること、すなわち、視覚ターゲットと正確に相互作用すること。 本論文では、GUIテストタイムスケーリングエージェント、すなわちGTA1を用いて、前述の二つの課題を調査します。まず、最も適切なアクションプロポーザルを選択するために、テストタイムスケーリング手法を導入します。各ステップで、複数の候補アクションプロポーザルをサンプリングし、ジャッジモデルを活用して最も適切なものを評価・選択します。これにより、並行サンプリングを通じて計算を犠牲にして意思決定の質を向上させ、タスク実行ステップを短縮し、全体のパフォーマンスを向上させます。次に、選択されたアクションプロポーザルを対応する視覚要素にグラウンディングする際に、精度を向上させるモデルを提案します。我々の重要な洞察は、強化学習(RL)が、インターフェース要素の成功したクリックを報酬として、視覚的グラウンディングを促進するというものです。 実験的に、我々の手法は多様なベンチマークにおいて最先端のパフォーマンスを確立します。例えば、GTA1-7Bは、Screenspot-Pro、Screenspot-V2、OSWorld-Gにおいて、それぞれ50.1%、92.4%、67.7%の精度を達成します。テストタイムスケーリング戦略を適用したプランナーと組み合わせると、最先端のエージェント性能を示します(例:OSWorldでの45.2%のタスク成功率)。我々はコードとモデルをここでオープンソース化しています。
世界モデルは、生物学的エージェントが経験し、行動する現実世界の環境をアルゴリズム的に代替するものとして近年注目を集めるトピックとなっている。これは、人工(汎用)知能を備えた仮想エージェントを開発する必要性の高まりによるものである。世界モデルとは何か、どのように構築し、利用し、評価するかについては、多くの議論がなされてきた。本稿では、SFの古典『デューン』における想像力から始め、心理学文献における「仮説的思考」の概念に着想を得て、世界モデリングに関するいくつかの学派への批判を展開し、世界モデルの主たる目的は、目的志向的な推論と行動のための現実世界の全ての実行可能な可能性をシミュレートすることであると主張する。これらの批判を踏まえ、階層的で多層的、かつ連続的/離散的な混合表現に基づく汎用世界モデルの新しいアーキテクチャを提案する。さらに、生成的かつ自己教師あり学習フレームワークを採用し、このようなモデルによって可能となる物理的、主体的、入れ子構造(PAN)のAGIシステムの展望を示す。
我々は、エジプト方言に特化したLLM(大規模言語モデル)のコレクションであるNile-Chat-4B、3x4B-A6B、および12Bを紹介する。これらのモデルは、アラビア文字とラテン文字の両方で書かれたテキストを理解し、生成するために独自に設計されている。特に、Nile-Chat-3x4B-A6Bでは、Branch-Train-MiX戦略を活用して、文字特化の専門家を単一のMoE(Mixture of Experts)モデルに統合するという新たな言語適応手法を導入した。我々のNile-Chatモデルは、新たに導入したエジプト方言の評価ベンチマークにおいて、LLaMa、Jais、ALLaMなどの主要な多言語およびアラビア語LLMを大幅に上回る性能を示した。特に、12Bモデルは、ラテン文字ベンチマークにおいてQwen2.5-14B-Instructに対して14.4%の性能向上を達成した。我々のすべてのリソースは公開されており、この研究が現代のLLM開発においてしばしば見過ごされがちな二重文字言語への適応方法論を包括的に提示していると確信している。
データスケーリングは、自然言語処理(NLP)やコンピュータビジョン(CV)における基盤モデルの顕著な成功を牽引してきたが、ロボット操作における効果的なデータスケーリングの原則はまだ十分に理解されていない。本研究では、タスク(何をするか)、エンボディメント(どのロボットを使用するか)、エキスパート(誰がデモンストレーションするか)という3つの重要な次元を検証することで、ロボット学習におけるデータ多様性の微妙な役割を調査し、「多様性が高いほど良い」という従来の直感に挑戦する。様々なロボットプラットフォームでの広範な実験を通じて、以下のことを明らかにした:(1) タスク多様性は、個々のタスクのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの転移に有益である;(2) クロスエンボディメント転移のためのマルチエンボディメント事前学習データはオプションであり、高品質なシングルエンボディメントデータで訓練されたモデルは、異なるプラットフォームに効率的に転移でき、マルチエンボディメント事前学習モデルよりもファインチューニング中のスケーリング特性が望ましい;(3) 個々の操作の好みや人間のデモンストレーションにおける確率的な変動に起因するエキスパート多様性は、ポリシー学習にとって混乱を招く可能性があり、速度の多峰性が主要な要因として浮上する。この洞察に基づき、速度の曖昧さを軽減するための分布デビアシング手法を提案し、その結果得られたGO-1-Proは、事前学習データを2.5倍使用した場合に相当する15%の大幅な性能向上を達成した。これらの知見は、ロボット操作データセットを効果的にスケーリングする方法について新たな視点を提供し、実践的な指針を示すものである。
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げているが、その真のプログラミング能力は未だ十分に探求されていない。本論文では、コードトライアングルフレームワークを導入し、LLMを編集分析、コード実装、テストケース生成という3つの基本的な次元にわたって体系的に評価する。競技プログラミングのベンチマークを用いた広範な実験を通じて、LLMはこれらの次元において自己整合的なシステムを形成できるものの、その解決策はしばしば人間のプログラマーの多様性と堅牢性を欠いていることを明らかにする。モデルの認知と人間の専門知識との間には有意な分布シフトが存在し、モデルのエラーは訓練データのバイアスや限られた推論転移に起因してクラスタリングする傾向があることが判明した。本研究は、人間が生成した解説、解決策、多様なテストケースを組み込むこと、およびモデルの混合を活用することが、LLMの性能と堅牢性を大幅に向上させることを示す。さらに、LLMの認知における一貫性と不整合性を明らかにし、自己反省と自己改善を促進する可能性を示すことで、より強力なコーディングモデルの開発に向けた潜在的な方向性を提供する。
TransformerやRNNなどのシーケンスモデルは、しばしば無関係な文脈に対して過剰な注意を割り当て、ノイズの多い中間表現を生成する。これにより、LLM(大規模言語モデル)の能力が低下し、幻覚の促進、長距離依存性や検索能力の弱体化、ロバスト性の低下が引き起こされる。最近の研究では、Transformerにおいて差分設計を用いることでこの問題を緩和し、さまざまなアプリケーションでの有効性を向上させることが示されている。本論文では、これらの技術が、Transformerと同等の性能をより効率的に達成する選択的状態空間層に基づく最近のアーキテクチャであるMambaに適用可能かどうかを探る。我々は、差分設計をMambaに単純に適用するだけでは不十分であり、慎重なアーキテクチャの変更が必要であることを示す。この問題に対処するため、我々はMamba向けの新たな差分メカニズムを提案し、言語モデリングベンチマークで実証的に検証を行い、検索能力の向上とvanilla Mambaを上回る性能を示す。最後に、設計選択を正当化し、我々のアプローチがMambaベースのモデルにおける過剰割り当て問題を効果的に緩和することを示すために、広範なアブレーション研究と実証分析を実施する。我々のコードは公開されている。
大規模言語モデル(LLMs)は、最近、情報検索における再ランキングタスクに適用され、高い性能を達成している。しかし、その高い計算需要は、実用的な展開をしばしば妨げている。既存の研究では、LLMベースの再ランキングシステムの効率を、レイテンシ、フォワードパスの回数、入力トークン数、出力トークン数などの代理指標を用いて評価している。しかし、これらの指標はハードウェアや実行時の選択(例えば、並列処理の有無、バッチサイズなど)に依存し、モデルサイズを考慮しないことが多く、解釈が困難であり、効率と効果のトレードオフの評価を曖昧にしている。この問題に対処するため、我々はLLMベースの再ランキングシステムに対して、E2R-FLOPsを提案する:関連性を計算量で評価するためのPetaFLOPあたりのランキング指標(RPP)と、ハードウェアに依存しないスループットを評価するためのPetaFLOPあたりのクエリ数(QPP)である。新しい指標とともに、実験を実行せずにLLMベースの再ランキングシステムのFLOPsを推定するための解釈可能なFLOPs推定器を構築した。提案された指標に基づいて、我々は幅広いアーキテクチャを持つLLMベースの再ランキングシステムを評価するための包括的な実験を行い、効率と効果のトレードオフを研究し、この問題を研究コミュニティの注目にさらす。
最先端の大規模マルチモーダルモデル(LMM)は、高解像度画像を処理する際に課題に直面しています。これらの入力は膨大な視覚トークンに変換され、その多くは下流タスクに関連性がありません。本論文では、Multi-turn Grounding-based Policy Optimization(MGPO)を提案します。これは、マルチターン会話フレームワーク内でモデルが予測したグラウンディング座標に基づいてサブ画像を自動的に切り抜くことで、LMMが反復的に重要な視覚領域に焦点を当てることを可能にするエンドツーエンドの強化学習(RL)フレームワークです。高コストな追加のグラウンディングアノテーションを必要とする教師ありファインチューニング(SFT)と比較して、我々のアプローチは、LMMがRLトレーニングプロセス中に堅牢なグラウンディング能力を発現し、最終的な回答の正しさに基づく二値報酬関数のみを活用することを示しています。さらに、LMMがロールアウトプロセス中に視覚的グラウンディングを自律的にトリガーするのに苦労することを観察しました。このコールドスタート問題に対処するために、マルチターン会話テンプレートを設計し、ポリシー損失の計算を複数の対話ラウンドで生成されたモデル出力に制限することで、安定した最適化を促進します。広範な実験により、グラウンディングアノテーションなしの標準的な視覚質問短答データでトレーニングされた場合、MGPOはGRPOと比較してより強力なグラウンディング能力を引き出し、in-distribution MME-Realworldで5.4%、困難なout-of-distribution(OOD)V* Benchで5.2%の改善をもたらすことが示されました。特に、21KサンプルでQwen2.5-VL-7Bにポストトレーニングを行ったMGPOは、OOD V* BenchにおいてOpenAIのo1およびGPT-4oモデルを上回りました。コードはhttps://github.com/EvolvingLMMs-Lab/MGPOで公開されています。
深層学習に基づく計算手法は、タンパク質間相互作用(PPI)の予測において有望な結果を達成してきた。しかし、既存のベンチマークは主に孤立したペアワイズ評価に焦点を当てており、生物学的研究において重要な、生物学的に意味のあるPPIネットワークを再構築するモデルの能力を見落としている。このギャップを埋めるため、我々はグラフレベルの視点からタンパク質間相互作用予測を評価する初の包括的なベンチマークであるPRINGを導入する。PRINGは、21,484のタンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレーションし、データの冗長性とリークに対処するための設計された戦略を提供する。このゴールドスタンダードデータセットに基づいて、我々は二つの補完的な評価パラダイムを確立する:(1)トポロジー指向タスク、これは種内および種間PPIネットワーク構築を評価し、(2)機能指向タスク、これにはタンパク質複合体経路予測、GOモジュール分析、および必須タンパク質の正当化が含まれる。これらの評価は、モデルがネットワークトポロジーを理解する能力を反映するだけでなく、タンパク質機能注釈、生物学的モジュール検出、さらには疾患メカニズム分析を促進する。配列類似性ベース、ナイーブ配列ベース、タンパク質言語モデルベース、および構造ベースのアプローチからなる四つの代表的なモデルカテゴリに対する広範な実験は、現在のPPIモデルがPPIネットワークの構造的および機能的な特性を回復する上で潜在的な限界があることを示し、実世界の生物学的アプリケーションをサポートする上でのギャップを浮き彫りにする。我々は、PRINGがコミュニティにとってより効果的なPPI予測モデルの開発を導く信頼できるプラットフォームを提供すると信じている。PRINGのデータセットとソースコードはhttps://github.com/SophieSarceau/PRINGで利用可能である。
人工知能(AI)は医療分野において大きな可能性を秘めているが、その訓練と展開は、医療データの多様性、複雑なタスク、プライバシー保護の必要性といった課題に直面している。医療タスクにおいて優れた性能を発揮し、タスク固有のチューニングデータを少なく要求する基盤モデルは、医療AIアプリケーションの開発を加速するために重要である。本論文では、Gemma 3 4Bおよび27Bを基盤とした医療視覚言語基盤モデルのコレクションであるMedGemmaを紹介する。MedGemmaは、画像とテキストに対する高度な医療理解と推論能力を示し、同規模の生成モデルを大幅に上回る性能を発揮し、タスク固有のモデルに近い性能を維持しながら、Gemma 3基盤モデルの汎用能力を保持している。分布外タスクにおいて、MedGemmaは、医療マルチモーダル質問応答で2.6~10%、胸部X線所見分類で15.5~18.1%、エージェント評価で10.8%の改善を達成した。MedGemmaのファインチューニングにより、サブドメインにおける性能がさらに向上し、電子健康記録情報検索のエラーを50%削減し、気胸分類および組織病理学パッチ分類において既存の専門的な最先端手法と同等の性能に到達した。さらに、SigLIPから派生した医療用視覚エンコーダであるMedSigLIPを紹介する。MedSigLIPは、MedGemmaの視覚理解能力を支え、エンコーダとして専門的な医療画像エンコーダと同等またはそれ以上の性能を達成する。全体として、MedGemmaコレクションは、医療画像とテキストの強力な基盤を提供し、医学研究および下流アプリケーションの開発を大幅に加速する可能性を秘めている。MedGemmaコレクションは、チュートリアルおよびモデルウェイトとともに、https://goo.gle/medgemma で公開されている。
最近の「セグメント・エニシング」の取り組みは、大規模データからの学習によって有望な成果を示していますが、医療画像に直接適用することは、医療データの複雑さ、ノイズの多いアノテーション、多様なモダリティや解剖学的構造にわたる継続的学習の必要性により、依然として課題が残っています。本研究では、SAM-2アーキテクチャを基盤とした医療画像セグメンテーションのための新しい基盤モデル、SAMed-2を提案します。具体的には、画像エンコーダに時間的アダプタを導入して画像間の相関を捉え、信頼度駆動型メモリ機構を導入して高確信度の特徴を後で検索できるように保存します。このメモリベースの戦略は、大規模医療データセットに遍在するノイズに対抗し、新しいタスクやモダリティに遭遇した際の破滅的忘却を緩和します。SAMed-2の訓練と評価のために、7つの画像モダリティと21の医療セグメンテーションタスクを網羅した包括的なデータセット、MedBank-100kをキュレーションしました。内部ベンチマークと10の外部データセットでの実験により、マルチタスクシナリオにおいて最先端のベースラインを上回る性能を実証しています。コードは以下で公開されています:https://github.com/ZhilingYan/Medical-SAM-Bench。
モーションガイド付き動画生成のための拡散トランスフォーマーモデルの最近の進歩、特にToraは、大きな進展を示してきました。本論文では、Toraの強化版であるTora2を紹介します。Tora2は、外観とモーションのカスタマイズ能力を拡張するためのいくつかの設計改善を導入しています。具体的には、複数のオープンセットエンティティに対する包括的なパーソナライゼーション埋め込みを生成する分離型パーソナライゼーション抽出器を導入し、従来の方法と比較して細かい視覚的詳細をより良く保持します。これを基に、各エンティティの軌跡、テキスト記述、視覚情報を統合するためのゲート付き自己注意機構を設計しました。この革新により、トレーニング中のマルチモーダル条件付けの不整合が大幅に減少します。さらに、モーションとパーソナライゼーション埋め込みの間の明示的なマッピングを通じて、軌跡のダイナミクスとエンティティの一貫性を共同で最適化するコントラスト損失を導入します。Tora2は、私たちの知る限り、動画生成における外観とモーションの同時多エンティティカスタマイズを実現する最初の方法です。実験結果は、Tora2が最先端のカスタマイズ手法と競争力のある性能を達成しつつ、高度なモーション制御機能を提供することを示しており、多条件動画生成における重要な進展を示しています。プロジェクトページ: https://github.com/alibaba/Tora
長文脈処理は、大規模言語モデル(LLM)にとって基本的な能力となっています。モデルの長文脈性能を評価するために、多くの長文脈評価ベンチマークが提案されています。しかし、これらのベンチマーク間での評価設定の違いにより、一貫性のない結果が生じ、信頼性のある比較が困難になっています。さらに、長文脈評価の高い計算コストは、コミュニティが長文脈モデルを包括的に評価する上で大きな障壁となっています。本論文では、LOOM-Scopeという包括的かつ効率的な長文脈評価フレームワークを提案します。LOOM-Scopeは、多様なベンチマーク間での評価設定を標準化し、効率的な長文脈推論加速手法の導入をサポートし、包括的かつ軽量なベンチマークスイートを導入してモデルを総合的に評価します。ホームページ: https://loomscope.github.io
本論文では、大規模言語モデル(LLMs)向けの4ビット重み量子化ソリューションであるany4を提案する。any4は、重みや活性化の前処理を必要とせず、任意の数値表現を提供する。any4は、様々なモデルサイズ、世代、ファミリー(Llama 2、Llama 3、Mistral、Mixtral)において、他の関連する4ビット数値表現タイプ(int4、fp4、nf4)と比較して高い精度を実現する。any4は重みや活性化の前処理を必要としないが、そのような前処理を必要とする直交技術(例:AWQやGPTQ)とも競争力がある。また、any3やany2についても実験を行い、低ビットにおいても競争力があることを示す。さらに、ほとんどの量子化アプローチで行われるようにデータセットから数百のサンプルを使用するのではなく、単一の精選された多様なサンプルを使用してキャリブレーションできることを示す。また、LLM向けのレイテンシ最適化GPU行列乗算ライブラリであるtinygemmをオープンソースとして公開する。tinygemmは、GPU効率的なルックアップテーブル戦略を使用してany4を実装し、他の一般的な量子化方法もサポートする。コードはhttps://github.com/facebookresearch/any4で公開している。
大規模言語モデル(LLMs)は、幅広いタスクにおいて顕著な能力を発揮しているが、同時にその訓練データの記憶化も示すことが明らかになっている。この現象は、モデルの挙動、プライバシーリスク、および学習と記憶化の境界に関する重要な疑問を提起する。これらの懸念に対処するため、本論文では最近の研究を統合し、記憶化の現状、それに影響を与える要因、およびその検出と緩和の方法について調査する。訓練データの重複、訓練ダイナミクス、ファインチューニング手順など、データ記憶化に影響を与える主要な要因を探る。さらに、プレフィックスベースの抽出、メンバーシップ推論、敵対的プロンプティングなどの手法を検討し、記憶化された内容の検出と測定における有効性を評価する。技術的な分析を超えて、記憶化の法的および倫理的含意など、より広範な影響についても探求する。最後に、データクリーニング、差分プライバシー、訓練後の忘却など、有害な記憶化の最小化と有用性のバランスを取るための緩和策について議論し、未解決の課題を指摘する。本論文は、技術的、プライバシー、性能の側面からLLMの記憶化に関する研究の現状を包括的に概観し、今後の研究の重要な方向性を提示する。
セマンティックシーン補完(SSC)は、単一画像からシーンの3Dジオメトリとセマンティクスの両方を推論することを目的としています。これまでのSSC研究が高コストなグラウンドトゥルースアノテーションに大きく依存していたのに対し、我々は教師なし設定でSSCに取り組みます。我々の新しい手法であるSceneDINOは、自己教師あり表現学習と2D教師なしシーン理解の技術をSSCに適用します。我々のトレーニングは、セマンティックやジオメトリのグラウンドトゥルースを一切使用せず、マルチビュー一貫性による自己教師あり学習のみを利用します。単一の入力画像が与えられると、SceneDINOはフィードフォワード方式で3Dジオメトリと表現力豊かな3D DINO特徴を推論します。新しい3D特徴蒸留アプローチを通じて、教師なし3Dセマンティクスを取得します。3Dおよび2D教師なしシーン理解において、SceneDINOは最先端のセグメンテーション精度を達成します。我々の3D特徴を線形プローブすることで、現在の教師ありSSCアプローチのセグメンテーション精度に匹敵します。さらに、SceneDINOのドメイン汎化性とマルチビュー一貫性を示し、単一画像による3Dシーン理解の強固な基盤に向けた第一歩を踏み出します。
構成理解は人間の知能において極めて重要であるが、現代の視覚モデルがそれを示すかどうかは依然として不明である。主流の機械学習パラダイムは、データとモデルの規模を拡大することで、分布外性能(構成的一般化を含む)が向上するという前提に基づいている。我々は、データ規模、概念の多様性、組み合わせの網羅性を体系的に変化させる制御実験を通じて、この前提を検証する。その結果、構成的一般化はデータの規模ではなく、データの多様性によって駆動されることがわかった。組み合わせの網羅性を高めることで、モデルは線形分解可能な表現構造を発見するようになり、概念が加法的な構成要素に分解される。我々は、この構造が効率性の鍵であり、少数の観測された組み合わせから完全な一般化を可能にすることを証明する。事前学習済みモデル(DINO、CLIP)を評価した結果、ランダムを上回るものの不完全な性能が得られ、この構造が部分的に存在していることが示唆された。本研究は、構成的一般化のための多様なデータセットの構築に重点を置くこと、および効率的な構成学習を可能にする表現構造の重要性を考慮することの必要性を動機付けている。コードはhttps://github.com/oshapio/visual-compositional-generalizationで公開されている。
テキストから画像を生成する技術の進歩は、主に英語中心に進められており、非英語話者にとって障壁となり、デジタル格差を永続させてきました。既存のシステムは翻訳パイプラインに依存していますが、これらは意味のずれ、計算上のオーバーヘッド、文化的な不一致を引き起こします。私たちは、NeoBabelという新しい多言語画像生成フレームワークを導入し、性能、効率、包括性において新たなパレートフロンティアを確立しました。このモデルは、英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシャ語の6言語をサポートしています。モデルは、大規模な多言語事前学習と高解像度の指示チューニングを組み合わせて訓練されています。その能力を評価するために、2つの英語のみのベンチマークを多言語版に拡張しました:m-GenEvalとm-DPGです。NeoBabelは、強力な英語能力を維持しながら、多言語性能において最先端を達成し、m-GenEvalで0.75、m-DPGで0.68のスコアを記録しました。特に、英語タスクでは主要モデルと同等の性能を発揮しつつ、多言語ベンチマークでは+0.11と+0.09の差をつけて優れています。これは、多言語ベースの大規模言語モデル(LLM)を基に構築されたモデルであっても、私たちのターゲットを絞ったアライメント訓練が、言語間の一般化を維持・拡張する上で有効であることを示しています。さらに、多言語アライメントとコード混合プロンプトに対する堅牢性を厳密に評価するために、2つの新しい指標を導入しました。注目すべきは、NeoBabelが英語のみのモデルと同等またはそれ以上の性能を発揮しながら、2~4倍小さいことです。私たちは、包括的なAI研究を推進するために、すべてのコード、モデルチェックポイント、124Mの多言語テキスト-画像ペアのキュレーションデータセット、標準化された多言語評価プロトコルを含むオープンツールキットを公開します。私たちの研究は、多言語能力がトレードオフではなく、生成AIの堅牢性、効率性、文化的忠実性を向上させる触媒であることを示しています。
私たちは、大規模なディープラーニングモデルのスケーラブルで高性能なトレーニングを容易にするプロダクションレベルのディープラーニングシステム「AXLearn」を設計・実装しました。他の最先端のディープラーニングシステムと比較して、AXLearnはモジュール性と異種ハードウェアインフラストラクチャのサポートに特化しています。AXLearnのソフトウェアコンポーネント間の内部インターフェースは厳密なカプセル化に従っており、異なるコンポーネントを組み立てることで、異種計算インフラストラクチャ上での迅速なモデル開発と実験を可能にします。私たちは、Lines-of-Code(LoC)複雑度を用いてモジュール性を定量化する新たな方法を導入し、システムのコンポーネントをスケールする際に、他のシステムでは線形または二次的な複雑度が生じるのに対し、AXLearnでは一定の複雑度を維持することを示しています。これにより、Rotary Position Embeddings(RoPE)のような機能を、他のシステムでは数百行のコードが必要なところ、AXLearnではわずか10行のコードで数百のモジュールに統合することが可能です。同時に、AXLearnは最先端のトレーニングシステムと同等の性能を維持しています。最後に、AXLearnの開発と運用における経験を共有します。
グラフ拡散モデル(GDMs)の最近の進展により、現実的なネットワーク構造の合成が可能となったが、生成データにおける公平性の確保は依然として重要な課題である。既存の解決策は、アドホックな公平性制約を課してGDMsを再学習することでバイアスを軽減しようとしている。これに対して、本研究では、事前学習済みのGDMの生成プロセス中に直接実行される属性スイッチングメカニズムを活用した新しい公平グラフ生成フレームワーク「FAROS」を提案する。技術的には、本アプローチは生成中にノードのセンシティブ属性を変更することで機能する。この目的のために、FAROSはスイッチングノードの最適な割合を計算し、元の分布からのノードトポロジープロファイル(精度の代理指標)を維持しつつ、生成グラフにおけるセンシティブ属性に対するエッジの独立性(公平性の代理指標)を確保するために、多基準制約を設定してスイッチを実行する拡散ステップを選択する。リンク予測のベンチマークデータセットを用いた実験により、提案手法が他の類似のベースラインと同等(またはそれ以上)の精度性能を維持しながら、公平性の不一致を効果的に低減することが示された。特に、FAROSはパレート最適性の概念に基づいて、一部のテスト設定において他の競合手法よりも優れた精度と公平性のトレードオフを達成することができ、課された多基準制約の有効性を実証している。