翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、自然言語処理の領域を超えてその影響を拡大し、学際的研究の発展を大きく促進しています。最近では、科学の発見プロセスを多面的かつ多領域にわたって支援するための様々なLLMベースのエージェントが開発されています。その中でも、人間と同様にオペレーティングシステムと対話できるコンピュータ使用エージェントは、自動化された科学的問題解決や研究者のワークフローにおけるルーチンタスクの対応への道を切り開いています。これらのエージェントの変革的な可能性を認識し、我々はScienceBoardを紹介します。ScienceBoardは、以下の2つの補完的な貢献を含んでいます:(i) 動的で視覚的に豊かな科学的ワークフローと統合された専門ソフトウェアを特徴とする現実的な多領域環境で、エージェントが異なるインターフェースを介して自律的に相互作用し、複雑な研究タスクや実験を加速することができる環境、(ii) 生化学、天文学、地理情報科学などの領域における科学的発見のワークフローにまたがる、人間によって厳密に検証された169の高品質な実世界タスクからなる挑戦的なベンチマーク。最先端のバックボーン(例:GPT-4o、Claude 3.7、UI-TARS)を備えたエージェントの広範な評価は、いくつかの有望な結果があるものの、複雑なワークフローにおいて科学者を確実に支援するにはまだ不十分であり、全体の成功率はわずか15%であることを示しています。詳細な分析は、現在のエージェントの限界に対処し、より効果的な設計原則を導くための貴重な洞察を提供し、科学の発見のためのより有能なエージェントを構築する道を切り開きます。我々のコード、環境、およびベンチマークはhttps://qiushisun.github.io/ScienceBoard-Home/にあります。
学術ポスターの作成は、科学コミュニケーションにおいて重要でありながらも困難な課題であり、長文で複雑に絡み合ったドキュメントを単一の視覚的にまとまったページに圧縮する必要があります。この課題に対処するため、我々はポスター生成のための初のベンチマークと評価指標群を導入しました。これには、最近の学会論文と著者デザインのポスターをペアリングし、以下の項目で出力を評価します:(i)視覚的品質—人間が作成したポスターとの意味的整合性、(ii)テキストの一貫性—言語の流暢さ、(iii)全体的な評価—VLM(Vision-Language Model)による6つの細かい美的および情報的基準のスコアリング、そして特に(iv)PaperQuiz—生成されたクイズにVLMが答えることで測定される、ポスターが論文の核心内容を伝える能力です。このベンチマークを基に、我々はPosterAgentを提案します。これは、トップダウンで視覚をループに組み込んだマルチエージェントパイプラインであり、(a)Parserが論文を構造化されたアセットライブラリに蒸留し、(b)Plannerがテキストと視覚要素をバイナリツリーレイアウトに整列させて読み順と空間的バランスを保ち、(c)Painter-Commenterループが各パネルをレンダリングコードを実行し、VLMのフィードバックを使用してオーバーフローを排除し整合性を確保します。我々の包括的な評価では、GPT-4oの出力は一見視覚的に魅力的であるものの、しばしばノイズの多いテキストや低いPaperQuizスコアを示し、読者の関与が主な美的ボトルネックであることがわかりました。人間がデザインしたポスターは、意味を伝えるために視覚的セマンティクスに大きく依存しています。我々の完全オープンソースのバリアント(例:Qwen-2.5シリーズに基づく)は、既存の4o駆動のマルチエージェントシステムをほぼすべての指標で上回り、87%少ないトークン使用量で実現しています。22ページの論文を、編集可能な.pptxポスターに変換するのに必要なコストはわずか$0.005です。これらの発見は、次世代の完全自動化ポスター生成モデルの明確な方向性を示しています。コードとデータセットはhttps://github.com/Paper2Poster/Paper2Posterで公開されています。
論理的推論は人間の知性の基本的な側面であり、マルチモーダル大規模言語モデル(MLLM)にとって不可欠な能力です。マルチモーダル推論における大きな進展にもかかわらず、既存のベンチマークは、論理的推論のタイプに対する明示的な分類の欠如と推論の理解が不明確であるため、その推論能力を包括的に評価できていません。これらの問題に対処するため、私たちはMME-Reasoningを導入しました。これは、MLLMの推論能力を評価するために設計された包括的なベンチマークであり、その質問において帰納的、演繹的、および仮説的推論の3つのタイプをすべてカバーしています。私たちはデータを慎重に選定し、各質問が知覚スキルや知識の広さではなく推論能力を効果的に評価することを保証し、多様な質問の評価をカバーするために評価プロトコルを拡張しました。私たちの評価は、論理的推論能力の包括的評価にさらされた最先端のMLLMの重大な限界を明らかにしています。最も先進的なMLLMでさえ、包括的な論理的推論において限定的な性能を示し、推論タイプ間で顕著な性能の不均衡が見られました。さらに、推論能力を向上させると一般的に信じられている「思考モード」やルールベースのRLなどのアプローチについて詳細な分析を行いました。これらの発見は、多様な論理的推論シナリオにおける現在のMLLMの重要な限界と性能の不均衡を強調し、推論能力の理解と評価に関する包括的かつ体系的な洞察を提供します。
OpenAI-o1やDeepSeek R1などの最近の進展は、大規模言語モデル(LLMs)の推論能力を強化するための強化学習(RL)の可能性を示しています。オープンソースの再現努力は主に数学やコーディング領域に焦点を当ててきましたが、一般的な推論能力を開発するための方法やリソースはまだ十分に探求されていません。このギャップは、RLに適した多様で検証可能な推論データを収集する難しさに一部起因しています。私たちは、論理的推論が一般的な推論能力を開発する上で重要であると仮定しています。なぜなら、論理は推論の基本的な構成要素だからです。本研究では、35の多様な論理的推論タスクを含む、大規模な論理的推論データを生成するデータ合成フレームワークおよびデータセットであるSynLogicを紹介します。SynLogicアプローチは、難易度と量を調整可能なデータの制御された合成を可能にします。重要なことに、すべての例は単純なルールで検証可能であり、検証可能な報酬を伴うRLに理想的に適しています。実験では、7Bおよび32Bモデルに基づいて、SynLogicデータセットでのRLトレーニングの有効性を検証しました。SynLogicは、オープンソースデータセットの中で最先端の論理的推論性能を達成し、DeepSeek-R1-Distill-Qwen-32BをBBEHで6ポイント上回りました。さらに、SynLogicデータを数学やコーディングタスクと混合することで、これらの領域のトレーニング効率が向上し、推論の一般化が大幅に強化されました。特に、私たちの混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bを上回りました。これらの発見は、SynLogicをLLMsのより広範な推論能力を進めるための貴重なリソースとして位置づけます。データ合成パイプラインとSynLogicデータセットをhttps://github.com/MiniMax-AI/SynLogicでオープンソース化しています。
拡散モデルは画像のスタイライゼーションを大幅に進化させてきたが、依然として2つの核心的な課題が残されている:(1) 複雑なシーン、特にアイデンティティ、構図、細部の一貫したスタイライゼーションの維持、(2) スタイルLoRAを用いた画像間変換パイプラインにおけるスタイルの劣化防止。GPT-4oの優れたスタイライゼーションの一貫性は、オープンソース手法とプロプライエタリモデルとの性能差を浮き彫りにしている。このギャップを埋めるため、我々は大規模な拡散トランスフォーマー(DiT)を活用した汎用一貫性プラグイン「OmniConsistency」を提案する。OmniConsistencyは以下の貢献を行う:(1) 整列した画像ペアでトレーニングされたインコンテキスト一貫性学習フレームワークによる堅牢な汎化、(2) スタイル学習と一貫性保持を分離した2段階の漸進的学習戦略によるスタイル劣化の軽減、(3) Fluxフレームワーク下で任意のスタイルLoRAと互換性のある完全なプラグアンドプレイ設計。大規模な実験により、OmniConsistencyが視覚的整合性と美的品質を大幅に向上させ、商用の最先端モデルGPT-4oに匹敵する性能を達成することが示された。
最近の研究によると、大規模言語モデル(LLM)は、特別に訓練された単一の入力埋め込みから自己回帰生成を行うことで、驚くほど長いテキスト(数千トークンに及ぶ)を再構築できることが示されました。本研究では、そのような再構築が自己回帰なしで可能かどうかを探ります。我々は、凍結されたLLMが、学習された2つの埋め込みのみを提供された場合、たった1回のフォワードパスで数百の正確なトークンを生成できることを示します。これは、LLMの驚くべきかつ未開拓の能力、すなわち反復的なデコーディングなしでのマルチトークン生成を明らかにするものです。我々は、これらの埋め込みの挙動を調査し、それらがエンコードする情報の種類について洞察を提供します。また、これらの表現が特定のテキストに対して一意ではないものの、埋め込み空間内で連結された局所的な領域を形成することを実験的に示します。この特性は、その空間への専用エンコーダを学習する可能性を示唆しています。
大規模言語モデル(LLM)の推論能力は、複雑な推論タスクを実行するために、大規模な「思考」連鎖を生成するためのテスト時計算リソースのスケーリングに大きく依存しています。このアプローチは印象的な結果を示す一方で、多大な計算コストと推論時間を伴います。本研究では、長い思考連鎖が必ずしも優れた推論能力につながるという前提に疑問を投げかけます。まず、個々の質問内で短い推論連鎖の方が正解を得る可能性が大幅に高いことを示します - 同じ質問に対してサンプリングされた最長の連鎖よりも最大34.5%精度が向上します。これらの結果に基づき、新しいLLM推論手法であるshort-m@kを提案します。この手法では、k個の独立した生成を並列に実行し、最初のm個の思考プロセスが完了した時点で計算を停止します。最終的な答えは、これらのm個の連鎖の多数決によって選択されます。基本的なshort-1@kは、低計算リソース設定において標準的な多数決と同等またはそれ以上の性能を示し、最大40%少ない思考トークンを使用します。short-3@kは、short-1@kよりも若干効率が劣るものの、すべての計算予算において一貫して多数決を上回り、依然として大幅に高速です(最大33%の壁時間短縮)。これらの結果に触発され、短い、長い、およびランダムに選択された推論連鎖を使用してLLMをファインチューニングしました。その結果、短い連鎖でトレーニングを行う方がより良い性能を発揮することが観察されました。本研究の知見は、推論LLMにおけるテスト時計算リソースの使用方法を見直す必要性を示唆しており、より長い「思考」が必ずしも性能向上につながらず、逆説的に結果を悪化させる可能性があることを強調しています。
Subject-to-Video(S2V)生成は、参照コンテンツを忠実に取り入れたビデオを作成することを目的としており、ビデオ制作における柔軟性を向上させます。S2V生成の基盤を確立するために、我々はOpenS2V-Nexusを提案します。これは、(i) 細粒度のベンチマークであるOpenS2V-Evalと、(ii) 大規模データセットであるOpenS2V-5Mで構成されています。既存のVBenchから継承されたS2Vベンチマークが生成ビデオの全体的かつ粗粒度な評価に焦点を当てているのに対し、OpenS2V-Evalは、モデルが被写体の一貫性を保ち、自然な被写体の外観と同一性の忠実性を備えたビデオを生成する能力に焦点を当てています。この目的のために、OpenS2V-Evalは、S2Vの7つの主要カテゴリから180のプロンプトを導入し、実データと合成データの両方を組み込んでいます。さらに、人間の好みをS2Vベンチマークに正確に反映させるために、NexusScore、NaturalScore、GmeScoreという3つの自動評価指標を提案し、生成ビデオにおける被写体の一貫性、自然さ、テキスト関連性を個別に定量化します。これに基づいて、16の代表的なS2Vモデルを包括的に評価し、異なるコンテンツにおけるそれらの強みと弱みを明らかにします。さらに、初のオープンソース大規模S2V生成データセットであるOpenS2V-5Mを作成しました。これは、500万の高品質な720Pの被写体-テキスト-ビデオのトリプルで構成されています。具体的には、(1) 被写体をセグメント化し、ビデオ間の関連性を通じてペアリング情報を構築し、(2) 生のフレームに対してGPT-Image-1をプロンプトして多視点表現を合成することで、データセットにおける被写体情報の多様性を確保しました。OpenS2V-Nexusを通じて、将来のS2V生成研究を加速するための堅牢な基盤を提供します。
大規模言語モデル(LLM)の推論能力を向上させるためのテストタイムスケーリング(TTS)手法は、外部のプロセス報酬モデル(PRM)やBest-of-N(BoN)のようなサンプリング手法に大きく依存するため、しばしば多大な計算コストを伴う。本論文では、高価な外部検証モデルを必要とせずにPRMレベルの性能を達成する効率的な自己誘導型TTSフレームワーク「Guided by Gut(GG)」を提案する。本手法は、LLMの内在的な信号、すなわちトークンレベルの信頼度とステップの新規性のみに基づいて誘導される軽量な木探索を採用している。重要な革新点として、ターゲットを絞った強化学習によるファインチューニングフェーズを通じて、内部の信頼度推定の信頼性を向上させることが挙げられる。挑戦的な数学的推論ベンチマークでの実証評価により、GGがより小さなモデル(例:1.5Bパラメータ)に対して、大幅に大きなモデル(例:32B-70Bパラメータ)に匹敵または凌駕する精度を達成しつつ、GPUメモリ使用量を最大10分の1に削減できることが示された。PRMベースの手法と比較して、GGは同等の精度を8倍の推論速度と4-5倍の低いメモリ使用量で達成する。さらに、GGはBoN戦略と比べてKVキャッシュのメモリ使用量を約50%削減し、TTS技術のより効率的で実用的な展開を可能にする。
近年のマルチモーダル大規模言語モデル(MLLMs)の進展により、言語、視覚、構造化入力の統一的な処理が可能となり、論理的推論、空間的推論、科学的分析などの複雑なタスクへの扉が開かれました。しかし、その可能性にもかかわらず、特に中間思考トレースを強化したMLLMs(MLLMs-T)の推論能力は十分に理解されておらず、標準化された評価ベンチマークが不足しています。既存の研究は主に知覚や最終的な回答の正確性に焦点を当てており、モデルがどのように推論するか、あるいは異なるモダリティ間でどのように失敗するかについての洞察が限られています。このギャップを埋めるため、我々はMMMRという新しいベンチマークを導入しました。これは、明示的な思考を伴うマルチモーダル推論を厳密に評価するために設計されています。MMMRは、1)シンボリックな深さとマルチホップの要求を備えた6つの多様な推論タイプにまたがる1,083問の高難易度データセットと、2)正確性を超えた推論品質を評価するためのモジュール型推論トレース評価パイプライン(RTEP)から構成されています。RTEPは、関連性、一貫性、構造化されたエラー注釈などのメトリクスを通じて推論品質を評価します。実証結果によると、MLLMs-Tは全体的に非思考型のモデルを上回りますが、Claude-3.7-SonnetやGemini-2.5 Proのようなトップモデルでも、一貫性の欠如や過剰思考などの推論上の問題が観察されます。このベンチマークは、正確性と推論品質の間に存在する持続的なギャップを明らかにし、将来のモデル開発のための実践的な評価パイプラインを提供します。全体として、MMMRは次世代のマルチモーダル推論システムを評価、比較、改善するためのスケーラブルな基盤を提供します。
大規模言語モデル(LLMs)の最近の進展は、関数レベルのコード生成において有望な成果を示しているが、リポジトリレベルのソフトウェアエンジニアリングタスクは依然として課題を残している。現在の解決策は主にプロプライエタリなLLMエージェントに依存しており、これにより予測不可能性が生じ、アクセシビリティが制限されるため、データプライバシーやモデルのカスタマイズに関する懸念が高まっている。本論文では、オープンソースのLLMsがエージェントベースのアプローチを必要とせずに、リポジトリレベルのタスクを効果的に解決できるかどうかを調査する。我々は、LLMsがコードベース内の関数やファイルをその意味情報と構造的依存関係を通じて理解できるようにすることで、これが可能であることを実証する。この目的のために、リポジトリコードグラフ構造をLLMのアテンションメカニズムに統合し、ノード属性をLLMの入力空間にマッピングするための専用アダプターを使用するCode Graph Models(CGMs)を導入する。エージェントレスグラフRAGフレームワークと組み合わせることで、我々のアプローチはオープンソースのQwen2.5-72Bモデルを使用して、SWE-bench Liteベンチマークで43.00%の解決率を達成した。このパフォーマンスは、オープンウェイトモデルの中で1位、オープンソースシステムを使用した手法の中で2位、全体で8位となり、以前の最良のオープンソースモデルベースの手法を12.33%上回った。
ビデオ大規模言語モデル(Video-LLMs)に強化学習(RL)を適用することは、複雑なビデオ推論において大きな可能性を示しています。しかし、結果ベースのグループ相対ポリシー最適化(GRPO)のような人気のある強化学習ファインチューニング(RFT)手法は、データ準備のボトルネック(例:ノイズや高コスト)に制限され、長い連鎖思考(CoTs)の品質や下流タスクの性能において不安定な改善しか見られません。これらの制限に対処するため、我々はVerIPO(Verifier-guided Iterative Policy Optimization)を提案します。これは、ビデオLLMsが深く長期的な推論連鎖を生成する能力を段階的に向上させることを目的とした手法です。その中核となるのは、GRPOと直接選好最適化(DPO)のトレーニングフェーズの間に位置するRollout-Aware Verifierで、GRPO-Verifier-DPOトレーニングループを形成します。この検証器は、小規模なLLMsを裁判官として活用し、ロールアウトの推論ロジックを評価することで、反射的で文脈的に一貫したCoTsを含む高品質な対照データを構築します。これらの選好サンプルは、効率的なDPOステージ(GRPOよりも7倍高速)を駆動し、特に長さと文脈的一貫性において、推論連鎖の品質を顕著に向上させます。このトレーニングループは、GRPOの広範な探索とDPOのターゲットを絞った最適化の利点を享受します。実験結果は以下のことを示しています:1)標準的なGRPOバリアントと比較して、大幅に高速かつ効果的な最適化が行われ、優れた性能を発揮すること;2)我々のトレーニング済みモデルは、大規模な指示チューニングされたVideo-LLMsの直接推論を上回り、多様なビデオ推論タスクにおいて長く文脈的に一貫したCoTsを生成すること;3)1回のイテレーションで強力なLMMs(例:Kimi-VL)や長い推論モデル(例:Video-R1)を上回り、その有効性と安定性を強調しています。
Diffusion Transformers(DiTs)はビデオ生成において不可欠であるが、アテンションの二次的な複雑さにより大きな遅延が生じる。重要なトークンのみを計算することで、スパースアテンションは計算コストを削減し、有望な高速化手法を提供する。しかし、既存の手法は同じ計算予算のもとで最適な生成品質に到達できないことが判明した。その理由は二つある:(1) 重要なトークンの識別が不正確であること:現在の手法は位置に基づいてトークンをクラスタリングするため、意味的には不正確な集約表現が生成される。(2) 過剰な計算の無駄:重要なトークンが非重要なトークンに散在しているため、連続したトークンの処理に最適化されたGPU上で計算が無駄になる。本論文では、SVG2というトレーニング不要のフレームワークを提案し、識別精度を最大化し、計算の無駄を最小化することで、生成品質と効率性の間のパレート最適なトレードオフを実現する。SVG2の核心は、意味的類似性に基づいてk-meansを用いてトークンをクラスタリングし並べ替える、意味認識型順列付けである。このアプローチにより、正確なクラスター表現が確保され、識別精度が向上するだけでなく、重要なトークンのレイアウトが密集化され、パディングなしで効率的な計算が可能となる。さらに、SVG2はトップ-p動的予算制御とカスタマイズされたカーネル実装を統合し、HunyuanVideoとWan 2.1においてそれぞれ最大30と26のPSNRを維持しながら、最大2.30倍および1.89倍の高速化を達成する。
マルチモーダル大規模言語モデル(MLLM)は、静止画像からの光学文字認識(OCR)においてかなりの精度を達成しています。しかし、動画OCRにおける有効性は、動画コンテンツに固有のモーションブラー、時間的変動、視覚効果などの要因により大幅に低下します。実用的なMLLMのトレーニングに明確な指針を提供するため、我々はMME-VideoOCRベンチマークを導入しました。このベンチマークは、動画OCRの幅広いアプリケーションシナリオを網羅しています。MME-VideoOCRは、25の個別タスクからなる10のタスクカテゴリを特徴とし、44の多様なシナリオに及びます。これらのタスクは、テキスト認識を超えて、動画内のテキスト内容の深い理解と推論を組み込んでいます。ベンチマークは、解像度、アスペクト比、時間長が異なる1,464の動画と、2,000の厳選された手動アノテーション付きの質問-回答ペアで構成されています。我々は18の最先端MLLMをMME-VideoOCRで評価し、最高性能のモデル(Gemini-2.5 Pro)でも73.7%の精度しか達成できないことを明らかにしました。詳細な分析によると、既存のMLLMは、関連テキストが単一または少数のフレーム内に含まれるタスクでは強い性能を示すものの、動画全体の理解を要求するタスクを効果的に処理する能力は限られています。これらの制限は、時空間推論、クロスフレーム情報統合、言語事前バイアスへの耐性を必要とするシナリオで特に顕著です。我々の調査結果は、動的な動画シナリオにおける信頼性の高いOCRのためには、高解像度の視覚入力と十分な時間的カバレッジが重要であることも強調しています。
本論文では、UI-Genieを紹介する。これは、GUIエージェントにおける2つの主要な課題、すなわち軌跡結果の検証が困難であることと、高品質なトレーニングデータがスケーラブルでないことに対処する自己改善フレームワークである。これらの課題は、それぞれ報酬モデルと自己改善パイプラインによって解決される。報酬モデルであるUI-Genie-RMは、画像とテキストを交互に処理するアーキテクチャを特徴とし、履歴コンテキストを効率的に処理し、アクションレベルとタスクレベルの報酬を統合する。UI-Genie-RMのトレーニングを支援するために、ルールベースの検証、制御された軌跡の破損、ハードネガティブマイニングを含む意図的に設計されたデータ生成戦略を開発した。2つ目の課題に対処するために、自己改善パイプラインは、動的環境における報酬誘導探索と結果検証を通じて、エージェントと報酬モデルの両方を強化し、解決可能な複雑なGUIタスクを段階的に拡張する。モデルのトレーニングのために、UI-Genie-RM-517kとUI-Genie-Agent-16kを生成し、GUIエージェント向けの初の報酬特化データセットを確立するとともに、手動アノテーションなしで高品質な合成軌跡生成を示す。実験結果は、UI-Genieが3世代のデータモデル自己改善を通じて、複数のGUIエージェントベンチマークで最先端のパフォーマンスを達成することを示している。我々は、さらなる研究を促進するために、完全なフレームワーク実装と生成されたデータセットをhttps://github.com/Euphoria16/UI-Genieでオープンソースとして公開する。
Low-Rank Adaptation (LoRA) は、生成モデルのパラメータ効率的なファインチューニング (PEFT) において、そのシンプルさと有効性から高く評価されている手法です。最近の改良にもかかわらず、LoRA は根本的な制限を抱えています。ボトルネックが広がると過学習が発生し、ランク32-64で最高の性能を発揮するものの、それ以上のランクでは精度が停滞または低下し、依然として完全なファインチューニング (FFT) の性能には及びません。この根本的な原因は、LoRA の構造的なボトルネックにあり、無関係な入力チャネルに勾配の絡み合いを引き起こし、勾配伝播を歪めてしまうことにあります。この問題を解決するため、我々は新しい構造である Granular Low-Rank Adaptation (GraLoRA) を提案します。GraLoRA は重み行列をサブブロックに分割し、それぞれに独自の低ランクアダプタを配置します。計算コストやストレージコストをほとんど増加させることなく、GraLoRA は LoRA の制限を克服し、表現能力を効果的に向上させ、FFT の挙動により近づけます。コード生成と常識推論のベンチマークでの実験では、GraLoRA が LoRA や他のベースラインを一貫して上回り、HumanEval+ において Pass@1 で最大 +8.5% の絶対的な向上を達成しました。これらの改善はモデルサイズやランク設定にわたって持続し、GraLoRA を PEFT のためのスケーラブルで堅牢なソリューションとしています。コード、データ、スクリプトは https://github.com/SqueezeBits/GraLoRA.git で公開されています。
企業顧客は、電子メールの作成、セールスピッチの構築、カジュアルなメッセージの作成といった重要なコミュニケーションタスクにおいて、大規模言語モデル(LLM)をますます採用しています。異なる地域にわたってこれらのモデルを展開するには、多様な文化的・言語的文脈を理解し、安全で敬意のある応答を生成する必要があります。企業アプリケーションにおいては、信頼を維持し、コンプライアンスを確保するために、不適切または攻撃的な言語を効果的に識別し、対処することが極めて重要です。これを解決するため、私たちはSweEvalを導入しました。これは、トーン(肯定的または否定的)と文脈(フォーマルまたはインフォーマル)のバリエーションを含む現実世界のシナリオをシミュレートするベンチマークです。プロンプトでは、タスクを完了する際に特定の罵倒語を含めるようモデルに明示的に指示します。このベンチマークは、LLMがそのような不適切な指示に従うか抵抗するかを評価し、倫理的フレームワーク、文化的ニュアンス、言語理解能力との整合性を測定します。企業利用およびそれ以上の範囲で倫理的に整合したAIシステムを構築する研究を進めるため、データセットとコードを公開しています:https://github.com/amitbcp/multilingual_profanity。
最近のCoT推論とRLポストトレーニングの進展により、MLLMのビデオ推論能力が向上したと報告されています。この進歩は自然に次の疑問を提起します:これらのモデルは、人間の専門家に匹敵する複雑なビデオ推論を実行できるのでしょうか?しかし、既存のビデオベンチマークは主に視覚的知覚とグラウンディング能力を評価しており、明示的なプロンプトや孤立した視覚的手がかりに基づいて回答できる質問が中心です。このようなベンチマークは、現実世界の推論の複雑さを完全には捉えていません。現実世界では、人間は結論に至る前に、積極的に手がかりを探し、統合し、分析する必要があります。この問題に対処するため、私たちはシャーロック・ホームズの推論プロセスにインスパイアされたベンチマーク「Video-Holmes」を提案します。これは、MLLMの複雑なビデオ推論能力を評価するために設計されています。Video-Holmesは、270本の手動で注釈が付けられたサスペンス短編映画から派生した1,837の質問で構成され、7つの慎重に設計されたタスクにわたります。各タスクは、まず映画内の主要なイベントと因果関係を特定し、その後、モデルが異なるビデオセグメントに散らばった複数の関連する視覚的手がかりを積極的に特定し、接続する必要がある質問を設計することで構築されています。最先端のMLLMの包括的な評価により、これらのモデルは一般的に視覚的知覚に優れているものの、情報の統合に大きな困難を抱え、しばしば重要な手がかりを見逃していることが明らかになりました。例えば、最高性能のモデルであるGemini-2.5-Proでさえ、精度はわずか45%であり、ほとんどのモデルは40%未満のスコアでした。私たちは、Video-Holmesがマルチモーダル推論の「ホームズテスト」として機能し、モデルがより人間のように推論することを促し、この分野の継続的な課題を強調することを目指しています。ベンチマークはhttps://github.com/TencentARC/Video-Holmesで公開されています。
大規模言語モデル(LLM)におけるコード推論能力の向上は、特に大規模な厳密なソリューション検証に必要な検証可能な入力-出力テストケースを伴う高難易度データセットの不足によって根本的に制限されています。本論文では、rStar-Coderを紹介します。これは、418Kの競技プログラミングレベルのコード問題、580Kの長文推論ソリューション、およびさまざまな難易度の豊富なテストケースを含む大規模な検証済みデータセットを構築することで、LLMのコード推論能力を大幅に向上させます。これは、以下の3つのコアな貢献によって達成されます:(1) 競技プログラミングのコード問題とオラクルソリューションをキュレーションし、新しい解決可能な問題を合成します;(2) 信頼性の高い入力-出力テストケース合成パイプラインを導入し、生成を3段階の入力生成方法と効果的な出力ラベリングのための相互検証メカニズムに分離します;(3) 高品質なテストケース検証済みの長文推論ソリューションで問題を拡張します。Qwenモデル(1.5B-14B)を用いたさまざまなコード推論ベンチマークでの広範な実験により、rStar-Coderデータセットの優位性が実証され、はるかに小さいモデルサイズで最先端の推論LLMに匹敵するリーディングパフォーマンスを達成しました。LiveCodeBenchでは、rStar-CoderはQwen2.5-7Bを17.4%から印象的な57.3%に、Qwen2.5-14Bを23.3%から62.5%に改善し、o3-mini(low)を3.1%上回りました。より挑戦的なUSA Computing Olympiadでは、7Bモデルが平均pass@1精度16.15%を達成し、最先端レベルのQWQ-32Bを上回りました。コードとデータセットはhttps://github.com/microsoft/rStarで公開されます。
最近、検証可能な報酬を用いたDeepSeek-R1-Zeroスタイルの強化学習(RL)によって大規模言語モデル(LLM)を訓練するというパラダイムシフトが起こり、コードや数学的推論において目覚ましい進展が見られています。しかし、この方法論はルールベースの回答検証が可能なタスクに限定されており、化学、医療、工学、法律、生物学、ビジネス、経済学などの現実世界の領域には自然に拡張されません。現在の実用的な回避策として、追加のLLMをモデルベースの検証器として使用していますが、これには強力な検証器LLMへの依存、報酬ハッキングへの脆弱性、および訓練中に検証器モデルをメモリに保持するという実用的な負担といった問題が生じます。この問題を解決し、DeepSeek-R1-Zeroスタイルの訓練を一般的な推論領域に拡張するために、私たちは回答検証をバイパスし、代わりにRLを使用して参照回答を生成する確率を直接最大化する検証器不要の方法(VeriFree)を提案します。VeriFreeを検証器ベースの方法と比較し、MMLU-Pro、GPQA、SuperGPQA、および数学関連のベンチマークにわたる広範な評価において、VeriFreeが実用的な利点と計算要件の削減に加えて、検証器ベースの方法に匹敵し、それを上回ることを実証します。さらに、この方法について、ポリシーと暗黙の検証器を統一モデルで訓練するエレガントな統合として、および変分最適化アプローチとして、複数の視点から洞察を提供します。コードはhttps://github.com/sail-sg/VeriFreeで公開されています。
人間の社会的相互作用は、他者の言葉に表れない意図、感情、信念を推測する能力に依存しており、これは心理学の概念である「心の理論(Theory of Mind, ToM)」に基づく認知スキルである。大規模言語モデル(LLMs)は意味理解タスクにおいて優れているが、人間のコミュニケーションに内在する曖昧さや文脈のニュアンスに対処するのが困難である。このギャップを埋めるため、我々はメタ認知の心理学理論に着想を得たマルチエージェントフレームワーク「MetaMind」を提案し、人間のような社会的推論を模倣する。MetaMindは社会的理解を3つの協調的な段階に分解する:(1) 心の理論エージェントがユーザーの心的状態(意図、感情など)に関する仮説を生成し、(2) ドメインエージェントが文化的規範や倫理的制約を用いてこれらの仮説を精緻化し、(3) レスポンスエージェントが文脈に適した応答を生成しながら、推測された意図との整合性を検証する。本フレームワークは、3つの挑戦的なベンチマークにおいて最先端の性能を達成し、実世界の社会的シナリオで35.7%、ToM推論で6.2%の向上を実現した。特に、LLMsが主要なToMタスクにおいて初めて人間レベルの性能に到達することを可能にした。アブレーションスタディは、すべてのコンポーネントの必要性を確認し、文脈の妥当性、社会的適切性、ユーザー適応のバランスを取るフレームワークの能力を示している。この研究は、共感的な対話や文化的に敏感な相互作用への応用を通じて、AIシステムを人間のような社会的知能に近づけるものである。コードはhttps://github.com/XMZhangAI/MetaMindで公開されている。
複雑なタスクのパフォーマンス向上と、特に臨床応用における大規模言語モデル(LLMs)の解釈可能な意思決定を実現するためには、効果的な推論能力が求められる。しかし、閉鎖ソースモデル(例:GPT-4o)から蒸留された高価な連鎖思考(CoT)データを用いた教師ありファインチューニング(SFT)なしでは、これが依然として困難である。本研究では、AlphaMedを紹介する。これは、SFTや蒸留されたCoTデータに依存せず、公開されている多肢選択式QAデータセットに対してミニマリストなルールベースの報酬を用いた強化学習(RL)のみを通じて推論能力が発現することを示した初の医療用LLMである。AlphaMedは、6つの医療QAベンチマークで最先端の結果を達成し、従来のSFT+RLパイプラインで訓練されたモデルを上回った。特に難しいベンチマーク(例:MedXpert)では、AlphaMedはDeepSeek-V3-671BやClaude-3.5-Sonnetといったより大規模または閉鎖ソースのモデルさえも凌駕した。この成功の背景にある要因を理解するため、我々は3つの問いに基づいて包括的なデータ中心の分析を行った:(i)ミニマリストなルールベースのRLは、蒸留されたCoTの監督なしに推論を促進できるか?(ii)データセットの量と多様性は推論にどのような影響を与えるか?(iii)質問の難易度は推論の発現と一般化にどのように影響するか?我々の調査結果は、データセットの情報量が推論性能の主要な要因であること、そして情報量の高い多肢選択式QAデータに対するミニマリストなRLが、CoTの監督なしに推論を誘発するのに効果的であることを示している。また、ベンチマーク間で異なる傾向が観察され、現在の評価の限界と、より挑戦的で推論指向の医療QAベンチマークの必要性が強調された。
ビデオ大規模言語モデル(video LLMs)はビデオ理解に優れているが、冗長なビデオトークンによる計算効率の低下が大きな課題である。既存のトークンプルーニング手法は解決策を提供するが、LLM内部で動作する手法(内部LLMプルーニング)、例えばFastVなどは、浅い層で本質的な計算オーバーヘッドを引き起こす。一方、LLMの前にトークンプルーニングを行う手法(外部LLMプルーニング)は、主に個々のフレーム内または限られた時間ウィンドウ内の空間的冗長性に対処し、長いビデオシーケンスにわたる重要なグローバルな時間的ダイナミクスと相関を無視している。これにより、時空間的な削減が最適ではなく、ビデオの圧縮性を十分に活用できていない。特に、これらの戦略を組み合わせた場合の相乗効果と相互影響は未解明のままである。冗長性をさらに削減するため、我々はHoliTomを提案する。これは、トレーニング不要なホリスティックなトークン統合フレームワークであり、グローバルな冗長性を考慮した時間的セグメンテーションによる外部LLMプルーニングを行い、その後、時空間的統合により視覚トークンを90%以上削減し、LLMの計算負荷を大幅に軽減する。これを補完するため、内部LLMトークンの類似性に基づく堅牢な統合手法を導入し、外部LLMプルーニングとの互換性と優れた性能を実現する。評価結果は、LLaVA-OneVision-7Bにおいて、計算コストをFLOPsの6.9%に削減しながら、元の性能の99.1%を維持するという効率と性能の有望なトレードオフを示している。さらに、Time-To-First-Token(TTFT)を2.28倍削減し、デコードスループットを1.32倍加速することで、効率的なビデオLLM推論のための統合プルーニング手法の実用的な利点を強調している。
インタラクティブなモーション制御による画像アニメーションは、画像から動画(I2V)生成において人気を集めています。現代のアプローチでは、通常、大規模なガウシアンカーネルに依存してモーショントラジェクトリを条件として拡張し、移動領域を明示的に定義せず、粗いモーション制御や物体とカメラの動きの分離に失敗しています。これらの問題を緩和するため、我々はMotionProを提案します。これは、領域ごとのトラジェクトリとモーションマスクを新たに活用し、それぞれ細かなモーション合成を制御し、対象のモーションカテゴリ(物体またはカメラの動き)を識別する精密なモーションコントローラです。技術的には、MotionProはまず追跡モデルを使用して各トレーニングビデオのフローマップを推定し、その後、領域ごとのトラジェクトリをサンプリングして推論シナリオをシミュレートします。大規模なガウシアンカーネルを通じてフローを拡張する代わりに、我々の領域ごとのトラジェクトリアプローチは、局所領域内のトラジェクトリを直接利用することで、より精密な制御を可能にし、細かな動きを効果的に特徴付けます。同時に、予測されたフローマップからモーションマスクを導出し、移動領域の全体的なモーションダイナミクスを捕捉します。自然なモーション制御を追求するため、MotionProは、領域ごとのトラジェクトリとモーションマスクを特徴変調に組み込むことで、ビデオのノイズ除去をさらに強化します。さらに注目すべきは、1.1Kのユーザー注釈付き画像-トラジェクトリペアからなるベンチマーク、MC-Benchを慎重に構築し、細かなレベルと物体レベルのI2Vモーション制御の評価を行ったことです。WebVid-10MとMC-Benchで実施された広範な実験は、MotionProの有効性を実証しています。詳細な結果については、プロジェクトページをご覧ください:https://zhw-zhang.github.io/MotionPro-page/。
多言語アラインメントは、大規模言語モデル(LLMs)の多言語能力を強化するための効果的で代表的なパラダイムであり、高リソース言語から低リソース言語への能力転移を実現します。一方で、言語特異的ニューロンに関する研究から、LLMsが異なる言語を処理する際に選択的に活性化される言語特異的ニューロンが存在することが明らかになっています。これは、LLMsのメカニズムを多言語シナリオにおいてより具体的に分析・理解するための新たな視点を提供します。本研究では、新しい細粒度のニューロン識別アルゴリズムを提案し、言語ニューロン(言語特異的ニューロンおよび言語関連ニューロン)と言語非依存ニューロンを検出します。さらに、異なるタイプのニューロンの分布特性に基づいて、LLMsの多言語推論における内部プロセスを以下の4つの部分に分割します:(1)多言語理解、(2)共有意味空間推論、(3)多言語出力空間変換、(4)語彙空間出力。加えて、アラインメント前後のモデルを異なるタイプのニューロンに焦点を当てて系統的に分析し、「自発的多言語アラインメント」の現象についても分析します。全体として、本研究は異なるタイプのニューロンに基づいた包括的な調査を行い、多言語アラインメントおよびLLMsの多言語能力をより深く理解するための実証結果と貴重な知見を提供します。
映像生成において、制御性、時間的一貫性、詳細な合成は依然として最も重要な課題です。本論文では、一般的に使用されながらも十分に研究されていない映画技法である「フレームイン・フレームアウト」に焦点を当てます。具体的には、画像から映像を生成する際に、ユーザーが指定した動きの軌道に従って、画像内のオブジェクトを自然にシーンから退出させたり、新たなアイデンティティ参照を提供してシーンに進入させたりする制御が可能です。このタスクを支援するため、半自動的にキュレーションされた新しいデータセット、この設定を対象とした包括的な評価プロトコル、そして効率的なアイデンティティ保存型の動き制御可能なビデオDiffusion Transformerアーキテクチャを導入します。評価の結果、提案手法が既存のベースラインを大幅に上回ることが示されました。
近年の生成モデルの進歩により、高忠実度のテキストから画像への生成が可能となった。しかし、オープンソースの画像編集モデルは、主に高品質なデータの不足と不十分なベンチマークが原因で、プロプライエタリなモデルに遅れをとっている。これらの制限を克服するため、我々はImgEditを導入する。これは120万の厳選された編集ペアからなる大規模で高品質な画像編集データセットであり、新規かつ複雑な単一ターン編集と、挑戦的な多ターンタスクの両方を含んでいる。データ品質を確保するため、最先端の視覚言語モデル、検出モデル、セグメンテーションモデルを統合し、タスク固有のインペインティング手順と厳格な後処理を施した多段階パイプラインを採用している。ImgEditは、タスクの新規性とデータ品質の両面で既存のデータセットを凌駕している。ImgEditを使用して、我々はImgEdit-E1を訓練した。これは視覚言語モデルを使用して参照画像と編集プロンプトを処理する編集モデルであり、複数のタスクで既存のオープンソースモデルを上回り、ImgEditとモデル設計の価値を示している。包括的な評価のために、我々はImgEdit-Benchを導入する。これは、指示の遵守、編集品質、詳細の保持の観点で画像編集性能を評価するために設計されたベンチマークである。基本的なテストスイート、挑戦的な単一ターンスイート、専用の多ターンスイートを含んでいる。オープンソースとプロプライエタリのモデル、およびImgEdit-E1を評価し、画像編集モデルの現在の挙動に関する深い分析と実践的な洞察を提供する。ソースデータはhttps://github.com/PKU-YuanGroup/ImgEditで公開されている。
多くの実世界のアプリケーションでは、デプロイされたモデルは、トレーニング中に見たデータとは異なる入力に遭遇します。分布外検出(Out-of-distribution detection)は、入力が未知の分布に由来するかどうかを識別し、オープンワールド認識(open-world recognition)は、そのような入力をフラグ付けして、システムが新たに出現する未知のカテゴリに対しても堅牢であり続けることを保証します。ファウンデーションモデルや視覚言語モデルは、医療画像を含む幅広いドメインにわたる汎化を期待して、大規模で多様なデータセットで事前学習されています。しかし、これらのモデルを、わずかな一般的な外れ値タイプのみを含むテストセットでベンチマークすることは、評価を静かに閉じたセットの問題に戻してしまい、臨床使用で遭遇する稀または真に新しい条件での失敗を隠してしまいます。 そこで我々は、281の稀な病理と異なる取得プロトコルにまたがるsim900脳MRIスキャンからなる、挑戦的で現実的な評価専用ベンチマーク「NOVA」を提案します。各ケースには、豊富な臨床記述と二重盲検の専門家によるバウンディングボックスアノテーションが含まれています。これらは、異常の局所化、視覚的キャプション生成、診断推論の共同評価を可能にします。NOVAはトレーニングに使用されることがないため、分布外汎化の極端なストレステストとして機能します:モデルは、サンプルの外観と意味空間の両方における分布ギャップを埋めなければなりません。主要な視覚言語モデル(GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B)を用いたベースライン結果は、すべてのタスクで大幅な性能低下を示し、NOVAが真に未知の異常を検出、局所化、推論できるモデルの進歩に向けた厳格なテストベッドであることを確立しています。
本論文では、DetailFlowと呼ばれる、粗から細へと進化する1次元自己回帰(AR)画像生成手法を提案する。この手法は、新たな「次詳細予測」戦略を通じて画像をモデル化する。解像度を意識したトークン列を段階的に劣化させた画像で教師あり学習することで、DetailFlowは生成プロセスを大域的な構造から開始し、徐々に詳細を洗練させていくことを可能にする。この粗から細への1次元トークン列は、自己回帰推論メカニズムとよく適合し、ARモデルが複雑な視覚的コンテンツを生成するためのより自然で効率的な方法を提供する。我々のコンパクトな1次元ARモデルは、従来のVAR/VQGANなどの手法と比べて大幅に少ないトークン数で高品質な画像合成を実現する。さらに、自己補正を伴う並列推論メカニズムを提案し、教師強制型の教師あり学習に内在する蓄積サンプリングエラーを低減しながら、生成速度を約8倍加速する。ImageNet 256x256ベンチマークにおいて、本手法は128トークンで2.96 gFIDを達成し、ARモデルで680トークンを必要とするVAR(3.3 FID)やFlexVAR(3.05 FID)を上回る。さらに、大幅に削減されたトークン数と並列推論メカニズムにより、本手法はVARやFlexVARと比べて推論速度が約2倍高速である。広範な実験結果は、DetailFlowが既存の最先端手法と比較して優れた生成品質と効率性を有することを示している。
アクティブビジョン(Active Vision)、またはアクティブ知覚(Active Perception)とは、タスクに関連する情報を収集するために、どこをどのように見るかを積極的に選択するプロセスを指します。これは、人間や高度なエンボディエージェントにおける効率的な知覚と意思決定の重要な要素です。最近、ロボットシステムの中心的な計画・意思決定モジュールとしてマルチモーダル大規模言語モデル(MLLMs)の使用が広く注目されています。しかし、エンボディエージェントの知能におけるアクティブ知覚の重要性にもかかわらず、MLLMsがアクティブ知覚能力を備える、または学習する方法についてはほとんど検討されていません。本論文では、まずMLLMベースのアクティブ知覚タスクを体系的に定義します。最近提案されたGPT-o3モデルのズームイン検索戦略は、アクティブ知覚の特殊なケースと見なすことができますが、検索効率の低さや領域選択の不正確さといった課題が残っています。これらの課題を解決するため、我々はGRPOを基盤とした純粋な強化学習ベースのトレーニングフレームワークであるACTIVE-O3を提案し、MLLMsにアクティブ知覚能力を備えさせます。さらに、ACTIVE-O3を評価するための包括的なベンチマークスイートを確立し、小物体や密集物体のグラウンディングといった一般的なオープンワールドタスクから、リモートセンシングや自動運転における小物体検出、細粒度インタラクティブセグメンテーションといったドメイン固有のシナリオまで幅広く検証します。加えて、ACTIVE-O3はV*ベンチマークにおいて、明示的な推論データに依存することなく、強力なゼロショット推論能力を示します。我々の研究が、MLLMsにおけるアクティブ知覚の将来の研究を促進するためのシンプルなコードベースと評価プロトコルを提供することを期待しています。
言語モデルの生成を精密に制御することは、安全性と信頼性を確保する上で極めて重要です。プロンプトエンジニアリングやステアリングはモデルの挙動に介入するために一般的に使用されますが、モデルが持つ膨大なパラメータ数は、しばしば高度に絡み合った内部表現を生み出します。この相互依存性は制御精度を制限し、時として意図しない副作用を引き起こす可能性があります。最近の研究では、高次元空間における知識を分離してステアリングを行うためにスパースオートエンコーダ(SAE)の使用が探求されています。しかし、これらの応用は、原子知識コンポーネントを特定するという非自明な課題のために、トイタスクに限定されてきました。本論文では、分離された知識コンポーネントを単離し操作することで安全性を向上させる新たな手法、Steering Target Atoms(STA)を提案します。包括的な実験により、本手法の有効性が実証されています。さらに分析を行った結果、ステアリングは特に敵対的シナリオにおいて優れた堅牢性と柔軟性を示すことが明らかになりました。また、ステアリング戦略を大規模推論モデルに適用し、精密な推論制御におけるその有効性を確認しました。
我々はFinTaggingを紹介する。これは、XBRLベースの財務報告における大規模言語モデル(LLM)の構造化情報抽出と意味的整合能力を評価するために設計された、初のフルスコープかつテーブル対応のXBRLベンチマークである。従来のベンチマークがXBRLタグ付けを単純な多クラス分類として扱い、物語調のテキストのみに焦点を当てていたのに対し、FinTaggingはXBRLタグ付け問題を2つのサブタスクに分解する:FinNI(財務エンティティ抽出)とFinCL(分類体系駆動の概念整合)である。本ベンチマークでは、モデルが非構造化テキストと構造化テーブルの両方にわたって事実を抽出し、10,000以上のUS-GAAP分類体系全体と整合させることを要求し、現実的で細かな評価を可能にする。我々はゼロショット設定下で多様なLLMを評価し、各サブタスクと全体的なタグ付け精度に関する性能を体系的に分析した。その結果、LLMは情報抽出において強い汎化能力を示す一方で、特に密接に関連する分類体系エントリの曖昧性解消において、細かな概念整合に苦戦することが明らかになった。これらの知見は、既存のLLMがXBRLタグ付けを完全に自動化する上での限界を浮き彫りにし、正確な財務開示の要求を満たすための改善された意味的推論とスキーマ対応モデリングの必要性を強調するものである。コードはGitHubリポジトリ、データはHugging Faceリポジトリで公開されている。
視覚言語モデル(VLMs)は、視覚的コンテンツの理解と推論において顕著な能力を発揮してきたが、異なる視点間の理解や空間推論を必要とするタスクでは依然として大きな課題が残されている。本研究では、現在のVLMsが主にエゴセントリックな空間推論(カメラの視点からの推論)に優れているものの、他のエンティティの空間的参照枠を採用する必要がある場合のアロセントリックな視点への一般化に失敗するという重要な限界を指摘する。我々は、5つの異なるタスクタイプにわたる多視点空間位置認識評価のために特別に設計された初の包括的なベンチマークであるViewSpatial-Benchを導入し、正確な方向ラベルを生成する自動化された3Dアノテーションパイプラインをサポートする。ViewSpatial-Benchを用いた多様なVLMsの包括的評価により、カメラ視点のタスクでは妥当な性能を示すものの、人間の視点からの推論では精度が低下するという顕著な性能差が明らかになった。我々の多視点空間データセットでVLMsをファインチューニングすることで、タスク全体で46.24%の性能向上を達成し、本アプローチの有効性を強調した。本研究は、エンボディードAIシステムにおける空間知能の重要なベンチマークを確立し、3D空間関係をモデル化することがVLMsの対応する空間理解能力を向上させることを実証的に示すものである。
スケーラブル・ベクター・グラフィックス(SVG)は、視覚的なデザインを解釈可能なコードとして表現するための強力なフォーマットを提供する。近年の視覚言語モデル(VLM)の進展により、コード生成タスクとして問題を定式化し、大規模な事前学習を活用することで、高品質なSVG生成が可能となった。VLMは、グローバルな意味論と細かな視覚的パターンの両方を捉えつつ、視覚、自然言語、コードの領域間で知識を転移できるため、このタスクに特に適している。しかし、既存のVLMアプローチは、トレーニング中にレンダリングされた画像を観察しないため、忠実で効率的なSVGを生成するのに苦戦することが多い。自己回帰的なSVGコード生成のための微分可能なレンダリングはまだ利用できないが、レンダリングされた出力を元の入力と比較することで、強化学習(RL)に適した評価フィードバックを得ることができる。本論文では、レンダリングフィードバックからの強化学習(RLRF)を導入し、レンダリングされたSVG出力からのフィードバックを活用して、自己回帰的なVLMにおけるSVG生成を強化する。入力画像が与えられると、モデルはSVGのロールアウトを生成し、それをレンダリングして元の画像と比較し、報酬を計算する。この視覚的忠実度フィードバックにより、モデルはより正確で効率的、かつ意味的に一貫したSVGを生成するよう導かれる。RLRFは、教師ありファインチューニングを大幅に上回り、一般的な失敗モードに対処し、強力な構造理解と一般化を伴った精密で高品質なSVG生成を実現する。
最近の研究によると、大規模言語モデル(LLMs)の推論能力は、数学やコーディングなどの質問応答(QA)タスクに対して強化学習(RL)を適用することで向上させることができる。長いコンテキスト長を持つLLMsは、DeepSeek R1で観察された自己修正行動が示すように、検索を行うことを学習する可能性がある。しかし、この検索行動はしばしば不正確で確信がなく、冗長で長い応答を引き起こし、直感と検証の欠如を浮き彫りにする。心理学における二重過程理論に着想を得て、我々はQAタスクに単純な修正を加え、以下の4つの段階を含めることを提案する:高速思考(Fast Thinking)、ここではLLMは厳格なトークン予算内で回答しなければならない;検証(Verification)、ここではモデルは初期の応答を評価する;低速思考(Slow Thinking)、ここではより慎重に初期の応答を洗練する;要約(Summarization)、ここでは前段階の洗練を正確なステップに凝縮する。提案したタスクにより、Qwen2.5-1.5Bの平均精度は24.9%から27.9%に、DeepSeek-R1-Qwen-1.5Bの平均精度は45.9%から49.8%に向上した。特に、Qwen2.5-1.5Bでは、高速思考モードだけで1000トークン未満を使用して26.8%の精度を達成し、大幅な推論効率の向上を示している。これらの結果は、直感と熟慮的推論が異なる補完的なシステムであり、ターゲットを絞った訓練から恩恵を受けることを示唆している。
本論文では、VisTAという新しい強化学習フレームワークを紹介します。VisTAは、視覚エージェントが多様なツールライブラリから経験的なパフォーマンスに基づいて動的に探索、選択、組み合わせを行うことを可能にします。既存のツール拡張推論手法は、トレーニング不要なプロンプティングか大規模なファインチューニングに依存しており、いずれも能動的なツール探索を欠き、通常はツールの多様性が限られていると仮定しています。さらに、ファインチューニング手法では大規模な人間の監督が必要です。これに対し、VisTAはエンドツーエンドの強化学習を活用し、タスクの結果をフィードバック信号として用いることで、クエリ固有の洗練されたツール選択戦略を反復的に改善します。Group Relative Policy Optimization(GRPO)を通じて、本フレームワークはエージェントが明示的な推論監督を必要とせずに効果的なツール選択経路を自律的に発見することを可能にします。ChartQA、Geometry3K、BlindTestベンチマークでの実験により、VisTAがトレーニング不要なベースラインを大幅に上回るパフォーマンス向上を達成し、特に分布外の例において優れた結果を示すことが実証されました。これらの結果は、VisTAの汎化能力の向上、多様なツールの適応的利用、そして柔軟で経験駆動型の視覚推論システムへの道を開く能力を強調しています。
マルチモーダル大規模言語モデル(MLLMs)は、転移可能な敵対的サンプルに対して依然として脆弱性を抱えています。既存の手法は、通常、敵対的サンプルとターゲットサンプルの間でCLIPの[CLS]トークンなどのグローバル特徴を整列させることでターゲット攻撃を実現しますが、パッチトークンにエンコードされた豊富なローカル情報を見落としがちです。これにより、特にクローズドソースのモデルにおいて、最適な整列が達成されず、転移性が制限されます。この制限を解決するため、我々は特徴最適整列に基づくターゲット転移可能な敵対的攻撃手法、FOA-Attackを提案し、敵対的転移能力を向上させます。具体的には、グローバルレベルでは、コサイン類似度に基づくグローバル特徴損失を導入し、敵対的サンプルとターゲットサンプルの粗粒度特徴を整列させます。ローカルレベルでは、Transformer内の豊富なローカル表現を考慮し、クラスタリング技術を活用してコンパクトなローカルパターンを抽出し、冗長なローカル特徴を軽減します。その後、敵対的サンプルとターゲットサンプルの間のローカル特徴整列を最適輸送(OT)問題として定式化し、ローカルクラスタリング最適輸送損失を提案して、細粒度特徴整列を洗練します。さらに、敵対的サンプル生成中に複数モデルの影響を適応的にバランスさせる動的アンサンブルモデル重み付け戦略を提案し、転移性をさらに向上させます。様々なモデルにわたる広範な実験により、提案手法の優位性が実証され、特にクローズドソースのMLLMsへの転移において、最先端の手法を凌駕する性能を示しています。コードはhttps://github.com/jiaxiaojunQAQ/FOA-Attackで公開されています。
私たちは、中学から博士課程の資格試験までを網羅する物理学問題に基づいた大規模マルチモーダルベンチマーク「SeePhys」を提案します。このベンチマークは物理学分野の7つの基本領域をカバーし、21種類の高度に異質な図表を組み込んでいます。先行研究では視覚要素が主に補助的な役割を果たしていたのに対し、私たちのベンチマークでは正解を得るために視覚情報の抽出が必須となる視覚中心問題が75%を占めています。大規模な評価を通じて、最も先進的な視覚推論モデル(例:Gemini-2.5-proやo4-mini)でさえ、本ベンチマークにおいて60%未満の精度しか達成できないことが観察されました。これらの結果は、現在の大規模言語モデルの視覚理解能力における根本的な課題を明らかにしています。特に、(i) 図表の解釈と物理学的推論の間の厳密な結合を確立すること、および(ii) テキストの手がかりに依存する認知的な近道を克服することにおいて、大きな課題があることが示されています。
マルチモーダル生成の自動評価は、特に複数のモダリティを伴う複雑なタスクにおいて、自動化された指標が人間の評価と信頼性高く一致することが難しいため、大きな課題となっている。この問題に対処するため、我々はMMMGを提案する。MMMGは、4つのモダリティ組み合わせ(画像、音声、テキストと画像の交互配置、テキストと音声の交互配置)にわたるマルチモーダル生成のための包括的かつ人間の評価に整合したベンチマークであり、生成モデルにとって重要な課題を提示するタスクに焦点を当てつつ、モデルとプログラムの組み合わせを通じて信頼性の高い自動評価を可能にする。MMMGは49のタスク(うち29は新規開発)を包含し、各タスクには慎重に設計された評価パイプラインと937の指示が含まれており、マルチモーダル生成モデルの推論能力、制御可能性、その他の重要な能力を体系的に評価する。広範な検証により、MMMGは人間の評価と高い整合性を示し、平均94.3%の一致率を達成していることが明らかになった。24のマルチモーダル生成モデルに対するベンチマーク結果は、最先端のモデルであるGPT Imageが画像生成において78.3%の精度を達成しているものの、マルチモーダル推論と交互配置生成においては不十分であることを示している。さらに、音声生成においては改善の余地が大きいことが示唆されており、今後の研究における重要な方向性を提示している。
強化学習(RL)によって訓練された大規模言語モデル(LLMs)は、強力な推論能力と、バックトラッキングやエラー修正などの発展的な反射的行動を示すことが確認されている。しかし、従来のマルコフ的RLは、最適な決定論的ポリシーを学習するために探索を訓練段階に限定し、現在の状態を通じてのみ履歴コンテキストに依存する。そのため、マルコフ的RLの訓練中に反射的推論が発現するか、またはテスト時にそれらがなぜ有益であるかは依然として不明である。この問題を解決するため、我々は反射的探索をベイズ適応RL(Bayes-Adaptive RL)フレームワーク内で再構築した。このフレームワークでは、マルコフ決定過程に対する事後分布の下で期待リターンを明示的に最適化する。このベイズ的定式化は、信念更新を通じて、報酬最大化のための利用と情報収集のための探索の両方を本質的に促進する。我々が提案するアルゴリズム、BARLは、観測された結果に基づいてLLMに戦略を組み合わせたり切り替えたりするよう指示し、モデルがいつ、どのように反射的に探索すべきかについての原則的なガイダンスを提供する。合成タスクおよび数学的推論タスクにおける実験結果は、BARLがテスト時に標準的なマルコフ的RLアプローチを上回り、探索効果の向上とともに優れたトークン効率を達成することを示している。我々のコードはhttps://github.com/shenao-zhang/BARLで公開されている。
大規模言語モデル(LLM)の開発において、テスト時のスケーリングが重要な研究フロンティアとなる中、現代の高度なポストトレーニング手法は、長いChain-of-Thought(CoT)応答の生成長を拡張し、DeepSeek R1のような性能に向けた推論能力を向上させることに焦点を当てています。しかし、最新の研究では、最先端の推論モデルにおいて、過剰な冗長性や反復的な思考パターンが長いCoT応答に現れる「過剰思考」現象が持続していることが明らかになりました。この問題に対処するため、本論文では、LLMにおける簡潔な推論を実現するためのシンプルかつ効果的な2段階強化学習フレームワーク「ConciseR」を提案します。具体的には、第1段階では、より多くのトレーニングステップを使用し、clip-higherおよび動的サンプリングコンポーネントを備えたGroup Relative Policy Optimization(GRPO++)を通じてモデルの推論能力を促進します。第2段階では、より少ないトレーニングステップを使用し、Length-aware Group Relative Policy Optimization(L-GRPO)を通じて明示的に簡潔さを強化し効率を向上させます。特に、ConciseRは「歩いてから走る」原則に従い、サンプルのすべてのロールアウトが正しい場合にのみ応答長を最適化します。広範な実験結果は、より簡潔なCoT推論応答を生成するConciseRモデルが、AIME 2024、MATH-500、AMC 2023、Minerva、およびOlympiadベンチマークにおいて、ゼロRLパラダイムを用いた最近の最先端推論モデルを凌駕することを示しています。
視点の理解は人間の視覚知覚において基本的な要素であるが、マルチモーダル大規模言語モデル(MLLM)が視点幾何学をどの程度内在化しているかは未だ明らかではない。本研究では、MMPerspectiveを初めて導入し、視点の理解を体系的に評価するために、3つの補完的な次元(視点知覚、推論、ロバストネス)にわたる10の注意深く設計されたタスクを通じてMLLMの能力を検証する。このベンチマークは、消失点の知覚や計数、視点タイプの推論、3D空間における線の関係理解、視点保存変換に対する不変性などの主要な能力を探る2,711の実世界および合成画像インスタンスと5,083の質問-回答ペアで構成されている。43の最先端MLLMに対する包括的な評価を通じて、重要な限界が明らかになった:モデルは表面的な知覚タスクでは有能であるが、合成的推論や摂動下での空間的一貫性の維持に苦戦している。さらに、モデルアーキテクチャ、スケール、視点能力の間の興味深いパターンを分析し、ロバストネスのボトルネックとチェーン・オブ・ソートプロンプティングの利点を強調した。MMPerspectiveは、視覚言語システムにおける空間理解の診断と進展のための貴重なテストベッドを確立する。リソースは以下で利用可能:https://yunlong10.github.io/MMPerspective/
大規模言語モデル(LLMs)の最近の進展により、エージェントが複雑で開放的なタスクを自律的に実行することが可能となった。しかし、多くの既存のフレームワークは手動で事前定義されたツールやワークフローに大きく依存しており、これが適応性、拡張性、およびドメイン間での汎化を妨げている。本研究では、「シンプルさは究極の洗練である」という原則に基づいて設計された汎用エージェント「Alita」を紹介する。Alitaは、最小限の事前定義と最大限の自己進化を通じて、スケーラブルなエージェント推論を実現する。最小限の事前定義のために、Alitaは直接的な問題解決のためのコンポーネントを1つだけ備えており、手作りの精巧なツールやワークフローに大きく依存する従来のアプローチよりもはるかにシンプルで洗練されている。このクリーンな設計により、ツールに制限されることなく、難しい質問に対しても汎化する可能性が高まる。最大限の自己進化のために、Alitaの創造性を引き出すために、汎用コンポーネントのスイートを提供し、オープンソースからタスク関連のモデルコンテキストプロトコル(MCPs)を生成することで、外部の能力を自律的に構築、改良、再利用することを可能にする。これにより、スケーラブルなエージェント推論が実現される。特に、AlitaはGAIAベンチマーク検証データセットにおいて75.15%のpass@1と87.27%のpass@3の精度を達成し、汎用エージェントの中でトップクラスの性能を示している。また、MathvistaとPathVQAにおいてもそれぞれ74.00%と52.00%のpass@1を達成し、はるかに複雑な多くのエージェントシステムを上回る性能を示している。詳細はhttps://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}で更新される予定である。
視覚言語モデル(VLMs)は、人間にとって困難なコーディングや数学のベンチマークで強力な結果を達成しているが、知覚、空間ナビゲーション、メモリ管理など、人間にとって自然なタスクを遂行する能力については未だ十分に研究されていない。実際のビデオゲームは、人間が直感的に学び習得できるように、生得的な帰納的バイアスを活用して設計されており、VLMsのこうした能力を評価するための理想的なテストベッドとなっている。この目的のために、我々はVideoGameBenchを導入する。これは1990年代の10の有名なビデオゲームから構成され、VLMsがリアルタイムで直接対話するベンチマークである。VideoGameBenchは、モデルに生の視覚入力と目的と操作の高レベルな説明のみを与えてゲーム全体を完了することを要求し、ゲーム固有の足場や補助情報に依存する既存の設定から大きく逸脱している。我々は、未見の環境に一般化する解決策を促進するために、3つのゲームを秘密にしている。実験の結果、最先端の視覚言語モデルは各ゲームの序盤を超えて進むことが困難であることが示された。リアルタイム設定では、推論の遅延が最先端モデルの主要な制限要因であることが判明したため、ゲームがLMの次のアクションを待つ間に一時停止するVideoGameBench Liteを導入した。最高性能のモデルであるGemini 2.5 Proは、VideoGameBenchの0.48%、VideoGameBench Liteの1.6%しか完了できなかった。我々は、上述の人間のスキルをこのベンチマークに形式化することで、これらの研究方向への進展を促すことを期待している。
推論や情報探索のためのポストトレーニング技術の急速な進展に伴い、大規模言語モデル(LLMs)は、大量の検索された知識を取り入れて複雑なタスクを解決できるようになりました。しかし、LLMsの限られたコンテキストウィンドウは、外部知識の入力量をスケールアップすることを妨げ、特に大量の外部知識を必要とするタスクにおいてさらなる改善を阻んでいます。既存のコンテキストウィンドウ拡張手法は、避けられない情報の損失を引き起こします。LLMベースのマルチエージェント手法は、大量の入力を分散的に処理する新しいパラダイムとして登場し、既存の知識同期と推論プロセスにおける2つの核心的なボトルネックを特定しました。本研究では、これらのボトルネックを克服し、長いコンテキストのトレーニングなしに推論時の知識統合のスケーラビリティを向上させるためのマルチエージェントフレームワーク、ExtAgentsを開発しました。我々が強化したマルチホップ質問応答テスト、$boldsymbol{inftyBench+}$、および長い調査生成を含む他の公開テストセットでベンチマークを行った結果、ExtAgentsは、同じ量の外部知識入力において、コンテキストウィンドウ内かそれを超えるかに関わらず、既存の非トレーニング手法を大幅に上回る性能を示しました。さらに、この手法は高い並列性により高い効率を維持しています。外部知識入力の増加に対するLLMエージェントの協調に関するさらなる研究は、実世界のアプリケーションに利益をもたらす可能性があります。
フレーム補間は、与えられた開始フレームと終了フレームに基づいて中間的なビデオシーケンスを合成することを目的としています。現在の最先端の手法は、主に大規模な事前学習済み画像-動画拡散モデル(I2V-DM)を拡張し、終了フレームの制約を直接ファインチューニングやトレーニングの省略によって組み込んでいます。しかし、これらの設計には重要な限界があります。終了フレームの制約の注入は、通常、開始フレーム(単一画像)の制約を課すために元々使用されていたのと同じメカニズムを利用しています。しかし、元のI2V-DMは事前に開始フレームの条件に対して十分にトレーニングされているため、同じメカニズムで終了フレームの制約を導入しても、開始フレームのように中間コンテンツに十分な影響を与えることはできません。この2つのフレームの中間コンテンツに対する非対称的な制御力は、生成されたフレームにおいて一貫性のない動きや外観の崩れを引き起こす可能性があります。 開始フレームと終了フレームの対称的な制約を効率的に達成するために、我々は新しいフレームワーク「Sci-Fi」を提案します。このフレームワークは、より小規模なトレーニングスケールの制約に対してより強力な注入を適用します。具体的には、開始フレームの制約は従来通り扱い、終了フレームの制約は改良されたメカニズムによって導入します。この新しいメカニズムは、終了フレームのみをエンコードし、それを時間的に適応的なフレームごとの特徴に拡張してI2V-DMに注入する、よく設計された軽量モジュール「EF-Net」に基づいています。これにより、終了フレームの制約が開始フレームの制約と同じくらい強力になり、我々のSci-Fiはさまざまなシナリオでより調和のとれた遷移を生成することが可能になります。広範な実験により、Sci-Fiが他のベースラインと比較して優れていることが証明されています。
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模な高品質ビデオを生成しますが、長時間のビデオに対しては処理遅延とメモリコストが過大になります。これを解決するため、我々は新しい分散推論戦略であるDualParalを提案します。核心となるアイデアは、単一のGPUでビデオ全体を生成する代わりに、時間的なフレームとモデル層をGPU間で並列化することです。しかし、この分割を単純に実装すると、拡散モデルがフレーム間で同期されたノイズレベルを必要とするため、元々の並列性が直列化されてしまうという重要な制限が生じます。我々はこれを解決するために、ブロック単位のノイズ除去スキームを活用します。具体的には、ノイズレベルが徐々に減少するフレームブロックのシーケンスをパイプラインで処理します。各GPUは特定のブロックと層のサブセットを処理し、前の結果を次のGPUに渡すことで、非同期の計算と通信を可能にします。さらに性能を最適化するため、2つの重要な改良を組み込みます。まず、各GPUに特徴キャッシュを実装し、前のブロックからの特徴をコンテキストとして保存・再利用することで、GPU間の通信と冗長な計算を最小限に抑えます。次に、調整されたノイズ初期化戦略を採用し、初期ノイズパターンをGPU間で共有することで、グローバルに一貫した時間的ダイナミクスを確保し、追加のリソースコストをかけずに実現します。これらを組み合わせることで、高速でアーティファクトのない、無限に長いビデオ生成が可能になります。最新の拡散Transformerビデオジェネレータに適用した結果、我々の手法は8台のRTX 4090 GPUを使用して1,025フレームのビデオを効率的に生成し、最大6.54倍の低遅延と1.48倍の低メモリコストを実現しました。
ポストトレーニング圧縮は、大規模言語モデル(LLM)の計算コストとメモリコストを削減し、リソース効率の良いデプロイメントを可能にします。しかし、既存の圧縮ベンチマークは言語モデリング(例:パープレキシティ)や自然言語理解タスク(例:GLUE精度)にのみ焦点を当てており、エージェント能力(ワークフロー、ツール使用/関数呼び出し、長文脈理解、実世界アプリケーション)を無視しています。本論文では、圧縮がLLMのエージェント能力に与える影響を評価するための最初の包括的なベンチマークであるAgent Compression Benchmark(ACBench)を紹介します。ACBenchは、(1) 4つの能力にわたる12のタスク(例:ワークフロー生成のためのWorfBench、長文脈検索のためのNeedle-in-Haystack)、(2) 量子化(GPTQ、AWQ)とプルーニング(Wanda、SparseGPT)、(3) 小型(Gemma-2B)、標準(Qwen2.5 7B-32B)、蒸留推論LLM(DeepSeek-R1-Distill)を含む15のモデルをカバーしています。実験結果から、4ビット量子化はワークフロー生成とツール使用を維持(1%-3%の低下)する一方、実世界アプリケーションの精度を10%-15%低下させることが明らかになりました。分析を体系化するために、ERank、Top-k Ranking Correlation、Energyを導入しました。ACBenchは、エージェントシナリオにおけるLLM圧縮の最適化に役立つ実践的な洞察を提供します。コードはhttps://github.com/pprp/ACBenchで公開されています。
近年のマルチモーダル大規模言語モデル(MLLMs)の進展は、テキストや画像などの多様なモダリティを統合する上で有望な結果を示しています。しかし、MLLMsはモダリティバイアスの影響を強く受けており、言語に依存しがちで、視覚入力をはじめとする他のモダリティを十分に活用していないことが指摘されています。本ポジションペーパーでは、MLLMsがモダリティバイアスに深く影響を受けていることを主張します。まず、モダリティバイアスの現状を診断し、さまざまなタスクにおけるその現れ方を明らかにします。次に、MLLMsにおけるモダリティバイアスに関連する体系的な研究ロードマップを提案します。さらに、MLLMsにおけるモダリティバイアスの主要な要因を特定し、それを軽減するための今後の研究に向けた具体的な提言を行います。これらの知見を裏付けるため、各要因の影響を実証する実験を行いました。1. データ特性:言語データはコンパクトで抽象的であるのに対し、視覚データは冗長で複雑であり、学習動態に内在的な不均衡を生み出します。2. 不均衡なバックボーン能力:MLLMsにおける事前学習済み言語モデルの優位性が、言語への過剰依存と視覚情報の軽視を招いています。3. 学習目的:現在の学習目的は、バランスの取れたクロスモーダルアラインメントを促進しにくく、言語に偏ったショートカット学習を引き起こしています。これらの発見は、MLLMsにおいて複数のモダリティをより良く統合するためには、バランスの取れた学習戦略とモデルアーキテクチャが必要であることを強調しています。これらの課題に取り組み、MLLM研究の革新を推進するためには、学際的な取り組みが求められます。本研究は、MLLMsにおけるモダリティバイアスに対する新たな視点を提供し、より堅牢で汎用性の高いマルチモーダルシステムの開発に向けた洞察を提示します。これにより、人工汎用知能(AGI)への進展が促進されることが期待されます。
生物医学研究者は、複雑な分析タスクにおいて大規模な構造化データベースにますます依存しています。しかし、現在のテキストからSQLへの変換システムは、特に暗黙のドメイン推論が必要な場合に、定性的な科学的質問を実行可能なSQLにマッピングするのに苦労することが多いです。本研究では、実世界の生物医学知識ベース上でのテキストからSQL生成における科学的推論を評価するために明示的に設計された最初のベンチマークであるBiomedSQLを紹介します。BiomedSQLは、遺伝子と疾患の関連性、オミクスデータからの因果推論、および医薬品承認記録を統合したBigQuery知識ベースに基づく68,000の質問/SQLクエリ/回答のトリプルで構成されています。各質問は、構文変換だけに頼るのではなく、ゲノムワイドな有意性閾値、効果の方向性、または試験段階のフィルタリングなどのドメイン固有の基準をモデルに推論させる必要があります。我々は、プロンプト戦略とインタラクションパラダイムにわたって、オープンソースおよびクローズドソースのLLMを評価しました。結果は、GPT-o3-miniが59.0%の実行精度を達成し、我々のカスタム多段階エージェントであるBMSQLが62.6%に達するという大きな性能ギャップを明らかにしましたが、どちらも専門家のベースラインである90.0%を大きく下回っています。BiomedSQLは、構造化された生物医学知識ベース上での堅牢な推論を通じて科学的発見を支援できるテキストからSQLへの変換システムを進歩させるための新しい基盤を提供します。我々のデータセットはhttps://huggingface.co/datasets/NIH-CARD/BiomedSQLで公開されており、コードはhttps://github.com/NIH-CARD/biomedsqlでオープンソースとして利用可能です。
大規模言語モデル(LLMs)は強力であるが、静的な知識に起因する幻覚(hallucination)が生じやすい。検索拡張生成(Retrieval-Augmented Generation, RAG)は外部情報を注入することでこれを改善するが、現在の手法はコストが高く、汎化性能が低い、またはモデルの内部知識を無視しがちである。本論文では、LLMが内部知識と外部知識源を適応的に活用するよう訓練するための新しいフレームワーク、R1-Searcher++を提案する。R1-Searcher++は、二段階の訓練戦略を採用している:最初のSFTコールドスタートフェーズで基本的な形式学習を行い、その後、動的知識獲得のための強化学習(RL)を実施する。RLフェーズでは、探索を促進するための結果監視(outcome-supervision)を採用し、内部知識活用のための報酬メカニズムを組み込み、検索された情報を継続的に取り込むための記憶メカニズムを統合することで、モデルの内部知識を豊かにする。内部知識と外部検索エンジンを活用することで、モデルはその能力を継続的に向上させ、効率的な検索拡張推論を可能にする。実験結果は、R1-Searcher++が従来のRAGおよび推論手法を上回り、効率的な検索を実現することを示している。コードはhttps://github.com/RUCAIBox/R1-Searcher-plusで公開されている。
大規模言語モデルは印象的な推論能力を示しているが、その知識リソースに本質的な制限がある。検索拡張推論は、LLMが外部リソースを照会することを可能にすることでこの制限を緩和するが、既存の手法では無関係な情報やノイズの多い情報を取得することが多く、正確な推論を妨げている。本論文では、新しい「思考中に検索し精緻化する」パラダイムを採用した強化学習によるポストトレーニングフレームワークであるAutoRefineを提案する。AutoRefineは、連続する検索呼び出しの間に明示的な知識精緻化ステップを導入し、モデルが回答を生成する前に証拠を反復的にフィルタリング、蒸留、整理することを可能にする。さらに、グループ相対ポリシー最適化を使用して、回答の正確性に対する報酬とともに、検索固有の報酬を組み込む。単一ホップおよびマルチホップのQAベンチマークでの実験により、AutoRefineが既存のアプローチを大幅に上回り、特に複雑なマルチホップ推論シナリオで優れていることが示された。詳細な分析により、AutoRefineが頻繁に高品質な検索を発行し、証拠を効果的に統合していることが明らかになった。
2D画像やビデオ向けの大規模マルチモーダルモデル(LMM)の急速な進歩は、これらのモデルを3Dシーン理解に拡張し、人間のような視覚空間知能を目指す動機となっています。しかしながら、人間の能力に匹敵する深い空間理解を達成することは、モデルのエンコーディングとデータ収集において大きな課題を抱えています。既存の手法は、幾何学情報の取得に外部の深度センサーに依存したり、3Dマップを事前に構築するための既製アルゴリズムを利用したりすることが多く、特に一般的な単眼ビデオ入力や時間制約のあるアプリケーションにおいてスケーラビリティが制限されています。本研究では、3D再構成指令チューニングを組み込んだVision-Languageモデル(VLM)の統一フレームワークであるVLM-3Rを提案します。VLM-3Rは、単眼ビデオフレームを処理するために幾何学エンコーダを使用し、空間理解を表す暗黙的な3Dトークンを導出します。我々のSpatial-Visual-View Fusionと20万以上の精選された3D再構成指令チューニングの質問応答(QA)ペアを活用することで、VLM-3Rは現実世界の空間コンテキストと言語指令を効果的に整合させます。これにより、単眼3D空間支援と具象的推論が可能となります。時間的推論の評価を容易にするために、Vision-Spatial-Temporal Intelligenceベンチマークを導入し、進化する空間関係に焦点を当てた5つの異なるタスクにわたる138.6K以上のQAペアを特徴とします。広範な実験により、我々のモデルVLM-3Rが、堅牢な視覚空間推論を促進するだけでなく、時間的な3Dコンテキストの変化を理解し、精度とスケーラビリティの両方で優れていることが実証されています。
マルチモーダル情報検索(MIR)は、データソースの異質性とクロスモーダルアラインメントの複雑さにより、本質的な課題に直面しています。これまでの研究では、特徴空間におけるモーダルギャップが指摘されてきましたが、これらの課題に対処する体系的なアプローチは未だ探求されていません。本研究では、UNITEという普遍的なフレームワークを導入し、データキュレーションとモーダル対応のトレーニング設定という、重要なながらも未開拓の側面を通じてこれらの課題に取り組みます。本論文では、モーダル固有のデータ特性が多様なシナリオにおける下流タスクの性能にどのように影響するかについて、初めて包括的な分析を提供します。さらに、異なるモーダルのインスタンス間の競合関係を緩和するために、モーダル対応マスク付きコントラスティブラーニング(MAMCL)を提案します。本フレームワークは、複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し、既存の手法を顕著な差で上回りました。広範な実験を通じて、戦略的なモーダルキュレーションと調整されたトレーニングプロトコルが、堅牢なクロスモーダル表現学習において極めて重要であることを実証しました。本研究は、MIRの性能を向上させるだけでなく、マルチモーダルシステムにおける将来の研究のための基礎的な青図を提供します。本プロジェクトはhttps://friedrichor.github.io/projects/UNITEで公開されています。
ターゲット音声抽出(Target Speech Extraction, TSE)は、複数の話者の音声が混ざった状態から、特定の話者の音声を分離することを目的とし、通常は補助音声(cue audio)として提供される話者固有の手がかりを活用します。近年のTSEの進歩は主に識別モデルを中心に進んでおり、高い知覚品質を提供しますが、これらのモデルはしばしば望ましくないアーティファクトを導入し、自然さを損ない、学習環境とテスト環境の不一致に敏感です。一方、TSEのための生成モデルは、知覚品質と明瞭さの点で遅れを取っています。これらの課題に対処するため、我々はSoloSpeechを提案します。これは、圧縮、抽出、再構築、修正のプロセスを統合した新しいカスケード型生成パイプラインです。SoloSpeechは、cue audioの潜在空間からの条件情報を利用し、混合音声の潜在空間と整合させることでミスマッチを防ぐ、話者埋め込み不要のターゲット抽出器を特徴としています。広く使用されているLibri2Mixデータセットで評価された結果、SoloSpeechはターゲット音声抽出および音声分離タスクにおいて、新たな最先端の明瞭さと品質を達成し、ドメイン外データや実世界のシナリオにおいても優れた汎化性能を示しました。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、その能力は大幅に向上している。しかし、空間知覚能力は依然として顕著な制限となっている。この課題に対処するため、マルチモーダルデータ合成は有望な解決策を提供する。ただし、合成されたデータが空間的常識に従うことを保証することは容易な作業ではない。本研究では、知識からデータ生成という概念に基づき、空間知識グラフに導かれた新しいマルチモーダル合成アプローチであるSKG2Dataを紹介する。SKG2Dataは、人間のような空間的方向と距離の知覚を模倣するために空間知識グラフ(SKG)を自動的に構築し、その後、マルチモーダルデータ合成を導くために利用する。広範な実験により、方向や距離を含む多様なタイプの空間知識から合成されたデータは、MLLMの空間知覚と推論能力を向上させるだけでなく、強い汎化能力を示すことが実証された。知識に基づくデータ合成のアイデアが、空間知能の発展を促進することを期待する。
仮想試着(VTON)システムがターゲット人物画像に衣類をレンダリングすることを目指す一方で、本論文はその逆の問題、すなわち、着用された個人の実世界の写真から衣類の標準化された製品画像を生成するという新たなタスクである仮想脱着(VTOFF)に取り組む。VTONが多様なポーズやスタイルのバリエーションを解決しなければならないのに対し、VTOFFは一貫性があり明確に定義された出力形式(通常、衣類の平置きスタイルの表現)を利用できるため、データ生成やデータセットの強化において有望なツールとなっている。しかし、既存のVTOFFアプローチには2つの大きな課題がある:(i) 遮蔽や複雑なポーズから衣類の特徴を分離する難しさにより、視覚的なアーティファクトが生じることが多い、(ii) 単一カテゴリの衣類(例:上半身の衣服のみ)に適用が限定され、汎化が制限される。これらの課題に対処するため、我々はテキスト強化型多カテゴリ仮想脱着(TEMU-VTOFF)を提案する。これは、頑健な衣類特徴抽出のための改良されたマルチモーダル注意機構を備えたデュアルDiTベースのバックボーンを特徴とする新たなアーキテクチャである。我々のアーキテクチャは、画像、テキスト、マスクなどの複数のモダリティから衣類情報を受け取り、多カテゴリ設定で動作するように設計されている。さらに、生成された視覚的詳細をさらに洗練するための追加のアライメントモジュールを提案する。VITON-HDおよびDress Codeデータセットでの実験により、TEMU-VTOFFがVTOFFタスクにおいて新たな最先端を確立し、視覚品質とターゲット衣類への忠実度を大幅に向上させることが示された。
大規模言語モデルの能力と主体性が向上するにつれ、レッドチーミングを通じて脆弱性を特定することが安全な展開において重要となっています。しかし、レッドチーミングが弱い側から強い側への問題に変わり、ターゲットモデルがレッドチームの能力を上回るようになると、従来のプロンプトエンジニアリング手法は効果を失う可能性があります。この変化を研究するため、我々は攻撃者とターゲットの間の能力差という観点からレッドチーミングを捉え直します。多様なファミリー、サイズ、能力レベルにわたる人間のレッドチームを模倣したLLMベースのジェイルブレイク攻撃を用いて、500以上の攻撃者-ターゲットペアを評価しました。そこから3つの強い傾向が明らかになりました:(i) 能力の高いモデルほど優れた攻撃者となる、(ii) ターゲットの能力が攻撃者を上回ると攻撃成功率が急激に低下する、(iii) 攻撃成功率はMMLU-Proベンチマークの社会科学分野での高いパフォーマンスと相関する。これらの傾向から、攻撃者-ターゲット間の能力差に基づいて固定されたターゲットに対する攻撃成功率を予測するジェイルブレイクのスケーリング則を導出しました。これらの発見は、固定能力の攻撃者(例:人間)が将来のモデルに対して無力になる可能性があること、ますます能力が高まるオープンソースモデルが既存システムのリスクを増幅すること、そしてモデル提供者が説得力や操作能力を正確に測定・制御して攻撃者としての有効性を制限する必要があることを示唆しています。
デジタルフォレンジックスとインシデントレスポンス(DFIR)は、法的調査を支援するためにデジタル証拠を分析することを含む。大規模言語モデル(LLM)は、ログ分析やメモリフォレンジックスなどのDFIRタスクにおいて新たな機会を提供するが、エラーや幻覚に対する脆弱性が高リスクの文脈で懸念を引き起こす。関心が高まる中、理論的および実践的なDFIR領域にわたってLLMを評価する包括的なベンチマークは存在しない。このギャップを埋めるため、我々はDFIR-Metricを提案する。このベンチマークは3つのコンポーネントで構成される:(1) 知識評価:業界標準の認定資格や公式ドキュメントから収集した700問の専門家レビュー済み多肢選択問題、(2) 現実的なフォレンジック課題:多段階推論と証拠相関をテストする150のCTFスタイルタスク、(3) 実践的分析:NISTコンピュータフォレンジックツールテストプログラム(CFTT)からの500のディスクおよびメモリフォレンジックケース。我々はDFIR-Metricを使用して14のLLMを評価し、その精度と試行間の一貫性を分析した。また、ほぼゼロの精度を達成するシナリオにおいてモデルをより効果的に評価するために、タスク理解スコア(TUS)という新しい指標を導入した。このベンチマークは、デジタルフォレンジックスにおけるAIの進歩のための厳密で再現可能な基盤を提供する。すべてのスクリプト、アーティファクト、結果はプロジェクトウェブサイトhttps://github.com/DFIR-Metricで公開されている。
生成モデルの急速な進展に伴い、汎用生成は、単一システム内で多様なモダリティにわたるタスクを統合する有望なアプローチとして、ますます注目を集めています。しかし、この進歩にもかかわらず、既存のオープンソースフレームワークはしばしば脆弱であり、構造化されたワークフロープランニングと実行レベルのフィードバックの欠如により、複雑な現実世界のアプリケーションをサポートするのに苦労しています。これらの制限に対処するため、我々はComfyUIプラットフォーム上に構築された、堅牢でスケーラブルな汎用生成を可能にする協調型AIシステムであるComfyMindを提案します。ComfyMindは、2つの核心的な革新を導入しています。1つ目は、低レベルのノードグラフを自然言語で記述された呼び出し可能な機能モジュールに抽象化し、高レベルの構成を可能にし構造的エラーを減少させるSemantic Workflow Interface (SWI)です。2つ目は、生成を階層的な意思決定プロセスとしてモデル化し、各段階での適応的修正を可能にする、局所的なフィードバック実行を伴うSearch Tree Planningメカニズムです。これらのコンポーネントが連携することで、複雑な生成ワークフローの安定性と柔軟性が向上します。我々はComfyMindを、生成、編集、推論タスクにわたる3つの公開ベンチマーク(ComfyBench、GenEval、Reason-Edit)で評価しました。結果は、ComfyMindが既存のオープンソースベースラインを一貫して上回り、GPT-Image-1に匹敵する性能を達成することを示しています。ComfyMindは、オープンソースの汎用生成AIシステムの開発において有望な道を切り開いています。プロジェクトページ: https://github.com/LitaoGuo/ComfyMind
Vision-Language Model (VLM) ベースのWebエージェントは、ウェブサイトとの人間のようなインタラクションをシミュレートすることで、複雑なタスクの自動化に向けた重要な一歩を表しています。しかし、制御されていないウェブ環境での展開は、重大なセキュリティ脆弱性を引き起こします。既存の研究における敵対的環境注入攻撃は、直接的なHTML操作、ユーザー意図の知識、またはエージェントモデルのパラメータへのアクセスといった非現実的な仮定に依存することが多く、実用性が制限されています。本論文では、インターネット広告配信を利用してWebエージェントの環境に悪意のあるコンテンツを注入する、新規で現実的なブラックボックス攻撃手法であるAdInjectを提案します。AdInjectは、ブラックボックスエージェント、静的な悪意のあるコンテンツの制約、およびユーザー意図の特定の知識を仮定しない、従来の研究よりもはるかに現実的な脅威モデルの下で動作します。AdInjectには、エージェントをクリックさせることを目的とした悪意のある広告コンテンツの設計戦略と、ターゲットウェブサイトのコンテキストから潜在的なユーザー意図を推論し、これらの意図を広告コンテンツに統合してエージェントのタスクにとってより関連性が高くまたは重要なものに見せるVLMベースの広告コンテンツ最適化技術が含まれています。これにより、攻撃の効果が向上します。実験的評価により、AdInjectの有効性が示され、ほとんどのシナリオで60%を超え、特定のケースでは100%に近い攻撃成功率が達成されました。これは、広く普及している広告配信が、Webエージェントに対する環境注入攻撃の強力で現実的なベクトルであることを強く示しています。この研究は、現実世界の環境操作チャネルから生じるWebエージェントのセキュリティにおける重大な脆弱性を浮き彫りにし、そのような脅威に対する堅牢な防御メカニズムの開発が急務であることを強調しています。私たちのコードはhttps://github.com/NicerWang/AdInjectで公開されています。
最先端のテキストからモーション生成モデルは、HumanML3Dによって普及したキネマティクスを考慮した局所相対モーション表現に依存しています。これは、骨盤と前フレームに対する相対的なモーションを組み込みの冗長性とともにエンコードするものです。この設計は初期の生成モデルのトレーニングを簡素化しますが、拡散モデルにとって重要な制限を導入し、下流タスクへの適用性を妨げます。本研究では、モーション表現を再検討し、テキストからモーション生成のための根本的に簡素化され、長らく放棄されていた代替案を提案します:グローバル空間における絶対関節座標です。設計選択の体系的な分析を通じて、この定式化が、単純なTransformerバックボーンと補助的なキネマティクスを考慮した損失なしでも、大幅に高いモーション忠実度、改善されたテキストアラインメント、および強力なスケーラビリティを達成することを示します。さらに、この定式化は、追加のタスク固有の再設計や制御信号からの高コストな分類器ガイダンス生成なしで、テキスト駆動のモーション制御や時間的/空間的編集などの下流タスクを自然にサポートします。最後に、テキストから直接SMPL-Hメッシュ頂点をモーションとして生成する有望な一般化を示し、将来の研究とモーション関連アプリケーションのための強固な基盤を築きます。
ビジョン・ランゲージモデル(VLMs)は多様なタスクで優れた性能を発揮するが、推論時の時間とメモリのコストが高いという課題を抱えている。トークンのスパース性はトークン使用の非効率性を緩和し、ニューロンのスパース性は高次元計算を削減することで、効率性向上の有望な解決策を提供する。これまで、これら二つのスパース性のパラダイムは並行して進化し、互いに独立して機能するという一般的な仮説が支持されてきた。しかし、根本的でありながら未解明の疑問が残されている:これらは本当に孤立して動作するのか、それともまだ明らかにされていない深い相互作用が存在するのか?本論文では、この疑問に対する初めての包括的な調査を行った。コアニューロンとコアトークンの間のマッチングメカニズムを導入し分析することで、推論における重要なニューロンとトークンが相互に影響を与え、強化し合うことを発見した。この知見に基づき、トークンとニューロンのスパース性の相乗効果を活用して推論効率を向上させる共適応型スパース推論フレームワーク「CoreMatching」を提案する。理論分析と効率評価を通じて、提案手法が10の画像理解タスクと3つのハードウェアデバイスにおいて最先端のベースラインを上回ることを実証した。特に、NVIDIA Titan Xpでは、FLOPsを5倍削減し、全体の速度を10倍向上させた。コードはhttps://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/mainで公開されている。
DeepSeek-R1は、安定した強化学習(RL)を通じて、テキスト領域において強力な推論能力を実証してきました。最近では、マルチモーダル領域において、Visual Question Answering(VQA)タスクに対してR1のような自由形式の推論を直接生成するためにRLを適用する研究が始まっています。しかし、マルチモーダルタスクは、問題を解決するために入力画像の理解に大きく依存するという点で、テキストタスクとは本質的に異なる性質を共有しています。そのため、VQAタスクにおいて、このような自由形式の推論は2つの重大な制限に直面しています:(1)拡張された推論チェーンが、タスクの重要な領域から視覚的焦点を拡散させ、回答精度を低下させる。(2)検証不可能な中間ステップが、ポリシー勾配の分散と計算コストのオーバーヘッドを増幅する。これらの問題に対処するため、本論文では、SATORI(Spatially Anchored Task Optimization with ReInforcement Learning)を提案します。SATORIは、VQAを、グローバルな画像キャプション生成、領域のローカライゼーション、回答予測という3つの検証可能な段階に分解し、それぞれが明示的な報酬信号を提供します。さらに、トレーニングを促進するために、回答に整合したキャプションとバウンディングボックスが注釈付けされた12kのデータセットであるVQA-Verifyも導入します。実験では、7つのVQAベンチマークにおいて一貫した性能向上が実証され、R1のようなベースラインと比較して最大15.7%の精度向上を達成しました。注意マップの分析により、重要な領域への焦点が強化され、精度の向上がもたらされることが確認されました。私たちのコードはhttps://github.com/justairr/SATORI-R1で公開されています。
Mixture-of-experts(MoE)アーキテクチャは、大規模言語モデル(LLMs)を膨大なパラメータ数にスケーリングすることを可能にし、計算コストの比例的な増加を伴わない。しかし、大規模なMoEモデルのメモリ需要は、クラウドサーバーから消費者向けデバイスまで、さまざまな計算環境での展開を妨げている。本研究では、まずMoE層内の専門家活性化パターンに顕著なタスク固有の特化が存在することを示す。これに基づいて、メモリ制約のある環境での大規模MoEモデルの効率的な展開を可能にする新しいフレームワークであるPreMoeを提案する。PreMoeは、確率的専門家プルーニング(PEP)とタスク適応型専門家検索(TAER)という2つの主要なコンポーネントを特徴とする。PEPは、ルーターのロジットから導出されたタスク条件付き期待選択スコア(TCESS)という新しいメトリックを使用し、特定のタスクに対する専門家の重要性を定量化し、最小限の重要な専門家セットを特定する。TAERは、これらのタスク固有の専門家重要度プロファイルを活用して効率的な推論を実現する。TAERは、多様なタスクに対するコンパクトな専門家パターンを事前に計算し保存する。ユーザークエリを受信すると、TAERは最も関連性の高い保存済みタスクパターンを迅速に特定し、そのタスクに不可欠な専門家の小さなサブセットのみをロードしてモデルを再構築する。このアプローチにより、すべての展開シナリオでのメモリ使用量が大幅に削減される。DeepSeek-R1 671Bは、8/128構成(50%の専門家削減)にプルーニングされた場合、MATH500で97.2%の精度を維持し、さらに積極的な8/32プルーニング(87.5%の専門家削減)でも72.0%の精度を達成する。Pangu-Ultra-MoE 718Bは、8/128プルーニングでMATH500で97.15%、AIME24で81.3%の精度を達成し、さらに積極的な4/64プルーニング(390GBメモリ)でもMATH500で96.95%の精度を維持する。我々は、コードをhttps://github.com/JarvisPei/PreMoeで公開している。
本研究では、強化学習(RL)を用いてマルチモーダル大規模言語モデル(MLLM)の推論能力を促進し、RL中のスパース報酬とアドバンテージ消失の問題を緩和する効果的なアプローチを開発することを目指しています。この目的のために、拡張された質問空間上で多様な推論軌跡を探索・共有することでこれらの問題に対処する新しいRLアプローチであるShare-GRPOを提案します。具体的には、Share-GRPOはまずデータ変換技術を用いて与えられた質問の質問空間を拡張し、その後MLLMが拡張された質問空間上で効果的に多様な推論軌跡を探索し、RL中に発見された推論軌跡を拡張された質問間で共有することを促します。さらに、Share-GRPOはアドバンテージ計算中に報酬情報も共有し、質問バリアント間および質問バリアント内で階層的に解のアドバンテージを推定することで、相対的なアドバンテージのより正確な推定を可能にし、ポリシー訓練の安定性を向上させます。6つの広く使用されている推論ベンチマークでの大規模な評価により、本手法の優れた性能が示されています。コードはhttps://github.com/HJYao00/R1-ShareVLで公開予定です。
モデルの予測に対する不確実性の源を理解することは、人間とAIの効果的な協力にとって重要である。これまでの研究では、数値的な不確実性やヘッジ表現(「確信はありませんが...」など)を用いることが提案されてきたが、これらは対立する証拠から生じる不確実性を説明せず、ユーザーが意見の相違を解決したり出力を信頼したりすることを妨げている。本研究では、CLUE(Conflict-and-Agreement-aware Language-model Uncertainty Explanations)を導入する。これは、(i) モデルの予測的不確実性を駆動する主張と証拠、または証拠間の対立や一致を明らかにするテキストスパン間の関係を教師なしで特定し、(ii) これらの重要な相互作用を言語化する説明をプロンプティングとアテンション・ステアリングによって生成する、初めてのフレームワークである。3つの言語モデルと2つのファクトチェックデータセットを用いた実験を通じて、CLUEが生成する説明は、スパン間相互作用のガイダンスなしで不確実性の説明を求める場合と比べて、モデルの不確実性により忠実で、ファクトチェックの決定とより一貫していることを示す。人間の評価者は、我々の説明がより役立ち、情報量が多く、冗長性が少なく、入力と論理的に一貫していると判断した。CLUEは、ファインチューニングやアーキテクチャの変更を必要とせず、任意のホワイトボックス言語モデルにプラグアンドプレイで適用可能である。不確実性を証拠の対立に明示的に結びつけることで、ファクトチェックを実践的に支援し、複雑な情報に基づく推論を必要とする他のタスクにも容易に一般化できる。
組合せ最適化問題に対する動的計画法(DP)アルゴリズムは、最大化、最小化、および古典的な加算を再帰アルゴリズム内で扱います。関連する価値関数は、max-plus半環における凸多面体に対応します。しかし、既存のニューラルアルゴリズム推論モデルは、ソフトマックス正規化されたドット積アテンションに依存しており、滑らかな指数重み付けがこれらの鋭い多面体構造をぼやかし、分布外(OOD)設定で評価すると崩壊してしまいます。本論文では、トロピカル幾何学のmax-plus半環でネイティブに動作する新しいアテンション関数であるTropical attentionを導入します。Tropical attentionがDP型組合せアルゴリズムのトロピカル回路を近似できることを証明します。さらに、Tropical transformerを使用することで、アルゴリズム推論タスクにおける長さ一般化と値一般化の両方で、ソフトマックスベースラインを上回りながら、敵対的攻撃下でも安定したOOD性能が向上することを提案します。また、ニューラルアルゴリズム推論のベンチマークにおける第三の軸として、敵対的攻撃一般化を提示します。我々の結果は、Tropical attentionがソフトマックスから失われた鋭くスケール不変な推論を回復することを示しています。
大規模言語モデル(LLM)は、特に分子科学分野において、科学的発見のための強力なツールとしてますます認識されています。これらのモデルにとって基本的な要件は、SMILES表現として一般的に符号化される分子構造を正確に理解する能力です。しかし、現在のLLMはSMILESの解釈に苦戦しており、分子環の数を数えるといった基本的なタスクさえも実行できません。この制限に対処するため、我々はCLEANMOLを導入します。これは、グラフレベルの分子理解を促進するために明示的に設計された、クリーンで決定論的なタスクのスイートとしてSMILES解析を定式化する新しいフレームワークです。これらのタスクは、サブグラフマッチングからグローバルグラフマッチングまで及び、分子構造特性に沿った構造化された監督を提供します。我々は、適応的難易度スコアリングを用いた分子事前学習データセットを構築し、これらのタスクでオープンソースのLLMを事前学習させます。結果は、CLEANMOLが構造理解を強化するだけでなく、Mol-Instructionsベンチマークにおいてベースラインと同等かそれ以上の性能を達成することを示しています。
検索拡張生成(Retrieval Augmented Generation)は、外部コーパスから取得した文章をLLM(大規模言語モデル)のプロンプトに追加することで、その精度を向上させる手法です。本論文では、位置バイアス(LLMがプロンプト内の情報の位置に基づいて異なる重み付けを行う傾向)が、関連する文章を活用するLLMの能力だけでなく、注意をそらす文章に対する感受性にもどのように影響するかを調査します。3つのベンチマークを用いた広範な実験を通じて、最先端の検索パイプラインが関連する文章を取得しようとする一方で、高い頻度で注意をそらす文章を上位ランクに持ってくることを明らかにしました。具体的には、60%以上のクエリにおいて、上位10件の取得文章の中に少なくとも1つの高度に注意をそらす文章が含まれていました。その結果、制御された環境では関連研究によって非常に顕著と報告されることが多いLLMの位置バイアスの影響は、実際のシナリオでは限定的であることが分かりました。これは、関連する文章と注意をそらす文章の両方が同様にペナルティを受けるためです。実際、LLMの位置的な選好に基づいて文章を再配置しようとする高度な戦略は、ランダムなシャッフルと比べて優れた性能を示さないことが、我々の研究結果から明らかになりました。
Vision Transformers (ViTs)は、視覚処理タスクにおける主要なアーキテクチャとして台頭し、トレーニングデータとモデルサイズの増加に伴う優れたスケーラビリティを実証しています。しかし、最近の研究では、ViTsにおいて局所的なセマンティクスと整合しないアーティファクトトークンが発生することが指摘されています。これらの異常なトークンは、細粒度のローカライゼーションや構造的一貫性を必要とするタスクにおいてViTの性能を低下させます。この問題を効果的に緩和するために、ViTsにレジスタートークンを追加し、トレーニング中に暗黙的にアーティファクトを「吸収」させる方法が提案されています。大規模な事前学習済みViTsが利用可能であることを踏まえ、本論文では、それらを再トレーニングすることなくレジスタートークンを装備することを目指します。特に、Post Hoc Registers (PH-Reg)を提案します。これは、追加のラベルデータや完全な再トレーニングを必要とせずに、既存のViTにレジスタートークンを統合する効率的な自己蒸留法です。PH-Regは、教師ネットワークと生徒ネットワークの両方を同じ事前学習済みViTから初期化します。教師ネットワークは凍結され変更されませんが、生徒ネットワークにはランダムに初期化されたレジスタートークンが追加されます。教師ネットワークの入力にテストタイムアグメンテーションを適用することで、アーティファクトのないノイズ除去された密な埋め込みを生成し、それを用いて生徒ネットワークの一部の重みのみを最適化します。本手法がアーティファクトトークンの数を効果的に削減し、ゼロショットおよび線形プローブ条件下での生徒ViTのセグメンテーションと深度予測を改善できることを示します。
タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場しました。しかし、単一の事前学習タスクに焦点を当てることで、PLMがタンパク質配列の情報を完全に捕捉する能力は制限される可能性があります。データモダリティや教師あり目的を追加することでPLMの性能を向上させることができますが、事前学習はしばしばノイズの多い配列の復元に焦点を当てたままです。PLMの限界を押し広げるため、我々の研究ではマルチタスク事前学習戦略を調査しました。我々はAnkh3を開発し、複数のマスキング確率を用いたマスク言語モデリングと、タンパク質配列のみを入力とするタンパク質配列補完という2つの目的を共同で最適化しました。このマルチタスク事前学習により、PLMがタンパク質配列のみからより豊かで汎用性の高い表現を学習できることが実証されました。その結果、二次構造予測、蛍光、GB1フィットネス、接触予測などの下流タスクにおいて性能が向上しました。複数のタスクを統合することで、モデルはタンパク質の特性をより包括的に理解し、より頑健で正確な予測を実現しました。
タンパク質間相互作用(PPI)は、数多くの細胞プロセスにおいて基本的な役割を果たしており、その特性を明らかにすることは、疾患のメカニズムを理解し、創薬を導く上で極めて重要です。タンパク質言語モデル(PLM)は、タンパク質の構造や機能の予測において顕著な成功を収めてきましたが、配列ベースのPPI結合親和性予測への応用はまだ十分に探求されていません。このギャップは、高品質で厳密に精選されたデータセットの不足や、タンパク質表現を単純に連結する戦略に依存していることが原因とされています。本研究では、これらの制約に対処します。まず、アノテーションの不整合や多鎖タンパク質相互作用の重複エントリを解決し、合計8,207のユニークなPPIエントリを含むPPB-Affinityデータセットの厳選版を導入します。このデータセットは、30%以下の配列同一性閾値を採用し、トレーニング、検証、テストセットへの堅牢な分割を保証し、データ漏洩を最小限に抑えます。次に、PLMをPPI結合親和性予測に適応させるための4つのアーキテクチャを提案し、体系的に評価します。これらは、埋め込み連結(EC)、配列連結(SC)、階層的プーリング(HP)、およびプールされた注意追加(PAD)です。これらのアーキテクチャは、フルファインチューニングと、凍結されたPLM特徴量上にConvBERTヘッドを適用する軽量アプローチという2つのトレーニング方法を用いて評価されました。複数の主要なPLM(ProtT5、ESM2、Ankh、Ankh2、ESM3)にわたる包括的な実験により、HPおよびPADアーキテクチャが従来の連結方法を一貫して上回り、Spearman相関係数で最大12%の向上を達成することが示されました。これらの結果は、微妙なPPI結合親和性予測においてPLMの能力を最大限に活用するためには、洗練されたアーキテクチャ設計が必要であることを強調しています。
神経変性性認知症の鑑別診断は、症状の重複や構造的ニューロイメージングで観察されるパターンの類似性から、臨床的に困難な課題です。診断効率と精度を向上させるため、畳み込みニューラルネットワークやVision Transformerなどの深層学習ベースの手法が、脳MRIの自動分類に提案されています。しかし、これらのモデルは高い予測性能を持つにもかかわらず、意思決定の不透明さから臨床的有用性が限られています。本研究では、診断の透明性を高めるために2つのコアコンポーネントを統合したフレームワークを提案します。まず、3D T1強調脳MRIをテキスト形式の放射線科レポートに変換するモジュール型パイプラインを導入します。次に、生成されたレポートに基づいて、前頭側頭型認知症のサブタイプ、アルツハイマー病、および正常な加齢を鑑別診断する際に、現代の大規模言語モデル(LLM)が臨床医を支援する可能性を探ります。予測精度と説明可能性のギャップを埋めるため、強化学習を用いてLLMに診断推論を促します。教師ありの推論トレースや大規模モデルからの蒸留を必要とせず、ニューロイメージング所見に基づいた構造化された診断根拠が自然に生まれるアプローチを採用しています。モデルの決定を事後的に正当化するポストホックな説明可能性手法とは異なり、本フレームワークは推論プロセスの一部として診断根拠を生成します。これにより、モデルの意思決定プロセスを情報提供し導く因果的根拠に基づいた説明が可能となります。このようにして、本フレームワークは既存の深層学習手法と同等の診断性能を維持しつつ、診断結論を支持する根拠を提供します。