翻訳付きの日次キュレーションされたAI研究論文
我々はFlowRLを提案する:大規模言語モデル(LLM)の強化学習(RL)において、報酬の最大化ではなく、フローバランスを通じて完全な報酬分布を一致させる手法である。最近の高度な推論モデルは報酬最大化手法(例:PPOやGRPO)を採用しているが、これらは支配的な報酬信号を過剰に最適化し、頻度は低いが有効な推論経路を無視する傾向があり、多様性を低下させている。対照的に、我々はスカラー報酬を学習可能な分割関数を用いて正規化された目標分布に変換し、ポリシーと目標分布の間の逆KLダイバージェンスを最小化する。このアイデアを、多様な探索と汎用的な推論軌跡を促進するフローバランス最適化手法として実装する。数学とコード推論タスクで実験を行った結果、FlowRLは数学ベンチマークでGRPOに対して10.0%、PPOに対して5.1%の平均的な改善を達成し、コード推論タスクでも一貫して優れた性能を示した。これらの結果は、LLM強化学習における効率的な探索と多様な推論に向けた鍵となるステップとして、報酬分布のマッチングが重要であることを強調している。
Vision-Language Models(VLM)は、GUIを自律的に操作するコンピュータ利用エージェント(CUA)を可能にし、大きな可能性を示していますが、大規模なオープンソースのコンピュータ利用データと基盤モデルの不足により進展が制限されています。本研究では、オープンソースCUAのスケーリングに向けた一歩として、ScaleCUAを紹介します。ScaleCUAは、6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模データセットを提供し、自動化エージェントと人間の専門家を統合した閉ループパイプラインを通じて構築されています。このスケールアップされたデータでトレーニングされたScaleCUAは、プラットフォームをまたいでシームレスに動作することができます。具体的には、ベースラインを大幅に上回る成果(WebArena-Lite-v2で+26.6、ScreenSpot-Proで+10.7)を示し、新たな最先端の結果(MMBench-GUI L1-Hardで94.4%、OSWorld-Gで60.6%、WebArena-Lite-v2で47.4%)を達成しました。これらの結果は、汎用コンピュータ利用エージェントにおけるデータ駆動型スケーリングの力を強調しています。今後の研究を進めるため、データ、モデル、コードを公開します:https://github.com/OpenGVLab/ScaleCUA。
大規模言語モデル(LLM)は、多様な現実世界のシナリオでますます活用されており、各シナリオはユーザーや組織によってカスタマイズされた独自の行動および安全性仕様(spec)によって管理されています。これらの仕様は、安全性仕様(safety-spec)と行動仕様(behavioral-spec)に分類され、シナリオごとに異なり、変化する好みや要件に応じて進化します。我々はこの課題を仕様アライメントとして形式化し、LLMが行動と安全性の両面から動的でシナリオ固有の仕様に従う能力に焦点を当てます。この課題に対処するため、我々はAlign3を提案します。これは、階層的な反省と修正を伴うテストタイム熟考(Test-Time Deliberation, TTD)を用いて仕様の境界を推論する軽量な手法です。さらに、仕様アライメントを測定するための統一ベンチマークであるSpecBenchを提示します。SpecBenchは5つのシナリオ、103の仕様、1,500のプロンプトをカバーしています。15の推論モデルと18の指示モデルを用いた実験では、Self-Refine、TPO、MoreThinkなどの複数のTTD手法を適用し、以下の3つの主要な知見を得ました:(i) テストタイム熟考は仕様アライメントを向上させる、(ii) Align3は最小限のオーバーヘッドで安全性と有用性のトレードオフのフロンティアを進展させる、(iii) SpecBenchはアライメントのギャップを効果的に明らかにする。これらの結果は、現実世界の仕様境界を推論するための効果的な戦略としてのテストタイム熟考の可能性を強調しています。
本論文では、画像、動画、3Dアセットにおいて高忠実度再構成と意味理解の両方を実現する初の統合ビジュアルトークナイザーであるATokenを提案する。既存のトークナイザーが単一モダリティにおける再構成または理解のいずれかに特化しているのに対し、ATokenはこれらの多様な視覚入力を共有の4D潜在空間に符号化し、両タスクとモダリティを単一フレームワークに統合する。具体的には、任意の解像度と時間長の視覚入力を処理するために、4D回転位置埋め込みを備えた純粋なトランスフォーマーアーキテクチャを導入する。安定した学習を確保するため、知覚損失とグラム行列損失を組み合わせた敵対的フリーの学習目的関数を導入し、最先端の再構成品質を達成する。段階的な学習カリキュラムを採用することで、ATokenは単一画像、動画、3Dから徐々に拡張し、連続的および離散的な潜在トークンの両方をサポートする。ATokenは、画像において0.21 rFIDと82.2%のImageNet精度、動画において3.01 rFVDと32.6%のMSRVTT検索精度、3Dにおいて28.19 PSNRと90.9%の分類精度を達成する。下流アプリケーションにおいて、ATokenは視覚生成タスク(例:連続的および離散的トークンを用いた画像生成、テキストから動画生成、画像から3D合成)と理解タスク(例:マルチモーダルLLM)の両方を可能にし、全てのベンチマークで競争力のある性能を達成する。これらの結果は、統合ビジュアルトークン化に基づく次世代マルチモーダルAIシステムの可能性を示唆するものである。
大規模言語モデル(LLM)は、検証可能な報酬からの強化学習(RLVR)を用いて訓練されることが増えていますが、実世界での展開では、ラベルや外部の評価者なしに自己改善できるモデルが求められています。既存のラベルフリー手法、例えば信頼度最小化、自己一貫性、または多数決目的関数は、学習を安定化させますが、探索を徐々に縮小させ、エントロピーの崩壊を引き起こします。生成されるテキストは短く、多様性がなく、脆くなります。従来のアプローチであるテストタイム強化学習(TTRL)とは異なり、我々の目標はより広範です。即時のラベルなしデータセットに適応するだけでなく、モデルの本来の探索能力と汎化能力、すなわち進化を犠牲にすることなく、一般的な改善を可能にすることです。この問題を形式化し、ラベルフリー設定において安定性と変動を結びつけるシンプルなルールであるEVolution-Oriented and Label-free Reinforcement Learning(EVOL-RL)を提案します。EVOL-RLは、多数決された答えを安定したアンカー(選択)として保持しつつ、既に生成されたものとは異なる推論を持つ回答を好む新奇性を意識した報酬を追加します(変動)。これは意味空間で測定されます。GRPOを用いて実装されたEVOL-RLは、強い信号を保持するための非対称クリッピングと、探索を維持するためのエントロピー正則化も使用します。この多数決による選択+新奇性による変動の設計は、崩壊を防ぎ、より長く情報量の多い思考の連鎖を維持し、pass@1とpass@nの両方を改善します。EVOL-RLは、多数決のみのTTRLベースラインを一貫して上回ります。例えば、ラベルフリーのAIME24で訓練すると、Qwen3-4B-BaseのAIME25 pass@1はTTRLの4.6%から16.4%に、pass@16は18.5%から37.9%に向上します。EVOL-RLは多様性の崩壊を防ぐだけでなく、ドメイン間でのより強い汎化(例えばGPQA)も可能にします。さらに、EVOL-RLはRLVR設定でも性能を向上させることを示し、その幅広い適用性を強調します。
最近のビデオ拡散モデルは、その豊富な潜在世界事前分布により、空間知能タスクにおいて強い可能性を示しています。しかし、この可能性は制御性の低さと幾何学的不整合によって阻まれており、強力な事前分布と3D/4Dタスクでの実用的な使用との間にギャップが生じています。その結果、現在のアプローチでは再学習やファインチューニングに依存することが多く、事前学習された知識の劣化リスクや高い計算コストが発生しています。この問題に対処するため、我々はWorldForgeを提案します。これは、訓練不要の推論時フレームワークであり、密接に連携した3つのモジュールで構成されています。Intra-Step Recursive Refinementは、推論中に再帰的な最適化メカニズムを導入し、各ノイズ除去ステップ内でネットワークの予測を繰り返し最適化することで、正確な軌道注入を可能にします。Flow-Gated Latent Fusionは、オプティカルフローの類似性を活用して、潜在空間内で動きと外観を分離し、動き関連のチャネルに選択的に軌道ガイダンスを注入します。Dual-Path Self-Corrective Guidanceは、ガイドありとガイドなしのノイズ除去パスを比較し、ノイズの多いまたは不整合な構造信号によって引き起こされる軌道ドリフトを適応的に補正します。これらのコンポーネントを組み合わせることで、訓練なしに細粒度の軌道整合ガイダンスを注入し、正確な動き制御とフォトリアルなコンテンツ生成を両立します。多様なベンチマークにわたる広範な実験により、我々の手法がリアリズム、軌道一貫性、視覚的忠実度において優れていることが検証されました。この研究は、制御可能なビデオ合成のための新しいプラグアンドプレイパラダイムを導入し、空間知能のための生成事前分布の活用に新たな視点を提供します。
検索は、LLMベースのエージェントの中核インフラとして台頭し、より一般的な知能への道において不可欠であると広く認識されています。金融は特に要求の厳しい実証の場です:アナリストは、時間に敏感でドメイン固有のデータに対して複雑で多段階の検索を日常的に行うため、検索能力と知識に基づく推論の両方を評価するのに理想的です。しかし、既存のオープンな金融データセットでは、エンドツーエンドのエージェントのデータ検索能力を評価するものはありません。これは、現実的で複雑なタスクを構築するには深い金融の専門知識が必要であり、時間に敏感なデータを評価することが難しいためです。本論文では、現実的でオープンドメインの金融検索と推論のための最初の完全オープンソースのエージェントベンチマークであるFinSearchCompを紹介します。FinSearchCompは、現実世界の金融アナリストのワークフローを忠実に再現する3つのタスク——時間に敏感なデータ取得、簡単な過去の検索、複雑な過去の調査——で構成されています。難易度と信頼性を確保するため、70人の専門金融アナリストによる注釈を行い、厳格な多段階品質保証パイプラインを実装しました。このベンチマークには、グローバル市場と大中華圏市場にまたがる635の質問が含まれており、21のモデル(製品)を評価しました。Grok 4(ウェブ)はグローバルサブセットでトップとなり、専門家レベルの精度に近づきました。DouBao(ウェブ)は大中華圏サブセットでリードしました。実験分析により、エージェントにウェブ検索と金融プラグインを装備することがFinSearchCompの結果を大幅に改善し、モデルとツールの国産性がパフォーマンスに大きく影響することが示されました。現実的なアナリストタスクに沿い、エンドツーエンドの評価を提供することで、FinSearchCompは複雑な金融検索と推論のための専門的で高難易度のテストベッドを提供します。
近年の研究では、画像生成における高品質な視覚表現の重要性が示され、画像理解における生成モデルの限界が指摘されています。自然言語向けに設計された生成パラダイムである自己回帰モデルも、同様の課題に直面しています。本研究では、次トークン予測パラダイムを視覚領域に適用するメカニズムについて、初めて体系的な調査を行います。我々は、高レベルな視覚意味論の学習を妨げる3つの主要な特性を特定しました:局所的かつ条件的依存性、ステップ間の意味的不整合、そして空間不変性の欠如です。これらの問題は、トレーニング中に自己教師あり目標を導入することで効果的に解決できることを示し、新しいトレーニングフレームワークである「自己回帰モデルのための自己誘導型トレーニング(ST-AR)」を提案します。事前学習済み表現モデルに依存せず、ST-ARは自己回帰モデルの画像理解能力を大幅に向上させ、生成品質の改善をもたらします。具体的には、ST-ARはLlamaGen-Lで約42%、LlamaGen-XLで約49%のFID改善をもたらし、同じサンプリング戦略を維持します。
本論文では、人間のデモンストレーションに基づく大規模なビデオ生成事前学習を基盤とした視覚-言語-行動(VLA)モデル、RynnVLA-001を提案する。我々は、新たな2段階の事前学習手法を提案する。第1段階である「エゴセントリック・ビデオ生成事前学習」では、1200万のエゴセントリックな操作ビデオを用いて、初期フレームと言語指示を条件とした将来フレームを予測する画像-ビデオモデルを学習する。第2段階の「ヒューマンセントリック・軌跡認識モデリング」では、将来のキーポイント軌跡を同時に予測することで、視覚フレーム予測と行動予測を効果的に橋渡しする。さらに、行動表現を強化するために、行動シーケンスをコンパクトな潜在埋め込みに圧縮する変分オートエンコーダであるActionVAEを提案し、VLA出力空間の複雑さを低減する。同じ下流ロボティクスデータセットでファインチューニングを行った結果、RynnVLA-001は最先端のベースラインを上回る性能を達成し、提案した事前学習戦略がVLAモデルに対してより効果的な初期化を提供することを実証した。
現在の指示ベース画像編集(IBIE)手法は、既存のデータセットの編集タイプとサンプル数が限られているため、困難な編集タスクに苦戦しています。さらに、従来のデータセット構築では、ノイズの多い画像とキャプションのペアが含まれることが多く、これがバイアスを導入し、複雑な編集シナリオにおけるモデルの能力を制限する可能性があります。これらの課題に対処するため、我々は107,000以上の高品質な画像編集サンプルを特徴とする包括的なデータセット、MultiEditを導入します。このデータセットは、18の非スタイル転送編集タイプと38のスタイル転送操作を通じて、6つの困難な編集タスクを網羅し、洗練されたスタイル転送から人物参照編集や画像内テキスト編集などの複雑な意味操作まで幅広くカバーしています。我々は、2つのマルチモーダル大規模言語モデル(MLLMs)を活用して視覚適応型編集指示を生成し、高忠実度の編集画像を生成する新しいデータセット構築パイプラインを採用しました。大規模な実験により、我々のMultiEdit-Trainセットで基盤となるオープンソースモデルを微調整することで、提案したMultiEdit-Testベンチマークにおける洗練された編集タスクでのモデルの性能が大幅に向上し、標準的な編集ベンチマークでの能力も効果的に維持されることが示されました。我々は、MultiEditがより多様で困難なIBIE能力の研究を進めるための貴重なリソースを提供すると信じています。我々のデータセットはhttps://huggingface.co/datasets/inclusionAI/MultiEditで利用可能です。
時空間的ビデオグラウンディング(STVG)は、入力テキストクエリで指定されたビデオの時空間チューブを特定することを目的としています。本論文では、マルチモーダル大規模言語モデル(MLLMs)を活用して、STVGにおけるゼロショットソリューションを探求します。MLLMsに関する2つの重要な洞察を明らかにしました:(1)MLLMsは、テキストクエリをグラウンディングするために、グラウンディングトークンと呼ばれる特別なトークンを動的に割り当てる傾向がある;(2)MLLMsは、テキストクエリ内の手がかり(例:属性、アクション)を完全に統合して推論することができないため、しばしば最適でないグラウンディングに陥る。これらの洞察に基づき、MLLMベースのゼロショットSTVGフレームワークを提案します。このフレームワークには、MLLMsの推論能力を引き出すための新しい分解型時空間ハイライト(DSTH)と時間拡張アセンブリング(TAS)戦略が含まれています。DSTH戦略では、まず元のクエリを属性とアクションのサブクエリに分解し、空間的および時間的にターゲットの存在を問い合わせます。次に、新しいロジットガイド付き再注意(LRA)モジュールを使用して、各サブクエリのトークン予測を正則化することで、空間的および時間的プロンプトとして潜在変数を学習します。これらのプロンプトは、それぞれ属性とアクションの手がかりを強調し、モデルの注意を信頼性の高い空間的および時間的に関連する視覚領域に導きます。さらに、属性サブクエリによる空間的グラウンディングは時間的に一貫しているべきであるため、TAS戦略を導入して、元のビデオフレームと時間拡張フレームを入力として予測をアセンブルし、時間的一貫性を向上させます。我々の手法を様々なMLLMsで評価し、3つの一般的なSTVGベンチマークでSOTA手法を上回ることを示します。コードはhttps://github.com/zaiquanyang/LLaVA_Next_STVGで公開予定です。
超音波画像診断は、非電離放射線、低コスト、リアルタイム撮像能力といった利点から、早期がんスクリーニングにおける優先的な画像診断モダリティとなっている。しかし、従来の超音波診断は医師の専門知識に大きく依存しており、高い主観性と低い診断効率という課題を抱えている。視覚言語モデル(VLM)はこの問題に対する有望な解決策を提供するが、既存の汎用モデルは超音波医療タスクにおける知識が限られており、多臓器病変認識における汎化性能が低く、多タスク診断における効率も低い。これらの制約を克服するため、我々は超音波医療画像診断に特化した視覚言語モデルEchoVLMを提案する。本モデルは、7つの解剖学的領域にわたるデータで訓練されたMixture of Experts(MoE)アーキテクチャを採用している。この設計により、超音波レポート生成、診断、視覚的質問応答(VQA)を含む複数のタスクを実行することが可能となる。実験結果では、EchoVLMは超音波レポート生成タスクにおいて、Qwen2-VLと比較してBLEU-1スコアで10.15ポイント、ROUGE-1スコアで4.77ポイントの大幅な改善を達成した。これらの結果は、EchoVLMが超音波画像診断の精度向上に大きな可能性を秘めており、将来の臨床応用に向けた有効な技術的解決策を提供することを示唆している。ソースコードとモデル重みはhttps://github.com/Asunatan/EchoVLMで公開されている。
高解像度リモートセンシング画像からの変化検出は、地球観測アプリケーションの基盤をなすものであるが、その有効性はしばしば2つの重要な課題によって損なわれる。第一に、モデルが時間的な変化(例えば、照明や季節)による放射量の変動を実際の変化と誤解するため、誤検出が頻繁に発生する。第二に、深い抽象的特徴と浅い詳細に富む特徴との間に無視できない意味的ギャップが存在し、それらの効果的な融合を妨げ、結果として境界線が不明瞭になる傾向がある。これらの問題をさらに解決するために、我々はFrequency-Spatial Synergistic Gated Network(FSG-Net)を提案する。これは、意味的な変化と不要な変動を体系的に分離することを目指す新しいパラダイムである。具体的には、FSG-Netはまず周波数領域で動作し、Discrepancy-Aware Wavelet Interaction Module(DAWIM)が異なる周波数成分を識別して処理することで、疑似変化を適応的に軽減する。その後、精緻化された特徴は、Synergistic Temporal-Spatial Attention Module(STSAM)によって空間領域で強化され、実際の変化領域の顕著性が増幅される。最後に、意味的ギャップを埋めるために、Lightweight Gated Fusion Unit(LGFU)が高レベルの意味情報を活用し、浅い層からの重要な詳細を選択的にゲートして統合する。CDD、GZ-CD、およびLEVIR-CDベンチマークでの包括的な実験により、FSG-Netの優位性が検証され、それぞれF1スコア94.16%、89.51%、91.27%で新たな最先端技術を確立した。コードは、出版後にhttps://github.com/zxXie-Air/FSG-Netで公開される予定である。