翻訳付きの日次キュレーションされたAI研究論文
自律型ソフトウェアエンジニアリング(SWE)エージェントはプログラミングのパラダイムを再構築しつつあるが、現在「閉じた世界」という制限を抱えている。すなわち、バグ修正をゼロから、あるいはローカルコンテキストのみで試み、GitHubなどのプラットフォームで利用可能な膨大な歴史的人間の経験を無視しているのである。このオープンワールドの経験へのアクセスは、実世界の課題追跡データが非構造化で断片的であることから阻害されている。本論文では、生のGitHubデータをエージェントにとって実践可能な経験的メモリへと変換・統治するフレームワーク「MemGovern」を提案する。MemGovernは経験ガバナンスを採用し、人間の経験をエージェントフレンドリーな経験カードに変換する。さらに、エージェント的な経験検索戦略を導入し、人間の専門知識を論理駆動で検索することを可能にする。13万5千枚の統治された経験カードを生成することで、MemGovernは顕著な性能向上を達成し、SWE-bench Verifiedにおける解決率を4.65%向上させた。プラグイン方式として、MemGovernはエージェントフレンドリーなメモリインフラストラクチャの解決策を提供する。
我々は、低リソース言語向けの102Bパラメータ規模の二言語混合専門家(Mixture-of-Experts)言語モデル「Solar Open」を紹介する。Solar Openは、相互に関連する3つの課題に取り組むことで競争力のある大規模言語モデルを構築する体系的な方法論を示している。第一に、低リソース言語におけるデータ不足の課題に対処するため、高品質でドメイン特化的かつ強化学習指向の4.5兆トークンの合成データを生成した。第二に、20兆トークンにわたるデータ構成・品質閾値・ドメインカバレッジを共同最適化する段階的カリキュラムを通じて、これらのデータを体系的に調整した。第三に、スケーラブルな強化学習による推論能力を実現するため、効率的な最適化のための提案手法SnapPOを適用した。英語と韓国語のベンチマークにおいて、Solar Openは競争力のある性能を達成し、低リソース言語AI開発における本手法の有効性を実証している。
既存の長期的記憶ベンチマークの多くは、複数ターンの対話や合成ユーザー履歴を使用しており、検索性能が人物理解の不完全な代理指標となっています。本論文では、長編の自伝的ナラティブから構築した公開可能なベンチマーク「\BenchName」を提案します。ここでは、行動、文脈、内面的思考が、安定した動機や意思決定原理を推論するための豊富な証拠を提供します。「\BenchName」は各ナラティブを、フラッシュバックを考慮した時間軸に沿ったストリームとして再構築し、事実の想起、主観的状态の帰属、原理レベルの推論にまたがる証拠連携型の質問でモデルを評価します。多様なナラティブソースにおいて、検索拡張システムは主に事実の正確性を向上させる一方で、時間的根拠に基づく説明や高次推論ではエラーが持続し、検索を超えた記憶メカニズムの必要性が浮き彫りになります。データはKnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}で公開されています。
大規模推論モデル(LRM)を自律エージェントとして活用する最近のパラダイムシフトにより、高度なマルチターンツール利用能力への需要が高まっています。しかし、既存のデータセットやデータ生成手法は、静的に定義されたツールセットに制限されており、オープンエンドな人間とエージェントの協働の複雑性に対応できません。この課題に対処するため、我々は当初、LRMベースのシミュレータを活用し、特定のタスクを解決するための高価値なドメイン特化ツールを動的に生成する、自動化されたタスク指向型マルチターン対話生成フレームワークを開発しました。しかし、純粋にタスク指向の設計では、エージェントが最小限の相互作用で目的を達成する「単なる課題解決」軌道が生じやすく、現実的なシナリオで見られるような高ターン数対話が生成されないことが観察されました。この隔たりを埋めるため、我々はユーザー指向のシミュレーションパラダイムへ転換しました。タスク生成を、漸次的な要求提示やターン毎のフィードバックといった人間の行動ルールを模倣する専用ユーザーシミュレータから分離することで、現実世界の問題解決の反復的性質を反映した、より真正性の高い長尺マルチターン対話を実現します。当社の生成パイプラインは、任意の状態から生成を開始可能な汎用的なプラグアンドプレイモジュールとして機能し、拡張されたツール利用データの生産において高い拡張性を保証します。さらに、単一軌道内で複数のタスク完遂を可能にすることで、現実世界の人間とエージェントの相互作用が持つ多面的な要求を反映した高密度データセットを生成します。
巧みな操作を可能とする知的エージェントの構築は、ロボティクスとデジタル環境の両方において人間らしい自動化を実現する上で不可欠です。しかし、既存のGUIエージェントは離散的なクリック予測(x,y座標)に依存しており、連続的かつその場での知覚と調整を必要とする自由軌道(例えばプログレスバーのドラッグ)を実現できません。本研究では、GUI用の器用な手として初のフローベース生成モデルであるShowUI-πを開発し、以下の設計を特徴とします:(i) 統一離散-連続行動:離散クリックと連続ドラッグを単一モデルに統合し、多様なインタラクションモードへの柔軟な適応を可能にします;(ii) ドラッグモデリングのためのフローベース行動生成:軽量な行動エキスパートを通じて連続的な視覚観測からカーソルの微調整を予測し、滑らかで安定した軌道を保証します;(iii) ドラッグ学習データとベンチマーク:PowerPoint、Adobe Premiere Proなど5領域にわたる2万件のドラッグ軌道を手動収集・合成し、GUIエージェントのドラッグ能力を評価する包括的なオンライン/オフライン評価プロトコルを備えたベンチマークScreenDragを導入しました。実験では、プロプライエタリなGUIエージェントがScreenDragで苦戦する(Operatorは13.27、最高性能のGemini-2.5-CUAでも22.18)のに対し、ShowUI-πは僅か4億5千万パラメータで26.98を達成し、課題の難度と本手法の有効性を裏付けました。本研究成果がデジタル世界における人間らしい巧みな制御へのGUIエージェントの発展に寄与することを期待します。コードはhttps://github.com/showlab/showui-pi で公開されています。
ツール拡張エージェントフレームワークにおける複雑な推論は、本質的に長期的視野を要するため、推論トレースと一時的なツール生成物が蓄積され、大規模言語モデルの限界のある作業コンテキストに負荷がかかります。明示的なメモリ機構がない場合、このような蓄積は論理的な連続性を乱し、タスクの整合性を損ないます。これは、メモリを単なる補助的な効率化の問題ではなく、長期的視野にわたって首尾一貫した目標指向の推論を維持するための核心的構成要素として位置づけます。 本論文では、ツール拡張エージェントのための実行メモリモデル「MemoBrain」を提案します。MemoBrainは、推論ステップ間の依存関係を考慮したメモリを構築し、重要な中間状態とそれらの論理的関係を捕捉します。推論エージェントと並行して動作するコパイロットとして、MemoBrainは実行を妨げることなく推論の進捗を整理し、作業コンテキストを能動的に管理します。具体的には、無効なステップを剪定し、完了したサブ軌道を折り畳み、固定されたコンテキスト予算の下でコンパクトかつ重要性の高い推論の骨格を維持します。これらの機構を統合することで、受動的なコンテキスト蓄積ではなく、推論軌道に対する明示的な認知的制御を実現します。 MemoBrainをGAIA、WebWalker、BrowseComp-Plusといった挑戦的な長期的ベンチマークで評価し、強力なベースラインを一貫して上回る改善を示しました。
強化学習は検証可能な結果を伴うタスクにおけるLLMエージェントの性能を大幅に向上させてきたが、解決策の空間が膨大なオープンエンドなエージェントタスク(例:複雑な旅行計画)では依然として苦戦している。これらのタスクには客観的な正解が存在しないため、現在の強化学習アルゴリズムは個々の応答にスカラー値を割り当てる報酬モデルに大きく依存している。我々は、このような一点評価には本質的な「識別崩壊」が生じると主張する:報酬モデルは異なる軌道間の微妙な優位性を区別できず、グループ内のスコアが狭い範囲に圧縮されてしまう。その結果、実効的な報酬信号が報酬モデル由来のノイズに支配され、最適化が停滞する。この問題に対処するため、我々は一点評価からグループ内相対順位付けへと転換する強化学習パラダイムArenaRLを提案する。ArenaRLはプロセス意識型のペアワイズ評価機構を導入し、マルチレベル評価基準を用いて軌道に細粒度な相対スコアを付与する。さらに、グループ内敵対的アリーナを構築し、トーナメント方式のランキング手法を考案して安定した優位性信号を取得する。実験結果により、シード付き単一敗者復活戦方式がO(N^2)の計算量を要する完全ペアワイズ比較と同等の優位性推定精度を達成しつつ、O(N)の計算量のみで動作し、効率性と精度の最適なバランスを実現することが確認された。加えて、オープンエンドエージェント向けの完全循環ベンチマークの不足に対処するため、SFT、強化学習トレーニング、多次元評価を網羅する包括的パイプラインを備えた高品質ベンチマークOpen-TravelとOpen-DeepResearchを構築した。大規模な実験により、ArenaRLが標準的な強化学習ベースラインを大幅に上回り、LLMエージェントが複雑な実世界タスクに対してより堅牢な解決策を生成できることが実証された。
我々は、計算リソースとメモリに制約のあるアプリケーション向けに設計された、パラメータ効率の高い高密度言語モデルファミリー「Ministral 3シリーズ」を紹介します。3B、8B、14Bパラメータの3つのモデルサイズで利用可能です。各モデルサイズについて、汎用目的向けの事前学習済みベースモデル、指示チューニング版、複雑な問題解決向けの推論モデルの3バリアントを公開します。さらに、カスケード蒸留と呼ばれる反復的な枝刈りと蒸留技術を組み合わせた継続学習によるMinistral 3モデル導出法のレシピを提示します。全モデルは画像理解機能を備え、Apache 2.0ライセンスの下で提供されます。
大規模言語モデル(LLM)に基づく自律エージェントは、マルチターンタスクを処理するために急速に進化しているが、その信頼性を確保することは依然として重要な課題である。この信頼性の基本的な支柱がキャリブレーション(較正度)であり、これはエージェントの実際の性能を確実に反映する信頼度を表明する能力を指す。静的モデルにおけるキャリブレーションは確立されているが、ツール統合型のエージェントワークフローにおけるその動態は未解明のままである。本研究では、ツール利用エージェントにおける言語化されたキャリブレーションを体系的に調査し、ツールタイプによって駆動される根本的な信頼度の二分性を明らかにする。具体的には、パイロット研究により、証拠ツール(例:ウェブ検索)は取得情報に内在するノイズにより体系的な過剰信頼を誘発する一方、検証ツール(例:コードインタプリタ)は確定的なフィードバックを通じて推論を接地し、較正誤差を緩和できることを特定した。ツールタイプ横断的にキャリブレーションを頑健に改善するため、報酬設計の総合的ベンチマークに支えられた、タスク精度とキャリブレーションを共同で最適化する強化学習(RL)ファインチューニングフレームワークを提案する。学習済みエージェントが、優れたキャリブレーションを達成するだけでなく、ローカルな学習環境からノイズの多いウェブ設定へ、さらに数学的推論などの異なる領域へ頑健に一般化することを実証する。本結果は、ツール利用エージェントにおける領域特化的なキャリブレーション戦略の必要性を浮き彫りにする。より広義には、本研究は、高リスクの実世界展開において不確実性を確実に伝達できる自己認識エージェント構築の基盤を確立するものである。
SAM2のようなビデオ物体セセンテーション手法は、メモリベースのアーキテクチャにより高い性能を達成するが、外観特徴への依存性から大きな視点変化に弱いという課題がある。従来の3Dインスタンスセグメンテーション手法は視点一貫性を扱えるが、カメラポーズや深度マップ、高コストな前処理を必要とする。本研究では、MUSt3Rから得られる3D認識特徴をSAM2に統合する学習時拡張手法3AMを提案する。軽量なFeature Mergerが暗黙的な幾何学的対応を符号化するマルチレベルMUSt3R特徴を融合し、SAM2の外観特徴と組み合わせることで、空間位置と視覚的類似性の両方に基づく幾何学的一貫性のある認識を実現する。信頼性の高い3D対応学習のため、空間的に一貫した物体領域を観測するフレームを選択する視野角考慮サンプリング戦略を提案する。重要な点として、推論時にはRGB入力のみを必要とし、カメラポーズや前処理が不要である。広基線運動を含む困難なデータセット(ScanNet++、Replica)において、3AMはSAM2およびその拡張手法を大幅に上回り、ScanNet++のSelected Subsetで90.6% IoU、71.7% Positive IoUを達成、最先端VOS手法よりそれぞれ+15.9ポイント、+30.4ポイントの改善を示した。プロジェクトページ: https://jayisaking.github.io/3AM-Page/
検索拡張生成は、トレードオフに直面している。長いプロンプトに文書を連結すると複数文書の推論が可能になるが、プリフィル時のボトルネックが生じる。一方、文書のKVキャッシュを個別にエンコードすると高速化されるが、文書間の相互作用が損なわれる。本研究では、訓練を必要としないフレームワーク「Parallel Context-of-Experts Decoding (Pced)」を提案する。これは証拠の集約を注意機構からデコード処理に移行させるものである。Pcedは検索された文書を独立した「専門家」として扱い、専門家のロジットをモデルの事前分布と比較して重み付けする新しい検索対応型対照的デコード規則により、それらの予測を同期させる。この手法により、文書間で共通の注意機構を構築することなく、文書横断的な推論能力を回復させる。
検索拡張生成(RAG)パイプラインは、単純な単一文書検索を超えた課題、例えば視覚的要素(表、図、画像)の解釈、複数文書にわたる情報の統合、正確な出典の特定などに対処する必要がある。既存のベンチマークは、テキストデータや単一文書の理解に焦点を当てる、あるいは検索と生成を個別に評価する傾向があり、この複雑性を捉えられていない。我々は、視覚的に豊富な文書コーパスに対する複数種類のクエリを特徴とする、包括的なマルチモーダルRAGベンチマーク「ViDoRe v3」を提案する。これは多様な専門分野にわたる10のデータセットを網羅し、約26,000ページの文書と3,099の人手検証済みクエリを組み合わせ、各クエリは6言語で利用可能である。12,000時間に及ぶ人手アノテーション作業を通じて、検索関連性、バウンディングボックス位置特定、検証済み参照回答に対する高品質な注釈を提供する。最先端のRAGパイプラインの評価により、視覚的検索器がテキスト検索器を上回ること、後期相互作用モデルとテキスト的再ランキングが性能を大幅に向上させること、ハイブリッドまたは純粋に視覚的な文脈が回答生成の質を高めることが明らかになった。しかし、現行のモデルは依然として非テキスト要素、自由形式のクエリ、細粒度の視覚的接地に課題を残す。これらの課題への進展を促進するため、本ベンチマークは商用利用が可能なライセンスの下、https://hf.co/vidore で公開されている。
拡散トランスフォーマー(DiT)の最近の進歩は画像生成において新たな基準を確立したが、高い計算コストとメモリ要件のため、オンデバイス展開には非現実的である。本研究では、モバイルおよびエッジデバイス向けに効率化されたDiTフレームワークを提案する。これは厳しいリソース制約下でもトランスフォーマーレベルの生成品質を実現する。我々の設計は3つの主要要素を組み合わせている。第一に、大域的なコンテキストモデリングと局所的な詳細保存のバランスを取る適応型大域-局所スパース注意機構を備えたコンパクトなDiTアーキテクチャを提案する。第二に、様々な容量のサブDiTを統一スーパーネットワーク内で共同最適化する弾力的トレーニングフレームワークを提案し、単一モデルが異なるハードウェアに応じて動的に調整可能な効率的な推論を実現する。最後に、DMD目的関数と少数ステップの教師モデルからの知識転移を統合した段階的蒸留パイプラインである知識誘導型分布マッチング蒸約を開発し、リアルタイムオンデバイス利用に適した高忠実度かつ低遅延な生成(例:4ステップ)を実現する。これらの貢献により、多様なハードウェアへの展開が可能なスケーラブルで効率的かつ高品質な拡散モデルを実現する。
動画生成モデルの急速な進展にもかかわらず、データが動きに与える影響に関する理解は不十分である。本論文では、Motive(MOTIon attribution for Video gEneration)を提案する。これは、動画に特化した勾配ベースのデータ帰属枠組みであり、現代の大規模で高品質な動画データセットとモデルにスケーラブルに適用可能である。本手法を用いて、ファインチューニングにおける各クリップが時間的ダイナミクスを改善または悪化させる要因を分析する。Motiveは、動画加重損失マスクを通じて静的見た目から時間的ダイナミクスを分離し、効率的かつスケーラブルな動画特有の影響度計算を実現する。テキストから動画を生成するモデルにおいて、Motiveは動きに強く影響するクリップを特定し、時間的一貫性と物理的妥当性を向上させるデータキュレーションを導く。Motiveで選別された高影響度データを用いることで、提案手法はVBenchにおいて動きの滑らかさと動的度の両方を改善し、事前学習済みベースモデルと比較して74.1%の人間評価優位率を達成した。知る限り、動画生成モデルにおいて視覚的外観ではなく動きに着目した帰属分析を実現し、それを用いてファインチューニングデータを選別する初めての枠組みである。
VLAモデルは、知覚と計画を統合しつつ大規模VLMの強力な一般化能力を継承することで、具身ナビゲーションにおいて有望な可能性を示している。しかし、既存のVLAモデルの多くは観察から行動への直接的な反応的写像に依存しており、複雑で長期的なナビゲーションタスクに必要な明示的な推論能力と永続的メモリを欠いている。これらの課題に対処するため、我々は言語駆動認知に基づく具身ナビゲーション用VLAモデル「VLingNav」を提案する。第一に、人間の認知における二重過程理論に着想を得て、必要な場合にのみ明示的推論を動的に起動する適応的連鎖思考機構を導入し、エージェントが素早い直感的実行と遅い熟慮的計画の間を流動的に切り替えられるようにする。第二に、長期的な空間的依存関係を扱うため、永続的でクロスモーダルな意味メモリを構築する視覚支援言語メモリモジュールを開発し、エージェントが過去の観察を想起して反復的な探索を防ぎ、動的環境における移動傾向を推論できるようにする。訓練手法としては、現在までで最大の推論注釈付き具身ナビゲーションデータセットであるNav-AdaCoT-2.9Mを構築し、いつ思考すべきかと何を思考すべきかの両方を調整可能な推論パラダイムを誘導する適応的CoT注釈で enriched にした。さらに、オンライン専門家誘導強化学習段階を組み込むことで、モデルが純粋な模倣学習を超え、よりロバストな自己探索ナビゲーション行動を獲得できるようにした。大規模な実験により、VLingNavが様々な具身ナビゲーションベンチマークで state-of-the-art の性能を達成することが実証された。特筆すべきは、VLingNavがゼロショットで実世界のロボットプラットフォームに転移し、様々なナビゲーションタスクを実行して強いクロスドメイン・クロスタスク一般化能力を示す点である。
ユーザーが提供した人物IDに基づく制御可能なビデオキャラクター置換は、ペアとなるビデオデータの不足により、依然として困難な課題である。従来の研究は主に、フレーム単位のセグメンテーションマスクと明示的な構造ガイダンス(骨格、深度など)を必要とする再構築ベースのパラダイムに依存してきた。しかし、この依存性は、オクルージョン、キャラクターと物体の相互作用、特殊なポーズ、困難な照明条件を含む複雑なシナリオにおける一般性を大幅に制限し、視覚的なアーティファクトや時間的な不一致を引き起こしがちである。本論文では、これらの制限を回避する革新的なフレームワークであるMoChaを提案する。MoChaは任意の単一フレームマスクのみを必要とする。マルチモーダル入力条件を効果的に適応させ、顔の同一性を強化するために、条件感知RoPEを導入し、強化学習ベースのポストトレーニング段階を採用する。さらに、質の高いペアトレーニングデータの不足を克服するため、包括的なデータ構築パイプラインを提案する。具体的には、Unreal Engine 5 (UE5) で構築された高精細レンダリングデータセット、現在の肖像アニメーション技術で合成された表情駆動データセット、既存のビデオ-マスクペアから派生した拡張データセットという3つの専門データセットを設計する。大規模な実験により、本手法が既存の最先端手法を大幅に上回ることを実証する。今後の研究の発展のためにコードを公開する予定である。詳細についてはプロジェクトページ(orange-3dv-team.github.io/MoCha)を参照されたい。
大規模言語モデル(LLM)の推論能力向上は、モデル生成データを用いた反復的自己学習に大きく依存してきた。精度向上に効果的である一方、既存手法は主に成功した推論経路を強化するため、多大な較正コストが生じる:モデルは過信傾向を示し、不確実性を表現する能力を失ってしまう。この問題はアライメントにおけるモデル崩壊の一形態として特徴づけられており、予測分布が低分散の点推定へと退化する。本研究では、推論訓練を認識論的学習問題として再定義することでこの課題に取り組む。モデルは推論方法を学ぶだけでなく、自身の推論がいつ信頼に値するかを学習しなければならない。我々は、推論性能と較正を同時に最適化する訓練目標として認識論的較正推論(EpiCaR)を提案し、明示的自己評価信号を用いた反復的教師ありファインチューニング枠組みにおいてこれを具現化する。Llama-3およびQwen-3ファミリを用いた実験により、本手法が精度と較正の両面で標準ベースラインをパレート改善すること、特に十分な推論能力を有するモデル(例:3B以上)で効果的であることを実証する。この枠組みはOOD数学推論(GSM8K)およびコード生成(MBPP)に対しても効果的に汎化する。最終的に、本アプローチにより推論時の計算量を3分の1に削減可能であり、能力の高いモデルではSTaRのK=30性能をK=10サンプルで達成できる。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデルにおける推論の標準的パラダイムとなっている。しかし、最終回答の正しさのみを最適化すると、モデルは構造化された計画ではなく網羅的な試行錯誤戦略に依存し、無目的で冗長な探索に陥りがちである。文長ペナルティなどのヒューリスティックな制約は冗長性を低減できるが、必須の推論ステップを切り捨てることで、効率性と検証可能性の間の困難なトレードオフを生み出す。本論文では、識別能力が効率的な生成の前提条件であると主張する:有効な解を区別することを学習することで、モデルは探索空間を刈り込むガイダンス信号を内在化できる。我々はJudgeRLVRという、判定段階と生成段階からなる二段階のパラダイムを提案する。第一段階では、検証可能な解答付きの解答レスポンスを判定するようにモデルを訓練する。第二段階では、判定モデルから初期化した基本的な生成RLVRで同一モデルをファインチューニングする。数学領域の同一訓練データを用いた従来のRLVRと比較し、JudgeRLVRはQwen3-30B-A3Bにおいて品質と効率性のより良いトレードオフを達成する:分野内の数学問題では、平均生成長を-42%削減しつつ平均精度で約+3.7ポイントの向上を実現し、分野外ベンチマークでは平均精度で約+4.5ポイントの改善を示し、強化された一般化能力を実証する。
画像生成技術の急速な進歩に伴い、自然言語指示を用いた視覚的テキスト編集への関心が高まっている。このタスクの主な課題は、指示と参照画像を完全に理解し、画像とスタイルが整合した視覚的テキストを生成することである。従来手法では、テキスト内容やフォントサイズ、色、レイアウトなどの属性を指定する複雑な手順が多く、参照画像とのスタイル一貫性が考慮されていなかった。この問題に対処するため、我々は文脈理解と自然言語指示による視覚的テキスト編集を統合的に行うマルチモーダルモデルUM-Textを提案する。具体的には、視覚言語モデル(VLM)を導入して指示と参照画像を処理し、文脈情報に基づいてテキスト内容とレイアウトを精密に設計する。正確で調和の取れた視覚的テキスト画像を生成するため、各種条件情報の埋め込みを統合するUM-Encoderをさらに提案し、その組み合わせはVLMが入力指示に応じて自動設定する。訓練時には、潜在空間とRGB空間の両方でグリフ生成により効果的な監督を提供する領域一貫性損失を提案し、モデル性能をさらに向上させるため独自の3段階訓練戦略を設計する。加えて、多様なシーンにおける大規模視覚的テキスト画像データセットUM-DATA-200Kを構築し、モデル訓練に貢献する。複数の公開ベンチマークにおける広範な定性的・定量的評価により、本手法が最先端の性能を達成することを実証する。
本論文では、時空間統合理解のための統一ビデオ大規模言語モデル(Video LLM)であるVideoLoomを提案する。細粒度の空間的・時間的定位能力の発展を促進するため、時間的に接地され空間的に局所化されたキャプションを付与した人物中心のビデオデータセットLoomData-8.7kを構築した。これにより、VideoLoomは多様な空間的・時間的ベンチマークにおいて、state-of-the-artまたは高い競争力を示す性能を達成している(例:参照対象ビデオ物体分割タスクReVOSにおける63.1 J&F、時間的定位タスクCharades-STAにおける48.3 R1@0.7)。さらに、時間的・空間的・合成的なビデオ質問ペアから構成される新規ベンチマークLoomBenchを導入し、Video LLMの多角的な総合評価を可能とする。これらの貢献は、時空間統合ビデオ理解のための普遍的かつ効果的なソリューションを提供し、マルチモーダル知能における新たな基準を確立するものである。
テキスト可視化(Text2Vis)システムは、表形式データに対する自然言語クエリを簡潔な回答と実行可能な可視化コードに変換する。クローズドソースの大規模言語モデル(LLM)は機能的なコードを生成するが、生成されたチャートは意味的整合性や明瞭さに欠けることが多く、これらの品質は実行後でしか評価できない。オープンソースモデルはさらに深刻で、実行不可能または視覚的に貧弱な出力を頻繁に生成する。教師ありファインチューニングはコードの実行成功率を向上させるが、従来の損失関数では実行後のフィードバックを捉えられないため、可視化の品質向上には限界がある。この課題を解決するため、我々はText2Vis生成向け初の強化学習フレームワークであるRL-Text2Visを提案する。Group Relative Policy Optimization(GRPO)に基づく本手法は、実行後フィードバックを用いてテキスト精度・コード有効性・可視化品質を同時に最適化する新規の多目的報酬関数を採用する。Qwen2.5モデル(7B/14B)を学習した結果、RL-Text2VisはText2VisベンチマークにおいてGPT-4oと比較してチャート品質で22%の相対改善を達成し、ゼロショットベースラインに対しコード実行成功率を78%から97%に向上させた。本モデルは強力なゼロショット及び教師ありベースラインを大幅に上回り、VIS-EvalやNVBenchといったドメイン外データセットに対しても頑健な汎化性能を示した。これらの結果は、可視化生成における構造化されたマルチモーダル推論に対してGRPOが有効な戦略であることを立証する。コードはhttps://github.com/vis-nlp/RL-Text2Vis で公開している。
離散モーショントークン化は近年、大規模言語モデル(LLM)がモーション理解とモーション言語推論の汎用バックボーンとして機能することを可能にしてきた。しかし、既存のパイプラインでは、モーションの量子化と意味的埋め込み学習が分離されており、それらがトークンIDのみを介して結びつけられることが一般的である。この手法は、モーション空間の内在的幾何学と埋め込み空間との効果的な整合を図ることができず、結果としてLLMの細やかなモーション推論能力を妨げている。我々は、両モダリティが統一された幾何学的基盤を共有する場合に整合が最も効果的になされると主張する。そこで本論文では、LLMにモーショントークン間の複雑な幾何学を一から再構築させるのではなく、モーションコードブックとLLM埋め込み空間の両方に直交性を明示的に課し、それらの関係構造が自然に互いを反映することを保証する新たなフレームワークを提案する。具体的には、微分可能な訓練と均衡の取れたコードブック使用を実現するため、Gumbel-Softmaxを適用したデコーダのみの量子化器を採用する。モダリティ間の橋渡しには、直交性を保存しつつモーションコードをLLM埋め込み空間に写像するスパース射影を用いる。最後に、2段階の正則直交化スケジュールにより、トークナイザーの訓練時とLLMのファインチューニング時にソフト制約を課し、意味的適応を妨げることなく幾何学的整合を維持する。HumanML3Dを用いた大規模な実験により、本フレームワークが現状の最先端手法を20%上回る性能向上を達成することを実証し、統一された幾何学的基盤がLLMの細やかなモーション推論能力を効果的に強化することを検証した。
大規模言語モデル(LLM)は実世界のファクトチェックシステムにおいてますます利用が進んでいるが、既存の評価は主張検証に偏りがちで、主張の抽出や証拠収集を含むより広範なファクトチェックワークフローを見落としている。この狭隘な焦点のため、現行のベンチマークは現代のLLMが持つ体系的な推論失敗、事実的盲点、ロバスト性の限界を明らかにできていない。この隔たりを埋めるため、我々はFactArenaを提案する。これは完全自動化されたアリーナ形式の評価フレームワークであり、ファクトチェック全パイプラインにわたるLLMの段階的かつ包括的なベンチマークを実施する。FactArenaは以下の3つの主要コンポーネントを統合する:(i)主張の分解、ツール拡張インタラクションによる証拠収集、根拠に基づく判定予測を標準化するLLM駆動のファクトチェックプロセス、(ii)統合された参照ガイドラインに導かれたアリーナ形式判定メカニズム。これにより、異種混合の判定エージェント間で偏りなく一貫したペアワイズ比較を保証する、(iii)固定シードデータを超えてLLMの事実的ロバスト性を探るため、より挑戦的で意味論的に制御された主張を適応的に生成するアリーナ駆動の主張進化モジュール。7つのモデルファミリーにまたがる16の最先端LLMに対する評価において、FactArenaは安定した解釈可能な順位付けを生成する。我々の分析はさらに、静的な主張検証精度とエンドツーエンドのファクトチェック能力との間に有意な乖離があることを明らかにし、包括的評価の必要性を浮き彫りにする。提案フレームワークは、LLMの事実推論を診断し、将来のモデル開発を導き、安全がクリティカルなファクトチェック応用におけるLLMの信頼性高い展開を推進するための、スケーラブルで信頼できるパラダイムを提供する。