翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデル(LRM)の最近の進展により、多段階推論や自己反省といった高度な振る舞いが、単純なルールベースの報酬を用いた強化学習(RL)を通じて自然に出現することが示されています。しかし、既存のゼロRLアプローチは本質的に「オン・ポリシー」であり、モデル自身の出力に学習が限定され、初期能力を超えた推論能力を獲得することができません。本論文では、LUFFY(Learning to reason Under oFF-policY guidance)を提案します。これは、オフ・ポリシーの推論トレースを用いてゼロRLを拡張するフレームワークです。LUFFYは、トレーニング中にオフ・ポリシーのデモンストレーションとオン・ポリシーのロールアウトを組み合わせることで、模倣と探索を動的にバランスさせます。特に、混合ポリシートレーニング中に表面的で硬直的な模倣を避けるため、正則化重要度サンプリングによるポリシーシェイピングを提案します。注目すべきは、LUFFYが6つの数学ベンチマークで平均+7.0以上の向上を達成し、分布外タスクでは+6.2ポイント以上の優位性を示したことです。また、特に汎化能力において、模倣ベースの教師ありファインチューニング(SFT)を大幅に上回りました。分析によれば、LUFFYは効果的に模倣するだけでなく、デモンストレーションを超えた探索も行い、オフ・ポリシーガイダンスを用いて汎化可能な推論モデルをトレーニングするためのスケーラブルな道筋を提供します。
Eagle 2.5を紹介します。これは、長文脈のマルチモーダル学習のための最先端の視覚言語モデル(VLM)ファミリーです。本研究では、長尺動画の理解と高解像度画像の理解における課題に取り組み、両タスクに対応する汎用フレームワークを提案します。提案されたトレーニングフレームワークは、自動劣化サンプリングと画像領域保存という2つの技術を組み込んでおり、文脈の整合性と視覚的詳細を保持します。また、長文脈データのトレーニングパイプラインにおいて、多数の効率最適化も実装されています。さらに、ストーリーレベルとクリップレベルのアノテーションを統合した新しいデータセットEagle-Video-110Kを提案し、長尺動画の理解を促進します。Eagle 2.5は、長文脈マルチモーダルベンチマークにおいて大幅な改善を示し、既存のVLMの限界に対する堅牢なソリューションを提供します。特に、最良のモデルであるEagle 2.5-8Bは、512入力フレームでVideo-MMEにおいて72.4%を達成し、GPT-4oのようなトップクラスの商用モデルやQwen2.5-VL-72B、InternVL2.5-78Bのような大規模オープンソースモデルの結果に匹敵します。
本論文では、クエリレベルメタエージェント「FlowReasoner」を提案し、ユーザークエリごとに1つのシステムを設計するクエリレベルのマルチエージェントシステムの自動化を実現します。核心となるアイデアは、外部実行フィードバックを通じて推論ベースのメタエージェントを動機付けることです。具体的には、DeepSeek R1を蒸留することで、まずFlowReasonerにマルチエージェントシステム生成に関する基本的な推論能力を付与します。その後、外部実行フィードバックを用いた強化学習(RL)を通じてさらに強化します。多目的報酬を設計し、性能、複雑さ、効率の観点からRLトレーニングを導きます。これにより、FlowReasonerは熟慮した推論を通じて各ユーザークエリに応じたパーソナライズされたマルチエージェントシステムを生成できるようになります。エンジニアリングおよび競技コードベンチマークでの実験により、FlowReasonerの優位性が実証されました。特に、3つのベンチマークにおいてo1-miniを10.52%の精度で上回りました。コードはhttps://github.com/sail-sg/FlowReasonerで公開されています。
現在の大規模言語モデル(LLM)は、ツール使用能力を獲得するために教師ありファインチューニング(SFT)を経ることが多い。しかし、SFTは未知または複雑なツール使用シナリオへの汎化に苦戦する。最近の強化学習(RL)、特にR1のようなモデルにおける進展は、有望な推論と汎化能力を示している。しかし、ツール使用のための報酬設計は独特の課題を提示する:複数のツールが多様なパラメータで呼び出される可能性があり、回答マッチングのような粗い粒度の報酬信号は、効果的な学習に必要な細かいフィードバックを提供できない。本研究では、RLパラダイム内でのツール選択と適用タスクのための報酬設計に関する最初の包括的な研究を提示する。我々は、報酬戦略の種類、スケール、粒度、および時間的ダイナミクスを体系的に探り、これらの洞察に基づいて、ツール使用タスクに特化した原則に基づく報酬設計を提案し、Group Relative Policy Optimization(GRPO)を使用してLLMを訓練する。多様なベンチマークでの実証評価により、我々のアプローチが堅牢でスケーラブルかつ安定した訓練をもたらし、ベースモデルに対して17%、SFTモデルに対して15%の改善を達成することが示された。これらの結果は、LLMのツール使用能力と汎化性能を向上させるための慎重な報酬設計の重要性を強調している。今後の研究を促進するため、すべてのコードが公開されている。
ツール統合推論(TIR)は、大規模言語モデル(LLM)に外部ツール(検索エンジンやコードインタプリタなど)を呼び出す能力を付与し、言語のみの推論では解決できないタスクに対応することを可能にします。強化学習(RL)は、最終的な回答の正確性を最適化することでTIRを改善する可能性を示していますが、既存のアプローチではツール使用の効率性やコストがしばしば見過ごされています。これにより、計算コストや金銭的負担を増大させる過剰なツール呼び出しや、回答の質を損なう不十分なツール使用といった非最適な行動が生じる可能性があります。本研究では、最小限のツール呼び出しで正確な回答を生成するようモデルを促す、シンプルかつ効果的なRLベースのフレームワーク「最適ツール呼び出し制御ポリシー最適化(OTC-PO)」を提案します。本手法では、正確性とツール効率性を同時に考慮したツール統合報酬を導入し、高いツール生産性を促進します。このフレームワークを近接ポリシー最適化(PPO)とグループ相対選好最適化(GRPO)に適用し、OTC-PPOとOTC-GRPOを実現しました。Qwen-2.5およびQwen-Mathを用いた複数のQAベンチマークでの実験では、本アプローチがツール呼び出しを最大73.1%削減し、ツール生産性を最大229.4%向上させながら、同等の回答精度を維持することを示しました。私たちの知る限り、これはTIRにおけるツール使用効率を明示的に最適化する初めてのRLベースのフレームワークです。
言語モデル(LM)との多ターンインタラクションは、有害な意図が戦略的にやり取りに分散されるため、重大な安全リスクを引き起こします。しかし、これまでの研究の大部分は単一ターンの安全性に焦点を当てており、多ターンレッドチーミングの主要な課題として適応性と多様性が残されています。これらの課題に対処するため、私たちはX-Teamingを提案します。これは、一見無害なインタラクションがどのように有害な結果にエスカレートするかを体系的に探り、対応する攻撃シナリオを生成するスケーラブルなフレームワークです。X-Teamingは、計画、攻撃最適化、検証のための協調エージェントを採用し、代表的なオープンウェイトおよびクローズドソースモデルにおいて、最大98.1%の成功率で最先端の多ターンジャイルブレイク効果と多様性を達成します。特に、X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成し、このモデルは単一ターン攻撃に対してほぼ免疫があるとされていました。X-Teamingを基盤として、私たちはXGuard-Trainを紹介します。これは、以前の最良のリソースよりも20倍大きい、30Kのインタラクティブジャイルブレイクを含むオープンソースの多ターン安全性トレーニングデータセットであり、LMの堅牢な多ターン安全性アライメントを可能にするために設計されています。私たちの研究は、洗練された会話攻撃を緩和するための重要なツールと洞察を提供し、LMの多ターン安全性を前進させます。
近年のマルチモーダル大規模言語モデル(LLM)を活用したコンピュータ利用エージェント(CUA)は、自然言語による複雑なデスクトップワークフローの自動化において有望な方向性を示しています。しかし、既存のCUAの多くは概念的なプロトタイプに留まっており、浅いOS統合、脆弱なスクリーンショットベースのインタラクション、および中断を伴う実行といった課題に直面しています。 本論文では、Windowsデスクトップ向けのマルチエージェントAgentOSであるUFO2を提案します。UFO2は、CUAを実用的なシステムレベルの自動化へと進化させます。UFO2は、タスクの分解と調整を行う中央集権型のHostAgentと、ネイティブAPI、ドメイン固有の知識、統一されたGUI-APIアクションレイヤーを備えたアプリケーション特化型のAppAgent群を特徴とします。このアーキテクチャにより、モジュール性と拡張性を保ちつつ、堅牢なタスク実行が可能となります。ハイブリッド制御検出パイプラインは、Windows UI Automation(UIA)とビジョンベースの解析を融合させ、多様なインターフェーススタイルをサポートします。さらに、推測的なマルチアクションプランニングにより、ステップごとのLLMオーバーヘッドを削減し、実行効率を向上させます。最後に、Picture-in-Picture(PiP)インターフェースにより、分離された仮想デスクトップ内での自動化を実現し、エージェントとユーザーが干渉することなく同時に操作できるようにします。 UFO2を20以上の実世界のWindowsアプリケーションで評価し、従来のCUAと比較して堅牢性と実行精度が大幅に向上することを示します。結果から、深いOS統合が、信頼性が高くユーザーに沿ったデスクトップ自動化へのスケーラブルな道を開くことが明らかになりました。
AR/VRアプリケーションの需要が高まる中、高品質な360度パノラマコンテンツの必要性が顕著になっています。しかし、高品質な360度パノラマ画像や動画の生成は、正距円筒図法(ERP)によって引き起こされる深刻な歪みのため、依然として困難な課題です。既存の手法では、限られたERPデータセットで事前学習済みの拡散モデルを微調整するか、ERPの潜在表現に依存するチューニング不要の方法を試みていますが、これらは極付近での不連続性を引き起こします。本論文では、追加のチューニングなしで最先端の拡散モデルを使用して、シームレスな360度パノラマ画像および動画を生成する新しいアプローチであるSphereDiffを紹介します。我々は、すべての視点にわたって均一な分布を保証する球面潜在表現を定義し、ERPに内在する歪みを軽減します。MultiDiffusionを球面潜在空間に拡張し、事前学習済みの拡散モデルを直接使用できるようにする球面潜在サンプリング法を提案します。さらに、投影プロセスにおける生成品質をさらに向上させるために、歪みを考慮した重み付き平均法を導入します。本手法は、高忠実度を維持しながら360度パノラマコンテンツを生成する点で既存の手法を上回り、没入型AR/VRアプリケーションのための堅牢なソリューションとなります。コードはこちらで公開されています。https://github.com/pmh9960/SphereDiff
推論モデルは、従来の言語モデルが苦手とする困難なタスクにおいて印象的な性能を発揮しています。しかし、多くのモデルは「過剰思考」の問題に悩まされています。つまり、質問の精度を向上させない不必要な大量のトークンを生成してしまうのです。本研究では、問題レベルの難易度を近似的に測定する手法を導入し、問題の難易度と最適なトークン使用量との間に明確な関係が存在することを示します。さらに、さまざまな推論モデルが最適なトークン数を効率的に割り当てる点でどれだけ適切に調整されているかを評価します。その結果、一般的に推論モデルは特に簡単な問題において、調整が不十分であることがわかりました。簡単な質問に対する調整を評価するために、極めて簡単な数学、推論、コード、およびタスク問題からなるデータセット「DUMB500」を導入し、これらの単純な例と既存の最先端ベンチマークから得られた極めて難しい例を同じタスク領域で同時に評価します。最後に、トレーニング不要のブラックボックスデコード技術「THOUGHTTERMINATOR」を導入し、推論モデルの調整を大幅に改善することを示します。
3Dガウシアンスプラッティング(3DGS)は、フォトリアルなシーン再構築において優れているものの、断片化したテクスチャ、意味的な不整合、抽象的な美学への適応性の低さから、スタイライズされたシナリオ(例:カートゥーン、ゲーム)では課題を抱えています。本研究では、3D GSスタイル転送のための包括的フレームワークであるStyleMe3Dを提案します。このフレームワークは、マルチモーダルなスタイル条件付け、マルチレベルな意味的整合性、知覚的品質向上を統合しています。主な洞察は以下の通りです:(1) RGB属性のみを最適化することで、スタイライゼーション中の幾何学的整合性が保たれる、(2) 低レベル、中レベル、高レベルの意味を分離することが、一貫したスタイル転送に重要である、(3) 孤立したオブジェクトと複雑なシーンでのスケーラビリティが実用的な展開に不可欠である。StyleMe3Dは、4つの新規コンポーネントを導入します:Stable Diffusionの潜在空間を活用した意味的整合性のためのDynamic Style Score Distillation(DSSD)、局所的でコンテンツを意識したテクスチャ転送のためのContrastive Style Descriptor(CSD)、スタイルの詳細と構造的整合性を分離するためのSimultaneously Optimized Scale(SOS)、および、人間による評価データに基づいて訓練された微分可能な美的事前分布である3D Gaussian Quality Assessment(3DG-QA)です。NeRF合成データセット(オブジェクト)とtandt db(シーン)データセットで評価した結果、StyleMe3Dは、幾何学的な詳細(例:彫刻の彫り込み)を保持し、シーン全体でのスタイルの一貫性(例:風景における一貫した照明)を確保する点で、最先端の手法を上回り、リアルタイムレンダリングを維持しました。本研究成果は、フォトリアルな3D GSと芸術的なスタイライゼーションを橋渡しし、ゲーム、仮想世界、デジタルアートにおける応用を可能にします。
マルチビュー理解、すなわち多様な視点からの視覚情報を統合し、効果的なナビゲーション、操作、3Dシーン理解を実現する能力は、エンボディドエージェントとして使用されるマルチモーダル大規模言語モデル(MLLMs)における基本的な課題です。最近のMLLMsは高レベルの推論と計画において印象的な進歩を示していますが、マルチビューの幾何学的整合性やクロスビュー対応に直面すると、しばしば不十分な結果に終わります。MLLMsのマルチビューシーン推論における課題を包括的に評価するため、我々はAll-Angles Benchを提案します。これは、90の多様な実世界シーンにわたる2,100以上の人間が慎重に注釈を付けたマルチビューの質問応答ペアからなるベンチマークです。我々の6つのタスク(カウンティング、属性識別、相対距離、相対方向、オブジェクト操作、カメラポーズ推定)は、モデルの幾何学的対応と、ビュー間で情報を一貫して整合させる能力を特にテストします。Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4oを含む27の代表的なMLLMsを人間の評価者と比較した広範な実験は、現在のMLLMsが人間レベルの熟練度には程遠いことを示す大きなパフォーマンスギャップを明らかにしました。詳細な分析を通じて、MLLMsが特に以下の2つの側面で低性能であることを示します:(1)部分的に隠れたビューのクロスビュー対応、(2)粗いカメラポーズの確立。これらの発見は、より強力なマルチビュー認識を組み込んだドメイン固有の改良やモジュールの必要性を強調しています。我々は、All-Angles Benchが貴重な洞察を提供し、MLLMsと人間レベルのマルチビュー理解のギャップを埋めることに貢献すると信じています。プロジェクトとベンチマークはhttps://danielchyeh.github.io/All-Angles-Bench/で公開されています。
本論文では、大規模言語モデル(LLM)の動作を制御するためのプラグアンドプレイ調整を可能にするフレームワーク、EasyEdit2を紹介します。EasyEdit2は、安全性、感情、性格、推論パターン、事実性、言語特性など、幅広いテスト時介入をサポートしています。前身とは異なり、EasyEdit2はシームレスなモデル制御のために特別に設計された新しいアーキテクチャを特徴としています。このアーキテクチャは、モデルのパラメータを変更することなくその動作に影響を与えるための、ステアリングベクトル生成器とステアリングベクトル適用器といった主要モジュールで構成されています。EasyEdit2の主な利点の一つは、その使いやすさにあります。ユーザーは高度な技術的知識を必要とせず、単一の例だけでモデルの応答を効果的に誘導・調整できるため、精密な制御が容易かつ効率的に行えます。実証実験では、さまざまなLLMにおけるモデル制御の性能を報告し、これらの技術の有効性を実証しています。ソースコードはGitHub(https://github.com/zjunlp/EasyEdit)で公開しており、デモンストレーション用のノートブックも提供しています。さらに、簡単な紹介のためのデモ動画をhttps://zjunlp.github.io/project/EasyEdit2/videoで公開しています。
カメラと人間のモーション制御は、ビデオ生成において広く研究されてきましたが、既存のアプローチでは通常これらを別々に扱い、両方の側面に対する高品質なアノテーションを伴うデータの不足に悩まされてきました。これを克服するため、我々はUni3Cを提案します。これは、ビデオ生成におけるカメラと人間のモーションの両方を精密に制御するための統一された3D拡張フレームワークです。Uni3Cには2つの主要な貢献があります。まず、固定されたビデオ生成バックボーンで訓練されたプラグアンドプレイ制御モジュール、PCDControllerを提案します。これは、単眼深度から得られた非投影点群を利用して正確なカメラ制御を実現します。点群の強力な3D事前情報とビデオ基盤モデルの優れた能力を活用することで、PCDControllerは推論バックボーンが固定されているか微調整されているかに関わらず、優れた汎化性能を示します。この柔軟性により、Uni3Cの異なるモジュールを特定のドメイン(カメラ制御または人間のモーション制御)で訓練することが可能となり、共同アノテーションデータへの依存を軽減します。次に、推論フェーズにおいて、風景の点群とSMPL-Xキャラクターをシームレスに統合し、それぞれカメラと人間のモーションの制御信号を統一する共同整列3Dワールドガイダンスを提案します。広範な実験により、PCDControllerがビデオ生成の微調整バックボーンにおいてカメラモーションを駆動する際の強力なロバスト性を享受することが確認されました。Uni3Cは、カメラの制御性と人間のモーションの品質の両方において、競合手法を大幅に上回ります。さらに、挑戦的なカメラの動きと人間のアクションを特徴とする特注の検証セットを収集し、我々の手法の有効性を検証しました。
我々はLeetCodeDatasetを紹介する。これはコード生成モデルの評価と訓練のための高品質なベンチマークであり、LLM研究における2つの主要な課題、すなわち推論に焦点を当てたコーディングベンチマークの不足と自己完結型の訓練環境の欠如に対処するものである。LeetCodeのPython問題を豊富なメタデータ、広範なカバレッジ、問題ごとに100以上のテストケース、および時間的分割(2024年7月前後)を伴ってキュレーションすることで、我々のデータセットは汚染のない評価と効率的な教師ありファインチューニング(SFT)を可能にする。実験では、推論モデルが非推論モデルを大幅に上回る一方で、わずか2.6Kのモデル生成ソリューションを用いたSFTが110Kサンプルの同等モデルに匹敵する性能を達成することが示された。データセットと評価フレームワークはHugging FaceとGithubで公開されている。
マルチモーダル大規模言語モデル(MLLM)は、グラフィカルユーザーインターフェース(GUI)エージェントを強化し、コンピューティングデバイス上のタスク自動化において有望な成果を示しています。最近の研究では、GUIタスクにおける推論の探求が始まり、励みになる結果が得られています。しかし、現在の多くのアプローチは手動で設計された推論テンプレートに依存しており、複雑なGUI環境に対して十分に堅牢で適応的な推論が得られない可能性があります。一方、既存のエージェントの一部は依然として反応的アクターとして動作し、主に暗黙の推論に依存しているため、計画やエラー回復を必要とするGUIタスクに対して十分な深さを欠く場合があります。これらのエージェントを進化させるためには、反応的な行動から意図的な推論に基づく行動への移行が必要であると主張します。この変革を促進するために、我々はInfiGUI-R1を紹介します。これは、アクターから推論者への進化を段階的に促す、推論中心の2段階トレーニングアプローチであるActor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントです。第1段階の「推論注入」では、基本的な推論者を確立することに焦点を当てます。我々は、空間推論蒸留を採用し、教師モデルからMLLMへ、明示的な推論ステップを含む軌跡を通じてクロスモーダル空間推論能力を転移させ、モデルがアクション生成前にGUIの視覚空間情報と論理推論を統合できるようにします。第2段階の「熟慮強化」では、強化学習を用いて基本的な推論者を熟慮型に洗練させます。この段階では、2つのアプローチを導入します。1つは、正確な中間サブゴールを生成するモデルを報酬する「サブゴールガイダンス」、もう1つは、エラーが発生しやすいステップから失敗と回復のトレーニングシナリオを作成する「エラー回復シナリオ構築」です。実験結果は、InfiGUI-R1がGUIグラウンディングと軌跡タスクにおいて優れた性能を達成することを示しています。リソースはhttps://github.com/Reallm-Labs/InfiGUI-R1にあります。
モバイルGUIエージェントはタスクの自動化において有望ですが、多様な実世界のシナリオでの汎化に課題を抱えています。従来のアプローチでは、大規模なデータセットを用いた事前学習やファインチューニングを行いますが、モバイルアプリケーションの多様性やユーザー固有のタスクに対応するのが困難です。我々は、より大規模なデータセットによる普遍的な汎化を追求するのではなく、人間のデモンストレーションを通じてモバイルGUIエージェントの能力を強化し、未見のシナリオでのパフォーマンス向上に焦点を当てることを提案します。このパラダイムを実現するため、我々はLearnGUIを導入しました。これは、モバイルGUIエージェントにおけるデモンストレーションベースの学習を研究するために特別に設計された初の包括的なデータセットで、2,252のオフラインタスクと101のオンラインタスクからなり、高品質な人間のデモンストレーションを含んでいます。さらに、我々はLearnActを開発しました。これは、デモンストレーションから知識を自動的に抽出してタスク完了を強化する高度なマルチエージェントフレームワークです。このフレームワークは、知識抽出を行うDemoParser、関連知識を検索するKnowSeeker、デモンストレーションを活用してタスクを実行するActExecutorという3つの専門エージェントを統合しています。実験結果は、オフラインおよびオンライン評価の両方で大幅なパフォーマンス向上を示しています。オフライン評価では、単一のデモンストレーションがモデルのパフォーマンスを向上させ、Gemini-1.5-Proの精度を19.3%から51.7%に引き上げました。オンライン評価では、我々のフレームワークがUI-TARS-7B-SFTのタスク成功率を18.1%から32.8%に向上させました。LearnActフレームワークとLearnGUIベンチマークは、デモンストレーションベースの学習が、より適応性が高く、パーソナライズされ、展開可能なモバイルGUIエージェントのための有望な方向性であることを確立しました。
我々は、所望の結果に向けてメディア生成モデルを微調整するための汎用フレームワークであるDistributional RewArds for Generative OptimizatioN(DRAGON)を提案する。従来の人間フィードバックを用いた強化学習(RLHF)や直接選好最適化(DPO)のようなペアワイズ選好アプローチと比較して、DRAGONはより柔軟性が高い。個々の事例またはその分布を評価する報酬関数を最適化できるため、インスタンス単位、インスタンス対分布、分布対分布の幅広い報酬スキームと互換性がある。この汎用性を活用し、エンコーダと参照事例のセットを選択して模範分布を作成することで、新たな報酬関数を構築する。CLAPのようなクロスモダリティエンコーダを使用する場合、参照事例は異なるモダリティ(例:テキスト対オーディオ)でも構わない。その後、DRAGONはオンラインおよびオンポリシー生成を収集し、それらをスコアリングして肯定的なデモンストレーションセットと否定的なセットを構築し、両セット間の対比を活用して報酬を最大化する。評価では、カスタム音楽美学モデル、CLAPスコア、Vendi多様性、Frechetオーディオ距離(FAD)を含む20種類の報酬関数を用いて、オーディオ領域のテキストtoミュージック拡散モデルを微調整する。さらに、インスタンス単位(曲ごと)とフルデータセットFAD設定を比較し、複数のFADエンコーダと参照セットをアブレーションする。20の目標報酬全体で、DRAGONは81.45%の平均勝率を達成する。さらに、模範セットに基づく報酬関数は実際に生成を向上させ、モデルベースの報酬と同等である。適切な模範セットを用いることで、DRAGONは人間の選好アノテーションを学習せずに60.95%の人間投票による音楽品質勝率を達成する。このように、DRAGONは人間が知覚する品質を向上させるための報酬関数の設計と最適化における新たなアプローチを示している。音声サンプルはhttps://ml-dragon.github.io/webで公開されている。
大規模言語モデル(LLM)は、特に強化学習(RL)によって強化された場合、強力な推論能力を示しています。これまでの研究では、数学的推論(規則と正しさが明確に定義されている領域)へのRLの適用に成功していますが、これらの手法をより広範な推論領域に一般化することは、データの不足、検証可能な報酬構造の欠如、多様なタスク要件のため、依然として困難です。本研究では、NEMOTRON-CROSSTHINKを提案します。これは、合成および実世界の質問-回答ペアを含む多領域コーパスをRLトレーニングに体系的に組み込み、多様な推論タスクにおける一般化を改善するフレームワークです。NEMOTRON-CROSSTHINKは、(1) STEM、人文科学、社会科学など多様なソースからのデータを取り込む、(2) 回答空間の複雑さを制御するための構造化テンプレート(例: 多肢選択式および自由回答式)を適用する、(3) 検証可能な回答をフィルタリングする、(4) 複数のソースからのデータを効果的に活用するデータブレンディング戦略を最適化する、という主要な課題に対処します。我々のアプローチは、数学を超えたスケーラブルで検証可能な報酬モデリングを可能にし、数学(MATH-500: +30.1%, AMC23: +27.5%)および非数学的推論ベンチマーク(MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%)の両方で精度の向上を示しています。さらに、NEMOTRON-CROSSTHINKは、正解に必要なトークン数を28%削減し、より焦点を絞った効果的な推論を実現しています。NEMOTRON-CROSSTHINKを通じて、多領域・多形式のデータをRLに統合することが、より正確で効率的かつ一般化可能なLLMを導くことを実証しました。
大規模マルチモーダルモデル(LMM)は、ビデオフレームを均一に認識するため、時間的な情報密度が本質的に異なるビデオに対して計算上の非効率性を生み出します。本論文では、Quicksviewerという新しい認識パラダイムを持つLMMを提案します。このモデルは、不均一な密度のビデオをGumbel Softmaxを使用して異なる立方体に分割し、各立方体に対して統一的なリサンプリングを行うことで、効率的なビデオ理解を実現します。このシンプルで直感的なアプローチは、ビデオの時間的密度に基づいてオンラインで動的に圧縮し、時空間的な冗長性を大幅に削減(全体で45倍の圧縮率)しながら、大きな受容野を持つ効率的なトレーニングを可能にします。我々は、言語バックボーンからモデルを3つの段階的に進むステージでトレーニングし、各ステージで平均420秒/1fpsの長いビデオを認識効率のおかげで取り入れます。トレーニング用のビデオテキストサンプルがわずか0.8Mしかないにもかかわらず、固定分割戦略を採用した直接的なベースラインを最大8.72の精度で上回り、その性能の有効性を実証しています。Video-MMEにおいて、Quicksviewerは、ベースラインがフレームごとに必要とするトークンのわずか5%以下を使用して、控えめなシーケンス長でSOTAを達成します。このパラダイムにより、入力フレーム数をスケールアップすると、モデルの能力の明確なべき乗則が明らかになります。また、立方体ネットワークによって生成されたセグメントが、ビデオ内の連続イベントの分析に役立つことが経験的に検証されています。
TAPIP3Dを紹介します。これは、単眼RGBおよびRGB-Dビデオにおける長期3Dポイントトラッキングのための新しいアプローチです。TAPIP3Dは、ビデオをカメラ安定化された時空間特徴クラウドとして表現し、深度とカメラ運動情報を活用して2Dビデオ特徴を3Dワールド空間に持ち上げ、カメラ運動を効果的にキャンセルします。TAPIP3Dは、この安定化された表現内で複数フレームの3D運動推定を反復的に改善し、長期間にわたる堅牢なトラッキングを可能にします。3Dポイント分布の固有の不規則性を管理するために、ローカルペアアテンションメカニズムを提案します。この3Dコンテクスト化戦略は、3D空間内の空間関係を効果的に活用し、正確な3D軌道推定のための情報豊富な特徴近傍を形成します。私たちの3D中心のアプローチは、既存の3Dポイントトラッキング手法を大幅に上回り、正確な深度が利用可能な場合には、従来の2Dピクセルトラッカーと比較しても2Dトラッキング精度を向上させます。カメラ座標(つまり、非安定化)とワールド座標の両方での推論をサポートし、カメラ運動を補償することがトラッキング性能を向上させることを結果が示しています。私たちのアプローチは、従来の2Dおよび3Dトラッカーで使用されていた2D正方形相関近傍を置き換え、さまざまな3Dポイントトラッキングベンチマークでより堅牢で正確な結果をもたらします。プロジェクトページ: https://tapip3d.github.io
アナモルフォーシスとは、意図的に歪められた画像のカテゴリーを指し、直接見た場合には認識不能な状態となる。その真の姿は、鏡やレンズなどのカタディオプトリック装置を通して特定の視点から見たときにのみ明らかになる。これらの数学的装置の構築は17世紀まで遡ることができるが、特定の視点から見た場合にのみ解釈可能であり、通常の見方では意味を失う傾向がある。本論文では、これらの有名な錯視を生成的なアプローチで再考する。潜在空間における整流フローモデルの助けを借りて、直接見た場合にも有効な解釈を保持するアナモルフォーシス画像を作成する方法を提案する。この目的のために、高品質な視覚的生成に不可欠な周波数認識画像ワーピング技術であるラプラシアンピラミッドワーピングを導入する。我々の研究は、Visual Anagrams (arXiv:2311.17919) を潜在空間モデルおよびより広範な空間変換に拡張し、新たな生成的知覚錯視の創出を可能にする。
大規模言語モデル(LLM)は驚異的な能力を発揮する一方で、脆弱性を突く敵対的なプロンプトによって安全でないまたは偏った出力を生成するリスクがあります。既存のレッドチーミング手法は、スケーラビリティの課題、リソース集約的な要件、または攻撃戦略の多様性の限界に直面することが多いです。本論文では、進化的計算に根ざした新しいレッドチーミングフレームワークであるRainbowPlusを提案します。RainbowPlusは、MAP-Elitesのような古典的な進化的アルゴリズムを言語モデル向けに拡張した適応的品質多様性(QD)探索を通じて、敵対的プロンプト生成を強化します。多要素アーカイブを使用して多様な高品質プロンプトを保存し、複数のプロンプトを同時に評価する包括的なフィットネス関数を採用することで、RainbowPlusは、Rainbow Teamingのような従来のQD手法における単一プロンプトアーカイブとペアワイズ比較の制約を克服します。6つのベンチマークデータセットと4つのオープンソースLLMを用いてRainbowPlusをQD手法と比較した実験では、優れた攻撃成功率(ASR)と多様性(Diverse-Score約0.84)を示し、最大100倍のユニークなプロンプトを生成しました(例:Ministral-8B-Instruct-2410で10,418対100)。12のLLM(10のオープンソース、2のクローズドソース)を用いたHarmBenchデータセットでの9つの最先端手法に対する評価では、RainbowPlusは平均ASR81.1%を達成し、AutoDAN-Turboを3.9%上回り、9倍高速でした(1.45時間対13.50時間)。私たちのオープンソース実装は、LLMの安全性向上に貢献し、脆弱性評価のためのスケーラブルなツールを提供します。コードとリソースはhttps://github.com/knoveleng/rainbowplusで公開されており、再現性と将来のLLMレッドチーミング研究を支援します。
大規模言語モデル(LLM)は、金融、マーケティング、eコマースなど多様な領域における専門的な生産データ処理パイプラインでますます活用されています。しかし、多くの入力に対して本番環境で実行する際、指示に従わなかったり開発者の期待を満たさないことがしばしばあります。これらのアプリケーションにおける信頼性を向上させるためには、LLMの出力に対してアサーションやガードレールを作成し、パイプラインと並行して実行することが不可欠です。しかし、タスクに対する開発者の要件を捉えた適切なアサーションのセットを決定することは困難です。本論文では、PROMPTEVALSを紹介します。これは、私たちのオープンソースLLMパイプラインツールを使用する開発者から収集された2087のLLMパイプラインプロンプトと12623の対応するアサーション基準からなるデータセットです。このデータセットは、以前のコレクションよりも5倍大きい規模です。PROMPTEVALSのホールドアウトテストスプリットをベンチマークとして使用し、クローズドソースおよびオープンソースモデルが関連するアサーションを生成する能力を評価しました。特に、私たちがファインチューニングしたMistralとLlama 3モデルは、GPT-4oを平均20.93%上回り、レイテンシの低減とパフォーマンスの向上を実現しました。私たちは、このデータセットがLLMの信頼性、アライメント、およびプロンプトエンジニアリングに関するさらなる研究を促進することを期待しています。
本研究では、ラベル曖昧性、オクルージョン、背景との混在が特徴的な複雑な果樹園環境における青果物検出のために、RF-DETR物体検出ベースモデルとYOLOv12物体検出モデルの設定を詳細に比較した。動的な実世界の条件下でのモデル性能を評価するため、単一クラス(青果物)と多クラス(オクルージョンあり・なしの青果物)のアノテーションを含むカスタムデータセットを開発した。DINOv2バックボーンと変形可能なアテンションを利用するRF-DETR物体検出モデルは、グローバルなコンテキストモデリングに優れ、部分的にオクルージョンされたり曖昧な青果物を効果的に識別した。一方、YOLOv12はCNNベースのアテンションを活用して局所的特徴抽出を強化し、計算効率とエッジデプロイメントに最適化された。RF-DETRは単一クラス検出において最高の平均平均精度(mAP50)0.9464を達成し、混雑したシーンでの青果物の位置特定能力の優位性を証明した。YOLOv12NはmAP@50:95で最高の0.7620を記録したが、RF-DETRは複雑な空間シナリオで一貫して優れた性能を示した。多クラス検出では、RF-DETRがmAP@50で0.8298を記録し、オクルージョンあり・なしの果実を区別する能力を示した一方、YOLOv12LはmAP@50:95で0.6622を記録し、詳細なオクルージョンコンテキストでの分類能力の高さを示した。トレーニングダイナミクスの分析では、RF-DETRの迅速な収束が強調され、特に単一クラス設定では10エポック以内に収束し、トランスフォーマーベースのアーキテクチャが動的な視覚データに適応する効率性を実証した。これらの結果は、精密農業アプリケーションにおけるRF-DETRの有効性を検証し、YOLOv12が高速応答シナリオに適していることを示している。>索引語:RF-DETR物体検出、YOLOv12、YOLOv13、YOLOv14、YOLOv15、YOLOE、YOLO World、YOLO、You Only Look Once、Roboflow、Detection Transformers、CNNs
DINOv2やCLIPなどのビジョンファウンデーションモデル(VFMs)は、様々な下流タスクで印象的な結果を達成していますが、特徴解像度の制限により、ピクセルレベルの理解を必要とするアプリケーションでの性能が制約されています。特徴アップサンプリングは、この課題に対処するための有望な方向性を提供します。本研究では、特徴アップサンプリングを強化するための2つの重要な要因を特定しました。それは、アップサンプラーのアーキテクチャと訓練目的です。アップサンプラーアーキテクチャに関しては、高解像度画像と座標、低解像度のVFM特徴を統合して鮮明で高品質な特徴を生成する、座標ベースのクロスアテンショントランスフォーマーを導入しました。訓練目的に関しては、クラス非依存のマスクと自己蒸留を活用して高解像度の疑似グラウンドトゥルース特徴を構築することを提案します。私たちのアプローチは、細かいディテールを効果的に捉え、様々な入力および特徴解像度に柔軟に適応します。実験を通じて、私たちのアプローチが様々な下流タスクにおいて既存の特徴アップサンプリング技術を大幅に上回ることを実証しました。コードはhttps://github.com/andrehuang/loftupで公開されています。
単眼カメラのストリームから複数人物の詳細な3Dポーズを検出・追跡する手法を提案します。本システムは、困難なポーズやオクルージョンが混在する混雑したシーンにおいても、時間的に一貫した予測を維持します。モデルは、フレームごとの強力な検出と、フレーム間で人物を追跡するための学習済みポーズ更新の両方を実行します。時間軸を跨いだ検出結果のマッチングではなく、新しい入力画像から直接ポーズを更新することで、オクルージョン中でもオンライン追跡を可能にします。擬似ラベル付きアノテーションを活用した多数の画像・動画データセットで学習を行い、3Dポーズ推定精度において最先端システムに匹敵するモデルを実現しました。さらに、複数人物の時間的追跡においても高速かつ高精度です。コードと重みはhttps://github.com/apple/ml-comotionで提供しています。
我々は、現実世界のオープンエンドなタスクを緩やかに抽象化した一連の最小限のアルゴリズムタスクを設計した。これにより、現在の言語モデルの創造的限界をクリーンかつ制御可能な形で定量化することが可能となる。現実世界のタスクが創造的で遠大な思考の飛躍を必要とするのと同様に、我々のタスクは暗黙的でオープンエンドな確率的計画ステップを必要とする。このステップは、(a)抽象的な知識グラフにおける新たな関連性の発見(言葉遊び、類推、研究など)または(b)新たなパターンの構築(数学問題の設計や新たなタンパク質の設計など)のいずれかを行う。これらのタスクにおいて、我々は経験的かつ概念的に、次のトークン学習が近視眼的であり過剰に記憶することを論じる。比較して、マルチトークンアプローチ、すなわち教師なし学習と拡散モデルは、多様で独創的な出力を生成する点で優れている。第二に、我々のタスクにおいて、Transformerから一貫性を損なうことなくランダム性を引き出すためには、出力層からの温度サンプリングに頼るよりも、入力層で直接ノイズを注入する(我々がハッシュコンディショニングと呼ぶ方法)方が良いことがわかった。したがって、我々の研究は、オープンエンドな創造的スキルを分析するための原則的で最小限のテストベッドを提供し、次のトークン学習とソフトマックスベースのサンプリングを超える新たな議論を提供する。我々はコードの一部をhttps://github.com/chenwu98/algorithmic-creativityで公開している。
医療視覚言語モデルは、医療画像キャプショニングや診断支援など、さまざまな医療アプリケーションにおいて大きな可能性を示しています。しかし、既存のモデルの多くはテキストベースの指示に依存しており、特に手術などのシナリオでは、医師にとってテキストベースのインタラクションが非現実的であるため、実際の臨床環境での使用が制限されています。さらに、現在の医療画像分析モデルは、その予測の背後にある包括的な推論を欠いていることが多く、臨床意思決定の信頼性を低下させています。医療診断の誤りが人生を変える結果をもたらす可能性があることを考えると、解釈可能で合理的な医療支援が極めて重要です。これらの課題に対処するため、我々はエンドツーエンドの音声駆動型医療VLMであるSilVar-Medを提案します。これは、音声インタラクションとVLMを統合したマルチモーダル医療画像アシスタントであり、医療画像分析のための音声ベースのコミュニケーションを先駆的に実現します。さらに、我々は医療異常の各予測の背後にある推論の解釈に焦点を当て、提案された推論データセットを用いてこれを実現します。広範な実験を通じて、エンドツーエンドの音声インタラクションを伴う推論駆動型医療画像解釈の概念実証研究を示します。我々は、この研究が、より透明性が高く、インタラクティブで、臨床的に実用的な診断支援システムを促進することで、医療AIの分野を前進させると信じています。我々のコードとデータセットは、SiVar-Medで公開されています。