翻訳付きの日次キュレーションされたAI研究論文
Deep ResearchのようなWebエージェントは、高度に挑戦的な情報探索問題を解決する超人的な認知能力を実証しています。しかし、ほとんどの研究は依然としてテキスト中心であり、現実世界の視覚情報を見落としています。これにより、マルチモーダルなDeep Researchは非常に困難な課題となっています。なぜなら、そのようなエージェントは、テキストベースのエージェントと比較して、知覚、論理、知識、およびより洗練されたツールの使用において、はるかに強力な推論能力を必要とするからです。この制限に対処するため、我々はWebWatcherを紹介します。これは、強化された視覚言語推論能力を備えたマルチモーダルなDeep Researchエージェントです。WebWatcherは、高品質の合成マルチモーダル軌跡を活用して効率的なコールドスタートトレーニングを行い、深い推論のためにさまざまなツールを利用し、強化学習を通じてさらに汎化能力を向上させます。マルチモーダルエージェントの能力をより適切に評価するために、我々はBrowseComp-VLを提案します。これは、視覚情報とテキスト情報の両方を含む複雑な情報検索を必要とするBrowseCompスタイルのベンチマークです。実験結果は、WebWatcherが4つの挑戦的なVQAベンチマークにおいて、プロプライエタリなベースライン、RAGワークフロー、およびオープンソースエージェントを大幅に上回ることを示しており、複雑なマルチモーダル情報探索タスクを解決する道を開いています。
単一画像またはテキストプロンプトから探索可能な3Dワールドを生成することは、空間知能の基盤を形成します。最近の研究では、広範囲にわたる汎用的な3Dワールド生成を実現するためにビデオモデルが利用されています。しかし、既存の手法では生成されるシーンの範囲が限定的であることがしばしば問題となります。本研究では、条件付きビデオ生成とパノラマ3D再構成を組み合わせた広範囲カバレッジの全方向探索可能な3Dワールド生成を実現するため、Matrix-3Dというフレームワークを提案します。まず、シーンメッシュレンダリングを条件として使用する軌道誘導型パノラマビデオ拡散モデルを訓練し、高品質で幾何学的に一貫したシーンビデオ生成を可能にします。次に、パノラマシーンビデオを3Dワールドに変換するために、2つの異なる手法を提案します:(1)迅速な3Dシーン再構成のためのフィードフォワード型大規模パノラマ再構成モデル、(2)正確で詳細な3Dシーン再構成のための最適化ベースのパイプラインです。効果的な訓練を促進するため、深さと軌道アノテーションを備えた116Kの高品質な静的パノラマビデオシーケンスを含む初の大規模合成データセットであるMatrix-Panoデータセットも導入しました。広範な実験により、提案したフレームワークがパノラマビデオ生成および3Dワールド生成において最先端の性能を達成することが実証されています。詳細はhttps://matrix-3d.github.ioをご覧ください。
最近のLLMベースのエージェントの進歩は、外部ツールを統合することで、複雑で知識集約的なタスクを処理する際に顕著な能力を発揮しています。多様なツールの選択肢の中でも、検索ツールは膨大な外部知識にアクセスする上で重要な役割を果たしています。しかし、オープンソースのエージェントは、曖昧なクエリを解決し、正確な検索を生成し、結果を分析し、徹底的な探索を行う能力である「Search Intelligence」の専門家レベルにはまだ達していません。既存のアプローチは、スケーラビリティ、効率性、データ品質の面で不足しています。例えば、既存のオンラインRL手法における小さなターン制限(例:<=10)は、複雑な戦略の学習を制限しています。本論文では、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトであるASearcherを紹介します。私たちの主な貢献は以下の通りです:(1)長期的な検索を可能にしつつ、高いトレーニング効率を維持するスケーラブルな完全非同期RLトレーニング。(2)高品質で挑戦的なQAを自律的に合成し、大規模なQAデータセットを作成するプロンプトベースのLLMエージェント。RLトレーニングを通じて、私たちのプロンプトベースのQwQ-32Bエージェントは、xBenchとGAIAでそれぞれ46.7%と20.8%のAvg@4の向上を達成しました。特に、私たちのエージェントは、トレーニング時間中に40ターンを超えるツール呼び出しと150kを超える出力トークンを伴う極めて長期的な検索を示しています。シンプルなエージェント設計と外部LLMを使用せずに、ASearcher-Web-QwQはxBenchで42.1、GAIAで52.8のAvg@4スコアを達成し、既存のオープンソース32Bエージェントを凌駕しています。私たちは、モデル、トレーニングデータ、コードをhttps://github.com/inclusionAI/ASearcherでオープンソースとして公開しています。
指示追従能力は、近年の大規模言語モデル(LLMs)の時代を牽引し、推論やエージェント的行動といったより高度な能力の基盤となる重要なスキルである。タスクがより複雑になるにつれて、自然言語の指示に埋め込まれた論理構造はますます入り組んだものとなる。しかし、LLMsがそのような論理的に豊富な指示に対してどの程度の性能を発揮するかについては、まだ十分に検証されていない。本研究では、LogicIFGenとLogicIFEvalを提案する。LogicIFGenは、コード関数から検証可能な指示を生成するためのスケーラブルで自動化されたフレームワークであり、条件分岐、ネスト、再帰、関数呼び出しといった豊富な論理を自然に表現することができる。さらに、複雑なコード関数のコレクションをキュレーションし、LogicIFGenを用いてLogicIFEvalを構築した。LogicIFEvalは、426の検証可能な論理的に豊富な指示からなるベンチマークである。実験の結果、現在の最先端のLLMsでさえ、LogicIFEvalの指示を正しく追従することに苦戦することが明らかとなった。ほとんどのLLMsは、指示の60%未満しか追従できず、指示追従能力に重大な欠陥があることが示された。コードとベンチマークは以下のURLで公開されている:https://github.com/mianzhang/LogicIF
本論文では、CharacterShotを提案する。これは、制御可能で一貫性のある4Dキャラクターアニメーションフレームワークであり、個々のデザイナーが単一の参照キャラクター画像と2Dポーズシーケンスから動的な3Dキャラクター(すなわち4Dキャラクターアニメーション)を作成することを可能にする。まず、最先端のDiTベースの画像から動画へのモデルに基づいて、強力な2Dキャラクターアニメーションモデルを事前学習する。これにより、任意の2Dポーズシーケンスを制御信号として使用できる。次に、デュアルアテンションモジュールとカメラ事前情報を導入して、アニメーションモデルを2Dから3Dにリフトし、時空間的および空間視点的一貫性を持つマルチビュービデオを生成する。最後に、これらのマルチビュービデオに対して、新規の近傍制約付き4Dガウススプラッティング最適化を適用し、連続的で安定した4Dキャラクター表現を得る。さらに、キャラクター中心の性能を向上させるため、13,115種類の多様な外観と動きを持つキャラクターを複数の視点からレンダリングした大規模データセットCharacter4Dを構築した。新たに構築したベンチマークCharacterBenchでの広範な実験により、本手法が現在の最先端手法を凌駕することを示す。コード、モデル、およびデータセットはhttps://github.com/Jeoyal/CharacterShotで公開予定である。
拡散型大規模言語モデル(dLLM)は反復的なノイズ除去を通じてテキストを生成しますが、現在のデコード戦略では最終出力を優先し、豊富な中間予測を捨てています。本研究では、正しい答えが中間プロセスで現れるものの、後のノイズ除去ステップで上書きされるという重要な現象、時間的振動(temporal oscillation)を明らかにします。この問題に対処するため、時間的一貫性を活用する2つの補完的な手法を導入します:1)時間的自己一貫性投票(Temporal Self-Consistency Voting)は、訓練不要のテスト時デコード戦略で、ノイズ除去ステップ全体の予測を集約し、最も一貫性のある出力を選択します;2)訓練後の手法である時間的一貫性強化(Temporal Consistency Reinforcement)は、中間予測間の意味的安定性を測る指標である時間的意味エントロピー(Temporal Semantic Entropy, TSE)を報酬信号として使用し、安定した生成を促します。複数のベンチマークでの実験結果は、本手法の有効性を示しています。負のTSE報酬のみを使用することで、既存のdLLMに対してCountdownデータセットで平均24.7%の顕著な改善を観測しました。精度報酬と組み合わせることで、GSM8Kで2.0%、MATH500で4.3%、SVAMPで6.6%、Countdownで25.3%の絶対的な向上を達成しました。本研究は、dLLMにおける時間的ダイナミクスの未開拓の可能性を強調し、それを活用するための2つのシンプルかつ効果的なツールを提供します。
近年、大規模推論モデルは数学的・コーディング能力において優れた性能を示しており、ディープサーチはその推論能力を活用して困難な情報検索タスクに取り組んでいます。既存のディープサーチ研究は、一般的にローカルまたはWebのいずれか単一の知識源に限定されています。しかし、企業ではローカルとWebの両方のコーパスを活用できるプライベートなディープサーチシステムを必要とすることが多いです。複数の検索ツールを備えたエージェントを単純な強化学習(RL)で訓練するのは直感的なアイデアですが、訓練データの効率が低い、複雑なツールの習熟が不十分といった問題があります。この課題を解決するため、我々は階層型RLで訓練される階層型エージェントディープサーチフレームワーク「HierSearch」を提案します。下位レベルでは、ローカルディープサーチエージェントとWebディープサーチエージェントがそれぞれの領域から証拠を検索するように訓練されます。上位レベルでは、プランナーエージェントが下位レベルのエージェントを調整し、最終的な回答を提供します。さらに、直接的な回答のコピーやエラーの伝播を防ぐため、下位レベルのエージェントが返す虚偽や無関係な証拠をフィルタリングする知識精製器を設計しました。実験の結果、HierSearchは単純なRLと比較して優れた性能を達成し、一般、金融、医療の各領域にわたる6つのベンチマークにおいて、様々なディープサーチおよび複数源検索拡張生成のベースラインを上回りました。
我々はVertexRegenを提案する。これは連続的な詳細レベルでのメッシュ生成を可能にする新しいメッシュ生成フレームワークである。既存の自己回帰的手法は部分から完全へとメッシュを生成するため、生成の中間段階では不完全な構造が表される。VertexRegenはプログレッシブメッシュに着想を得て、このプロセスをエッジコラプスの逆操作、すなわち頂点分割として再定式化し、生成モデルを通じて学習する。実験結果は、VertexRegenが最先端手法と同等の品質のメッシュを生成しつつ、任意の段階で停止して様々な詳細レベルの有効なメッシュを得られるという独自の「いつでも生成」機能を提供することを示している。
ビジョン・ランゲージモデルは、多様なコンピュータタスクを自動化可能なコンピュータ利用エージェント(CUA)として、印象的な能力を発揮してきました。その商業的ポテンシャルが高まるにつれ、最も優れたCUAシステムの重要な詳細は非公開のままです。これらのエージェントがデジタルインタラクションを仲介し、私たちに代わって重要な決定を実行するようになるにつれ、研究コミュニティはその能力、限界、リスクを研究するためのオープンなCUAフレームワークへのアクセスを必要としています。このギャップを埋めるため、私たちはOpenCUAを提案します。これはCUAデータと基盤モデルをスケーリングするための包括的なオープンソースフレームワークです。私たちのフレームワークは以下の要素で構成されます:(1) 人間のコンピュータ利用デモンストレーションをシームレスに記録するアノテーションインフラストラクチャ、(2) 3つのオペレーティングシステムと200以上のアプリケーション・ウェブサイトにまたがる初の大規模コンピュータ利用タスクデータセットであるAgentNet、(3) デモンストレーションを状態-行動ペアに変換し、データのスケーリングに伴って堅牢な性能向上を維持する反射的な長いChain-of-Thought推論を可能にするスケーラブルなパイプライン。私たちのエンドツーエンドエージェントモデルは、CUAベンチマーク全体で強力な性能を示しています。特に、OpenCUA-32BはOSWorld-Verifiedで平均成功率34.8%を達成し、オープンソースモデルの中で新たな最先端(SOTA)を確立し、OpenAI CUA(GPT-4o)を上回りました。さらなる分析により、私たちのアプローチがドメイン間でうまく一般化し、テスト時の計算量の増加から大きな恩恵を受けることが確認されました。私たちは、さらなるCUA研究のためのオープンな基盤を構築するために、アノテーションツール、データセット、コード、モデルを公開します。
グラフィカルユーザーインターフェース(GUI)グラウンディングは、自然言語の指示を正確な画面座標にマッピングするタスクであり、自律型GUIエージェントにとって基本的な技術です。既存の手法は、大規模な教師あり学習やラベル付き報酬を用いた強化学習を通じて高い性能を達成していますが、ピクセルレベルのアノテーションのコストと可用性に制約されています。我々は、モデルが同じGUI要素に対して複数の予測を生成する際、空間的な重なりパターンが暗黙的な信頼度信号を提供し、より正確な位置特定を導くことができることを観察しました。この洞察を活かし、我々はGUI-RC(Region Consistency)を提案します。これは、複数のサンプリングされた予測から空間的な投票グリッドを構築し、モデルが最も高い一致を示すコンセンサス領域を特定するテストタイムスケーリング手法です。学習を一切必要とせず、GUI-RCはScreenSpotベンチマークにおいて、様々なアーキテクチャで精度を2-3%向上させます。さらに、我々はGUI-RCPO(Region Consistency Policy Optimization)を導入します。これは、これらの一貫性パターンを報酬に変換し、テストタイム強化学習を可能にします。各予測が集団的なコンセンサスとどの程度一致するかを計算することで、GUI-RCPOはモデルが推論中にラベルなしデータに対して出力を反復的に改善することを可能にします。広範な実験により、我々のアプローチの汎用性が実証されています:GUI-RCはQwen2.5-VL-3B-InstructのScreenSpot-v2における精度を80.11%から83.57%に向上させ、GUI-RCPOは自己教師あり最適化を通じてさらに85.14%に改善します。我々のアプローチは、GUIグラウンディングにおけるテストタイムスケーリングとテストタイム強化学習の未開拓の可能性を明らかにし、より堅牢でデータ効率の良いGUIエージェントへの有望な道筋を提供します。
大規模言語モデル(LLM)の推論能力を向上させる最近の研究では、計算コストを制約しつつ精度を維持する手段として、明示的な長さ制御が導入されています。しかし、既存のアプローチは固定長のトレーニング予算に依存しており、学習中の探索から圧縮への自然な進行を活用していません。本研究では、Group Relative Policy Optimization(GRPO)を用いた長さ制御推論のためのカリキュラム学習戦略を提案します。この手法は、最初に十分なトークン予算を与え、トレーニング中に徐々にそれを厳しくすることで、モデルがまず効果的な解決策を見つけ、その後それをより簡潔な推論トレースに蒸留することを促します。GRPOを、タスクの正しさ(検証器フィードバックによる)、長さ効率、およびフォーマット遵守(構造タグによる)の3つの信号をバランスさせる報酬関数で拡張します。GSM8K、MATH500、SVAMP、College Math、およびGSM+での実験により、カリキュラムベースのトレーニングが、同じ最終予算で固定予算ベースラインを一貫して上回り、より高い精度と大幅に改善されたトークン効率を達成することが示されました。さらに、報酬の重み付けと減衰スケジュール設計の影響を分析し、漸進的な制約が効率的な推論モデルのトレーニングにおける強力な帰納的バイアスとして機能することを示します。コードとチェックポイントは以下で公開されています:https://github.com/hammoudhasan/curriculum_grpo。
現在の音声駆動アバタービデオ生成のための拡散モデルは、自然な音声同期とアイデンティティの一貫性を保ちつつ長いビデオを合成するのに苦戦している。本論文では、後処理なしで無限の長さの高品質ビデオを合成する初のエンドツーエンドのビデオ拡散トランスフォーマーであるStableAvatarを提案する。参照画像と音声を条件として、StableAvatarは無限長ビデオ生成を可能にするための専用のトレーニングと推論モジュールを統合している。既存のモデルが長いビデオを生成できない主な理由は、その音声モデリングにあることが観察された。これらのモデルは通常、サードパーティの既成の抽出器を使用して音声埋め込みを取得し、それをクロスアテンションを介して拡散モデルに直接注入する。現在の拡散バックボーンには音声関連の事前知識が欠如しているため、このアプローチはビデオクリップ間で潜在分布の誤差が蓄積し、後続のセグメントの潜在分布が最適分布から徐々に逸脱する原因となる。これを解決するため、StableAvatarは、時間ステップを意識した変調により誤差蓄積を防ぐ新しいTime-step-aware Audio Adapterを導入する。推論時には、拡散モデル自身の進化する音声-潜在予測を動的なガイダンス信号として活用することで、音声同期をさらに強化する新しいAudio Native Guidance Mechanismを提案する。無限長ビデオの滑らかさを向上させるために、時間経過に伴う潜在を融合するDynamic Weighted Sliding-window Strategyを導入する。ベンチマークでの実験により、StableAvatarの有効性が定性的および定量的に示された。
テキストから画像(T2I)生成は、拡散モデル(Diffusion Models)と自己回帰モデル(Autoregressive Models)を用いて活発に研究されてきた。最近では、マスク付き生成トランスフォーマー(Masked Generative Transformers)が、因果的注意(causal attention)と自己回帰デコーディング(autoregressive decoding)の制限を克服するための代替手法として注目を集めている。これにより、双方向注意(bidirectional attention)と並列デコーディング(parallel decoding)を通じて、効率的で高品質な画像生成が可能となった。しかし、構成要素を考慮したT2I生成は依然として課題であり、最先端の拡散モデルでさえ、属性を正確に結びつけたり、テキストと画像の整合性を適切に達成したりすることが難しい。拡散モデルはこの問題に対して広く研究されてきたが、マスク付き生成トランスフォーマーも同様の制限を示すものの、この文脈ではまだ検討されていない。この課題に対処するため、我々は「Unmasking with Contrastive Attention Guidance(UNCAGE)」を提案する。これは、個々のオブジェクトを明確に表現するトークンのアンマスキングを優先するために注意マップを活用し、構成要素の忠実度を向上させる新しいトレーニング不要の手法である。UNCAGEは、複数のベンチマークと評価指標において、定量的および定性的な評価で一貫して性能を向上させ、推論時のオーバーヘッドも無視できる程度である。我々のコードはhttps://github.com/furiosa-ai/uncageで公開されている。
私たちは、インドの大学入試であるJoint Entrance Examination(JEE)向けに最適化された、コンパクトな7Bパラメータの数学推論モデル「Aryabhata 1.0」を発表します。大規模言語モデル(LLM)の急速な進展にもかかわらず、現在のモデルは教育用途には不適切な場合が多いです。Aryabhata 1.0は、強力なオープンウェイトの推論モデルを統合し、その後、ベストオブnリジェクションサンプリングによってキュレートされた検証済みの連鎖的思考(CoT)トレースを用いたカリキュラム学習による教師あり微調整(SFT)を施して構築されました。さらに性能を向上させるため、A2C目的関数を用いた検証可能な報酬による強化学習(RLVR)を適用し、グループ相対アドバンテージ推定とともに、適応的グループリサイジングや温度スケーリングといった新しい探索戦略を採用しました。 Aryabhataは、分布内(JEE Main 2025)および分布外(MATH、GSM8K)のベンチマークで評価され、既存のモデルを精度と効率の両面で上回り、教育的に有用なステップバイステップの推論を提供します。私たちは、試験中心のオープンソース小型言語モデルの進展を促す基盤モデルとしてAryabhataを公開します。これは、コミュニティからのフィードバックを求める初めてのオープンリリースです(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face})。PWは、学生の学習成果をさらに向上させるため、今後のモデルのトレーニングを積極的に進めています。
大規模言語モデル(LLMs)が環境と有意義に相互作用するためには、効果的なツール使用が不可欠である。しかし、安定した訓練環境の構築や検証可能な報酬メカニズムの設計における課題から、ツール使用に特化した効率的な強化学習(RL)フレームワークの進展は限られている。この問題に対処するため、我々はシナリオ分解、ドキュメント生成、関数統合、複雑度スケーリング、ローカルデプロイメントを組み込んだ自動化された環境構築パイプラインを提案する。これにより、外部ツールに依存せずに詳細かつ測定可能なフィードバックを提供する高品質な訓練環境の作成が可能となる。さらに、ツール使用の精度とタスク実行の完全性を評価する検証可能な報酬メカニズムを導入する。構築された環境から収集された軌跡データと組み合わせることで、このメカニズムは標準的なRLアルゴリズムとシームレスに統合され、フィードバック駆動型のモデル訓練を促進する。様々な規模のLLMsを用いた実験により、推論モードや訓練アルゴリズムに関わらず、本手法がモデルの一般的な能力を損なうことなくツール使用性能を大幅に向上させることが示された。分析の結果、これらの向上はモデルの下位層MLPパラメータの更新によってもたらされる文脈理解と推論能力の改善に起因することが示唆される。
効果的なマルチショット生成には、意図的で映画のようなトランジションと厳密な映画的連続性が求められる。しかし、現在の手法では、基本的な視覚的一貫性を優先し、物語の流れを駆動する重要な編集パターン(例:ショット/リバースショット、カットアウェイ)を軽視する傾向がある。これにより、視覚的には一貫しているが、物語の洗練度や真の映画的整合性に欠ける出力が生じる。このギャップを埋めるため、我々はNext Shot Generation(NSG)を提案する。NSGは、厳密な映画的連続性を維持しながら、プロフェッショナルな編集パターンに厳密に準拠した高品質な次のショットを合成する。我々のフレームワークであるCut2Nextは、Diffusion Transformer(DiT)を活用し、新たなHierarchical Multi-Prompting戦略に基づくin-contextチューニングを採用する。この戦略では、Relational Promptsを使用して全体的なコンテキストとショット間の編集スタイルを定義し、Individual Promptsを使用して各ショットの内容と映画的属性を指定する。これらを組み合わせることで、Cut2Nextは映画的に適切な次のショットを生成する。アーキテクチャ上の革新であるContext-Aware Condition Injection(CACI)とHierarchical Attention Mask(HAM)は、新たなパラメータを導入することなく、これらの多様な信号を統合する。我々は、階層的プロンプトを備えた大規模なRawCutsデータセットと精選されたCuratedCutsデータセットを構築し、評価のためのCutBenchを導入した。実験結果は、Cut2Nextが視覚的一貫性とテキスト忠実性において優れていることを示している。特に、ユーザー調査では、Cut2Nextが意図した編集パターンと全体的な映画的連続性に忠実である点が強く支持され、高品質で物語的に表現力があり、映画的に一貫した次のショットを生成する能力が検証された。
汎用的な物体把持が可能な器用なハンドは、汎用型エンボディドAIの開発において基本的な要素である。しかし、従来の手法は低レベルの把持安定性指標に限定されており、下流の操作において重要なアフォーダンスを考慮した位置決めや人間らしい姿勢を軽視してきた。これらの制約を解決するため、我々はAffordDexを提案する。これは、運動の事前知識と物体のアフォーダンスの両方を本質的に理解する普遍的把持ポリシーを学習する、2段階のトレーニングを特徴とする新しいフレームワークである。第1段階では、人間の手の動きの大規模なコーパスを用いて軌道模倣器を事前学習し、自然な動きに対する強力な事前知識を習得させる。第2段階では、残差モジュールを訓練し、これらの一般的な人間らしい動きを特定の物体インスタンスに適応させる。この精緻化は、機能的に不適切な接触領域を特定するNegative Affordance-aware Segmentation(NAA)モジュールと、最終的な視覚ベースのポリシーが高い成功率を達成することを保証する特権的な教師-生徒蒸留プロセスという2つのコンポーネントによって重要な指導を受ける。広範な実験により、AffordDexが普遍的な器用把持を達成するだけでなく、姿勢が非常に人間らしく、接触位置が機能的に適切であることが実証された。その結果、AffordDexは既知の物体、未知のインスタンス、さらには全く新しいカテゴリーにわたって、最先端のベースラインを大幅に上回る性能を示した。
本研究では、ファインチューニングや特別なトレーニングを必要とせず、ローカル環境で動作する大規模言語モデル(LLM)が完全なプレスのディプロマシーをプレイできる初の評価フレームワークを提案する。従来の研究では、ディプロマシーのゲーム状態の高度な複雑性と情報密度のため、最先端のLLMやファインチューニングが必要とされていた。これに加え、試合の高いばらつきも相まって、ディプロマシーの研究は困難であった。本論文では、データ駆動型の反復を通じて、24B規模のモデルがファインチューニングなしで確実に試合を完遂できるよう、テキストベースのゲーム状態表現を最適化した。仮説検証と統計分析を容易にするツールを開発し、説得、攻撃的なプレイスタイル、およびさまざまなモデル間での性能に関するケーススタディを提示する。多数の人気LLMを用いた多様な実験を行い、大規模モデルが最も優れた性能を示す一方で、小規模モデルも十分にプレイ可能であることを確認した。さらに、ゲームの重要な局面を迅速に反復し、深く分析するための実験プロトコルである「クリティカルステート分析」を導入した。本フレームワークは、ファインチューニングの必要性を排除することで、LLMにおける戦略的推論の評価を民主化し、広く使用されているLLMからこれらの能力が自然に発現するメカニズムに関する洞察を提供する。本論文の補遺にコードを掲載し、オープンソースとして公開する予定である。
クロスモーダルモデルの発展により、テキストからビデオを検索する技術(T2VR)は急速に進歩していますが、その堅牢性はほとんど検証されていません。既存のT2VRに対する攻撃は、ビデオをクエリから遠ざける、つまりビデオのランクを下げるように設計されていますが、選択したクエリにビデオを近づける、つまりビデオのランクを上げる攻撃はほとんど研究されていません。これらの攻撃は、攻撃者が金銭的利益や広範な(誤)情報を得るためにより多くの視聴数/クリック数を獲得する可能性があるため、より影響力が大きいと言えます。この目的のために、我々はT2VRに対してビデオを敵対的に昇格させる初めての攻撃を開拓し、これをVideo Promotion攻撃(ViPro)と名付けました。さらに、視覚とテキストのモダリティ間のより細かい、複雑な相互作用を捉えるためにModal Refinement(MoRe)を提案し、ブラックボックス転送性を向上させました。包括的な実験では、2つの既存のベースライン、3つの主要なT2VRモデル、1万以上のビデオを含む3つの主要なデータセットをカバーし、3つのシナリオで評価しました。すべての実験は、攻撃者が複数のクエリに関して同時にビデオを昇格させようとする現実的なシナリオを反映するために、マルチターゲット設定で実施されました。また、防御と知覚不能性についても攻撃を評価しました。全体として、ViProはホワイト/グレー/ブラックボックス設定で平均して他のベースラインを30/10/4%以上上回りました。我々の研究は見過ごされていた脆弱性を強調し、攻撃の上限/下限についての定性的分析を提供し、潜在的な対策への洞察を提供します。コードはhttps://github.com/michaeltian108/ViProで公開されます。
本論文では、エンコーダ-デコーダ型ASRモデルにおけるデコーダによって誘導される内部言語モデルのための、シンプルでありながら効果的な正則化手法を提案し、ドメイン内およびドメイン外の設定におけるロバスト性と汎化性能の向上を実現する。提案手法であるDeCRED(Decoder-Centric Regularization in Encoder-Decoder)は、デコーダに補助分類器を追加し、中間ロジットを介して次のトークンの予測を可能にする。実験的に、DeCREDは11のテストセットにおいて、内部言語モデルのBPEパープレキシティを36.6%相対的に低減した。さらに、これは実際のWER改善につながり、7つのドメイン内テストセットのうち5つ、4つのドメイン外テストセットのうち3つでベースラインを上回り、マクロWERをそれぞれ6.4%から6.3%、18.2%から16.2%に低減した。TEDLIUM3では、DeCREDは7.0%のWERを達成し、ベースラインおよびエンコーダ中心のInterCTC正則化をそれぞれ0.6%、0.5%上回った。最後に、DeCREDをOWSM v3.1およびWhisper-mediumと比較し、はるかに少ないデータとパラメータで学習したにもかかわらず、競争力のあるWERを示した。
GitHub CopilotのようなAIコーディングアシスタントはソフトウェア開発を急速に変革していますが、特にサイバーセキュリティのようなハイステークス領域では、その安全性は依然として不確かです。現在のレッドチームツールは、固定されたベンチマークや非現実的なプロンプトに依存することが多く、現実世界の脆弱性の多くを見逃しています。本論文では、AI駆動のコード生成およびセキュリティガイダンスシステムにおける安全性の欠陥を体系的に発見するために設計された自動エージェントシステム、ASTRAを紹介します。ASTRAは3つの段階で動作します:(1)複雑なソフトウェアタスクと既知の弱点をモデル化するドメイン固有の構造化知識グラフを構築します;(2)知識グラフに基づいて、各ターゲットモデルの入力空間(空間的探索)と推論プロセス(時間的探索)を適応的に探査することで、オンライン脆弱性探索を行います;(3)モデルのアライメントを改善するための高品質な違反誘発ケースを生成します。従来の手法とは異なり、ASTRAは開発者が実際に尋ねる可能性のある現実的な入力に焦点を当て、オフラインの抽象化ガイドによるドメインモデリングとオンラインのドメイン知識グラフ適応を活用して、コーナーケースの脆弱性を浮き彫りにします。2つの主要な評価ドメインにおいて、ASTRAは既存の技術よりも11~66%多くの問題を発見し、17%効果的なアライメントトレーニングにつながるテストケースを生成し、より安全なAIシステムを構築するための実用的な価値を示しています。
本論文では、ロボット操作における視覚運動ポリシー学習を改善するための明示的な空間的手がかりを提供する軽量な視覚的拡張技術「AimBot」を提案する。AimBotは、マルチビューRGB画像に射撃線とスコープレティクルをオーバーレイし、エンドエフェクタの状態をエンコードする補助的な視覚的ガイダンスを提供する。これらのオーバーレイは、深度画像、カメラの外部パラメータ、および現在のエンドエフェクタの姿勢から計算され、グリッパーとシーン内のオブジェクト間の空間的関係を明示的に伝える。AimBotは、最小限の計算オーバーヘッド(1ミリ秒未満)しか発生せず、モデルアーキテクチャの変更を必要としない。元のRGB画像を拡張された画像に置き換えるだけで実現できる。その簡潔さにもかかわらず、我々の結果は、AimBotがシミュレーションと実世界の両方の設定において、様々な視覚運動ポリシーの性能を一貫して向上させることを示しており、空間的に根ざした視覚的フィードバックの利点を強調している。
大規模言語モデル(LLM)は、さまざまな領域で顕著な能力を発揮しており、コード生成はその中でも重要な焦点領域として浮上しています。これまで、コード生成能力を評価するための多数のベンチマークが提案されてきましたが、これらのベンチマークにはいくつかの重大な限界があります。第一に、多くのベンチマークは手動による注釈に依存しており、異なるプログラミング言語や問題の複雑さにわたってスケールすることが困難で時間がかかります。第二に、既存のベンチマークのほとんどはPythonに焦点を当てており、多言語対応のベンチマークは限られた難易度と不均等な言語分布に悩まされています。これらの課題に対処するため、我々はAutoCodeGenを提案します。これは、手動注釈なしで高難易度の多言語コード生成データセットを自動生成する方法です。AutoCodeGenは、LLMを使用してテスト入力を生成し、多言語サンドボックスを通じてテスト出力を取得することで、テストケースの正確性と完全性を保証します。さらに、逆順問題生成と複数のフィルタリングステップを通じて高いデータ品質を実現します。この新しい方法を用いて、我々はAutoCodeBenchを導入します。これは、20のプログラミング言語に均等に分布する3,920の問題からなる大規模なコード生成ベンチマークであり、LLMを挑戦的で多様かつ実践的な多言語タスクで評価するために特別に設計されています。我々は、30以上の主要なオープンソースおよびプロプライエタリなLLMをAutoCodeBenchおよびその簡易版であるAutoCodeBench-Liteで評価しました。その結果、最も先進的なLLMでさえ、これらのタスクの複雑さ、多様性、多言語性に苦戦することが明らかになりました。さらに、ベースモデルのfew-shotコード生成能力を評価するために特別に設計されたAutoCodeBench-Completeを導入します。我々は、AutoCodeBenchシリーズが貴重なリソースとして機能し、コミュニティがより挑戦的で実践的な多言語コード生成シナリオに焦点を当てることを促すことを期待しています。
LLM(大規模言語モデル)は、インコンテキスト学習(ICL)を利用することで機械翻訳(MT)において優れた性能を発揮し、高資源言語(HRL)への翻訳においては教師ありモデルと同等の性能を示すことが実証されている。しかし、低資源言語(LRL)への翻訳では性能が劣る。類似性検索による例の選択や教師ありファインチューニングは改善に寄与するが、その効果は既存の並列データセットの規模、品質、多様性によって制限される。低資源MTにおける一般的な手法は、合成並列データの作成であり、その中でも最も頻繁に用いられるのが逆翻訳である。これは、既存のターゲット側テキストを自動的にソース言語に翻訳するものである。しかし、この手法は、高品質で関連性のあるターゲット側テキストの存在を前提としており、多くのLRLでは容易に利用できない。本論文では、複数のLRLにおいて高品質でトピック多様なデータを生成するLLMベースのアプローチであるTopXGenを提案する。生成されたデータは逆翻訳され、ICLやファインチューニングに有用で多様な並列テキストを生成する。我々の直感は、LLMがLRLへの翻訳に苦戦する一方で、HRLへの翻訳能力と多言語性を活かすことで、高品質で自然なターゲット側テキストを生成し、それを高資源ソース言語にうまく翻訳できるというものである。TopXGenは、ファインチューニングおよびインコンテキスト学習中のLLM翻訳性能を向上させることを示す。コードと出力はhttps://github.com/ArmelRandy/topxgenで公開されている。
大規模言語モデルがますます高度化しているにもかかわらず、インターネット上で十分に表現されていないタスクにおいて優れた性能を発揮することを期待するのは依然として非現実的である。特に、ニッチなプログラミング言語やプライベートなドメインにおける専門的なアプリケーションにおいて、大規模言語モデルを活用することは困難であり、未解決の課題が多い。本研究では、このギャップを埋めるために、Qプログラミング言語に大規模言語モデルを適応させるための包括的でオープンソースのアプローチを提案する。Qは定量金融で広く使用されているツールであるが、Python、C、Javaなどの「主流」言語と比較してインターネット上での存在感が薄く、汎用AIモデルの得意分野ではない。本論文では、Q向けの新しいLeetcodeスタイルの評価データセットを導入し、主要なフロンティアモデルをこのデータセットでベンチマークした後、Qwen-2.5シリーズに基づいて推論モデルと非推論モデルのスイートを、5つのパラメータサイズ(1.5B、3B、7B、14B、32B)にわたって事前学習、教師あり微調整、強化学習を行い訓練した。我々の最良のモデルは、Qベンチマークにおいて59%のpass@1精度を達成し、最高性能のフロンティアモデルであるClaude Opus-4を29.5%上回った。さらに、すべてのモデル、特に1.5Bモデルでさえ、このタスクにおいてGPT-4.1を凌駕した。モデル、コード、データの公開に加えて、データセット構築、モデルの事前学習、教師あり微調整、強化学習に関する詳細な設計図を提供する。我々の方法論は広く適用可能であり、これらの技術が評価がソフトまたは主観的な信号に依存するタスクを含む他のタスクにどのように拡張できるかについても議論する。
3Dガウススプラットのスタイル転送タスクは、これまで多くの研究で取り組まれてきたが、それらはスタイル情報を組み込みながらスプラットを再構築または微調整するか、スプラット表現上で特徴抽出ネットワークを最適化することを必要としていた。本研究では、再構築や最適化を必要としない3Dガウススプラットのスタイリング手法を提案する。これは、スプラット表現の陰的表面上にグラフ構造を生成することで実現される。その後、フィードフォワード型の表面ベースのスタイリング手法が適用され、シーン内の個々のスプラットに補間される。これにより、追加のトレーニングや最適化を必要とせず、任意のスタイル画像と3Dガウススプラットを使用することが可能となる。また、この手法によりスプラットの高速なスタイリングが実現され、コンシューマーグレードのハードウェア上でも2分未満で処理が完了する。本手法が達成する品質の結果を示し、他の3Dガウススプラットスタイル転送手法と比較する。コードはhttps://github.com/davidmhart/FastSplatStylerで公開されている。
量子ゲーム理論を実際のハードウェア上で実装することは、ノイズ、デコヒーレンス、および限られた量子ビット接続性のため困難であるが、そのような実証は理論的予測を検証するために不可欠である。本研究では、IBM Quantumのibm sherbrooke超伝導プロセッサ上で、Eisert-Wilkens-Lewenstein(EWL)フレームワークに基づく「男女の戦い」ゲームの最初の完全な実験的実現の一つを提示する。4つの量子戦略(I、H、R(π/4)、R(π))を、γ ∈ [0, π]の31のエンタングルメント値に対して、各設定で2048ショットを用いて評価し、解析的予測とハードウェア実行の直接比較を可能にした。ノイズと変動を軽減するため、リアルタイムのトポロジーとキャリブレーションデータに基づいて量子ビットペアを動的に選択し、ルーティングを最適化するGuided Circuit Mapping(GCM)法を導入した。解析モデルは、古典的均衡に対する最大108%のペイオフ改善を予測し、ハードウェアによる偏差にもかかわらず、GCMを用いた実験結果は、3.5%-12%の相対誤差範囲内で期待されるペイオフの傾向を維持した。これらの結果は、戦略的調整における量子優位性が現実的なNISQ条件下でも持続し得ることを示し、マルチエージェント、経済、および分散意思決定システムにおける量子ゲーム理論の実用的応用への道筋を提供する。
大規模言語モデル(LLM)の重みにエンコードされたバイアスやステレオタイプを理解することは、効果的な緩和策を開発する上で極めて重要です。バイアスに基づく振る舞いはしばしば微妙で、意図的に引き出された場合でも特定することが容易ではなく、体系的な分析とバイアス除去は特に困難です。この問題に対処するため、我々はBiasGymを提案します。これは、LLM内の概念的関連性を確実に注入、分析、緩和するためのシンプルでコスト効率が高く、汎用性のあるフレームワークです。BiasGymは2つのコンポーネントで構成されています:BiasInjectは、モデルを凍結した状態でトークンベースのファインチューニングを通じて特定のバイアスをモデルに注入し、BiasScopeはこれらの注入された信号を活用して、バイアスに基づく振る舞いを引き起こすコンポーネントを特定し、制御します。我々の手法は、メカニズム分析のための一貫したバイアスの引き出しを可能にし、下流タスクの性能を低下させることなくターゲットを絞ったバイアス除去をサポートし、トレーニング中に見られなかったバイアスにも一般化します。我々は、BiasGymが現実世界のステレオタイプ(例:ある国の人々が「無謀な運転手」である)を軽減し、架空の関連性(例:ある国の人々が「青い肌」を持っている)を探る上で有効であることを示し、安全性介入と解釈可能性研究の両方における有用性を実証します。
赤血球(RBC)は人間の健康に不可欠であり、その正確な形態学的分析は血液疾患の診断において重要です。医療診断における基盤モデルの可能性にもかかわらず、RBC分析のための包括的なAIソリューションは依然として不足しています。本論文では、RBC画像分析のために設計された自己教師あり基盤モデルであるRedDinoを紹介します。RedDinoは、DINOv2自己教師あり学習フレームワークをRBCに特化して適応させ、多様な取得モダリティとソースから収集された125万枚のRBC画像データセットで学習されています。広範な評価により、RedDinoがRBC形状分類において既存の最先端モデルを上回ることが示されています。線形プローブや最近傍分類を含む評価を通じて、その強力な特徴表現と汎化能力を確認しました。我々の主な貢献は以下の通りです:(1) RBC分析に特化した基盤モデル、(2) RBCモデリングのためのDINOv2構成を探るアブレーションスタディ、(3) 汎化性能の詳細な評価。RedDinoは、微妙な形態学的特徴を捉えることで計算血液学における主要な課題に対処し、信頼性の高い診断ツールの開発を進めます。RedDinoのソースコードと事前学習済みモデルはhttps://github.com/Snarci/RedDinoで公開されており、事前学習済みモデルはHugging Faceコレクション(https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc)からダウンロード可能です。
都市化、気候変動、農業ストレスの増大により、精密かつタイムリーな環境モニタリングの需要が高まっています。地表面温度(LST)はこの文脈における重要な変数であり、リモートセンシング衛星から取得されます。しかし、これらのシステムは空間解像度と時間解像度のトレードオフに直面しています。時空間融合手法は有望な解決策を提供しますが、10m解像度での日次LST推定に取り組んだものはほとんどありません。本研究では、Terra MODIS、Landsat 8、Sentinel-2の時空間融合による日次10m LST推定のための弱教師付き生成ネットワーク、WGASTを提案します。WGASTはこのタスクのために設計された初めてのエンドツーエンドの深層学習フレームワークです。条件付き生成的敵対的アーキテクチャを採用し、生成器は特徴抽出、融合、LST再構築、ノイズ抑制の4段階で構成されています。第1段階では、一連のエンコーダを使用して入力から多層の潜在表現を抽出し、第2段階ではコサイン類似度、正規化、時間的注意機構を用いて融合します。第3段階では、融合された特徴を高解像度LSTにデコードし、その後ガウシアンフィルタを使用して高周波ノイズを抑制します。訓練は物理的平均原理に基づく弱教師付き戦略に従い、PatchGAN識別器によって強化されます。実験結果は、WGASTが定量的および定性的評価の両方で既存の手法を上回ることを示しています。最も性能の良いベースラインと比較して、平均的にWGASTはRMSEを17.18%削減し、SSIMを11.00%向上させます。さらに、WGASTは雲によるLSTに対して頑健であり、33の地上センサーに対する検証により、微細な熱パターンを効果的に捉えることが確認されています。コードはhttps://github.com/Sofianebouaziz1/WGAST.gitで公開されています。
大規模言語モデル(LLM)の継続学習能力は、人工汎用知能の進展において極めて重要である。しかし、様々なドメインにわたるLLMの継続的ファインチューニングは、しばしば破滅的忘却に悩まされる。これは、1) 一般的な能力の著しい忘却、および 2) 以前に学習したタスクにおける急激な性能低下として特徴づけられる。これらの問題を同時に解決するため、我々はシンプルかつ安定した方法として、General Sample Replay(GeRe)を提案する。これは、効率的な忘却防止のために通常の事前学習テキストを利用するフレームワークである。GeReの下で最も一般的なリプレイベースの手法を再検討するだけでなく、ニューラル状態を活用して、閾値ベースのマージン(TM)損失を用いた強化された活性化状態制約最適化手法を導入し、リプレイ学習中の活性化状態の一貫性を維持する。我々は、事前に収集された少量の固定された一般リプレイサンプルセットが、一般的な能力を保持しつつ、逐次タスク全体の性能を促進するという両方の懸念を解決するのに十分であることを初めて検証した。実際、前者は後者を本質的に促進し得る。制御された実験を通じて、GeReフレームワーク下でのTMと、バニララベルフィッティング、KLダイバージェンスによるロジット模倣、L1/L2損失による特徴模倣といった異なるリプレイ戦略を体系的に比較した。結果は、TMが一貫して性能を向上させ、より優れたロバスト性を示すことを実証している。我々の研究は、将来のLLMの効率的なリプレイへの道を開くものである。コードとデータはhttps://github.com/Qznan/GeReで公開されている。
現在の大規模言語モデル(LLM)向けの数学的推論ベンチマークは飽和状態に近づいており、一部では90%以上の精度を達成しているが、トレーニングデータセットの汚染によってますます影響を受けている。本論文では、著名なウィリアム・ローウェル・プットナム数学競技会から抽出された522問の大学レベルの競技問題からなるベンチマーク「Putnam-AXIOM」と、変数や定数をプログラム的に変更して生成された100問の未見の機能バリエーションセット「Putnam-AXIOM Variation」を紹介する。このバリエーションプロトコルは、同等の難易度を持つ未見のインスタンスを無制限に生成し、汚染に強いテストベッドを提供する。オリジナルセットでは、OpenAIのo1-preview(評価された中で最強のモデル)が41.9%のスコアを達成したが、対応するバリエーションセットでは精度が19.6%(相対的に46.8%の減少)低下した。残りの18モデルも同様の低下傾向を示し、そのうち10モデルでは95%信頼区間が重ならない。これらのギャップは記憶化を示唆しており、動的なベンチマークの必要性を強調している。我々は「ボックス化」された精度に加えて、推論トレースを直接評価し、自然言語による証明評価を自動化する軽量な指標「Teacher-Forced Accuracy(TFA)」を補完する。したがって、Putnam-AXIOMは、LLMの高度な数学的推論能力を評価するための厳密で汚染に強い評価フレームワークを提供する。データと評価コードはhttps://github.com/brando90/putnam-axiomで公開されている。
地球の表面は常に変化しており、これらの変化を検出することは、人間社会のさまざまな側面に有益な洞察を提供します。従来の変化検出手法は、二時相画像から変化を検出するために使用されてきましたが、これらのアプローチは通常、正確な解釈のために専門知識を必要とします。非専門家ユーザーが変化情報に広く柔軟にアクセスできるようにするために、変化検出視覚質問応答(CDVQA)タスクが導入されました。しかし、既存のCDVQA手法は、訓練データセットとテストデータセットが類似した分布を共有しているという仮定の下で開発されています。この仮定は、現実世界のアプリケーションでは成り立たず、ドメインシフトが頻繁に発生します。本論文では、ドメインシフトに対処することに焦点を当てて、CDVQAタスクを再検討します。この目的のために、CDVQAにおけるドメイン一般化研究を促進する新しいマルチモーダルかつマルチドメインのデータセット、BrightVQAを紹介します。さらに、テキスト条件付き状態空間モデル(TCSSM)と呼ばれる新しい状態空間モデルを提案します。TCSSMフレームワークは、二時相画像と地理災害関連のテキスト情報を統一的に活用して、ドメイン間で不変な特徴を抽出するように設計されています。TCSSMに存在する入力依存パラメータは、二時相画像と地理災害関連の説明の両方を使用して動的に予測され、それによって二時相視覚データと関連するテキスト記述の整合性が促進されます。提案手法を最先端のモデルと比較して評価するために広範な実験が行われ、一貫して優れた性能が実証されています。コードとデータセットは、受理後https://github.com/Elman295/TCSSMで公開されます。
芸術的スタイル変換は、畳み込みおよびトランスフォーマーベースのニューラルネットワークの進歩により、長らく実現可能となってきた。ほとんどのアルゴリズムは、画像全体に芸術的スタイル変換を適用するが、個々のユーザーは画像内の特定の領域にのみスタイル変換を適用したい場合がある。標準的な手法は、スタイル化後に単に画像をマスクすることである。本研究では、このアプローチが関心領域のスタイル特徴を不適切に捉える傾向があることを示す。我々は、関心領域にのみ正確にスタイル特徴を適用する部分畳み込みベースのスタイル変換ネットワークを提案する。さらに、領域選択の不完全さを考慮したネットワーク内部のブレンディング技術を提示する。SA-1Bデータセットの例を用いて、この手法が視覚的および定量的にスタイル化を改善することを示す。コードはhttps://github.com/davidmhart/StyleTransferMaskedで公開されている。
パラ言語的音声表現―笑いや呼吸などの非言語音、および「えーと」や「ああ」といった語彙化された間投詞を含む―は、自然な音声コミュニケーションにおいて不可欠な要素である。これらの音声表現は、感情、意図、および相互作用の手がかりを伝える上で重要な役割を果たすにもかかわらず、従来の自動音声認識(ASR)やテキスト音声合成(TTS)システムではほとんど注目されてこなかった。本論文では、パラ言語的音声表現の認識と合成を統合し、データセット構築、ASRモデリング、制御可能なTTSを包括する、拡張性のあるパイプラインであるNVSpeechを提案する。(1) 18の単語レベルのパラ言語的カテゴリを含む48,430の発話からなる手動アノテーション済みデータセットを紹介する。(2) パラ言語的認識を可能にするASRモデルを開発し、パラ言語的手がかりをインラインでデコード可能なトークン(例:「あなたは面白い[笑い]」)として扱い、語彙的および非言語的転写を同時に行う。このモデルを用いて、単語レベルのアライメントとパラ言語的手がかりを含む174,179の発話(573時間)からなる大規模な中国語データセットを自動アノテーションする。(3) 人間によるアノテーションおよび自動アノテーションされたデータを用いてゼロショットTTSモデルを微調整し、パラ言語的音声表現を明示的に制御し、任意のトークン位置に文脈を考慮した挿入を可能にすることで、人間らしい音声合成を実現する。NVSpeechは、パラ言語的音声表現の認識と生成を統合し、中国語における表現豊かな音声モデリングのための初めてのオープンで大規模な単語レベルアノテーション済みパイプラインを提供し、認識と合成を拡張性と制御性を備えた形で統合する。データセットと音声デモはhttps://nvspeech170k.github.io/で公開されている。