翻訳付きの日次キュレーションされたAI研究論文
本論文では、Qwen3-Omniを紹介する。これは、テキスト、画像、音声、動画の各モダリティにおいて、単一モダリティモデルと比較しても性能の劣化を伴わずに、初めて最先端の性能を維持する単一のマルチモーダルモデルである。Qwen3-Omniは、Qwenシリーズ内の同規模の単一モダリティモデルと同等の性能を発揮し、特に音声タスクにおいて優れた結果を示す。36の音声および音声視覚ベンチマークにおいて、Qwen3-Omniは32のベンチマークでオープンソースSOTAを達成し、全体で22のベンチマークでSOTAを記録し、Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribeといった強力なクローズドソースモデルを上回った。Qwen3-Omniは、テキスト、画像、音声、動画にわたる知覚と生成を統合するThinker-Talker MoEアーキテクチャを採用し、流暢なテキストと自然なリアルタイム音声を生成する。119言語でのテキストインタラクション、19言語での音声理解、10言語での音声生成をサポートする。ストリーミング合成における初回パケットの遅延を低減するため、Talkerはマルチコードブック方式を用いて離散音声コーデックを自己回帰的に予測する。これらのコードブックの表現能力を活用し、計算集約的なブロック単位の拡散を軽量な因果的ConvNetに置き換えることで、初回コーデックフレームからのストリーミングを可能にした。コールドスタート設定において、Qwen3-Omniは理論的なエンドツーエンド初回パケット遅延234 msを達成する。マルチモーダル推論をさらに強化するため、任意のモダリティからの入力に対して明示的に推論を行うThinkingモデルを導入した。現在、研究コミュニティには汎用の音声キャプショニングモデルが存在しないため、Qwen3-Omni-30B-A3Bを微調整してQwen3-Omni-30B-A3B-Captionerを取得し、任意の音声入力に対して詳細で幻覚の少ないキャプションを生成する。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking、およびQwen3-Omni-30B-A3B-Captionerは、Apache 2.0ライセンスの下で公開されている。
我々は、エージェンシー(Agency)を、AIシステムが自律エージェントとして機能し、環境やツールとの自己主導的な関わりを通じて、問題を発見し、仮説を立て、解決策を実行するという創発的な能力として定義する。この基本的な能力は、AIエージェンシーの時代の幕開けを示しており、重要な産業の転換点によって推進されている:つまり、単に考えるだけでなく、実際に働くAIシステムの緊急の必要性である。現在のAIは推論や応答生成に優れているが、産業界はタスクを実行し、ツールを操作し、現実世界の成果を生み出す自律エージェントを求めている。エージェント的知能が、認知システムと生産的な労働者を分ける決定的な特徴となるにつれ、機械の自律性を効率的に育成することが最重要課題となる。現在のアプローチでは、言語モデリングの伝統的なスケーリング則に従い、より多くのデータがより良いエージェンシーを生み出すと仮定されている。我々はこのパラダイムに根本的に異議を唱える。LIMI(Less Is More for Intelligent Agency)は、エージェンシーが全く異なる発展原理に従うことを示している。共同ソフトウェア開発と科学研究ワークフローに戦略的に焦点を当てることで、自律行動の最小限だが戦略的に選ばれたデモンストレーションから、洗練されたエージェント的知能が創発することを示す。わずか78の慎重に設計されたトレーニングサンプルを使用して、LIMIは包括的なエージェンシーベンチマークで73.5%を達成し、最先端のモデルを大幅に上回った:Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)、Qwen3-235B-A22B-Instruct(27.5%)、GLM-4.5(45.1%)。最も驚くべきことに、LIMIは10,000サンプルでトレーニングされたモデルよりも53.7%の改善を示し、128分の1のサンプルで優れたエージェント的知能を達成した。我々の研究結果は、エージェンシー効率原則を確立する:機械の自律性は、データの多さではなく、高品質なエージェント的デモンストレーションの戦略的なキュレーションから生まれる。
拡散モデルに基づくビデオ挿入技術の最近の進展は目覚ましいものがある。しかし、既存の手法は複雑な制御信号に依存しているものの、被写体の一貫性に課題を抱えており、実用性が制限されている。本論文では、マスクフリーのビデオ挿入タスクに焦点を当て、データ不足、被写体とシーンの均衡、挿入の調和という3つの主要な課題の解決を目指す。データ不足に対処するため、多様なクロスペアデータを自動的に構築する新しいデータパイプライン「InsertPipe」を提案する。このデータパイプラインを基盤として、単一および複数の被写体参照からのマスクフリーのビデオ挿入のための新たな統一フレームワーク「OmniInsert」を開発する。具体的には、被写体とシーンの均衡を維持するために、マルチソース条件を明確に注入するシンプルかつ効果的な「Condition-Specific Feature Injection」メカニズムを導入し、被写体とソースビデオからの特徴注入をバランスさせるための新しい「Progressive Training」戦略を提案する。同時に、被写体の詳細な外観を改善するために「Subject-Focused Loss」を設計する。さらに、挿入の調和を強化するために、人間の選好をシミュレートしてモデルを最適化する「Insertive Preference Optimization」手法を提案し、参照時に「Context-Aware Rephraser」モジュールを組み込むことで、被写体を元のシーンにシームレスに統合する。この分野におけるベンチマークの欠如に対処するため、慎重に選ばれた被写体を含む多様なシーンからなる包括的なベンチマーク「InsertBench」を導入する。InsertBenchでの評価により、OmniInsertが最先端のクローズドソースの商用ソリューションを上回ることが示された。コードは公開予定である。
我々は、環境のスケーラブルな作成、合成または実アプリケーションの統合、およびエージェントオーケストレーションの実行のための研究プラットフォームであるMeta Agents Research Environments(ARE)を紹介する。AREは、複雑で多様な環境を構築するためのシンプルな抽象化を提供し、各環境には独自のルール、ツール、コンテンツ、および検証器が備わっており、モデル開発と実世界での展開の間のギャップを埋めるのに役立つ。また、ARE上に構築され、一般的なエージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。Gaia2は、検索と実行を超えて、エージェントが曖昧さやノイズを処理し、動的環境に適応し、他のエージェントと協力し、時間的制約の下で動作することを要求する。従来のベンチマークとは異なり、Gaia2は非同期で実行され、静的な設定では見えない新しい失敗モードを浮き彫りにする。我々の実験では、知能スペクトル全体で優位に立つシステムは存在せず、より強力な推論はしばしば効率の低下を伴い、予算スケーリング曲線は頭打ちになることが示され、新しいアーキテクチャと適応的な計算戦略の必要性が強調される。おそらくより重要なことに、AREの抽象化により、Gaia2を他の環境に継続的に拡張することが可能となり、コミュニティが自らのドメインに特化した新しいベンチマークを迅速に作成することを可能にする。AIの後半において、進歩はますます意味のあるタスクと堅牢な評価を定義し、フロンティア能力を前進させることに依存している。
大規模言語モデル(LLMs)の成功を産業検索や推薦システムに再現することへの関心が高まる中、既存の産業界の取り組みの多くは、Transformerアーキテクチャの移植に留まっており、強力な深層学習推薦モデル(DLRMs)に対してわずかな改善しかもたらしていない。第一原理の観点から、LLMsのブレークスルーは、そのアーキテクチャだけでなく、2つの補完的なメカニズムに起因している。1つは、コンテキストエンジニアリングであり、生の入力クエリを文脈的な手がかりで豊かにし、モデルの能力をより良く引き出す。もう1つは、多段階推論であり、中間的な推論パスを通じてモデルの出力を反復的に洗練する。しかし、これらの2つのメカニズムとその潜在的な大幅な改善の可能性は、産業界のランキングシステムではほとんど未開拓のままである。 本論文では、OnePieceという統一フレームワークを提案する。OnePieceは、LLMスタイルのコンテキストエンジニアリングと推論を、産業界のカスケードパイプラインの検索モデルとランキングモデルにシームレスに統合する。OnePieceは、純粋なTransformerバックボーンに基づいて構築され、さらに3つの主要な革新を導入している。(1) 構造化コンテキストエンジニアリング:インタラクション履歴を選好やシナリオ信号で拡張し、それらを構造化されたトークン化入力シーケンスとして検索とランキングの両方に統一する。(2) ブロック単位の潜在推論:モデルに表現の多段階洗練を可能にし、ブロックサイズを通じて推論帯域幅をスケーリングする。(3) 漸進的多タスク学習:ユーザーフィードバックチェーンを活用して、トレーニング中の推論ステップを効果的に監督する。OnePieceは、Shopeeの主要なパーソナライズド検索シナリオに導入され、GMV/UUで+2%以上、広告収益で+2.90%の増加など、さまざまな主要なビジネス指標で一貫したオンラインゲインを達成している。
本論文では、マルチモーダル大規模言語モデル(MLLM)を映像時間的グラウンディングタスクに適応させる効果を向上させるために設計された新しい強化学習ファインチューニングフレームワーク、TempSamp-R1を紹介する。既存の強化学習手法、例えばGroup Relative Policy Optimization(GRPO)は、ポリシー更新のためにオン・ポリシーサンプリングに依存している。しかし、時間的探索空間が大きいタスクでは、この戦略は非効率的であり、性能も限定的となることが明らかになった。なぜなら、時間的に正確な解を見つけることがしばしば困難であるためである。この制約を解決するために、TempSamp-R1は、グラウンドトゥルースアノテーションをオフ・ポリシー監視として活用し、時間的に精密なガイダンスを提供することで、オン・ポリシー解の希薄さと不整合を効果的に補う。さらに、トレーニングを安定化し、報酬ベースの更新における分散を低減するために、TempSamp-R1は非線形ソフトアドバンテージ計算手法を提供し、非対称変換を通じて報酬フィードバックを動的に再形成する。ハイブリッドChain-of-Thought(CoT)トレーニングパラダイムを採用することで、TempSamp-R1は単一の統合モデルを最適化し、CoTと非CoTの両方の推論モードをサポートし、さまざまな推論複雑性を持つクエリを効率的に処理することを可能にする。実験結果は、TempSamp-R1がGRPOベースのベースラインを上回り、ベンチマークデータセットにおいて新たな最先端の性能を確立することを示している:Charades-STA(R1@0.7: 52.9%, +2.7%)、ActivityNet Captions(R1@0.5: 56.0%, +5.3%)、およびQVHighlights(mAP: 30.0%, +3.0%)。さらに、TempSamp-R1は、限られたデータ下でのロバストな少数ショット汎化能力を示す。コード: https://github.com/HVision-NKU/TempSamp-R1
本論文では、粗いジオメトリ、カメラ軌道、および参照画像から高品質な3Dシーンビデオを合成するための新しいフレームワークであるVideoFrom3Dを提案します。本手法は、3Dグラフィックデザインワークフローを合理化し、柔軟なデザイン探索と迅速な成果物の制作を可能にします。粗いジオメトリからビデオを合成するための単純なアプローチとして、ビデオ拡散モデルを幾何学的構造に基づいて条件付ける方法が考えられます。しかし、既存のビデオ拡散モデルは、視覚品質、動き、および時間的一貫性を同時にモデル化する難しさから、複雑なシーンに対して高忠実度の結果を生成することが困難です。この問題に対処するため、我々は画像拡散モデルとビデオ拡散モデルの補完的な強みを活用する生成フレームワークを提案します。具体的には、本フレームワークはSparse Anchor-view Generation (SAG) とGeometry-guided Generative Inbetweening (GGI) モジュールで構成されます。SAGモジュールは、Sparse Appearance-guided Samplingを利用して、画像拡散モデルを用いて高品質で視点間の一貫性のあるアンカービューを生成します。これらのアンカービューに基づいて、GGIモジュールは、フローベースのカメラ制御と構造的ガイダンスを強化したビデオ拡散モデルを使用して、中間フレームを忠実に補間します。特に、両モジュールは、3Dシーンモデルと自然画像のペアデータセットを必要とせずに動作しますが、このようなデータセットは極めて入手困難です。包括的な実験により、本手法が多様で挑戦的なシナリオにおいて、高品質でスタイルの一貫したシーンビデオを生成し、単純なベースラインおよび拡張ベースラインを上回ることを示します。
オンライン強化学習(RL)は、言語モデルのポストトレーニングにおいて中心的な役割を果たしてきたが、拡散モデルへの拡張は、扱いにくい尤度のため依然として困難である。最近の研究では、逆サンプリングプロセスを離散化してGRPOスタイルのトレーニングを可能にしているが、それらは基本的な欠点を引き継いでいる。これには、ソルバーの制限、順方向と逆方向の不一致、そしてクラスファイアフリーガイダンス(CFG)との複雑な統合が含まれる。我々は、Diffusion Negative-aware FineTuning(DiffusionNFT)を導入する。これは、フローマッチングを介して順方向プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。DiffusionNFTは、ポジティブとネガティブな生成を対比させて暗黙のポリシー改善方向を定義し、強化学習信号を教師あり学習の目的関数に自然に組み込む。この定式化により、任意のブラックボックスソルバーでのトレーニングが可能になり、尤度推定の必要性がなくなり、ポリシー最適化のためのサンプリング軌跡ではなくクリーンな画像のみが必要となる。DiffusionNFTは、FlowGRPOと比較して最大25倍効率的であり、かつCFGを必要としない。例えば、DiffusionNFTは1,000ステップ以内でGenEvalスコアを0.24から0.98に改善するが、FlowGRPOは5,000ステップ以上と追加のCFGの使用を必要として0.95を達成する。複数の報酬モデルを活用することで、DiffusionNFTはSD3.5-Mediumの性能をすべてのベンチマークで大幅に向上させる。
私たちはSWE-Bench Proを紹介します。これはSWE-BENCH [25]のベストプラクティスを基に構築された、より挑戦的なベンチマークであり、SWE-BENCHの範囲を超えた現実的で複雑なエンタープライズレベルの問題を明示的に捉えるように設計されています。SWE-BENCH PROは、ビジネスアプリケーション、B2Bサービス、開発者ツールにまたがる41のアクティブにメンテナンスされているリポジトリから収集された1,865の問題を含んでいます。このベンチマークは、11のリポジトリから収集された問題にオープンアクセス可能な公開セット、12のリポジトリの保留セット、そして初期段階のスタートアップとの正式なパートナーシップ契約を持つ18のプロプライエタリリポジトリの商用セットに分割されています。保留セットと商用セットの問題は公開されていませんが、商用セットの結果を公開しています。私たちのベンチマークは、プロのソフトウェアエンジニアが完了するのに数時間から数日を要する長期的なタスクを特徴としており、しばしば複数のファイルにわたるパッチや大幅なコード変更を伴います。すべてのタスクは人間によって検証され、解決可能性を確保するために十分なコンテキストが追加されています。広く使用されているコーディングモデルの評価において、統一されたスキャフォールドの下で、SWE-Bench PROでのパフォーマンスは25%(Pass@1)を下回り、GPT-5がこれまでの最高スコアである23.3%を達成しました。これらの制限をより深く理解するために、収集されたエージェントの軌跡で観察された失敗モードをクラスタリングし、現在のモデルが示すエラーパターンをより明確に特徴付けました。全体として、SWE-BENCH PROは、現実世界のソフトウェア開発の複雑さと多様性をより忠実に捉えた、汚染に強いテストベッドを提供し、プロフェッショナルレベルでの真に自律的なソフトウェアエンジニアリングエージェントの追求を前進させます。
大規模言語モデル(LLM)の最近の進展により、コンテキスト長が拡張され、アシスタントが長い履歴を維持して一貫性のあるパーソナライズされた応答を生成できるようになりました。しかし、この能力はKey-Value(KV)キャッシュに依存しており、そのメモリ使用量は対話の長さに比例して線形に増加し、厳しいリソース制約下では急速に支配的になります。このオーバーヘッドを削減するための活発な研究分野がKVキャッシュ圧縮であり、キャッシュサイズを制限しながら精度を維持することを目指しています。しかし、既存の手法には2つの主要な制限があります:(i)フルコンテキストのプリフィル後にエントリを削除すると、無制限のピークメモリが発生し、(ii)クエリ依存の削除はキャッシュを単一のクエリに限定し、マルチターン会話での精度が低下します。本論文では、固定メモリ予算下での長い会話型質問応答(LongConvQA)のためのトレーニング不要のKVキャッシュ管理フレームワークであるEpiCacheを紹介します。EpiCacheは、ブロック単位のプリフィルを通じてキャッシュの成長を制限し、エピソード型KV圧縮によりトピック関連のコンテキストを保持します。これは、会話履歴を一貫性のあるエピソードにクラスタリングし、エピソード固有のKVキャッシュ削除を適用します。さらに、各レイヤーの削除に対する感度を測定し、メモリ予算をレイヤー間で適応的に配分する戦略を設計します。3つのLongConvQAベンチマークにおいて、EpiCacheは最近のベースラインと比較して最大40%の精度向上を達成し、4-6倍の圧縮下でほぼ完全なKV精度を維持し、レイテンシとメモリを最大2.4倍および3.5倍削減し、厳しいリソース制約下での効率的なマルチターンインタラクションを可能にします。
近年の強化学習(RL)の進展により、大規模言語モデル(LLM)の推論能力が向上しているが、マルチモーダルLLM(MLLM)への影響は限定的である。特に幾何学的推論のような視覚集約的なタスクでは、MLLMが頻繁に幻覚を起こし、不正確な推論につながることがある。我々はこれをMLLMの知覚ボトルネックに起因すると考え、これが推論訓練の効果を制限していると指摘する。これを定量化するため、基本的な幾何学的概念と空間的関係を対象としたGeo-Perception Question-Answering(GeoPQA)ベンチマークを設計した。GeoPQAでの実験により、MLLMの視覚知覚における重大な欠陥が明らかになり、これが効果的な訓練のためのRL報酬信号を制約していることがわかった。このボトルネックに対処するため、我々は二段階のRL訓練フレームワークを提案する。まず幾何学的構造の視覚知覚を強化し、その後推論能力を育成する。Qwen2.5-VL-3B-Instructに適用した結果、直接的な推論訓練アプローチと比較して、幾何学的推論が9.7%、幾何学的問題解決が9.1%向上した。我々の手法は、図形理解のような他の視覚集約的な領域にも一般化し、効果的なMLLM推論における知覚的基盤の重要性を強調している。
本論文では、ロボット操作のための新規で高度に柔軟かつ人間工学的な並列式手首「ByteWrist」を紹介する。ByteWristは、アーチ形状のエンドリンケージと統合されたコンパクトな3段階並列駆動機構により、既存の直列式および並列式手首が抱える狭小空間操作における重大な制約を解決する。この設計は、卓越したコンパクト性を維持しながら精密なRPY(ロール・ピッチ・ヨー)運動を実現し、家庭サービス、医療支援、精密組立などの複雑で非構造化された環境に特に適している。主な革新点は以下の通りである:(1) 独立した多自由度制御を可能にしながら体積を最小化するネスト型3段階モータ駆動リンケージ、(2) 力の伝達を最適化し動作範囲を拡大するアーチ形状のエンドリンケージ、(3) 柔軟性を損なうことなく構造剛性を向上させる球面関節として機能する中央支持ボール。同時に、精密な制御のための順運動学/逆運動学および数値的ヤコビアン解法を含む包括的な運動学モデリングを提示する。実験的には、ByteWristが狭小空間での機動性および両腕協調操作タスクにおいて優れた性能を示し、Kinovaベースのシステムを上回ることを確認した。結果は、従来の設計と比較してコンパクト性、効率性、剛性において大幅な改善を示しており、ByteWristが制約環境における次世代ロボット操作の有望なソリューションであることを確立している。
我々は、ある程度の汚染フリーな条件下で、現在の大規模推論モデル(LRMs)の中規模評価を実施し、いくつかの予備的な知見を得た。また、視覚的ヒントからの推論能力をテストするための評価ベンチマーク「ROME」を公開した。本ウェブサイト(https://flageval-baai.github.io/LRM-Eval/)では、ベンチマーク、評価データ、およびその他の更新情報へのリンクを提供している。
大規模言語モデル(LLM)は、事前学習において膨大な世界知識を獲得し、その後、教師ありファインチューニング(SFT)などの事後学習技術によってさらに形成されます。しかし、SFTがモデルの知識に与える影響は十分に研究されておらず、ファインチューニングされたモデルにおける知識変化の挙動を制御する能力が制限されています。このギャップを埋めるため、LLaMA-2およびLLaMA-3ファミリーの5つのLLMを対象に、クローズドブック質問応答(CBQA)の性能を評価しました。驚くべきことに、1,920サンプルでファインチューニングされたモデルは、わずか240サンプルでファインチューニングされたモデルよりも最大14%性能が低下しました。さらに、ファインチューニングデータにおける知識習得度を変化させると、性能が12%以上変動しました。これらの影響を調査するため、トークンレベルとパラメータレベルの両方でモデルの挙動を分析しました。その結果、SFT中のパラメータ更新の最大90%が知識の強化に寄与していないことが明らかになりました。これらの更新を復元することで、ファインチューニングデータの特性に応じてCBQAタスクの性能が向上する可能性があります。これらの知見は、モデルの知識をより効果的に強化するファインチューニング戦略の開発に実用的な指針を提供します。
大規模言語モデル(LLM)の開発者は、モデルが正直で、役に立ち、無害であることを目指しています。しかし、悪意のあるリクエストに直面した場合、モデルは有用性を犠牲にして拒否するように訓練されています。我々は、最先端のLLMが、他の選択肢が利用可能な場合でも、新しい戦略として不誠実さを好むようになる可能性を示します。影響を受けたモデルは、有害なリクエストに対して、一見有害そうだが実際には微妙に間違っていたり、無害な出力を返します。この振る舞いは、同じモデルファミリー内でも予測が難しいバリエーションで現れます。我々は、欺く傾向の明らかな原因を見つけられませんでしたが、より能力の高いモデルほどこの戦略をうまく実行できることを示します。戦略的な不誠実さは、安全性評価に実用的な影響を及ぼしており、我々がテストした全ての出力ベースの監視システムを欺き、ベンチマークスコアを信頼できないものにします。さらに、戦略的な不誠実さは、悪意のあるユーザーに対するハニーポットのように機能し、以前のジャイルブレイク攻撃を著しく曖昧にします。出力監視が失敗する一方で、内部活性化に対する線形プローブを使用することで、戦略的な不誠実さを確実に検出できることを示します。我々は、検証可能な結果を持つデータセットでプローブを検証し、その特徴をステアリングベクトルとして使用します。全体として、戦略的な不誠実さは、LLMのアライメントが制御しにくいというより広範な懸念の具体的な例と見なしており、特に有用性と無害性が衝突する場合に顕著です。
大規模言語モデル(LLM)の効率的なデプロイメントに対する需要が高まる中、推論コストを削減する量子化と、トレーニングのオーバーヘッドを低減するパラメータ効率的なファインチューニング(PEFT)への関心が高まっています。これにより、正確でありながら効率的な量子化モデルを生成するための量子化対応PEFTの開発が進められています。この設定において、ファインチューニング前に量子化誤差を低減することが、高いモデル精度を達成するために重要です。しかし、低ランク適応に依存する既存の手法は、表現能力が限られているという課題を抱えています。最近のフーリエ関連変換(FT)ベースのアダプターは、低ランクアダプターよりも優れた表現力を提供しますが、量子化モデルに直接統合すると、誤差低減が効果的でなくなり、計算オーバーヘッドが増加する傾向があります。これらの制限を克服するため、我々はQWHAを提案します。QWHAは、ウォルシュ・アダマール変換(WHT)を変換カーネルとして使用し、適応的なパラメータ選択と値の洗練を組み込んだ新しいアダプター初期化スキームを採用することで、FTベースのアダプターを量子化モデルに統合します。QWHAは、量子化誤差を効果的に軽減しつつファインチューニングを容易にし、その設計により計算コストを大幅に削減することを実証します。実験結果は、QWHAが低ビット量子化精度において一貫してベースラインを上回り、既存のFTベースアダプターと比較して大幅なトレーニング速度向上を達成することを示しています。コードはhttps://github.com/vantaa89/qwhaで公開されています。
グラフィカルユーザーインターフェース(GUI)は人間とコンピュータの主要な相互作用手段であるが、視覚要素の複雑さ、動的な環境、多段階の推論が必要とされることから、GUI操作の自動化は依然として困難な課題となっている。既存の視覚言語モデル(VLM)に基づく手法は、解像度の制限、ドメインの不一致、逐次的意思決定能力の不足といった問題を抱えている。これらの課題に対処するため、我々はManoを提案する。これは、広範なウェブおよびコンピュータシステムデータで事前学習されたマルチモーダル基盤モデルを基盤とした堅牢なGUIエージェントである。我々のアプローチは、高忠実度データ生成のための新しいシミュレーション環境、3段階のトレーニングパイプライン(教師ありファインチューニング、オフライン強化学習、オンライン強化学習)、およびエラー回復のための検証モジュールを統合している。Manoは、Mind2WebやOSWorldを含む複数のGUIベンチマークにおいて最先端の性能を発揮し、成功率と操作精度の大幅な向上を達成した。本研究は、実用的なGUIエージェントの展開における強化学習とVLMの効果的な統合に関する新たな知見を提供し、ドメイン固有のデータ、反復的なトレーニング、包括的な報酬設計の重要性を強調している。
本論文では、Synthetic Bootstrapped Pretraining (SBP) を提案する。SBP は、言語モデル (LM) の事前学習手法であり、まず事前学習データセットから文書間の関係を学習し、その後、その関係を活用して新たに大規模なコーパスを合成し、共同学習を行う。標準的な事前学習では、単一の文書内のトークン間の因果関係を学習するが、より優れた性能を発揮する可能性のある、学習可能な文書間の豊かな相関関係を効率的にモデル化するようには設計されていない。我々は、計算量を一致させた事前学習設定を設計し、3B パラメータのモデルを最大 1T トークンでゼロから事前学習することで SBP を検証した。その結果、SBP は強力な反復ベースラインを一貫して上回り、20 倍のユニークなデータにアクセス可能なオラクル上限値で達成可能な性能向上の大部分をもたらすことがわかった。質的分析により、合成された文書は単なる言い換えを超えており、SBP はまずシード素材から中核概念を抽象化し、その上に新たな叙述を構築することが明らかになった。強力な経験的性能に加えて、SBP は自然なベイズ的解釈を許容する:合成器は、関連文書間で共有される潜在概念を暗黙的に抽象化することを学習する。
ユニバーサルマルチモーダル埋め込みモデルは、クエリと候補間の意味的関連性を捉えることに大きな成功を収めてきました。しかし、現在の手法は、クエリと候補を単一のベクトルに凝縮するため、細粒度の情報の表現力が制限される可能性があるか、あるいは多ベクトル検索には実用的でないほど多くのベクトルを生成してしまいます。本研究では、マルチモーダル埋め込みの構築と大規模な相互作用の方法を再考する新しいフレームワークであるMetaEmbedを紹介します。トレーニング中、固定数の学習可能なメタトークンが入力シーケンスに追加されます。テスト時には、それらの最終層の文脈化された表現が、コンパクトでありながら表現力豊かな多ベクトル埋め込みとして機能します。提案されたマトリョーシカ多ベクトル検索トレーニングを通じて、MetaEmbedは複数のベクトルにわたって情報を粒度別に整理することを学習します。その結果、ユーザーがインデックス作成と検索相互作用に使用するトークンの数を選択することで、検索品質と効率性の要求のバランスを取ることができるマルチモーダル検索におけるテスト時のスケーリングを可能にします。Massive Multimodal Embedding Benchmark(MMEB)とVisual Document Retrieval Benchmark(ViDoRe)での広範な評価により、MetaEmbedが32Bパラメータのモデルに堅牢にスケーリングしながら、最先端の検索性能を達成することが確認されました。
トレーニング不要のビデオオブジェクト編集は、オブジェクトの挿入、交換、削除といった精密なオブジェクトレベルの操作を実現することを目指している。しかし、忠実度と時間的一貫性を維持する上で大きな課題に直面している。既存の手法は、U-Netアーキテクチャ向けに設計されたものが多く、主に2つの制限がある。第一に、一次ソルバーによる不正確な逆変換、第二に、粗い「ハード」な特徴置換による文脈的衝突である。これらの問題は、Diffusion Transformers(DiTs)においてさらに深刻であり、従来のレイヤー選択ヒューリスティックが不適切であるため、効果的なガイダンスが困難である。これらの制限を解決するため、我々はContextFlowを提案する。これは、DiTベースのビデオオブジェクト編集のための新しいトレーニング不要のフレームワークである。詳細には、まず高次のRectified Flowソルバーを使用して、堅牢な編集基盤を確立する。我々のフレームワークの中核は、Adaptive Context Enrichment(何を編集するかを指定するためのメカニズム)であり、文脈的衝突を解決する。特徴を置換する代わりに、並列の再構築パスと編集パスからのKey-Valueペアを連結することで、自己注意文脈を豊かにし、モデルが情報を動的に融合することを可能にする。さらに、この豊かさをどこに適用するか(どこを編集するかを指定するため)を決定するために、タスク固有の重要なレイヤーを特定するための体系的でデータ駆動型の分析を提案する。新しいGuidance Responsiveness Metricに基づいて、我々の手法は、異なるタスク(例えば、挿入、交換)に対して最も影響力のあるDiTブロックを特定し、ターゲットを絞った非常に効果的なガイダンスを可能にする。広範な実験により、ContextFlowが既存のトレーニング不要の手法を大幅に上回り、いくつかの最先端のトレーニングベースのアプローチさえも凌駕し、時間的に一貫した高忠実度の結果を提供することが示された。
大規模言語モデル(LLMs)の広範な採用は、その幻覚(hallucination)の傾向、つまり一見もっともらしいが事実に基づかない情報を生成する性質によって妨げられてきた。検索拡張生成(Retrieval-Augmented Generation, RAG)システムは、外部知識に基づいて応答を根拠づけることでこの問題に対処しようとしているが、特に形態的に複雑でリソースが限られたトルコ語のような言語では、幻覚は依然として持続的な課題である。本論文では、トルコ語のRAGアプリケーションに特化した初の幻覚検出モデル群であるTurk-LettuceDetectを紹介する。LettuceDetectフレームワークを基盤として、幻覚検出をトークンレベルの分類タスクとして定式化し、3つの異なるエンコーダアーキテクチャ(トルコ語特化のModernBERT、TurkEmbed4STS、多言語対応のEuroBERT)をファインチューニングした。これらのモデルは、質問応答、データからテキスト生成、要約タスクを含む17,790インスタンスからなるRAGTruthベンチマークデータセットの機械翻訳版を用いて訓練された。実験結果は、ModernBERTベースのモデルが完全なテストセットで0.7266のF1スコアを達成し、特に構造化されたタスクで優れた性能を示すことを明らかにした。これらのモデルは、最大8,192トークンの長いコンテキストをサポートしながら計算効率を維持し、リアルタイム展開に適している。比較分析により、最先端のLLMsは高い再現率を示すものの、幻覚内容の過剰生成による低い精度に悩まされていることが明らかになり、専門的な検出メカニズムの必要性が強調された。本研究成果として、モデルと翻訳データセットを公開することで、多言語NLPにおける重要なギャップを埋め、トルコ語やその他の言語のためのより信頼性の高いAIアプリケーション開発の基盤を確立する。
クロスアテンションは、音声テキスト変換(S2T)処理を含む多くの分野で広く使われているエンコーダ-デコーダアーキテクチャの中核的なメカニズムです。そのスコアは、入力音声表現と生成されたテキスト間の依存関係を反映しているという仮定の下で、タイムスタンプ推定や音声-テキストアライメントなど、さまざまな下流アプリケーションに再利用されてきました。アテンションメカニズムの説明能力については、より広範なNLP文献で広く議論されていますが、この仮定は音声領域ではほとんど検証されていません。このギャップを埋めるため、我々はS2Tモデルにおけるクロスアテンションの説明能力を評価するために、そのスコアを特徴属性から導出された入力サリエンシーマップと比較します。我々の分析は、単一言語と多言語、単一タスクとマルチタスクのモデルを複数のスケールでカバーし、特にヘッドやレイヤー全体で集約された場合、アテンションスコアがサリエンシーベースの説明と中程度から強く一致することを示しています。しかし、クロスアテンションは入力の関連性の約50%しか捉えておらず、最良の場合でもデコーダがエンコーダの表現にどのように注意を向けているかを部分的にしか反映していないことも明らかにしました。これは、サリエンシーのわずか52-75%しか説明していません。これらの発見は、クロスアテンションを説明のプロキシとして解釈することの根本的な限界を明らかにし、S2Tモデルの予測を駆動する要因について、有益ではあるが不完全な視点しか提供していないことを示唆しています。
レコメンデーションモデルの大規模化は、最も広く議論されているトピックの一つとなっています。最近の取り組みは、埋め込み次元のスケーリングを超えたコンポーネントに焦点を当てています。なぜなら、埋め込みのスケーリングは性能の低下を引き起こすと考えられているからです。埋め込みに関するいくつかの初期の観察はあるものの、その非スケーラビリティの根本的な原因はまだ明らかではありません。さらに、性能の低下が異なるタイプのモデルやデータセットにわたって発生するかどうかは、まだ未開拓の領域です。埋め込み次元が性能に及ぼす影響に関して、私たちは10のデータセットに対して、スパース性レベルとスケールが異なる4つの代表的な古典的アーキテクチャを用いて大規模な実験を行いました。驚くべきことに、二つの新しい現象を観察しました:二峰性と対数曲線です。前者では、埋め込み次元が増加するにつれて、性能が最初に向上し、その後低下し、再び上昇し、最終的に低下します。後者では、完璧な対数曲線を示します。私たちの貢献は三つあります。第一に、協調フィルタリングモデルのスケーリング時に二つの新しい現象を発見しました。第二に、二峰性現象の根本的な原因を理解しました。最後に、協調フィルタリングモデルのノイズ耐性を理論的に分析し、その結果が経験的観察と一致することを示しました。
大規模マルチモーダルモデル(LMM)の最近の進展は、汎用マルチモーダルアシスタントとしての顕著な成功を示しており、特に画像とビデオの言語理解に焦点が当てられてきた。一方で、ピクセルレベルの細粒度理解能力のスケーリングにはあまり注目が集まっていない。この領域では、モデルが視覚信号と言語意味の間のピクセルレベルの整合性を実現することが期待されている。これまでの研究では、LMMを領域レベルのキャプション生成や参照表現セグメンテーションなどの関連タスクに適用してきた。しかし、これらのモデルは参照タスクやセグメンテーションタスクを独立して実行するにとどまり、これらの細粒度知覚能力を視覚推論に統合することには至っていない。このギャップを埋めるため、我々はUniPixelを提案する。これは視覚プロンプト入力を柔軟に理解し、マスクに基づいた応答を生成できる大規模マルチモーダルモデルである。我々のモデルは、ピクセルレベルの知覚と一般的な視覚理解能力をシームレスに統合する点で特徴的である。具体的には、UniPixelは視覚プロンプトを処理し、要求に応じて関連するマスクを生成し、推論中にこれらの中間ポインタを条件として後続の推論を行うことで、細粒度のピクセルレベル推論を可能にする。我々のアプローチの有効性は、ピクセルレベルの参照/セグメンテーションや画像/ビデオにおけるオブジェクト中心理解を含む多様なタスクにわたる10のベンチマークで検証されている。さらに、参照、セグメンテーション、質問応答を同時に必要とする新しいPixelQAタスクも設計され、我々の手法の柔軟性を検証している。
我々は、大規模言語モデル(LLMs)における基礎的な記号推論を進展させるために設計された、検証可能な報酬を伴う強化学習(RLVR)のための新しいスケーラブルな環境「Reasoning Core」を紹介する。既存のベンチマークがゲームや孤立したパズルに焦点を当てているのとは異なり、Reasoning CoreはPDDLプランニング、一階述語論理、文脈自由文法の構文解析、因果推論、システム方程式の解法といったコアな形式的領域にわたって問題を手続き的に生成する。この環境は、高汎用性の問題分布、外部ツールによる検証、継続的な難易度制御という主要な設計原則に基づいて構築されており、これらを組み合わせることで、実質的に無限の新しい訓練インスタンスを提供する。最先端のLLMsを用いた初期のゼロショット評価では、Reasoning Coreのタスクの難しさが確認され、将来のモデルの推論能力を向上させるための有望なリソースとして位置づけられる。
現在の最先端の自動運転車両は、道路上の近隣の大型物体によってローカルセンサーが遮蔽される状況において、安全性が脅かされる可能性がある。この問題に対処する手段として、車両間(V2V)協調型自動運転が提案されており、最近導入された協調型自動運転のフレームワークでは、マルチモーダル大規模言語モデル(MLLM)を統合して協調的知覚と計画プロセスを組み込むアプローチが採用されている。しかし、MLLMに思考グラフ(graph-of-thoughts)推論を適用する潜在的な利点にもかかわらず、このアイデアはこれまでの協調型自動運転研究では考慮されていない。本論文では、MLLMベースの協調型自動運転に特化した新しい思考グラフフレームワークを提案する。我々の思考グラフは、遮蔽を考慮した知覚と計画を意識した予測という新たなアイデアを含んでいる。また、協調運転の思考グラフを訓練およびテストするために、V2V-GoT-QAデータセットを構築し、V2V-GoTモデルを開発した。実験結果は、我々の手法が協調的知覚、予測、および計画タスクにおいて他のベースラインを上回ることを示している。
大規模言語モデル(LLMs)の安全性と整合性は、その責任ある展開において極めて重要である。現在の評価手法は、主に明らかに有害な出力を特定し防止することに焦点を当てている。しかし、これらの手法は、より潜在的な失敗モード、すなわち、悪意あるまたは欺瞞的な内部推論に基づきながらも一見無害な出力を生成するモデルに対処しきれていないことが多い。この脆弱性は、高度なシステムプロンプトインジェクションによって引き起こされることが多く、モデルが従来の安全フィルターを回避することを可能にし、未だ十分に検討されていない重大なリスクを生み出している。このギャップを埋めるため、我々は「欺瞞的推論暴露スイート(D-REX)」を導入する。これは、モデルの内部推論プロセスと最終出力の間の不一致を評価するために設計された新しいデータセットである。D-REXは、競争的なレッドチーミング演習を通じて構築され、参加者が欺瞞的行動を誘発するための敵対的システムプロンプトを作成した。D-REXの各サンプルには、敵対的システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要な点として、モデルの内部的な連鎖的思考(chain-of-thought)が含まれており、これが根底にある悪意を明らかにする。我々のベンチマークは、欺瞞的整合性の検出という新たで不可欠な評価タスクを可能にする。D-REXが既存のモデルと安全メカニズムにとって重大な課題を提示することを示し、LLMsの最終出力だけでなく、その内部プロセスを精査する新たな技術の緊急の必要性を強調する。
直接的に音を聞かなくても、人間は音の高さ、音量、音源の関連性といった聴覚的特性を、聴覚的常識を基に容易に推論することができます。一方で、言語モデルはこの能力を欠いていることが多く、マルチモーダルな相互作用における有効性が制限されています。このギャップを埋めるための最初のステップとして、テキストのみの設定で聴覚的知識と推論を評価する包括的なベンチマークであるAuditoryBench++を提案します。このベンチマークは、基本的な聴覚的比較から文脈に基づいた推論まで幅広いタスクを網羅し、モデルが聴覚的概念をどのように処理し統合するかを詳細に分析することを可能にします。さらに、特別なトークンを用いたスパン検出と知識注入を通じて、推論中に聴覚情報を生成し統合する新しい聴覚的想像推論手法であるAIR-CoTを導入します。最近のLLM(大規模言語モデル)やマルチモーダルLLMを用いた広範な実験により、AIR-CoTが既存のモデルや聴覚的知識を追加したモデルを一般的に上回ることが実証されています。プロジェクトページはhttps://auditorybenchpp.github.ioで公開されています。
本論文では、大規模ニューラルネットワークの低ランク適応を統合する際の課題に取り組む。Low-Rank Adaptation(LoRA)のようなパラメータ効率の良い適応技術の台頭により、モデルのファインチューニングがより容易になった。LoRAを用いたモデルのファインチューニングは非常に効率的であるが、既存の統合手法では完全なサイズの重み行列を統合することでこの効率性を犠牲にすることが多い。我々はCore Space統合フレームワークを提案し、共通のアライメント基盤内でLoRA適応モデルを統合することで、低ランク適応の効率性を維持しつつ、タスク全体の精度を大幅に向上させる。さらに、Core Spaceへの射影が情報の損失を引き起こさないことを正式に証明し、効率性の向上を示す複雑性解析を提供する。広範な実験結果は、Core Spaceが既存の統合技術を大幅に改善し、計算資源の一部を利用しながら、視覚と言語タスクの両方で最先端の結果を達成することを示している。コードベースはhttps://github.com/apanariello4/core-space-mergingで公開されている。
強化学習は、LLM(大規模言語モデル)の推論能力を向上させるための基本的な技術として登場しました。しかし、既存のアルゴリズムはすべてのトークンに均一な最適化を適用しており、推論プロセスにおけるそれらの異なる役割を無視しています。この制約を解決するため、我々はHeterogeneous Adaptive Policy Optimization(HAPO)を提案します。これは、トークンのエントロピーに基づいて動的に最適化を適応させる包括的なトークン認識アルゴリズムです。ロールアウトサンプリングについては、Adaptive Temperature Samplingを提案し、サンプリング温度をリアルタイムで調整することで、高エントロピートークンでの探索を促進しつつ、低エントロピートークンでの一貫性を保ちます。アドバンテージ計算については、Token Level Group Averageを導入し、トークンレベルでアドバンテージを正規化し、シーケンス長を考慮しながらトークンレベルの損失を非偏りのある形で扱います。さらに、Differential Advantage Redistributionを開発し、エントロピーと重要度比率を活用して、明確なシグナルを持つトークンの報酬調整更新を変調します。クリッピング損失については、Asymmetric Adaptive Clippingを設計し、ノイズの多い低エントロピートークンに対しては積極的な確率削減を可能にしつつ、高エントロピートークンでは探索を可能にします。エントロピーとトレーニングダイナミクスの体系的な調査を通じて、我々はすべての段階にトークンレベルの処理を組み込み、きめ細かい制御を実現しました。広範な実験により、HAPOが複数のモデルスケールにおいてDAPOを一貫して上回ることが示されました。我々のコードはhttps://github.com/starriver030515/HAPOで公開されています。
オープンソースAIエコシステムにおける隠れたライセンス競合は、深刻な法的および倫理的リスクをもたらし、組織は潜在的な訴訟にさらされ、ユーザーは未開示のリスクに直面する。しかし、これらの競合がどの程度頻繁に発生し、どこから発生し、どのコミュニティが最も影響を受けるかについて、データに基づいた理解が不足している。本研究では、Hugging Face上のデータセットとモデルのライセンス、およびそれらの下流でのオープンソースソフトウェアアプリケーションへの統合を対象とした初のエンドツーエンド監査を実施し、36万4千のデータセット、160万のモデル、14万のGitHubプロジェクトをカバーした。実証分析の結果、モデルからアプリケーションへの移行において35.5%が制限的なライセンス条項を削除し、許容的な条件で再ライセンスするという体系的な非遵守が明らかになった。さらに、約200のSPDXおよびモデル固有の条項をエンコードし、ライセンス競合を検出する拡張可能なルールエンジンのプロトタイプを開発し、ソフトウェアアプリケーションにおける86.4%のライセンス競合を解決できることを示した。今後の研究を支援するため、データセットとプロトタイプエンジンを公開する。本研究は、オープンソースAIにおけるライセンス遵守が重要なガバナンス課題であることを強調し、自動化されたAI対応の大規模な遵守を可能にするためのデータとツールを提供する。
本論文では、ロボットのデータ収集における新たなパラダイムである「perioperation」を紹介する。このパラダイムは、人間の操作をセンサー化して記録すると同時に、そのデータを実ロボットに最大限転移可能にすることを目指す。我々はこのパラダイムをDEXOPに実装した。DEXOPは、受動型ハンドエクソスケルトンであり、自然環境下での多様な巧緻操作タスクに対して、豊富な感覚(視覚+触覚)データを収集するための人間の能力を最大化するように設計されている。DEXOPは人間の指とロボットの指を機械的に接続し、ユーザーに直接的な接触フィードバック(固有感覚を通じて)を提供し、人間の手の姿勢を受動型ロボットハンドに反映させることで、デモンストレーションされたスキルのロボットへの転移を最大化する。力覚フィードバックと姿勢の反映により、タスクのデモンストレーションはテレオペレーションと比較してより自然になり、速度と精度の両方が向上する。我々はDEXOPを様々な巧緻で接触の多いタスクにわたって評価し、高品質なデモンストレーションデータを大規模に収集する能力を実証した。DEXOPのデータを用いて学習したポリシーは、テレオペレーションと比較してデータ収集単位時間あたりのタスク性能を大幅に向上させ、DEXOPがロボットの巧緻性を進歩させるための強力なツールであることを示している。プロジェクトページはhttps://dex-op.github.ioにて公開されている。
拡散ベースの大規模言語モデル(DLLMs)は、最近、自己回帰型デコーダの代替として注目を集めています。本研究では、拡散ベースの大規模言語モデルLLaDAを自動音声認識(ASR)に適用する実証研究を紹介します。まず、Whisper-LLaMAの転写結果に対する外部の熟考型処理モジュールとしての利用を検討します。LLaDAの双方向注意機構とノイズ除去能力を活用し、ランダムマスキング、低信頼度マスキング、および半自己回帰戦略を探索し、Whisper-LLaDAがベースラインと比較してWERを大幅に低減することを示します。LibriSpeechでは、最良のカスケードシステムがtest-clean/test-otherで2.25%/4.94%のWERを達成し、test-other分割においてWhisper-LLaMAベースラインに対して12.3%の相対的改善を実現しました。一方、音響特徴を持たないプレーンテキストのLLaDAは精度を向上させることができず、音声条件付き埋め込みの重要性が浮き彫りになりました。さらに、Whisper-LLaDAを拡散ベースおよび半自己回帰デコーディングを用いたASRのスタンドアロンデコーダとして評価します。ほとんどの実験設定では、Whisper-LLaMAベースラインよりも高速な推論を実現しましたが、認識精度はわずかに低くなりました。これらの知見は、ASRにおける拡散ベースのLLMsの実証的な視点を提供し、改善のための有望な方向性を示唆しています。
ベイズ最適化(BO)の効率性は、ガウス過程(GP)カーネルの選択に大きく依存しており、このカーネルは限られた評価予算の下で探索と活用のバランスを取る上で中心的な役割を果たします。従来のBO手法では、固定されたカーネルやヒューリスティックなカーネル選択戦略に依存することが多く、選択されたカーネルが目的関数に適していない場合、収束が遅くなったり、最適解が得られなかったりする可能性があります。この制約を解決するため、我々は大規模言語モデル(LLMs)を用いてBOを強化する新たなContext-Aware Kernel Evolution(CAKE)を提案します。具体的には、CAKEはLLMsを交叉および突然変異演算子として活用し、最適化プロセスを通じて観測されたデータに基づいてGPカーネルを適応的に生成および改良します。CAKEの能力を最大限に引き出すために、我々はさらにBIC-Acquisition Kernel Ranking(BAKER)を提案し、ベイズ情報量基準(BIC)によって測定されたモデルの適合度と、BOの各反復における期待改善量をバランスさせながら、最も効果的なカーネルを選択します。広範な実験により、我々の新しいCAKEベースのBO手法が、ハイパーパラメータ最適化、コントローラチューニング、フォトニックチップ設計など、さまざまな実世界のタスクにおいて、確立されたベースラインを一貫して上回ることが実証されました。我々のコードはhttps://github.com/cake4bo/cakeで公開されています。
大規模言語モデル(LLMs)は、さまざまなタスクやアプリケーションで広く使用されている。しかし、その広範な能力にもかかわらず、文化的知識と能力の欠如により、文化的な整合性を欠き(ryan-etal-2024-unintended、alkhamissi-etal-2024-investigating)、偏った生成を行うことが示されている(naous-etal-2024-beer)。LLMsの文化的認識と整合性の評価は、適切な評価指標の欠如や、地域および準地域レベルでの文化の複雑さを反映した文化的に基づいたデータセットの不足により、特に困難である。既存の文化固有項目(CSIs)のデータセットは、主に地域レベルの概念に焦点を当てており、誤検出を含む可能性がある。この問題に対処するため、我々は17の文化的側面に属するインド文化の新しいCSIデータセットを導入する。このデータセットは、36の準地域からのsim8kの文化的概念で構成されている。文化的テキスト適応タスクにおけるLLMsの文化的能力を測定するために、作成したCSIs、LLM as Judge、および多様な社会人口統計学的地域からの人間評価を使用して適応を評価する。さらに、すべての考慮されたLLMsにおける選択的な準地域カバレッジと表面的な適応を示す定量分析を行う。我々のデータセットは以下で利用可能である:https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}、プロジェクトウェブページ\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}、およびモデル出力を含むコードベースは以下で見つけることができる:https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}。
BeepBank-500を紹介します。これは、人間とコンピュータのインタラクションおよび音声機械学習における迅速で権利クリーンな実験を目的として設計された、コンパクトで完全に合成されたイアコン/アラートデータセット(300~500クリップ)です。各クリップは、波形ファミリー(正弦波、矩形波、三角波、FM)、基本周波数、持続時間、振幅エンベロープ、振幅変調(AM)、および軽量なシュレーダー式リバーブを制御するパラメトリックレシピから生成されています。リバーブ設定は3種類使用しています:ドライ、および「rir small」(「small」)と「rir medium」(「medium」)と表記される2つの合成ルームです。これらは論文全体およびメタデータで使用されています。モノラル48 kHz WAVオーディオ(16ビット)、豊富なメタデータテーブル(信号/スペクトル特徴)、および(i)波形ファミリー分類と(ii)単一トーンに対するf0回帰のための小さな再現可能なベースラインを公開しています。このコーパスは、イアコン分類、音色分析、オンセット検出などのタスクを対象としており、ライセンスと制限事項が明確に記載されています。オーディオはCC0-1.0を通じてパブリックドメインに専用されています;コードはMITライセンスです。データDOI: https://doi.org/10.5281/zenodo.17172015。コード: https://github.com/mandip42/earcons-mini-500。
文化遺産の遺物を分析することは、MLLM(マルチモーダル言語モデル)にとって依然として課題である。一般的なモデルはドメイン知識を欠いており、SFT(Supervised Fine-Tuning)はしばしば表面的なパターンに過剰適合し、認証や歴史的帰属のための脆弱な推論を生み出す。これにより、古代ギリシャ陶器に対する専門家レベルの堅牢な推論能力をMLLMにどのように備えさせるかという疑問が生じる。本論文では、評価を監督に変換するSFT-then-RLシステムであるVaseVLを提案する。具体的には、質問タイプの分類体系を構築し、SFTモデルをプローブしてタイプ固有の性能ギャップを特定し、それらのギャップをターゲットとしたタイプ条件付きで構成性指向の報酬を用いて最適化を行う。また、深い理解を探るために設計された31,773枚の画像からなる包括的なベンチマークであるVaseVQAを公開する。実験結果は、スタイル分類と歴史的帰属において最先端の結果を示し、SFTのみのベースラインと比較して構成性の堅牢性が顕著に向上していることを確認し、診断主導型で分類体系条件付きの報酬設計の有効性を検証するとともに、将来の研究のための再利用可能なリソースを提供する。コードとデータセットはhttps://github.com/AIGeeksGroup/VaseVQAで公開予定である。
大規模視覚言語モデル(L-VLM)は、視覚的質問応答(VQA)を含む様々な視覚と言語タスクにおいて顕著な性能を発揮しています。しかし、その高い計算コストのため、リソースが制約された環境や推論が頻繁に行われるアプリケーションでは実用的ではありません。一方、小規模視覚言語モデル(S-VLM)は効率性を提供しますが、大規模モデルと比較して性能に大きな差があります。本研究では、ラベルなし画像とL-VLMからの効果的な知識転移を活用してS-VLMを体系的に改善するための新しいフレームワークであるModel Parity Aligner(MPA)を提案します。従来のラベル付き訓練データに依存する知識蒸留法とは異なり、MPAはS-VLMとL-VLMの間の知識の差異を正確に特定し、これらの差異のみを対象として訓練を最適化する戦略的パリティベースのアプローチを採用します。TextVQA、ST-VQA、ChartQA、OKVQAという4つの多様なVQAベンチマークにおいて広範な実験を行いました。これらのベンチマークはそれぞれ、テキスト認識、チャート解釈、常識および事実理解といった専門的な推論能力を必要とします。実験結果は、MPAがすべてのベンチマークにおいてS-VLMの性能を一貫して向上させ、計算効率を維持しながら性能差を縮小することを示しています。私たちはコードを公開しています。
水中ステレオ深度推定は、ナビゲーション、検査、マッピングなどのロボティクスタスクに対して正確な3Dジオメトリを提供し、低コストのパッシブカメラからメトリック深度を提供することで、単眼手法のスケール曖昧さを回避します。しかし、既存のアプローチは2つの重要な課題に直面しています:(i) 大規模なビジョンファウンデーションエンコーダを、大量のラベル付きデータなしに水中ドメインにパラメータ効率的に適応させること、(ii) グローバルに一貫性があるがスケール曖昧な単眼事前情報と、局所的にはメトリックであるがフォトメトリック的に脆弱なステレオ対応を密接に融合させること。これらの課題に対処するため、我々はStereoAdapterを提案します。これは、LoRA適応された単眼ファウンデーションエンコーダとリカレントステレオリファインメントモジュールを統合した、パラメータ効率的な自己教師ありフレームワークです。さらに、効率的なランク選択のための動的LoRA適応と、合成データセットUW-StereoDepth-40Kでの事前学習を導入し、多様な水中条件下でのロバスト性を向上させます。シミュレーションおよび実世界のベンチマークでの包括的評価では、TartanAirで6.11%、SQUIDで5.12%の改善を示し、BlueROV2ロボットを用いた実世界での展開でも、本手法の一貫したロバスト性を実証しています。コード: https://github.com/AIGeeksGroup/StereoAdapter. ウェブサイト: https://aigeeksgroup.github.io/StereoAdapter.
ニューラル音声コーデックは、現代の生成音声パイプラインにおける基本的な構成要素です。最近のコーデックは低ビットレートでの再構成性能が高く、下流タスクのための強力な表現を提供しますが、その多くはストリーミング対応ではないため、リアルタイムアプリケーションでの使用が制限されています。本論文では、フォーカル変調に基づくハイブリッドコーデックであるFocalCodec-Streamを提案します。これは、音声を0.55~0.80 kbpsの単一のバイナリコードブックに圧縮し、理論的なレイテンシは80 msです。我々のアプローチは、WavLMの多段階因果蒸留と、レイテンシ制約下での品質を向上させる軽量なリファイナモジュールを含む、ターゲットを絞ったアーキテクチャ改良を組み合わせています。実験結果から、FocalCodec-Streamは、同等のビットレートにおいて既存のストリーミング対応コーデックを上回り、意味情報と音響情報の両方を保持することが示されています。その結果、再構成品質、下流タスクの性能、レイテンシ、効率性の間で良好なトレードオフが実現されています。コードとチェックポイントはhttps://github.com/lucadellalib/focalcodecで公開されます。
自動コードレビュー(CR)は、大規模言語モデル(LLM)の重要な応用分野であるが、その進展は「現実のギャップ」によって妨げられている。既存のベンチマークは、簡素化され、文脈が乏しいデータを用いて、モデルを孤立したサブタスクで評価している。これでは、現実世界のCRが持つ包括的で文脈豊かな性質を反映できない。このギャップを埋めるため、我々はリポジトリレベルのCR評価を目的とした初の包括性を意識したベンチマークであるCodeFuse-CR-Benchを導入する。CodeFuse-CR-Benchは、70のPythonプロジェクトから抽出された601の高品質なインスタンスで構成され、9つのプルリクエスト(PR)問題領域をカバーしている。各インスタンスは、関連する課題、PRの詳細、リポジトリの状態など、多面的で豊かな文脈を提供し、エンドツーエンドの評価を可能にする。表面的な指標を超えて、我々はまた、位置と構文に関するルールベースのチェックと、レビュー品質に関するモデルベースの判断を組み合わせた新しい評価フレームワークを提案する。我々は、この包括的なCRタスクにおいて、最先端のLLMに対する初の大規模な評価を提示する。その結果、重要なベースラインが確立され、(1)すべてのCRの側面を支配する単一のLLMは存在しないこと、(2)Gemini 2.5 Proが最も高い包括的性能を達成すること、(3)異なるLLMが冗長な文脈に対して異なる堅牢性を示すことが明らかになった。これらの知見は、包括的で多次元的な評価の必要性を強調し、真に知的で実用的なCRアシスタントを進化させるための実践的な洞察を提供する。
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)における深い推論プロセスを促進するための細かいステップレベルの評価を提供し、数学的推論などの複雑なタスクにおいて有効であることが証明されています。しかし、PRMの開発は、人間によるアノテーションデータの高コストとスケーラビリティの限界により困難です。モンテカルロ(MC)推定による合成データは有望な代替手段ですが、高いノイズ比率に悩まされており、過学習を引き起こし、大規模なトレーニングを妨げる可能性があります。本研究では、MC推定による合成データのノイズ分布に関する予備的な調査を行い、アノテーションモデルがそのアノテーション能力の限界により、ステップの正しさを過小評価および過大評価する傾向があることを明らかにしました。これらの知見に基づいて、効率的なデータ合成とノイズ耐性のある学習フレームワークであるSelf-Denoising Monte Carlo Annotation(SCAN)を提案します。主な発見は以下の通りです:(1)軽量なモデル(例:1.5Bパラメータ)でも、自己ノイズ除去戦略を通じて高品質のアノテーションを生成でき、PRMがバニラMC推定に必要な推論コストのわずか6%で優れた性能を達成できる。(2)我々の堅牢な学習戦略により、PRMはこの弱い教師信号から効果的に学習でき、ProcessBenchにおいて39.2のF1スコア向上(19.9から59.1)を達成する。コンパクトな合成データセットのみを使用しているにもかかわらず、我々のモデルはPRM800Kなどの大規模な人間によるアノテーションデータセットでトレーニングされた強力なベースラインを上回ります。さらに、合成データをスケールアップするにつれて性能が向上し続けることから、SCANがスケーラブルでコスト効率が高く、堅牢なPRMトレーニングの可能性を強調しています。