翻訳付きの日次キュレーションされたAI研究論文
近年の拡散モデルの進展により、ビデオ生成と編集の能力が大幅に向上しています。しかし、クラスレベル、インスタンスレベル、パートレベルの変更を含むマルチグレインのビデオ編集は、依然として大きな課題となっています。マルチグレイン編集における主な困難は、テキストから領域への制御の意味的な不整合と、拡散モデル内の特徴の結合にあります。これらの困難に対処するため、我々はVideoGrainを提案します。これは、時空間(クロスおよびセルフ)アテンションメカニズムを調整することで、ビデオコンテンツの細かい制御を実現するゼロショットアプローチです。クロスアテンションにおいて、各ローカルプロンプトの対応する空間的に分離された領域への注意を増幅し、無関係な領域との相互作用を最小化することで、テキストから領域への制御を強化します。さらに、セルフアテンションにおいて、領域内の認識を高め、領域間の干渉を減らすことで、特徴の分離を改善します。大規模な実験により、我々の手法が実世界のシナリオで最先端の性能を達成することが実証されています。コード、データ、デモはhttps://knightyxp.github.io/VideoGrain_project_page/で公開されています。
長文脈は自然言語処理(NLP)における重要なトピックであり、NLPアーキテクチャの発展を通じて大きな注目を集め、大規模言語モデル(LLMs)に人間のような生涯学習の可能性を与える膨大な機会を提供しています。しかしながら、長文脈の追求には数多くの障害が伴います。それにもかかわらず、長文脈はLLMsの中核的な競争優位性として残っています。過去2年間で、LLMsの文脈長は数百万トークンにまで飛躍的に拡張されました。さらに、長文脈LLMsの研究は、長さの外挿から、アーキテクチャ、インフラストラクチャ、トレーニング、評価技術に至るまで包括的な焦点を当てる方向に拡大しています。 交響詩「ツァラトゥストラはかく語りき」にインスパイアされ、LLMの文脈拡張の旅と人間がその有限性を超越しようとする試みを類比します。本調査では、LLMがより長い文脈への多大な必要性と、それが最終的には有限であるという事実を受け入れる必要性との間でどのように葛藤するかを示します。これを達成するために、アーキテクチャ、インフラストラクチャ、トレーニング、評価の4つの視点から長文脈LLMsのライフサイクルを包括的に描き、長文脈技術の全貌を紹介します。本調査の最後には、現在長文脈LLMsが直面している10の未解決の問題を提示します。本調査が長文脈LLMsの研究に対する体系的な導入として役立つことを願っています。
我々は、単一の学術用GPUで24時間以内に高品質な音声言語モデル(SLM)を訓練するためのレシピ「Slam」を紹介する。モデルの初期化とアーキテクチャ、合成トレーニングデータ、合成データを用いた選好最適化、およびその他のコンポーネントの微調整を通じてこれを実現した。我々は、この訓練レシピがより多くの計算リソースを用いた場合にも良好にスケールし、主要なSLMと同等の結果を計算コストの一部で得られることを実証的に示す。これらの知見が、SLMの訓練と研究をよりアクセスしやすいものにすることを期待している。SLMのスケーリング則の文脈において、我々の結果は計算最適性能の予測を大幅に上回り、SLMの実現可能性に対して楽観的な見方を提供する。コード、データ、モデル、サンプルは以下を参照:https://pages.cs.huji.ac.il/adiyoss-lab/slamming。
ここでの我々の主な目標は、計算リソースとトレーニングデータの制約内で、複数のタスクに対応できる優れた汎用知覚モデルを作成することです。これを実現するため、数十億枚の画像で事前学習されたテキストから画像への拡散モデルを活用します。我々の網羅的な評価指標は、DICEPTIONが複数の知覚タスクに効果的に対処し、最先端のモデルと同等の性能を達成することを示しています。SAM-vit-hと同等の結果を、そのデータのわずか0.06%(例:600K対1Bのピクセルレベル注釈付き画像)で達成しました。Wangらにインスパイアされ、DICEPTIONは様々な知覚タスクの出力をカラーエンコーディングを用いて定式化します。そして、異なるインスタンスにランダムな色を割り当てる戦略が、エンティティセグメンテーションとセマンティックセグメンテーションの両方で非常に有効であることを示します。様々な知覚タスクを条件付き画像生成として統一することで、事前学習されたテキストから画像へのモデルを最大限に活用できます。その結果、DICEPTIONは、ゼロから学習された従来のモデルと比較して、桁違いに低いコストで効率的にトレーニングできます。他のタスクにモデルを適応させる際には、わずか50枚の画像とパラメータの1%のファインチューニングのみが必要です。DICEPTIONは、視覚的汎用モデルにとって貴重な洞察とより有望なソリューションを提供します。
近年のオーディオトークン化技術の進展により、大規模言語モデル(LLM)へのオーディオ機能の統合が大幅に向上しました。しかし、オーディオ理解と生成はしばしば別々のタスクとして扱われ、真に統一されたオーディオ言語モデルの開発を妨げています。命令チューニングは、テキストや視覚分野における汎化性能やゼロショット学習の向上で顕著な成功を収めていますが、オーディオ分野への応用はほとんど未開拓です。その主な障壁は、オーディオ理解と生成を統合した包括的なデータセットの欠如です。この問題に対処するため、我々はAudio-FLANを導入しました。これは、音声、音楽、音響の各領域にわたる80の多様なタスクと1億件以上のインスタンスをカバーする大規模な命令チューニングデータセットです。Audio-FLANは、広範なオーディオ領域において、理解(例:文字起こし、理解)と生成(例:音声、音楽、音響)のタスクをゼロショットでシームレスに処理できる統一オーディオ言語モデルの基盤を築きます。Audio-FLANデータセットはHuggingFaceとGitHubで公開されており、継続的に更新されます。
低ランク適応(LoRA)は大規模言語モデル(LLMs)のパラメータ効率の良いファインチューニングを可能にするが、その性能は完全なファインチューニング(Full FT)に及ばないことが多い。現在の手法では、静的な特異値分解(SVD)サブセットを用いて初期化することでLoRAを最適化しているが、これでは事前学習された知識を十分に活用できない。LoRAを改善する別のアプローチとして、Mixture-of-Experts(MoE)アーキテクチャの導入がある。しかし、重みの不整合や複雑な勾配ダイナミクスのため、LoRA MoEアーキテクチャに先立ってSVDを適用することは困難である。これらの問題を緩和するため、我々はGreat LoRA Mixture-of-Expert(GOAT)を提案する。このフレームワークは、(1) SVD構造化されたMoEを用いて関連する事前情報を適応的に統合し、(2) 理論的なスケーリング係数を導出することで、完全にファインチューニングされたMoEとの最適化を整合させる。アーキテクチャや学習アルゴリズムを変更することなく適切なスケーリングを行うことで、LoRA MoEの効率と性能が向上することを示す。自然言語理解、常識推論、画像分類、自然言語生成を含む25のデータセットでの実験により、GOATが最先端の性能を発揮し、Full FTとのギャップを埋めることが実証された。
カラーコンスタンシー手法は、カメラセンサーのスペクトル感度の違いにより、異なるセンサー間での汎化に苦戦することが多い。本論文では、拡散モデルを活用して照明推定のためのカラーチェッカーを画像にインペイントするGCCを提案する。主な革新点は、(1) シーン照明を反映したカラーチェッカーをインペイントする単一ステップの決定論的推論アプローチ、(2) チェッカー構造を保ちつつ照明依存の色適応を可能にするラプラシアン分解手法、(3) 不正確なカラーチェッカー注釈を処理するためのマスクベースのデータ拡張戦略である。GCCは、クロスカメラシナリオにおいて優れたロバスト性を示し、双方向評価でワースト25%誤差率5.15°と4.32°という最先端の結果を達成した。これらの結果は、センサー固有のトレーニングを必要とせず、異なるカメラ特性にわたる本手法の安定性と汎化能力を強調しており、実世界のアプリケーションにおける汎用的なソリューションとしての可能性を示している。
大規模言語モデル(LLMs)の批判能力は、推論能力にとって重要であり、必要な提案(例えば、詳細な分析や建設的なフィードバック)を提供することができます。そのため、LLMsの批判能力をどのように評価するかが大きな注目を集めており、いくつかの批判ベンチマークが提案されています。しかし、既存の批判ベンチマークには通常以下のような制限があります:(1) 一般的な領域での多様な推論タスクに焦点を当てており、コードタスク(例えば、コード生成タスクのみをカバーするなど)の評価が不十分で、クエリの難易度が比較的容易である(例えば、CriticBenchのコードクエリはHumanevalとMBPPから取得されている)。(2) 異なる次元からの包括的な評価が欠けている。これらの制限に対処するため、我々はCodeCriticBenchと呼ばれる包括的なコード批判ベンチマークを導入します。具体的には、CodeCriticBenchは異なる難易度の2つの主要なコードタスク(すなわち、コード生成とコードQA)を含んでいます。さらに、評価プロトコルには、基本的な批判評価と、異なる特性に対する高度な批判評価が含まれており、高度な設定のためには細かく設計された評価チェックリストが用意されています。最後に、既存のLLMsに対する広範な実験結果を示し、CodeCriticBenchの有効性を実証します。
事前学習の計算リソースをスケールアップすることが多言語化の達成に有効であることは証明されていますが、テスト時のスケーリングについても同じことが言えるでしょうか?本研究では、55言語の競技レベルの数学問題を特徴とする多言語数学ベンチマークMCLMを紹介します。私たちは、Qwen2.5-1.5B Mathと、拡張推論のためにトレーニングした多言語LLMであるMR1-1.5Bの両方に対して、3つのテスト時スケーリング手法——Outcome Reward Modeling (ORM)、Process Reward Modeling (ORM)、およびBudget Forcing (BF)——をテストしました。実験の結果、Qwen2.5-1.5B MathにORMを適用するとMCLMで35.8のスコアを達成し、MR1-1.5BにBFを適用すると35.2のスコアを達成しました。最近「思考型LLM」が注目を集めていますが、推論FLOPsが同程度に制約された場合、その性能はbest-of-Nのような従来のスケーリング手法と同等であることがわかりました。さらに、BFは英語のAIMEでは20ポイントの改善をもたらしますが、他の言語では平均1.94ポイントの向上しか見られませんでした——これは私たちが研究した他のテスト時スケーリング手法でも一貫したパターンです——これは、テスト時スケーリングが多言語タスクに同じように効果的に一般化しない可能性を示唆しています。さらなる研究を促進するため、MCLM、MR1-1.5B、および評価結果を公開します。
近年のビデオ生成技術の進歩により、高品質で1分間のビデオを合成するモデルが実現されています。しかし、より長時間のビデオを時間的に一貫性を持って生成することは依然として大きな課題であり、既存の長さ外挿法では時間的な繰り返しや動きの減速が生じます。本研究では、位置埋め込みにおける周波数成分の役割を体系的に分析し、外挿動作を主に支配する固有周波数を特定しました。この知見に基づいて、RIFLExを提案します。これは、繰り返しを抑制しつつ動きの一貫性を保つために固有周波数を低減する、最小限でありながら効果的なアプローチであり、追加の修正を必要としません。RIFLExは真のフリーランチを提供し、最先端のビデオ拡散トランスフォーマーにおいて、完全にトレーニング不要な方法で高品質な2倍の外挿を実現します。さらに、最小限のファインチューニングにより品質を向上させ、長時間のビデオなしで3倍の外挿を可能にします。プロジェクトページとコードは以下をご覧ください: https://riflex-video.github.io/{https://riflex-video.github.io/.}
本論文では、4ビット訓練向けに最近提案されたいくつかの最適化手法を包括的に評価し、低ビット精度が学習率に対する感度を増幅し、しばしば勾配ノルムの不安定化を引き起こし、高い学習率での発散を招くことを明らかにしています。これらの手法の中でも、モーメンタムリセットとスパイク対応勾配クリッピングを特徴とする最近の最適化手法SPAMは、様々なビットレベルで最高の性能を達成していますが、勾配ノルムを安定化させることに苦戦し、慎重な学習率調整を必要とします。これらの制限に対処するため、我々は強化された勾配正規化とクリッピング技術を組み込んだStable-SPAMを提案します。具体的には、Stable-SPAMは(1)スパイク勾配のクリッピング閾値をその履歴最大値に基づいて適応的に更新し、(2)勾配行列全体をその履歴l_2ノルム統計に基づいて正規化し、(3)SPAMからモーメンタムリセットを継承し、Adamの第一および第二モーメントを定期的にリセットすることで、スパイク勾配の蓄積を軽減します。大規模な実験により、Stable-SPAMが4ビットLLM訓練における勾配ノルムを効果的に安定化させ、AdamやSPAMと比較して優れた性能を発揮することが示されました。特に、Stable-SPAMで訓練した4ビットLLaMA-1Bモデルは、Adamで訓練したBF16 LLaMA-1Bモデルを最大2パープレキシティで上回りました。さらに、両モデルを4ビットで訓練した場合、Stable-SPAMはAdamと同等の損失を達成しながら、訓練ステップ数を約半分に削減しました。コードはhttps://github.com/TianjinYellow/StableSPAM.gitで公開されています。
既存のマルチモーダル大規模言語モデル(MLLMs)は、主に一貫した視覚-テキスト入力を基に訓練・評価されており、現実世界のレイアウトが複雑なコンテンツにおける不整合に対処できるかどうかは未解決の問題として残されている。このギャップを埋めるため、我々はマルチモーダル不整合推論(MMIR)ベンチマークを提案し、ウェブページ、プレゼンテーションスライド、ポスターなどのアーティファクトにおける意味的な不一致を検出し、推論するMLLMsの能力を評価する。MMIRは534の挑戦的なサンプルで構成され、それぞれが5つの推論が重要なカテゴリ(事実矛盾、同一性誤認、文脈不一致、量的不一致、時間/空間的不整合)にわたって人工的に注入されたエラーを含む。我々は6つの最先端MLLMsを評価し、o1のような専用のマルチモーダル推論能力を持つモデルが他のモデルを大幅に上回る一方、オープンソースモデルは特に不整合エラーに対して脆弱であることを示した。詳細なエラー分析により、モデルが単一モダリティ(特にテキスト)に限定された不整合の検出には優れているが、クロスモーダルの衝突や複雑なレイアウトには苦戦することが明らかになった。プロービング実験では、Chain-of-Thought(CoT)やSet-of-Mark(SoM)などの単一モダリティプロンプティングが限定的な改善しかもたらさず、クロスモーダル推論における重要なボトルネックが浮き彫りになった。我々の知見は、高度なマルチモーダル推論の必要性を強調し、マルチモーダル不整合に関する今後の研究の方向性を示唆している。
生成AIのリリース判断は、システムコンポーネントを利用可能にするかどうかを決定するが、リリースだけでは、ユーザーやステークホルダーがシステムと関わる方法を変える他の多くの要素には対応していない。リリースを超えて、システムコンポーネントへのアクセスは、潜在的なリスクと利益を示す。アクセスとは、利用可能なコンポーネントを何らかの形で使用するために、資源的、技術的、社会的に必要な実用的な要件を指す。我々はアクセスを、リソース、技術的な使用性、有用性という3つの軸に分解する。各カテゴリー内で、システムコンポーネントごとの一連の変数がトレードオフを明確にする。例えば、リソースには、モデルの重みを提供するための計算インフラへのアクセスが必要である。また、2つのオープンウェイトと2つのクローズドウェイトの高性能言語モデルのアクセシビリティを比較し、アクセス変数に基づいてすべてのモデルに同様の考慮事項があることを示す。アクセス変数は、ユーザーへのアクセスを拡大または増加させるための基盤を設定する。我々はアクセスの規模と、その規模がリスクの管理と介入の能力にどのように影響するかを検討する。このフレームワークは、システムリリースの状況とリスクと利益のトレードオフをより包括的に捉え、システムリリースの判断、研究、および政策に情報を提供する。
モバイルデバイスの利用が急速に増加する中、シームレスなタスク管理のための自動化の向上が求められています。しかし、多くのAI駆動型フレームワークは、操作知識の不足に悩まされています。手動で記述された知識は役立ちますが、労力がかかり非効率的です。これらの課題に対処するため、我々はMobile-Agent-Vを提案します。このフレームワークは、ビデオガイダンスを活用して、モバイル自動化のための豊富でコスト効率の高い操作知識を提供します。Mobile-Agent-Vは、特別なサンプリングや前処理を必要とせずに、ビデオ入力を活用してタスク実行能力を向上させます。Mobile-Agent-Vは、スライディングウィンドウ戦略を統合し、ビデオエージェントと深層反射エージェントを組み込むことで、アクションがユーザーの指示に沿うことを保証します。この革新的なアプローチにより、ユーザーはガイダンス付きでタスクプロセスを記録し、システムが自律的に学習して効率的にタスクを実行できるようになります。実験結果は、Mobile-Agent-Vが既存のフレームワークと比較して30%の性能向上を達成することを示しています。
複雑な長期視野のロボット操作問題を解決するためには、高度な計画能力、物理世界に関する推論能力、そして適切なモータースキルを反応的に選択する能力が必要です。インターネットデータで事前学習された視覚言語モデル(VLM)は、原理的にはこのような問題に取り組むためのフレームワークを提供できる可能性があります。しかし、現状のVLMは、ロボット操作に必要な複雑な物理現象の微妙な理解と、エラーの累積問題に対処するための長期視野にわたる推論能力の両方を欠いています。本論文では、多段階操作タスクにおけるVLMの物理推論能力を強化する新しいテスト時計算フレームワークを紹介します。私たちのアプローチの中核は、事前学習されたVLMを「リフレクション」メカニズムを用いて反復的に改善することです。具体的には、生成モデルを使用して将来の世界の状態を想像し、これらの予測を活用して行動選択を導き、重要なことに、潜在的な最適性の欠如を反映して推論を洗練させます。実験結果は、私たちの手法がいくつかの最先端の商用VLMや、モンテカルロ木探索(MCTS)などの他の事後学習アプローチを大幅に上回ることを示しています。動画はhttps://reflect-vlm.github.ioでご覧いただけます。
私たちは、X-Dancerを提案します。これは、単一の静止画像から多様で長距離にわたるリアルな人間のダンスビデオを生成する、新しいゼロショットの音楽駆動型画像アニメーションパイプラインです。その中核として、我々は、自己回帰型トランスフォーマーモデルを特徴とする統合されたトランスフォーマーディフュージョンフレームワークを導入し、2Dのボディ、頭部、手のポーズのために拡張された音楽同期トークンシーケンスを合成し、それらが拡散モデルを導き、一貫性のあるリアルなダンスビデオフレームを生成します。X-Dancerは、主に3Dで人間の動きを生成する従来の方法とは異なり、2Dのダンスモーションの幅広いスペクトルをモデリングし、データの制限に対処し、スケーラビリティを向上させます。これにより、音楽ビートと微妙な整合性を容易に利用可能な単眼ビデオを介して捉えます。これを実現するために、まず、キーポイントの確信度に関連付けられた2D人間のポーズラベルから空間的に構成されたトークン表現を構築し、大規模な関節体の動き(例:上半身と下半身)と細かい動き(例:頭部と手)の両方をエンコードします。次に、音楽と動きのトランスフォーマーモデルを設計し、音楽に合わせたダンスポーズトークンシーケンスを自己回帰的に生成し、音楽スタイルと前の動きコンテキストの両方にグローバルアテンションを組み込みます。最後に、合成されたポーズトークンをAdaINを介して参照画像でアニメーション化するために拡散バックボーンを活用し、完全に微分可能なエンドツーエンドのフレームワークを形成します。実験結果は、X-Dancerが多様で特徴的なダンスビデオを生成し、多様性、表現力、リアリズムの点で最先端の手法を大幅に上回ることを示しています。コードとモデルは研究目的で利用可能になります。
本論文では、大規模言語モデル(LLM)を活用して説得力があり根拠に基づいたマーケティングコンテンツを自動生成するエージェントフレームワークを開発し、不動産物件の説明文を中心的な応用領域として取り上げる。本手法は、生成されるコンテンツをユーザーの嗜好に合わせつつ、有用な事実属性を強調するように設計されている。このエージェントは、以下の3つの主要モジュールで構成される:(1)グラウンディングモジュール:専門家の行動を模倣し、市場性のある特徴を予測する、(2)パーソナライゼーションモジュール:コンテンツをユーザーの嗜好に合わせる、(3)マーケティングモジュール:事実の正確性と地域特性の包含を保証する。不動産マーケティングの領域において、潜在的な住宅購入者を対象とした系統的な被験者実験を実施した。その結果、本アプローチによって生成されたマーケティング説明文は、人間の専門家が作成したものよりも明確に好まれることが示された。本研究の知見は、事実のみを使用した責任ある生成を保証しつつ、大規模なターゲットマーケティングを自動化する有望なLLMベースのエージェントフレームワークを示唆している。
オープンウェイトAIのエコシステムが拡大を続ける中で、モデル開発、巨額の投資、ユーザーの関心が高まるにつれ、どのモデルが最終的にイノベーションを推進しAIエコシステムを形作るかを予測することがますます重要になっています。科学文献における引用動態との類似性に基づき、我々はオープンウェイトモデルの影響力の進化を定量化するフレームワークを提案します。具体的には、Wangらが科学引用のために導入したモデルを適応し、即時性、持続性、相対的適合性という3つの主要なパラメータを使用して、オープンウェイトモデルの微調整モデルの累積数を追跡します。我々の調査結果は、この引用スタイルのアプローチがオープンウェイトモデルの採用の多様な軌跡を効果的に捉えることができることを示しており、ほとんどのモデルがよく適合し、外れ値は使用におけるユニークなパターンや急激な増加を示しています。
階層構造は生物学的システムや人間社会において基本的な要素であるが、人工知能システムはしばしば単一的なアーキテクチャに依存しており、適応性と拡張性が制限されている。現在の階層的強化学習(HRL)アプローチは、階層を2レベルに制限するか、集中型のトレーニングを必要とするため、実用性が限られている。本論文では、完全に分散化された階層型マルチエージェントシステムを構築するためのフレームワークであるTAME Agent Framework(TAG)を紹介する。TAGは、新しいLevelEnv概念を通じて任意の深さの階層を可能にし、各階層レベルを上位のエージェントの環境として抽象化する。このアプローチは、レベル間の情報フローを標準化しつつ、緩やかな結合を維持することで、多様なエージェントタイプのシームレスな統合を可能にする。我々は、TAGの有効性を、複数のレベルにわたって異なるRLエージェントを組み合わせた階層型アーキテクチャを実装し、標準ベンチマークにおいて従来のマルチエージェントRLベースラインを上回る性能を達成することで実証した。結果は、分散型階層構造が学習速度と最終的な性能の両方を向上させることを示しており、TAGがスケーラブルなマルチエージェントシステムの有望な方向性であることを位置づけている。
時間的推論は人間の認知において基本的な要素であり、様々な実世界のアプリケーションにおいて極めて重要です。大規模言語モデル(LLM)の最近の進展は時間的推論において有望な能力を示していますが、既存のベンチマークは主にルールベースの構築に依存しており、文脈的な深さが欠如しており、限られた範囲の時間的エンティティしか扱っていません。これらの制限に対処するため、私たちは中国王朝の年表という広範な範囲内でLLMの時間的推論を評価するためのベンチマークであるChinese Time Reasoning(CTM)を導入します。CTMは、エンティティ間の関係、ペアワイズの時間的整合、文脈化された文化的基盤に基づく推論を重視し、包括的な評価を提供します。広範な実験結果は、CTMが提示する課題を明らかにし、改善のための潜在的な方向性を強調しています。
大規模言語モデル(LLMs)は、推論において著しい改善を示し、o1やo3などのモデルによって、既存の多くのベンチマークが完全または部分的に対処されてきました。しかし、これらのベンチマークの大部分は、数学的公理やプログラミング構文などのルールが明確に定義された数学的およびコーディングタスクを含む帰納的推論を重視しています。これらのルールに基づいて、LLMsは計画を立て、これらのルールを適用して解決策に至ることができます。一方、観測されたデータから基礎となるルールを推論する帰納的推論は、未だに探求されていない領域です。このような帰納的プロセスは科学的発見の核心にあり、研究者が経験的観察から一般的な原則を抽出することを可能にします。LLMsがこの能力を持っているかどうかを評価するために、帰納的推論能力を評価するために設計された新しいベンチマークであるInductionBenchを導入します。実験結果は、現在の最も先進的なモデルでさえ、サブレギュラー階層の関数内の最も単純な複雑性クラスを習得するのに苦労していることを示し、現在のLLMsの帰納的推論能力に顕著な欠陥があることを浮き彫りにします。Codaとデータはhttps://github.com/Wenyueh/inductive_reasoning_benchmarkで入手可能です。
大規模言語モデル(LLMs)は、現代の課題に対処し実用的なアプリケーションを可能にする強力なツールとして登場しました。しかし、その計算コストの高さは、広範な普及における大きな障壁となっています。量子化は、アクセスを民主化し低リソースデバイスでの展開を可能にする有望な技術として注目されています。これらの進展にもかかわらず、量子化モデルの安全性と信頼性については十分に検討されておらず、従来の研究では現代のアーキテクチャを無視したり、過度に単純化されたベンチマークや評価に依存する傾向がありました。このギャップを埋めるため、我々はOpenSafetyMiniという新しいオープンエンドの安全性データセットを導入し、モデル間の違いをより明確に識別できるように設計しました。LLaMAとMistralモデルに対して4つの最先端の量子化技術を評価し、人間による評価を含む4つのベンチマークを使用しました。その結果、4ビット精度では最適な量子化手法が異なることが明らかになり、2ビット精度ではベクトル量子化技術が最も優れた安全性と信頼性のパフォーマンスを発揮し、今後の研究の基盤を提供することがわかりました。
本報告書は、単一画像、マルチビュー画像、テキスト記述など多様な入力プロンプトから高品質な3D形状とテクスチャを生成するための包括的なフレームワークを提示する。このフレームワークは、3D形状生成とテクスチャ生成の2つの主要なコンポーネントで構成されている。(1) 3D形状生成パイプラインでは、Variational Autoencoder (VAE) を用いて暗黙的な3Dジオメトリを潜在空間にエンコードし、拡散ネットワークを利用して入力プロンプトに基づく潜在変数を生成する。モデルの容量を向上させるための改良が施されており、また、より単純な形状に対して有望な結果を示すArtist-Created Mesh (AM) 生成アプローチも検討されている。(2) テクスチャ生成は、正面画像生成から始まり、マルチビュー画像生成、RGB-to-PBRテクスチャ変換、高解像度マルチビューテクスチャの精緻化という多段階のプロセスを経る。各段階には一貫性スケジューラが組み込まれており、推論時にマルチビューテクスチャ間のピクセル単位の一貫性を強制し、シームレスな統合を実現する。 このパイプラインは、多様な入力形式を効果的に処理し、高度なニューラルアーキテクチャと新規の方法論を活用して高品質な3Dコンテンツを生成する。本報告書では、システムアーキテクチャ、実験結果、およびフレームワークの改善と拡張に向けた今後の可能性について詳細に述べる。ソースコードと事前学習済みの重みは、https://github.com/Tencent/Tencent-XR-3DGen で公開されている。
ソーシャルメディア上の誤情報の拡大に対抗するためによく用いられる戦略は、(i)専門機関によるファクトチェックと(ii)プラットフォームユーザーによるコミュニティモデレーションの2つです。Twitter/Xや最近ではMetaの政策変更は、ファクトチェック機関との連携から、クラウドソーシングによるコミュニティノートへの依存度を高める方向への転換を示しています。しかし、ファクトチェックと有用なコミュニティノートの間の依存関係の程度や性質は依然として不明確です。これらの疑問に取り組むため、私たちは言語モデルを使用して、Twitter/Xのコミュニティノートの大規模なコーパスを、トピック、引用された情報源、およびより広範な誤情報のナラティブに関連する主張を反駁するかどうかといった属性で注釈付けしました。私たちの分析によると、コミュニティノートは、これまで報告されていたよりも最大5倍多くファクトチェックの情報源を引用しています。特に、より広範なナラティブに関連する投稿に対するノートでは、他の情報源と比べてファクトチェックの情報源を参照する可能性が2倍高く、ファクトチェックが極めて重要であることが明らかになりました。結論として、私たちの結果は、成功したコミュニティモデレーションが専門的なファクトチェックに大きく依存していることを示しています。
人間が大規模なコードリポジトリの機能を使用してコーディングタスクを完了するようLLMに依頼する際、リポジトリからのコンテキストをどのようにLLMに提供すべきか?一つのアプローチは、リポジトリ全体をLLMのコンテキストウィンドウに追加することです。しかし、ほとんどのタスクではリポジトリのごく一部のシンボルしか関与せず、長いコンテキストはLLMの推論能力に悪影響を及ぼし、コンテキストウィンドウも無限ではありません。代わりに、人間が大規模なリポジトリをナビゲートし、適切な機能を選択し、タスクを解決するための計画を立てる能力を模倣することができます。私たちはMutaGReP(Mutation-guided Grounded Repository Plan Search)を提案します。これは、ユーザーの要求をコードベースに基づいた自然言語のステップに分解する計画を検索するアプローチです。MutaGRePは、計画空間でニューラルツリーサーチを実行し、計画を変異させ、シンボルリトリーバーを使用してグラウンディングを行います。挑戦的なLongCodeArenaベンチマークにおいて、私たちの計画はGPT-4oの128Kコンテキストウィンドウの5%未満しか使用しませんが、リポジトリで満たされたコンテキストウィンドウを持つGPT-4oのコーディング性能に匹敵します。MutaGRePによって生成された計画により、Qwen 2.5 Coder 32Bと72Bは、フルリポジトリコンテキストを持つGPT-4oの性能に匹敵し、最も難しいLongCodeArenaタスクでの進展を可能にします。プロジェクトページ: zaidkhan.me/MutaGReP
AIチャットボットが普及する中、音声インタラクションは、意味的・社会的シグナル双方の迅速かつ高帯域幅のコミュニケーションを可能にする魅力的な方法として注目されています。これにより、音声ネイティブな体験を実現するための大規模音声モデル(LAM)の研究が推進されています。しかし、LAMの開発をユーザーの目標に合わせるためには、信頼性のある進捗指標を確立するために、ユーザーのニーズと嗜好を明確に理解する必要があります。本研究では、これらの課題に対処するため、LAMを評価するためのインタラクティブなアプローチを導入し、484名の参加者から7,500件のLAMインタラクションを収集しました。ユーザークエリのトピックモデリングを通じて、音声インターフェースの主要なユースケースを特定しました。次に、ユーザーの嗜好順位と定性的フィードバックを分析し、どのモデルがユーザーのニーズに最も合致しているかを明らかにしました。最後に、静的ベンチマークがインタラクティブな性能をどの程度予測するかを評価しました。その結果、いずれのベンチマークもインタラクティブな結果と強い相関を示さないことが判明しました(すべてのベンチマークでtau ≤ 0.33)。複数の粗粒度な特徴を組み合わせることで、ある程度の予測力が得られるものの(R^2=0.30)、音声質問応答と年齢予測に関する20のデータセットのうち、有意な正の相関を示すのは2つだけでした。この結果は、ユーザーの嗜好とより強く相関するLAM評価手法の開発が明らかに必要であることを示唆しています。
品質推定は、機械翻訳において評価と生成の両方で広く用いられています。しかし、品質推定モデルはしばしば不透明で計算コストが高く、大規模なパイプラインの一部として実用的ではありません。本研究では、2つの関連する課題に取り組みます:(1)大規模な品質推定のコスト削減、(2)品質推定のための低コストな不確実性推定手法の開発。後者に対処するため、我々はInstant Confidence COMETを提案します。これは不確実性を考慮した品質推定モデルであり、従来手法と同等の性能をはるかに低いコストで実現します。さらにこれを拡張し、Early-Exit COMETを開発しました。この品質推定モデルは、初期のモデル層で品質スコアと関連する信頼度を計算できるため、計算を早期終了させ、評価コストを削減できます。また、本モデルを機械翻訳の再ランキングに適用しました。Early-Exit COMETを上側信頼区間バンディットアルゴリズムと組み合わせることで、全ての候補に対して完全な評価モデルを実行することなく、大規模な候補プールから最良の候補を見つけます。評価と再ランキングの両ケースにおいて、我々の手法は必要な計算量を50%削減しつつ、性能の低下をほとんど抑えています。
与えられたクエリと同じ場所から画像を取得することは、Visual Place Recognition、ランドマーク検索、Visual Localization、3D再構築、SLAMなど、複数のコンピュータビジョンタスクにおいて重要な要素です。しかし、既存のソリューションはこれらのタスクのいずれかに特化して構築されており、要件がわずかに変化したり、分布外データに遭遇したりすると失敗することが知られています。本論文では、既存の手法、トレーニング技術、データセットを組み合わせて、複数のタスクで高性能な検索モデル「MegaLoc」をトレーニングします。MegaLocは、(1)多数のVisual Place Recognitionデータセットで最先端の性能を達成し、(2)一般的なランドマーク検索データセットで印象的な結果を示し、(3)LaMARデータセットにおけるVisual Localizationで新たな最先端を確立しました。ここでは、既存のローカライゼーションパイプラインの検索方法のみを変更しました。MegaLocのコードはhttps://github.com/gmberton/MegaLocで公開されています。
複雑で長文脈の質問に答えることは、大規模言語モデル(LLM)にとって依然として大きな課題であり、効果的な質問の明確化と文脈の検索が求められます。本論文では、エージェント型長文脈理解(Agentic Long-Context Understanding, AgenticLU)というフレームワークを提案します。これは、エージェント型ワークフロー内で、ターゲットを絞った自己明確化と文脈的基盤付けを統合することで、LLMの理解を強化するものです。AgenticLUの核心となるのは、Chain-of-Clarifications(CoC)であり、モデルは自己生成した明確化質問とそれに対応する文脈的基盤付けを通じて理解を洗練させます。各ノードがCoCのステップを表すツリー探索として推論をスケーリングすることで、NarrativeQAにおいて探索深度3、分岐因子8で97.8%の回答再現率を達成しました。この探索プロセスの高コストを訓練に分散させるため、CoCワークフローによって得られた各ステップの選好ペアを活用し、二段階のモデルファインチューニングを行います:(1)効果的な分解戦略を学習するための教師ありファインチューニング、(2)推論品質を向上させるための直接選好最適化。これにより、AgenticLUモデルは単一の推論パスで明確化を生成し、関連する文脈を効果的かつ効率的に検索できるようになります。7つの長文脈タスクにわたる広範な実験により、AgenticLUが最先端のプロンプト手法や専門化された長文脈LLMを大幅に上回り、文脈長が増加しても一貫した性能を維持しながら堅牢なマルチホップ推論を実現することが示されました。
我々はMONSTER(MONash Scalable Time Series Evaluation Repository)を紹介する。これは時系列分類のための大規模データセットのコレクションである。時系列分類の分野は、UCRおよびUEA時系列分類リポジトリによって設定された共通ベンチマークの恩恵を受けてきた。しかし、これらのベンチマークに含まれるデータセットは小さく、それぞれ中央値が217および255の事例数である。その結果、これらのベンチマークは、多様な小規模データセットにおいて低い分類誤差を達成するために最適化された、分散を最小化するモデルに偏っており、スケーラビリティなどの計算上の問題にはほとんど重きを置いていない。我々は、より大規模なデータセットを使用したベンチマークを導入することで、この分野を多様化することを目指している。より大量のデータから効果的に学習するという理論的および実践的な課題に取り組むことで、この分野における新たな進展の可能性が大きく広がると信じている。
COVID-19パンデミックは医療資源に大きな負荷をかけ、機械学習が医師の負担を軽減し診断に貢献する方法についての議論を促しました。胸部X線(CXR)はCOVID-19の診断に使用されますが、CXRから患者の状態の重症度を予測する研究はほとんどありません。本研究では、3つのソースを統合して大規模なCOVID重症度データセットを作成し、ImageNetおよびCXRで事前学習されたモデルとビジョントランスフォーマー(ViT)を用いた転移学習の有効性を、重症度回帰と分類タスクの両方で調査しました。事前学習済みのDenseNet161モデルは、3クラスの重症度予測問題で最高の性能を発揮し、全体で80%の精度を達成し、軽症、中等症、重症のケースでそれぞれ77.3%、83.9%、70%の精度を示しました。ViTは回帰タスクで最良の結果を示し、放射線科医が予測した重症度スコアとの平均絶対誤差は0.5676でした。本プロジェクトのソースコードは公開されています。
AI生成画像(AGI)モデルの急速な進展は、その品質評価において重要な課題を提起しており、知覚品質、プロンプト対応性、真正性など複数の次元を考慮する必要があります。これらの課題に対処するため、我々はMultimodal(マルチモーダル)、Multi-Round(マルチラウンド)、Multi-Aspect(マルチアスペクト)を特徴とする包括的なAGI品質評価フレームワーク「M3-AGIQA」を提案します。本アプローチでは、マルチモーダル大規模言語モデル(MLLM)をテキストと画像の共同エンコーダーとして活用し、オンラインMLLMの高度なキャプショニング能力をLow-Rank Adaptation(LoRA)ファインチューニングを通じてローカルモデルに蒸留します。このフレームワークは、中間的な画像記述を生成して品質、対応性、真正性の側面に関する深い洞察を提供する構造化されたマルチラウンド評価メカニズムを含みます。人間の知覚的判断と予測を整合させるため、xLSTMと回帰ヘッドで構成された予測器を組み込み、シーケンシャルなロジットを処理してMean Opinion Score(MOS)を予測します。複数のベンチマークデータセットで実施した広範な実験により、M3-AGIQAが最先端の性能を達成し、AGI品質の微妙な側面を効果的に捉えることが実証されました。さらに、クロスデータセット検証により、その強力な汎化能力が確認されています。コードはhttps://github.com/strawhatboy/M3-AGIQAで公開されています。
ブラウン球面は、2次元球面に位相同型なランダムな距離空間であり、多くの種類のランダム平面地図の普遍的なスケーリング極限として現れる。ブラウン球面の直接的な構成は、Cori-Vauquelin-Schaeffer(CVS)全単射の連続版を介して行われる。CVS全単射はラベル付き木を平面地図に写像し、その連続版はブラウンラベル付きのAldousの連続ランダム木(ブラウン蛇)をブラウン球面に写像する。本研究では、ブラウン球面の可測関数としてブラウン蛇を構成することにより、連続CVS全単射の逆を記述する。ブラウン球面の向きを扱うためには特別な注意が必要である。