翻訳付きの日次キュレーションされたAI研究論文
人工テキスト検出(ATD)は、高度な大規模言語モデル(LLM)の台頭に伴い、その重要性を増しています。多くの取り組みがなされているにもかかわらず、未見のテキストの種類や新しいLLMへの効果的な一般化を保証する単一のアルゴリズムは存在しません。この目標を達成する上で、解釈可能性が重要な役割を果たします。本研究では、Sparse Autoencoder(SAE)を使用してGemma-2-2bの残差ストリームから特徴を抽出し、ATDの解釈可能性を向上させます。解釈可能で効率的な特徴を特定し、それらの意味と関連性を、ドメインおよびモデル固有の統計、ステアリングアプローチ、手動またはLLMベースの解釈を通じて分析します。私たちの手法は、さまざまなモデルからのテキストが人間が書いた内容とどのように異なるかについての貴重な洞察を提供します。現代のLLMは、特に情報密度の高いドメインにおいて、個別化されたプロンプトで人間らしい出力を生成できるにもかかわらず、独自の執筆スタイルを持っていることを示します。
大規模言語モデル(LLM)は、様々な自然言語処理タスクで顕著な成功を収めているが、推論時の高い計算コストが依然として主要なボトルネックとなっている。本論文では、推論オーバーヘッドを削減するために、タスクに関連するパラメータを選択的に保持するトレーニング不要のプルーニング手法であるSparse Expert Activation Pruning(SEAP)を提案する。SEAPは、LLMの隠れ状態と活性化のクラスタリングパターンに着想を得て、タスク固有のエキスパート活性化パターンを特定し、タスク性能を維持しながらモデルをプルーニングし、計算効率を向上させる。実験結果は、SEAPが競争力のある精度を維持しながら、計算オーバーヘッドを大幅に削減することを示している。特に、50%のプルーニングでは、SEAPはWandAとFLAPを20%以上上回り、20%のプルーニングでは、密なモデルと比較してわずか2.2%の性能低下しか生じない。これらの結果は、SEAPのスケーラビリティと有効性を強調し、大規模LLMの最適化における有望なアプローチであることを示している。
我々は、大規模なルールベース強化学習(RL)をマルチモーダル推論に拡張することに成功したマルチモーダル推論モデル、MM-Eurekaを提案する。ルールベースRLはテキスト領域における大規模言語モデル(LLM)の推論能力向上において顕著な成功を収めてきたが、マルチモーダル環境への適用は依然として課題であった。本研究では、DeepSeek-R1のようなテキストベースRLシステムの主要な特性をマルチモーダル空間で再現し、精度報酬と応答長の着実な増加、およびリフレクション行動の出現を含む。我々は、教師ありファインチューニングなしで、ルールベースRLを通じて指示チューニング済みモデルと事前学習済みモデルの両方が強力なマルチモーダル推論能力を発達させ得ることを示し、代替手法と比較して優れたデータ効率性を示す。この分野のさらなる研究を促進するため、我々は完全なパイプラインをオープンソース化する。すべてのコード、モデル、データなどをhttps://github.com/ModalMinds/MM-EUREKAで公開する。
Diffusion Transformerは、高品質な画像や動画の生成において強力な能力と拡張性を実証してきました。生成と編集タスクの統一をさらに追求することで、画像コンテンツ作成の分野で大きな進展が見られました。しかし、時間的および空間的ダイナミクスにわたる一貫性の本質的な要求のため、動画合成のための統一的なアプローチの実現は依然として困難です。本論文では、VACEを紹介します。VACEは、ユーザーが動画タスクをCreationとEditingのオールインワンフレームワーク内で実行できるようにします。これらのタスクには、参照から動画生成、動画から動画編集、およびマスクされた動画から動画編集が含まれます。具体的には、編集、参照、マスキングなどの動画タスク入力をVideo Condition Unit(VCU)と呼ばれる統一インターフェースに整理することで、さまざまなタスクの要件を効果的に統合します。さらに、Context Adapter構造を利用して、時間的および空間的次元の形式化された表現を使用して異なるタスク概念をモデルに注入し、任意の動画合成タスクを柔軟に処理できるようにします。大規模な実験により、VACEの統一モデルが、さまざまなサブタスクにおいてタスク固有のモデルと同等の性能を達成することが実証されています。同時に、多様なタスクの組み合わせを通じて多様なアプリケーションを可能にします。プロジェクトページ: https://ali-vilab.github.io/VACE-Page/
既存の長編動画生成フレームワークは自動化された計画機能を欠いており、ストーリーライン、シーン、撮影技法、キャラクター間の相互作用などに手動での入力を必要とし、その結果、高コストと非効率性が生じています。これらの課題に対処するため、我々はマルチエージェントの連鎖的思考(CoT)計画による自動映画生成システム「MovieAgent」を提案します。MovieAgentには2つの主要な利点があります:1)我々は初めて、自動化された映画/長編動画生成のパラダイムを探求し定義しました。スクリプトとキャラクターバンクが与えられると、MovieAgentは一貫したナラティブを持つ複数シーン、複数ショットの長編動画を生成し、キャラクターの一貫性、同期した字幕、安定した音声を映画全体で確保します。2)MovieAgentは、階層的なCoTベースの推論プロセスを導入し、シーン構成、カメラ設定、撮影技法を自動的に構造化することで、人間の労力を大幅に削減します。複数のLLMエージェントを用いて監督、脚本家、ストーリーボードアーティスト、ロケーションマネージャーの役割をシミュレートすることで、MovieAgentは制作プロセスを効率化します。実験により、MovieAgentはスクリプトの忠実度、キャラクターの一貫性、ナラティブの一貫性において新たな最先端の結果を達成することが示されました。我々の階層的フレームワークは、完全自動化された映画生成に向けた一歩前進を実現し、新たな洞察を提供します。コードとプロジェクトウェブサイトは以下で公開されています:https://github.com/showlab/MovieAgent および https://weijiawu.github.io/MovieAgent。
大規模な事前学習済み視覚タワーと言語モデルを基盤としたマルチモーダル大規模言語モデル(MLLM)は、マルチモーダル理解において優れた能力を示しています。しかし、既存のMLLMの多くは単一ターンの視覚質問応答タスクで訓練されており、現実世界の人間の会話を正確に反映していません。本論文では、マルチターンのマルチモーダル対話データセットであるMMDiagを紹介します。このデータセットは、意図的に設計されたルールとGPTの支援を通じて共同生成され、質問間、質問と画像間、および異なる画像領域間の強い相関関係を特徴としており、現実世界のシナリオにより近いものとなっています。MMDiagは、マルチターンのマルチモーダル対話学習の強力なベンチマークとして機能し、MLLMの基盤付けと推論能力にさらなる課題をもたらします。さらに、人間の視覚処理に着想を得て、マルチモーダル基盤付けと推論能力を備えたMLLMであるDiagNoteを提案します。DiagNoteは、マルチターンの対話を通じてChain-of-Thoughtと注釈をそれぞれ実行する2つのモジュール(DeliberateとGaze)で構成され、互いに相互作用します。我々は、DiagNoteが既存のMLLMと比較して、基盤付けと視覚・言語情報の共同処理および推論において優位性を持つことを実証的に示します。
フェデレーテッドラーニング(FL)は、分散型のモデルトレーニングにおいて広く使用されるフレームワークであり、中央サーバーがローカルクライアントのデータに直接アクセスできないようにするものです。しかし、このアプローチでもデータプライバシーを完全に保護できない場合があります。なぜなら、ローカルクライアントのモデルは、集約プロセス中に中央サーバーに公開されるためです。この問題は、FLを用いて視覚言語モデル(VLM)をトレーニングする際にさらに深刻になります。VLMはトレーニングデータのインスタンスを容易に記憶するため、メンバーシップ推論攻撃(MIA)に対して脆弱です。この課題に対処するため、我々はFedRandフレームワークを提案します。このフレームワークでは、クライアントのパラメータの完全なセットを開示しないようにします。具体的には、各クライアントはサーバーからLow-Rank Adaptation(LoRA)のサブパラメータをランダムに選択し、残りのLoRA重みをプライベートパラメータとして保持します。クライアントのプライベートデータセットで両方のパラメータをトレーニングした後、非プライベートのクライアントパラメータのみをサーバーに送り返して集約します。このアプローチにより、クライアント側のVLMパラメータが公開されるリスクを軽減し、データプライバシーを強化します。我々は、FedRandが関連するベースラインと比較してMIAに対する堅牢性を向上させながら、複数のベンチマークデータセットにおいて完全なLoRAパラメータを通信する方法と同等の精度を達成することを実証的に検証しました。
大規模言語モデル(LLM)における蒸留の成功にもかかわらず、これまでの研究の多くは、教師モデルと生徒モデルが生成したデータに対して同一の損失関数を適用してきました。これらの戦略は、損失関数の定式化とデータタイプの間の相乗効果を見落としており、結果として生徒モデルの性能向上が最適化されていませんでした。この問題に対処するため、我々はDistiLLM-2を提案します。これは、教師モデルの応答の尤度を高めると同時に、生徒モデルの応答の尤度を低めることで、この相乗効果を活用する対照的なアプローチです。我々の広範な実験により、DistiLLM-2が、指示追従やコード生成など多様なタスクにおいて高性能な生徒モデルを構築するだけでなく、選好アライメントや視覚言語拡張など多様なアプリケーションをサポートすることが示されました。これらの発見は、対照的なアプローチが、多様なデータタイプにわたって教師モデルと生徒モデルを効果的に整合させることで、LLM蒸留の効率を向上させる可能性を強調しています。
DeepSeek-R1-Zeroは、純粋に強化学習(RL)を通じて大規模言語モデル(LLM)に推論能力が出現することを実証しました。このブレークスルーに触発され、我々はRLを活用してマルチモーダル言語モデル(MLLM)の推論能力を向上させる方法を探求しています。しかし、高品質なマルチモーダル推論データの不足により、RLを用いた直接的なトレーニングでは、MLLMにおける質問や反省などの複雑な推論能力を活性化することが困難です。この問題に対処するため、我々は推論MLLMであるVision-R1を提案し、マルチモーダル推論能力を向上させます。具体的には、既存のMLLMとDeepSeek-R1を活用し、モダリティブリッジングとデータフィルタリングを通じて、人間の注釈なしで高品質なマルチモーダルCoTデータセットを構築し、200KのマルチモーダルCoTデータセットであるVision-R1-coldデータセットを取得します。これはVision-R1のコールドスタート初期化データとして機能します。コールドスタート後の過剰思考による最適化の課題を緩和するため、我々はProgressive Thinking Suppression Training(PTST)戦略を提案し、Group Relative Policy Optimization(GRPO)とハードフォーマット結果報酬関数を用いて、10Kのマルチモーダル数学データセット上でモデルが正しく複雑な推論プロセスを学習する能力を徐々に洗練させます。包括的な実験により、我々のモデルが様々なマルチモーダル数学推論ベンチマークで平均6%の改善を達成することが示されました。Vision-R1-7Bは、広く使用されているMathVistaベンチマークで73.5%の精度を達成し、これは主要な推論モデルであるOpenAI O1にわずか0.4%劣る結果です。データセットとコードは以下で公開されます:https://github.com/Osilly/Vision-R1
Unetベースの拡散モデルにおける最近の進展、例えばControlNetやIP-Adapterは、効果的な空間的および主題的制御メカニズムを導入しました。しかし、DiT(Diffusion Transformer)アーキテクチャは、効率的で柔軟な制御において依然として課題を抱えています。この問題に対処するため、我々はEasyControlを提案します。これは、条件誘導型拡散トランスフォーマーを高効率かつ柔軟に統合する新しいフレームワークです。我々のフレームワークは、3つの主要な革新に基づいて構築されています。第一に、軽量なCondition Injection LoRAモジュールを導入します。このモジュールは、条件信号を独立して処理し、プラグアンドプレイソリューションとして機能します。ベースモデルの重みを変更せずに済むため、カスタマイズされたモデルとの互換性を確保し、多様な条件の柔軟な注入を可能にします。特に、このモジュールは、単一条件データでのみトレーニングされた場合でも、調和のとれた堅牢なゼロショット多条件一般化をサポートします。第二に、Position-Aware Training Paradigmを提案します。このアプローチは、入力条件を固定解像度に標準化し、任意のアスペクト比と柔軟な解像度での画像生成を可能にします。同時に、計算効率を最適化し、フレームワークを実世界のアプリケーションにより実用的にします。第三に、条件生成タスクに適応したKV Cache技術と組み合わせたCausal Attention Mechanismを開発します。この革新により、画像合成のレイテンシが大幅に削減され、フレームワーク全体の効率が向上します。広範な実験を通じて、EasyControlがさまざまなアプリケーションシナリオで卓越した性能を発揮することを実証します。これらの革新により、我々のフレームワークは非常に効率的で柔軟であり、幅広いタスクに適しています。
大規模言語モデル(LLM)に外部知識を組み込むことで、多様なアプリケーションにおける有用性が向上しますが、既存の手法にはトレードオフが存在します。Retrieval-Augmented Generation(RAG)は類似性検索を通じて証拠を取得しますが、重要な情報が上位ランクの結果に含まれない場合があります。長文脈モデルは複数のドキュメントを処理できますが、計算コストが高く、コンテキストウィンドウのサイズに制約があります。学生が参考書を持ち込める試験のために学習資料を要約する方法に着想を得て、我々はタスクを意識したキー・バリュー(KV)キャッシュ圧縮を提案します。これはゼロショットまたは少数ショットの設定で外部知識を圧縮し、LLMが関連するすべての情報をコンパクトに表現した上で効率的に推論することを可能にします。実験結果は、我々のアプローチがRAGとタスク非依存の圧縮手法の両方を上回ることを示しています。LongBench v2では、30倍の圧縮率でRAGに対して最大7ポイントの精度向上を達成し、推論遅延を0.43秒から0.16秒に削減しました。合成データセットを用いた分析では、RAGは証拠が疎な場合に有効であるのに対し、広範な知識を必要とするタスクではタスクを意識した圧縮が優れていることが明らかになりました。
OpenAI o1とDeepSeek R1は、数学や科学などの複雑な領域において、強化学習(RL)と推論が重要な役割を果たすことで、人間の専門家レベルの性能を達成し、あるいはそれを上回っています。自動運転においては、最近のエンドツーエンドモデルが計画性能を大幅に向上させていますが、常識や推論能力の限界から、ロングテール問題に依然として苦戦しています。一部の研究では、視覚言語モデル(VLM)を自動運転に統合していますが、これらは通常、運転データに対する単純な教師あり微調整(SFT)を施した事前学習モデルに依存しており、計画に特化したトレーニング戦略や最適化のさらなる探求は行われていません。本論文では、自動運転におけるVLMのためのRLと推論フレームワークであるAlphaDriveを提案します。AlphaDriveは、計画に特化した4つのGRPOベースのRL報酬を導入し、SFTとRLを組み合わせた2段階の計画推論トレーニング戦略を採用しています。その結果、AlphaDriveは、SFTのみを使用する場合や推論を行わない場合と比較して、計画性能とトレーニング効率の両方を大幅に向上させます。さらに、RLトレーニング後にAlphaDriveがいくつかの新たなマルチモーダル計画能力を示すことも発見し、これは運転の安全性と効率性を向上させるために重要です。私たちの知る限り、AlphaDriveはGRPOベースのRLと計画推論を自動運転に統合した最初の試みです。今後の研究を促進するために、コードを公開する予定です。
リポジトリレベルのコードベースに新機能を実装することは、コード生成モデルの重要な応用分野である。しかし、現在のベンチマークでは、この能力を評価するための専用のフレームワークが欠けている。このギャップを埋めるため、我々はFEA-Benchを導入した。これは、大規模言語モデル(LLM)がコードリポジトリ内で増分的な開発を実行する能力を評価するために設計されたベンチマークである。83のGitHubリポジトリからプルリクエストを収集し、ルールベースおよび意図ベースのフィルタリングを用いて、新機能開発に焦点を当てたタスクインスタンスを構築した。各タスクインスタンスにはコード変更が含まれており、関連するユニットテストファイルとペアにすることで、ソリューションが検証可能であることを保証している。機能の実装には、LLMが新規コンポーネントに対するコード補完能力と、コードリポジトリ内の他の関連部分に対するコード編集能力を同時に持つことが要求され、LLMの自動化されたソフトウェアエンジニアリング能力をより包括的に評価する方法を提供する。実験結果は、LLMがFEA-Benchで著しく低いパフォーマンスを示し、このようなリポジトリレベルの増分的なコード開発における大きな課題を浮き彫りにしている。
大規模言語モデル(LLM)の最近の進歩により、テキスト生成能力が大幅に向上したものの、生成ライティングにおけるその性能評価は依然として課題となっている。既存のベンチマークは主に汎用的なテキスト生成や限定的なライティングタスクに焦点を当てており、様々なドメインにおける高品質な文章作成の多様な要件を捉えきれていない。このギャップを埋めるため、我々はWritingBenchを提案する。これは、創造的、説得的、情報的、技術的ライティングを含む6つの主要ライティングドメインと100のサブドメインにわたってLLMを評価するための包括的なベンチマークである。さらに、LLMがインスタンス固有の評価基準を動的に生成できるクエリ依存型評価フレームワークを提案する。このフレームワークは、スタイル、フォーマット、長さの評価を可能にする基準認識型スコアリングのためのファインチューニングされた批評モデルによって補完されている。このフレームワークの有効性は、7Bパラメータモデルが最先端(SOTA)性能に近づくことを可能にするデータキュレーション能力によってさらに実証されている。我々は、LLMのライティング分野における発展を促進するため、ベンチマークと評価ツール、モジュール型フレームワークコンポーネントをオープンソースとして公開する。
従来のエージェントワークフローは、ツールや環境との相互作用を管理するために外部からのプロンプトに依存しており、これが推論モデルの自律性を制限していました。我々は、Chain-of-Action(CoA)の生成を内部化したLarge Agent Models(LAMs)を提案し、モデルが外部ツールをいつ、どのように使用するかを自律的に決定できるようにします。提案するAutoCoAフレームワークは、教師ありファインチューニング(SFT)と強化学習(RL)を組み合わせることで、モデルが推論と行動をシームレスに切り替えながら、環境との相互作用を効率的に管理できるようにします。主なコンポーネントには、ステップレベルのアクショントリガー、軌跡レベルのCoA最適化、および実環境との相互作用コストを削減するための内部世界モデルが含まれます。オープンドメインQAタスクでの評価では、AutoCoAでトレーニングされたエージェントモデルが、特に長期的な推論と多段階のアクションを必要とするタスクにおいて、ReActベースのワークフローを大幅に上回るタスク完了率を示しました。コードとデータセットはhttps://github.com/ADaM-BJTU/AutoCoAで公開されています。
サーベイ論文は、研究出版物の急速な増加を背景に、科学研究において重要な役割を果たしています。最近では、研究者が効率向上のために大規模言語モデル(LLM)を活用してサーベイ生成の自動化を試みています。しかし、LLMが生成したサーベイと人間が執筆したサーベイとの間には、特にアウトラインの質や引用の正確性において、依然として大きなギャップが存在します。これらのギャップを埋めるため、我々はSurveyForgeを提案します。SurveyForgeはまず、人間が作成したアウトラインの論理構造を分析し、検索されたドメイン関連の論文を参照することでアウトラインを生成します。その後、学術ナビゲーションエージェントによってメモリから検索された高品質な論文を活用し、生成された記事の内容を自動的に生成・洗練します。さらに、包括的な評価を実現するため、我々はSurveyBenchを構築しました。SurveyBenchには、勝率比較のための100本の人間が執筆したサーベイ論文が含まれており、AI生成サーベイ論文を参照、アウトライン、内容の質という3つの次元で評価します。実験結果は、SurveyForgeがAutoSurveyなどの従来の手法を凌駕することを示しています。
大規模言語モデル(LLM)は、既存の医療質問応答ベンチマークにおいて印象的な性能を示しています。この高い性能により、先進的な手法を有意義に評価し、区別することがますます困難になっています。本論文では、多段階の臨床推論、診断の立案、治療計画の策定を必要とする難易度の高い医療質問に焦点を当てたベンチマーク「MedAgentsBench」を提案します。これらのシナリオでは、標準テストでの強力な性能にもかかわらず、現在のモデルは依然として苦戦しています。7つの確立された医療データセットを基に、本ベンチマークは既存の評価における3つの主要な課題に対処します:(1)ベースモデルでも高い性能を達成する単純な質問が多く存在すること、(2)研究間で一貫性のないサンプリングと評価プロトコル、(3)性能、コスト、推論時間の相互作用に関する体系的な分析の欠如です。様々なベースモデルと推論手法を用いた実験を通じて、最新の思考モデルであるDeepSeek R1とOpenAI o3が、複雑な医療推論タスクで卓越した性能を示すことを実証しました。さらに、従来のアプローチと比較して、高度な検索ベースのエージェント手法は有望な性能対コスト比を提供します。我々の分析は、複雑な質問におけるモデルファミリー間の大きな性能差を明らかにし、異なる計算制約に対する最適なモデル選択を特定します。本ベンチマークと評価フレームワークは、https://github.com/gersteinlab/medagents-benchmark で公開されています。
我々は、オートレグレッシブLLM(大規模言語モデル)において、アーキテクチャ変更を伴わずにグローバルに一貫したテキストから画像への生成を実現する新しいトレーニングフレームワーク「Autoregressive Representation Alignment (ARRA)」を提案する。従来の複雑なアーキテクチャ再設計を必要とする手法とは異なり、ARRAは外部の視覚基盤モデルからの視覚表現とLLMの隠れ状態を、グローバルな視覚アライメント損失とハイブリッドトークン<HYBNEXT>を用いて整合させる。このトークンは、局所的な次トークン予測とグローバルな意味蒸留という二重の制約を課すことで、LLMが空間的・文脈的一貫性を暗黙的に学習しつつ、元のオートレグレッシブパラダイムを維持することを可能にする。大規模な実験により、ARRAのプラグアンドプレイの汎用性が検証された。テキスト生成専用LLMやランダム初期化からのトレーニングにおいて、ARRAはChameleonやLlamaGenなどの先進的なオートレグレッシブLLMにおいて、フレームワーク変更なしにFIDをMIMIC-CXRで25.5%、DeepEyeNetで8.8%、ImageNetで7.5%削減した。ドメイン適応においては、汎用LLMをBioMedCLIPなどの専門モデルと整合させ、医療画像(MIMIC-CXR)における直接ファインチューニングと比較して18.6%のFID削減を達成した。アーキテクチャ革新だけでなく、トレーニング目的の再設計がクロスモーダルなグローバル一貫性の課題を解決できることを示すことで、ARRAはオートレグレッシブモデルの進化に向けた補完的なパラダイムを提供する。コードとモデルは、オートレグレッシブ画像生成の進展に向けて公開される予定である。
ユニバーサルマルチモーダル埋め込みモデルは、画像とテキストの交互検索、マルチモーダルRAG、マルチモーダルクラスタリングなどのタスクにおいて重要な役割を果たします。しかし、我々の実証結果によると、標準的なInfoNCE損失で訓練された既存のLMMベースの埋め込みモデルは、正例ペアと負例ペアの類似度分布が高度に重複しており、ハードネガティブペアを効果的に識別することが困難です。この問題に対処するため、我々は、識別の難易度に基づいて負例ペアに対する埋め込みモデルの表現学習を動的に改善する、シンプルかつ効果的なフレームワークを提案します。このフレームワーク内で、我々はLLaVEと名付けた一連のモデルを訓練し、4つのメタタスクと36のデータセットをカバーするMMEBベンチマークで評価しました。実験結果は、LLaVEが最先端(SOTA)の性能を達成する強力なベースラインを確立し、高いスケーラビリティと効率性を示すことを明らかにしています。具体的には、LLaVE-2Bは以前のSOTAである7Bモデルを上回り、LLaVE-7Bはさらに6.2ポイントの性能向上を達成しました。LLaVEは画像とテキストのデータで訓練されていますが、ゼロショット方式でテキストと動画の検索タスクに一般化し、強力な性能を発揮することができ、他の埋め込みタスクへの転移における顕著な潜在能力を示しています。
関係性ビデオカスタマイゼーションとは、ユーザーが指定した2つの対象間の関係を描いたパーソナライズドビデオを作成することを指し、現実世界の視覚的コンテンツを理解する上で重要なタスクです。既存の手法では対象の外観や動きをパーソナライズできますが、複雑な関係性ビデオカスタマイゼーションにおいては、正確な関係性モデリングと対象カテゴリ間での高い汎化能力が不可欠であり、依然として困難を抱えています。主な課題は、関係性に内在する複雑な空間配置、レイアウトの変動、そして微妙な時間的ダイナミクスに起因しており、その結果、現在のモデルは意味のある相互作用を捉えるよりも、無関係な視覚的詳細を過度に強調する傾向があります。これらの課題に対処するため、我々はDreamRelationを提案します。これは、少数の例示ビデオを活用して関係性をパーソナライズする新しいアプローチであり、2つの主要なコンポーネント、すなわち「関係性分離学習(Relational Decoupling Learning)」と「関係性ダイナミクス強化(Relational Dynamics Enhancement)」を活用します。まず、関係性分離学習では、関係LoRAトリプレットとハイブリッドマスク学習戦略を用いて、関係性を対象の外観から分離し、多様な関係性にわたるより良い汎化を確保します。さらに、MM-DiTのアテンションメカニズム内におけるクエリ、キー、およびバリューフィーチャーの役割を分析することで、関係LoRAトリプレットの最適な設計を決定し、DreamRelationを説明可能なコンポーネントを備えた最初の関係性ビデオ生成フレームワークとします。次に、関係性ダイナミクス強化では、空間-時間関係性コントラスト損失を導入し、詳細な対象の外観への依存を最小限に抑えながら、関係性ダイナミクスを優先します。大規模な実験により、DreamRelationが関係性ビデオカスタマイゼーションにおいて最先端の手法を凌駕することが実証されています。コードとモデルは公開される予定です。
マスク画像生成モデルとマスク拡散モデルは、異なる動機と目的で設計されていますが、これらを単一のフレームワーク内で統合できることが観察されました。この洞察に基づき、トレーニングとサンプリングの設計空間を慎重に探求し、性能と効率の両方に寄与する主要な要因を特定しました。この探求中に観察された改善点に基づいて、eMIGMと呼ばれるモデルを開発しました。経験的に、eMIGMはImageNet生成において、Fr\'echet Inception Distance(FID)で測定される強力な性能を示しています。特に、ImageNet 256x256では、同程度の関数評価回数(NFE)とモデルパラメータ数で、eMIGMは画期的なVARを上回りました。さらに、NFEとモデルパラメータが増加するにつれて、eMIGMは最先端の連続拡散モデルに匹敵する性能を達成し、NFEの40%未満しか必要としませんでした。加えて、ImageNet 512x512では、NFEの約60%のみで、eMIGMは最先端の連続拡散モデルを上回りました。
従来の推論セグメンテーション手法は、カテゴリカルラベルと簡易な記述を用いた教師ありファインチューニングに依存しており、ドメイン外への汎化能力が制限され、明示的な推論プロセスを欠いていました。これらの課題を解決するため、我々はSeg-Zeroを提案します。これは、認知的な強化を通じて顕著な汎化能力を示し、明示的な連鎖的思考推論を導出する新しいフレームワークです。Seg-Zeroは、推論モデルとセグメンテーションモデルからなる分離型アーキテクチャを導入しています。推論モデルはユーザーの意図を解釈し、明示的な推論連鎖を生成し、位置情報プロンプトを生成します。これらはその後、セグメンテーションモデルによって使用され、精密なピクセルレベルのマスクを生成します。我々は、フォーマットと精度の両方の報酬を統合した洗練された報酬メカニズムを設計し、最適化の方向性を効果的に導きます。GRPOを用いた強化学習のみでトレーニングされ、明示的な推論データを使用しないSeg-Zeroは、堅牢なゼロショット汎化能力を示し、テスト時の推論能力を発現させます。実験結果では、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、従来のLISA-7Bを18%上回りました。この大幅な改善は、Seg-Zeroが明示的な推論プロセスを提示しながらドメインを超えて汎化する能力を強調しています。コードはhttps://github.com/dvlab-research/Seg-Zeroで公開されています。
近年の2Dから3Dへの知覚技術の進展により、2D画像からの3Dシーン理解が大幅に向上しています。しかし、既存の手法は、シーン間での汎化性能の限界、知覚精度の低さ、再構築速度の遅さといった重大な課題に直面しています。これらの制約を解決するため、我々は精度と効率の両方を向上させる新しいフレームワークであるPerception-Efficient 3D Reconstruction (PE3R)を提案します。PE3Rは、迅速な3Dセマンティックフィールド再構築を可能にするフィードフォワードアーキテクチャを採用しています。このフレームワークは、多様なシーンやオブジェクトに対して強力なゼロショット汎化性能を示し、再構築速度を大幅に改善します。2Dから3Dへのオープン語彙セグメンテーションおよび3D再構築に関する広範な実験により、PE3Rの有効性と汎用性が検証されました。このフレームワークは、3Dセマンティックフィールド再構築において最低9倍の高速化を達成し、知覚精度と再構築精度の大幅な向上をもたらし、この分野で新たなベンチマークを設定しています。コードは以下のURLで公開されています: https://github.com/hujiecpp/PE3R。
物体検出とセグメンテーションはコンピュータビジョンアプリケーションで広く利用されていますが、YOLOシリーズのような従来のモデルは効率的で正確である一方、事前定義されたカテゴリに制限されるため、オープンシナリオでの適応性が妨げられています。最近のオープンセット手法は、テキストプロンプト、視覚的キュー、またはプロンプトフリーパラダイムを活用してこれを克服しようとしていますが、高い計算要求や展開の複雑さのため、性能と効率性の間で妥協することが多いです。本研究では、YOLOEを紹介します。これは、多様なオープンプロンプトメカニズムを単一の高効率モデルに統合し、リアルタイムでの「何でも見る」能力を実現します。テキストプロンプトについては、再パラメータ化可能な領域-テキストアライメント(RepRTA)戦略を提案します。これは、再パラメータ化可能な軽量補助ネットワークを介して事前学習されたテキスト埋め込みを洗練し、推論や転送のオーバーヘッドなしで視覚的-テキスト的アライメントを強化します。視覚的プロンプトについては、セマンティック活性化視覚プロンプトエンコーダ(SAVPE)を提示します。これは、分離されたセマンティックと活性化ブランチを使用して、最小限の複雑さで改善された視覚的埋め込みと精度をもたらします。プロンプトフリーシナリオについては、レイジー領域-プロンプトコントラスト(LRPC)戦略を導入します。これは、組み込みの大規模語彙と特殊な埋め込みを利用してすべてのオブジェクトを識別し、高コストな言語モデルへの依存を回避します。大規模な実験により、YOLOEの優れたゼロショット性能と転送性、高い推論効率、低いトレーニングコストが示されています。特に、LVISでは、トレーニングコストが3分の1で、推論速度が1.4倍向上し、YOLOE-v8-SはYOLO-Worldv2-Sを3.5 AP上回ります。COCOに転送する際には、YOLOE-v8-LはクローズドセットのYOLOv8-Lに対して0.6 AP^bと0.4 AP^mの向上を達成し、トレーニング時間はほぼ4分の1です。コードとモデルはhttps://github.com/THU-MIG/yoloeで利用可能です。
視覚言語モデル(VLMs)は、視覚中心のタスクにおいて視覚情報とテキスト情報を統合する能力に優れているが、モダリティ間の不一致に対する扱いは十分に検証されていない。本研究では、視覚中心の設定において、視覚データと多様なテキスト入力を提示された際のVLMsのモダリティ選好を調査する。4つの視覚中心タスクにテキストのバリエーションを導入し、10種類の視覚言語モデル(VLMs)を評価した結果、「テキストへの盲信」現象を発見した:VLMsは、不一致が生じた際に視覚データよりもテキストデータを過剰に信頼し、破損したテキスト下での性能低下を引き起こし、安全性に関する懸念を提起する。このテキストバイアスに影響を与える要因として、指示プロンプト、言語モデルのサイズ、テキストの関連性、トークンの順序、視覚的およびテキスト的な確実性の相互作用を分析した。言語モデルのサイズを拡大するといった特定の要因はテキストバイアスをわずかに軽減するが、トークンの順序などは言語モデルから継承された位置バイアスによりそれを悪化させる可能性がある。この問題に対処するため、テキスト拡張を用いた教師ありファインチューニングを探索し、その有効性を実証した。さらに、理論的分析を通じて、テキストへの盲信現象は、トレーニング中の純粋なテキストデータとマルチモーダルデータの不均衡に起因する可能性があることを示唆する。我々の知見は、マルチモーダルデータの不一致を扱う際のVLMsの堅牢性と信頼性を向上させるためには、バランスの取れたトレーニングとモダリティ間の相互作用の慎重な考慮が必要であることを強調する。
大規模言語モデル(LLM)エージェントの混合(MoA)アーキテクチャは、推論時に複数のLLMの協力を活用することで、AlpacaEval 2.0などの主要なベンチマークで最先端の性能を達成しています。しかし、これらの成功にもかかわらず、MoAの安全性と信頼性に関する評価は欠如しています。本研究では、意図的に誤った応答を提供する欺瞞的なLLMエージェントに対するMoAの堅牢性を初めて包括的に調査します。私たちは、欺瞞的情報の伝播、モデルサイズ、情報の可用性などの要因を検証し、重大な脆弱性を明らかにします。AlpacaEval 2.0において、人気のあるLLaMA 3.1-70Bモデルは、3層のMoA(6つのLLMエージェント)と組み合わせることで、長さ制御付き勝率(LC WR)49.2%を達成します。しかし、MoAにわずか1つの注意深く指示された欺瞞的エージェントを導入するだけで、性能が37.9%に低下し、MoAのすべての利点が無効化されることを示します。多肢選択理解タスクであるQuALITYにおいても、その影響は深刻で、精度が驚異的な48.5%も急落します。影響と欺瞞を最小化するために設計された歴史的なヴェネツィアのドージェ選挙プロセスに一部インスパイアされ、私たちは、失われた性能の大部分を回復する一連の教師なし防御メカニズムを提案します。
我々は、CLIPアーキテクチャに微分注意機構を拡張した新しい視覚言語モデルDiffCLIPを提案する。微分注意は、元々大規模言語モデル向けに開発され、関連する文脈を増幅しつつノイズの多い情報を相殺するものである。本研究では、この機構をCLIPのデュアルエンコーダ(画像とテキスト)フレームワークに統合する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れた性能を達成する。ゼロショット分類、検索、ロバストネスベンチマークにわたって、DiffCLIPはベースラインCLIPモデルを一貫して上回る。特に、これらの向上は計算オーバーヘッドをほとんど伴わず、微分注意が効率を犠牲にすることなくマルチモーダル表現を大幅に強化できることを示している。コードはhttps://github.com/hammoudhasan/DiffCLIPで公開されている。
我々は、新しいゼロショット音声視覚音声認識(AVSR)フレームワーク「Zero-AVSR」を探求する。このフレームワークは、対象言語の音声視覚データを一切必要とせずに、その言語での音声認識を可能にする。具体的には、ローマ字テキストを予測することで言語に依存しない音声表現を学習する「音声視覚音声ローマ字化器(AV-Romanizer)」を導入する。次に、大規模言語モデル(LLM)の強力な多言語モデリング能力を活用して、予測されたローマ字テキストを言語固有の書記素に変換する「カスケード型Zero-AVSR」を提案する。さらに一歩進めて、AV-Romanizerによってエンコードされた音声視覚音声表現をLLMに直接統合する統一型Zero-AVSRアプローチを探求する。これは、提案するマルチタスク学習スキームを使用してアダプタとLLMをファインチューニングすることで実現される。音声と言語の多様性の広範なスペクトルを捉えるために、82言語にわたる2,916時間の音声視覚音声データと、言語固有の書記素およびローマ字テキストによる転写を含む「多言語音声視覚ローマ字化コーパス(MARC)」も導入する。詳細な分析と実験により、提案するZero-AVSRフレームワークが、AV-Romanizerのトレーニング中に見られた言語を超えて言語サポートを拡大する可能性があることが確認された。
時系列モデルは、大規模言語モデル(LLM)で達成されたスケーリングと同様に、大規模で複雑なデータセットを扱う際に重大な課題に直面しています。時系列データの独特な特性と、モデルのスケーリングに伴う計算上の要求は、革新的なアプローチを必要とします。研究者たちは、これらの課題に対処するためにTransformer、LSTM、GRUなどの様々なアーキテクチャを探求してきましたが、我々はRWKV-7を用いた新たな解決策を提案します。RWKV-7は、その状態更新メカニズムにメタ学習を組み込んでいます。RWKV-7の時間混合(time mix)とチャネル混合(channel mix)コンポーネントをTransformerベースの時系列モデルTimerに統合することで、約1.13倍から43.3倍の性能向上と、パラメータ数を1/23に抑えながらトレーニング時間を4.5倍短縮することに成功しました。我々のコードとモデルウェイトは、さらなる研究と開発のためにhttps://github.com/Alic-Li/BlackGoose_Rimerで公開されています。
状態空間モデル(SSM)は、Transformerの二次的な計算コストを軽減する効率的な代替手段として登場しました。しかし、パラメータ効率型ファインチューニング(PEFT)手法のSSMへの適用は、ほとんど検討されていません。特に、Transformerで広く使用されているプロンプトベースの手法(Prompt TuningやPrefix-Tuningなど)は、SSMではうまく機能しません。この問題に対処するため、我々はプロンプトベースの手法に代わる優れた代替手段として、状態ベースの手法を提案します。この新しい手法のファミリーは、SSMのアーキテクチャ特性から自然に導き出されます。状態ベースの手法は、外部のプロンプトに依存するのではなく、状態に関連する特徴を直接調整します。さらに、我々は新しい状態ベースのPEFT手法である「State-offset Tuning」を導入します。この手法は、各タイムステップにおいて現在のステップの状態に直接影響を与えることで、より効果的な適応を実現します。多様なデータセットを用いた広範な実験を通じて、本手法の有効性を実証します。コードはhttps://github.com/furiosa-ai/ssm-state-tuningで公開されています。
大規模言語モデルの普及が進むにつれ、その広範な利用が進む一方で、偽ニュースの体系的拡散といった様々なリスクも生じている。その結果、DetectGPTのような分類システムの開発が重要となっている。これらの検出器は回避技術に対して脆弱であり、一連の実験でそのことが示された。生成モデルの温度を体系的に変更することで、浅い学習ベースの検出器が最も信頼性が低いことが証明された。強化学習による生成モデルの微調整は、BERTベースの検出器を回避した。最後に、言い換えを行うことで、DetectGPTのようなゼロショット検出器の90%以上を回避することができたが、テキストは元のものと非常に類似したままだった。既存の研究との比較により、提示された手法の優れた性能が強調されている。社会への影響や今後の研究の可能性についても議論されている。
分類器不要ガイダンス(CFG)は条件付き拡散モデルにおいて不可欠である一方で、推論ステップごとのニューラル関数評価(NFE)の回数を倍増させてしまう。この非効率性を緩和するため、我々はアダプターガイダンス蒸留(AGD)という新たなアプローチを提案する。AGDは軽量なアダプターを活用してCFGをシミュレートし、サンプル品質を維持あるいは向上させつつ、サンプリング速度を実質的に倍増させる。従来のガイダンス蒸留手法がモデル全体を調整するのに対し、AGDはベースモデルを凍結したまま、最小限の追加パラメータ(約2%)のみを訓練することで、蒸留フェーズのリソース要件を大幅に削減する。さらに、このアプローチは元のモデル重みを保持し、同じベースモデルから派生した他のチェックポイントとアダプターをシームレスに組み合わせることを可能にする。また、既存のガイダンス蒸留手法における訓練と推論のミスマッチに対処するため、標準的な拡散軌跡ではなくCFGガイダンス付き軌跡で訓練を行う。広範な実験を通じて、AGDがCFGと同等あるいは優れたFIDを、NFEを半分に抑えつつ複数のアーキテクチャで達成することを示す。特に、本手法は大規模モデル(約26億パラメータ)の蒸留を、24GBのVRAMを搭載した単一のコンシューマーGPUで可能にし、複数のハイエンドGPUを必要とする従来のアプローチよりもアクセスしやすくする。我々は本手法の実装を公開する予定である。
テキストから画像を生成する(Text-to-Image, T2I)モデルは、高品質な芸術作品や視覚コンテンツを生成する能力を持っています。しかし、既存の研究や評価基準は主に画像のリアリズムや表面的なテキストと画像の整合性に焦点を当てており、テキストから画像を生成する際の複雑な意味理解や世界知識の統合に関する包括的な評価が欠けています。この課題に対処するため、我々は世界知識を考慮した意味評価に特化した初のベンチマーク「WISE」を提案します。WISEは、単純な単語とピクセルのマッピングを超え、文化的常識、時空間推論、自然科学の25のサブドメインにわたる1000の精巧に設計されたプロンプトを用いてモデルに挑戦します。従来のCLIPメトリックの限界を克服するため、我々は知識と画像の整合性を評価する新しい定量的メトリック「WiScore」を導入します。25のサブドメインにわたる1000の構造化されたプロンプトを用いて20のモデル(10の専用T2Iモデルと10の統一マルチモーダルモデル)を包括的にテストした結果、画像生成中に世界知識を効果的に統合し適用する能力に重大な限界があることが明らかになり、次世代T2Iモデルにおける知識の取り込みと適用を強化するための重要な道筋が示されました。コードとデータはhttps://github.com/PKU-YuanGroup/WISEで公開されています。
ドメイン汎化は、新規かつ未知のデータ分布に対して一般化可能なモデルを開発することを目的としています。本研究では、モデルアーキテクチャと事前学習の目的が特徴の豊かさにどのような影響を与えるかを調査し、それらをドメイン汎化に効果的に活用する方法を提案します。具体的には、事前学習済みの特徴空間が与えられた場合、まずドメイン固有の変動を教師なしで捉える潜在的なドメイン構造(疑似ドメイン)を発見します。次に、これらの補完的な疑似ドメイン表現を既存の分類器に組み込むことで、多様な未知のテストドメインに対してより適応可能なものにします。異なる事前学習特徴空間が捉えるドメイン固有の分散がどのように異なるかを分析します。我々の実証研究により、拡散モデルから得られた特徴は、明示的なドメインラベルがなくてもドメインを分離するのに優れており、微妙なドメイン固有の情報を捉えることが明らかになりました。5つのデータセットにおいて、我々の非常にシンプルなフレームワークが、標準的なベースラインである経験的リスク最小化(ERM)と比較して、最大4%以上のテスト精度向上をもたらし、未知のドメインへの一般化を改善することを示します。重要なことに、我々の手法は、訓練中にドメインラベルにアクセスするほとんどのアルゴリズムを上回ります。
事前学習済みの大規模言語モデル(LLM)に画像データを追加で学習させると、視覚言語タスクで良好な性能を発揮します。第二段階の学習で画像を追加することでこの能力が効果的に引き出される一方で、この二段階パイプラインが、より早期に画像を学習プロセスに統合する視覚言語モデル(VLM)と比較してどの程度の利得または損失をもたらすかは明らかではありません。これを調査するため、我々は様々なデータセット、スケール、画像テキスト比率、視覚トークンの導入前に行われる事前学習の量にわたるモデルを学習させました。その後、これらのモデルをファインチューニングし、一連の視覚言語タスクおよびテキストのみのタスクにおける下流性能を評価しました。その結果、画像とテキストデータの混合による事前学習を行うことで、モデルは視覚言語タスクでより良い性能を発揮しつつ、テキストのみの評価でも強力な性能を維持できることがわかりました。6つの多様なタスクの平均において、10億パラメータのモデルでは、事前学習の80%の時点で視覚トークンを導入することで、完全に事前学習されたモデルに視覚トークンを導入する場合と比較して平均2%の改善が見られました。
テキストから画像への拡散モデルの最近の進歩により、フォトリアルな画像生成が可能になりましたが、NSFW画像などの悪意のあるコンテンツを生成するリスクもあります。このリスクを軽減するため、特定の概念をモデルに「忘れさせる」概念消去手法が研究されています。しかし、現在の研究では、プロンプトに暗黙的に埋め込まれた悪意のある概念(例:比喩的表現や敵対的プロンプト)を完全に消去しつつ、モデルの通常の生成能力を維持することが困難です。この課題に対処するため、本研究ではTRCEを提案し、二段階の概念消去戦略を用いて、信頼性のある消去と知識の保存の間の効果的なトレードオフを実現します。まず、TRCEはテキストプロンプトに暗黙的に埋め込まれた悪意のある意味を消去することから始めます。重要なマッピング目標(すなわち、[EoT]埋め込み)を特定し、クロスアテンションレイヤーを最適化して、悪意のあるプロンプトを文脈的に類似したが安全な概念を持つプロンプトにマッピングします。このステップにより、ノイズ除去プロセス中にモデルが悪意のある意味に過度に影響されるのを防ぎます。その後、拡散モデルのサンプリング軌跡の決定論的特性を考慮し、TRCEはコントラスティブ学習を通じて、初期のノイズ除去予測を安全な方向に向け、安全でない方向から遠ざけることで、悪意のあるコンテンツの生成をさらに回避します。最後に、TRCEを複数の悪意のある概念消去ベンチマークで包括的に評価し、その結果、悪意のある概念を消去しつつモデルの元の生成能力をより良く維持する効果が実証されました。コードは以下で公開されています:http://github.com/ddgoodgood/TRCE。注意:本論文には、攻撃的な内容を含む可能性のあるモデル生成コンテンツが含まれています。
事前学習済み視覚モデル(PVMs)は現代ロボティクスの基盤であるが、その最適な設定は依然として明確ではない。体系的評価を通じて、DINOとiBOTがMAEを視覚運動制御および知覚タスクにおいて上回る一方で、非(単一)物体中心(NOC)データで学習させた場合に苦戦することがわかった。この制限は、物体中心表現を学習する能力の低下と強く相関している。本研究は、非物体中心のロボティクスデータセットから物体中心表現を形成する能力がPVMsの成功の鍵であることを示唆している。この発見に基づき、我々はSlotMIMを設計した。この手法は、セマンティックボトルネックを導入してプロトタイプの数を削減し、物体性の出現を促進するとともに、多視点不変性を促すためのクロスビュー一貫性正則化を導入することで、物体中心表現を誘導する。我々の実験は、物体中心、シーン中心、ウェブクロール、エゴ中心データでの事前学習を含む。全ての設定において、我々のアプローチは転移可能な表現を学習し、画像認識、シーン理解、ロボット学習評価において従来の研究を大幅に改善した。百万規模のデータセットでスケールアップした場合、我々の手法は優れたデータ効率性とスケーラビリティも示した。我々のコードとモデルはhttps://github.com/CVMI-Lab/SlotMIMで公開されている。
専門家レベルのマルチモーダルタスクの解決は、汎用人工知能に向けた重要なマイルストーンである。マルチモーダル大規模言語モデル(MLLM)の能力が向上し続ける中、このような高度なマルチモーダル知能の評価は必要でありながらも困難な課題となっている。本研究では、専門知識と高度な推論を必要とするオープンエンドのユーザークエリを対象としたベンチマーク「ProBench」を提案する。ProBenchは、専門家が日常の生産性ニーズに基づいて独立して提出した4,000の高品質なサンプルで構成されており、科学、芸術、人文、コーディング、数学、クリエイティブライティングなど10の分野と56のサブ分野にまたがっている。実験的には、MLLM-as-a-Judgeを用いて24の最新モデルを評価・比較した。その結果、最良のオープンソースモデルはプロプライエタリモデルに匹敵するものの、ProBenchは視覚的知覚、テキスト理解、ドメイン知識、高度な推論において大きな課題を提示しており、今後のマルチモーダルAI研究の方向性を示す貴重な知見を提供している。
音声視覚融合音声認識(AVSR)は、音声と視覚の両モダリティを活用することで、特に騒音環境下での音声認識の頑健性を向上させます。近年の大規模言語モデル(LLM)の進展は、AVSRを含む音声認識分野での有効性を実証しています。しかし、音声表現の長大さから、LLMとの直接統合は多大な計算コストを伴います。これまでのアプローチでは、LLMに入力する前に音声表現を圧縮することでこの課題に対処してきました。しかし、高い圧縮率は性能低下を招き、計算効率と認識精度のトレードオフを必要とします。この課題を解決するため、我々はMatryoshka表現学習に着想を得たLlama-MTSKを提案します。これは、特定の計算制約に基づいて音声視覚トークンの割り当てを柔軟に適応させながら、高い性能を維持する初のMatryoshkaベースのマルチモーダルLLMです。本手法では、単一モデル内で複数の粒度で音声視覚表現を符号化し、異なる圧縮レベルごとに個別のモデルを訓練する必要をなくします。さらに、LLMを効率的にファインチューンするため、グローバルおよびスケール固有のLoRAモジュールを用いた3つのLoRAベースのMatryoshka戦略を導入します。2つの大規模AVSRデータセットでの広範な評価により、Llama-MTSKが固定圧縮レベルで独立に訓練されたモデルに匹敵または凌駕する最先端の結果を達成することが示されました。
モバイルインターネットの急速な拡大により、ユーザー生成コンテンツ(UGC)画像が大幅に増加し、UGC画像の徹底的な評価が緊急かつ不可欠な課題となっています。最近では、マルチモーダル大規模言語モデル(MLLM)が画像品質評価(IQA)および画像美的評価(IAA)において大きな可能性を示しています。しかし、UGC画像の品質と美的感覚を効果的にスコアリングするには、依然として2つの主要な課題があります:1)単一のスコアでは、人間の階層的な知覚を十分に捉えることができない。2)MLLMを使用して平均意見スコア(MOS)などの数値スコアを出力する方法は未解決の問題である。これらの課題に対処するため、14,715枚のUGC画像を含む新しいデータセット「Realistic image Quality and Aesthetic(RealQA)」を導入しました。各画像は10の細かい属性で注釈付けされており、これらの属性は低レベル(例:画像の鮮明さ)、中レベル(例:被写体の完全性)、高レベル(例:構図)の3つのレベルにまたがっています。さらに、MLLMを使用して数値スコアを効果的に予測する方法について、一連の詳細かつ包括的な調査を実施しました。驚くべきことに、わずか2つの追加の有効数字を予測するだけで、次のトークンパラダイムがSOTA性能を達成できることがわかりました。さらに、思考の連鎖(CoT)と学習した細かい属性を組み合わせることで、提案手法はIQAおよびIAAの5つの公開データセットにおいてSOTA手法を上回り、優れた解釈可能性を示し、ビデオ品質評価(VQA)に対する強力なゼロショット汎化能力を示しました。コードとデータセットは公開予定です。
既存の新規物体6D姿勢推定手法は、通常CADモデルまたは密な参照ビューに依存しており、これらはどちらも取得が困難です。単一の参照ビューのみを使用することはスケーラブルですが、大きな姿勢の不一致や限られた幾何学的・空間的情報のため、挑戦的です。これらの問題に対処するため、我々は単一参照ベースの新規物体6D姿勢推定手法(SinRef-6D)を提案します。我々の鍵となるアイデアは、状態空間モデル(SSM)に基づいてカメラ座標系における点単位のアライメントを反復的に確立することです。具体的には、反復的なカメラ空間点単位アライメントは大きな姿勢の不一致を効果的に処理し、提案するRGBおよびポイントSSMは単一ビューから長距離依存性と空間情報を捕捉し、線形複雑性と優れた空間モデリング能力を提供します。合成データで事前学習されたSinRef-6Dは、再学習やCADモデルを必要とせず、単一の参照ビューのみを使用して新規物体の6D姿勢を推定できます。6つの人気データセットと実世界のロボットシーンでの広範な実験により、我々はより挑戦的な単一参照設定で動作しているにもかかわらず、CADベースおよび密な参照ビューベースの手法と同等の性能を達成することを実証しました。コードはhttps://github.com/CNJianLiu/SinRef-6Dで公開されます。
近年の研究では、大規模に訓練された単一モダリティの2D視覚およびテキストエンコーダが、異なる表現から生じているにもかかわらず、驚くほど類似した構造的特性を持つ特徴量を学習することが示されています。しかし、3Dエンコーダが他のモダリティとどのような関係にあるかは未だ解明されていません。さらに、大規模データセットを活用する既存の3D基盤モデルは、通常、他の表現の凍結されたエンコーダとの明示的なアライメント目的で訓練されています。本研究では、単一モダリティの3Dエンコーダから得られた表現とテキストベースの特徴空間との事後的なアライメントの可能性を探ります。単純な事後訓練によるテキストと3Dエンコーダの特徴アライメントでは限定的な性能しか得られないことを示し、次に、対応する特徴空間の部分空間を抽出することに焦点を当てます。学習された表現を適切に選択された低次元部分空間に投影することで、アライメントの品質が大幅に向上し、マッチングおよび検索タスクの精度が向上することを発見しました。我々の分析はさらに、これらの共有部分空間の性質に光を当て、それらがおおむね意味的および幾何学的データ表現を分離していることを明らかにします。全体として、本研究は、3D単一モダリティとテキスト特徴空間の事後訓練アライメントのベースラインを確立する最初の研究であり、3Dデータが他の表現と比較して持つ共有および独自の特性を強調するのに役立ちます。
一対多の事実クエリ(例:ある国の都市を列挙する)に答えるためには、言語モデル(LM)が知識を同時に想起し、かつ以前の回答を繰り返さないようにする必要があります。これらの二つのサブタスクは、内部的にどのように実装され、統合されているのでしょうか?複数のデータセットとモデルにわたって、私たちは「促進-抑制メカニズム」を特定しました:モデルはまずすべての回答を想起し、その後、以前に生成された回答を抑制します。具体的には、LMsは主題と以前の回答トークンの両方を使用して知識の想起を行い、注意機構が主題情報を伝播し、MLPが回答を促進します。その後、注意機構は以前の回答トークンに注意を向けて抑制し、MLPが抑制信号を増幅します。私たちのメカニズムは、広範な実験的証拠によって裏付けられています:早期デコードと因果トレーシングを使用するだけでなく、指定されたトークンからの集約された注意更新をデコードするToken Lensと、指定されたトークンへの注意を除去した後のMLP出力の変化を分析するノックアウト法を導入することで、コンポーネントが異なるトークンをどのように使用するかを分析しました。全体として、LMsの内部コンポーネントが異なる入力トークンとどのように相互作用して複雑な事実の想起をサポートするかについての新しい洞察を提供します。コードはhttps://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queriesで公開されています。
本論文では、ワイルド環境で撮影された複数のショット遷移を含むビデオから、ワールド座標系における長尺3D人間モーションを再構築するための新しいフレームワークを提案する。このような長尺のワイルド環境モーションは、モーション生成やモーション理解などのアプリケーションにとって非常に価値があるが、ビデオ内での急激なショット遷移、部分的なオクルージョン、動的な背景といった要因により、その復元は大きな課題となっている。既存の手法は主に、単一のカメラビュー内で連続性が保たれるシングルショットビデオに焦点を当てるか、カメラ空間内でのマルチショットアラインメントを簡略化している。本研究では、ショット遷移検出器と堅牢なアラインメントモジュールを組み込むことで、ショット間での正確なポーズと方向の連続性を確保し、強化されたカメラポーズ推定と人間モーション復元(HMR)を統合することでこれらの課題に取り組む。カスタムモーションインテグレータを活用することで、足のスライディング問題を効果的に軽減し、人間のポーズの時間的整合性を保証する。公開されている3D人間データセットから作成したマルチショットデータセットでの広範な評価により、本手法がワールド座標系における現実的な人間モーションを再構築する上での堅牢性を実証している。
大規模言語モデル(LLM)を人間の好みに合わせることは、実世界での展開において極めて重要です。しかし、RLHFのような既存の手法は計算量と安定性の課題に直面しています。DPOは単一のハイパーパラメータbetaを用いたオフラインパラダイムを確立しましたが、SimPOのような後続の手法では二つのパラメータ(beta、gamma)を導入することで複雑さが再び増しています。本論文では、{ReLUベースの選好最適化(RePO)}を提案します。これは、二つの進展を通じてbetaを排除する簡潔なアルゴリズムです:(1)SimPOの参照不要なマージンを保持しつつ、勾配分析を通じてbetaを除去すること、(2)自明なペアを自然にフィルタリングするReLUベースの最大マージン損失を採用することです。理論的には、RePOはSimPOの極限ケース(betaを無限大にした場合)として特徴づけられ、ロジスティック重み付けが二値閾値処理に収束し、0-1損失の凸包を形成します。AlpacaEval 2とArena-Hardでの実験結果は、RePOが複数のベースモデルにおいてDPOとSimPOを上回り、調整が必要なハイパーパラメータが一つだけであることを示しています。
マルチモーダル大規模言語モデル(MLLMs)は、大規模データセットでの学習後、多様な視覚-言語タスクにおいて強力なゼロショット能力を発揮します。しかし、セマンティックセグメンテーションやキーポイント検出などの密な予測タスクは、テキスト出力としてのみ表現される場合、MLLMsにとって重大な課題となります。同時に、視覚タスクのデコードに潜在埋め込みを利用する現在のMLLMsは、マルチタスク学習とマルチグラニュラリティのシナリオに対する適応性が限られています。本研究では、様々な視覚デコードタスクを統一的に訓練するためのエンドツーエンドフレームワークであるREF-VLMを提案します。複雑な視覚デコードシナリオに対処するため、Triplet-Based Referring Paradigm(TRP)を導入し、視覚デコードタスクにおける3つの重要な次元(概念、デコードタイプ、ターゲット)をトリプレット構造を通じて明示的に分離します。TRPは、構造化された表現学習を強化するためにシンボリックデリミタを使用し、モデル出力の解析可能性と解釈可能性を向上させます。さらに、25のタスクタイプにわたる1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットであるVisual-Task Instruction Following Dataset(VTInstruct)を構築しました。テキスト入力と出力に加えて、VT-Instructはポイント、ボックス、スクリブル、マスクなどの様々な視覚プロンプトを組み込み、ボックス、キーポイント、深度、マスクなどのテキストと視覚ユニットで構成される出力を生成します。異なる視覚プロンプトと視覚ユニットの組み合わせにより、多様なタスクタイプが生成され、REF-VLMの適用性が大幅に拡張されます。定性的および定量的な実験により、REF-VLMが様々な標準ベンチマークにおいて他のMLLMsを凌駕することが実証されました。コード、データセット、デモはhttps://github.com/MacavityT/REF-VLMで公開されています。
既存の事前学習済み専門LLMを組み合わせることは、大規模で多様なタスクにスケーラブルに対処するための有望なアプローチです。しかし、タスクレベルで専門家を選択することはしばしば粗粒度であり、異種のタスクでは各インスタンスごとに異なる専門知識が必要となる場合があります。事前学習済みLLM専門家の適応的なインスタンスレベルの混合を可能にするため、我々はSymbolic-MoEを提案します。これは、記号的、テキストベース、勾配不要のMixture-of-Expertsフレームワークです。Symbolic-MoEは、数学における代数や生物医学的推論における分子生物学などのスキルに重点を置くことで、細粒度の選択アプローチを採用します。我々は、多様な推論タスクに対して、各専門家の強みに基づいて最も関連性の高い専門家LLMのセットを動的に選択するスキルベースのリクルーティング戦略を提案します。選択された各専門家は独自の推論を生成し、k人の専門家からk個の出力が得られます。これらは、多様な推論出力を統合する能力に基づいて選択されたアグリゲーターによって、最終的な高品質な応答に統合されます。Symbolic-MoEのインスタンスレベルでの専門家選択は、大幅な性能向上をもたらしますが、単純に実装すると、モデルの頻繁なロードとアンロードが必要となるため、高い計算オーバーヘッドが生じる可能性があります。これを解決するため、我々は、割り当てられた専門家に基づいてインスタンスをグループ化し、各モデルを一度だけロードするバッチ推論戦略を実装しました。これにより、1つのGPU上で16の専門家モデルを統合し、4つのGPUを使用する従来のマルチエージェントベースラインと同等またはそれ以上の時間コストを実現しました。多様なベンチマーク(MMLU-Pro、GPQA、AIME、MedMCQA)での広範な評価を通じて、Symbolic-MoEがGPT4o-miniのような強力なLLMやマルチエージェントアプローチを上回り、最良のマルチエージェントベースラインに対して平均8.15%の絶対的な改善を示すことを実証しました。さらに、Symbolic-MoEは高コストな多ラウンドの議論を不要とし、より少ない計算量で議論ベースラインを上回ります。
我々は、古代ギリシャ語とラテン語の語彙間の意味的関係を測定する多言語トランスフォーマーモデル「PhiloBERTA」を提案する。古典テキストから選ばれた語彙ペアを分析し、文脈埋め込みと角度類似度メトリクスを用いて、正確な意味的対応を特定する。結果として、語源的に関連するペア、特にepist\=em\=e(scientia)やdikaiosyn\=e(iustitia)といった抽象的な哲学的概念において、有意に高い類似度スコアを示すことが明らかになった。統計分析により、これらの関係に一貫したパターンが確認され(p = 0.012)、語源的に関連するペアは対照ペアと比べて著しく安定した意味的保存を示すことがわかった。これらの発見は、哲学的概念がギリシャとラテン伝統の間でどのように移動したかを検証するための定量的枠組みを確立し、古典文献学研究に新たな手法を提供するものである。
透明物体や鏡面物体が存在するシーンにおけるロボット把持は、正確な深度情報に依存する手法にとって大きな課題となっています。本論文では、NeuGraspというニューラル表面再構築手法を紹介します。この手法は、背景の事前情報を活用し、材質に依存しない把持検出を実現します。NeuGraspは、トランスフォーマーとグローバル事前体積を統合し、空間エンコーディングを用いてマルチビュー特徴を集約することで、視野が狭く疎な条件下でも頑健な表面再構築を可能にします。前景物体に焦点を当てた残差特徴強化と、占有事前体積による空間知覚の洗練を通じて、NeuGraspは透明表面や鏡面を持つ物体の処理に優れた性能を発揮します。シミュレーションと実世界の両方のシナリオにおける広範な実験により、NeuGraspが把持において最先端の手法を上回りながら、同等の再構築品質を維持することが示されています。詳細はhttps://neugrasp.github.io/をご覧ください。
スコアベース生成モデルは多様な領域で選択されるモデルであるが、推論時の挙動を原理的に制御するためのツールは限られている。例えば、複数の事前学習済みモデルを組み合わせる場合などである。既存の分類器不要ガイダンス手法は、単純なヒューリスティックを用いて条件付きスコアと無条件スコアを混合し、条件付き分布からのサンプリングを近似的に行う。しかし、このような手法は中間分布を近似しないため、追加の「補正」ステップが必要となる。本研究では、事前学習済みスコアベースモデルから導出されたアニーリング、幾何平均、または積分布の系列からのサンプリングを行うための効率的で原理的な手法を提供する。我々は、適切な偏微分方程式(PDE)の項を注意深く考慮することにより、有名なファインマン・カックの公式に基づいた重み付きシミュレーションスキームを導出し、これをファインマン・カック補正器(FKC)と呼ぶ。これらのPDEをシミュレートするために、推論時のスケーリングを活用してサンプリング品質を向上させる逐次モンテカルロ(SMC)リサンプリングアルゴリズムを提案する。我々は、推論時の温度アニーリングによる償却サンプリングの提案、事前学習済みモデルを用いた多目的分子生成の改善、およびテキストから画像生成のための分類器不要ガイダンスの改善を通じて、本手法の有用性を実証的に示す。コードはhttps://github.com/martaskrt/fkc-diffusionで公開されている。