翻訳付きの日次キュレーションされたAI研究論文
phi-4は、データ品質に焦点を当てたトレーニングレシピで開発された140億パラメータの言語モデルであり、我々はそれを紹介する。通常の言語モデルとは異なり、事前トレーニングは主にウェブコンテンツやコードなどのオーガニックデータソースに基づいているが、phi-4は戦略的に合成データをトレーニングプロセス全体に取り入れている。Phiファミリーの以前のモデルは、主に教師モデル(具体的にはGPT-4)の能力を抽出していたが、phi-4はSTEMに焦点を当てたQA能力において教師モデルを大幅に上回り、我々のデータ生成およびポストトレーニング技術が抽出を超えている証拠を提供している。phi-3アーキテクチャにほとんど変更を加えながらも、phi-4はサイズに対して強力なパフォーマンスを達成しており、特に推論に焦点を当てたベンチマークにおいて、改善されたデータ、トレーニングカリキュラム、およびポストトレーニングスキームによって優れた成績を収めている。
人間の認知に類似した、環境と長期間にわたってやり取りできるAIシステムを作成することは、長年の研究目標でした。最近の多様な言語モデル(MLLMs)の進歩により、オープンワールド理解において大きな進展が見られました。しかし、連続して同時にストリーミングされる知覚、記憶、および推論の課題は、ほとんど未開拓のままです。現在のMLLMsは、シーケンス間のアーキテクチャに制約があり、入力を処理し応答を生成する能力が同時に制限されており、知覚と思考を同時に行うことができない状況に似ています。さらに、長いコンテキストに依存して歴史的データを保存することは、長期的な相互作用には非効率でコストがかかるため、実用的ではありません。したがって、すべての機能を実行するために単一の基礎モデルに依存するのではなく、このプロジェクトはSpecialized Generalist AIの概念からインスピレーションを得て、ストリーミングされた知覚、推論、および記憶メカニズムを導入し、ストリーミングビデオとオーディオ入力とのリアルタイムなやり取りを可能にします。提案されたフレームワークInternLM-XComposer2.5-OmniLive(IXC2.5-OL)は、次の3つの主要モジュールで構成されています:(1)ストリーミング知覚モジュール:リアルタイムで多様な情報を処理し、重要な詳細を記憶に保存し、ユーザークエリに応じて推論をトリガーします。 (2)マルチモーダル長期記憶モジュール:短期および長期記憶を統合し、短期記憶を長期記憶に圧縮して効率的な検索と精度向上を実現します。 (3)推論モジュール:クエリに応答し推論タスクを実行し、知覚と記憶モジュールと連携します。このプロジェクトは、人間のような認知をシミュレートし、多様な言語モデルが時間をかけて連続的かつ適応的なサービスを提供できるようにします。
最近、多モーダル大規模言語モデル(MLLMs)は急速な進歩を遂げていますが、低レベル視覚知覚(LLVP)には依然として苦労しており、特に画像の幾何学的詳細を正確に記述する能力に関してです。この能力は、ロボティクス、医用画像解析、製造などの領域での応用において重要です。本論文では、まず、MMLMの画像から2D幾何情報を正確に転記する能力を評価するために設計されたベンチマークであるGeoperceptionを紹介します。このベンチマークを使用して、主要なMLLMの制限を示し、その後、幾何タスクの性能向上のための戦略を探る包括的な実証研究を行います。我々の調査結果は、特定のモデルアーキテクチャ、トレーニング技術、およびデータ戦略、例えば高品質の合成データやデータカリキュラムを使用することの利点を示しています。特に、データカリキュラムを活用することで、モデルがゼロから学習できない難しい幾何理解タスクを学習できることがわかりました。これらの知見を活用して、低レベル幾何学的知覚を強化するために特に最適化されたモデルファミリーであるEuclidを開発しました。純粋に合成多モーダルデータでトレーニングされたにもかかわらず、Euclidは新しい幾何形状に対して強力な汎化能力を示します。例えば、Euclidは、特定のGeoperceptionベンチマークタスクにおいて、最高のクローズドソースモデルであるGemini-1.5-Proよりも最大で58.56%、すべてのタスク平均で10.65%まで性能を向上させています。
マルチモーダル大規模言語モデル(MLLMs)が進化するにつれ、単一ドメインの能力を超えて拡張することは、より多目的で効率的なAIに対応するために不可欠です。ただし、以前のオムニモデルは、音声を不十分に探求し、その多様性と統合を無視してきました。本研究では、Lyraという効率的なMLLMを紹介し、高度な長い音声理解、音の理解、クロスモダリティの効率性、シームレスな音声インタラクションを含む多モーダル能力を向上させます。効率性と音声中心の能力を実現するために、Lyraは次の3つの戦略を採用しています:(1)既存のオープンソースの大規模モデルと提案されたマルチモダリティLoRAを活用して、トレーニングコストとデータ要件を削減します;(2)潜在的なマルチモダリティ正則化器とエクストラクタを使用して、音声と他のモダリティとの関係を強化し、モデルの性能を向上させます;(3)1.5Mのマルチモーダル(言語、ビジョン、音声)データサンプルと12Kの長い音声サンプルを含む高品質で広範なデータセットを構築し、複雑な長い音声入力を処理し、より堅牢なオムニ認知を実現します。他のオムニメソッドと比較して、Lyraは、さまざまなビジョン言語、ビジョン音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、より少ない計算リソースとトレーニングデータを使用します。
マルチモーダル生成モデルには、離散データ(例:テキストやコード)と連続データ(例:画像、音声、ビデオ)の両方を扱うための統一されたアプローチが必要です。本研究では、因果的Transformerを用いて連続データと離散データをシームレスに統合するLatent Language Modeling(LatentLM)を提案します。具体的には、変分オートエンコーダ(VAE)を用いて連続データを潜在ベクトルとして表現し、これらのベクトルの自己回帰生成のために次トークン拡散を導入します。さらに、自己回帰モデリングにおいて重要な分散収束の課題に対処するために、sigma-VAEを開発します。幅広い実験により、LatentLMの効果がさまざまなモダリティで示されています。画像生成では、LatentLMは性能とスケーラビリティの両方でDiffusion Transformersを上回ります。マルチモーダル大規模言語モデルに統合された場合、LatentLMはマルチモーダル生成と理解を統一する汎用インターフェースを提供します。実験結果は、トレーニングトークンのスケーリングアップ設定において、Transfusionやベクトル量子化モデルに比べてLatentLMが有利なパフォーマンスを達成することを示しています。テキストから音声合成において、LatentLMはスピーカーの類似性と堅牢性において最先端のVALL-E 2モデルを上回り、デコーディングステップが10倍少なくて済みます。これらの結果は、LatentLMが大規模なマルチモーダルモデルを推進するための非常に効果的でスケーラブルなアプローチであることを確立しています。
グラフィカルユーザーインターフェース(GUI)エージェントは、ウェブアプリケーションからデスクトップソフトウェアまで、さまざまなデジタル環境で複雑なタスクを自動化する可能性を秘めています。ただし、このようなエージェントの開発は、効果的なトレーニングに必要な高品質な多段階軌跡データの不足によって妨げられています。既存のアプローチは、高コストで労力のかかる人手による注釈に依存しており、規模での持続可能性に欠けています。この課題に対処するために、私たちはAgentTrekを提案します。これは、ウェブチュートリアルを活用して高品質なGUIエージェント軌跡を生成するスケーラブルなデータ合成パイプラインです。当該手法は、自動的にインターネットからチュートリアル風のテキストを収集し、それらをステップバイステップの指示付きタスク目標に変換し、視覚言語モデルエージェントを使用して実際のデジタル環境でその実行をシミュレートします。VLMベースの評価者によって生成された軌跡の正確性が確認されます。これらの合成された軌跡でGUIエージェントをトレーニングすることで、現行モデルよりも接地性と計画性能が著しく向上することを示します。さらに、従来の人手による注釈方法と比較して、私たちのアプローチはよりコスト効率が良いことが確認されています。この研究は、ウェブチュートリアルを用いたガイド付きリプレイが大規模なGUIエージェントトレーニングのための実行可能な戦略であることを強調し、より能力の高い自律型デジタルエージェントへの道を開いています。
既存のテキストから画像(T2I)拡散モデルは、大きなモデルサイズ、遅いランタイム、およびモバイルデバイスでの低品質生成など、いくつかの制限に直面しています。本論文では、これらの課題すべてに対処することを目的とし、極めて小さく高速なT2Iモデルを開発し、モバイルプラットフォームで高解像度かつ高品質な画像を生成します。この目標を達成するために、いくつかの手法を提案します。まず、モデルパラメータとレイテンシを削減し、高品質な生成を確保するために、ネットワークアーキテクチャの設計選択肢を体系的に検討します。次に、生成品質をさらに向上させるために、より大きなモデルからのクロスアーキテクチャ知識蒸留を採用し、マルチレベルアプローチを使用して、当社のモデルのトレーニングをゼロからガイドします。第三に、敵対的なガイダンスと知識蒸留を統合して、数段階の生成を可能にします。初めて、当社のモデルSnapGenは、モバイルデバイスで1024x1024ピクセルの画像を約1.4秒で生成します。ImageNet-1Kでは、わずか372Mのパラメータで、256x256ピクセルの生成に対してFID値2.06を達成します。T2Iベンチマーク(GenEvalおよびDPG-Bench)では、わずか379Mのパラメータで、数十億のパラメータを持つ大規模モデルを大幅に下回り(たとえば、SDXLより7倍小さく、IF-XLより14倍小さい)、優れた性能を発揮します。
拡散モデルの個人化における重要な成果が目覚ましく見られています。従来のチューニングフリーな方法は、主に複数の参照画像を画像埋め込みの平均化によって符号化し、それを注入条件としていますが、このような画像に依存しない操作では画像間の相互作用を行うことができず、複数の参照画像内で一貫した視覚要素を捉えることができません。チューニングベースのLow-Rank Adaptation(LoRA)は、トレーニングプロセスを通じて複数の画像内で一貫した要素を効果的に抽出できますが、各異なる画像グループに対して特定のファインチューニングが必要です。本論文では、複数の参照画像とテキストプロンプトに依存するように拡散モデルを調整する新しいプラグアンドプレイ適応方法であるEasyRefを紹介します。複数の画像内で一貫した視覚要素を効果的に活用するために、マルチモーダル大規模言語モデル(MLLM)のマルチ画像理解と指示に従う能力を活用し、指示に基づいて一貫した視覚要素を捉えるよう促します。さらに、MLLMの表現をアダプタを介して拡散プロセスに注入することで、未知のドメインに容易に汎化し、未知データ内の一貫した視覚要素を探索します。計算コストを軽減し、細かい詳細を保存するために、効率的な参照集約戦略と段階的トレーニングスキームを導入します。最後に、新しいマルチ参照画像生成ベンチマークであるMRBenchを紹介します。実験結果は、EasyRefがIP-Adapterなどのチューニングフリーな方法やLoRAなどのチューニングベースの方法を凌駕し、優れた美的品質と多様なドメインでの堅牢なゼロショット汎化を達成していることを示しています。
生成AIの急速な進歩を考慮すると、利用可能な多数のモデルや構成の間で系統的に比較し選択する必要が迫られています。このような評価の規模と汎用性から、この課題に対する魅力的な解決策として、LLMベースの判定者の使用が考えられます。重要なのは、このアプローチにおいてまずLLM判定者自体の品質を検証することが必要とされる点です。これまでの研究は、LLM判定者のインスタンスベースの評価に焦点を当ててきました。ここでは、判定者が一連の応答または応答ペアにわたって評価されるが、それらのソースシステムには無関心です。私たちは、この設定がシステムレベルのランキングに影響を与える重要な要因、例えば判定者が特定のシステムに対する肯定的または否定的なバイアスを見逃していると主張します。このギャップを埋めるために、我々は初めて、システムランカーとしてのLLM判定者の大規模な研究を実施します。システムのスコアは、複数のシステム出力にわたる判断スコアを集計することで生成され、その結果得られたシステムランキングを人間によるランキングと比較することで、判定者の品質を評価します。全体的な判定者の評価を超えて、我々の分析は、彼らの決定力やバイアスを含む、判定者の行動の詳細な特性を提供します。
単一の画像から物体の幾何学と材料を復元することは、その過不足な性質により困難です。本論文では、2D拡散事前情報から補助的な複数の照明条件を活用して固有推定を向上させる新しいフレームワークであるNeural LightRigを提案します。具体的には、1) 大規模な拡散モデルからの照明事前情報を活用し、専用の設計を施した合成のリライティングデータセット上で我々のマルチライト拡散モデルを構築します。この拡散モデルは、異なる方向からの点光源によって照らされた複数の一貫した画像を生成します。2) これらの異なる照明画像を使用して推定の不確実性を減少させることで、U-Netバックボーンを持つ大規模なG-bufferモデルを訓練し、表面法線と材料を正確に予測します。幅広い実験により、当社の手法が最先端の手法を大幅に上回ることが検証され、鮮やかなリライティング効果を持つ正確な表面法線とPBR材料の推定が可能となります。コードとデータセットは、当社のプロジェクトページhttps://projects.zxhezexin.com/neural-lightrig で入手可能です。
偏微分方程式(PDEs)の近似において、物理情報を組み込んだニューラルネットワーク(PINNs)を用いることで、顕著な進展が見られています。PINNsは最適化フレームワークが直感的であり、様々なPDEを実装する柔軟性がありますが、Multi-Layer Perceptrons(MLPs)のスペクトルバイアスにより、高周波および非線形成分を効果的に学習することが難しく、精度が制限されることがしばしばあります。最近、ニューラルネットワークと組み合わせたパラメトリックメッシュ表現が、ニューラルネットワークの帰納バイアスを除去する有望なアプローチとして研究されてきました。ただし、これらは高分解能のグリッドと多数のコロケーションポイントを必要とし、過学習問題を回避しつつ高い精度を達成するためには、通常困難が伴います。また、メッシュパラメータの固定された位置は柔軟性を制限し、複雑なPDEを正確に近似することが難しくなります。これらの制限を克服するために、私たちは物理情報を持つガウス関数(PIGs)を提案します。このアプローチでは、各ガウス関数の平均と分散のための学習可能なパラメータを使用し、トレーニング中にその位置と形状を動的に調整することができます。この適応性により、モデルは固定されたパラメータ位置を持つモデルとは異なり、PDEの解を最適に近似することが可能となります。さらに、提案されたアプローチは、PINNsで使用されている最適化フレームワークを維持しており、その優れた特性を活用することができます。実験結果は、様々なPDEにおいて私たちのモデルが競争力のある性能を発揮し、複雑なPDEを解くための堅牢なツールとしての潜在性を示しています。私たちのプロジェクトページは、https://namgyukang.github.io/Physics-Informed-Gaussians/ でご覧いただけます。
現代のセンサーは、ますます豊富な高解像度データのストリームを生成します。リソースの制約により、機械学習システムはこの情報の大部分を解像度を低下させることで破棄します。圧縮領域学習により、モデルはコンパクトな潜在表現で動作でき、同じ予算でより高い効果的な解像度を実現できます。ただし、既存の圧縮システムは圧縮学習には理想的ではありません。線形変換符号化やエンドツーエンド学習圧縮システムはビットレートを低減しますが、次元を一様に低減させないため、効率を意味する形で増加させません。生成オートエンコーダは次元を低減しますが、その敵対的または知覚的な目的は重要な情報の損失につながります。これらの制限に対処するために、私たちはWaLLoC(Wavelet Learned Lossy Compression)を導入します。これは、線形変換符号化と非線形次元削減オートエンコーダを組み合わせたニューラルコーデックアーキテクチャです。WaLLoCは、浅い非対称オートエンコーダとエントロピーのボトルネックを反転可能なウェーブレットパケット変換の間に挟み込みます。いくつかの主要な指標において、WaLLoCは最先端の潜在拡散モデルで使用されているオートエンコーダを凌駕します。WaLLoCは高周波詳細を表現するために知覚的または敵対的な損失を必要とせず、RGB画像やステレオオーディオ以外のモダリティとの互換性を提供します。WaLLoCのエンコーダはほとんどが線形演算で構成されており、非常に効率的でモバイルコンピューティング、リモートセンシング、および圧縮データから直接学習するために適しています。私たちは、画像分類、着色、文書理解、音楽ソース分離など、いくつかのタスクでWaLLoCの圧縮領域学習能力を実証します。コード、実験、事前学習済みオーディオおよび画像コーデックは、https://ut-sysml.org/walloc で入手可能です。
本研究では、大規模な事前学習された拡散モデルに包括された豊富な画像事前知識を活用して、画像の超解像(SR)性能を向上させることを目的とした、拡散逆転に基づく新しい画像超解像技術を提案しています。我々は、部分的なノイズ予測戦略を設計し、拡散モデルの中間状態を構築します。この中間状態は、サンプリングの開始点として機能します。我々のアプローチの中心には、最適なノイズマップを推定するための深層ノイズ予測器があります。訓練された後、このノイズ予測器を使用して、拡散軌跡に沿ってサンプリングプロセスを部分的に初期化し、望ましい高解像度結果を生成します。既存の手法と比較して、我々の手法は、1から5までの任意のサンプリングステップをサポートする柔軟かつ効率的なサンプリングメカニズムを提供します。1つのサンプリングステップでも、我々の手法は、最近の最先端の手法と比較して、優れたまたは同等の性能を示します。コードとモデルは、https://github.com/zsyOAOA/InvSR で公開されています。
ビジョン言語モデル(VLM)の採用と機能の向上に伴い、本物のユーザーとVLMのインタラクションを捉えるベンチマークの必要性が高まっています。このニーズに応えるため、我々はVisionArenaを作成しました。これは、23万の実世界のユーザーとVLMの対話を収集したデータセットです。Chatbot Arenaから収集され、ユーザーがVLMとやり取りし、好みの投票を提出するオープンソースプラットフォームです。VisionArenaには、73,000人のユニークユーザー、45のVLM、および138の言語が含まれています。当データセットには3つのサブセットがあります。VisionArena-Chatには、ユーザーとVLMの間の20万の単一およびマルチターンの対話が含まれています。VisionArena-Battleには、2つの匿名のVLMを比較し、ユーザーの好みの投票を行う3万の対話が含まれています。そして、VisionArena-Benchには、ライブChatbot Arenaのモデルランキングを効率的に近似する500の多様なユーザープロンプトの自動ベンチマークが含まれています。さらに、ユーザーが尋ねる質問の種類、応答スタイルが好みに与える影響、モデルがしばしば失敗する領域に焦点を当てています。キャプショニングやユーモアなどのオープンエンドのタスクはスタイルに大きく依存しており、現在のVLMは空間的推論や計画タスクに苦労していることがわかりました。最後に、VisionArena-Chatで同じベースモデルをファインチューニングすることで、Llava-Instruct-158Kを上回り、MMMUで17ポイント、WildVisionベンチマークで46ポイントの向上が見られました。データセットはこちらから入手可能です:https://huggingface.co/lmarena-ai
現代のMLLMを開発する標準的な手法は、ビジョンエンコーダーからの特徴をLLMに供給し、自然言語の教示で訓練することです。本研究では、中間のLLM表現を最適化するための見落とされている機会があると考えています。つまり、単に自然言語の教示だけでは、MLLMの視覚理解能力において最適ではないということです。このため、我々はOLA-VLMを提案します。これは、ターゲットの視覚表現のセットからLLMの隠れた表現に知識を蒸留する最初のアプローチです。まず、MLLMの事前学習段階における目的を、予測的な視覚埋め込みと次のテキストトークン予測の連携最適化として定式化します。次に、単に自然言語の教示で訓練されたMLLMを調査し、これらのモデル内の視覚表現の質とそれらの下流パフォーマンスとの間に正の相関関係を特定します。さらに、我々のOLA-VLMを調査することで、埋め込みの最適化による表現の質の向上を観察します。第三に、OLA-VLMが単一およびマルチエンコーダーのベースラインを凌駕し、対応する特徴をLLMに明示的に供給するよりも優れていることを証明します。特に、OLA-VLMは、さまざまなベンチマークで平均で最大2.5%のマージンでパフォーマンスを向上させ、CV-BenchのDepthタスクでは8.7%の顕著な改善を実現しています。当該コードはhttps://github.com/SHI-Labs/OLA-VLM でオープンソースとして公開されています。
本論文では、複雑で現実世界のルールに従う能力を評価するために設計された革新的で厳しいベンチマークであるRuleArenaを紹介します。航空会社の手荷物料金、NBAの取引、税制規則といった3つの実践的な領域をカバーし、RuleArenaは、LLM(大規模言語モデル)が長い文脈の理解、論理的推論、正確な数学的計算を要求する入り組んだ自然言語の指示を処理する能力を評価します。RuleArenaを従来の基準論理表現を超える点と、現実的な実践的シナリオに基づいており、LLMの実世界の適用に対する適合性と信頼性についての洞察を提供する点の2つの重要な属性があります。我々の研究結果は、LLMにいくつかの注目すべき制限があることを明らかにしました:(1)適切なルールを特定して適用するのに苦労し、似ているが異なる規則によく混乱する、(2)関連するルールを正しく特定した場合でも、一貫して正確な数学的計算を行うことができない、そして(3)一般的に、ベンチマークでのパフォーマンスが低いです。これらの結果は、LLMの現実世界のアプリケーションにおけるルールに基づく推論能力を向上させる上で重要な課題を浮き彫りにしています。
生成言語モデルのトレーニングにおける著作権付き資料の使用は、重要な法的および倫理的問題を引き起こします。本論文では、ノルウェー語の大規模言語モデル(LLM)の性能に著作権付き資料が与える影響を実証的に評価するための枠組みと結果を提案します。我々は、ノルウェーのさまざまなベンチマークでモデルを評価した際、書籍と新聞の両方が肯定的に貢献する一方、小説作品は性能の低下につながる可能性があることを発見しました。我々の実験は、AIの発展に貢献する作品の著者に対する補償制度の構築に役立つ可能性があります。
単語意味の曖昧性解消(WSD)は、与えられた文脈内の単語を、可能な候補の中で最も適切な意味に関連付けるタスクです。このタスクは最近再び注目を集めており、システムが推定されるアノテーター間の合意を上回る性能を達成していますが、執筆時点では、下流の応用を見つけるのに苦労しています。私たちは、これの一因がWSDをプレーンテキストに適用する難しさにあると主張します。実際、標準的な定式化では、モデルは次の仮定のもとで作業します。a) 曖昧性を解消するためのすべてのスパンがすでに識別されている、およびb) 各スパンの可能な候補意味がすべて提供されているというものであり、いずれも決して自明ではない要件です。この研究では、入力テキストと参照意味インベントリが与えられた場合に、システムが曖昧性を解消するためのスパンを特定し、それらを最も適切な意味にリンクする新しいタスクである「単語意味リンキング(WSL)」を提案します。私たちは、このタスクのためのトランスフォーマーベースのアーキテクチャを提示し、その性能とWSDの前提を緩めてWSLにスケーリングされた最先端のシステムの性能を徹底的に評価します。私たちの研究が、語彙意味を下流の応用に容易に統合することを促進することを期待しています。
正規化フロー(NFs)は、連続的な入力に対する尤度ベースのモデルです。これらは密度推定および生成モデリングの両方で有望な結果を示していますが、近年では比較的注目されていませんでした。本研究では、NFsが以前に考えられていたよりも強力であることを示します。我々はTarFlowを提案します:高性能なNFモデルを可能にするシンプルでスケーラブルなアーキテクチャです。TarFlowは、Masked Autoregressive Flows(MAFs)のTransformerベースの変種と考えることができます:画像パッチ上の自己回帰Transformerブロックのスタックであり、層間で自己回帰方向を交互に変更します。TarFlowはエンドツーエンドで容易にトレーニングでき、ピクセルを直接モデリングおよび生成することができます。また、トレーニング中のガウスノイズ増強、トレーニング後のノイズ除去手順、およびクラス条件付きおよび非条件付きの設定の両方に対する効果的なガイダンス手法を提案します。これらを組み合わせることで、TarFlowは画像の尤度推定において新たな最先端の結果を達成し、従来の最良手法を大きく上回るとともに、拡散モデルと同等の品質と多様性を持つサンプルを生成します。これは、単独のNFモデルで初めてのことです。我々は、コードをhttps://github.com/apple/ml-tarflow で公開しています。
最近のテキストから画像へのカスタマイズの進歩により、高忠実度でコンテキスト豊かな個人用画像の生成が可能となり、特定の概念がさまざまなシナリオに現れるようになりました。ただし、現在の方法は複数の個人用モデルを組み合わせる際に苦労し、しばしば属性の絡み合いを引き起こしたり、概念の独自性を保持するために別々のトレーニングが必要となることがあります。私たちは、LoRACLRという新しい手法を提案します。これは、異なる概念にそれぞれファインチューニングされた複数のLoRAモデルを追加の個別のファインチューニングなしで1つの統一されたモデルに統合する多概念画像生成のための手法です。LoRACLRは、これらのモデルの重み空間を整列およびマージし、干渉を最小限に抑えながら互換性を確保するために対照的な目的を使用します。各概念に独自でありながら一貫した表現を強制することで、LoRACLRは高品質な多概念画像合成のための効率的でスケーラブルなモデル構成を実現します。私たちの結果は、LoRACLRが複数の概念を正確に統合する効果を示し、個人用画像生成の能力を向上させています。
従来の疎な視点再構築モデルは、正確な既知のカメラポーズに大きく依存しています。ただし、疎な視点画像からカメラの外部パラメータと内部パラメータを導出することは、著しい課題を提起します。本研究では、非常にスケーラブルで、未補正の疎な視点画像から高品質な3Dガウス分布を生成し、わずか数秒でそのカメラパラメータを回復することができる前方伝播型再構築フレームワークであるFreeSplatterを提案します。FreeSplatterは、シーケンシャルなセルフアテンションブロックからなるスムーズなトランスフォーマーアーキテクチャに基づいて構築されており、複数の視点画像トークン間で情報交換を促進し、それらをピクセル単位の3Dガウス原子にデコードします。予測されたガウス原子は統一された基準フレームに配置されており、高忠実度な3Dモデリングと市販のソルバーを用いた瞬時のカメラパラメータ推定が可能となっています。オブジェクト中心とシーンレベルの両方の再構築に対応するために、FreeSplatterの2つのモデルバリアントを幅広いデータセットでトレーニングしています。両シナリオにおいて、FreeSplatterは再構築品質と姿勢推定の精度において、最先端のベースラインを上回る性能を発揮します。さらに、テキスト/画像から3Dコンテンツの作成などの下流アプリケーションの生産性向上におけるFreeSplatterの潜在能力を紹介しています。
制御可能な人物画像アニメーションは、リファレンス画像からドライビング動画を使用してビデオを生成することを目的としています。疎なガイダンス(例:スケルトンポーズ)によって提供される制御信号が限られているため、最近の研究では、動きの整合性を確保するために追加の密な条件(例:深度マップ)を導入しようと試みてきました。しかし、リファレンスキャラクターの体形がドライビング動画と大きく異なる場合、そのような厳密な密なガイダンスは生成されるビデオの品質に悪影響を与えます。本論文では、追加の密な入力なしにより一般化可能で効果的な制御信号を探索するDisPoseを提案します。これにより、人物画像アニメーションの疎なスケルトンポーズを動きのフィールドガイダンスとキーポイント対応に分解します。具体的には、疎な動きのフィールドとリファレンス画像から密な動きのフィールドを生成し、領域レベルの密なガイダンスを提供しつつ、疎なポーズ制御の一般化を維持します。また、リファレンス画像からポーズキーポイントに対応する拡散特徴を抽出し、これらのポイント特徴をターゲットポーズに転送して独自のアイデンティティ情報を提供します。既存のモデルにシームレスに統合するために、既存のモデルパラメータを凍結しながら生成されるビデオの品質と一貫性を向上させるプラグアンドプレイのハイブリッド制御ネットワークを提案します。包括的な定性的および定量的実験により、DisPoseの現行手法に比べた優越性が示されています。コード:https://github.com/lihxxx/DisPose{https://github.com/lihxxx/DisPose}。
従来の固定テストセットは、基盤モデルのオープンエンドの能力を評価する際に不十分である。この課題に対処するために、個々の評価データセットを統合し、絶えず拡大するサンプルプールに統合する新しいテストパラダイムであるONEBench(OpeN-Ended Benchmarking)を提案する。ONEBenchは、ユーザーがこのプールから特定の興味のある能力に対応するカスタムのオープンエンド評価ベンチマークを生成できるようにする。テストセット全体を集約することで、ONEBenchは、元のテストセットでカバーされていない多様な能力の評価を可能にし、過学習とデータセットの偏りを軽減する。さらに重要なことに、モデルの評価をサンプルレベルのテストの選択と集約の集団プロセスとしてフレーム化する。 タスク固有のベンチマークからONEBenchへの移行には、2つの課題が生じる:(1)異質性と(2)不完全性。異質性は異なるメトリクスを集約することを指し、不完全性は異なるデータサブセットで評価されたモデルを比較することを表す。これらの課題に対処するために、我々は、まばらな測定値を信頼性のあるモデルスコアに集約するアルゴリズムを探求する。我々の集約アルゴリズムは、同定可能性(漸近的に真のスコアを回復する)と迅速な収束を保証し、少ないデータで正確なモデルランキングを可能にする。均質なデータセットでは、我々の集約アルゴリズムが平均スコアによって生成されたランキングと高い相関性を示すことを示す。また、測定値の約95%が欠落しても頑健性を示し、モデルランキングにほとんど変化がないまま、評価コストを最大20倍削減する。言語モデル用のONEBench-LLMおよびビジョン言語モデル用のONEBench-LMMを導入し、これらの領域全体で評価を統一する。総じて、急速に発展する基盤モデルに沿ってベンチマークを継続的に拡大するための、不完全で異質なサンプルレベルの測定値を集約するオープンエンド評価技術を提案する。
学術領域における学習指示による視覚ナビゲーションは、一般的に、高レベルのカテゴリ固有検索と低レベルの言語によるナビゲーションに大別されます。これは、言語指示の粒度に依存し、前者は探索プロセスを重視する一方、後者は詳細なテキストコマンドの追跡に集中します。これらのタスクの焦点が異なるにもかかわらず、指示の解釈、周囲の理解、および行動決定の推論という基本的な要件は一貫しています。本論文では、さまざまなナビゲーションタスクを統一された汎用フレームワークにまとめ、ナビゲーションの学習において一般的な知識の共有とタスク固有の能力の活用の困難さを調査し、State-Adaptive Mixture of Experts (SAME) モデルを提案します。このSAMEモデルは、異なる粒度の言語と動的な観測に基づいてエージェントが意思決定を推論することを効果的に可能にします。SAMEによって強化された、7つのナビゲーションタスクに対処できる汎用エージェントを提示し、タスク固有のエージェントを上回るか、高い比較可能なパフォーマンスを達成します。
私たちは、視線ターゲット推定の問題に取り組んでおり、これは人がシーンのどこを見ているかを予測することを目指しています。人の視線ターゲットを予測するには、その人の外見とシーンの内容の両方について推論する必要があります。従来の研究では、別々のシーンエンコーダ、ヘッドエンコーダ、深度やポーズなどの信号用の補助モデルから特徴を注意深く統合する、ますます複雑な手作業のパイプラインが開発されてきました。さまざまな視覚タスクで汎用的な特徴抽出器の成功を受けて、私たちはGaze-LLEを提案します。これは、凍結されたDINOv2エンコーダからの特徴を活用して、視線ターゲット推定を合理化する新しいトランスフォーマーフレームワークです。私たちはシーン用の単一の特徴表現を抽出し、軽量モジュールを使用して人物固有の位置プロンプトを適用して視線をデコードします。私たちは、いくつかの視線ベンチマークで最先端のパフォーマンスを実証し、設計選択の妥当性を検証するための包括的な分析を提供します。私たちのコードはこちらで入手できます:http://github.com/fkryan/gazelle。
ニューラル機械翻訳(NMT)モデルは、一般的に、科学技術および教育分野に限られた露出を持つデータセットで訓練されます。そのため、翻訳モデルは一般的に、科学的理解や専門用語を含むタスクに苦労します。彼らのパフォーマンスは、リソースが限られたインドの言語に対してさらに悪いとされています。特にこれらの分野に焦点を当てた翻訳データセットを見つけることは、困難な課題です。本論文では、8つのインド言語にわたる英語からインディック語へ、およびインディック語からインディック語への高品質な翻訳ペアを含む多言語平行コーパスを作成することで、この課題に取り組みます。NPTELビデオ講義の人間による翻訳された転記をバイテキストマイニングすることで、これを達成します。また、このコーパスを使用してNMTモデルを微調整し評価し、すべての他の公開モデルを上回るドメイン内タスクでの成績を収めます。さらに、これらのインド言語において、Flores+ベンチマークでベースラインを平均で2 BLEU以上改善することにより、ドメイン外の翻訳タスクに対する一般化の可能性を示します。私たちは、当該リンクを通じて当社のモデルとデータセットを公開することを喜んでいます:https://huggingface.co/SPRINGLab。