翻訳付きの日次キュレーションされたAI研究論文
本論文では、マルチモーダル大規模言語モデル(MLLM)における「視覚表現の法則」を提示する。これは、クロスモーダルアラインメント、視覚表現の対応関係、およびMLLMの性能の間に強い相関があることを明らかにするものである。我々は、クロスモーダルアラインメントと対応関係スコア(ACスコア)を用いてこれら2つの要因を定量化した。13種類の異なる視覚表現設定と8つのベンチマークにわたる広範な実験を通じて、ACスコアがモデルの性能と線形相関を持つことを発見した。この関係を活用することで、最適な視覚表現のみを特定し、訓練することが可能となり、毎回言語モデルのファインチューニングを必要としないため、計算コストを99.7%削減することができた。
VisualGLMとCogVLMを起点として、私たちは視覚と言語の融合の強化、高解像度アーキテクチャの効率化、そしてより広範なモダリティとアプリケーションを追求し続けています。ここでは、画像と動画の理解のための新世代の視覚言語モデルであるCogVLM2ファミリーを提案します。これにはCogVLM2、CogVLM2-Video、およびGLM-4Vが含まれます。画像理解モデルとして、CogVLM2は視覚エキスパートアーキテクチャを継承し、事前学習と事後学習の両段階で改善されたトレーニングレシピを採用し、最大1344×1344ピクセルの入力解像度をサポートします。動画理解モデルとして、CogVLM2-Videoはタイムスタンプ付きのマルチフレーム入力を統合し、自動化された時間的グラウンディングデータ構築を提案します。特に、CogVLM2ファミリーはMMBench、MM-Vet、TextVQA、MVBench、VCGBenchなどのベンチマークで最先端の結果を達成しました。すべてのモデルはhttps://github.com/THUDM/CogVLM2およびhttps://github.com/THUDM/GLM-4でオープンソース化されており、この分野の進展に貢献しています。
言語モデルは、画像、動画、音声、オーディオなどの自然信号のモデリングに効果的に適用されてきました。これらのモデルの重要なコンポーネントは、高次元の自然信号を低次元の離散トークンに圧縮するコーデックトークナイザーです。本論文では、音声ドメインにおける従来のSOTA音声コーデックモデルに対していくつかの利点を提供するWavTokenizerを紹介します。1)極端な圧縮。量子化器の層と離散コーデックの時間次元を圧縮することにより、24kHzサンプリングレートの1秒のオーディオは、40または75トークンの単一の量子化器のみを必要とします。2)主観的品質の向上。トークン数が減少しているにもかかわらず、WavTokenizerは優れたUTMOSスコアとより豊富な意味情報を内包し、最先端の再構築品質を達成します。具体的には、より広範なVQ空間、拡張されたコンテキストウィンドウ、改良されたアテンションネットワークの設計、および強力なマルチスケールディスクリミネーターと逆フーリエ変換構造の導入により、これらの結果を達成しました。音声、オーディオ、音楽のドメインで広範な再構築実験を実施しました。WavTokenizerは、最先端のモデルと比較して、さまざまな客観的および主観的指標で強力なパフォーマンスを示しました。また、意味情報、VQの利用率、生成モデルへの適応性もテストしました。包括的なアブレーションスタディにより、WavTokenizerの各モジュールの必要性が確認されました。関連するコード、デモ、および事前学習済みモデルはhttps://github.com/jishengpeng/WavTokenizerで利用可能です。
3Dシーン再構成技術の進展により、現実世界の2D画像から3Dモデルへの変換が可能となり、数百枚の入力写真からリアルな3D結果を生成できるようになりました。密な視点からの再構成シナリオでは大きな成功を収めていますが、十分に捕捉されていない視点からの詳細なシーンのレンダリングは、依然として不良設定最適化問題であり、未観測領域でのアーティファクトや歪みが生じることが多いです。本論文では、曖昧な再構成課題を時間的生成タスクとして再定義する新しい3Dシーン再構成パラダイム「ReconX」を提案します。鍵となる洞察は、大規模事前学習済みビデオ拡散モデルの強力な生成事前分布を、疎な視点からの再構成に活用することです。しかし、事前学習済みモデルから直接生成されたビデオフレームでは、3D視点一貫性を正確に維持することが困難です。この問題に対処するため、限られた入力視点が与えられた場合、提案するReconXはまずグローバルな点群を構築し、それを3D構造条件としてコンテキスト空間にエンコードします。この条件に導かれて、ビデオ拡散モデルは詳細を保持しつつ高い3D一貫性を示すビデオフレームを合成し、様々な視点からのシーンの整合性を確保します。最後に、生成されたビデオから信頼度を考慮した3Dガウシアンスプラッティング最適化スキームを通じて3Dシーンを復元します。様々な実世界データセットでの大規模な実験により、ReconXが品質と汎用性の面で最先端の手法を凌駕することを示します。
私たちは、Segment Anything Model 2 (SAM 2)をゼロショットおよびプロンプト可能な3Dセグメンテーションに適応させる予備的探求として、SAM2Pointを紹介します。SAM2Pointは、任意の3Dデータを多方向ビデオのシリーズとして解釈し、追加のトレーニングや2D-3D投影なしに、SAM 2を活用して3D空間のセグメンテーションを行います。私たちのフレームワークは、3Dポイント、ボックス、マスクなど、さまざまなプロンプトタイプをサポートし、3Dオブジェクト、室内シーン、屋外環境、生のスパースLiDARなど、多様なシナリオに一般化できます。Objaverse、S3DIS、ScanNet、Semantic3D、KITTIなどの複数の3Dデータセットでのデモンストレーションは、SAM2Pointの堅牢な一般化能力を強調しています。私たちの知る限り、これは3DにおけるSAMの最も忠実な実装であり、プロンプト可能な3Dセグメンテーションの将来の研究の出発点として役立つかもしれません。オンラインデモ: https://huggingface.co/spaces/ZiyuG/SAM2Point . コード: https://github.com/ZiyuGuo99/SAM2Point .
言語モデルは推論タスクを解決する際に顕著な性能を示しているが、最も強力なモデルでさえ時々推論ミスを犯す。最近では、特に事前学習済み言語モデルを用いて複数回のプロンプティングを通じて「自己修正」を行うことで、推論精度を向上させることを目的とした研究が活発に行われている。本論文では、この研究の流れに沿いつつ、「誤り修正」データを事前学習段階に直接組み込むことの有用性を理解することに焦点を当てる。このデータは、誤った解決ステップとその直後の修正から構成されている。合成数学データセットを使用して、このタイプの事前学習データが、同じ量の誤りのないデータで事前学習する場合と比較して、言語モデルがより高い推論精度を直接達成する(つまり、複数回のプロンプティングなしに単純な自己回帰を通じて)のに役立つことを示す。また、多くの詳細についても掘り下げる。例えば、(1) このアプローチがビームサーチとどのように異なるか、(2) このようなデータをどのように準備できるか、(3) 誤ったトークンにマスキングが必要かどうか、(4) 必要な誤りの量、(5) このようなデータをファインチューニング段階に延期できるかどうか、などである。
拡散モデルは制御された画像生成において卓越した能力を示しており、これが画像スタイル転送への関心をさらに高めています。既存の研究では、特定のデータの不足から、主にフリーベースの手法(例:画像反転)の訓練に焦点を当てています。本研究では、コンテンツ-スタイル-スタイル化画像のトリプレットを生成し、自動的にクリーニングするデータ構築パイプラインを提示します。このパイプラインに基づき、コミュニティが探索・研究するための最初の大規模スタイル転送データセットであるIMAGStyleを構築しました。IMAGStyleを活用し、エンドツーエンドの訓練に基づくスタイル転送モデルCSGOを提案します。CSGOは、独立した特徴注入を用いてコンテンツとスタイルの特徴を明示的に分離します。統一されたCSGOは、画像駆動のスタイル転送、テキスト駆動のスタイル化合成、およびテキスト編集駆動のスタイル化合成を実装します。広範な実験により、画像生成におけるスタイル制御能力の向上における我々のアプローチの有効性が実証されました。追加の視覚化とソースコードへのアクセスは、プロジェクトページ(https://csgo-gen.github.io/)で確認できます。
本論文では、順序付きまたは順序なしの画像コレクションから高密度な3D再構成を行う新しいアプローチであるSpann3Rを紹介します。Spann3RはDUSt3Rパラダイムを基盤として構築され、トランスフォーマーベースのアーキテクチャを使用して、シーンの事前知識やカメラパラメータなしに画像から直接ポイントマップを回帰します。DUSt3Rが各画像ペアのポイントマップをローカル座標系で予測するのに対し、Spann3Rはグローバル座標系で表現された各画像のポイントマップを予測できるため、最適化ベースのグローバルアライメントが不要となります。Spann3Rの鍵となるアイデアは、これまでの関連する3D情報を追跡するための外部空間メモリを管理することです。Spann3Rはこの空間メモリをクエリし、次のフレームの3D構造をグローバル座標系で予測します。DUSt3Rの事前学習済みの重みを活用し、データセットのサブセットでさらに微調整を行うことで、Spann3Rはさまざまな未見のデータセットにおいて競争力のある性能と汎化能力を示し、順序付き画像コレクションをリアルタイムで処理できます。プロジェクトページ: https://hengyiwang.github.io/projects/spanner
著者性隠蔽(Authorship Obfuscation)とは、テキストを書き換えて意図的に著者の身元を曖昧にする重要な課題であるが、同時に困難なタスクでもある。現在の大規模言語モデル(LLMs)を用いた手法は、解釈可能性と制御性に欠け、著者固有のスタイル的特徴を無視することが多く、全体的に堅牢性が低い結果となっている。 この課題に対処するため、我々は **StyleRemix** を開発した。これは、元の入力テキストの特定の細かいスタイル要素を変更する、適応的で解釈可能な隠蔽手法である。StyleRemixは、事前学習された低ランク適応(LoRA)モジュールを使用し、計算コストを抑えつつ、様々なスタイル軸(例:形式性や長さ)に沿って入力を書き換える。StyleRemixは、自動評価と人間評価の両方において、最先端のベースラインやはるかに大規模なLLMsを様々なドメインで上回る性能を示した。 さらに、我々は **AuthorMix** を公開した。これは、14人の多様な著者と4つのドメインからなる3万件の高品質な長文テキストの大規模なデータセットである。また、**DiSC** という並列コーパスも提供する。これは、7つのスタイル軸に沿った16のユニークな方向にわたる1,500件のテキストを含むものである。
表形式データ生成のための新しい機械学習手法は、しばしば科学アプリケーションに必要な規模に満たない小さなデータセットで開発されます。本研究では、XGBoostを拡散モデルやフローマッチングモデルの関数近似器として表形式データに適用する最近の提案を調査しましたが、これは非常にメモリ集約的であり、小さなデータセットでも顕著でした。本論文では、既存の実装を工学的観点から批判的に分析し、これらの制限が手法そのものに起因するものではないことを示します。より優れた実装により、従来使用されていたデータセットの370倍の規模までスケール可能であることを実証しました。我々の効率的な実装は、モデルをさらに大規模にスケーリングすることを可能にし、これがベンチマークタスクでの性能向上に直接つながることを示します。また、生成モデリングに適したマルチアウトプットツリーを含む、リソース使用量とモデル性能をさらに向上させるアルゴリズム的改良を提案します。最後に、高速カロリメータシミュレーションチャレンジの一環として、実験的粒子物理学から派生した大規模科学データセットでの結果を提示します。コードはhttps://github.com/layer6ai-labs/calo-forestで公開されています。
数多くの生物学的・物理的プロセスは、時間とともに連続的に進化する相互作用するエンティティのシステムとしてモデル化できます。例えば、細胞間のコミュニケーションや物理粒子のダイナミクスなどです。このようなシステムのダイナミクスを学習することは、新しいサンプルや未見の環境における個体群の時間的進化を予測するために不可欠です。フローベースモデルは、これらのダイナミクスを個体群レベルで学習することを可能にします。つまり、サンプルの分布全体の進化をモデル化します。しかし、現在のフローベースモデルは、単一の初期個体群と異なるダイナミクスを記述する一連の事前定義された条件に限定されています。我々は、自然科学における複数のプロセスが、確率密度のWasserstein多様体上のベクトル場として表現される必要があると主張します。つまり、任意の時点での個体群の変化は、サンプル間の相互作用により、個体群そのものに依存します。特に、これは個別化医療において重要です。なぜなら、疾患の進行やそれに対する治療反応は、各患者に特有の細胞の微小環境に依存するからです。我々は、Meta Flow Matching(MFM)を提案します。これは、初期個体群にわたってフローモデルを償却することで、Wasserstein多様体上のこれらのベクトル場に沿って統合する実用的なアプローチです。具体的には、Graph Neural Network(GNN)を使用してサンプルの個体群を埋め込み、これらの埋め込みを使用してFlow Matchingモデルをトレーニングします。これにより、MFMは以前に提案された方法とは異なり、初期分布にわたって一般化する能力を持ちます。我々は、大規模な多患者単一細胞薬剤スクリーニングデータセットにおいて、MFMが個別の治療反応の予測を改善する能力を示します。