翻訳付きの日次キュレーションされたAI研究論文
長文脈対応能力はマルチモーダル基盤モデルにとって極めて重要です。本論文では、長文脈視覚言語モデルのためのフルスタックソリューションであるLongVILAを紹介します。これにはシステム、モデルトレーニング、データセット開発が含まれます。システム面では、256GPUで200万トークンの文脈長トレーニングを可能にする初のマルチモーダルシーケンス並列処理(MM-SP)システムを提案します。MM-SPは効率的で、Ring-Styleシーケンス並列処理よりも2.1~5.7倍、テキストのみの設定ではMegatron-LMよりも1.1~1.4倍高速です。さらに、Hugging Face Transformersとシームレスに統合されます。モデルトレーニングでは、アライメント、事前学習、文脈拡張、長短結合教師ありファインチューニングからなる5段階パイプラインを提案します。データセットに関しては、大規模な視覚言語事前学習データセットと長尺ビデオ指示追従データセットを慎重に構築し、多段階トレーニングプロセスをサポートします。このフルスタックソリューションにより、VILAの実現可能フレーム数が128倍(8フレームから1024フレーム)に拡張され、長尺ビデオキャプショニングスコアが2.00から3.26(1.6倍)に向上し、1400フレーム(27万4千トークン文脈長)の「干し草の山の中の針」タスクで99.5%の精度を達成しました。また、LongVILA-8Bは、VideoMMEベンチマークにおいて、ビデオフレーム数が増えるにつれて長尺ビデオのパフォーマンスが一貫して向上することを示しています。
オープンワールド3D再構成モデルは近年、大きな注目を集めています。しかし、十分な3D帰納バイアスがない場合、既存の手法は通常、高額なトレーニングコストを伴い、高品質な3Dメッシュの抽出に苦労します。本研究では、3Dネイティブ構造、入力ガイダンス、およびトレーニング監視を明示的に活用するスパースビュー再構成モデルであるMeshFormerを紹介します。具体的には、トライプレーン表現を使用する代わりに、特徴を3Dスパースボクセルに格納し、トランスフォーマーと3D畳み込みを組み合わせて、明示的な3D構造と射影バイアスを活用します。スパースビューRGB入力に加えて、ネットワークに入力させ、対応する法線マップを生成させます。入力法線マップは2D拡散モデルによって予測可能であり、ジオメトリ学習のガイダンスと洗練に大きく役立ちます。さらに、符号付き距離関数(SDF)監視と表面レンダリングを組み合わせることで、複雑な多段階トレーニングプロセスを必要とせずに、高品質なメッシュを直接生成することを学びます。これらの明示的な3Dバイアスを組み込むことにより、MeshFormerは効率的にトレーニングでき、細かい幾何学的ディテールを持つ高品質なテクスチャ付きメッシュを提供できます。また、2D拡散モデルと統合して、高速な単一画像から3D、およびテキストから3Dのタスクを可能にします。プロジェクトページ: https://meshformer3d.github.io
シーンの頑健かつ正確なセグメンテーションは、様々な視覚認識およびナビゲーションタスクにおいて中核的な機能の一つとなっています。これに触発され、汎用的なマスクセグメンテーションのための基盤モデルであるSegment Anything Model(SAM)が最近開発されました。しかし、SAMは主に単一モーダルのRGB画像に特化しており、LiDARとRGB、深度とRGB、熱画像とRGBなど、広く採用されているセンサー群で取得されたマルチモーダルデータへの適用性が制限されています。我々は、SAMを拡張・発展させたMM-SAMを開発しました。MM-SAMは、異なるセンサー群を用いた頑健で強化されたセグメンテーションのためのクロスモーダルおよびマルチモーダル処理をサポートします。MM-SAMは、教師なしクロスモーダル転移と弱教師ありマルチモーダル融合という2つの主要な設計を特徴としており、様々なセンサーモダリティに向けたラベル効率とパラメータ効率の高い適応を可能にします。これにより、以下の3つの主要な課題に対処します:1)単一モーダル処理のための多様な非RGBセンサーへの適応、2)センサーフュージョンによるマルチモーダルデータの相乗的処理、3)異なる下流タスクのためのマスクフリートレーニング。大規模な実験により、MM-SAMがSAMを大幅に上回る性能を示し、様々なセンサーとデータモダリティにわたるその有効性と頑健性が実証されました。
テキストからビデオ(T2V)生成は、ビデオ生成、編集、拡張、翻訳など、幅広い応用が可能であることから、大きな注目を集めています。しかし、高品質(HQ)なビデオ合成は、現実世界に存在する多様で複雑な動きのため、非常に困難です。既存の研究の多くは、コミュニティにとってアクセスが難しい大規模なHQビデオを収集することでこの問題に対処しようとしていますが、十分な成果を上げられていません。本研究では、再キャプションやファインチューニングを行わずに、公開されている限定的で低品質(LQ)なデータを用いてHQビデオ生成器を訓練できることを示します。我々は、T2V生成プロセス全体を2つのステップに分解します。まず、高度に記述的なキャプションに基づいて画像を生成し、次に生成された画像と動きの詳細を簡潔に記述したキャプションに基づいてビデオを合成します。具体的には、Factorized-Dreamerを提案します。これは、テキストと画像の埋め込みを結合するアダプター、ピクセルレベルの画像情報を捕捉するピクセル対応クロスアテンションモジュール、動きの記述をより良く理解するためのT5テキストエンコーダ、および光学的フローを監督するPredictNetを含む、T2V生成のための分解された時空間フレームワークです。さらに、ビデオ生成の品質と安定性を確保する上で重要な役割を果たすノイズスケジュールを提示します。我々のモデルは、詳細なキャプションやHQビデオの要件を低減し、WebVid-10Mのようなノイズの多い簡潔なキャプションを持つ限定的なLQデータセットで直接訓練することが可能であり、大規模なHQビデオとテキストのペアを収集するコストを大幅に軽減します。様々なT2Vおよび画像からビデオ生成タスクにおける広範な実験により、提案するFactorized-Dreamerの有効性が実証されました。ソースコードはhttps://github.com/yangxy/Factorized-Dreamer/で公開されています。
チップ設計は、真理値表のような機能記述からAND-Inverter Graphs(AIG)などのブール回路を生成することに大きく依存しています。近年の深層学習の進歩は回路設計の高速化を目指していますが、これらの取り組みは合成以外のタスクに主に焦点を当てており、従来のヒューリスティック手法は頭打ち状態にあります。本論文では、AIGの構造的特性を活用し、効率的な空間探索を行う新しいトランスフォーマーベースのアーキテクチャであるShortCircuitを紹介します。深層ネットワークを使用してロジック回路をエンドツーエンドで生成しようとする従来のアプローチとは異なり、ShortCircuitは、教師あり学習と強化学習を組み合わせた2段階のプロセスを採用し、未見の真理値表への汎化を向上させます。また、二重指数関数的に大きい状態空間と報酬の希薄性に対処するためにAlphaZeroの変種を提案し、最適に近い設計の発見を可能にします。訓練されたモデルの生成性能を評価するために、20の実世界の回路からなるベンチマークセットから500の真理値表を抽出しました。ShortCircuitは、8入力のテスト真理値表の84.6%に対してAIGを生成することに成功し、回路サイズの点で最先端のロジック合成ツールであるABCを14.61%上回りました。
リアルタイムで高精度なオプティカルフロー推定は、さまざまな実世界のアプリケーションにおいて極めて重要です。近年の学習ベースのオプティカルフロー手法は高い精度を達成していますが、しばしば大きな計算コストを伴います。本論文では、高精度と計算負荷の低減を両立する、非常に効率的なオプティカルフロー手法を提案します。NeuFlow v1を基盤として、大幅に軽量化されたバックボーンと高速なリファインメントモジュールを含む新たなコンポーネントを導入しました。これらのモジュールは、計算負荷を抑えつつ、ほぼ最先端の精度を維持するのに役立ちます。他の最先端手法と比較して、本モデルは10倍から70倍の高速化を実現し、合成データと実世界データの両方で同等の性能を維持しています。Jetson Orin Nano上で512x384解像度の画像に対して20 FPS以上の速度で動作可能です。トレーニングと評価の完全なコードはhttps://github.com/neufieldrobotics/NeuFlow_v2で公開されています。
オープンワールド3D生成は最近、大きな注目を集めています。多くの単一画像から3Dを生成する手法は視覚的に魅力的な結果をもたらしますが、十分な制御性を欠き、ユーザーの期待に沿わない幻覚的な領域を生成する傾向があります。本論文では、単一オブジェクトの1枚または数枚のポーズなし2D画像からなる入力という重要なシナリオを探求します。これらのスパースビュー画像に対して、3Dテクスチャ付きメッシュを再構築し、相対的なカメラポーズを推定する新しい手法SpaRPを提案します。SpaRPは2D拡散モデルから知識を蒸留し、微調整することで、スパースビュー間の3D空間関係を暗黙的に推論します。拡散モデルは、既知のポーズ下でのオブジェクトのカメラポーズとマルチビュー画像の代理表現を共同で予測するように訓練され、入力スパースビューからのすべての情報を統合します。これらの予測を活用して3D再構築とポーズ推定を達成し、再構築された3Dモデルを使用して入力ビューのカメラポーズをさらに洗練させることができます。3つのデータセットでの広範な実験を通じて、本手法が3D再構築品質とポーズ予測精度の両方でベースライン手法を大幅に上回るだけでなく、強力な効率性も示すことを実証します。入力ビューに対してテクスチャ付きメッシュとカメラポーズを生成するのに約20秒しか必要としません。プロジェクトページ: https://chaoxu.xyz/sparp。
デジタルコンテンツの信頼性を維持し、フォレンジック調査を改善し、誤情報や盗作のリスクを軽減するためには、正確な著者帰属が極めて重要です。適切な著者帰属の必要性に対処することは、真正な著者の信頼性と責任を維持するために不可欠です。大規模言語モデル(LLM)の急速な進歩により、人間と機械による著者性の境界線が曖昧になり、従来の手法に大きな課題を突きつけています。本論文では、LLM時代における著者帰属に関する最新研究を検証する包括的な文献レビューを提示します。この調査では、代表的な4つの問題を分類することで、この分野の現状を体系的に探求します:(1)人間が書いたテキストの帰属、(2)LLM生成テキストの検出、(3)LLM生成テキストの帰属、(4)人間とLLMの共著テキストの帰属です。また、著者帰属手法の汎用性と説明可能性を確保する上での課題についても議論します。汎用性はさまざまなドメインにわたって一般化する能力を必要とし、説明可能性はこれらのモデルが下す決定に対する透明で理解可能な洞察を提供することを重視します。既存の手法とベンチマークの強みと限界を評価することで、この分野における重要な未解決問題と今後の研究方向性を特定します。この文献レビューは、この急速に進化する分野の最先端を理解したい研究者や実務者にとってのロードマップとして機能します。追加リソースと精選された論文リストは、https://llm-authorship.github.io で定期的に更新されています。
現実世界のシーン画像に仮想オブジェクトを正確に挿入するためには、シーンの照明、幾何学、材質、および画像形成プロセスに対する深い理解が必要です。近年の大規模拡散モデルは強力な生成能力とインペインティング能力を示していますが、現在のモデルは単一の画像に写るシーンを十分に「理解」しておらず、合成オブジェクトの同一性と詳細を保ちながら一貫した照明効果(影、明るい反射など)を生成することができません。本論文では、物理ベースの逆レンダリングプロセスに対するガイダンスとして、パーソナライズされた大規模拡散モデルを使用することを提案します。本手法はシーンの照明とトーンマッピングパラメータを復元し、屋内または屋外シーンの単一フレームまたはビデオにおける任意の仮想オブジェクトのフォトリアルな合成を可能にします。さらに、本手法の物理ベースのパイプラインは、材質とトーンマッピングの自動的な改善を実現します。
本研究では、トレーニング不要な軌道ベースの制御可能なT2I(テキストから画像生成)アプローチ「TraDiffusion」を提案します。この新しい手法により、ユーザーはマウスの軌跡を通じて簡単に画像生成をガイドすることができます。正確な制御を実現するため、潜在変数を効果的に誘導する距離認識エネルギー関数を設計し、生成の焦点が軌跡で定義された領域内に留まるようにします。このエネルギー関数は、指定された軌道に生成を近づけるための制御関数と、軌道から遠い領域での活動を減らすための移動関数を含んでいます。COCOデータセットを用いた広範な実験と質的評価を通じて、TraDiffusionがよりシンプルで自然な画像制御を可能にすることが明らかになりました。さらに、生成画像内の顕著な領域、属性、関係を操作する能力と、任意または強化された軌道に基づく視覚的入力を示しています。
サイバーセキュリティにおける言語モデル(LM)エージェントは、脆弱性を自律的に特定し、エクスプロイトを実行する能力を有しており、現実世界に大きな影響を与える可能性があります。政策立案者、モデル提供者、およびAIとサイバーセキュリティコミュニティの他の研究者は、サイバーリスクを軽減し、ペネトレーションテストの機会を探るために、そのようなエージェントの能力を定量化することに興味を持っています。その目的に向けて、私たちはCybenchを紹介します。これは、サイバーセキュリティタスクを指定し、それらのタスクでエージェントを評価するためのフレームワークです。私たちは、4つの異なるCTF(Capture the Flag)競技から40のプロフェッショナルレベルのタスクを含めており、これらは最近のものであり、意味があり、幅広い難易度にわたるように選ばれています。各タスクには、その説明、スターターファイルが含まれており、エージェントがbashコマンドを実行し、出力を観察できる環境で初期化されています。多くのタスクは既存のLMエージェントの能力を超えているため、タスクを中間ステップに分解してより段階的な評価を行うためのサブタスクを導入しました。40のタスクのうち17のタスクにサブタスクを追加しました。エージェントの能力を評価するために、サイバーセキュリティエージェントを構築し、7つのモデルを評価しました:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat、およびLlama 3.1 405B Instructです。ガイダンスなしでは、エージェントは人間のチームが最大11分かけて解決する最も簡単な完全なタスクしか解決できず、Claude 3.5 SonnetとGPT-4oが最も高い成功率を示しました。最後に、サブタスクは、ガイダンスなしの実行と比較して、パフォーマンスを測定するためのより多くの信号を提供し、モデルはサブタスクガイダンスありの完全なタスクで3.2%高い成功率を達成しました。すべてのコードとデータはhttps://cybench.github.ioで公開されています。