翻訳付きの日次キュレーションされたAI研究論文
我々は、任意の順序で画像とテキストを理解・生成可能な早期融合トークンベースの混合モーダルモデル群「Chameleon」を提案する。本論文では、初期段階からの安定したトレーニング手法、アライメント手法、そして早期融合トークンベースの混合モーダル設定に特化したアーキテクチャパラメータ化について概説する。これらのモデルは、視覚的質問応答、画像キャプション生成、テキスト生成、画像生成、長文混合モーダル生成など、幅広いタスクにおいて評価された。Chameleonは、画像キャプション生成タスクにおいて最先端の性能を示し、テキストのみのタスクではLlama-2を上回り、Mixtral 8x7BやGemini-Proなどのモデルと競合する性能を発揮し、さらに非自明な画像生成も単一のモデルで実現している。また、プロンプトまたは出力のいずれかに画像とテキストの混合シーケンスを含む新しい長文混合モーダル生成評価において、人間の判断に基づいてGemini ProやGPT-4Vといったはるかに大規模なモデルの性能に匹敵またはそれを上回る結果を示した。Chameleonは、完全なマルチモーダルドキュメントの統一的なモデリングにおいて重要な一歩を踏み出したものである。
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率的なファインチューニング手法として広く使用されています。LoRAは、選択された重み行列に対する低ランクの摂動のみを訓練することでメモリを節約します。本研究では、プログラミングと数学という2つのターゲットドメインにおいて、LoRAと完全なファインチューニングの性能を比較します。命令ファインチューニング(約10万のプロンプト-応答ペア)と継続事前学習(約100億の非構造化トークン)のデータ体制の両方を検討します。結果は、ほとんどの設定において、LoRAが完全なファインチューニングに大きく劣ることを示しています。しかし、LoRAは望ましい正則化の形式を示します:ターゲットドメイン外のタスクにおいて、ベースモデルの性能をより良く維持します。LoRAは、重み減衰やドロップアウトなどの一般的な手法と比較して、より強い正則化を提供し、多様な生成を維持するのに役立つことを示します。完全なファインチューニングは、典型的なLoRA設定よりも10~100倍大きいランクの摂動を学習することを示し、報告されたギャップの一部を説明する可能性があります。最後に、LoRAを使用したファインチューニングのベストプラクティスを提案します。
3D再構成技術の進歩により高品質な3Dキャプチャが可能になりましたが、3Dシーンを作成するには数百から数千枚の画像を収集する必要があります。本論文では、CAT3Dを紹介します。これは、マルチビューディフュージョンモデルを用いて現実世界のキャプチャプロセスをシミュレートし、あらゆるものを3Dで作成する手法です。任意の数の入力画像と一連のターゲット新視点が与えられた場合、本モデルはシーンの高度に一貫性のある新規ビューを生成します。これらの生成されたビューは、堅牢な3D再構成技術への入力として使用でき、リアルタイムで任意の視点からレンダリング可能な3D表現を生成します。CAT3Dは、わずか1分で3Dシーン全体を作成することができ、単一画像および少数ビューからの3Dシーン作成において既存の手法を凌駕します。結果とインタラクティブデモについてはプロジェクトページ(https://cat3d.github.io)をご覧ください。
大規模言語モデルは、few-shot in-context learning(ICL)において高い効果を発揮することが広く知られています。近年のマルチモーダル基盤モデルの進展により、前例のない長いコンテキストウィンドウが可能となり、より多くのデモンストレーション例を用いたICLの能力を探る機会が生まれています。本研究では、マルチモーダル基盤モデルの性能を、few-shotからmany-shot ICLにスケールさせて評価します。GPT-4oとGemini 1.5 Proを、自然画像、医療画像、リモートセンシング、分子画像など複数のドメインと、マルチクラス、マルチラベル、細粒度分類などのタスクにわたる10のデータセットでベンチマークしました。その結果、最大約2,000のマルチモーダルデモンストレーション例を含むmany-shot ICLは、few-shot(100例未満)ICLと比較して、すべてのデータセットで大幅な改善をもたらすことが観察されました。さらに、Gemini 1.5 Proの性能は、多くのデータセットでテストされた最大例数まで対数線形的に向上し続けました。many-shot ICLに必要な長いプロンプトに関連する高い推論コストを考慮し、複数のクエリを単一のAPI呼び出しにバッチ処理する影響も調査しました。50クエリまでのバッチ処理は、zero-shotおよびmany-shot ICLの下で性能向上をもたらし、特にzero-shot設定では複数のデータセットで大幅な改善が見られ、クエリあたりのコストとレイテンシを大幅に削減できることが示されました。最後に、モデルのICLデータ効率、つまりより多くのデモンストレーション例から学習する速度を測定しました。GPT-4oとGemini 1.5 Proはデータセット全体で同様のzero-shot性能を達成していますが、Gemini 1.5 ProはほとんどのデータセットでGPT-4oよりも高いICLデータ効率を示しました。我々の結果は、many-shot ICLがユーザーにとってマルチモーダル基盤モデルを新しいアプリケーションやドメインに効率的に適応させることを可能にすることを示唆しています。コードベースはhttps://github.com/stanfordmlgroup/ManyICLで公開されています。
本論文では、IDEA Researchが開発したオープンセット物体検知の最先端を目指すGrounding DINO 1.5スイートを紹介する。このスイートは2つのモデルで構成されている:幅広いシナリオでの強力な汎化能力を目指した高性能モデルであるGrounding DINO 1.5 Proと、エッジデプロイメントを必要とする多くのアプリケーションで求められる高速化に最適化された効率的なモデルであるGrounding DINO 1.5 Edgeである。Grounding DINO 1.5 Proモデルは、モデルアーキテクチャのスケールアップ、強化された視覚バックボーンの統合、そして2000万枚以上のグラウンディングアノテーション付き画像を含むトレーニングデータセットの拡張により、先行モデルを進化させ、より豊かな意味理解を実現している。一方、Grounding DINO 1.5 Edgeモデルは、特徴スケールを縮小して効率性を追求しながらも、同じ包括的なデータセットでトレーニングされることで堅牢な検知能力を維持している。実証結果は、Grounding DINO 1.5の有効性を示しており、Grounding DINO 1.5 ProモデルはCOCO検知ベンチマークで54.3 AP、LVIS-minivalゼロショット転移ベンチマークで55.7 APを達成し、オープンセット物体検知の新記録を樹立した。さらに、Grounding DINO 1.5 Edgeモデルは、TensorRTで最適化された場合、LVIS-minivalベンチマークで36.2 APのゼロショット性能を維持しながら75.2 FPSの速度を達成し、エッジコンピューティングシナリオにより適していることを示している。モデルの例とAPI付きデモはhttps://github.com/IDEA-Research/Grounding-DINO-1.5-APIで公開される予定である。
本研究では、幾何学的に一貫性のないシーンの基盤となる3D構造を復元します。私たちは、特に漫画やアニメの手描き画像に焦点を当てて分析を行います。多くの漫画は、3Dレンダリングエンジンを使用せずにアーティストによって制作されるため、シーンの新しい画像はすべて手描きで作成されます。手描き画像は、世界を忠実に表現しているものの、それは定性的な意味でのみであり、人間が物体やシーンの複数の視点を3D的に一貫して描くことは困難です。それにもかかわらず、人々は一貫性のない入力から容易に3Dシーンを認識することができます!本研究では、2D描画の不整合を修正し、新たにワープされた描画が互いに一貫性を持つような妥当な3D構造を復元します。私たちのパイプラインは、ユーザーフレンドリーな注釈ツール、カメラポーズ推定、および密な構造を復元するための画像変形で構成されています。私たちの手法は、画像を透視カメラモデルに従うようにワープし、整列された結果を新視点合成再構成手法に組み込むことで、これまで描かれたことのない視点から漫画を体験することを可能にします。プロジェクトページはhttps://toon3d.studio/です。
本論文では、テキストから高品質な3Dアセットをわずか1分で生成する新しいテキスト・トゥ・3D生成フレームワーク「Dual3D」を提案します。その中核となるのは、デュアルモードのマルチビュー潜在拡散モデルです。ノイズの多いマルチビュー潜在表現が与えられると、2Dモードでは単一の潜在ノイズ除去ネットワークを用いて効率的にノイズを除去し、3Dモードでは一貫性のあるレンダリングベースのノイズ除去のためにトライプレーン神経表面を生成します。両モードのほとんどのモジュールは、事前に学習されたテキスト・トゥ・イメージ潜在拡散モデルから調整されており、ゼロから学習する高コストを回避しています。推論時の高いレンダリングコストを克服するために、3Dモードでのノイズ除去ステップを1/10に抑えるデュアルモード切り替え推論戦略を提案し、品質を損なうことなくわずか10秒で3Dアセットを生成することに成功しました。3Dアセットのテクスチャは、短時間で効率的にテクスチャを洗練するプロセスによってさらに向上させることができます。広範な実験により、本手法が生成時間を大幅に短縮しながら最先端の性能を発揮することが実証されました。プロジェクトページはhttps://dual3d.github.ioで公開されています。
シミュレーションでの学習と、その学習したポリシーを現実世界に転送することは、汎用ロボットを実現する可能性を秘めています。このアプローチの主要な課題は、シミュレーションから現実(sim-to-real)のギャップに対処することです。従来の方法では、事前にドメイン固有の知識を必要とすることが多かったです。私たちは、そのような知識を得るための直接的な方法として、人間が現実世界でロボットのポリシー実行を観察し、支援することを提案します。ロボットは人間から学ぶことで、さまざまなsim-to-realギャップを埋めることができます。本論文では、人間をループに組み込んだフレームワークに基づいて、sim-to-real転送を成功させるデータ駆動型アプローチであるTRANSICを提案します。TRANSICは、人間が介入やオンライン修正を通じて、さまざまなモデル化されていないsim-to-realギャップを包括的に克服するためにシミュレーションポリシーを拡張することを可能にします。人間の修正から残差ポリシーを学習し、シミュレーションポリシーと統合して自律実行を実現します。私たちのアプローチが、家具の組み立てなどの複雑で接触の多い操作タスクにおいて、sim-to-real転送を成功させることを示します。シミュレーションと人間から学んだポリシーの相乗的な統合を通じて、TRANSICは、しばしば共存するさまざまなsim-to-realギャップに対処する包括的なアプローチとして有効です。人間の努力に応じてスケーリングするなどの魅力的な特性を備えています。ビデオとコードはhttps://transic-robot.github.io/で公開されています。