翻訳付きの日次キュレーションされたAI研究論文
計算量子化学の手法は、コンピュータ支援型創薬や化学科学の他の分野において重要な分子特性の正確な近似を提供します。しかし、高い計算複雑さがその応用のスケーラビリティを制限しています。ニューラルネットワークポテンシャル(NNPs)は量子化学手法の有望な代替手段ですが、その訓練には大規模で多様なデータセットが必要です。本研究では、nablaDFTに基づいた新しいデータセットとベンチマークであるnabla^2DFTを紹介します。このデータセットは、2倍の分子構造、3倍のコンフォメーション、新しいデータタイプとタスク、そして最先端のモデルを含んでいます。データセットには、エネルギー、力、17の分子特性、ハミルトニアン行列と重なり行列、および波動関数オブジェクトが含まれています。すべての計算は、各コンフォメーションに対してDFTレベル(omegaB97X-D/def2-SVP)で行われました。さらに、nabla^2DFTは、相当数の創薬類似分子に対する緩和軌道を含む初めてのデータセットです。また、分子特性予測、ハミルトニアン予測、およびコンフォメーション最適化タスクにおけるNNPsの評価のための新しいベンチマークを導入します。最後に、NNPsの訓練のための拡張可能なフレームワークを提案し、その中に10のモデルを実装しました。
教師なしマルチタスク事前学習は、最近の言語モデル(LM)の成功を支える重要な手法となっています。しかし、教師ありマルチタスク学習も依然として大きな可能性を秘めており、学習後の段階でスケーリングすることで一般化性能が向上する傾向にあります。本論文では、教師ありマルチタスク事前学習を探求するため、Instruction Pre-Trainingというフレームワークを提案します。このフレームワークは、大規模な生コーパスを命令-応答ペアで拡張し、LMを事前学習するためのものです。命令-応答ペアは、オープンソースモデルを基に構築された効率的な命令合成器によって生成されます。実験では、40以上のタスクカテゴリをカバーする2億の命令-応答ペアを合成し、Instruction Pre-Trainingの有効性を検証しました。スクラッチからの事前学習では、Instruction Pre-Trainingは事前学習済みのベースモデルを一貫して強化するだけでなく、さらなる命令チューニングからもより大きな恩恵を受けます。継続的な事前学習では、Instruction Pre-Trainingにより、Llama3-8BがLlama3-70Bに匹敵するか、それを上回る性能を発揮することが可能になりました。私たちのモデル、コード、データはhttps://github.com/microsoft/LMOpsで公開されています。
StyleGANインバージョンを通じて実画像の属性を操作するタスクは、広く研究されてきました。このプロセスは、実画像を合成できるように訓練されたStyleGANジェネレータから潜在変数を探索し、これらの潜在変数を修正し、その後、望ましい編集を施した画像を合成することを含みます。再構築の品質と編集能力の間にはバランスを取る必要があります。初期の研究では、効果的な編集を可能にするが複雑なディテールの再構築に苦労する低次元のW空間を潜在探索に利用していました。より最近の研究では、入力画像のインバージョンには成功するが編集時に多くのディテールを失う高次元の特徴空間Fに注目しています。本論文では、w-latentsとF-latentsの両方で編集を可能にする新しい手法であるStyleFeatureEditorを紹介します。この技術は、より細かい画像ディテールの再構築を可能にするだけでなく、編集時にそれらを保持することも保証します。また、F-latentsを正確に編集するためにモデルを訓練するために特別に設計された新しいトレーニングパイプラインも提示します。私たちの手法は、最先端のエンコーディングアプローチと比較され、再構築品質の点で優れており、難しいドメイン外の例も編集できることが示されています。コードはhttps://github.com/AIRI-Institute/StyleFeatureEditorで公開されています。
人間の事前知識(ヒューマンプライア)は、深層学習においてデータを効率的に活用する上で重要な役割を果たします。しかし、大規模言語モデル(LLMs)の発展に伴い、モデルサイズとデータ量のスケーリングが重視されるようになり、データ構築における人間の事前知識の重要性が薄れつつあります。この傾向の影響を受け、既存の小規模言語モデル(SLMs)は主にウェブスクレイピングによる大規模なトレーニングデータに依存しており、人間の事前知識を適切に取り入れることが軽視されています。この見落としは、リソースが制約された環境における言語モデルのトレーニング効率を制限しています。本論文では、データ構築において人間の事前知識を活用する原則を提案します。この原則は、意味的多様性とデータ品質の一貫性を両立しつつ、ベンチマークデータの漏洩を避けた簡潔なデータセットでトレーニングを行うことで、高性能なSLMsを実現することを重視しています。この原則に従い、HARE-1.1BというSLMをトレーニングしました。大規模なベンチマークデータセットを用いた広範な実験により、HARE-1.1Bが最先端のSLMsに対して優れた性能を示し、提案された原則の有効性が検証されました。さらに、これはリソースが制約された環境における効率的な言語モデルトレーニングについて、人間の事前知識の観点から新たな洞察を提供します。
Vision Language Models(VLM)は、視覚的質問に対処する際に優れた能力を示し、強力な知覚と推論の能力を必要とします。既存のVLMでは、視覚と推論が密接に絡み合っているため、これら2つの能力を独立して評価することは困難ですが、モデルの改善には不可欠です。この問題に対処するため、我々はPrismという革新的なフレームワークを提案します。Prismは、視覚的質問解決における知覚と推論のプロセスを分離するように設計されています。Prismは2つの異なる段階で構成されています:知覚段階では、VLMを使用して視覚情報を抽出し、テキスト形式で表現します。推論段階では、抽出された視覚情報に基づいて、Large Language Model(LLM)を使用して回答を導き出します。このモジュール設計により、独自およびオープンソースのVLMの知覚と推論の強みを体系的に比較・評価することが可能です。我々の分析フレームワークは、Prismが視覚言語タスクにおけるコスト効率の高いソリューションとしての潜在能力を強調するいくつかの貴重な洞察を提供します。知覚に特化した簡素化されたVLMと、推論に特化した強力なLLMを組み合わせることで、Prismは一般的な視覚言語タスクで優れた結果を達成し、トレーニングおよび運用コストを大幅に削減します。定量的評価によると、Prismは、標準的な2B LLaVAと無料で利用可能なGPT-3.5を設定した場合、厳格なマルチモーダルベンチマークMMStarにおいて、10倍大きいVLMと同等のパフォーマンスを発揮します。プロジェクトは以下で公開されています:https://github.com/SparksJoe/Prism。
大規模視覚言語モデル(LVLM)の登場は、特に映像理解におけるマルチモーダルコンテキストへの応用研究を促進してきた。従来のVideoQAベンチマークは、定量的な指標を提供するものの、映像コンテンツの全容を網羅しきれず、モデルの時間的理解を不十分に評価する傾向がある。これらの課題に対処するため、我々はMMBench-Videoを導入した。これは、LVLMの映像理解能力を厳密に評価するために設計された定量的ベンチマークである。MMBench-Videoは、YouTubeからの長時間映像を組み込み、実用的なユースケースを反映した自由形式の質問を採用している。このベンチマークは、モデルの時間的推論スキルを探るために綿密に設計されており、すべての質問は慎重に構築された能力分類に基づいて人手でアノテーションされている。我々はGPT-4を自動評価に採用し、従来のLLMベースの評価よりも優れた精度と堅牢性を実証した。MMBench-Videoを活用して、画像と映像の両方に対応するプロプライエタリおよびオープンソースのLVLMを含む包括的な評価を実施した。MMBench-Videoは、研究コミュニティにとって貴重なリソースであり、LVLMの評価改善を促進し、映像理解分野の進展を触発するものである。MMBench-Videoの評価コードはVLMEvalKitに統合される予定である:https://github.com/open-compass/VLMEvalKit。
大規模言語モデル(LLM)のマージは、複数の専門家LLMを単一の汎用モデルに結合し、元のモデルの専門性を保持するためのコスト効率の高い技術です。しかし、現在のアプローチでは、マージ中の安全性アライメントの重要性を見落とすことが多く、結果として高度にミスアライメントされたモデルが生じる傾向があります。本研究は、モデルマージがアライメントに及ぼす影響を調査します。いくつかの人気のあるモデルマージ技術を評価し、既存の手法がドメイン専門知識を転送するだけでなく、ミスアライメントも伝播することを示します。この問題に対処するため、我々はシンプルな2段階アプローチを提案します:(i) 安全性とドメイン固有の合成データを生成し、(ii) これらの生成データを既存のデータ認識型モデルマージ技術の最適化プロセスに組み込みます。これにより、アライメントを結果として得られるマージ済みLLMで最大化可能なスキルとして扱うことができます。我々の実験は、マージ中にアライメント関連データを統合することの有効性を示し、ドメイン専門知識とアライメントの両方に優れたモデルを生み出すことを実証しています。
視覚的思考を必要とする問題に直面したとき、人間は自然に推論モードを切り替え、しばしば心の中にイメージを形成したり、視覚的な補助手段を描いたりします。大規模言語モデルは、中間推論をテキストとして連鎖的に表現するチェーン・オブ・ソート(chain-of-thought)によって、算術や記号的推論において有望な結果を示していますが、視覚的推論によって容易に解決できるテキストクエリにこの能力を拡張することは困難であり、多様なマルチモーダル事前学習を行っても同様です。本研究では、マルチモーダル大規模言語モデルの視覚的推論能力を異なるモダリティ間で解放するためのシンプルな手法、ホワイトボード・オブ・ソート(whiteboard-of-thought)プロンプティングを提案します。ホワイトボード・オブ・ソートプロンプティングは、マルチモーダル大規模言語モデルに比喩的な「ホワイトボード」を提供し、推論ステップを画像として描き出させ、その後これらの画像をモデルに戻してさらなる処理を行わせます。これは、デモンストレーションや特殊なモジュールを必要とせず、MatplotlibやTurtleなどのライブラリを使用してコードを書くモデルの既存の能力を活用することで実現できます。このシンプルなアプローチは、視覚的および空間的推論を必要とする4つの難しい自然言語タスクにおいて、最先端の結果を示しています。GPT-4oがチェーン・オブ・ソートを使用しても劇的に失敗する複数の設定を特定し、そのうちのいくつかでは0%の精度しか達成できないのに対し、ホワイトボード・オブ・ソートは同じ設定で最大92%の精度を実現します。本手法が成功する場面とそのエラーの源について詳細な探求を行います。
拡散蒸留は、少数のサンプリングステップで忠実なテキストから画像生成を実現するための非常に有望な方向性を示しています。しかし、最近の成功にもかかわらず、既存の蒸留モデルはまだ、多くの精密な画像操作手法を可能にする実画像の反転など、拡散モデルの全能力を提供していません。本研究は、蒸留されたテキストから画像への拡散モデルに、実画像をその潜在空間に効果的にエンコードする能力を付与することを目指しています。この目的のために、我々は可逆的Consistency Distillation(iCD)を導入します。これは、わずか3~4回の推論ステップで高品質な画像合成と正確な画像エンコードの両方を可能にする一般化されたConsistency Distillationフレームワークです。テキストから画像への拡散モデルにおける反転問題は、高いクラスフリーガイダンススケールによって悪化しますが、動的ガイダンスが再構成誤差を大幅に減少させ、生成性能の目立った低下を引き起こさないことに気づきました。その結果、動的ガイダンスを備えたiCDが、より高価な最先端の代替手法と競合するゼロショットテキストガイド画像編集のための非常に効果的なツールとして機能し得ることを実証します。
情報抽出タスクには、正確で効率的かつ汎化可能なモデルが求められます。従来の教師あり深層学習アプローチは必要な性能を達成できますが、大規模なデータセットを必要とし、異なるタスクへの適応能力に限界があります。一方、大規模言語モデル(LLM)は優れた汎化能力を示し、ユーザーの要求に基づいて多くの異なるタスクに適応できます。しかし、LLMは計算コストが高く、構造化された出力を生成するのに失敗しがちです。本記事では、様々な情報抽出タスクに使用可能でありながら、小さなエンコーダモデルである新しい種類のGLiNERモデルを紹介します。我々のモデルは、ゼロショットNERベンチマークでSoTA性能を達成し、質問応答、要約、関係抽出タスクでリーダー的な性能を示しました。さらに、本記事では、GLiNERモデルを使用した固有表現認識のための自己学習アプローチに関する実験結果も取り上げます。
大規模マルチモーダルモデル(LMM)の最近の進展では、複雑な知識駆動型タスクの能力を向上させるために、広範なマルチモーダルデータセットが活用されてきた。しかし、知覚的および推論的エラーの持続的な課題が、特に複雑な視覚データの解釈やマルチモーダル関係の推論において、その有効性を制限している。これらの問題に対処するため、我々は新しいデータセット形式であるPIN(Paired and INterleaved multimodal documents)を導入し、マルチモーダルトレーニングの深さと幅を大幅に改善することを目指す。PIN形式は、知識密度、スケーラビリティ、多様なトレーニングモダリティのサポートという3つの基本原則に基づいて構築されている。この革新的な形式は、マークダウンファイルと包括的な画像を組み合わせ、トレーニングデータに濃密な知識構造と多様なトレーニング戦略を提供する。我々は、中国語と英語の多様なソースから得られた1400万サンプルを含むオープンソースデータセットPIN-14Mを提示し、複雑なウェブおよび科学コンテンツを包含するように設計されている。このデータセットは、データ品質と倫理的整合性を確保するために慎重に構築されており、高度なトレーニング戦略を促進し、一般的なマルチモーダルトレーニングの落とし穴に対するモデルの堅牢性を向上させることを目指している。本技術レポートの基礎となる初期結果は、PIN形式がLMMの性能を洗練する上で大きな可能性を示唆しており、今後の拡張とモデル能力への影響の詳細な評価が計画されている。
視覚言語モデル(VLM)のトレーニング用コーパスは、通常、意思決定中心のデータが十分に含まれていません。これにより、既製のVLMは、グラフィカルユーザーインターフェース(GUI)を通じた実環境でのデバイス制御などの意思決定タスクにおいて最適とは言えません。静的デモンストレーションを用いたトレーニングはある程度の成果を示していますが、このような方法は、静的観測データでは捉えられない現実世界の確率性や非定常性に対処できないため、実際のGUI制御には不十分です。本論文では、事前学習済みVLMを2段階でファインチューニングする新しい自律的強化学習(RL)アプローチ、DigiRLを紹介します。このアプローチでは、オフラインRLでモデルを初期化し、その後オフラインからオンラインRLに移行します。これを行うために、VLMベースの評価器を備えたスケーラブルで並列化可能なAndroid学習環境を構築し、この領域で学習するためのシンプルかつ効果的なRLアプローチを開発しました。私たちのアプローチでは、確率性を考慮して強化されたアドバンテージ推定器と、最大の学習信号を導出するための自動カリキュラムを用いて、アドバンテージ重み付きRLを実行します。DigiRLの有効性を、Android-in-the-Wild(AitW)データセットを使用して実証し、RLでトレーニングされた1.3B VLMが、静的ヒューマンデモンストレーションデータを用いた教師ありファインチューニングと比較して、成功率が17.7%から67.2%へと49.5%の絶対的改善を達成しました。これらの結果は、GPT-4Vを使用したAppAgent(8.3%成功率)やAitWデータでトレーニングされた17B CogAgent(38.5%)を含む以前の最良のエージェントを大幅に上回るだけでなく、フィルタリングされた行動クローニングに基づく以前の最良の自律的RLアプローチ(57.8%)も超え、実環境でのデバイス制御のためのデジタルエージェントの新たな最先端を確立しました。
大規模言語モデル(LLMs)の中核的な能力の一つは、自然言語の指示に従うことです。しかし、手動のアノテーションなしにLLMsの複雑な指示追従能力を向上させるための高品質なトレーニングデータを自動的に構築するという課題は、未解決のままです。本論文では、指示追従トレーニングデータを自動生成する初めてのスケーラブルで信頼性の高い手法であるAutoIFを紹介します。AutoIFは、指示追従データの品質検証をコード検証に変換し、LLMsに指示の生成、指示応答の正しさを確認するための対応するコード、およびコードの正しさを検証するためのユニットテストサンプルの生成を要求します。その後、実行フィードバックに基づくリジェクトサンプリングにより、教師あり微調整(SFT)および人間のフィードバックからの強化学習(RLHF)トレーニング用のデータを生成します。AutoIFは、トップのオープンソースLLMsであるQwen2とLLaMA3に適用した場合、自己整合および強から弱への蒸留設定において、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズム全体で大幅な改善を達成します。私たちのコードはhttps://github.com/QwenLM/AutoIFで公開されています。
本論文では、不完全なプロンプトでも推論を可能にする新しい低遅延推論フレームワークを大規模言語モデル(LLM)向けに提案する。計算プロセスをプロンプト入力段階に再配置することで、遅延を大幅に削減し、LLMユーザーのインタラクティブ体験を著しく向上させる。本フレームワークは、ストリーミングプロンプトの可視性を巧みに管理し、不完全なプロンプトから推論を行ったり、追加のプロンプトを待機したりすることができる。完全なプロンプトを利用する従来の推論手法と比較して、MMLU-Proデータセットにおいて平均59%の応答遅延削減を達成しつつ、同等の精度を維持している。さらに、本フレームワークは異なるモデル間での協調推論と出力を可能にする。LLMを推論に、小型言語モデル(SLM)を出力に用いることで、SLMベースラインと比較してMMLU-Proデータセットにおいて平均68%の応答遅延削減と5.5%の精度向上を実現した。20文を超える長いプロンプトでは、応答遅延を最大93%削減できる。
常識推論は本質的にマルチモーダルな知識に基づいています。しかし、既存の大規模言語モデル(LLM)は主にテキストデータのみで訓練されており、重要な視覚情報を取り込む能力が制限されています。一方、視覚指向タスクに優れた視覚言語モデルは、基本的な常識推論などの非視覚タスクではしばしば失敗します。この乖離は、堅牢な視覚理解とテキストベースの言語推論の統合という重要な課題を浮き彫りにしています。この目的のために、我々はLLMの視覚的常識を強化する手法を提案します。具体的には、入力テキストプロンプトに基づいて複数の画像を生成し、それらの予測確率を混合することでモデルの意思決定プロセスに統合します。マルチモーダルに基づいた言語モデリングを促進するため、投影された視覚的特徴とテキストのみで条件付けられた事前訓練済みLLMの出力を組み合わせる後期融合層を採用します。この後期融合層により、包括的な画像-テキスト知識に基づく予測と、必要に応じてテキストのみに基づく予測が可能になります。我々のアプローチを、従来のNLPタスク(常識推論や読解を含む)とともにいくつかの視覚的常識推論タスクを用いて評価します。実験結果は、既存のベースラインを大幅に上回る優位性を示しています。最新の最先端LLM(例:Llama3)に適用した場合、視覚的常識だけでなく従来のNLPベンチマークでも改善が観察されました。コードとモデルはhttps://github.com/guyyariv/vLMIGで公開されています。
Direct Preference Optimization(DPO)は、言語モデルを人間の選好に合わせるための標準的な手法であり、従来はオフラインの選好に対して適用されてきました。最近の研究では、訓練された報酬モデルによってラベル付けされたオンライン選好を用いた反復的なトレーニングがDPOに有効であることが示されています。本研究では、基本的な反復DPOの落とし穴を特定しました。それは、応答品質の向上が冗長性の増加につながる可能性があるということです。この問題に対処するため、応答の長さを抑制する反復的長さ正則化DPO(iLR-DPO)を導入しました。我々の実験結果は、iLR-DPOが7Bモデルを冗長性を増すことなくGPT-4と同等の性能に向上させられることを示しています。具体的には、我々の7BモデルはAlpacaEval 2.0においてGPT-4 Previewに対して50.5%の長さ制御勝率を達成し、MT-Bench、Arena-Hard、OpenLLM Leaderboardなどの標準ベンチマークでも優れた結果を示しました。これらの結果は、反復DPOが言語モデルを人間のフィードバックに合わせる上で有効であることを実証しています。
リポジトリレベルでの規模において、CodeLLMが実行可能で機能的に正しいコードを生成する能力は、ほとんど未開拓のままです。本論文では、リポジトリレベルでのコード生成を評価するための新しいベンチマークであるRepoExecを紹介します。RepoExecは、実行可能性、高カバレッジ率を伴う自動テストケース生成による機能的正しさ、そして正確なコード生成のための注意深く設計されたクロスファイルコンテキストという3つの主要な側面に焦点を当てています。私たちの研究では、開発者が必要なコード依存関係を指定する制御されたシナリオを探求し、モデルがこれらを正確に統合することを求めます。実験結果は、事前学習済みLLMが正しさの点で命令チューニングされたモデルを上回る一方で、後者が提供された依存関係を活用し、デバッグ能力を示す点で優れていることを示しています。また、コード依存関係に焦点を当てた新しい命令チューニングデータセットを導入し、当データセットでファインチューニングされたCodeLLMがこれらの依存関係を効果的に活用する能力が向上することを実証します。RepoExecは、コードの機能性と開発者の意図との整合性を包括的に評価し、実世界のシナリオにおいてより信頼性が高く適用可能なCodeLLMへの道を開くことを目指しています。データセットとソースコードは、https://github.com/FSoft-AI4Code/RepoExec で公開されています。
近年、ビデオ合成技術の進展が大きな注目を集めています。AnimateDiffやStable Video Diffusionなどのビデオ合成モデルは、拡散モデルを用いて動的な視覚コンテンツを生成する実用性を実証しました。SORAの登場は、ビデオ生成技術の可能性をさらに際立たせています。しかし、ビデオの長さの拡張は、計算リソースの制約によって制限されてきました。既存のビデオ合成モデルの多くは、短いビデオクリップしか生成できません。本論文では、ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案します。このアプローチは、現在のビデオ合成モデルの能力を向上させ、より長い時間にわたるコンテンツを生成することを可能にしつつ、トレーニングコストを低減することを目的としています。特に、3D畳み込み、時間的アテンション、位置埋め込みといった一般的な時間的モデルアーキテクチャに対して、それぞれ拡張戦略を設計しました。提案したポストチューニングアプローチの有効性を評価するため、Stable Video Diffusionモデルに対して拡張トレーニングを実施しました。このアプローチにより、モデルは元のフレーム数の5倍まで生成する能力を獲得し、40kのビデオを含むデータセットでわずか1.5k GPU時間のトレーニングを要しました。重要なことに、ビデオの長さの大幅な増加は、モデルの本来の汎化能力を損なうことなく、多様なスタイルや解像度のビデオを生成する際にその利点を発揮します。ソースコードと拡張モデルを公開する予定です。
既存のベンチマークは、言語エージェントが人間のユーザーとの相互作用やドメイン固有のルールに従う能力をテストしておらず、これらは実世界のアプリケーションに展開する上で極めて重要です。本論文では、tau-benchを提案します。これは、ユーザー(言語モデルによってシミュレート)と、ドメイン固有のAPIツールおよびポリシーガイドラインを提供された言語エージェントとの間の動的な会話を模倣するベンチマークです。我々は、会話終了時のデータベース状態と注釈付きの目標状態を比較する、効率的で忠実な評価プロセスを採用しています。また、エージェントの行動の信頼性を複数回の試行にわたって評価する新しい指標(pass^k)を提案します。実験結果によると、最先端の関数呼び出しエージェント(例えばgpt-4o)でさえ、タスクの50%未満しか成功せず、非常に一貫性が低いことが明らかになりました(小売り分野ではpass^8 <25%)。これらの発見は、エージェントが一貫して行動し、ルールを確実に遵守する能力を向上させる手法の必要性を示唆しています。
モデル回答の検証可能性を確保することは、質問応答(QA)領域における検索拡張生成(RAG)の基本的な課題です。最近、大規模言語モデル(LLM)が回答とともに支持文書への引用を生成するよう促す自己引用プロンプトが提案されました。しかし、自己引用を行うLLMは、必要な形式に一致させるのに苦労し、存在しないソースを参照し、生成全体を通じてLLMの文脈使用を忠実に反映できないことがよくあります。本研究では、MIRAGE(Model Internals-based RAG Explanations)を紹介します。これは、モデルの内部情報を使用してRAGアプリケーションにおける忠実な回答帰属を行うプラグアンドプレイアプローチです。MIRAGEは、文脈に敏感な回答トークンを検出し、サリエンシー手法を通じてそれらの予測に寄与する検索文書とペアリングします。多言語抽出型QAデータセットで提案手法を評価し、人間による回答帰属との高い一致率を確認しました。自由回答型QAでは、MIRAGEは自己引用と同等の引用品質と効率を達成し、さらに帰属パラメータのより細かい制御を可能にします。定性的評価では、MIRAGEの帰属の忠実性が強調され、RAG回答帰属におけるモデル内部情報の有望な応用が示されました。
視覚シーンの意味論を理解することは、コンピュータビジョンにおける基本的な課題である。この課題の重要な側面は、類似した意味や機能を持つ物体が、顕著な視覚的差異を示すことがあり、正確な識別と分類を困難にすることである。最近のテキストから画像へのフレームワークの進展により、自然なシーンの統計を暗黙的に捉えるモデルが開発されている。これらのフレームワークは、物体の視覚的変動性、複雑な物体の共起、そして多様な照明条件などのノイズ源を考慮している。大規模なデータセットとクロスアテンション条件付けを活用することで、これらのモデルは詳細で文脈的に豊かなシーン表現を生成する。この能力は、多様で挑戦的な環境における物体認識とシーン理解の改善に向けた新たな道を開くものである。本研究では、StableSemanticsというデータセットを提案する。このデータセットは、22万4千の人間がキュレートしたプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞句に対応する1000万のアテンションマップから構成されている。我々は、視覚的に興味深い安定拡散生成に対応する人間が生成したプロンプトを明示的に活用し、各フレーズに対して10の生成を提供し、各画像のクロスアテンションマップを抽出する。生成画像の意味論的分布を探り、画像内の物体の分布を調査し、キャプショニングとオープン語彙セグメンテーション手法を我々のデータでベンチマークする。我々の知る限り、意味論的属性を持つ拡散データセットを公開するのは初めてである。提案するデータセットが、視覚的意味論理解の進展を促進し、より洗練された効果的な視覚モデルの開発の基盤を提供することを期待している。ウェブサイト: https://stablesemantics.github.io/StableSemantics
解釈可能性と分析(IA)研究は、NLPシステムや手法の振る舞いや内部構造をより深く理解することを目的とした、NLP分野内で成長しているサブフィールドです。このサブフィールドへの関心が高まっているにもかかわらず、しばしば指摘される批判は、具体的な洞察に欠けており、そのためNLP分野への影響が限られているという点です。本論文では、IA研究がNLP分野全体に与える影響を定量化することを目指します。この目的のために、以下の2つの手法を用いた混合分析を行います:(1) 2018年から2023年にACLおよびEMNLP会議で発表された全論文から構築された18万5千件以上の引用グラフ、(2) NLPコミュニティの138名を対象とした調査です。定量的な結果から、IA研究はIA以外の分野でもよく引用されており、NLP引用グラフにおいて中心的な位置を占めていることが示されました。調査回答の質的分析と556件の論文の手動アノテーションを通じて、NLP研究者がIA研究の知見を基に研究を進め、NLPや複数のサブフィールドにおける進歩にとって重要であると認識し、自身の研究においてその知見や用語を活用していることが明らかになりました。多くの新しい手法がIAの知見に基づいて提案され、それらに大きく影響を受けていますが、IA以外の非常に影響力のある研究は、IAの知見を引用するものの、それに駆動されることはありません。最後に、現在のIA研究に欠けている点をまとめ、より影響力のあるIA研究の未来を切り開くための行動を呼びかけます。
テキスト要約研究は、深層ニューラルネットワーク、事前学習済み言語モデル(PLM)、そして最近の大規模言語モデル(LLM)の登場により、いくつかの重要な変革を遂げてきた。本調査では、これらのパラダイムシフトを通じて、テキスト要約における研究の進展と進化を包括的にレビューする。本調査は主に2つの部分で構成されている:(1) LLM時代以前のデータセット、評価指標、要約手法の詳細な概観であり、伝統的な統計的手法、深層学習アプローチ、PLMのファインチューニング技術を網羅している。(2) LLM時代におけるベンチマーキング、モデリング、要約評価の最近の進展を初めて詳細に検証する。既存の文献を統合し、一貫した概観を提示することで、本調査は要約研究のトレンド、未解決の課題についても議論し、有望な研究方向性を提案する。これにより、進化し続ける要約研究の風景を研究者に案内することを目指している。
3Dシーンに対する潜在拡散モデルを提案します。このモデルは、2D画像データのみを使用して学習可能です。これを実現するため、まずマルチビュー画像を3Dガウススプラットにマッピングし、同時にこれらのスプラットの圧縮された潜在表現を構築するオートエンコーダを設計します。次に、潜在空間上でマルチビュー拡散モデルを学習し、効率的な生成モデルを構築します。このパイプラインは、オブジェクトマスクや深度情報を必要とせず、任意のカメラ位置を持つ複雑なシーンに適しています。複雑な実世界のシーンからなる大規模データセット(MVImgNetとRealEstate10K)で詳細な実験を行いました。その結果、本手法は、ゼロから、単一の入力ビューから、または疎な入力ビューから、わずか0.2秒で3Dシーンを生成可能であることを示しました。非潜在拡散モデルや従来のNeRFベースの生成モデルよりも桁違いに高速に動作しながら、多様で高品質な結果を生成します。