翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の性能は、その事前学習データセットの品質と規模に大きく依存します。しかし、Llama 3やMixtralのような最先端のオープンLLMの事前学習データセットは公開されておらず、それらがどのように作成されたかについてもほとんど知られていません。本研究では、96のCommon Crawlスナップショットから導出された15兆トークンのデータセットであるFineWebを紹介します。FineWebは、他のオープンな事前学習データセットよりも優れた性能を持つLLMを生成します。高品質な事前学習データセットをどのように最適にキュレーションするかについての理解を深めるため、FineWebで使用されたすべての設計選択を注意深く文書化し、アブレーションを行いました。これには、重複排除やフィルタリング戦略に関する詳細な調査も含まれます。さらに、FineWebからフィルタリングされた教育テキストの1.3兆トークンのコレクションであるFineWeb-Eduを紹介します。FineWeb-Eduで事前学習されたLLMは、MMLUやARCのような知識および推論を要するベンチマークで劇的に優れた性能を示します。私たちのデータセットとともに、データキュレーションのコードベースやアブレーション実験中にトレーニングされたすべてのモデルを公開します。
テキストから画像への拡散モデルに基づく3D生成は、視覚的に魅力的なアセットの作成を可能にする。しかし、従来の手法は画像やテキストに基づく生成を探求しており、創造性の境界は言葉で表現できる内容や入手可能な画像によって制限されている。本論文では、解剖学的に制御可能な高品質な動物を生成する手法であるYouDreamを提案する。YouDreamは、3Dポーズの事前情報に基づく2Dビューによって制御されるテキストから画像への拡散モデルを用いて導かれる。本手法は、従来のテキストから3Dへの生成手法では実現不可能な3D動物を生成する。さらに、本手法は生成された動物の解剖学的な一貫性を保持することが可能であり、これは従来のテキストから3Dへのアプローチがしばしば困難とする領域である。また、一般的に見られる動物を生成するための完全自動化されたパイプラインを設計した。3Dポーズを作成するための人的介入の必要性を回避するため、限られた動物3Dポーズのライブラリから目的の動物を表現するためのポーズを適応させるマルチエージェントLLMを提案する。YouDreamの結果に関するユーザスタディは、本手法によって生成された動物モデルが他の手法よりも好まれることを示している。ターンテーブル結果とコードはhttps://youdream3d.github.io/で公開されている。
言語モデル(LMs)は、印象的な性能と汎化能力を示します。しかし、LMsは継続学習(CL)における長期的な持続可能性を損なう「破滅的忘却」という課題に直面しています。既存のアプローチでは、通常、古いタスクデータやタスクごとの帰納的バイアスをLMsに組み込むことでこの問題に対処しています。しかし、古いデータや正確なタスク情報はしばしば利用不可能であったり、収集にコストがかかったりするため、現在のCLアプローチの利用可能性を妨げています。この制限に対処するため、我々はMIGU(MagnItude-based Gradient Updating for continual learning)を提案します。これは、リハーサル不要かつタスクラベル不要の手法で、LMsの線形層における出力の大きさが大きいパラメータのみを更新します。MIGUは、LMsの線形層における出力のL1正規化された大きさの分布が、異なるタスクデータを扱う際に異なるという観察に基づいています。この単純な制約を勾配更新プロセスに課すことで、LMsの内在的な振る舞いを活用し、その本来のCL能力を引き出すことができます。我々の実験では、MIGUが3つのLMアーキテクチャ(T5、RoBERTa、Llama2)すべてに普遍的に適用可能であり、4つのCLベンチマークにおける継続的ファインチューニングと継続的事前学習の設定で、最先端または同等の性能を発揮することを示しています。例えば、MIGUは、15タスクのCLベンチマークにおいて、従来のパラメータ効率的なファインチューニングベースラインに対して15.2%の平均精度向上をもたらします。MIGUはまた、既存の3つのCLタイプすべてとシームレスに統合して、さらに性能を向上させることもできます。コードはhttps://github.com/wenyudu/MIGU{this https URL}で公開されています。
最近の人間の嗜好最適化の進展は、当初言語モデル(LM)向けに開発されたものですが、テキストから画像への拡散モデル(Diffusion Models)にも有望であることが示され、プロンプトの整合性、視覚的魅力、ユーザーの嗜好を向上させています。LMとは異なり、拡散モデルは通常ピクセル空間またはVAE空間で最適化されますが、これは人間の知覚と整合せず、嗜好整合段階でのトレーニングが遅く非効率になる原因となっています。これらの問題を解決するため、我々は拡散モデルのU-Net埋め込み空間における知覚的目標関数の使用を提案します。我々のアプローチでは、Stable Diffusion 1.5およびXLを、この埋め込み空間内でDirect Preference Optimization(DPO)、Contrastive Preference Optimization(CPO)、および教師ありファインチューニング(SFT)を用いてファインチューニングします。この方法は、品質や計算コストを含む様々な指標において、標準的な潜在空間実装を大幅に上回ります。SDXLの場合、我々のアプローチはPartiPromptsデータセットにおいて、オリジナルのオープンソースSDXL-DPOに対して60.8%の一般的嗜好、62.2%の視覚的魅力、52.1%のプロンプト追従を提供し、計算量を大幅に削減します。我々のアプローチは、拡散モデルの人間の嗜好整合の効率と品質を向上させるだけでなく、他の最適化技術とも容易に統合可能です。トレーニングコードとLoRA重みはこちらで公開されます: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
関数呼び出しエージェントモデルの進歩には、多様で信頼性が高く、質の高いデータセットが必要です。本論文では、関数呼び出しアプリケーション向けに検証可能な高品質データセットを合成するために設計された自動化データ生成パイプラインであるAPIGenを紹介します。APIGenを活用し、21の異なるカテゴリーにわたる3,673の実行可能なAPIを収集し、スケーラブルで構造化された方法で多様な関数呼び出しデータセットを生成します。データセット内の各データは、フォーマットチェック、実際の関数実行、および意味的検証という3つの階層的なステージを経て検証され、その信頼性と正確性が確保されます。私たちが作成したデータセットでトレーニングされたモデルは、たとえ7Bパラメータのみであっても、Berkeley Function-Calling Benchmarkにおいて最先端の性能を達成し、複数のGPT-4モデルを上回ることを実証しました。さらに、私たちの1Bモデルは、GPT-3.5-TurboやClaude-3 Haikuを凌ぐ優れた性能を発揮します。私たちは、関数呼び出しエージェント分野の進展を目指して、60,000の高品質エントリーを含むデータセットを公開します。このデータセットはHuggingface(https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k)およびプロジェクトホームページ(https://apigen-pipeline.github.io/)で利用可能です。
偏微分方程式(PDE)を生成拡散モデルを用いて解くための汎用的なフレームワークを提案します。特に、従来のソルバーを適用するために必要なシーンの完全な知識を持たないシナリオに焦点を当てます。既存の順方向または逆方向のPDEアプローチの多くは、データの観測値や基礎となる係数が不完全である場合に性能が低下しますが、これは実世界の測定において一般的に想定される状況です。本研究では、解空間と係数空間の同時分布をモデル化することで、欠損情報を補完しつつPDEを解くことができるDiffusionPDEを提案します。学習された生成事前分布が、部分的な観測下での幅広いPDEを高精度に解くための汎用性の高いフレームワークを実現し、順方向および逆方向の両方において最先端の手法を大幅に上回る性能を示すことを実証します。
大規模言語モデル(LLM)の長文脈処理能力は、近年ホットなトピックとなっている。LLMのさまざまなシナリオにおける性能を評価するため、多様な評価ベンチマークが登場している。しかし、これらのベンチマークの多くは、質問に答えるためにキー情報を特定することに焦点を当てており、主にLLMの検索能力を必要とするため、大量の情報からの推論性能を部分的にしか反映していない。一方、LLMはしばしば32k、128k、200k、あるいはそれ以上の長さのコンテキストウィンドウを有すると主張しているが、これらのベンチマークはLLMが実際にサポートする長さを明らかにするには至っていない。これらの課題に対処するため、我々は既存の指示データセットに基づいて構築された、LLM向けの挑戦的な長文脈指示ベースの試験であるLongInsベンチマークデータセットを提案する。具体的には、LongInsにおいて、Global Instruction & Single Task(GIST)、Local Instruction & Single Task(LIST)、Local Instruction & Multiple Tasks(LIMT)という3つの評価設定を導入する。LongInsに基づき、既存のLLMに対して包括的な評価を行い、以下の重要な知見を得た:(1)128kのコンテキスト長を有するトップパフォーマンスのGPT-4でさえ、LongInsにおける16kの評価コンテキストウィンドウでは低い性能を示す。(2)多くの既存のLLMのマルチホップ推論能力に関しては、短いコンテキストウィンドウ(4k未満)では依然として大きな改善が必要である。
マルチモーダル大規模言語モデル(MLLM)は、様々な視覚理解タスクにおいて大きな進展を遂げてきました。しかし、これらのモデルの大多数は低解像度画像の処理に限定されており、詳細な視覚情報を必要とする知覚タスクにおける有効性が制限されています。本研究では、MG-LLaVAという革新的なMLLMを提案します。このモデルは、低解像度、高解像度、およびオブジェクト中心の特徴を含むマルチグラニュラリティ視覚フローを組み込むことで、モデルの視覚処理能力を向上させます。我々は、微細な詳細を捉えるための追加の高解像度視覚エンコーダを統合し、それをConv-Gate融合ネットワークを通じて基本視覚特徴と融合させることを提案します。さらに、モデルの物体認識能力を向上させるために、オフラインディテクタによって識別されたバウンディングボックスから導出されたオブジェクトレベルの特徴を組み込みます。公開されているマルチモーダルデータのみを命令チューニングを通じて訓練されたMG-LLaVAは、卓越した知覚スキルを発揮します。我々は、3.8Bから34Bまでの多様な言語エンコーダを用いてMG-LLaVAを実装し、モデルの性能を包括的に評価します。複数のベンチマークにわたる広範な評価により、MG-LLaVAが同等のパラメータサイズの既存のMLLMを凌駕し、その顕著な有効性を示しています。コードはhttps://github.com/PhoenixZ810/MG-LLaVAで公開されます。
本研究では、MotionBoothという革新的なフレームワークを提案します。このフレームワークは、カスタマイズされた被写体をアニメーション化し、物体とカメラの動きを精密に制御することを目的としています。特定の物体の数枚の画像を活用することで、テキストからビデオを生成するモデルを効率的にファインチューニングし、物体の形状や属性を正確に捉えます。私たちのアプローチでは、被写体の学習性能を向上させるために被写体領域損失とビデオ保存損失を導入し、さらに被写体トークンのクロスアテンション損失を用いてカスタマイズされた被写体とモーション制御信号を統合します。加えて、推論時に被写体とカメラの動きを管理するためのトレーニング不要の技術を提案します。特に、クロスアテンションマップの操作を用いて被写体の動きを制御し、カメラの動きを制御するための新しい潜在シフトモジュールも導入します。MotionBoothは、生成されたビデオにおける被写体の外観を保ちながら、同時に動きを制御する点で優れています。広範な定量的および定性的な評価を通じて、本手法の優位性と有効性が実証されています。プロジェクトページはhttps://jianzongwu.github.io/projects/motionboothにあります。
長文脈モデリング能力が広く注目を集める中、超長文脈ウィンドウを備えた大規模言語モデル(LLMs)が登場しています。一方で、長文脈LLMを評価するためのベンチマークも徐々に整備されつつあります。しかし、既存のベンチマークでは、テストケースの長さを人工的に延長するために無関係なノイズテキストを使用しており、現実世界の長文脈アプリケーションのシナリオから乖離しています。このギャップを埋めるため、我々は現実的なシナリオに沿った新しい長文脈ベンチマーク「Loong」を提案します。Loongは、複数ドキュメントにわたる質問応答(QA)を拡張することで、現実的なシナリオに整合しています。典型的なドキュメントQAとは異なり、Loongのテストケースでは、各ドキュメントが最終的な回答に関連しており、いずれかのドキュメントを無視すると回答に失敗します。さらに、Loongは、Spotlight Locating、Comparison、Clustering、Chain of Reasoningという4種類のタスクを導入し、さまざまな文脈長をカバーすることで、長文脈理解のより現実的かつ包括的な評価を可能にします。大規模な実験結果から、既存の長文脈言語モデルにはまだ大きな改善の余地があることが示されています。検索拡張生成(RAG)は低い性能しか達成できず、Loongがモデルの長文脈モデリング能力を確実に評価できることを実証しています。
テキストを文に分割することは、多くのNLPシステムにおいて初期段階で重要な役割を果たします。これは通常、句読点などの語彙的特徴に依存したルールベースまたは統計的手法を用いて達成されます。最近の研究では句読点に依存しないものもありますが、既存の手法では以下のすべてを同時に達成するものはありませんでした。(i) 句読点の欠落に対する頑健性、(ii) 新しいドメインへの効果的な適応性、(iii) 高い効率性。この問題を解決するため、我々は新しいモデル「Segment any Text (SaT)」を提案します。頑健性を高めるために、句読点への依存を減らす新しい事前学習スキームを提案します。適応性に対処するため、パラメータ効率の良いファインチューニングの追加段階を導入し、歌詞や法律文書などの異なるドメインで最先端の性能を実現します。その過程で、アーキテクチャの変更を行い、従来の最先端技術に比べて3倍の速度向上を達成し、遠い未来の文脈への誤った依存を解消します。最後に、多様な多言語混合の文分割データでファインチューニングしたモデルのバリアントを導入し、既存の分割ツールの代替および強化として機能させます。全体として、我々の貢献は、あらゆるテキストを分割するための普遍的なアプローチを提供します。我々の手法は、多様なドメインと言語にわたる8つのコーパスにおいて、特に実用的に関連する状況(テキストのフォーマットが不十分な場合)において、強力なLLMを含むすべてのベースラインを上回ります。我々のモデルとコード(ドキュメントを含む)は、MITライセンスの下でhttps://huggingface.co/segment-any-textで公開されています。
事前学習済みの大規模言語モデル(LLM)の一般的な能力にもかかわらず、実用的なアプリケーションにより適応するためには、さらなる適応が必要です。本論文では、パラメータ更新、報酬モデリング、およびインコンテキストプロンプティングという3つの人気かつ異なる適応ツールの相互交換性を実証します。この相互交換性は、6つの変換方向を持つ三角形のフレームワークを確立し、それぞれが多様なアプリケーションを促進します。私たちの研究は、数多くの既存研究を統合し、潜在的な研究方向を示す包括的な視点を提供します。私たちは、この研究がLLMの将来の研究にとって有用なロードマップとなることを期待しています。
拡散モデルはビデオ生成において顕著な能力を発揮しており、生成プロセスへの軌道制御の導入に対する関心をさらに高めています。既存の研究は主にトレーニングベースの手法(例:条件付きアダプター)に焦点を当てていますが、我々は拡散モデル自体がトレーニングを必要とせずに生成内容を適切に制御できると主張します。本研究では、ノイズ構築とアテンション計算の両方にガイダンスを課すことで、軌道制御可能なビデオ生成を実現するチューニング不要のフレームワークを提案します。具体的には、1) 最初にいくつかの示唆的な現象を示し、初期ノイズが生成内容の運動軌道にどのように影響するかを分析します。2) 次に、ノイズサンプリングとアテンションメカニズムを変更することで軌道制御を可能にするチューニング不要のアプローチであるFreeTrajを提案します。3) さらに、FreeTrajを拡張して、制御可能な軌道を持つより長く大きなビデオ生成を容易にします。これらの設計により、ユーザーは手動で軌道を提供するか、LLM軌道プランナーによって自動生成された軌道を選択する柔軟性を持ちます。広範な実験により、ビデオ拡散モデルの軌道制御性を向上させる我々のアプローチの有効性が検証されました。
大規模言語モデル(LLMs)の最近の進歩により、会話エージェントの能力が大幅に向上し、教育などさまざまな分野での応用が可能となっています。しかし、その進歩にもかかわらず、エージェントの評価では、リアルタイムの相互作用、複数者間の対話、長期的な文脈依存性など、現実世界の会話の複雑さがしばしば見過ごされています。このギャップを埋めるため、我々はDialSimというリアルタイム対話シミュレータを導入しました。このシミュレータでは、エージェントは人気テレビ番組のキャラクターの役割を割り当てられ、過去の対話情報を使用して即興の質問に応答し、既知と未知の情報を区別する必要があります。DialSimの主な特徴は、エージェントが合理的な時間制限内で応答する能力を評価すること、長期的な複数者間の対話を処理すること、およびエージェントの事前学習済み知識への依存を試すための敵対的設定(例:キャラクター名の入れ替え)を管理することです。我々はこのシミュレータを使用して最新の会話エージェントを評価し、その限界を分析しました。実験結果は、これらのエージェントの強みと弱みを浮き彫りにし、会話AI分野の今後の改善に向けた貴重な洞察を提供します。DialSimはhttps://github.com/jiho283/Simulatorで利用可能です。
映画制作やアニメーション制作では、カメラの遷移やオブジェクトの動きを調整するために高度な技術が必要であり、通常は労力を要する実世界での撮影が行われます。ビデオ生成のための生成AIが進歩しているにもかかわらず、インタラクティブなビデオアセット生成において動きを精密に制御することは依然として困難です。そこで我々は、単一の画像からビデオアセットを生成するために、カメラの遷移やオブジェクトの動きを精密に制御する方法である「Image Conductor」を提案します。カメラLoRA重みとオブジェクトLoRA重みを用いて、異なるカメラとオブジェクトの動きを分離するための洗練されたトレーニング戦略を提案します。さらに、不適切な軌道から生じる映画的なバリエーションに対処するため、推論中にカメラフリーガイダンス技術を導入し、カメラの遷移を排除しながらオブジェクトの動きを強化します。また、トレーニングのための軌道指向のビデオモーションデータキュレーションパイプラインを開発します。定量的および定性的な実験により、画像から動きを制御可能なビデオを生成する際の精度と細かい制御が実証され、インタラクティブなビデオ合成の実用的な応用が進展します。プロジェクトのウェブページはhttps://liyaowei-stu.github.io/project/ImageConductor/で公開されています。
大規模言語モデル(LLM)の学習とファインチューニングは、多くの場合、限られたGPUメモリによってボトルネックが生じます。既存の射影ベースの最適化手法は、オプティマイザの状態メモリを削減するために勾配を低次元部分空間に射影することでこの問題に対処していますが、通常は密な射影行列に依存しており、計算とメモリのオーバーヘッドを引き起こす可能性があります。本研究では、Grass(GRAdient Structured Sparsification)という新しいアプローチを提案します。この手法は、スパース射影を活用して勾配を構造化されたスパース更新に変換します。この設計により、オプティマイザの状態メモリ使用量が大幅に削減されるだけでなく、勾配メモリのフットプリント、計算コスト、通信コストも最小化され、スループットの大幅な向上が実現されます。事前学習とファインチューニングタスクにおける広範な実験により、Grassはフルランク学習および既存の射影ベース手法と競合する性能を達成することが示されました。特に、Grassは、13BパラメータのLLaMAモデルの半精度事前学習を単一の40GB A100 GPUで可能にし、これは従来の手法では実現不可能な成果であり、8-GPUシステムでは最大2倍のスループット向上をもたらします。コードはhttps://github.com/aashiqmuhamed/GRASSで公開されています。
活性化制御手法は、言語モデルの中間表現に対して加法的な介入を行うことで、生成を条件付けるのに有効であることが示されてきました。しかし、これまでの評価は単一の条件付け特性と人工的な設定に限定されていました。本研究では、さまざまな活性化制御戦略を包括的に評価し、生成全体にわたって堅牢な効果を確保するための最適パラメータが特性に依存することを明らかにします。この問題に対処するため、我々はDynamic Activation Compositionを提案します。これは、情報理論に基づくアプローチであり、生成全体にわたって1つ以上の特性の制御強度を調整します。複数特性の制御に関する実験では、本手法が高い条件付けを維持しつつ、生成の流暢性への影響を最小限に抑えることに成功していることが示されました。
AIシステムが人間と効果的にコミュニケーションするためには、人間がどのように意思決定を行うかを理解する必要があります。しかし、人間の意思決定は必ずしも合理的ではないため、大規模言語モデル(LLM)における人間の意思決定の暗黙的な内部モデルは、これを考慮しなければなりません。これまでの実証的な証拠は、これらの暗黙的なモデルが正確であることを示唆しているように見えます――LLMは、日常的な相互作用において人間がどのように行動するかを期待するような、人間の行動の信頼できる代理を提供します。しかし、LLMの行動と予測を人間の意思決定の大規模なデータセットと比較すると、実際にはそうではないことがわかります:人間の選択をシミュレートし予測する際に、最先端のLLM(GPT-4o & 4-Turbo、Llama-3-8B & 70B、Claude 3 Opus)は、人間が実際よりも合理的であると仮定しています。具体的には、これらのモデルは人間の行動から逸脱し、古典的な合理的選択のモデル――期待値理論――により近いものに整合しています。興味深いことに、人間もまた、他者の行動を解釈する際に、他者が合理的であると仮定する傾向があります。その結果、LLMと人間が他者の意思決定から導き出す推論を別の心理学的データセットを用いて比較すると、これらの推論が高度に相関していることがわかります。したがって、LLMの暗黙的な意思決定モデルは、人間が実際にどのように行動するかではなく、他者が合理的に行動するという人間の期待に整合しているように見えます。
人工汎用知能(AGI)が人間生活の様々な側面にますます統合される中、そのようなシステムの安全性と倫理的整合性を確保することが極めて重要です。従来の研究は主に単一モダリティの脅威に焦点を当ててきましたが、モダリティ間の相互作用の統合的かつ複雑な性質を考えると、これでは不十分かもしれません。本論文では、モダリティ間の安全性整合性を評価するための新しい課題「安全な入力だが危険な出力(SIUO)」を提案します。具体的には、単一モダリティでは独立して安全であるが、組み合わせると危険または非倫理的な出力を引き起こす可能性があるケースを考慮します。この問題を実証的に調査するため、自傷行為、違法行為、プライバシー侵害など9つの重要な安全領域を網羅するSIUOというモダリティ間ベンチマークを開発しました。我々の調査結果は、GPT-4VやLLaVAなどのクローズドソースおよびオープンソースの大規模視覚言語モデル(LVLM)に重大な安全性の脆弱性があることを明らかにし、現在のモデルが複雑な現実世界のシナリオを確実に解釈し対応する能力が不十分であることを浮き彫りにしています。