翻訳付きの日次キュレーションされたAI研究論文
本論文では、長い入力シーケンスの処理を最適化するために設計された大規模言語モデル用の新しい推論パターンであるWriting in the Margins(WiM)を紹介します。この手法は、セグメント単位の推論を実行するためにキー値キャッシュのチャンク化されたプリフィルを活用し、広範なコンテキストの効率的な処理と、モデルを特定のタスクに導く中間情報(「マージン」)の生成と分類を可能にします。この手法は、計算上のオーバーヘッドをわずかに増やすだけで、微調整を必要とせずに市販モデルの性能を著しく向上させます。具体的には、WiMは推論スキル(HotpotQA、MultiHop-RAG)の精度において平均7.5%の向上と、集約タスク(CWE)のF1スコアにおいて30.0%以上の向上を提供することを観察しています。さらに、提案されたパターンが、コンテキスト処理の進行状況に関するユーザーへの継続的な更新と、関連情報の最終応答への統合を的確に指摘する対話型検索設計にどのように適合するかを示しています。WiMの実装をHugging Face Transformersライブラリを使用して公開しており、以下のリンクから入手可能です:https://github.com/writer/writing-in-the-margins.
我々は、GameNGenを提案します。これは、初めてニューラルモデルによって完全に動作するゲームエンジンであり、高品質な長い軌跡上で複雑な環境とリアルタイムでやり取りすることを可能にします。GameNGenは、単一のTPU上で1秒間に20フレーム以上の速度で、クラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4であり、損失のあるJPEG圧縮と同等です。人間の評価者は、ゲームの短いクリップとシミュレーションのクリップを区別するのに、ランダムなチャンスよりわずかに優れています。GameNGenは2段階で訓練されます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが、過去のフレームとアクションのシーケンスに依存した次のフレームを生成するように訓練されます。条件付きの拡張により、安定した自己回帰生成が長い軌跡上で可能となります。
MambaなどのLinear RNNアーキテクチャは、有利な展開特性を持ちながら、言語モデリングにおいてTransformerモデルと競争力を持つことができます。大規模Transformerモデルのトレーニングに焦点を当てる中で、これらの事前学習済みモデルを展開用に変換する課題を考慮します。我々は、アカデミックGPUリソースを使用して、アテンション層からの線形射影重みを再利用することで、大規模なTransformerをLinear RNNに蒸留することが可能であることを示します。アテンション層の四分の一を組み込んだ結果のハイブリッドモデルは、チャットベンチマークにおいて元のTransformerと比較可能な性能を達成し、オープンソースのハイブリッドMambaモデルをトレーニング済みのトリリオンのトークンよりも優れた性能を示します。さらに、Mambaおよびハイブリッドモデルの推論速度を加速するハードウェアに適した推測デコーディングアルゴリズムを導入します。総じて、限られた計算リソースで、多くの元のアテンション層を削除し、より効率的にモデルを生成できることを示します。Llama3-8B-Instructから蒸留された最高性能モデルは、AlpacaEval 2においてGPT-4に対して29.61の長さ制御された勝率を達成し、MT-Benchでは7.35を記録し、最高の命令に調整された線形RNNモデルを上回ります。
我々は、一対の入力キーフレーム間で連続した動きを持つビデオシーケンスを生成する方法を提案します。我々は、大規模な事前学習済みの画像からビデオへの拡散モデル(元々単一の入力画像から時間の経過と共に前進するビデオを生成するために訓練された)を、キーフレーム補間、つまり2つの入力フレームの間にビデオを生成するために適応させます。我々は、この適応を、軽量なファインチューニング技術を用いて達成し、単一の入力画像から時間を逆戻りするビデオを予測するモデルのバージョンを生成します。このモデル(元の前進モデルと共に)は、その後、2つのキーフレームのそれぞれから始まる重なり合うモデル推定を組み合わせる双方向の拡散サンプリングプロセスで使用されます。我々の実験では、当該手法が既存の拡散ベースの手法や従来のフレーム補間技術を上回ることを示しています。
データベース上の自然言語質問に応じるAIシステムは、膨大な価値を解き放つ可能性があります。このようなシステムは、ユーザーが言語モデル(LMs)の強力な推論および知識能力を活用すると同時に、データ管理システムのスケーラブルな計算能力を利用できるようにします。これらの組み合わせた能力により、ユーザーはカスタムデータソース上で任意の自然言語質問を行うことが可能となります。ただし、既存の手法やベンチマークはこの設定を十分に探求していません。Text2SQL手法は、関係代数で表現可能な自然言語質問にのみ焦点を当てており、実際のユーザーが尋ねたい質問のごく一部を表しています。同様に、Retrieval-Augmented Generation(RAG)は、データベース内の1つまたは複数のデータレコードに対するポイントルックアップで回答できるクエリの限られたサブセットを考慮しています。私たちは、データベース上の自然言語質問に答えるための統一された汎用パラダイムであるTable-Augmented Generation(TAG)を提案します。TAGモデルは、これまで探求されていなかったLMとデータベース間の幅広い相互作用を表し、LMの世界知識と推論能力をデータに対して活用するための興味深い研究機会を創出します。TAG問題を研究するためのベンチマークを体系的に開発し、標準的な手法がクエリの正解率が20%以下であることを確認し、この分野でのさらなる研究の必要性を裏付けます。当該ベンチマークのコードは、https://github.com/TAG-Research/TAG-Bench で公開されています。
我々は、インタラクティブな3Dレイアウト制御を備えたテキストから画像(T2I)生成のための拡散ベースのアプローチを提案しています。レイアウト制御は、T2I拡散モデルがオブジェクトの配置や関係をテキスト記述から理解する際の欠点を軽減するために広く研究されてきました。しかしながら、既存のレイアウト制御手法は2Dレイアウトに限定され、ユーザーに静的レイアウトを事前に提供する必要があり、レイアウトの変更下で生成された画像を保持できないという課題があります。これにより、3Dオブジェクト単位の制御や反復的な改良が必要なアプリケーション(例:インテリアデザインや複雑なシーン生成)には適していないと言えます。このため、私たちは最近の深度条件付きT2Iモデルの進歩を活用し、インタラクティブな3Dレイアウト制御の革新的なアプローチを提案します。レイアウト制御において従来の2Dボックスを3Dボックスに置き換えます。さらに、T2Iタスクを各段階でユーザーが3D空間でオブジェクトを挿入、変更、移動できる多段階生成プロセスとして再構築します。これは、提案するDynamic Self-Attention(DSA)モジュールと一貫した3Dオブジェクト移動戦略によって実現します。実験結果は、当社のアプローチが3Dレイアウトに基づいた複雑なシーンを生成し、標準の深度条件付きT2I手法よりもオブジェクト生成成功率を2倍に向上させることを示しています。さらに、レイアウトの変更下でオブジェクトを保持する点で他の手法を凌駕しています。プロジェクトページ:https://abdo-eldesokey.github.io/build-a-scene/
写実的で操作可能な3Dアバターは、仮想現実(VR)、複合現実(MR)、テレプレゼンス、ゲーム、映画制作など、さまざまなアプリケーションにとって重要です。従来のアバター作成方法は、各アバターに対する時間のかかるスキャンと再構築プロセスを必要とするため、スケーラビリティが制限されています。さらに、これらの方法は新しいアイデンティティをサンプリングしたり既存のアイデンティティを変更したりする柔軟性を提供していません。一方、データから強力な事前知識を学習することで、生成モデルは従来の再構築方法に有望な代替手段を提供し、データ収集と処理の時間制約を緩和します。さらに、生成手法は再構築を超えた編集やスタイル設定などの下流アプリケーションを可能にします。それにもかかわらず、生成的3Dアバターに関する研究はまだ初期段階にあり、現在の方法には静的アバターの作成、写実性の欠如、顔の詳細不足、または制限されたドライバビリティなどの制限があります。これを解決するために、私たちは、テキスト条件付き生成モデルを提案します。これにより、多様なアイデンティティの写実的な顔のアバターを生成し、髪、目、口内部などのより完全な詳細を持ち、強力な非パラメトリック潜在表現空間を介してドライブできます。具体的には、潜在拡散モデルの生成および編集機能をアバター表現ドライブのための強力な事前モデルと統合しています。 私たちのモデルは、分布外の高品質なアバターを生成し制御することができます。また、アバターの編集や単発アバター再構築などの下流アプリケーションにおける潜在的な可能性を強調しています。
画像からのテキスト読み取りは、数十年にわたり研究されてきたトピックであり、高度な技術的課題と広範な応用範囲があるためです。以前は、テキスト読み取りのサブタスク(例:シーンテキスト認識、手書きテキスト認識、数式認識)に対処するために、個々の専門モデルが開発されていました。しかし、このような専門モデルは通常、異なるサブタスク間で効果的に汎化することができませんでした。最近では、統一された方法で膨大なデータでトレーニングされた一般的なモデル(例:GPT-4V)が、さまざまなシナリオでのテキスト読み取りにおいて莫大な潜在能力を示していますが、精度が限定されていて効率が低いという欠点があります。本研究では、テキスト読み取り用の汎用専門モデルであるPlatypusを提案します。具体的には、Platypusは両方の利点を組み合わせています:単一の統一されたアーキテクチャでさまざまな形式のテキストを認識できるだけでなく、優れた精度と高い効率を達成しています。Platypusの利点をよりよく活用するために、以前のデータセットからキュレーションされ、一部が再ラベル付けされたテキスト読み取りデータセット(Wormsと呼ばれる)も構築しています。標準ベンチマークでの実験は、提案されたPlatypusモデルの効果と優越性を示しています。モデルとデータは、以下のURLから一般に公開されます:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus。
私たちは、SHADOWという、連想的演繹推論を用いて中間タスクでトレーニングされたファインチューニングされた言語モデルを紹介し、Wikidataトリプル補完を使用した知識ベース構築タスクのパフォーマンスを測定します。LM-KBC 2024チャレンジでSHADOWを評価し、F1スコアが68.72%で、ベースラインソリューションを20%上回ることを示します。
我々は、外部知識表現手法である意味的タワーを導入し、オントロジー学習のための大規模言語モデルにおける内在的知識と比較します。実験結果は、外部知識における性能と意味的基盤とのトレードオフを示し、微調整されたモデルの内在的知識と比較します。我々は、2024年のオントロジー学習のための大規模言語モデル(LLMs4OL)チャレンジでの研究結果を報告します。
この論文は、最近環境科学者の注目を集めている生物指標としての価値が高い海鳥の3D再構築に関するものです。このような3D情報は、鳥の行動や生理的形状を分析するのに役立ち、例えば動き、形状、外観の変化を追跡することができます。コンピュータビジョンの観点から見ると、鳥はその迅速でしばしば非剛性の動きのため特に挑戦的です。私たちは、特定の海鳥であるウミガラスの単眼ビデオから3Dポーズと形状を再構築する手法を提案します。私たちの手法は、検出、追跡、セグメンテーション、そして時間的に一貫した3D再構築からなる完全なパイプラインを含んでいます。さらに、現在の単一画像3D鳥ポーズ推定器を時間領域に拡張する時間的損失を提案しています。さらに、鳥種固有のキーポイントラベルを持つ小規模なテストセットを含む、平均して9羽の鳥を同時に捉えた10000フレームのビデオ観察の実世界データセットを提供しています。時間最適化を使用することで、データセット内の難解なシーケンスにおいて最先端の性能を達成しています。
産業 4.0 は、デジタル化を推進し、付加製造(AM)に向けたパラダイムの転換をもたらすことで製造業を革命化しています。Fused Deposition Modeling(FDM)という主要なAM技術は、層を重ねて押し出すことにより、高度にカスタマイズされた、コスト効率の良い製品を作成し、材料の無駄を最小限に抑えることを可能にし、従来の減算法に対して重要な挑戦をもたらしています。しかしながら、材料の押し出し技術が誤差に対して敏感であるため、製品品質を深刻に損なう可能性のある欠陥を検出し軽減するためには、しばしば専門家の介入が必要とされます。自動化されたエラー検出や機械学習モデルは存在しますが、それらの一般化は多様な3Dプリンタのセットアップ、ファームウェア、およびセンサにわたって制限されており、深層学習手法は広範なラベル付きデータセットを必要とするため、拡張性と適応性が妨げられています。これらの課題に対処するために、我々は、3Dプリンタと共に事前学習された大規模言語モデル(LLMs)を活用するプロセス監視および制御フレームワークを提案します。LLMは、各層または印刷セグメント後にキャプチャされた画像を分析し、失敗モードを特定し、プリンタに関連するパラメータを問い合わせることで印刷品質を評価します。そして、修正アクションプランを生成および実行します。提案されたフレームワークの欠陥の特定能力を評価するために、多様なAMの専門知識を持つエンジニアの対照グループと比較することで、その有効性を検証しました。我々の評価は、LLMベースのエージェントが一般的な3Dプリントエラー(一貫性のない押し出し、ストリング、反り、および層の密着)を正確に特定し、これらの失敗を引き起こすパラメータを効果的に決定し、人間の介入を必要とせずに自律的に修正することを示しました。