翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の開発と評価は、主に個々の能力に焦点を当ててきました。しかし、これにはしばしば現実世界のタスクに必要とされる異なる種類の専門知識を横断する複数の能力の交差点が見落とされています。これを「クロス能力」と呼んでいます。この概念を体系的に探るために、まず7つの中核的な個々の能力を定義し、それらを組み合わせて7つの一般的なクロス能力を形成しました。各クロス能力は、手作業で作成された分類法に基づいています。これらの定義に基づいて、1,400の人間による注釈付きプロンプトからなるベンチマークであるCrossEvalを紹介しています。各個々の能力とクロス能力につき100のプロンプトが含まれています。信頼性のある評価を確保するために、専門家の注釈付け者によって4,200のモデル応答が評価され、8,400の人間による評価が収集され、詳細な説明が付され、参照例として機能しています。私たちの調査結果によると、静的評価と特定の能力の向上を試みる際、現在のLLMは一貫して「最も弱いリンクの法則」を示しており、クロス能力のパフォーマンスが著しく最も弱い部分に制約されていることが明らかになりました。具体的には、17のモデルからの58のクロス能力スコアにおいて、38のスコアがすべての個々の能力よりも低く、20のスコアが強い能力と弱い能力の間に位置していますが、より弱い能力に近い位置にあります。これらの結果は、LLMのクロス能力タスクでの低性能を強調し、将来の研究において最適なパフォーマンスを実現するために、最も弱い能力の特定と改善が重要な優先事項であることを示しています。
大規模モデルの推論は、ユーザーの相互作用データのプライバシーに関する懸念から、クラウドからエッジへと移行しています。ただし、エッジデバイスはしばしば限られた計算能力、メモリ、および帯域幅に苦しんでおり、LLM推論を実行し高速化するために複数のデバイス間での協力が必要です。主流の解決策であるパイプライン並列処理は、単一ユーザーのシナリオには効率的ではありませんが、テンソル並列処理は頻繁な通信に苦しんでいます。本論文では、低リソースデバイスにおいてパイプラインよりもテンソル並列処理の方が効果的であると主張し、70Bスケールのモデルを処理するための計算およびメモリ効率の良いテンソル並列推論システムであるTPI-LLMを提案します。TPI-LLMは、ユーザーのデバイス内で機密性の高い生データを保持し、推論中にレイヤーの重みを動的に管理するためのスライディングウィンドウメモリスケジューラを導入し、ディスクI/Oの遅延を計算および通信と重ね合わせます。これにより、メモリ制限のあるデバイスでも大規模モデルをスムーズに実行できます。通信のボトルネックを分析し、リンクの遅延が帯域幅ではなく主要な問題となることを発見し、スターベースのオールリデュースアルゴリズムを実装します。エミュレートおよび実際のテストベッドでの幅広い実験により、TPI-LLMは、Accelerateに比べて80%以上の最初のトークンまでの時間とトークンの遅延が短縮され、TransformersおよびGalaxyに比べて90%以上の結果を示し、70BスケールのLlama 2-70Bのピークメモリフットプリントを90%削減し、70Bスケールのモデルに対してわずか3.1GBのメモリを必要とします。
私たちは、初めての大規模言語モデルのコレクションであるAtlas-Chatを紹介します。このモデルは、方言アラビア語向けに特別に開発されました。モロッコのアラビア語、またはダリージャとして知られる言語に焦点を当て、既存のダリージャ言語リソースを統合し、新しいデータセットを手動および合成で作成し、厳格な品質管理を行いながら英語の指示を翻訳して構築しました。データセットでファインチューニングされたAtlas-Chat-9Bおよび2Bモデルは、ダリージャの指示に従う能力や標準の自然言語処理タスクの実行能力において優れた性能を発揮します。特筆すべきは、当社のモデルが、LLaMa、Jais、AceGPTなどの最先端およびアラビア語に特化した大規模言語モデルを上回る点です。たとえば、新たに導入したダリージャの評価スイートであるDarijaMMLUにおいて、13Bモデルよりも13%の性能向上を達成しています。この評価スイートは、識別的および生成的タスクの両方をカバーしています。さらに、さまざまなファインチューニング戦略やベースモデルの選択に関する実験的分析を行い、最適な構成を決定しています。すべてのリソースは一般にアクセス可能であり、私たちの作業は、現代の大規模言語モデルによってしばしば無視される低リソース言語バリアントの指示チューニングの包括的な設計方法を提供していると考えています。
テキスト、単一画像、またはスパースビュー画像から高品質な3Dコンテンツを生成することは、幅広い応用があるが、依然として困難な課題である。既存の手法は、通常、マルチビュー拡散モデルを用いてマルチビュー画像を合成し、その後に3D再構築のためのフィードフォワードプロセスを採用している。しかし、これらのアプローチは、しばしば少数かつ固定された入力ビューの制約により、多様な視点を捉える能力が制限され、さらには、合成されたビューが低品質である場合には、最適でない生成結果につながることがある。これらの制約に対処するために、我々はFlex3Dを提案する。これは、任意の数の高品質な入力ビューを活用できる革新的な2段階フレームワークである。第1段階は、候補ビュー生成およびキュレーションパイプラインで構成されている。微調整されたマルチビュー画像拡散モデルとビデオ拡散モデルを用いて候補ビューのプールを生成し、対象の3Dオブジェクトの豊富な表現を可能にする。その後、ビュー選択パイプラインがこれらのビューを品質と一貫性に基づいてフィルタリングし、再構築に使用されるのは高品質かつ信頼性のあるビューのみとなるようにする。第2段階では、キュレーションされたビューが柔軟な再構築モデル(FlexRM)に供給される。このモデルは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャに基づいて構築されており、三平面表現を活用して3Dガウス点を直接出力することができる。設計とトレーニング戦略の幅広い探索を通じて、FlexRMを最適化し、再構築および生成タスクの両方で優れたパフォーマンスを実現する。我々の結果は、Flex3Dが最新のフィードフォワード3D生成モデルと比較した際に、3D生成タスクにおいて92%以上のユーザースタディ勝率を達成し、最先端のパフォーマンスを適用していることを示している。
VideoLISAは、言語による推論セグメンテーション問題に取り組むために設計された、ビデオベースのマルチモーダル大規模言語モデルを紹介します。大規模言語モデルの推論能力と世界知識を活用し、Segment Anythingモデルによって拡張されたVideoLISAは、言語指示に基づいてビデオ内の時間的に一貫したセグメンテーションマスクを生成します。LISAなどの既存の画像ベースの手法は、追加の時間的次元によりビデオタスクに苦労しており、時間的なダイナミック理解とフレーム間での一貫したセグメンテーションが必要です。VideoLISAは、計算上の制約内で時間的コンテキストと空間的詳細をバランスするSparse Dense Sampling戦略をビデオ-LLMに統合することで、これらの課題に対処します。さらに、特別に設計された<TRK>トークンを使用したOne-Token-Seg-Allアプローチを提案し、モデルが複数フレームにわたってオブジェクトをセグメントおよびトラッキングできるようにします。ReasonVOSベンチマークを含むさまざまなベンチマークでの包括的な評価により、VideoLISAは、複雑な推論、時間理解、およびオブジェクトトラッキングを必要とするビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示すことが示されます。ビデオに最適化されていますが、VideoLISAは画像セグメンテーションにも有望な汎化性能を示し、言語によるオブジェクトセグメンテーションの統一基盤モデルとしての潜在能力を明らかにします。コードとモデルは以下で入手可能です:https://github.com/showlab/VideoLISA。
この研究では、当社のテキストから画像を生成するアニメ画像生成モデル「Illustrious」において、最先端の品質を実現するための洞察を共有します。高解像度、ダイナミックなカラー範囲の画像、高い復元能力を実現するために、モデルの改善に向けて3つの重要なアプローチに焦点を当てています。まず、バッチサイズとドロップアウト制御の重要性に深く踏み込み、コントロール可能なトークンベースの概念活性化の高速学習を可能にしています。次に、画像のトレーニング解像度を向上させ、キャラクターの解剖学的描写をより高い解像度で正確に行い、適切な手法で20MP以上の生成能力を拡張しています。最後に、洗練されたマルチレベルキャプションを提案し、すべてのタグとさまざまな自然言語キャプションをカバーすることをモデル開発の重要な要素としています。徹底的な分析と実験を通じて、「Illustrious」はアニメーションスタイルにおいて最先端のパフォーマンスを示し、イラストレーション分野で広く使用されているモデルを凌駕し、オープンソースの性質による簡単なカスタマイズと個人化を促進しています。我々は、更新された「Illustrious」モデルシリーズと改善のための持続可能な計画を順次公開する予定です。
拡散モデルは強力な生成技術として台頭し、さまざまなシナリオで適用可能であることがわかっています。ほとんどの既存の基本的な拡散モデルは、主にテキストによるビジュアル生成を対象として設計されており、多くのビジュアル編集タスクには欠かせないマルチモーダル条件をサポートしていません。この制限により、これらの基本的な拡散モデルは、自然言語処理分野のGPT-4のように、ビジュアル生成分野における統一モデルとしての役割を果たすことができません。本研究では、ACE(All-round Creator and Editor)という、幅広いビジュアル生成タスクにおいて専門モデルと比較可能な性能を達成するモデルを提案します。この目標を達成するために、まず、Long-context Condition Unit(LCU)と呼ばれる統一された条件形式を導入し、LCUを入力とする新しいTransformerベースの拡散モデルを提案します。これにより、さまざまな生成および編集タスクにわたる共同トレーニングを目指します。さらに、利用可能なトレーニングデータの不足問題に対処するために、効率的なデータ収集アプローチを提案します。これには、合成ベースまたはクラスタリングベースのパイプラインを使用してペア画像を取得し、これらのペアに正確なテキスト指示を提供するために、微調整されたマルチモーダル大規模言語モデルを活用します。当社のモデルの性能を包括的に評価するために、さまざまなビジュアル生成タスクにわたる手動で注釈付けされたペアデータのベンチマークを確立します。幅広い実験結果は、当社のモデルのビジュアル生成分野における優位性を示しています。当社のモデルのオールインワンの機能により、ビジュアルエージェントで通常使用される手間のかかるパイプラインを回避し、単一モデルをバックエンドとして使用して画像作成のインタラクティブなリクエストに応答するマルチモーダルチャットシステムを簡単に構築することができます。コードとモデルはプロジェクトページで入手可能です:https://ali-vilab.github.io/ace-page/。
自動運転の進歩は、特に3D占有予測のタスクにおいて、密な3D注釈が必要であり、膨大な人的労力が必要な占有ラベルが必要とされるため、高品質なアノテーションされたデータセットにますます依存しています。本論文では、運転シナリオにおいて占有ラベルを条件付けて写実的かつ幾何学的に制御された画像を合成する拡散モデルを示すSyntheOccを提案します。これにより、知覚モデルやシミュレーションのトレーニングなどのアプリケーション向けに、無制限の多様で注釈付きかつ制御可能なデータセットが生成されます。SyntheOccは、どのようにして3D幾何情報を2D拡散モデルへの条件付き入力として効率的にエンコードするかという重要な課題に取り組んでいます。当該アプローチは、3Dセマンティックマルチプレーン画像(MPIs)を革新的に取り入れ、包括的で空間的に整列した3Dシーンの記述を提供します。その結果、SyntheOccは、与えられた幾何学的ラベル(3Dボクセル空間のセマンティクス)と忠実に整合する写実的なマルチビュー画像やビデオを生成することができます。nuScenesデータセットでのSyntheOccの包括的な定性的および定量的評価は、知覚モデルへの効果的なデータ拡張として機能する制御可能な占有データセットの生成におけるその効果を証明しています。
大規模多モーダルモデル(LMMs)は、短いビデオ理解タスクで印象的なパフォーマンスを示していますが、長いビデオ理解に適用する際には大きな課題に直面しています。一方、大規模言語モデル(LLMs)は、長いテキストのモデリングにおいて優れた能力を発揮しています。既存の研究は、トレーニング中に長いビデオテキストペアを導入することで、この問題に対処しようとしています。しかし、これらのアプローチには膨大な計算リソースとデータリソースが必要です。本論文では、文脈ウィンドウの観点から長いビデオ理解の課題に取り組み、LMMsを長いビデオタスクに適用することを目指して、長いビデオデータセットで再トレーニングする必要がない方法を提案します。まず、事前学習済みのLMMsが長いビデオコンテンツを理解するのに苦労する理由について詳細な分析を行い、視覚と言語のモダリティ間の不一致が視覚トークンと言語コンテキストウィンドウを一致させるのを困難にしていることを特定します。これに基づいて、視覚コンテキストウィンドウを拡張することで、大規模な長いビデオデータセットでの再トレーニングを不要にする方法を提案します。さらに、長いシーケンスによって引き起こされる大きなメモリ消費を緩和するために、フレーム埋め込みの空間分解能を選択的に調整するプログレッシブプーリング推論戦略を導入します。複数の長いビデオ理解ベンチマークを通じて、当社の手法は、ビデオフレーム数が増加するにつれて一貫してパフォーマンスを向上させます。MLVUベンチマークでは、当社の手法は、モデルサイズがわずか7Bであるにもかかわらず、GPT-4oを上回ります。さらに、256フレーム設定では、当社の手法は、ベースラインと比較してメモリ使用量を約45%削減し、パフォーマンスの低下をもたらすことなく、メモリ使用量を削減します。
写実的な画像復元アルゴリズムは通常、歪み測定(例:PSNR、SSIM)および知覚品質測定(例:FID、NIQE)によって評価されます。ここでの望みは、知覚品質を損なうことなく、できるだけ低い歪みを達成することです。この目標を達成するために、現在の手法は通常、事後分布からサンプリングを試みるか、歪み損失(例:MSE)と知覚品質損失(例:GAN)の加重和を最適化します。本論文は、これまでの研究とは異なり、再構成された画像の分布が正解画像の分布と等しい場合に、MSEを最小化する最適な推定器に焦点を当てています。最近の理論的結果によると、そのような推定器は、事後平均予測(MMSE推定)を最適に輸送して正解画像の分布に到達させることで構築できます。この結果に触発され、本研究では、この最適な推定器を近似するシンプルかつ効果的なアルゴリズムである「事後平均補正フロー(PMRF)」を紹介します。具体的には、PMRFはまず事後平均を予測し、その結果を望ましい最適輸送マップを近似する補正フローモデルを使用して高品質な画像に輸送します。PMRFの理論的有用性を調査し、さまざまな画像復元タスクで従来の手法を一貫して上回ることを実証します。
単眼ビデオから時間的整合性のある人体モデルを再構築する手法を提案します。この手法は、非常にゆるい衣類や手持ちの物体との相互作用に焦点を当てています。従来の人物再構築の研究は、通常は物体との相互作用のないタイトな衣類に限定されているか、または複数の視点でキャリブレーションされたキャプチャや個人用のテンプレートスキャンが必要であり、これらは大規模に収集するにはコストがかかります。高品質かつ柔軟な再構築を実現するための私たちの主要な洞察は、一般的な人体形状に関する事前知識(大規模なトレーニングデータから学習されたもの)と、ビデオ固有の関節付き「ボーンの袋」変形(テスト時最適化を介して単一のビデオに適合)を注意深く組み合わせることです。これを実現するために、体と衣類の変形を別々のモーションモデルレイヤーとして分離するニューラル暗黙モデルを学習します。衣類の微妙なジオメトリを捉えるために、最適化中に人体のポーズ、表面法線、光流などの画像ベースの事前知識を活用します。得られたニューラルフィールドは、時間的整合性のあるメッシュに抽出することができ、また、高品質なインタラクティブレンダリングのためにさらに3Dガウス関数として最適化することもできます。高度に挑戦的な衣類変形や物体との相互作用があるデータセットにおいて、DressReconは、従来の手法よりも高い忠実度の3D再構築を実現します。プロジェクトページ:https://jefftan969.github.io/dressrecon/
四足歩行のための学習ベースの手法は強力なパフォーマンスを達成しています。しかし、いくつかの課題が四足動物が環境や人間との相互作用を必要とする有益な屋内スキルを学習するのを妨げています:操作のためのエンドエフェクターの不足、シミュレーションデータのみを使用した限られた意味理解、屋内環境における低い移動性と到達性。私たちは屋内環境での四足歩行モバイル操作のためのシステムを提案します。これには、物体操作のための前方取り付けグリッパー、アジャイルなスキル(登攀や全身傾斜など)のためにエゴセントリックデプスを使用してシミュレーションでトレーニングされた低レベルコントローラー、および第三者視点の魚眼カメラとエゴセントリックRGBカメラを使用した事前トレーニングされたビジョン言語モデル(VLMs)が含まれており、意味理解とコマンド生成に使用されます。我々は、実際のデータ収集やトレーニングを行わずに、2つの未知の環境でシステムを評価します。我々のシステムはこれらの環境にゼロショットで一般化し、ユーザーのコマンドに従ってクイーンサイズベッドを乗り越えてランダムに配置されたぬいぐるみを取ってくるなどのタスクを、60%の成功率で完了することができます。プロジェクトのウェブサイト:https://helpful-doggybot.github.io/
機械翻訳(MT)におけるジェンダーバイアスは、人々や社会に害を及ぼす可能性がある問題として認識されています。それにもかかわらず、この分野の進歩は、最終的なMT利用者である人々をほとんど関与させず、また、バイアスの技術が彼らにどのような影響を与えるかを通知することはほとんどありません。現在の評価は、しばしば自動的な方法に制限されており、これにより、ジェンダーの不均衡がもたらす下流への影響を不透明な見積もりで示しています。私たちは、MTにおけるバイアスが、女性と男性の間でサービスの質に関するギャップなどの具体的なコストを伴う害をもたらすかどうかを調査するために、包括的なヒューマンセンタードな研究を実施しています。この目的のために、90人の参加者から行動データを収集し、正しいジェンダーの翻訳を確認するためにMTの出力をポスト編集しました。複数のデータセット、言語、およびユーザータイプにわたり、当社の研究は、女性のポスト編集が著しく技術的および時間的な努力を要し、また、それに対応して費用が高くなることを示しています。ただし、既存のバイアス測定は、見つかった不均衡を反映していません。私たちの調査結果は、バイアスの社会的影響を通知できるヒューマンセンタードなアプローチを提唱しています。
ロボットが探索し学習する限りは制限はありませんが、その知識はすべて検索可能で実行可能である必要があります。言語研究において、検索増強生成(RAG)は大規模な非パラメトリック知識の中核となっていますが、既存の技術は具象領域への直接の移行が困難です。具象領域はマルチモーダルであり、データが高度に相関しており、知覚には抽象化が必要です。 これらの課題に対処するため、私たちは具象的RAGというフレームワークを導入します。これは、具象的エージェントの基本モデルを非パラメトリックメモリシステムで拡張し、ナビゲーションと言語生成のために階層的知識を自律的に構築できるものです。具象的RAGは、さまざまな環境やクエリタイプにわたる空間的および意味的解像度の完全な範囲を処理し、特定のオブジェクトや雰囲気の包括的な説明のために使用されます。具象的RAGの中核となるメモリは、言語の説明を異なる詳細レベルで保存する意味論的フォレストとして構造化されています。この階層的組織化により、システムは異なるロボットプラットフォームで効率的にコンテキストに敏感な出力を生成できます。具象的RAGが効果的にRAGをロボティクス領域に結びつけ、19の環境で200を超える説明とナビゲーションクエリを成功裏に処理することを実証し、具象的エージェント向けの汎用非パラメトリックシステムとしての可能性を示しています。