翻訳付きの日次キュレーションされたAI研究論文
コンピュータビジョンモデルで処理する前に画像を固定解像度にリサイズするという、広く普及しているが明らかに最適とは言えない選択肢は、これまで成功裏に挑戦されていない。しかし、Vision Transformer(ViT)のようなモデルは、柔軟なシーケンスベースのモデリングを提供し、それゆえに可変の入力シーケンス長を可能にする。我々はこれを利用して、NaViT(Native Resolution ViT)を開発した。NaViTは、訓練中にシーケンスパッキングを使用して、任意の解像度とアスペクト比の入力を処理する。柔軟なモデル使用に加えて、大規模な教師あり学習とコントラスティブな画像-テキスト事前学習における訓練効率の向上を実証する。NaViTは、画像および動画分類、物体検出、セマンティックセグメンテーションといった標準タスクに効率的に転移可能であり、ロバストネスと公平性のベンチマークで改善された結果をもたらす。推論時には、入力解像度の柔軟性を活用して、テスト時のコストとパフォーマンスのトレードオフをスムーズに調整できる。我々は、NaViTが、ほとんどのコンピュータビジョンモデルが採用しているCNN設計の入力およびモデリングパイプラインからの脱却を示し、ViTの有望な方向性を表していると信じる。
大規模言語モデル(LLM)における文脈圧縮のため、In-context Autoencoder(ICAE)を提案します。ICAEは2つのモジュールで構成されています。1つは、LLMからLoRAを用いて適応させた学習可能なエンコーダで、長い文脈を限られた数のメモリスロットに圧縮します。もう1つは、固定されたデコーダで、これはターゲットLLMであり、様々な目的でメモリスロットを条件付けできます。まず、ICAEを大規模なテキストデータに対してオートエンコーディングと言語モデリングの目的で事前学習し、元の文脈を正確かつ包括的に表現するメモリスロットを生成できるようにします。次に、少量の指示データで事前学習済みのICAEをファインチューニングし、様々なプロンプトとの相互作用を強化して望ましい応答を生成できるようにします。実験結果は、提案した事前学習とファインチューニングのパラダイムで学習したICAEが、4倍の文脈圧縮を実現するメモリスロットを効果的に生成し、ターゲットLLMが様々なプロンプトに応答するためにこれをうまく条件付けできることを示しています。これらの有望な結果は、ICAEが長文脈問題に対する新たなアプローチを提供し、LLM推論における計算量とメモリオーバーヘッドを削減する可能性を示しており、LLMの文脈管理に関するさらなる研究の必要性を示唆しています。コードとデータは近日中に公開予定です。
大規模言語モデル(LLM)は、自然言語の指示を理解し、推論し、生成する能力において顕著な性能を示します。しかし、LLMの開発は主に英語などの高リソース言語に焦点が当てられており、他の言語での適用性や研究が制限されています。そこで、我々は6400億トークンで訓練された多言語LLMであるPolyLMを提案します。PolyLMは1.7Bと13Bの2つのモデルサイズで提供されます。その多言語能力を強化するために、1) 訓練データに二言語データを統合し、2) 事前学習の初期段階では非英語データの割合を30%とし、最終段階では60%に増やすカリキュラム学習戦略を採用しました。さらに、モデルのファインチューニングのために132.7Kの多様な多言語指示を自動生成する多言語自己指示手法を提案します。モデルの性能を評価するために、多言語理解、質問応答、生成、翻訳を含む既存の多言語タスクを収集しました。大規模な実験により、PolyLMはLLaMAやBLOOMなどのオープンソースモデルを多言語タスクで上回り、英語での性能も同等に維持することが示されました。我々のモデル、指示データ、および多言語ベンチマークは、https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation で公開されています。
本論文では、大規模なビデオ中心のマルチモーダルデータセットであるInternVidを紹介する。このデータセットは、強力で転移可能なビデオ-テキスト表現を学習し、マルチモーダル理解と生成を可能にする。InternVidデータセットは、760K時間に及ぶ700万本以上のビデオを含み、234Mのビデオクリップと合計4.1B語の詳細な説明を提供する。我々の核心的な貢献は、大規模言語モデル(LLM)を用いて高品質なビデオ-テキストデータセットを自律的に構築するスケーラブルなアプローチを開発し、大規模なビデオ-言語表現学習の有効性を示すことである。具体的には、マルチスケールアプローチを活用してビデオ関連の説明を生成する。さらに、ViT-Lに基づくビデオ-テキスト表現学習モデルであるViCLIPを導入する。このモデルは、InternVidでコントラスティブ学習を行い、ゼロショット行動認識においてリーダーシップを発揮し、競争力のあるビデオ検索性能を示す。認識や検索といった基本的なビデオ理解タスクを超えて、我々のデータセットとモデルは幅広い応用が可能である。特に、ビデオ中心の対話システムを学習するためのインタリーブされたビデオ-テキストデータの生成、ビデオからテキストへの生成やテキストからビデオへの生成研究の進展に特に有益である。これらの提案リソースは、マルチモーダルビデオ理解と生成に興味を持つ研究者や実務家にとって有用なツールを提供する。
スケーリングの優位性と有効性により、数千億のパラメータを持つ大規模なネットワークが主流となっているにもかかわらず、過剰パラメータ化されたモデルを訓練する必要性については未だ十分に理解されておらず、代替的なアプローチが必ずしも高性能モデルの訓練コストを削減するわけではありません。本論文では、大規模ニューラルネットワークの訓練に対する代替アプローチとして、低ランク訓練技術を探求します。我々は、高ランクネットワークを訓練するために低ランク更新を利用する新たな手法「ReLoRA」を提案します。ReLoRAを最大3億5000万パラメータのTransformer言語モデルの事前学習に適用し、通常のニューラルネットワーク訓練と同等の性能を実現することを示します。さらに、ReLoRAの効率性はモデルサイズが大きくなるにつれて向上し、数十億パラメータのネットワークを効率的に訓練する有望なアプローチであることが観察されます。我々の知見は、低ランク訓練技術の可能性とスケーリング則への示唆に光を当てるものです。
大規模言語モデル(LLM)は、多様なタスクに対する汎用プランニングエージェントの開発において印象的な成果を示してきました。しかし、これらのプランを広大で複数階層・複数部屋からなる環境に適用することは、ロボティクスにおいて大きな課題となっています。本研究では、3Dシーングラフ(3DSG)表現を用いた、LLMベースの大規模タスクプランニング手法「SayPlan」を提案します。本手法のスケーラビリティを確保するため、以下の3つのアプローチを採用しています:(1) 3DSGの階層構造を活用し、LLMがフルグラフの縮小表現からタスク関連のサブグラフを意味的に検索できるようにする、(2) 古典的なパスプランナーを統合することでLLMのプランニング範囲を縮小する、(3) シーングラフシミュレータからのフィードバックを用いて初期プランを反復的に改善し、実行不可能なアクションを修正し、プランニングの失敗を回避する。本手法を、最大3階層、36部屋、140オブジェクトに及ぶ2つの大規模環境で評価し、モバイルマニピュレータロボットが実行するための抽象的かつ自然言語の指示から、大規模で長期的なタスクプランを適用可能であることを示します。
GPT-4のような大規模言語モデル(LLM)は、医療応用を含む幅広いタスクにおいて顕著な能力を発揮しています。本論文では、LLMを活用して生物医学的知識のキュレーションを拡張する方法について検討します。LLMはすでに生物医学テキストの構造化において一定の能力を有していますが、自己教師あり学習を通じてタスク特化型の学生モデルに蒸留することで、既存のLLMを大幅に上回る性能向上が可能であり、コスト、効率性、ホワイトボックスモデルへのアクセスといった追加の利点も得られることがわかりました。 有害事象(ADE)抽出をケーススタディとして実施しました。これは医療の質向上において重要な領域です。標準的なADE抽出評価において、GPT-3.5を蒸留したPubMedBERTモデルは、ラベル付きデータを一切使用せずに、教師ありの最先端モデルと同等の精度を達成しました。1000倍以上小規模であるにもかかわらず、蒸留モデルは教師モデルであるGPT-3.5をF1スコアで6ポイント以上、GPT-4を5ポイント以上上回りました。 蒸留モデルの選択(PubMedBERT対BioGPT)やADE抽出アーキテクチャに関するアブレーション研究は、生物医学的知識抽出のベストプラクティスを明らかにしました。同様の性能向上は、遺伝子-疾患関連や保護された健康情報といった他の標準的な生物医学的知識抽出タスクにおいても蒸留によって達成され、このアプローチの可能性がさらに示されました。
大規模言語モデルは通常、事前学習とファインチューニングの2段階の訓練を経ます。大規模な事前学習により、モデルは自然な言語応答を生成する強力な能力を獲得しますが、これらの事前学習済みモデルでも、時として人間の指示を理解できない場合があります。言語モデルの指示解釈と応答能力を向上させるため、指示ファインチューニングがこの分野で重要な手法として登場しました。最近の研究では、少量の高品質な指示追従データを用いても、大規模言語モデルをうまくファインチューニングできることが明らかになりました。しかし、言語モデルのファインチューニング用の高品質データセットの選択には、依然として明確なガイドラインが欠けています。本論文では、指示追従データの品質を評価する線形ルールであるInstructMiningを提案します。InstructMiningを特定の自然言語指標を用いて定式化します。データ品質とこれらの指標の関係を調査するため、広範なファインチューニング実験を実施します。実験結果は、InstructMiningのパラメータ推定に適用されます。さらにその性能を調査するため、InstructMiningを使用して未見のデータセットから高品質なデータを選択します。結果は、InstructMiningが様々な指示追従データセットから比較的高品質なサンプルを選択するのに役立つことを示しています。フィルタリングされていないデータセットでファインチューニングされたモデルと比較して、InstructMiningで選択されたデータセットでファインチューニングされたモデルは、42.5%のケースでより良い性能を発揮します。
GPTシリーズの成功は、GPTがシーケンスから一般的な情報を抽出し、それによってすべての下流タスクに利益をもたらすことができることを証明しています。これは、事前学習済みモデルを使用してDNAシーケンスに隠された情報を探求する動機となります。しかし、DNAシーケンス分析におけるデータとタスクの要件は複雑で多様であり、DNA関連データにはシーケンスや発現レベルなど、さまざまな種類の情報が含まれていますが、これらの特性に特化して設計されたモデルは現在存在しません。ここでは、9種の生物から100億以上の塩基対で事前学習された汎用基盤モデルであるDNAGPTを紹介します。このモデルは、任意のDNAシーケンス分析タスクにファインチューニングすることができます。私たちのモデルは、DNAシーケンスと数値を同時に処理または出力することができます。さらに、独自のトークン設計により、ユーザーは自身のタスク要件に応じてプロンプトを設計することができ、あらゆるタイプのタスクに適用可能です。分類、回帰、生成タスクにおいてモデルを評価しました。事前学習の恩恵を受けることで、DNAGPTは下流タスクに性能向上をもたらすことができることを実証しています。私たちのモデルは、ゲノム分析分野における新たな試みであるだけでなく、生物学における基盤モデルの応用に新たな方向性を提供するものです。
特定のドメイン内で言語モデル(LM)を展開する前に、そのドメインにおいて事実に反する情報を生成する傾向を測定することが重要です。既存の事実生成評価手法は、LM自体からサンプリングされた事実に焦点を当てているため、評価される事実のセットを制御できず、稀で起こりにくい事実を過小評価する可能性があります。本論文では、FACTOR: Factual Assessment via Corpus TransfORmationを提案します。これは、LMの事実性を評価するためのスケーラブルなアプローチです。FACTORは、関心のある事実コーパスを自動的に変換し、LMがそのコーパスから真の事実を生成する傾向と、類似しているが誤った文を生成する傾向を評価するベンチマークを作成します。本フレームワークを使用して、Wiki-FACTORとNews-FACTORという2つのベンチマークを作成しました。以下の結果を示します:(i) ベンチマークスコアはモデルサイズとともに増加し、LMが検索機能を追加すると改善される、(ii) ベンチマークスコアはパープレキシティと相関するが、2つの指標がモデルの順位付けにおいて常に一致するわけではない、(iii) パープレキシティとベンチマークスコアが一致しない場合、後者は人間のアノテーターによる評価において、オープンエンド生成における事実性をよりよく反映する。データとコードはhttps://github.com/AI21Labs/factorで公開しています。
近年のテキストから画像を生成するモデルは、高品質な画像を生成する驚異的な能力を持っているにもかかわらず、異なる属性や関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成することに苦戦していることが多い。本論文では、オープンワールドの合成的テキストから画像生成のための包括的なベンチマークであるT2I-CompBenchを提案する。これは、3つのカテゴリ(属性の結合、オブジェクトの関係、複雑な構成)と6つのサブカテゴリ(色の結合、形状の結合、テクスチャの結合、空間的関係、非空間的関係、複雑な構成)からなる6,000の合成的テキストプロンプトで構成されている。さらに、合成的テキストから画像生成を評価するために特別に設計されたいくつかの評価指標を提案する。また、事前学習済みのテキストから画像生成モデルの合成的テキストから画像生成能力を向上させるために、報酬駆動型サンプル選択による生成モデルのファインチューニング(GORS)という新しいアプローチを導入する。T2I-CompBench上で従来の手法をベンチマークし、提案した評価指標とGORSアプローチの有効性を検証するために、広範な実験と評価を行った。プロジェクトページはhttps://karine-h.github.io/T2I-CompBench/で公開されている。
画像のテキスト的および意味的理解は、適切なキャプションを生成するために不可欠である。この理解には、物体の検出、それらの間の関係のモデリング、シーンの意味論的評価、そして最終的に抽出された知識を言語空間で表現することが必要となる。豊かな言語能力を確保しつつ良好な画像-言語マッピングを実現するために、事前学習済み言語モデル(LM)は、画像入力を可能にする事前学習済みマルチモーダル(画像-テキスト)モデルに条件付けられた。これには、マルチモーダルモデルの画像表現と生成型LMの言語表現のアラインメントが必要である。しかし、マルチモーダルモデルの視覚エンコーダによって検出された意味をLMに最適に転送する方法は明確ではない。我々は、2つの事前学習済みモデルの埋め込み空間間で意味を成功裏に転送する線形マッピングを構築する2つの新しい方法を紹介する。1つ目は、マルチモーダル言語エンコーダの埋め込み空間を事前学習済みLMの埋め込み空間とトークン対応関係によってアラインメントする方法である。後者は、画像-テキストペアで構成される追加データを活用して、視覚から言語空間へのマッピングを直接構築する。我々の意味マッピングを使用することで、勾配情報にアクセスすることなくLMの画像キャプション生成を可能にする。異なるデータソースを使用することで、MS-COCOおよびFlickr30kデータセットで強力なキャプション生成性能を達成する。限られたデータに直面しても、我々の方法は他のゼロショットおよびファインチューニングされた競合モデルの性能を部分的に上回る。我々のアブレーション研究は、わずか250Mパラメータの規模のLMでも、我々の意味マッピングを使用して良好なキャプションを生成できることを示している。我々のアプローチは、計算リソースが制限された機関にとって画像キャプション生成をよりアクセスしやすくする。
言語モデルの応用領域が進化し続ける中で、自然と生じる疑問は、新しいタスクにモデルを迅速に適応させる方法です。私たちはこの古典的な問いに、継続学習の観点からアプローチします。ここでは、過去のタスクで訓練されたモデルを新しいタスクに微調整し続け、関連する知識を「転移」することを目指します。しかし、この戦略は逆効果をもたらすリスク、すなわち負の転移を引き起こす可能性もあります。本論文では、異なる転移シナリオを想定したタスクシーケンスの新しいベンチマークを構築します。例えば、正の転移の可能性が高いシーケンス、負の転移の可能性が高いシーケンス、効果が期待されないシーケンス、またはそれらの混合などです。理想的な学習者は、正の転移の可能性があるすべてのタスクから最大限に情報を活用しつつ、混乱を招くような注意散漫なタスクの悪影響を回避できるべきです。そこで私たちは、過去のタスクのチェックポイントから新しいモデルを選択的に初期化するというシンプルでありながら効果的な学習者を提案します。それでも限界は残っており、このベンチマークがコミュニティにとって、そのような学習者をさらに構築し分析するための一助となることを期待しています。
大規模言語モデル(LLM)は、ロボット操作のための推論と計画として抽出可能な実用的な知識を豊富に持つことが示されています。進展があるにもかかわらず、ほとんどの手法は環境との物理的相互作用を実行するために事前定義されたモーションプリミティブに依存しており、これが主要なボトルネックとなっています。本研究では、オープンセットの指示とオープンセットの物体が与えられた場合に、多様な操作タスクのためのロボット軌道、すなわち6自由度エンドエフェクタのウェイポイントの密なシーケンスを合成することを目指します。これを実現するために、まずLLMが自由形式の言語指示に基づいてアフォーダンスと制約を推論する能力に優れていることを観察しました。さらに重要なことに、LLMのコード記述能力を活用することで、視覚言語モデル(VLM)と相互作用して3D価値マップを構成し、エージェントの観測空間に知識を接地することができます。構成された価値マップは、モデルベースの計画フレームワークで使用され、動的な摂動に対するロバスト性を持った閉ループロボット軌道をゼロショットで合成します。さらに、提案されたフレームワークが、接触の多い相互作用を含むシーンのダイナミクスモデルを効率的に学習することで、オンライン経験からどのように利益を得られるかを示します。シミュレーション環境と実ロボット環境の両方で提案手法の大規模な研究を行い、自由形式の自然言語で指定された多様な日常的な操作タスクを実行する能力を実証します。プロジェクトウェブサイト: https://voxposer.github.io
ハンドインカメラは、視覚に基づくロボット操作において、サンプル効率と汎化性能の向上に有望な成果を示しています。しかし、ロボットによる模倣学習において、人間のテレオペレータが実機を用いて大量の専門家によるデモンストレーションを収集するのは依然としてコストがかかります。一方で、人間がタスクを実行する動画は、ロボットのテレオペレーションに関する専門知識を必要とせず、さまざまなシナリオで迅速に収集できるため、はるかに低コストです。したがって、人間の動画デモンストレーションは、スケーラブルな汎用ロボット操作ポリシーを学習するための有望なデータソースです。本研究では、限定的なロボット模倣データセットを、広範なラベルなし人間動画デモンストレーションで拡張し、ハンドインカメラを用いた視覚運動ポリシーの汎化性能を大幅に向上させます。人間とロボットのデータ間には明確な視覚領域のギャップが存在しますが、本フレームワークでは、ハンドインカメラの部分的な観測可能性とシンプルな固定画像マスキング手法を活用するため、明示的なドメイン適応手法を必要としません。3自由度および6自由度のロボットアーム制御を含む8つの実世界タスクにおいて、本手法はハンドインカメラ操作ポリシーの成功率を平均58%(絶対値)向上させ、ロボットが新しい環境設定やロボットデモンストレーションデータに含まれない新しいタスクに汎化することを可能にします。動画結果はhttps://giving-robots-a-hand.github.io/ でご覧いただけます。