翻訳付きの日次キュレーションされたAI研究論文
InternVL 2.5は、InternVL 2.0を基盤としつつ、トレーニングとテスト戦略、データ品質において大幅な改良を加えた先進的なマルチモーダル大規模言語モデル(MLLM)シリーズを紹介します。本研究では、モデルのスケーリングとパフォーマンスの関係に焦点を当て、ビジョンエンコーダ、言語モデル、データセットサイズ、およびテスト時の構成におけるパフォーマンスの傾向を系統的に探究します。多様なベンチマークを対象とした包括的な評価により、多分野推論、文書理解、マルチ画像/ビデオ理解、現実世界の理解、マルチモーダル幻覚検出、ビジュアルグラウンディング、多言語能力、純粋な言語処理などの分野で、InternVL 2.5は競争力のあるパフォーマンスを発揮し、GPT-4oやClaude-3.5-Sonnetなどの主要商用モデルに匹敵します。特筆すべきは、当モデルがMMMUベンチマークで70%を超える初のオープンソースMLLMであり、Chain-of-Thought(CoT)推論による3.7ポイントの改善を達成し、テスト時のスケーリングに強い潜在能力を示しています。このモデルが、マルチモーダルAIシステムの開発と適用に新たな基準を設定することでオープンソースコミュニティに貢献することを期待しています。HuggingFaceデモはこちらをご覧ください:https://huggingface.co/spaces/OpenGVLab/InternVL
この技術レポートは、LG AI Researchによって開発・リリースされたEXAONE 3.5命令チューニング言語モデルを紹介しています。EXAONE 3.5言語モデルは、32B、7.8B、2.4Bの3つの構成で提供されています。これらのモデルには、以下の特筆すべき機能が備わっています: 1) 実世界のシナリオでの優れた命令に従う能力を持ち、7つのベンチマーク全体で最高のスコアを達成しています。2) 傑出した長文脈の理解力を持ち、4つのベンチマークで最高のパフォーマンスを達成しています。3) 類似サイズの最先端オープンモデルと比較して、9つの一般ベンチマーク全体で競争力のある結果を示しています。EXAONE 3.5言語モデルは、研究目的で誰でも利用でき、https://huggingface.co/LGAI-EXAONE からダウンロードできます。商用利用については、LG AI Researchの公式連絡先([email protected])までお問い合わせください。
最近のテキストからビデオ(T2V)生成モデルの進歩は、印象的な能力を示しています。しかし、これらのモデルは、合成されたビデオを人間の好みに適合させる点でまだ不十分であり(例:テキストの記述を正確に反映する)、これは特に難しい課題であり、人間の好みは本質的に主観的であり、客観的な関数として形式化することが困難です。したがって、本論文では、T2Vモデルの整合性を向上させるために人間のフィードバックを活用する新しい微調整手法であるLiFTを提案しています。具体的には、まず、約10,000の人間の注釈を含むLiFT-HRAという人間評価注釈データセットを構築します。これに基づいて、報酬モデルLiFT-Criticをトレーニングして報酬関数を効果的に学習し、これは人間の判断の代理として機能し、与えられたビデオと人間の期待との整合性を測定します。最後に、学習された報酬関数を活用して、報酬重み付き尤度を最大化することでT2Vモデルを整合させます。ケーススタディとして、CogVideoX-2Bに当社のパイプラインを適用し、微調整されたモデルが16のすべてのメトリクスでCogVideoX-5Bを上回ることを示し、合成されたビデオの整合性と品質を向上させるために人間のフィードバックの潜在能力を強調しています。
オープンソースのマルチモーダル大規模言語モデル(MLLMs)は、さまざまなマルチモーダルタスクで著しい潜在能力を示しています。しかし、既存の指示チューニングデータセットによってその推論能力が制約されており、これらのデータセットは主にVQA、AI2D、ChartQAなどの学術データセットから再利用されています。これらのデータセットは単純なタスクを対象としており、中間の合理的根拠を提供せず、フレーズレベルの回答のみを提供しています。これらの課題に対処するために、CoT推論を誘発するために設計された豊富な中間根拠を持つ大規模なマルチモーダル指示チューニングデータセットを構築するためのスケーラブルで費用対効果の高い方法を紹介します。オープンモデルのみを使用して、多様な推論集中タスクをカバーするために、詳細で忠実な根拠を持つ12Mの指示-応答ペアを含むデータセットを作成します。実験では、このデータセットでMLLMsをトレーニングすることで推論能力が著しく向上し、MathVerse(+8.1%)、MMMU-Pro(+7%)、MuirBench(+13.3%)などのベンチマークで最先端のパフォーマンスが達成されることが示されます。さらに、モデルは非推論ベースのベンチマークで最大4%の改善を示します。削除研究は、データセット構築プロセスにおける書き換えや自己フィルタリングなどの重要な要素の重要性をさらに強調しています。
テキストによる画像編集の最近の進歩により、ユーザーは単純なテキスト入力を通じて画像編集を行うことができるようになりました。これは、多段階の拡散ベースのテキストから画像へのモデルの事前知識を活用しています。しかし、これらの方法は、実世界やデバイス上のアプリケーションで必要とされる高速な処理速度には対応できず、多段階の反転やサンプリングプロセスが原因です。この課題に対処するために、我々はSwiftEditを導入しました。これは、瞬時のテキストによる画像編集(0.23秒で完了)を実現するシンプルで非常に効率的な編集ツールです。SwiftEditの進歩の要点は、1ステップ反転フレームワークと、提案された注意の再スケーリングメカニズムを使用したマスクによる編集技術にあります。これにより、局所的な画像編集が可能となります。SwiftEditの有効性と効率性を示すために、幅広い実験が提供されています。特に、SwiftEditは、従来の多段階手法よりも極めて高速な瞬時のテキストによる画像編集を可能にしました(少なくとも50倍高速)、編集結果において競争力のあるパフォーマンスを維持しています。プロジェクトページはこちら:https://swift-edit.github.io/
大規模言語モデル(LLM)は、特に一般的なAdamWオプティマイザを使用する際に、トレーニング中にメモリを大量に消費することで知られています。このメモリ負担は、より多くまたは高性能なGPUを使用するか、バッチサイズを減らす必要があり、トレーニングのスケーラビリティとスループットが制限されます。この課題に対処するために、さまざまなメモリ効率の良いオプティマイザが提案されてきましたが、それらは重要な課題に直面しています:(i)高コストなSVD演算への依存、(ii)AdamWと比較して大きなパフォーマンスのトレードオフ、および(iii)競争力のあるパフォーマンスを維持するために依然として大幅なオプティマイザメモリのオーバーヘッドが発生します。 この研究では、AdamWの学習率適応ルールを構造化された学習率更新として効果的に粗視化できることを特定しました。この洞察に基づき、純粋なランダム射影に基づく補助的な低ランクオプティマイザ状態を使用して学習率スケーリングを近似する、メモリ効率の良いLLM最適化のための近似勾配スケーリング(APOLLO)を提案します。この構造化された学習率更新ルールにより、APOLLOはさらなるメモリ削減に対して非常に耐性があり、同等の事前トレーニングパフォーマンスを提供します。そのランク1バリアントであるAPOLLO-Miniですら、SGDレベルのメモリコストと比較してAdamWよりも優れた事前トレーニングパフォーマンスを達成します。 幅広い実験により、APOLLOシリーズがAdamWと同等またはそれ以上のパフォーマンスを達成し、AdamWの最適化状態をほぼ完全に排除することで大幅なメモリの節約を実現していることが示されました。これらの節約は、重要なシステムレベルの利点を提供します:(1)強化されたスループット:8xA100-80GBセットアップでAdamWと比較して3倍のスループットを実現し、4倍大きなバッチサイズをサポートします。 (2)モデルのスケーラビリティの向上:システムレベルの最適化を行わずにA100-80GB GPU上でnaive DDPを使用してLLaMA-13Bを事前トレーニングします。 (3)低性能GPUにやさしい事前トレーニング:重みの量子化を使用して、単一のGPU上で12GB未満のメモリを使用してLLaMA-7Bを事前トレーニングします。
最近の大規模言語モデルの発展は、幅広いコーパスで事前学習されたものが、微調整を最小限に抑えながら、さまざまな自然言語処理タスクで著しい成功を収めています。この成功は、長らく高コストのアクションラベル付きデータに制約されてきたロボティクスに新たな可能性をもたらします。我々は問います:相互作用に関連する知識を豊富に含むビデオデータが豊富な「コーパス」として利用可能である場合、同様の生成事前学習アプローチをロボット学習の向上に効果的に適用できるでしょうか?主要な課題は、ロボット操作タスクに利益をもたらす自己回帰事前学習のための効果的な表現を特定することです。動的環境を観察することで新しいスキルを習得する人間の方法に着想を得て、効果的なロボット学習は、低レベルのアクションに密接に関連し、ハードウェアに依存しない動きに重点を置くべきであり、学習した動きを実際のロボットアクションに転送することを容易にします。このために、ビデオコンテンツを潜在的なモーショントークンシーケンスに変換するMotoを導入し、潜在的なモーショントークナイザーによって、ビデオから運動の「言語」を非監督学習で学習します。我々は、モーショントークンの自己回帰を通じてMoto-GPTを事前学習し、多様な視覚的な動きの知識を捉えることができるようにします。事前学習後、Moto-GPTは意味解釈可能なモーショントークンを生成し、妥当な動きの軌跡を予測し、出力の尤度を通じて軌跡の合理性を評価する有望な能力を示します。学習した動きの事前知識を実際のロボットアクションに転送するために、潜在的なモーショントークン予測と実際のロボット制御をシームレスに結ぶ共同微調整戦略を実装します。幅広い実験により、微調整されたMoto-GPTは、ロボット操作のベンチマークで優れた堅牢性と効率性を示し、ビデオデータから下流の視覚操作タスクに知識を転送する効果を強調しています。
テキストからビデオを生成するモデルは、近年、著しい進歩を示しています。しかし、複数のオブジェクトに対する属性の結合や、異なるオブジェクトに関連する時間的ダイナミクス、オブジェクト間の相互作用など、構成的なテキストプロンプトに基づいた複雑なダイナミックシーンの生成には依然として苦労しています。私たちの主な動機は、複雑なタスクをより単純なタスクに分解し、それぞれを役割に特化したMLLMエージェントが処理することができるという点にあります。複数のエージェントが協力して複雑な目標のための集合知を達成することができます。私たちは、構成的なテキストからビデオを生成するための反復的なマルチエージェントフレームワークであるGenMACを提案します。協力的なワークフローには、設計、生成、再設計の3つの段階が含まれており、生成と再設計の段階の間で反復的なループが行われ、生成されたビデオを段階的に検証および改善します。再設計段階は、生成されたビデオを検証し、修正を提案し、次の生成のためのテキストプロンプト、フレームワイズのレイアウト、およびガイダンススケールを再設計することを目指す最も難しい段階です。単一のMLLMエージェントの幻想を避けるために、この段階を、順次実行される4つのMLLMベースのエージェントに分解します:検証エージェント、提案エージェント、修正エージェント、および出力構造化エージェント。さらに、構成的なテキストからビデオを生成するさまざまなシナリオに対処するために、適応的に適切な修正エージェントを選択するための自己経路メカニズムを設計します。幅広い実験により、GenMACの効果を実証し、構成的なテキストからビデオを生成する際の最先端のパフォーマンスを達成しています。
Multimodal Large Language Models (MLLMs)は、合成画像をどれだけ理解できるか?合成画像(CIs)は、複数の視覚要素(チャート、ポスター、スクリーンショットなど)を組み合わせて作成された合成ビジュアルであり、直接カメラで撮影されたものではありません。CIsは実世界のアプリケーションで一般的ですが、最近のMLLMの開発は主に自然画像(NIs)の解釈に焦点を当ててきました。私たちの研究によれば、現在のMLLMはCIsを正確に理解する上で重要な課題に直面しており、これらの画像から情報を抽出したり複雑な推論を行ったりすることが難しいことがよくあります。CIsの既存のトレーニングデータは、主に質問回答タスク向けにフォーマットされており(例:ChartQAやScienceQAなどのデータセット)、頑健なビジョン言語アライメントのために重要な高品質の画像キャプションデータセットは、NIsにのみ利用可能です。このギャップを埋めるために、私たちはComposite Captions(CompCap)を導入します。これは、Large Language Models(LLMs)と自動化ツールを活用して、正確で詳細なキャプションを持つCIsを合成する柔軟なフレームワークです。CompCapを使用して、6つのCIタイプを含む118Kの画像キャプションペアを収録したデータセットCompCap-118Kを編纂します。CompCap-118Kの効果を検証するために、3つのサイズのMLLM(xGen-MM-inst.-4B、LLaVA-NeXT-Vicuna-7B/13B)を教師ありファインチューニングします。経験的結果は、CompCap-118KがCIsの理解を大幅に向上させ、それぞれ11のベンチマークで平均的な利得が1.7%、2.0%、および2.9%向上することを示しています。
3D Gaussian Splattingは大規模なシーン再構築において注目すべき成功を示していますが、高いトレーニングメモリ消費とストレージオーバーヘッドという課題が依然として存在しています。暗黙的および明示的な特徴を統合するハイブリッド表現は、これらの制約を緩和する方法を提供します。ただし、ブロック単位の並列トレーニングで適用する際には、各ブロックを独立してトレーニングすることでデータの多様性が低下し、並列トレーニングにより分割ブロック数が利用可能なGPU数に制限されるという2つの重要な問題が発生します。これらの問題に対処するために、本研究ではMomentum-GSという新しい手法を提案します。この手法は、運動量ベースの自己蒸留を活用して、各ブロック間での一貫性と精度を促進し、ブロック数を物理的なGPU数から切り離します。本手法では、トレーニング中に運動量で更新される教師ガウスデコーダを維持し、安定した参照を確保します。この教師は、各ブロックに対してグローバルなガイダンスを提供し、再構築における空間的一貫性を促進します。さらに、ブロック間の一貫性を確保するために、再構築精度に応じて各ブロックの重みを動的に調整するブロック重み付けを組み込んでいます。大規模なシーンでの包括的な実験では、本手法が既存の技術を一貫して上回り、CityGaussianよりも少ない分割ブロックでLPIPSで12.8%の改善を達成し、新たな最先端を確立しています。プロジェクトページ:https://jixuan-fan.github.io/Momentum-GS_Page/
マルチモーダルAIは、領収書の処理、ワークフローの理解、文書からのデータ抽出、レポートの要約など、文書理解タスクを大幅に向上させる潜在能力を持っています。長い構造化された出力が必要なコード生成タスクも、マルチモーダリティによって向上させることができます。しかし、商業アプリケーションでの利用は、トレーニングデータへの限られたアクセスや制限的なライセンスによってしばしば制限されており、オープンアクセスが妨げられています。これらの制限に対処するために、私たちはBigDocs-7.5Mを導入します。これは、30のタスクにわたる750万のマルチモーダル文書からなる高品質でオープンアクセスのデータセットです。私たちは効率的なデータキュレーションプロセスを使用して、データが高品質でライセンス許可されていることを確認しています。私たちのプロセスは、フィルタリングルール、追跡可能なメタデータ、慎重なコンテンツ分析を通じて、説明責任、責任、透明性を重視しています。さらに、GUI上での推論や画像からのコード生成を含む実世界のユースケースを反映するデータセットを作成する10の新しいタスクを備えたベンチマークスイートであるBigDocs-Benchを導入しています。私たちの実験は、BigDocs-Benchでのトレーニングが、文書推論やScreenshot2HTML、Image2Latex生成などの構造化された出力タスクにおいて、クローズドソースのGPT-4oよりも平均パフォーマンスを最大25.8%向上させることを示しています。最後に、ヒューマン評価では、BigDocsでトレーニングされたモデルの出力がGPT-4oよりも好まれる傾向が示されました。これは、BigDocsが学術界やオープンソースコミュニティの両方がマルチモーダル機能と文書推論を向上させるためにAIツールを活用し改善するのに役立つ可能性があることを示唆しています。このプロジェクトは、https://bigdocs.github.io でホストされています。
現実世界のビデオは、イベントの連続から成り立っています。既存のビデオ生成器では、単一のテキスト段落を入力とするため、正確な時間制御を持つこれらのシーケンスを生成することは不可能です。単一のプロンプトを使用して複数のイベントを生成するように指示された場合、これらの方法はしばしばイベントの一部を無視したり、正しい順序で配置できなかったりします。この制限に対処するために、時間制御を持つマルチイベントビデオ生成器であるMinTを提案します。私たちの主要な洞察は、生成されたビデオ内の各イベントを特定の期間にバインドすることであり、これによりモデルは一度に1つのイベントに焦点を当てることができます。イベントのキャプションとビデオトークンの間で時間に敏感な相互作用を可能にするために、ReRoPEと名付けられた時間ベースの位置エンコーディング手法を設計します。このエンコーディングは、クロスアテンション操作をガイドするのに役立ちます。事前にトレーニングされたビデオディフュージョントランスフォーマーを時間的に基盤となるデータで微調整することで、私たちの手法は滑らかに接続されたイベントを持つ一貫したビデオを生成します。文献では初めて、私たちのモデルは生成されたビデオ内のイベントのタイミングを制御する機能を提供します。広範な実験により、MinTが既存のオープンソースモデルを大幅に上回ることが示されています。
本論文では、PanoDreamerという新しい手法を提案し、単一の入力画像から連続した360度の3Dシーンを生成する方法を紹介します。既存の手法がシーンを順次生成するのに対し、私たちは問題を単一画像のパノラマと深度推定として構築します。一貫したパノラマ画像とそれに対応する深度が得られると、シーンは小さな遮蔽領域を修復し、それらを3D空間に投影することで再構築されます。私たちの主要な貢献は、単一画像のパノラマと深度推定を2つの最適化タスクとして定式化し、交互最小化戦略を導入してそれらの目標を効果的に解決することです。私たちのアプローチが一貫性と全体的な品質の観点で既存の手法を上回ることを示します。
屋内シーンの再構築は、空間構造の固有の複雑さと無地の領域の普及により、依然として困難を伴います。 最近の3Dガウススプラッティングの進歩により、新しい視点合成が高速化されましたが、表面再構築においてはまだ同等の性能を提供していません。 本論文では、高忠実度の屋内シーン再構築のために2Dガウススプラッティングを活用した新しい手法、2DGS-Roomを紹介します。 具体的には、2Dガウスの分布を制御するためにシード誘導メカニズムを採用し、シードポイントの密度を適応的な成長と剪定メカニズムを通じて動的に最適化します。 さらに、幾何学的精度を向上させるために、モノクル深度と法線事前情報を組み込み、それぞれ詳細と無地の領域に対する制約を提供します。 さらに、マルチビューの一貫性制約を用いて、アーティファクトを緩和し、再構築品質をさらに向上させます。 ScanNetおよびScanNet++データセットでの詳細な実験により、当社の手法が屋内シーン再構築において最先端の性能を達成していることが示されました。
大規模言語モデル(LLMs)は、対話を中心とした人間と機械とのやり取りを可能にし、膨大な会話ログの蓄積と対話生成への需要の増加をもたらしています。対話のライフサイクルは、プレリュードから対話、そしてエピローグまでを網羅し、さまざまな要素が含まれています。多くの対話に関する研究が存在するにもかかわらず、包括的な対話要素を含むベンチマークが不足しており、正確なモデリングと体系的な評価が妨げられています。このギャップを埋めるために、革新的な研究課題である「対話要素モデリング」を導入し、要素認識と対話エージェントの相互作用を含み、包括的な対話モデリングと評価のために設計された新しいベンチマークであるDEMOを提案します。模倣学習に触発され、DEMOベンチマークに基づいて対話要素をモデリングする能力を持つエージェントを構築します。幅広い実験により、既存のLLMsにはまだ大幅な向上の余地があることが示され、当社のDEMOエージェントは、ドメイン内外の両方のタスクで優れたパフォーマンスを発揮しています。
報酬は、強化学習のタスクを指定するための解釈できない方法として残ります。人間はしばしば任意の報酬関数の最適な振る舞いを予測できないため、報酬の設計が不十分であり、報酬のハッキングが発生します。言語は、意図をエージェントに伝え、報酬設計をバイパスする魅力的な手段を提供しますが、これまでの取り組みはコストがかかりスケーラブルでないラベリング作業によって制約されてきました。本研究では、完全に教師なしの方法を提案し、言語指示をゼロショットでポリシーを取得するために基盤となる手法を示します。エージェントは、タスクの言語説明に対応する観測系列を想像し、想像された系列を対象ドメインに射影し、ポリシーに基盤を置くという形を取る解決策を提示します。ビデオ言語モデルにより、インターネット規模のビデオテキストマッピングから学習したタスクの知識を活用したタスク説明を想像することが可能となります。課題は、これらの生成物をポリシーに基盤を置くことです。本研究では、教師なしの強化学習エージェントの実際の観測に想像された系列を最初に基盤を置き、RLエージェントが基盤となった観測を模倣するための閉形式解を使用することで、ゼロショットの言語から振る舞いポリシーを達成できることを示します。私たちの知る限り、当社の手法RLZeroは、シミュレートされたドメインのさまざまなタスクで、何らの監督もなしにゼロショットの言語から振る舞いを生成する能力を示す最初のものです。さらに、RLZeroがYouTubeなどからスクレイピングされたクロスエンボディードビデオからもゼロショットでポリシーを生成できることを示します。