翻訳付きの日次キュレーションされたAI研究論文
大規模なビジョン言語モデル(LVLM)では、画像は情報を豊富に持つ入力として機能します。ことわざ「一枚の絵は千語に値する」が示すように、現在のLVLMでは1枚の画像を表現するのに数百から数千のトークンが必要となることがあります。これにより、入力画像の解像度が高くなるにつれて計算コストが二乗的に増加し、それによってトレーニングと推論の効率に深刻な影響を与えます。これまでのアプローチでは、LVLMの初期レイヤーの前または内部で画像トークンの数を減らすことを試みてきました。しかし、これらの戦略は避けられなく重要な画像情報の損失をもたらし、結果としてモデルの性能を低下させます。この課題に対処するため、浅いレイヤーにおいてLVLMにとってすべての視覚トークンが必要であり、モデルの深いレイヤーにおいてトークンの冗長性が徐々に増加することを示す経験的研究を行います。このため、我々はLVLMの効率を向上させるための視覚冗長性削減戦略であるPyramidDropを提案します。具体的には、LVLMを複数の段階に分割し、各段階の最後で事前に定義された比率で一部の画像トークンを削除し、モデルの各層にわたってピラミッド状の視覚トークンを作成します。削除は、無視できる時間オーバーヘッドを持つ軽量な類似性計算に基づいて行われます。幅広い実験により、PyramidDropは、同等の性能を維持しつつ、LLaVA-NeXTのトレーニング時間を40%、推論FLOPsを55%加速できることが示されました。さらに、PyramidDropは、トレーニングなしで推論を加速するプラグアンドプレイ戦略としても機能し、競合する手法よりも優れた性能と低い推論コストを提供します。PyramidDropによって導入された洞察とアプローチが、将来の研究がLVLMにおける画像トークンの役割をさらに探求するためのインスピレーションとなることを期待しています。
私たちは、3Dガウススプラッティング(3DGS)を物理ベースのレンダリング(PBR)および変形フィールドと組み合わせた新しい手法であるSpectroMotionを提案します。従来の3DGSを拡張して動的シーンをモデル化する方法は、光沢のある表面を正確に表現するのに苦労してきました。当手法は、変形中に正確な表面法線の計算を行うための残差補正技術を導入し、時間変動する照明条件に適応する変形可能な環境マップを補完することで、この制限に対処しています。私たちは、シーンのジオメトリと光沢の色の予測の両方を大幅に向上させるコースからファインなトレーニング戦略を実装しています。私たちのモデルが、動的な光沢オブジェクトを含むシーンのビュー合成において従来の手法を上回ること、および実世界の動的な光沢シーンを合成する唯一の既存の3DGS手法であり、複雑で動的で光沢のあるシーンのレンダリングにおいて最先端の手法を上回ることを示します。
ビジョン言語モデル(VLMs)におけるChain-of-thought(CoT)推論は、解釈可能性と信頼性の向上に不可欠です。しかしながら、現在のトレーニング手法は、短い注釈が支配し、最小限の合理性しか持たないデータセットに依存しており、堅牢なCoT推論データが不足しています。本研究では、短い回答を使ってVLMをトレーニングすることが、より詳細な回答が必要な推論タスクに一般化されないことを示します。この課題に対処するため、二つのアプローチを提案します。まず、GPT-4oモデルから合理性を抽出してトレーニングデータを豊かにし、VLMのCoT性能を向上させる微調整を行います。次に、推論品質をさらに調整するために強化学習を適用します。具体的には、モデル生成の推論チェーンの予測と注釈付きの短い回答を比較し、正解と不正解のモデル生成ペアを構築します。このペアワイズデータを使用して、Direct Preference Optimizationアルゴリズムを適用してモデルの推論能力を改善します。実験では、ベンチマークデータセットにおけるCoT推論の著しい改善と、直接回答予測へのより良い一般化が示されました。この研究は、トレーニングに詳細な合理性を取り入れ、強化学習を活用してVLMの推論能力を強化する重要性を強調しています。
自動整列は、最小限の人間の介入で整列システムを開発します。自動整列の鍵は、人間の注釈なしで学習可能で正確な選好学習のための選好信号を提供することにあります。本論文では、Self-Steering Optimization(SSO)というアルゴリズムを紹介し、反復的なトレーニング中に事前に定義された原則に基づいて高品質な選好信号を自律的に生成し、手動注釈の必要性を排除します。SSOは、選択された応答と拒否された応答の間の一貫したギャップを確保することで信号の精度を維持し、両方を現在の方針モデルの学習能力に適した方針に保ちます。SSOは、方針モデルのオンラインおよびオフラインのトレーニング、および報酬モデルのトレーニングを向上させることができます。我々は、Qwen2およびLlama3.1という2つの基礎モデルを用いてSSOの効果を検証し、反復的なトレーニング全体で正確で方針に従った選好信号を提供することを示しています。手動注釈や外部モデルなしで、SSOは6つの主観的または客観的なベンチマーク全体で著しい性能向上をもたらします。さらに、SSOによって生成された選好データは、Rewardbench上で報酬モデルの性能を著しく向上させました。私たちの研究は、より効率的かつ効果的な自動整列のためのスケーラブルな選好最適化手法を提示し、その道筋を開いています。
xGen-MM-Vid(BLIP-3-Video)を紹介します:このビデオ向けのマルチモーダル言語モデルは、特に複数のフレームにわたる時間情報を効率的に捉えるよう設計されています。BLIP-3-Videoは、従来のビジュアルトークナイザーに加えて「時間エンコーダー」を活用し、複数フレーム上のトークンのシーケンスをコンパクトなビジュアルトークンのセットにマッピングします。これにより、BLIP3-Videoは、競合するモデル(例:32対4608トークン)よりもはるかに少ないビジュアルトークンを使用できます。我々は、学習可能な時空間プーリングやToken Turing Machinesなどのシーケンシャルモデルを含むさまざまなタイプの時間エンコーダーを探求します。実験的に、BLIP-3-Videoが、はるかに大きな最先端モデル(例:34B)と比較してビデオに関する質問応答の精度を達成し、より少ないビジュアルトークンを使用することではるかに小さく(すなわち4B)かつ効率的であることを確認します。プロジェクトのウェブサイトは以下にあります:https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
最近の大規模ビジョン言語モデル(LVLMs)は、多様なクエリを与えられた際に顕著なゼロショットの会話および推論能力を示しています。しかしながら、LVLMsはオブジェクトの幻覚と呼ばれる現象に苦しんでおり、これはLVLMsが画像入力と事実に合致しないテキスト応答を生成しやすいというものです。私たちのパイロット研究では、オブジェクトの幻覚が、既存のLVLMsで広く採用されている位置依存モデリングデザインであるRotary Position Encoding(RoPE)と密接に関連していることが明らかになりました。RoPEにおける長期的な減衰のため、LVLMsは、マルチモーダル入力シーケンス内の指示トークンから関連する視覚的手がかりが遠くにある場合に、より幻覚を起こしやすくなります。さらに、マルチモーダルアライメント中に視覚トークンのシーケンシャル順序を逆転させた場合にも同様の効果を観察します。私たちのテストは、RoPEにおける長期的な減衰が、LVLMsが長距離を超えた視覚と指示の相互作用を捉える際に課題を提起することを示しています。私たちは、Concentric Causal Attention(CCA)を提案し、RoPEの長期的な減衰の影響を軽減するためのシンプルで効果的な位置合わせ戦略であり、これにより視覚トークンと指示トークンの相対距離を自然に縮小させます。CCAにより、視覚トークンは指示トークンとより良く相互作用し、モデルの認識能力を向上させ、オブジェクトの幻覚を和らげることができます。余計な装飾をせず、私たちの位置合わせ方法は、複数のオブジェクト幻覚ベンチマークにおいて、既存の幻覚軽減戦略を大幅に上回っています。
知識蒸留(KD)は、大規模な教師言語モデル(LMs)を使用して小さな高性能な学習者言語モデルを訓練するために広く使用されています。ファインチューニングでは効果的ですが、事前訓練中のKDは効率、柔軟性、効果の面で課題に直面しています。既存の手法は、オンライン教師推論による高い計算コストが発生したり、教師と学習者LM間のトークン化の一致が必要だったり、教師が生成したトレーニングデータの難易度と多様性を失うリスクがあります。これらの問題に対処するために、私たちはMiniPLMを提案します。これは、教師の知識を用いてトレーニングデータの分布を洗練することでLMsの事前訓練を行うKDフレームワークです。効率性のために、MiniPLMはオフライン教師LM推論を実行し、トレーニング時間のコストを追加せずに複数の学習者LMに対するKDを可能にします。柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリーを横断したKDを実現します。効果のために、MiniPLMは大規模なLMと小規模なLMの違いを活用して、トレーニングデータの難易度と多様性を高め、学習者LMが多目的で洗練された知識を獲得するのに役立ちます。包括的な実験により、MiniPLMが9つの広く使用される下流タスクで学習者LMのパフォーマンスを向上させ、言語モデリング能力を向上させ、事前訓練の計算を削減することが示されました。MiniPLMの利点は、スケーリング曲線の外挿によって大規模な事前訓練スケールにも及ぶことが証明されています。さらなる分析により、MiniPLMがモデルファミリーを横断したKDをサポートし、事前訓練データの利用を向上させることが明らかになりました。当社のモデル、コード、およびデータはhttps://github.com/thu-coai/MiniPLM で入手可能です。
複合AIシステムでは、LLM呼び出し、リトリーバ、コードインタープリタ、またはツールなどのコンポーネントが相互に接続されています。システムの挙動は、主に命令やツール定義などのパラメータによって駆動されます。最近の進歩により、これらのパラメータのエンドツーエンド最適化がLLMを使用して可能となりました。特筆すべきは、LLMを最適化プログラムとして活用することが非常に効率的であり、勾配計算を回避し、複雑なコードや命令を生成できる点です。本論文では、複合AIシステムのLLMに基づく最適化の原則と新興トレンドについての調査を行います。複合AIシステムのアーキタイプ、LLMに基づくエンドツーエンド最適化へのアプローチ、そして将来の方向性や広範な影響についての洞察をカバーします。重要なのは、この調査がプログラム解析の概念を用いて、LLM最適化プログラムが複合AIシステムを最適化する際にどのように促されるかを統一的に示している点です。論文の包括的なリストは以下のリンクから提供されています:https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
非英語の大規模多文化モデル(LMMs)に関する研究を加速させることは、より広範な人口に向けたユーザーエクスペリエンスの向上に不可欠です。本論文では、日本文化の文脈に基づいた専門レベルのタスクでLMMsを評価するために設計された初の大規模な日本語ベンチマークであるJMMMU(Japanese MMMU)を紹介します。包括的な文化に配慮した評価を促進するため、JMMMUには2つの補完的なサブセットがあります:(i)文化に依存しない(CA)サブセットでは、文化に依存しない科目(例:数学など)が選択され、日本語に翻訳され、英語の対応物であるMMMとの一対一の比較が可能となっています;および(ii)文化固有(CS)サブセットは、日本文化の文脈を反映した新しく作成された科目から構成されています。CAサブセットを使用すると、多くのLMMsが日本語で評価された際に性能が低下することが観察され、これは純粋に言語の違いに起因しています。CSサブセットを使用すると、彼らの不十分な日本語文化理解が明らかになります。さらに、両方のサブセットを組み合わせることで、一部のLMMsがCAサブセットで優れた性能を発揮する一方でCSサブセットでそうでないことが判明し、日本語の理解が浅く、文化理解に深みが欠けていることが露呈されます。この研究が日本語でのLMMの性能向上に貢献するだけでなく、多言語LMM開発のための高水準で文化的に多様なベンチマークの作成の指針として機能することを期待しています。プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/ です。
大規模言語モデル(LLM)の高い計算コストは、量子化、疎行列化、または構造化されたプルーニングなどの方法を通じたLLMの圧縮に関する研究の急増をもたらしました。この領域における新たなフロンティアは、ブロックごとまたはレイヤーごとに圧縮レベル(例:疎行列性)を調整し、精度の損失を最小限に抑えながら、グローバルな圧縮閾値を保証する動的で非一様な圧縮方法によって提供されます。しかし、現在の方法は、エラーの単調性などの仮定に基づいて、特定のレイヤーの「重要性」を特定するためにヒューリスティクスに依存しています。つまり、エンドツーエンドのモデル圧縮エラーがレイヤーごとのエラーの合計に比例するというものです。本論文では、この領域を再検討し、与えられた入力範囲で証明された最適な動的圧縮の新しい一般的アプローチを提案します。一般的に、LLMにおいてエラーの単調性が成り立たないことを動機付ける観察から始めます。低いレイヤーごとのエラーの合計を持つ圧縮モデルが、高いエラー合計を持つモデルよりも性能が悪くなる可能性があることに対処するために、EvoPressと呼ばれる動的LLM圧縮の新しい一般的進化フレームワークを提案します。この手法は、証明された収束性と低いサンプルおよび評価の複雑さを持っています。これらの理論的保証が、Llama、Mistral、およびPhiモデルの動的圧縮において非常に競争力のある実用的性能につながることを示します。EvoPressを介して、構造化プルーニング(ブロック/レイヤーの削除)、非構造化の疎行列性、および動的ビット幅の量子化といったすべての圧縮手法において、新たな最先端の結果を示します。弊社のコードはhttps://github.com/IST-DASLab/EvoPressで入手可能です。
数学推論は、人工知能の特徴であるため、大規模言語モデル(LLM)研究の非常に活発な分野です。しかし、数学推論がLLMのパラメータ内にどのようにエンコードされているか、そしてそれがモデル内で孤立しているスキルであるかどうかを探究した研究はほとんどありません。これを行うことで、数学のパフォーマンスを向上させるためのターゲット指向の介入が可能になり、非数学的な振る舞いを変えることなく、モデルがどのように数学推論をエンコードしているかを理解することができます。私たちは、MathNeuro(数学ニューロサージェリー)という、LLM内の数学特有のパラメータを単にフォワードパスを使用して分離する手法を紹介します。MathNeuroは、重みと活性化を使用してパラメータの重要性を計算する既存の研究に基づいて構築されていますが、一般言語タスクに重要なパラメータを削除することで、数学特有のパラメータを分離します。MathNeuroが識別するパラメータを剪定することで、LLMの数学推論能力を破壊することなく、一般言語能力を保持します。これらのパラメータをわずかな定数でスケーリングすることにより、事前学習済みまたは指示に従って調整されたLLMのパフォーマンスを、GSM8Kで4〜17%向上させることができますが、非数学的な振る舞いを変えることはありません。MathNeuroはデータ効率も高く、数学特有のパラメータを単一のサンプルを使用して識別する際にその効果の大部分が維持されます。MathNeuroは、将来の研究が数学特有のパラメータに介入する可能性を示しています。
Novel-view synthesisは、複数の入力画像やビデオからシーンの新しい視点を生成することを目指しており、最近の進歩である3D Gaussian splatting(3DGS)などは、効率的なパイプラインで写実的なレンダリングを生み出すことにおいて注目すべき成功を収めています。しかし、疎な入力視点などの厳しい状況下で高品質な新しい視点を生成することは、アンダーサンプリングされた領域に情報が不足しているため困難であり、しばしば目立つアーティファクトが生じます。本論文では、3DGS表現の表現品質を向上させるための新しいパイプラインである3DGS-Enhancerを提案します。我々は、2Dビデオ拡散事前条件を活用して、難解な3D視点の一貫性の問題に取り組み、それをビデオ生成プロセス内での時間的一貫性の達成として再定式化します。3DGS-Enhancerは、レンダリングされた新しい視点の視点一貫性の潜在的な特徴を回復し、それらを入力視点と空間的・時間的デコーダーを介して統合します。向上した視点は、初期の3DGSモデルを微調整するために使用され、そのレンダリング性能を大幅に向上させます。無限のシーンの大規模データセットでの包括的な実験により、3DGS-Enhancerが最先端の手法と比較して優れた再構築性能と高い忠実度のレンダリング結果をもたらすことが示されました。プロジェクトのウェブページはhttps://xiliu8006.github.io/3DGS-Enhancer-projectです。
大腸内視鏡検査は現在、大腸がんの最も感度の高い検査方法の一つです。この研究は、知能を持った大腸内視鏡技術の最前線とその多面的医療応用への将来的な影響を調査します。この目標を達成するために、現在のデータ中心およびモデル中心の風景を、大腸内視鏡シーンの知覚に関する4つのタスク(分類、検出、セグメンテーション、ビジョン言語理解)を通じて評価します。この評価により、特定の領域に固有の課題を特定し、大腸内視鏡の多面的研究がさらなる探求の余地があることが明らかになります。将来の多面的時代を受け入れるために、3つの基盤となる取り組みを確立します:大規模な多面的指示調整データセットColonINST、大腸内視鏡用の多面的言語モデルColonGPT、および多面的ベンチマーク。この急速に進化する分野の継続的なモニタリングを促進するために、最新情報のための公開ウェブサイトを提供します:https://github.com/ai4colonoscopy/IntelliScope。