翻訳付きの日次キュレーションされたAI研究論文
言語モデルが拡大し続ける中、大規模言語モデル(LLMs)はインコンテキストラーニング(ICL)における新たな能力を示し、少数のインコンテキストデモンストレーション(ICDs)を接頭辞として使用することで言語タスクを解決する能力を持つようになりました。これらの進歩に触発され、研究者はこれらの手法を拡張し、ICL機能を備えた大規模マルチモーダルモデル(LMMs)を開発しています。しかしながら、既存のLMMsは重要な問題に直面しています。それは、しばしばマルチモーダルデモンストレーションにおける視覚的コンテキストを効果的に活用できず、代わりに単にテキストパターンに従ってしまうことです。これは、LMMsがマルチモーダルデモンストレーションとモデルの出力との間で効果的な整合性を達成していないことを示しています。この問題に対処するために、私たちはSymbol Demonstration Direct Preference Optimization(SymDPO)を提案します。具体的には、SymDPOは、インスタンス内のテキスト回答をランダムなシンボルで置き換えることによってマルチモーダルデモンストレーションを構築する従来のパラダイムを打破することを目指しています。これにより、モデルはデモンストレーション画像を注意深く理解し、画像とシンボルとの関係を確立して正しく質問に答えることができます。私たちはこの手法の効果を複数のベンチマークで検証し、SymDPOを使用することで、LMMsが例文内のマルチモーダルコンテキストをより効果的に理解し、この知識を活用して質問により良く答えることができることを示しています。
線形層の量子化は広く使用されていますが、注意機構の高速化に対する適用は限られています。SageAttention は、8ビット行列乗算、16ビット行列乗算と16ビット累算器、精度向上手法を活用し、FlashAttention2 に比べて正確で2倍の高速化カーネルを実装しています。精度を維持しつつ注意計算の効率をさらに向上させるために、SageAttention2 を提案します。これは、より高速な4ビット行列乗算(Matmul)と追加の精度向上技術を活用しています。まず、行列(Q、K)をワープレベルの粒度で INT4 に量子化し、行列(widetilde P、V)を FP8 に量子化することを提案します。次に、Q と V を滑らかにする方法を提案し、INT4 QK と FP8 PV による注意の精度を向上させます。さらに、各タイムステップとレイヤーでの量子化精度を分析し、さまざまなモデルにわたるエンドツーエンドのメトリクスを確保するための適応型量子化手法を提案します。SageAttention2 の1秒あたりの演算回数(OPS)は、RTX4090 上で FlashAttention2 や xformers をそれぞれ約3倍、5倍上回っています。包括的な実験により、大規模言語処理、画像生成、ビデオ生成など多様なモデルにわたって、我々の手法がほとんどエンドツーエンドのメトリクス損失をもたらさないことが確認されました。コードは https://github.com/thu-ml/SageAttention で入手可能です。
ビデオ生成は大きな進歩を遂げていますが、これらのモデルを評価することは依然として課題です。ビデオ生成の包括的な評価ベンチマークは2つの理由から不可欠です。1) 既存のメトリクスが人間の認識と完全に一致していないこと、2) 理想的な評価システムはビデオ生成の将来の発展に関する洞察を提供すべきです。このために、私たちはVBenchを提案します。VBenchは、特定の、階層的で分解された次元に「ビデオ生成の品質」を分析し、各次元に合わせたプロンプトと評価方法を備えた包括的なベンチマークスイートです。VBenchにはいくつかの魅力的な特性があります。1) 包括的な次元:VBenchはビデオ生成における16の次元(例:主体の一貫性の欠如、動きの滑らかさ、時間的なちらつき、空間的な関係など)を含んでいます。微細なレベルの評価メトリクスは、個々のモデルの強みと弱みを明らかにします。2) 人間との整合性:私たちは、各評価次元について、人間の認識との整合性を検証するための人間の選好注釈のデータセットも提供しています。3) 有益な洞察:現在のモデルの能力をさまざまな評価次元とコンテンツタイプで調査します。また、ビデオと画像生成モデルの間のギャップも調査します。4) 多目的ベンチマーク:VBench++は、テキストからビデオへ、画像からビデオへの評価をサポートします。異なる画像からビデオ生成設定間で公平な評価を可能にする適応的アスペクト比を持つ高品質の画像スイートを導入します。技術的品質の評価に加えて、VBench++はビデオ生成モデルの信頼性も評価し、モデルのパフォーマンスのより包括的な視点を提供します。5) 完全なオープンソース化:VBench++を完全にオープンソース化し、ビデオ生成の分野を前進させるために、新しいビデオ生成モデルをリーダーボードに継続的に追加しています。
最近、高度なビデオ解析機能を備えた大規模なマルチモーダルモデル(LMMs)が注目を集めています。ただし、ほとんどの評価は、VideoMMEやLongVideoBenchなどのベンチマークでの多肢選択問題などの従来の方法に依存しており、これらは実世界のユーザーの複雑な要求を捉えるために必要な深さを欠いている可能性があります。この制限に対処するために、およびビデオタスクの人間による注釈のコストが高く、遅いペースであることから、LMSYS Chatbot Arenaのフレームワークに触発されたアリーナ形式のベンチマークであるVideoAutoArenaを導入し、LMMsのビデオ解析能力を自動的に評価することを目指します。VideoAutoArenaは、ユーザーシミュレーションを活用して、ビデオ理解のモデルパフォーマンスを厳密に評価するオープンエンドで適応型の質問を生成します。このベンチマークには、公正で連続的な比較のために修正されたELOレーティングシステムを組み込んだ自動化されたスケーラブルな評価フレームワークが特徴として取り入れられています。自動判定システムの妥当性を検証するために、人間の注釈の慎重に選定されたサブセットを使用した「ゴールドスタンダード」を構築し、アリーナが人間の判断と強く一致しつつスケーラビリティを維持していることを示します。さらに、より複雑な質問を徐々に増やす欠陥駆動進化戦略を導入し、モデルをより困難なビデオ解析シナリオに対応させるように推進します。実験結果は、VideoAutoArenaが最先端のLMMsを効果的に区別し、モデルの強みや改善すべき点についての洞察を提供していることを示しています。評価をさらに効率化するために、ヒューマンアノテーターがVideoAutoArenaの一部で勝者をラベル付けする補助的なベンチマークであるVideoAutoBenchを導入します。GPT-4oを判定者として使用し、これらのヒューマン検証済みの回答と比較します。VideoAutoArenaとVideoAutoBenchは、ユーザーセントリックなビデオ解析においてLMMsを評価するための費用対効果の高いスケーラブルなフレームワークを提供しています。
Segment Anything Model 2(SAM 2)は、物体セグメンテーションタスクで強力なパフォーマンスを示していますが、特に混雑したシーンや高速移動または自己遮蔽物体を扱う際に視覚物体追跡において課題があります。さらに、元のモデルの固定ウィンドウメモリアプローチは、次のフレームの画像特徴を条件付けるために選択されたメモリの品質を考慮していないため、ビデオでのエラー伝播が起こります。本論文では、視覚物体追跡に特化したSAM 2の強化版であるSAMURAIを紹介します。提案された動きを意識したメモリ選択メカニズムと時間的な動きの手掛かりを組み込むことで、SAMURAIは効果的に物体の動きを予測し、マスク選択を洗練させ、再トレーニングや微調整を必要とせずに堅牢で正確な追跡を実現します。SAMURAIはリアルタイムで動作し、様々なベンチマークデータセットで強力なゼロショットパフォーマンスを示し、微調整なしで汎化する能力を示しています。評価では、SAMURAIは既存のトラッカーに比べて成功率と精度が著しく向上し、LaSOT_{ext}でAUCが7.1%、GOT-10kでAOが3.5%向上しています。さらに、LaSOTで完全教示法と競合する結果を達成し、複雑な追跡シナリオでの堅牢性とダイナミックな環境での実世界アプリケーションへの潜在的な可能性を強調しています。コードと結果はhttps://github.com/yangchris11/samurai で入手可能です。
コンテキストウィンドウサイズを拡張することで、大規模言語モデル(LLM)はより長いシーケンスを処理し、より複雑なタスクを処理できるようになります。Rotary Positional Embedding(RoPE)は、長いコンテキストのトレーニングに利益をもたらす相対位置エンコーディング特性を持つため、事実上の標準となっています。ただし、RoPEをBFloat16形式で使用すると、数値的な問題が発生し、特に長いコンテキストのシナリオでは、意図した相対位置エンコーディングから逸脱することが観察されます。この問題は、BFloat16の精度が限られていることから生じ、コンテキストの長さが増すにつれて蓄積され、最初のトークンがこの問題に大きく影響を与えています。この問題に対処するために、BFloat16によって引き起こされる数値的な問題を緩和し、長いコンテキストの能力を向上させ、トレーニングを高速化するAnchorAttentionというプラグアンドプレイのアテンション手法を開発しました。AnchorAttentionは不要なアテンション計算を削減し、意味的な一貫性を維持し、最初のトークンを一貫した位置IDを持つ共有アンカーとして扱うことで、トレーニングコンテキスト内のすべてのドキュメントに可視化します。3種類のLLMでの実験では、AnchorAttentionが長いコンテキストのパフォーマンスを大幅に向上させ、標準の完全なアテンションメカニズムと比較してトレーニング時間を50%以上短縮し、一般的なタスクにおける元のLLMの機能を維持します。当該コードはhttps://github.com/haonan3/AnchorContextで入手可能です。
言語エージェントは、ウェブベースのタスクを自動化する能力を有望に示していますが、現在の反応型アプローチは、人間と比較して大幅に性能が劣っています。特に木探索法などの高度な計画アルゴリズムを組み込むことで、これらのエージェントの性能を向上させることができますが、ライブウェブサイト上で直接木探索を実装することは、購入確認などの不可逆的なアクションによる重大な安全リスクや実用上の制約があります。本論文では、言語エージェントをモデルベースの計画で補強する革新的なパラダイムを紹介します。このパラダイムは、大規模言語モデル(LLMs)を複雑なウェブ環境におけるワールドモデルとして革新的に活用します。具体的には、WebDreamerという手法は、LLMsを使用して候補アクションごとにアウトカムをシミュレートし(例:「このボタンをクリックした場合、何が起こるか?」)、これらの想定される結果を評価して各ステップで最適なアクションを決定します。オンラインインタラクションを伴う2つの代表的なウェブエージェントベンチマーク、VisualWebArenaとMind2Web-liveにおける実証結果は、WebDreamerが反応型ベースラインに比べて実質的な改善を達成していることを示しています。LLMsをウェブ環境におけるワールドモデルとしての実用性を確立することで、この研究は自動化されたウェブインタラクションのパラダイムシフトの基盤を築いています。さらに、本研究の成果は、将来の研究において、1)複雑で動的な環境におけるワールドモデリングのためにLLMsを特に最適化すること、および2)言語エージェントのためのモデルベースの仮説的計画に関する新たな研究分野を開く興奮すべき新しい可能性を提示しています。
拡散モデルは画像生成に優れていますが、それらを制御することは依然として課題です。私たちはスタイル条件付き画像生成の問題に焦点を当てています。例えば画像を使用する方法は機能しますが、手間がかかります。MidJourneyのsrefs(スタイル参照コード)は、特定の画像スタイルを短い数値コードで表現することでこの問題を解決します。これらは、ソーシャルメディア全体で広く採用されており、共有しやすいことと、元の画像を投稿せずに画像をスタイル制御に使用できるという点が理由です。しかし、ユーザーは自分自身の画像からsrefsを生成することができず、また基礎となるトレーニング手順も公開されていません。私たちはStyleCodesを提案します。これは、画像スタイルを20文字のbase64コードとして表現するためのオープンソースおよびオープンリサーチのスタイルエンコーダーアーキテクチャとトレーニング手順です。私たちの実験は、従来の画像からスタイルへの手法と比較して、エンコーディングが品質の最小損失をもたらすことを示しています。
大規模多モーダルモデル(LMMs)の最新の進展により、その機能はビデオ理解を含むように拡大されました。具体的には、テキストからビデオ(T2V)モデルは、品質、理解力、および長さにおいて著しい進歩を遂げ、単純なテキストプロンプトからビデオを作成することで優れています。しかし、依然として、彼らはしばしば幻覚的なコンテンツを生成し、そのビデオがAIによって生成されたことを明確に示しています。私たちはViBeを紹介します:T2Vモデルからの幻覚ビデオの大規模なベンチマークです。私たちは、消失主体、数値の変動、時間的ジスモルフィア、省略エラー、物理的不一致の5つの主要な幻覚タイプを特定しました。10のオープンソースのT2Vモデルを使用して、最初の大規模な幻覚ビデオデータセットを開発しました。このデータセットには、人間によってこれらの5つのカテゴリにアノテーションが付けられた3,782本のビデオが含まれています。ViBeは、T2Vモデルの信頼性を評価し、ビデオ生成における幻覚の検出と軽減を改善するための基盤を提供するユニークなリソースです。私たちは分類をベースラインとして確立し、さまざまなアンサンブル分類器構成を提示しました。その中で、TimeSFormer + CNNの組み合わせが最良の性能を発揮し、0.345の精度と0.342のF1スコアを達成しました。このベンチマークは、入力プロンプトとより正確に整合するビデオを生成する堅牢なT2Vモデルの開発を推進することを目的としています。
スケーリング則は、単一のデータ分布に対する計算スケール間のトレーニング損失を予測するための信頼性の高い手法を提供しますが、これらの予測が分布を変更する際にどのように変化すべきかについてはあまり知られていません。本論文では、異なる事前トレーニングデータセット間でのトレーニング損失を予測する戦略を導出し、さらに、事前トレーニングデータから後段タスクデータへの予測に適用します。20倍の最大FLOP予算でも曲線に適合させるために使用された場合でも、私たちの予測はうまく外挿されます。具体的には、トレーニング計算によってペアリングされた2つの異なるデータセットでトレーニングされた2つのモデルのトレーニング損失(トレーニング間)、単一モデルの後段分布におけるトレーニング損失とテスト損失(トレーニングからテスト)、および2つの異なるトレーニングデータセットでトレーニングされた2つのモデルのテスト損失(テスト間)の間には、単純なシフトされたべき乗則の関係が存在することがわかりました。これらの結果は、大幅に異なる事前トレーニングデータセット(一部はコードのみであり、他のものはまったくコードを含まない)やさまざまな後段タスクにわたって成立します。最後に、一部の設定では、これらのシフトされたべき乗則の関係が、単一データセットのスケーリング則を外挿するよりも正確な予測を提供できることがわかりました。
テキストから画像への拡散生成モデルは、手間のかかるプロンプトエンジニアリングのコストをかけることで、高品質な画像を生成することができます。コントロール性は、レイアウト条件付けを導入することで改善されますが、既存の手法にはレイアウトの編集能力やオブジェクト属性の細かい制御が欠けています。マルチレイヤー生成の概念は、これらの制限に対処するための大きな潜在能力を持っていますが、画像インスタンスをシーン構成と同時に生成することで、細かいオブジェクト属性、3D空間内の相対的な位置づけ、およびシーン操作能力の制御が制限されます。本研究では、細かい制御、柔軟性、および相互作用を目的とした新しいマルチステージ生成パラダイムを提案します。インスタンス属性の制御を確保するために、拡散モデルを適応させ、透明情報を持つRGBA画像として孤立したシーンコンポーネントを生成するための新しいトレーニングパラダイムを考案します。複雑な画像を構築するために、これらの事前生成されたインスタンスを利用し、リアルなシーンでコンポーネントをスムーズに組み立てるマルチレイヤー複合生成プロセスを導入します。実験では、RGBA拡散モデルが、オブジェクト属性を精密に制御しながら多様で高品質なインスタンスを生成する能力を持つことを示しています。マルチレイヤー構成を通じて、当社のアプローチが、オブジェクトの外観や位置の細かい制御を備えた高度に複雑なプロンプトから画像を構築し操作することを可能にし、競合手法よりも高い制御度を提供していることを示しています。
放射線学レポート生成(RRG)の目的は、放射線画像に基づいた疾患の一貫したテキスト解析を自動的に生成し、放射線科医の作業負担を軽減することです。現在のAIベースのRRG方法は、主にエンコーダーデコーダーモデルアーキテクチャの変更に焦点を当てています。これらのアプローチを進めるために、本論文では、多モーダル情報を効果的に統合し、関連のない臓器からのノイズの影響を軽減できるOrgan-Regional Information Driven(ORID)フレームワークを紹介します。具体的には、LLaVA-Medに基づいて、まずRRG関連の指示データセットを構築して臓器領域の診断記述能力を向上させ、LLaVA-Med-RRGを取得します。その後、臓器ベースのクロスモーダル融合モジュールを提案し、臓器領域の診断記述と放射線画像からの情報を効果的に組み合わせます。関連のない臓器からのノイズの影響をさらに軽減するために、臓器重要度係数解析モジュールを導入し、各臓器領域のクロスモーダル情報の相互接続を調査するためにGraph Neural Network(GNN)を活用します。幅広い実験と様々な評価メトリクスを用いた最新の手法との比較により、提案手法の優れた性能が示されています。