翻訳付きの日次キュレーションされたAI研究論文
既存の視覚言語モデル(VLM)は、主に視覚エンコーダーを用いて視覚的特徴を抽出し、その後、大規模言語モデル(LLM)を利用して視覚言語タスクを実行します。しかし、視覚エンコーダーは、解像度、アスペクト比、セマンティックプライアなどの視覚表現の抽象化において強い帰納的バイアスを設定しており、これがVLMの柔軟性と効率性を妨げる可能性があります。視覚エンコーダーを使用せず、シームレスな視覚と言語の入力を直接受け入れる純粋なVLMのトレーニングは、依然として困難であり、ほとんど検討されていません。経験的な観察によると、エンコーダーなしで直接トレーニングを行うと、収束が遅く、性能のギャップが大きくなることが明らかになっています。本研究では、エンコーダーベースのモデルとエンコーダーフリーモデルの間のギャップを埋め、純粋なVLMに向けたシンプルかつ効果的なトレーニング手法を提案します。具体的には、徹底的な実験を通じて、エンコーダーフリーVLMを効率的にトレーニングするための重要な側面を明らかにします:(1)統一されたデコーダー内で視覚と言語の表現を橋渡しすること;(2)追加の監視を通じて視覚認識能力を強化すること。これらの戦略を用いて、効率的にトレーニングおよび推論可能なエンコーダーフリー視覚言語モデルであるEVEを開発しました。特に、35Mの公開データのみを利用することで、EVEは複数の視覚言語ベンチマークにおいて、同容量のエンコーダーベースVLMと驚くほど匹敵する性能を発揮します。また、トレーニング手順やデータが明らかにされていないFuyu-8Bを大幅に上回ります。EVEは、モダリティを超えた純粋なデコーダー専用アーキテクチャを開発するための透明かつ効率的な道筋を提供すると考えています。私たちのコードとモデルは、https://github.com/baaivision/EVE で公開されています。
本レポートでは、人間と大規模言語モデル(LLM)間の自然な音声インタラクションを強化するために設計されたモデルファミリー、FunAudioLLMを紹介します。その中核となるのは、2つの革新的なモデルです。1つは、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoice、もう1つは、複数言語、音色、話し方、話者識別を制御しながら自然な音声生成を可能にするCosyVoiceです。SenseVoice-Smallは5言語での超低遅延ASRを実現し、SenseVoice-Largeは50言語以上での高精度ASRをサポートします。一方、CosyVoiceは多言語音声生成、ゼロショットインコンテキスト学習、クロスリンガル音声クローニング、指示追従能力に優れています。SenseVoiceとCosyVoiceに関連するモデルは、ModelscopeとHuggingfaceでオープンソース化されており、対応するトレーニング、推論、ファインチューニングのコードもGitHubで公開されています。これらのモデルをLLMと統合することで、FunAudioLLMは音声間翻訳、感情的音声チャット、インタラクティブポッドキャスト、表現豊かなオーディオブックナレーションなどのアプリケーションを可能にし、音声インタラクション技術の限界を押し広げています。デモはhttps://fun-audio-llm.github.ioで利用可能で、コードはhttps://github.com/FunAudioLLMでアクセスできます。
Self-attentionは長い文脈において優れた性能を発揮しますが、計算量が二次的に増加するという課題があります。既存のRNN層は計算量が線形であるものの、その隠れ状態の表現力によって長い文脈での性能が制限されています。本研究では、線形計算量でありながら表現力の高い隠れ状態を持つ新しいシーケンスモデリング層を提案します。鍵となるアイデアは、隠れ状態自体を機械学習モデルとし、更新ルールを自己教師あり学習のステップとすることです。隠れ状態はテストシーケンスにおいても訓練によって更新されるため、我々の層はTest-Time Training (TTT)層と呼ばれます。具体的な実装として、隠れ状態が線形モデルであるTTT-Linearと、2層MLPであるTTT-MLPの2つを考案しました。125Mから1.3Bパラメータの規模で評価を行い、強力なTransformerと現代的なRNNであるMambaと比較しました。その結果、TTT-LinearとTTT-MLPは両方ともベースラインを上回るか同等の性能を示しました。Transformerと同様に、これらはより多くのトークンを条件付けすることでパープレキシティを継続的に低減できますが、Mambaは16k以上の文脈ではそれができませんでした。システムの最適化を予備的に行った結果、TTT-Linearは8k文脈においてすでにTransformerよりも高速であり、Mambaと同等の実時間性能を達成しました。TTT-MLPはメモリI/Oにおいてまだ課題を抱えていますが、長い文脈においてより大きな可能性を示しており、今後の研究にとって有望な方向性を指し示しています。
生成AIの進歩により、自律エージェントの開発における大規模言語モデル(LLM)の潜在的な応用範囲が広がっています。真の自律性を達成するためには、環境との相互作用から得た知識を蓄積し、更新し、それを効果的に活用することが必要です。現在のLLMベースのアプローチでは、観測の完全な履歴、要約、または検索拡張を用いて過去の経験を活用しています。しかし、これらの非構造化されたメモリ表現は、複雑な意思決定に不可欠な推論と計画を容易にはしません。本研究では、AriGraphという新しい手法を紹介します。この手法では、エージェントが環境を探索しながら、意味的記憶とエピソード記憶を統合したメモリグラフを構築します。このグラフ構造は、エージェントの現在の状態と目標に関連する相互接続された概念の効率的な連想検索を可能にし、エージェントの探索能力と計画能力を向上させる効果的な環境モデルとして機能します。私たちは、提案されたメモリアーキテクチャに計画と意思決定を組み込んだAriadne LLMエージェントが、TextWorld環境においてゼロショットベースで複雑なタスクを効果的に処理することを実証しました。私たちのアプローチは、完全履歴、要約、検索拡張生成などの確立された手法を、First TextWorld Problemsコンペティションの料理チャレンジや、家の掃除やパズルトレジャーハンティングなどの新しいタスクを含むさまざまなタスクにおいて顕著に上回りました。
最近登場した医療用大規模視覚言語モデル(Med-LVLMs)は、医療診断を向上させています。しかし、現在のMed-LVLMsは、確立された医療事実と一致しない応答を生成するなど、事実関係の問題に頻繁に直面しています。外部知識を活用する検索拡張生成(RAG)は、これらのモデルの事実的精度を向上させることができますが、2つの主要な課題を引き起こします。第一に、限られた検索コンテキストでは必要な情報をすべてカバーできない可能性があり、過剰な検索は無関係で不正確な参照を導入し、モデルの生成を妨げる可能性があります。第二に、モデルが最初に正しく応答する場合でも、RAGを適用すると検索コンテキストに過度に依存し、誤った答えを導くことがあります。これらの問題に対処するため、我々はRULEを提案します。RULEは2つのコンポーネントで構成されています。まず、検索コンテキストの数を調整することで、事実リスクを制御する証明可能な効果的な戦略を導入します。次に、検索コンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、モデルを微調整するための選好データセットをキュレーションし、生成における内在知識と検索コンテキストへの依存のバランスを取ります。我々は、3つの医療VQAデータセットでRULEの有効性を実証し、事実的精度で平均20.8%の改善を達成しました。ベンチマークとコードをhttps://github.com/richard-peng-xia/RULEで公開しています。
チャートは、業界や科学分野におけるデータ分析、可視化、意思決定ツールとして広く普及していることから、チャートの理解と推論のための事前学習済み基盤モデルや汎用目的の指示チューニングモデルの開発に対する関心が高まっています。しかし、既存の手法は、チャート表現モデルの性能に影響を与える2つの重要な軸において重大な欠点を抱えています。それらは、チャートの基盤となるデータテーブルから生成されたデータで学習されており、チャート画像内の視覚的なトレンドやパターンを無視していること、また、ドメイン固有の学習に弱く連携した視覚-言語バックボーンモデルを使用しているため、実世界のチャートに遭遇した際の汎化性能が制限されています。私たちはこれらの重要な欠点に対処し、PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介します。ChartGemmaは、基盤となるデータテーブルに依存するのではなく、チャート画像から直接生成された指示チューニングデータで学習されるため、多様なチャートから高レベルのトレンドと低レベルの視覚情報の両方を捕捉します。私たちのシンプルなアプローチは、チャート要約、質問応答、事実確認にわたる5つのベンチマークで最先端の結果を達成し、実世界のチャートに関する詳細な質的研究は、ChartGemmaが同時代のモデルと比較してより現実的で事実に基づいた要約を生成することを示しています。私たちは、コード、モデルチェックポイント、データセット、デモをhttps://github.com/vis-nlp/ChartGemmaで公開しています。
人間は、インスタントメッセージングツールを通じて、個人的な経験に関連する多様な画像を会話の中で共有します。しかし、既存の研究は、(1)単一セッションにおける画像共有行動に焦点を当てており、長期的な社会的相互作用が限定的であり、(2)パーソナライズされた画像共有行動が欠如しているという課題があります。本研究では、多様な社会的ペルソナをカバーし、マルチモーダル形式、時間間隔、画像を含む大規模な長期マルチモーダル会話データセット「Stark」を紹介します。Starkを自動的に構築するために、ChatGPTと提案したPlan-and-Execute画像アライナーから抽出された長期マルチモーダル対話を生成する新しいマルチモーダル文脈化フレームワーク「Mcu」を提案します。Starkを使用して、視覚的想像力に優れたマルチモーダル会話モデル「Ultron 7B」を訓練します。さらに、人間による評価を通じてデータセットの有効性を実証します。ソースコードとデータセットを公開しています。
大規模言語モデル(LLMs)は、単純な数学問題の処理において目覚ましい進歩を遂げていますが、より挑戦的で複雑な数学的タスクにはまだ苦戦しています。本論文では、数学的推論において「思考の分解」とコード支援、自己修正を採用した一連のLLMsを紹介します。これをDotaMathと名付けました。DotaMathモデルは、複雑な数学的タスクをより単純な論理的サブタスクに分解し、コードを活用してこれらのサブタスクを解決し、コードインタプリタから詳細なフィードバックを得て、自己反省と修正を行います。GSM8KおよびMATHデータセット上で多様なインタラクティブなツール使用軌跡を注釈し、クエリ進化を適用することで、574Kのクエリ-応答ペアからなる命令微調整データセットDotaMathQAを生成しました。DotaMathQA上で模倣学習を用いて一連のベースLLMsを訓練し、その結果、DotaMathモデルは、さまざまなドメイン内およびドメイン外のベンチマークにおいて、オープンソースのLLMsと比較して顕著な性能を達成しました。特に、DotaMath-deepseek-7Bは、競争力のあるMATHデータセットで64.8%、GSM8Kで86.7%という優れた性能を示しました。さらに、DotaMath-deepseek-7Bは、一連のドメイン内およびドメイン外のベンチマークにおいても強い競争力を維持しています(平均80.1%)。今後の展望として、DotaMathパラダイムが複雑な数学的問題に取り組むための新たな道を開くことを期待しています。私たちのコードはhttps://github.com/ChengpengLi1003/DotaMathで公開されています。
本論文では、日本語大規模言語モデル(LLM)の研究開発を目的とした学際的プロジェクト「LLM-jp」を紹介する。LLM-jpは、オープンソースで高性能な日本語LLMの開発を目指しており、本稿執筆時点で、学界と産業界から1,500名以上の参加者が協力している。本論文では、LLM-jp設立の背景、活動概要、およびLLM-jpが開発したLLMに関する技術報告を提示する。最新の活動情報については、https://llm-jp.nii.ac.jp/en/ を参照されたい。
大規模言語モデルとクロスモーダルアラインメントの進歩を活用し、既存のマルチモーダル動画理解手法はオフラインシナリオで顕著な性能を達成してきました。しかし、現実世界で最も一般的なメディア形式の一つであるオンライン動画ストリームは、ほとんど注目されてきませんでした。オフライン動画と比較して、オンライン動画ストリームの「動的」な性質は、既存モデルの直接的な適用に課題を投げかけ、極めて長期的な情報の保存や、連続的な視覚コンテンツと「非同期」のユーザー質問との相互作用といった新たな問題を引き起こします。そこで本論文では、人間の記憶メカニズムを模倣したビデオ言語モデルであるFlash-VStreamを提案します。本モデルは、極めて長い動画ストリームをリアルタイムで処理し、同時にユーザーのクエリに応答することが可能です。既存モデルと比較して、Flash-VStreamは推論遅延とVRAM消費を大幅に削減し、これはオンラインストリーミング動画の理解を実行する上で密接に関連しています。さらに、既存の動画理解ベンチマークが主にオフラインシナリオに集中していることを踏まえ、オンライン動画ストリーミング理解に特化した新しい質問応答ベンチマークであるVStream-QAを提案します。提案されたベンチマークでの既存の一般的な手法との比較は、このような困難な設定における本手法の優位性を示しています。本アプローチの汎用性を検証するため、既存の動画理解ベンチマークでも評価を行い、オフラインシナリオでも最先端の性能を達成しました。すべてのコード、モデル、データセットはhttps://invinciblewyq.github.io/vstream-page/で公開されています。
スケーラブルな監視プロトコルは、人間が超人的なAIを正確に監督できるようにすることを目指している。本論文では、2つのAIが裁判官を説得しようと競う「ディベート」、単一のAIが質問をする裁判官を説得しようとする「コンサルティング」、そしてAIなしで裁判官が直接質問に答える「直接質問応答」のベースラインを比較する。我々は大規模言語モデル(LLM)をAIエージェントと人間の裁判官の代役として使用し、裁判官モデルをエージェントモデルよりも弱く設定した。裁判官とエージェントの間の多様な非対称性についてベンチマークを行い、情報非対称性を持つ単一の抽出型QAタスクに関する以前の研究を拡張して、数学、コーディング、論理、マルチモーダル推論の非対称性も含めた。コンサルタントが正しい/間違った答えを主張するためにランダムに割り当てられた場合、ディベートはすべてのタスクでコンサルティングを上回ることがわかった。ディベートと直接質問応答を比較すると、結果はタスクの種類によって異なる:情報非対称性を持つ抽出型QAタスクではディベートが直接質問応答を上回るが、情報非対称性のない他のタスクでは結果が混在する。以前の研究では、ディベーター/コンサルタントに主張する答えを割り当てていた。我々が彼らに代わりにどの答えを主張するかを選択させた場合、裁判官が間違った答えに説得される頻度は、ディベートよりもコンサルティングの方が低いことがわかった。さらに、より強力なディベーターモデルは裁判官の精度を向上させるが、以前の研究よりも控えめな効果であることがわかった。
LLM(大規模言語モデル)は、安全性のアラインメントを行った後でも、ジャイルブレイク攻撃に対して脆弱であることが知られています。重要な観察点として、異なるタイプのジャイルブレイク攻撃は大きく異なるクエリを生成する可能性があるものの、それらの攻撃はほとんど同じ有害な知識(例えば、爆弾の作り方の詳細な手順)に根ざした類似の応答を引き起こす傾向があります。したがって、我々は、主流の教師ありファインチューニング(SFT)ベースのアプローチよりも、LLM内の有害な知識を直接「アンラーニング(忘却)」することが、ジャイルブレイク攻撃に対するより効果的な防御方法であると推測しました。我々の広範な実験はこの洞察を裏付け、アンラーニングベースのアプローチの驚くべき汎化能力を示しました:トレーニング中にジャイルブレイクプロンプトを使用せず、わずか20の生の有害な質問を用いることで、我々のソリューションは、Vicuna-7Bにおける分布外(OOD)の有害な質問に対する攻撃成功率(ASR)を、複雑なジャイルブレイクプロンプトでラップされた場合でも82.6%から7.7%に削減しました。これは、約10万の安全性アラインメントサンプルでファインチューニングされ、追加の安全性システムプロンプトの助けを借りてもASRが21.9%であるLlama2-7B-Chatを大幅に上回る結果です。さらなる分析により、我々のソリューションの汎化能力は、有害な質問間の応答パターン、共有される手順やアクション、およびLLM内で学習された表現の類似性など、有害な応答間の本質的な関連性に由来することが明らかになりました。我々のコードはhttps://github.com/thu-coai/SafeUnlearningで公開されています。
テキストと画像、動画、音声、その他の感覚モダリティを統合的に処理できるマルチモーダル基盤モデルは、様々な実世界のアプリケーションでますます使用されています。しかし、モデリングの決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難です。本論文では、マルチモーダルモデルの包括的評価(HEMM)を導入し、マルチモーダル基盤モデルの能力を3つの次元(基本スキル、情報フロー、実世界のユースケース)にわたって体系的に評価します。基本的なマルチモーダルスキルは、問題を解決するために必要な内部能力であり、モダリティ間の相互作用の学習、細粒度のアラインメント、多段階の推論、外部知識の処理能力などが含まれます。情報フローは、クエリ、翻訳、編集、融合を通じてタスク中にマルチモーダルコンテンツがどのように変化するかを研究します。ユースケースは、実世界のマルチメディア、感情計算、自然科学、医療、人間とコンピュータの相互作用アプリケーションで導入されるドメイン固有の課題に及びます。HEMMの30のタスクにわたる包括的な実験を通じて、私たちは(1)今日のモデルにとって課題となる主要なデータセット次元(例:基本スキル、情報フロー、ユースケース)を特定し、(2)異なるモデリング次元(例:スケール、事前学習データ、マルチモーダルアラインメント、事前学習、指示チューニングの目的)が性能にどのように影響するかに関するパフォーマンストレンドを抽出します。私たちの結論は、推論と外部知識を必要とするマルチモーダル相互作用、ユースケース、タスク、データとモデルのスケールの利点、指示チューニングの影響について、マルチモーダル基盤モデルの将来の研究に役立つ洞察を提供します。
ニューラルラジアンスフィールド(NeRF)は、高品質な新規視点レンダリング能力により注目を集めており、さまざまな実世界のケースに対応する研究が進められています。その中でも重要な課題の一つは、露光時間中のカメラ移動によって生じるモーションブラーの問題であり、これが正確な3Dシーン再構成を妨げています。本研究では、リアルタイムレンダリング速度を維持しながら、ぼやけた画像から正確な3Dシーンを再構築するための連続剛体運動認識ガウススプラッティング(CRiM-GS)を提案します。実際のカメラモーションブラー過程は複雑な運動パターンで構成されていることを考慮し、ニューラル常微分方程式(ODE)に基づいてカメラの連続的な動きを予測します。具体的には、剛体変換を活用してカメラの動きを適切な正則化とともにモデル化し、物体の形状とサイズを保持します。さらに、SE(3)フィールドにおける連続変形可能な3D変換を導入し、より高い自由度を確保することで、剛体変換を実世界の問題に適応させます。基本的なカメラ理論を再検討し、高度なニューラルネットワークトレーニング技術を採用することで、連続的なカメラ軌跡の正確なモデル化を実現します。ベンチマークデータセットにおいて、定量的および定性的に最先端の性能を示す広範な実験を行いました。
ビジョン言語モデル(VLMs)は、情報検索型の質問に答える能力において急速に進化しています。これらのモデルが消費者向けアプリケーションに広く導入されるにつれ、写真に写った人物を特定したり、画像の地理的位置を特定したりするといった新たな能力が、プライバシーリスクを引き起こす可能性があります。私たちが示すように、驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMsは非常に優れた画像位置特定ツールであり、VLMsを用いた広範な位置特定は、理論上の将来の懸念ではなく、即座にプライバシーリスクとなっています。この課題に対処するための第一歩として、私たちは新しいベンチマーク「GPTGeoChat」を開発し、VLMsがユーザーとの位置特定に関する対話を適切に調整する能力をテストします。社内のアノテーターとGPT-4vとの間で行われた1,000件の画像位置特定会話を収集し、各ターンで明らかにされた位置情報の粒度を注釈付けしました。この新しいデータセットを使用して、さまざまなVLMsがGPT-4vの位置特定会話を調整する能力を評価し、過剰な位置情報が明らかにされたタイミングを判断します。その結果、カスタムファインチューニングされたモデルは、国や都市レベルの漏洩した位置情報を特定する点において、プロンプトベースのAPIモデルと同等の性能を発揮することがわかりました。しかし、レストランや建物の名前といったより細かい粒度を正確に調整するためには、教師ありデータでのファインチューニングが必要であるようです。