翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルが金融部門でますます一般的になるにつれて、これらの性能を包括的に評価する標準化された方法が急務となっています。しかし、既存の金融ベンチマークは、しばしば言語やタスクの範囲が限られているだけでなく、低品質のデータセットやLLMの評価に適さない課題といった問題を抱えています。これらの制限に対処するために、私たちは初めての包括的な金融LLMのためのバイリンガルベンチマークである「Golden Touchstone」を提案します。このベンチマークは、中国語と英語の代表的なデータセットを8つの主要な金融NLPタスクにわたって組み込んでいます。広範なオープンソースデータ収集と業界固有の要求から開発されたこのベンチマークには、モデルの言語理解および生成能力を徹底的に評価するためのさまざまな金融タスクが含まれています。GPT-4o Llama3、FinGPT、FinMAなどの主要モデルをベンチマークで比較分析することにより、これらのモデルが複雑な金融情報を処理する際の強みと制限を明らかにします。さらに、継続的な事前学習と金融指示チューニングを通じてトレーニングされた金融LLMであるTouchstone-GPTのソースコードをオープンソース化しました。このモデルはバイリンガルベンチマークで強力なパフォーマンスを示していますが、特定のタスクにはまだ制限があります。この研究は、金融大規模言語モデルに実用的な評価ツールを提供するだけでなく、将来の研究の開発と最適化を指導します。Golden TouchstoneのソースコードとTouchstone-GPTのモデルウェイトは、https://github.com/IDEA-FinAI/Golden-Touchstone で一般に公開されており、FinLLMの進化を促進し、この重要な分野でのさらなる研究を支援しています。
画像にオブジェクトを追加することは、意味的な画像編集において、元のシーンを保持しつつ新しいオブジェクトを適切な位置にシームレスに統合するバランスが求められる難しい課題です。既存のモデルは、特に複雑なシーンにオブジェクトを追加する自然な位置を見つけることに苦労することが多く、このバランスを保つことが難しいとされています。私たちは、Add-itというトレーニング不要のアプローチを紹介します。このアプローチは、拡散モデルの注意メカニズムを拡張し、シーン画像、テキストプロンプト、生成された画像自体からの情報を組み込みます。重み付けされた拡張された注意メカニズムは、構造の一貫性と細部を維持しつつ、自然なオブジェクト配置を確保します。タスク固有の微調整を行わずに、Add-itは実際の画像挿入ベンチマークと生成された画像挿入ベンチマークの両方で最先端の結果を達成し、オブジェクト配置の妥当性を評価するために新たに構築された「Additing Affordance Benchmark」でも、教師あり方法を凌駕します。ヒューマン評価では、Add-itが80%以上のケースで好まれることが示され、さまざまな自動化されたメトリクスでも改善が見られます。
指示に従った画像編集手法は、自動的に合成されたか手動で注釈付けされた画像編集ペアに拡散モデルをトレーニングすることで、大きな潜在能力を示しています。しかし、これらの手法は実用的な現実世界のアプリケーションからはまだ遠いです。このギャップに貢献する3つの主要な課題を特定します。まず、既存のモデルは、バイアスのかかった合成プロセスのために編集スキルが限られています。第二に、これらの手法は、ノイズやアーティファクトが多く含まれるデータセットでトレーニングされています。これは、CLIPスコアなどの単純なフィルタリング手法の適用によるものです。第三に、これらのデータセットはすべて単一の低解像度および固定アスペクト比に制限されており、実世界のユースケースを処理する柔軟性が制限されています。本論文では、任意のアスペクト比で7つの異なる画像編集タスクをシームレスに処理する万能エディタである\omnieditを提案します。私たちの貢献は、次の4つにあります:(1) \omnieditは、タスクカバレッジを確保するために7つの異なる専門モデルからの監督を利用してトレーニングされています。(2) CLIPスコアの代わりに、大規模なマルチモーダルモデル(GPT-4oなど)によって提供されるスコアに基づいた重要度サンプリングを利用してデータ品質を向上させています。(3) 編集の成功率を大幅に向上させる新しい編集アーキテクチャであるEditNetを提案しています。(4) さまざまなアスペクト比の画像を提供することで、モデルが野生の画像を処理できるようにしています。異なるタスクをカバーするために多様な指示が付属した、異なるアスペクト比の画像を含むテストセットを収集しました。自動評価と人間の評価の両方が、\omnieditがすべての既存モデルを大幅に上回ることを示しています。私たちのコード、データセット、モデルは、https://tiger-ai-lab.github.io/OmniEdit/ で入手可能です。
ドキュメント上の質問を理解し回答する能力は、多くのビジネスおよび実用的なアプリケーションで有用である可能性があります。しかしながら、ドキュメントにはしばしばテキスト、図表など多様なマルチモーダルなコンテンツが含まれており、これらを徹底的に読むのは人間にとって非常に時間がかかります。そのため、この作業を支援するための効果的で自動化された方法を開発する緊急性があります。本研究では、851のサンプルからなるベンチマークであるM-LongDocと、大規模なマルチモーダルモデルの性能を評価するための自動化フレームワークを紹介します。さらに、効率的かつ効果的なマルチモーダルドキュメント読解のための検索認識チューニングアプローチを提案します。既存の研究と比較して、当社のベンチマークはより最近の長大なドキュメントで構成されており、数百ページに及ぶものも含まれています。また、抽出的な回答だけでなくオープンエンドの解答も必要としています。私たちの知る限り、当社のトレーニングフレームワークは、マルチモーダルな長大なドキュメントに対する検索設定に直接対処する最初のものです。オープンソースモデルのチューニングを可能にするために、このようなドキュメントに関する質問応答タスクのためのトレーニングコーパスを完全自動的に構築します。実験の結果、当社のチューニングアプローチは、ベースラインのオープンソースモデルと比較して、モデルの回答の正確性において相対的な改善率4.6%を達成しています。当社のデータ、コード、モデルは、https://multimodal-documents.github.io で入手可能です。
新しいLLM評価基準は、大規模言語モデル(LLMs)の急速な発展に合わせるために重要です。この研究では、言語モデルの事実性能力を評価するための初の包括的な中国語ベンチマークであるChinese SimpleQAを提案します。Chinese SimpleQAは、主に中国語、多様性、高品質、静的、評価しやすいという5つの特性を持っています。具体的には、まず、99の多様なサブトピックを持つ6つの主要トピックに焦点を当てて中国語を対象とします。次に、高品質な質問と回答を達成するために包括的な品質管理プロセスを実施し、参照回答は静的で時間経過によって変更されないことを特徴とします。さらに、SimpleQAに従い、質問と回答は非常に短く、OpenAI APIに基づいて評価プロセスが容易です。Chinese SimpleQAに基づいて、既存のLLMsの事実性能力について包括的な評価を行います。最後に、Chinese SimpleQAが開発者に彼らのモデルの中国語の事実性能力をより良く理解する手助けをし、基盤モデルの成長を促進することを期待しています。
私たちは、ピクセル単位の完璧な精度で写実的な画像コンテンツを生成することができる拡散モデルファミリーであるEdify Imageを紹介します。Edify Imageは、新しいラプラシアン拡散プロセスを用いてトレーニングされた段階的なピクセル空間拡散モデルを利用しており、異なる周波数帯での画像信号が異なる速度で減衰されるプロセスです。Edify Imageは、テキストから画像の合成、4Kのアップサンプリング、ControlNets、360 HDRパノラマの生成、および画像カスタマイズのための微調整など、幅広いアプリケーションをサポートしています。
画像透かし付け手法は、小さな透かし領域を処理するようには設計されていません。これにより、画像の一部が異なるソースから来たり編集されたりする実世界のシナリオでの応用が制限されます。私たちは、局所的な画像透かし付けのための深層学習モデルを紹介します。このモデルは「Watermark Anything Model(WAM)」と呼ばれています。WAMの埋め込み器は、入力画像を視覚的に変更し、抽出器は受信画像を透かし付きと非透かし領域に分割し、透かし付きと判明した領域から1つまたは複数の隠されたメッセージを回復します。これらのモデルは、低解像度で知覚制約なしで共同でトレーニングされ、その後、視覚的に認識できないようにポストトレーニングされ、複数の透かしに対応します。実験の結果、WAMは、特に修復やスパイスに対して、高解像度の画像でも視覚的に認識できない性質と堅牢性において、最先端の手法と競合していることが示されました。さらに、WAMは新しい機能を提供します。WAMは、スパイスされた画像内の透かし領域を特定し、256×256の小さな画像でも、画像表面の10%以下の小さな領域から1ビット未満の誤りで異なる32ビットのメッセージを抽出することができます。
ソフトウェアライブラリの急速な進化は、コード生成モデルにとって重要な課題を提起しています。これらのモデルは、頻繁なバージョン更新に適応しつつ、以前のバージョンとの互換性を維持する必要があります。既存のコード補完ベンチマークは、この動的な側面をしばしば見落としており、それを考慮するものは、実行ベースの評価を行わずに静的なコード予測タスクに依存しているため、モデルの実用性に関する限定的な視点しか提供していません。このギャップを埋めるために、116のPythonコード補完問題からなる新しい、手動で作成されたデータセットである\GitChameleon{}を導入します。各問題は特定のライブラリバージョンに依存し、実行可能なユニットテストが付属しています。このデータセットは、現代の大規模言語モデル(LLMs)が、構文的に正確でありながら実行時にも機能的に正確なバージョン固有のコードを生成する能力を厳密に評価することを目的としています。私たちの包括的な評価によると、最先端のLLMsはこのタスクに苦戦しており、例えば、GPT-4oは、エラーフィードバックが提供された場合でも、わずか39.9%(43.7%)のパス率しか達成していません。これは、問題の複雑さと現行モデルの制約を浮き彫りにしています。コードライブラリの動的性質を強調する実行ベースのベンチマークを提供することで、\GitChameleon{}は、より適応性が高く信頼性のあるコード生成モデルの開発を推進するための重要なツールとなります。さらなるバージョン条件付きコード生成の探索を支援するために、当該コードリポジトリをhttps://github.com/NizarIslah/GitChameleonで一般に公開しています。
大規模言語モデル(LLMs)の領域では、モデルが正確に指示に従う能力が重要です。ますます多くのエージェントやアプリケーションがLLMsを活用する中で、指示の複雑さが急速に増しています。しかし、一方で、複雑な指示の評価データは限られており、他方で、複雑な指示に従う能力を向上させるための専用のアルゴリズムが存在しません。この論文では、この問題に対処するために、120Kのトレーニングデータと1Kの評価データからなる複雑な指示に従う能力を向上させ、評価するためのベンチマークであるTRACEを紹介します。さらに、入出力優先最適化(IOPO)アライメント手法を提案し、入出力の優先ペアを考慮に入れます。ここでは、LLMsは迅速に応答の優先順位に合わせるだけでなく、指示の優先順位を細心に探索します。ドメイン内およびドメイン外のデータセットに関する包括的な実験により、IOPOの効果が確認され、SFTおよびDPOと比較して、ドメイン内データでは8.15%、2.18%、ドメイン外データでは6.29%、3.13%の改善が示されました。
自己回帰モデリングは自然言語処理(NLP)分野で大きな成功を収めています。最近、自己回帰モデルはコンピュータビジョン分野でも重要な焦点となり、高品質な視覚コンテンツを生成するのに優れています。NLPの自己回帰モデルは通常、サブワードトークン上で動作します。しかし、コンピュータビジョンにおける表現戦略は、言語の連続構造と比較して、視覚データの多様性と階層性を反映して、異なるレベル(ピクセルレベル、トークンレベル、スケールレベル)で異なることがあります。この調査は、視覚に適用された自己回帰モデルに関する文献を包括的に検討しています。異なる研究バックグラウンドを持つ研究者にとって読みやすさを向上させるために、最初に視覚における初期のシーケンス表現とモデリングから始めます。次に、視覚の自己回帰モデルの基本的なフレームワークを、表現戦略に基づいてピクセルベース、トークンベース、スケールベースのモデルの3つの一般的なサブカテゴリに分けます。その後、自己回帰モデルと他の生成モデルとの相互関係を探ります。さらに、画像生成、ビデオ生成、3D生成、マルチモーダル生成を含むコンピュータビジョンにおける自己回帰モデルの多面的な分類を提示します。また、エンボディドAIや3D医療AIなどの新興領域を含む多様な領域での応用について詳細に説明し、約250の関連文献を紹介します。最後に、視覚における自己回帰モデルへの現在の課題と、潜在的な研究方向に関する提案を強調します。この調査で取り上げられている論文を整理するためのGitHubリポジトリも設定しました:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
この論文は、ゲーム理論の枠組み内で、大規模言語モデル(LLMs)の合理性を戦略的意思決定の文脈で調査しています。我々は、完全情報および不完全情報ゲームのスペクトルを横断していくつかの最先端のLLMsを評価します。我々の調査結果によれば、LLMsは、特に報酬行列が大きくなったり、より深い順次木構造になったりすると、合理的な戦略から頻繁に逸脱することが多いことが明らかになりました。 これらの制限に対処するために、LLMsの推論と意思決定プロセスを導く複数のゲーム理論的ワークフローを設計しています。これらのワークフローは、不確実性や不完全情報の条件下でもNash均衡を計算し、合理的な選択を行うモデルの能力を向上させることを目指しています。実験結果は、これらのワークフローの採用が、ゲーム理論的タスクにおけるLLMsの合理性と堅牢性を著しく向上させることを示しています。具体的には、ワークフローを用いることで、LLMsは最適戦略の特定、交渉シナリオにおけるほぼ最適な割り当ての達成、交渉中の搾取への脆弱性の低減において著しい改善を示します。さらに、エージェントがこのようなワークフローを採用することが合理的かどうかのメタ戦略的考慮を探求し、ワークフローの使用または放棄の決定自体がゲーム理論的な問題を構成することを認識しています。 本研究は、戦略的文脈におけるLLMsの意思決定能力に関するより深い理解を提供し、構造化されたワークフローを通じてその合理性を向上させる洞察を提供しています。これらの知見は、複雑なインタラクティブ環境を航行できるより堅牢で戦略的に優れたAIエージェントの開発に影響を与えます。この研究をサポートするコードとデータは、https://github.com/Wenyueh/game_theory で入手可能です。
言語モデルにおける因果生成メカニズムの理解と操作は、その振る舞いを制御するために不可欠です。これまでの研究は、主に表現手術(例:モデルの一部を取り除くことや特定の概念に関連する線形部分空間の操作など)などの手法に依存してきました。介入の影響を正確に理解するためには、因果関係の階層を示すパールの概念とは異なる、例えばある文が特定の介入に従ってモデルによって生成された場合のその文がどのように表示されるかを調べるカウンターファクチュアルを検討することが有益です。この観察に基づき、言語モデルを一般化構造方程式モデルとして再定式化することで真の文字列カウンターファクチュアルを生成するためのフレームワークを提案します。これには、Gumbel-maxトリックを使用します。これにより、元の文字列と同じサンプリングノイズのインスタンスから生じるカウンターファクチュアルに関する共同分布をモデル化することができます。私たちは、後見的Gumbelサンプリングに基づくアルゴリズムを開発し、潜在的なノイズ変数を推論し、観測された文字列のカウンターファクチュアルを生成することができます。実験では、この手法が意味のあるカウンターファクチュアルを生成する一方で、一般的に使用される介入手法がかなり望ましくない副作用を持つことを示しています。
人間の動作生成は、生成的コンピュータビジョンの最先端研究分野であり、ビデオ作成、ゲーム開発、ロボット操作などで有望な応用が期待されています。最近のMambaアーキテクチャは、長く複雑なシーケンスを効率的にモデリングするという有望な結果を示していますが、2つの重要な課題が残っています。まず、Mambaを拡張された動作生成に直接適用することは効果がなく、暗黙のメモリの容量が制限されているためメモリの減衰が起こります。第二に、MambaはTransformersと比較して多様な融合に苦労し、テキストクエリとの整合性が欠けており、しばしば方向(左または右)を混同したり、より長いテキストクエリの一部を省略したりします。これらの課題に対処するため、本論文では3つの主要な貢献を提案します。まず、動作セグメントの主要なアクションに焦点を当てるために設計されたKey frame Masking Modelingを特徴とする新しいアーキテクチャであるKMMを導入します。このアプローチはメモリの減衰問題に対処し、SSM内での戦略的なフレームレベルのマスキングをカスタマイズする先駆的な方法を表しています。さらに、Mambaの多様な融合問題と動作テキストの整合性を改善するために、対照的学習パラダイムを設計しました。最後に、従来の最先端手法と比較して、FIDで57%以上、パラメータで70%の削減を達成しながら、代表的なデータセットであるBABELで包括的な実験を行い、最先端の性能を達成しました。プロジェクトのウェブサイトをご覧ください:https://steve-zeyu-zhang.github.io/KMM
安全微調整アルゴリズムは、有害な出力を減らすために言語モデルを微調整するために一般的に使用されていますが、これらのモデルがこれをどのように達成しているかの正確な内部メカニズムは未だ明らかではありません。有害性削減のための直接的な優先度最適化(DPO)の研究において、現在の説明では、DPOが最も有害なMLPニューロンを抑制して、有害領域を回避するためのオフセットを学習することによって機能すると主張しています。しかし、最も有害なニューロンを取り除き、活性化パッチを適用することで、この説明が不完全であることがわかりました。ニューロンの活性化変化を有害性プローブに投影することで、有害性削減の31.8\%しか最も有害なニューロンを抑制していないことがわかりました。代わりに、DPOは複数のニューロングループ全体に影響を蓄積することで、有害方向の執筆を減らし、残留ストリームで反有害性を促進することで有害性を減少させています。さらに、DPOはニューロンの活性化にノイズを与え、実際には多くのニューロンが有害性を増加させています。これは、DPOが有害性削減を達成するために対立するニューロン効果の間のバランスプロセスであることを示しています。
大規模言語モデル(LLMs)は、自然言語処理(NLP)のタスクで著しい成功を収め、タンパク質配列生成などの他の領域でも有望な結果を示しています。ただし、NLP用に使用されるLLMsと、複数のタスクを効果的に処理し、小規模で利用可能なLLMsとは異なり、しばしば特定のタスクに特化したタンパク質言語モデルと、より大きなサイズでのみ存在するという顕著な違いが残っています。本研究では、Llama-3-8BとPhi-3-miniに基づく2つの小規模タンパク質言語モデルを紹介し、制御不能および制御可能なタンパク質生成の両方が可能です。制御不能な生成タスクでは、最良のモデルが平均pLDDTスコア69.75を達成し、実用的なタンパク質構造を生成する堅牢なパフォーマンスを示しています。プロンプトで指定された特性に従ってタンパク質を生成する制御可能な生成タスクでは、驚異的な平均TMスコア0.84を達成し、目標タンパク質との高い構造類似性を示しています。私たちは、6つの酵素クラスを含む10の特性を選択し、従来のタンパク質言語モデルの機能を拡張しました。私たちのアプローチは、Low-Rank Adaptor(LoRA)技術を活用し、トレーニング可能なパラメータを元のモデルサイズのわずか4%に削減し、計算要件を低減しています。UniRef50データセットのサブセットと小規模モデルを使用することで、全体のトレーニング時間を70%削減し、パフォーマンスを損なうことなく実現しました。Phi-3-miniは、Llama 3と比較してトレーニングコストを30%削減し、トレーニング可能なパラメータを60%削減したため、0.81のTMスコアを達成し、小さなモデルでもLlama 3などの大きなモデルと同等のパフォーマンスを発揮しました。さらに、当社のモデルを省エネのET-SoC-1チップに展開し、TPS/Wを3倍に向上させました。
汎用の誤り訂正器の構築は、重要な問題を提起します:どのようにして、複数のドメインデータセットを効果的にモデルに学習させることができるでしょうか?その答えは、データセット固有の特徴を学習し、その知識を単一のモデルで消化することにあるでしょう。従来の手法は、別々の訂正言語モデルを持つことでこれを達成し、パラメータが大幅に増加します。本研究では、スケーラビリティツール以上のものであると強調されるMixture-of-Expertsを提案します。我々は、マルチタスク訂正MoEを提案し、専門家を音声からテキスト、言語からテキスト、視覚からテキストのデータセットの「専門家」として育成することで、各データセットのトークンをそれにマップされた専門家にルーティングすることを学習します。Open ASR Leaderboardでの実験結果は、平均相対5.0%のWER削減と音声および翻訳タスクのBLEUスコアの実質的な改善により、新たな最先端のパフォーマンスを探索していることを示しています。ゼロショット評価では、NeKoはHyporadiseベンチマークで、GPT-3.5およびClaude-Opusを15.5%から27.6%の相対WER削減で上回ります。NeKoは、マルチタスクモデルとして文法およびOCR後の訂正において競争力を発揮します。