翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、数学的推論の多くのベンチマークで印象的な成功を収めてきました。しかし、その性能の一部が実際にはデータセット汚染を反映しているのではないかという懸念が高まっています。データセット汚染とは、ベンチマーク問題に酷似したデータが訓練データに混入し、真の推論能力ではなくなっている状態を指します。この主張を厳密に調査するため、私たちはGrade School Math 1000(GSM1k)を作成しました。GSM1kは、初等数学的推論を測定するためのゴールドスタンダードである既存のGSM8kベンチマークのスタイルと複雑さを模倣するように設計されています。2つのベンチマークが、人間の解答率、解答ステップ数、答えの大きさなどの重要な指標において比較可能であることを確認しました。主要なオープンソースおよびクローズドソースのLLMをGSM1kで評価した結果、最大13%の精度低下が観察され、PhiやMistralなどのモデルファミリーでは、ほぼすべてのモデルサイズで系統的な過学習の証拠が示されました。一方で、特に最先端のモデル(Gemini/GPT/Claudeなど)では、過学習の兆候がほとんど見られませんでした。さらに分析を行った結果、モデルがGSM8kの例を生成する確率と、GSM8kとGSM1kの間の性能差との間に正の相関関係(Spearmanのr^2=0.32)があることが示唆され、多くのモデルがGSM8kを部分的に記憶している可能性が示されました。
テキスト条件付き拡散モデルの登場により、画像編集は大きく進化しました。しかし、ユーザーが提供する入力マスクを必要とせずに、テキスト指示に基づいてシームレスにオブジェクトを画像に追加することは依然として課題です。私たちは、オブジェクトを除去する(Inpaint)ことが、それらを追加する(Paint)逆プロセスよりもはるかに単純であるという洞察を活用してこの課題に取り組みます。これは、セグメンテーションマスクデータセットと、これらのマスク内でインペイントを行うインペイントモデルを利用することに起因しています。この認識を活かし、自動化された大規模なパイプラインを実装することで、画像とそれに対応するオブジェクト除去バージョンのペアを含むフィルタリングされた大規模画像データセットを構築しました。これらのペアを使用して、インペイントプロセスを逆転させ、効果的にオブジェクトを画像に追加する拡散モデルを訓練します。他の編集データセットとは異なり、私たちのデータセットは合成画像ではなく自然なターゲット画像を特徴としています。さらに、構築上、ソースとターゲットの間の一貫性を維持しています。加えて、大規模なVision-Languageモデルを利用して除去されたオブジェクトの詳細な説明を提供し、大規模言語モデルを使用してこれらの説明を多様で自然言語の指示に変換します。訓練されたモデルが定性的および定量的に既存のモデルを上回ることを示し、大規模データセットと訓練済みモデルをコミュニティに公開します。
従来の人間のフィードバックからの強化学習(RLHF)アプローチは、Bradley-Terryモデルのようなパラメトリックモデルに依存しており、人間の選好における非推移性や非合理性を十分に捉えることができません。最近の進展では、選好確率を直接扱うことが、人間の選好をより正確に反映し、より柔軟で正確な言語モデルのアラインメントを可能にすることが示唆されています。本論文では、言語モデルのアラインメント問題を定和二人ゲームとして扱い、ナッシュ均衡ポリシーを特定することを目指す、セルフプレイベースの手法を提案します。私たちのアプローチは、Self-Play Preference Optimization(SPPO)と名付けられ、反復的なポリシー更新を通じてナッシュ均衡を近似し、理論的な収束保証を享受します。私たちの手法は、選択された応答の対数尤度を効果的に増加させ、拒否された応答の対数尤度を減少させることができ、これはDirect Preference Optimization(DPO)やIdentity Preference Optimization(IPO)のような対称的なペアワイズ損失では簡単には達成できません。私たちの実験では、UltraFeedbackデータセットからの60kのプロンプト(応答なし)のみを使用し、プロンプトの拡張を行わず、わずか0.4Bパラメータの事前学習済み選好モデルPairRMを活用することで、SPPOはMistral-7B-Instruct-v0.2のファインチューニングから得られたモデルが、AlpacaEval 2.0においてGPT-4-Turboに対する長さ制御付き勝率28.53%という最先端の結果を達成しました。また、MT-BenchおよびOpen LLM Leaderboardにおいても、(反復的な)DPOやIPOを上回りました。特に、SPPOの強力な性能は、GPT-4や他のより強力な言語モデルからの追加の外部監視(例:応答、選好など)なしに達成されています。
本研究では、最新の大規模言語モデルLlama-3に焦点を当てたターゲットモデル編集分析を提示します。我々は、特定の層への介入を目的とした人気のモデル編集手法(ROME、MEMIT、EMMET)の有効性を探ります。3つの異なる戦略(逐次編集、バッチ編集、および我々がシーケンシャル・バッチ編集と呼ぶハイブリッドアプローチ)を用いて、最大4096回の編集を実施し、ターゲット編集に最も効果的な層を特定しました。我々の調査結果は、編集回数が同じ場合、小さな編集バッチを逐次的に適用する方が、大きな編集バッチを使用するよりもモデルの性能低下が少ないことを示しています。これにより、逐次モデル編集はモデル編集手法をスケールする上で重要な要素であり、今後の研究はバッチ編集と逐次編集を組み合わせた手法に焦点を当てるべきであると主張します。この観察は、現在のモデル編集手法が大きな編集バッチサイズを推し進める傾向にあることの潜在的な限界を示唆しており、バッチサイズとモデル編集性能の最適化に向けた今後の研究の道を開くことを期待しています。
大規模言語モデル(LLMs)は、オーディオを離散トークンに変換するオーディオコーデックを通じて、オーディオ処理を大幅に進化させ、言語モデリング技術をオーディオデータに適用することを可能にしました。しかし、従来のコーデックは高ビットレートで動作したり、音声などの狭い領域に限定されており、効率的な言語モデリングに必要な意味的な手がかりを欠いていました。これらの課題に対処するため、我々はSemantiCodecを提案します。これは、音声、一般的なオーディオ、音楽など多様なオーディオタイプにおいて、品質を損なうことなく1秒あたり100トークン未満に圧縮する新しいコーデックです。SemantiCodecは、デュアルエンコーダアーキテクチャを採用しています。自己教師ありのAudioMAEを使用した意味エンコーダは、広範なオーディオデータに対してk-meansクラスタリングを用いて離散化され、残りの詳細を捕捉するための音響エンコーダが組み合わされています。意味エンコーダと音響エンコーダの出力は、拡散モデルベースのデコーダを使用してオーディオを再構築するために使用されます。SemantiCodecは、1秒あたり25、50、100トークンの3つのバリエーションで提供され、0.31 kbpsから1.43 kbpsの範囲の超低ビットレートをサポートします。実験結果は、SemantiCodecが再構築品質において最先端のDescriptコーデックを大幅に上回ることを示しています。また、我々の結果は、SemantiCodecが評価されたすべてのオーディオコーデックよりも、大幅に低いビットレートであっても、より豊富な意味情報を含んでいることを示唆しています。コードとデモはhttps://haoheliu.github.io/SemantiCodec/で公開されています。
大規模言語モデル(LLM)は、自己回帰型デコードの要求と現代のGPUの設計とのミスマッチにより、効率性が低いという課題を抱えています。具体的には、数十億から数兆のパラメータをGPUキャッシュにロードするために限られたメモリ帯域幅を使用する必要がある一方で、実際に計算されるのは少量のトークンのみです。その結果、GPUは計算ではなくメモリ転送に大部分の時間を費やしています。最近では、並列デコードと呼ばれる一種の推測的デコードアルゴリズムが注目を集めており、生成効率の大幅な向上が実証されています。この手法は、大規模モデルに追加のデコードヘッドを導入し、複数の後続トークンを同時に予測し、これらの候補続きを単一のデコードステップで検証することを可能にします。しかし、このアプローチは事前学習で使用される次のトークン予測の訓練目的から逸脱しており、候補トークンのヒット率が低くなるという問題があります。本論文では、並列デコードプロセスに逐次的な知識を統合する新しい推測的デコードアルゴリズム「Clover」を提案します。この改良により、推測器のヒット率が向上し、全体の効率が向上します。Cloverは、事前に推測されたトークンからの逐次的な知識を回帰接続(Regressive Connection)を通じて伝達し、Attention Decoderを使用してこれらの推測トークンを統合します。さらに、Cloverは、次のトークン予測ではなく推測的生成の目的に合わせて隠れ状態を修正する拡張ブロック(Augmenting Block)を組み込んでいます。実験結果では、CloverがベースラインをBaichuan-Smallで最大91%、Baichuan-Largeで最大146%上回り、以前の最高性能を誇る手法であるMedusaをBaichuan-Smallで最大37%、Baichuan-Largeで最大57%上回る性能を示しました。
最近、3Dガウシアンスプラッティングは、新しい3D表現として、高速なレンダリング速度と高品質なレンダリング品質で注目を集めています。しかし、これには高いメモリ消費が伴い、例えば、十分に訓練されたガウシアンフィールドは300万個のガウシアンプリミティブと700MB以上のメモリを消費する可能性があります。この高いメモリ使用量は、プリミティブ間の関係性が考慮されていないことに起因すると考えられます。本論文では、スペクトルプルーニングとニューラル補償を備えたメモリ効率の良いガウシアンフィールド「SUNDAE」を提案します。一方では、ガウシアンプリミティブの集合上にグラフを構築してそれらの関係性をモデル化し、望ましい信号を保持しながらプリミティブを削減するスペクトルダウンサンプリングモジュールを設計します。他方では、プルーニングされたガウシアンの品質損失を補償するために、軽量なニューラルネットワークヘッドを利用してスプラッティングされた特徴を混合し、その重みにプリミティブ間の関係性を捉えることで効果的に品質損失を補償します。SUNDAEの性能を広範な結果で示します。例えば、Mip-NeRF360データセットにおいて、SUNDAEは104MBのメモリを使用して145FPSで26.80PSNRを達成し、一方で従来のガウシアンスプラッティングアルゴリズムは523MBのメモリを使用して160FPSで25.60PSNRを達成します。コードはhttps://runyiyang.github.io/projects/SUNDAE/で公開されています。
3次元空間における物体の追跡は、自動運転において極めて重要である。安全な運転を確保するためには、追跡システムがフレーム間で物体を確実に追跡し、現在の速度や加速度などの状態を正確に推定できなければならない。既存研究では、関連付けタスクに焦点を当てることが多く、状態推定におけるモデルの性能を軽視したり、状態を予測するために複雑なヒューリスティクスを導入したりしている。本論文では、Transformersを基盤としたStateful Trackingモデル(STT)を提案する。STTはシーン内の物体を一貫して追跡すると同時に、その状態を正確に予測することができる。STTは、検出の長期履歴を通じて豊富な外観、幾何学、および運動の信号を取り込み、データ関連付けと状態推定の両タスクに対して共同で最適化される。MOTAやMOTPといった標準的な追跡指標は、物体状態の広範なスペクトルにおける両タスクの総合的な性能を捉えられないため、この制限に対処する新しい指標であるS-MOTAとMOTPSを導入して拡張する。STTは、Waymo Open Datasetにおいて競争力のあるリアルタイム性能を達成している。
アプリ開発者は、アプリ画像を含む製品ページを作成し、検索用語に入札することで自社アプリを宣伝します。この際、アプリ画像が検索用語と高い関連性を持つことが極めて重要です。この問題を解決するためには、選択された画像と検索用語のマッチング品質を予測する画像-テキストマッチングモデルが必要です。本研究では、事前学習済みのLXMERTモデルをファインチューニングすることで、アプリ画像と検索用語をマッチングする新しいアプローチを提案します。CLIPモデルや、検索用語にTransformerモデル、画像にResNetモデルを使用したベースラインと比較し、マッチング精度を大幅に向上させることを示します。評価には2種類のラベルを使用します:特定のアプリケーションに関連する広告主が提供した(画像、検索用語)ペアと、(画像、検索用語)ペア間の関連性に対する人間による評価です。提案手法は、広告主が提供した正解データに対して0.96のAUCスコアを達成し、Transformer+ResNetベースラインおよびファインチューニングされたCLIPモデルをそれぞれ8%および14%上回りました。人間がラベル付けした正解データに対しては0.95のAUCスコアを達成し、Transformer+ResNetベースラインおよびファインチューニングされたCLIPモデルをそれぞれ16%および17%上回りました。