翻訳付きの日次キュレーションされたAI研究論文
スプレッドシートは、その広大な二次元グリッド、多様なレイアウト、そして豊富なフォーマットオプションにより、大規模言語モデル(LLMs)にとって大きな課題を提示します。これに対応するため、我々はSpreadsheetLLMを導入し、スプレッドシート上でのLLMsの強力な理解力と推論能力を最大限に引き出し最適化するための効率的なエンコーディング手法を開拓しました。最初に、セルアドレス、値、フォーマットを組み込んだ基本的なシリアライゼーション手法を提案しました。しかし、この手法はLLMsのトークン制約により制限され、ほとんどのアプリケーションでは実用的ではありませんでした。この課題を解決するため、我々はSheetCompressorを開発しました。これは、LLMs向けにスプレッドシートを効果的に圧縮する革新的なエンコーディングフレームワークです。このフレームワークは、構造アンカーベースの圧縮、逆インデックス変換、データフォーマットを考慮した集約の3つのモジュールで構成されています。これにより、スプレッドシートの表検出タスクにおいて性能が大幅に向上し、GPT4のインコンテキスト学習設定において基本的な手法を25.6%上回りました。さらに、SheetCompressorでファインチューニングされたLLMは、平均25倍の圧縮率を達成しつつ、最先端の78.9%のF1スコアを記録し、既存の最良のモデルを12.3%上回りました。最後に、スプレッドシート理解の下流タスク向けにChain of Spreadsheetを提案し、新しく要求の厳しいスプレッドシートQAタスクで検証しました。我々はスプレッドシートの固有のレイアウトと構造を体系的に活用し、SpreadsheetLLMが様々なスプレッドシートタスクにおいて非常に効果的であることを実証しました。
大規模言語モデル(LLM)は顕著な能力を示しているものの、広範な文脈を処理する際に依然として課題を抱えており、長いシーケンスにわたる一貫性と正確性を維持する能力が制限されている。一方、人間の脳は、生涯にわたる広大な時間スケールでエピソード的経験を整理し、検索することに優れている。本研究では、人間のエピソード記憶とイベント認知の重要な側面をLLMに統合した新たなアプローチであるEM-LLMを提案する。これにより、実質的に無限の文脈長を効果的に処理しつつ、計算効率を維持することが可能となる。EM-LLMは、ベイズ的驚きとグラフ理論的境界精緻化を組み合わせたオンライン方式で、トークンのシーケンスを一貫したエピソード的イベントとして整理する。必要に応じて、これらのイベントは、類似性ベースおよび時間的連続性に基づく検索を組み合わせた二段階の記憶プロセスを通じて検索され、関連情報への効率的かつ人間らしいアクセスを実現する。LongBenchデータセットを用いた実験では、EM-LLMが最先端のInfLLMモデルを上回り、様々なタスクにおいて全体で4.3%の相対的改善を示し、特にPassageRetrievalタスクでは33%の改善を達成した。さらに、分析の結果、EM-LLMのイベントセグメンテーションと人間が認識するイベントとの間に強い相関が確認され、この人工システムとその生物学的対応物との間に橋渡しが可能であることが示唆された。本研究は、拡張された文脈を処理するLLMの能力を向上させるだけでなく、人間の記憶メカニズムを探求するための計算フレームワークを提供し、AIと認知科学の学際的研究における新たな道を開くものである。
本技術レポートでは、Datadogが開発した時系列予測のための新たな基盤モデル「Time Series Optimized Transformer for Observability(Toto)」について説明します。このモデルは、電力や気象などの一般的な時系列ベンチマークにおいて最先端の性能を達成するだけでなく、観測可能性メトリクスに特化して調整された初の汎用時系列予測基盤モデルでもあります。 Totoは、1兆の時系列データポイントからなるデータセットで学習されており、これは現在公開されている全ての時系列基盤モデルの中で最大規模です。公開されている時系列データセットに加え、Totoの学習に使用されたデータの75%は、Datadogプラットフォームからの完全に匿名化された数値メトリクスデータポイントで構成されています。 実験において、Totoは観測可能性データにおいて既存の時系列基盤モデルを上回る性能を示しました。さらに、汎用の予測タスクにおいても優れた性能を発揮し、複数のオープンベンチマークデータセットにおいて最先端のゼロショット性能を達成しています。
大規模言語モデル(LLMs)は、その性能を向上させるために、データやアーキテクチャの変更に伴い頻繁に更新される。モデルを更新する際、開発者は全体的な性能指標の向上に重点を置くことが多く、以前のモデルバージョンとの互換性にはあまり注意を払わない。しかし、ユーザーは特定の機械学習モデルの機能や能力についてのメンタルモデルを構築しており、更新のたびにそのメンタルモデルを適応させる必要がある。これは負担の大きい作業であり、ユーザーの不満を引き起こす可能性がある。実際には、ファインチューニングされた下流タスクアダプターは、事前学習済みのLLMベースモデルに依存している。これらのベースモデルが更新されると、ユーザー向けの下流タスクモデルはインスタンスの回帰やネガティブフリップ(以前は正しかったインスタンスが誤って予測される現象)を経験する。これは、下流タスクの学習手順が同一であっても発生する。本研究では、ユーザーに対してシームレスなモデル更新を提供することを目的としている。第一に、生成タスクを中心に、識別タスクにも適用可能な、以前のモデルバージョンとの互換性を評価するための指標を提供する。多様なタスクやモデル更新において、異なるモデルバージョン間での回帰や不整合を観察する。第二に、モデル更新における不整合の数を最小化するための学習戦略を提案する。これには、タスクファインチューニングされた言語モデルを強化する互換性モデルの学習が含まれる。Llama 1からLlama 2への更新において、ネガティブフリップ(以前のモデルバージョンでは正しかったが、新しいモデルでは誤っているインスタンス)を最大40%削減する。
大規模言語モデル(LLMs)は、汎用的なアシスタントとしての大きな可能性を示し、強力なタスク理解と問題解決能力を発揮している。LLMsをAIアシスタントとして展開するためには、これらのモデルが非毒性やジャイルブレイク攻撃に対する耐性など、望ましい行動特性を示すことが重要である。現在、脱毒性やジャイルブレイク防止のための手法は、通常、教師あり微調整(SFT)や人間のフィードバックからの強化学習(RLHF)を必要とし、膨大な計算コストを伴う勾配降下法を通じて数十億のパラメータを微調整する。さらに、SFTやRLHFを通じて修正されたモデルは、事前学習モデルから逸脱する可能性があり、基礎的なLLM能力の低下を招く恐れがある。本論文では、驚くべきことに、直接的に少数のパラメータを編集することで、LLMsの特定の行動、例えば脱毒性やジャイルブレイク耐性を効果的に調整できることを観察した。具体的には、回避したい行動に対して、我々は行動プローブと呼ぶ線形分類器を用いて、LLMの隠れ状態空間内で二値行動ラベルを分類する。このプローブを使用して、対象となる行動に大きく影響を与えるLLMパラメータの重要なサブセットを特定するアルゴリズムを導入する。次に、これらの選択されたパラメータを行動プローブに向かってシフトさせることで直接編集する。このような直接的なパラメータ編集手法は、推論レベルの計算リソースのみを必要とする。実験では、代表的な脱毒性タスクにおいて、我々のアプローチがRealToxicityPromptsデータセットで最大90.0%、ToxiGenで49.2%の毒性低減を達成し、常識、質問応答、数学などの領域におけるLLMの一般的な能力を維持することを示した。我々のコードはhttps://github.com/lucywang720/model-surgeryで公開されている。
本論文では、6Tトークンで学習されたH2O-Danube3-4Bと、4Tトークンで学習されたH2O-Danube3-500Mからなる小規模言語モデルシリーズ、H2O-Danube3を紹介する。我々のモデルは、主に英語トークンで構成される高品質なウェブデータを用いて、異なるデータミックスによる3段階の事前学習を経て、最終的にチャット版のための教師ありチューニングが施されている。これらのモデルは、学術、チャット、およびファインチューニングのベンチマークにおいて、非常に競争力のある指標を示している。コンパクトなアーキテクチャにより、H2O-Danube3は最新のスマートフォン上でも効率的に動作し、モバイルデバイス上でのローカル推論と迅速な処理能力を実現する。我々は、すべてのモデルをApache 2.0ライセンスの下で公開し、LLMを経済的に広範なユーザーに普及させることを目指している。
新規で興味深いゲームを自動生成することは複雑な課題である。その主な難点として、ゲームルールを計算機で扱える形で表現すること、そのような表現の下で膨大な可能性を持つゲーム空間を探索すること、そして未見のゲームの独創性と品質を正確に評価することが挙げられる。これまでの自動ゲーム生成に関する研究は、比較的制限されたルール表現に焦点を当て、ドメイン固有のヒューリスティクスに依存するものが多かった。本研究では、1000以上のボードゲームのルールを様々なスタイルとプレイモードでエンコードするLudiiゲーム記述言語という比較的広範な枠組みにおいて、新規ゲームの生成を探求する。大規模言語モデルと進化的計算の最近の進展からインスピレーションを得て、コードとして表現されたゲームやメカニクスを知的に変異・再結合するモデルを訓練する。我々のアプローチが、Ludiiデータセットの既存ゲームではカバーされていないルール空間の領域を含め、新規で興味深いゲームを生成可能であることを定量的・定性的に示す。生成されたゲームの一部は、Ludiiポータルを通じてオンラインでプレイ可能である。
大規模言語モデルにおいてほぼ普遍的に採用されているにもかかわらず、トランスフォーマーの内部動作は十分に理解されていません。本研究では、事前学習済みトランスフォーマーの各層における情報の削除や再編成が及ぼす影響をより深く理解することを目指しています。このような理解は、既存モデルのより良い活用につながるだけでなく、新しいバリエーションを生み出すためのアーキテクチャの改善にも寄与する可能性があります。我々は、凍結されたモデルに関する一連の実証研究を提示し、事前学習済みトランスフォーマーの下位層と最終層が中間層とは異なる一方で、中間層には驚くほどの均一性があることを示します。さらに、特定の問題クラスにおいては、層をスキップしたり、学習時とは異なる順序で層を実行したり、層を並列に実行したりすることに対してロバスト性があることを示します。これらの観察結果は、凍結された事前学習済みモデルであっても、層をスキップしたり並列に実行したりすることで、精度とレイテンシを柔軟にトレードオフできる可能性を示唆しています。
最近のラディアンスフィールドの進展により、高品質な3Dアセットやシーンを作成する新たな道が開かれました。スタイル転写は、これらの3Dアセットに多様な芸術的スタイルを適用し、創造的な表現を変革することができます。しかし、既存の技術はしばしば遅く、特定のオブジェクトにスタイル転写を局所化することができません。本論文では、3Dガウシアンで表現されたシーン内の3Dオブジェクトを参照スタイル画像からスタイライズする軽量な手法であるStyleSplatを紹介します。私たちのアプローチでは、まず3Dガウシアンスプラッティングを使用してシーンのフォトリアルな表現を学習し、同時に個々の3Dオブジェクトをセグメンテーションします。その後、最近傍特徴マッチング損失を使用して選択されたオブジェクトのガウシアンを微調整し、その球面調和係数をスタイル画像と整合させ、一貫性と視覚的魅力を確保します。StyleSplatは、シーン内の複数のオブジェクトに対して迅速でカスタマイズ可能なスタイル転写と局所的なスタイライズを可能にし、それぞれ異なるスタイルを適用できます。私たちは、様々な3Dシーンとスタイルにわたるその有効性を実証し、3D作成における制御とカスタマイズの強化を示します。
長文の科学的研究論文内での質問に対する回答を求めることは、読者が迅速に疑問を解決するのに役立つ重要な研究分野です。しかし、既存の科学論文に基づく質問応答(QA)データセットは規模が限られており、テキストコンテンツのみに焦点を当てています。この制約に対処するため、私たちはSPIQA(Scientific Paper Image Question Answering)を導入します。これは、コンピュータサイエンスのさまざまな分野にわたる科学研究論文内の複雑な図表を解釈するために特別に設計された初の大規模QAデータセットです。マルチモーダル大規模言語モデル(MLLMs)の幅広い専門知識と図表理解能力を活用し、自動および手動のキュレーションを行ってデータセットを作成しました。私たちは、多様なプロット、チャート、表、概略図、結果の可視化を含む複数の画像を対象とした情報探索タスクを考案しました。SPIQAは、訓練、検証、および3つの異なる評価分割に分けられた270Kの質問で構成されています。12の主要な基盤モデルを用いた広範な実験を通じて、現在のマルチモーダルシステムが研究論文の微妙な側面を理解する能力を評価します。さらに、コンテキスト内検索を伴うChain-of-Thought(CoT)評価戦略を提案し、細かいステップバイステップの評価を可能にし、モデルの性能を向上させます。追加のテキスト情報による性能向上の上限をさらに探り、将来の研究における有望な可能性と、データセットが科学文献との相互作用を革新する上での影響を強調します。
過去の大規模言語モデルは、モデルの応答を人間の選好により適切に整合させるために、何らかの形の人間フィードバックを用いた強化学習(RLHF)に依存してきた。しかし、これらのRLHFパイプラインを実装する際にしばしば観察される不安定性のため、最近ではRL報酬モデルを別途学習する必要性を回避するためのさまざまな再パラメータ化技術が導入されている。代わりに、単一の閉形式の訓練目的関数を最小化することで、人間の選好に直接的に微調整を行うことが可能となった。このプロセスは当初、直接選好最適化(DPO)と呼ばれ、その後いくつかの注目すべき派生手法が続いた。現実世界の特定の設定では効果的であるものの、我々は新しい評価基準を導入し、既存のDPO手法が事前学習された参照モデルと人間の選好の経験的尺度との間を補間する能力における未解決の課題、および低品質と高品質の応答を正則化する方法や制約を扱う際の避けられないトレードオフを浮き彫りにする。これらの洞察は、これらの制限を確実に緩和する代替的なDPO風の損失関数を動機づける。実験結果は、我々の分析の注目すべき側面を裏付けるものである。
長文脈推論は、計算リソースとメモリ要件の増大というシステムレベルの課題と、長い文脈を推論する精度の観点から課題を抱えています。最近では、文脈長を短縮するためにプロンプトを圧縮するいくつかの手法が提案されています。しかし、標準化された分析を通じて異なるタスク間で提案された手法を比較する研究はほとんど行われておらず、これが矛盾する結果を生んでいます。この問題に対処するため、本研究ではさまざまなプロンプト圧縮手法の包括的な特性評価と評価を行います。具体的には、抽出型圧縮、要約に基づく抽象型圧縮、およびトークンプルーニング手法を分析します。驚くべきことに、抽出型圧縮が他のすべてのアプローチをしばしば上回り、精度の低下を最小限に抑えながら最大10倍の圧縮を可能にすることがわかりました。また、最近のいくつかの主張にもかかわらず、トークンプルーニング手法は抽出型圧縮にしばしば遅れをとることも明らかになりました。要約タスクではわずかな改善しか見られませんでした。
音声処理におけるMambaがTransformerの優れた代替手段であると結論づけるには時期尚早であり、複数の音声関連タスクにおいて性能と効率の両面でMambaとTransformerを比較する必要がある。この結論に至るため、我々は3つのタスクに対して3つのモデルを提案し評価した:音声分離のためのMamba-TasNet、音声認識のためのConMamba、音声合成のためのVALL-Mである。これらを同規模のTransformerと性能、メモリ使用量、速度の観点で比較した。我々のMambaまたはMamba-Transformerハイブリッドモデルは、対応するTransformerモデル(Sepformer、Conformer、VALL-E)と同等以上の性能を示した。また、音声トークンの解像度に反比例する閾値時間を超える音声長において、メモリと速度の面でTransformerよりも効率的であった。分離タスクにおけるMambaが最も効率的であり、認識タスクにおけるMambaが最も効率が低かった。さらに、閾値時間未満の短い音声においてはMambaはTransformerよりも効率的ではなく、2つの入力のクロスアテンションやマスクアテンションなど、テキストと音声の共同モデリングを必要とするモデルでは性能が劣ることを示した。したがって、MambaとTransformerの優位性は特定の問題やモデルに依存すると主張する。コードはhttps://github.com/xi-j/Mamba-TasNetおよびhttps://github.com/xi-j/Mamba-ASRで公開されている。
ポーズ駆動型の人物画像アニメーション拡散モデルは、リアルな人物動画合成において顕著な能力を示しています。これまでの手法が達成した有望な結果にもかかわらず、時間的に一貫したアニメーションの実現や、市販のポーズ検出器に対するロバスト性の確保において課題が残されています。本論文では、誤ったポーズに対してロバストであり、時間的に一貫性のあるポーズ駆動型人物画像アニメーション手法であるTCANを提案します。従来の手法とは異なり、我々は微調整を行わずに事前学習済みのControlNetを活用し、多数のポーズ-画像-キャプションペアから得られた広範な事前知識を利用します。ControlNetを凍結したままにするため、UNet層にLoRAを適用し、ポーズと外見特徴の潜在空間を整合させることを可能にします。さらに、ControlNetに追加の時間層を導入することで、ポーズ検出器の外れ値に対するロバスト性を向上させます。時間軸にわたるアテンションマップの分析を通じて、ポーズ情報を活用した新しい温度マップを設計し、より静的な背景を実現しました。広範な実験により、提案手法がチビキャラなど様々なポーズを含む動画合成タスクにおいて有望な結果を達成できることが示されています。プロジェクトページ: https://eccv2024tcan.github.io/
画像キャプショニングにおける検索拡張モデルの最近の進展は、関連するキャプションを検索することで、効率的で軽量なモデルを実現し、強力なドメイン転移能力を発揮する利点を強調している。これらのモデルは検索拡張の成功を示しているものの、実際には検索モデルはまだ完璧とは言えず、検索された情報がモデルを誤解させ、誤った生成や性能の低下を引き起こすことがある。本論文では、検索拡張キャプショニングモデルSmallCapの頑健性を分析する。分析の結果、モデルは検索されたキャプションの大多数に現れるトークンに対して敏感であり、入力帰属分析によると、それらのトークンは生成された出力にコピーされる傾向があることが明らかになった。これらの知見に基づき、より多様なセットから検索されたキャプションをサンプリングしてモデルを訓練することを提案する。これにより、モデルが多数派のトークンをコピーすることを学習する可能性が減少し、ドメイン内およびドメイン間の性能が向上する。
本研究は、大規模言語モデル(LLM)の安全性チューニングにおける重要な課題に取り組み、安全性チューニングデータ内に存在する拒否位置バイアスを特定し、その解決を図ることで、モデルが不適切な内容の生成を適切に拒否する能力を損なう問題に対処します。我々は、Decoupled Refusal Training(DeRTa)という新たなアプローチを提案し、LLMが有害なプロンプトに対して応答のどの位置でも拒否する能力を強化し、安全性を大幅に向上させます。DeRTaは、以下の2つの新規コンポーネントを組み込んでいます:(1)有害な応答プレフィックスを用いた最尤推定(MLE)。これは、安全な応答の先頭に有害な応答の一部を付加することで、モデルが不適切な内容を認識し回避するように訓練します。(2)強化された遷移最適化(RTO)。これは、モデルが有害な応答シーケンス全体を通じて、潜在的な危害から安全な拒否へ一貫して遷移する能力を備えるようにします。LLaMA3およびMistralモデルファミリーを用いた6つの攻撃シナリオでの実証評価により、我々の手法が性能を損なうことなくモデルの安全性を向上させるだけでなく、GPT-4などの著名なモデルを凌ぐ攻撃防御能力を持つことを示しました。特に、我々のアプローチは、GPT-4やLLaMA3-70B-Instructをジャイルブレイクした最近の高度な攻撃手法(例:CodeAttack)に対しても有効に防御します。コードとデータはhttps://github.com/RobustNLP/DeRTaで公開しています。
任意の照明条件下でのNeRF合成は、ここ数年で重要な課題となってきました。最近の研究では、物理ベースのパラメータを抽出し、それを任意の照明下でレンダリングするアプローチが取られていますが、扱えるシーンの範囲に制限があり、特に光沢のあるシーンを適切に処理できないという課題があります。本論文では、RRMという手法を提案します。この手法は、高度に反射性の高い物体が存在するシーンにおいても、その素材、ジオメトリ、環境照明を抽出することが可能です。私たちの手法は、物理ベースのパラメータを提供する物理的に意識された放射輝度フィールド表現と、ラプラシアンピラミッドに基づく表現力豊かな環境光構造から構成されています。私たちの提案が、パラメータ取得タスクにおいて最先端の手法を上回り、表面シーンにおける高忠実度の再照明と新規視点合成を実現することを実証します。