翻訳付きの日次キュレーションされたAI研究論文
私たちは、金融におけるLLMベースのクエリ応答システムにおける人間インタフェースの相互作用の6つの変化に対するLLMの頑健性とコンテキスト認識をテストするために設計された新しい長いコンテキストの金融ベンチマーク、FailSafeQAを提案します。私たちは、Query FailureとContext Failureの2つのケーススタディに焦点を当てています。Query Failureシナリオでは、元のクエリをドメインの専門知識、完全性、および言語の正確性に変化させるために摂動を加えます。Context Failureの場合、劣化した、無関係な、空のドキュメントのアップロードをシミュレートします。私たちは、Qwen2.5-72B-Instructを用いたLLM-as-a-Judge方法論を採用し、24の市販モデルに対してRobustness、Context Grounding、Complianceのスコアを定義および計算するための細かい評価基準を使用します。結果は、一部のモデルが入力の摂動を緩和することに優れているものの、頑健な回答と空想を控える能力とのバランスを取らなければならないことを示唆しています。特に、最も適合性のあるモデルとして認識されたPalmyra-Fin-128k-Instructは、強力なベースライン性能を維持していましたが、テストケースの17%で頑健な予測を維持することに課題を抱えていました。一方、最も頑健なモデルであるOpenAI o3-miniは、テストされたケースの41%で情報を捏造していました。結果は、高性能なモデルでも大幅な改善の余地があり、FailSafeQAの金融アプリケーションにおける信頼性向上に最適化されたLLMの開発ツールとしての役割を強調しています。データセットは以下で入手可能です:https://huggingface.co/datasets/Writer/FailSafeQA
大規模言語モデル(LLMs)に適用された強化学習が、複雑なコーディングおよび推論タスクの性能を大幅に向上させることを示します。さらに、2つの汎用推論モデル、OpenAI o1 と o3 の初期チェックポイントと、2024年国際情報オリンピアード(IOI)で競技するために設計された手作業の推論戦略を使用するドメイン固有のシステムである o1-ioi を比較します。私たちは、o1-ioi でIOI 2024に出場し、手作業で作成したテスト時戦略を使用して49パーセンタイルに入賞しました。緩和された競技制約の下で、o1-ioi は金メダルを獲得しました。ただし、o3などの後のモデルを評価すると、o3は手作業のドメイン固有の戦略や緩和された制約なしで金メダルを獲得します。私たちの調査結果は、o1-ioiなどの専門のパイプラインが確かな改善をもたらす一方で、拡大された汎用のo3モデルが手作業の推論ヒューリスティクスに依存せずにこれらの結果を上回ることを示しています。特筆すべきは、o3が2024年IOIで金メダルを獲得し、エリート人間の競技者と同等のCodeforcesレーティングを獲得していることです。これらの結果は、競技プログラミングなどの推論領域における最先端のAIに向けた堅牢な道筋として、ドメイン固有の技術に頼るのではなく、汎用の強化学習をスケーリングすることが有効であることを示しています。
推論は大規模言語モデルの基本的な能力です。従来の研究は主に数学やコード生成などの狭いスキルの向上に焦点を当ててきましたが、他の多くの推論タスクのパフォーマンス向上は、訓練データがまばらで断片化しているために依然として困難です。この問題に対処するために、私たちはCodeI/Oを提案します。これは、文脈に根ざしたコードに固有に埋め込まれた多様な推論パターンを体系的に凝縮する革新的なアプローチです。これは、元のコードをコード入出力予測形式に変換することで実現されます。モデルを訓練して、自然言語で完全にコードとテストケースから入出力を予測させることで、Chain-of-Thought(CoT)の合理性として普遍的な推論プリミティブ -- 例えば、論理フローの計画、状態空間探索、決定木の走査、モジュール分解 -- にさらすことができます。これにより、構造化された推論をコード固有の構文から切り離し、手続きの厳密さを保持しつつ、実験結果は、CodeI/Oが象徴的、科学的、論理的、数学的、数値的、常識的な推論タスク全体で一貫した改善をもたらすことを示しています。既存の正解出力に一致させるか、予測された入力でコードを再実行することで、各予測を検証し、マルチターンの修正を通じてCoTをさらに向上させ、CodeI/O++を実現し、より高いパフォーマンスを達成します。当社のデータとモデルは、https://github.com/hkust-nlp/CodeIO で入手可能です。
大規模推論モデル(LRM)は、反射、バックトラッキング、自己検証を組み込んだ長い思考の連鎖(Long CoT)に従うことで、複雑な推論問題に取り組みます。ただし、Long CoTを引き出すためのトレーニング技術とデータ要件は依然として理解されていません。本研究では、大規模言語モデル(LLM)が、データ効率の良い教師付きファインチューニング(SFT)とパラメータ効率の良い低ランク適応(LoRA)を通じて、効果的にLong CoT推論を学習できることがわかりました。17kの長いCoTトレーニングサンプルだけで、Qwen2.5-32B-Instructモデルは、AIME 2024で56.7%(+40.0%)、LiveCodeBenchで57.0%(+8.1%)など、広範囲の数学およびコーディングベンチマークで著しい改善を達成し、専用のo1-previewモデルのスコア44.6%および59.1%に匹敵します。さらに、Long CoTの構造が学習プロセスにおいて重要であることがわかりましたが、個々の推論ステップの内容はほとんど影響を与えません。不適切なサンプルでトレーニングしたり、推論キーワードを削除したりするなど、内容に影響を与える摂動はパフォーマンスにほとんど影響しません。それに対して、Long CoT内の論理的整合性を乱す構造的変更(シャッフルや推論ステップの削除など)は、精度を著しく低下させます。例えば、不正解の回答を含むLong CoTサンプルでトレーニングされたモデルは、完全に正しいサンプルでトレーニングした場合と比較して、わずか3.2%の精度低下にとどまります。これらの知見は、LLMにおける推論能力を引き出す方法についての理解を深め、次世代の推論モデルを効率的にトレーニングする際の重要な考慮事項を示しています。これは、以前にリリースされたSky-T1-32B-Previewモデルの学術論文です。コードはhttps://github.com/NovaSky-AI/SkyThoughtで入手可能です。
株価の動きを予測することは、金融時系列予測における基本的なタスクであり、膨大な時系列データから重要な影響要因を特定して取得する必要があります。しかし、既存のテキストトレーニング済みまたは数値類似性ベースの検索方法は、複雑な金融分析を扱うのには適していません。この課題に対処するために、金融時系列予測向けの初の検索拡張生成(RAG)フレームワークを提案します。このフレームワークには、以下の3つの主要な革新が特色として含まれています:バックボーンとしての微調整された10億パラメータの大規模言語モデル(StockLLM)、LLMフィードバックを活用した新しい候補選択方法、およびクエリと歴史的に重要なシーケンスとの類似性を最大化するトレーニング目的。これにより、当社のリトリーバーであるFinSeerは、複雑な金融データにおけるノイズを最小限に抑えながら意味のあるパターンを明らかにすることが可能となります。また、金融指標と歴史的株価を統合した新しいデータセットを構築し、FinSeerをトレーニングして堅牢な評価を確保します。実験結果は、当社のRAGフレームワークが単なるStockLLMやランダム検索よりも優れていることを示し、その効果を強調しています。さらに、FinSeerは既存の検索方法を凌駕し、BIGDATA22において8%の高い精度を達成し、より影響力のあるシーケンスを取得しています。この研究は、金融予測における適合型検索モデルの重要性を強調し、将来の研究のための新しいフレームワークを提供しています。
この技術レポートでは、最適化されたメモリ消費量と推論レイテンシーを持つ効率的なビデオ生成モデルであるMagic 1-For-1(Magic141)を紹介します。主要なアイデアは単純です:テキストからビデオを生成するタスクを、拡散ステップ蒸留のために2つの別々のより簡単なタスク、つまりテキストから画像生成と画像からビデオ生成に分解することです。同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスクよりも収束しやすいことを確認します。また、画像からビデオ(I2V)モデルのトレーニングの計算コストを削減するための最適化トリックの一握りを探求します:1)マルチモーダル事前条件のインジェクションを使用してモデルの収束速度を加速化することによるモデルの収束速度の向上;2)敵対的なステップ蒸留を適用することによる推論レイテンシーの向上;および3)パラメータの疎な化による推論メモリコストの最適化。これらの技術を用いることで、3秒以内に5秒のビデオクリップを生成することができます。テスト時のスライディングウィンドウを適用することで、平均で1秒のビデオクリップを生成するのに1秒未満を要することで、1分間のビデオを1分以内に生成し、視覚的品質と動きのダイナミクスが大幅に向上します。拡散ステップ蒸留中の計算コストとビデオ品質の最適なトレードオフを見つけるための一連の予備的な探索を行い、これがオープンソースの探索のための良い基礎モデルになることを期待しています。コードとモデルの重みは、https://github.com/DA-Group-PKU/Magic-1-For-1 で入手可能です。
我々は、1000億の例という前例のない規模で、視覚言語モデルの事前学習の潜在能力について実証的な調査を行っています。我々は、COCOキャプションなどの一般的な西洋中心の分類および検索ベンチマークにおいて、この規模でのモデルの性能が飽和する傾向があることを見つけました。それにもかかわらず、文化的多様性のタスクは、1000億規模のウェブデータからのより実質的な利益を得ています。これは、そのデータがロングテールの概念をカバーしているためです。さらに、我々はモデルの多言語性を分析し、低リソース言語でも利益を示しています。さらに、CLIPなどの品質フィルタを使用して事前学習データセットのサイズを削減することが、通常はパフォーマンスを向上させるために使用されますが、大規模データセットでも表現される文化的多様性を意図せずに減少させる可能性があることを観察しています。我々の結果は、伝統的なベンチマークはノイズの多い生のウェブデータを1000億の例にスケーリングしても、大きな利益を得ることはないかもしれませんが、このデータ規模は本当に包括的なマルチモーダルシステムを構築するために不可欠であることを強調しています。
スケーリング則は通常、狭い範囲の固定ハイパーパラメータ選択を使用して適合されます。本研究では、幅広いアーキテクチャとハイパーパラメータ選択を使用してスケーリング則を研究し、その結果に与える影響を強調します。当研究の主要成果として、我々は「Gemstones(宝石)」を公開します。これは、史上最も包括的なオープンソースのスケーリング則データセットであり、最大20億のパラメータを持つトランスフォーマーからの4000以上のチェックポイントで構成されています。これらのモデルは異なる学習率、冷却スケジュール、およびアーキテクチャ形状で訓練されています。当チェックポイントにより、モデルの幅と深さの関数として言語モデリングのパフォーマンスを予測する法則など、より複雑なスケーリングの研究が可能となります。当モデルスイートのさまざまな側面を検討することで、スケーリング則の指針は実験設計プロセスと適合中に使用される特定のモデルチェックポイントに非常に敏感であることが分かります。コード:https://github.com/mcleish7/gemstone-scaling-laws
大規模言語モデル(LLM)に批評と改善を教えることは、反復的に改善できるシステムを構築するために重要ですが、正確な判断と実用的な提案を行う能力に基本的に制限があります。本研究では、コード生成のためのLLM批評を研究し、Critc Training via Reinforcement Learning(CTRL)というフレームワークを提案します。このフレームワークは、人間の監督なしに、修正パフォーマンスを最大化するフィードバックを生成する批評モデルを訓練するものです。私たちの結果は、CTRLで訓練された批評者が、基本的なおよびより強力な生成モデルの両方で合格率を著しく向上させ、複合エラーを軽減することを示しています。さらに、これらの批評モデルが正確な生成報酬モデルとして機能し、反復的な批評修正を通じてテスト時のスケーリングを可能にし、難しいコード生成のベンチマークで最大106.1%の相対的な改善を達成していることを示しています。
DiTベースのビデオ生成は素晴らしい結果を達成していますが、既存のモデルの向上に関する研究は比較的未開拓のままです。本研究では、訓練不要のアプローチを導入し、DiTベースの生成されたビデオの一貫性と品質を向上させるEnhance-A-Videoを紹介します。中心となるアイデアは、非対角の時間的注意分布に基づいてクロスフレームの相関を向上させることです。シンプルな設計のおかげで、我々のアプローチは再訓練や微調整を必要とせず、ほとんどすべてのDiTベースのビデオ生成フレームワークに簡単に適用できます。さまざまなDiTベースのビデオ生成モデルにおいて、我々のアプローチは時間的一貫性と視覚的品質の両方で有望な改善を示しています。この研究がビデオ生成の向上における将来の探求を刺激することを願っています。
ファウンデーションモデルは、自然言語処理と人工知能を革新し、機械が人間の言語を理解し生成する方法を大幅に向上させました。これらのファウンデーションモデルの成功を受けて、研究者たちは、小さな分子、材料、タンパク質、DNA、RNAなど、個々の科学領域向けのファウンデーションモデルを開発してきました。しかし、これらのモデルは通常、孤立して訓練されており、異なる科学領域を統合する能力を欠いています。これらの領域内の実体がすべてシーケンスとして表現でき、それらが「自然の言語」を形成すると認識し、科学的発見のために設計されたシーケンスベースの科学ファウンデーションモデルであるNature Language Model(簡単にNatureLMと呼ぶ)を紹介します。複数の科学領域からのデータで事前に訓練されたNatureLMは、さまざまなアプリケーションを可能にする統一された汎用モデルを提供します。これには、(i) テキスト指示を使用した小さな分子、タンパク質、RNA、材料の生成と最適化、(ii) クロスドメイン生成/設計、例えばタンパク質から分子への生成やタンパク質からRNAへの生成、および(iii) SMILES-to-IUPAC翻訳やUSPTO-50kにおけるレトロ合成などのタスクで最先端のパフォーマンスを達成することが含まれます。NatureLMは、薬物探索(ヒット生成/最適化、ADMET最適化、合成)、新規材料設計、治療用タンパク質やヌクレオチドの開発など、さまざまな科学的タスクにおける有望な汎用アプローチを提供します。私たちは、異なるサイズ(10億、80億、46.7億パラメータ)のNatureLMモデルを開発し、モデルサイズが増加するにつれてパフォーマンスが明確に向上することを観察しました。
エージェント志向の事前トレーニングデータが不足しているため、LLMベースの自律エージェントは通常、新しい能力を導入しつつ強力な汎化性を維持することが難しい複雑なプロンプトや広範なファインチューニングに頼ることがよくあります。本研究では、API関数呼び出し、内在的推論と計画、環境フィードバックへの適応の基本的な能力を向上させるために設計された初の大規模事前トレーニングコーパスであるHephaestus-Forgeを紹介します。Hephaestus-Forgeには、76,537のAPIを含む103Bのエージェント固有データが含まれており、API関数の知識を導入するためのツールのドキュメントと内在的推論を強化するための関数呼び出し軌道が含まれています。効果的なトレーニングプロトコルを探るために、データ混合比率の最適なレシピを特定するためにスケーリング則を調査します。Hephaestus-Forgeでの継続的な事前トレーニングにより、Hephaestusは、3つのエージェントベンチマークで小規模から中規模のオープンソースLLMを上回り、商用LLMと競り合う性能を発揮し、LLMの基本的なエージェント能力と新しいタスクや環境への汎化を向上させる当社の事前トレーニングコーパスの効果を示しています。
最近の画像から動画への生成手法は、カメラの軌跡や物体の動きなど1つまたは2つの視覚要素に対する制御を可能にする成功を示しています。しかし、これらの手法は、データとネットワークの効果に制限があるため、複数の視覚要素に対する制御を提供することができません。本論文では、カメラの動き、物体の動き、および照明方向を同時に制御する画像から動画への生成のための革新的なフレームワークであるVidCRAFT3を紹介します。各視覚要素の制御をより分離するために、照明方向、テキスト、画像を対称的に統合するSpatial Triple-Attention Transformerを提案します。ほとんどの実世界のビデオデータセットには照明の注釈がないため、高品質な合成ビデオデータセットであるVideoLightingDirection(VLD)データセットを構築します。このデータセットには照明方向の注釈と多様な外観の物体が含まれており、VidCRAFT3が強い光の透過や反射効果を効果的に処理できるようになります。さらに、カメラの動き、物体の動き、照明方向の複数の視覚要素に注釈付けされたトレーニングデータが同時に必要ない3段階のトレーニング戦略を提案します。ベンチマークデータセットでの幅広い実験により、VidCRAFT3の効果を示し、制御の粒度と視覚的な一貫性の点で既存の最先端手法を上回る高品質なビデオコンテンツを生成することができることが示されました。すべてのコードとデータは公開されます。プロジェクトページ:https://sixiaozheng.github.io/VidCRAFT3/。
私たちは、1 枚のカジュアルにクリックされた写真から人物の 1K 解像度の密なターンアラウンド動画を生成できる生成モデル Pippo を提案します。Pippo はマルチビュー拡散トランスフォーマーであり、追加の入力(例:適合したパラメトリックモデルや入力画像のカメラパラメータ)は必要ありません。Pippo を 3B 人物画像(キャプションなし)で事前学習し、スタジオで撮影された人物に対してミッドトレーニングとポストトレーニングを行います。ミッドトレーニング中には、スタジオデータセットを素早く取り込むために、低解像度でいくつかの(最大 48 個)ビューをノイズ除去し、目標カメラを浅い MLP を使用して粗くエンコードします。ポストトレーニング中には、高解像度でより少ないビューをノイズ除去し、ピクセルに整列したコントロール(例:空間アンカーおよびプラッカー光線)を使用して 3D 一貫性のある生成を可能にします。推論時には、Pippo がトレーニング中に見られるビューの 5 倍以上を同時に生成できるようにする注意バイアス技術を提案します。最後に、単一画像からのマルチビュー人物生成において Pippo が既存の研究を上回ることを示す改良されたメトリックを導入し、マルチビュー生成の 3D 一貫性を評価します。
大規模言語モデル(LLMs)は一般的なベンチマークで優れた成績を収めるように見えますが、これらの高得点は真の言語理解よりもデータセット固有の表面的手掛かりに過度に依存している可能性があります。私たちは、カメレオンベンチマークオーバーフィットディテクター(C-BOD)を導入します。これは、パラメトリック変換を介してベンチマークプロンプトを系統的に歪ませ、LLMsの過学習を検出するメタ評価フレームワークです。入力を言い換えつつ意味内容とラベルを保持することで、C-BODはモデルの性能が記憶されたパターンによって駆動されているかどうかを明らかにします。26の主要なLLMsを使用してMMLUベンチマークで評価した結果、当社の手法は、適度な摂動下で平均性能の低下率が2.15%であり、26モデル中20モデルが統計的に有意な差を示しています。特筆すべきは、基準精度が高いモデルほど摂動下で性能差が大きくなり、大規模LLMsほど言い換えに敏感であり、両方の場合とも固定プロンプトパターンに過度に依存している可能性があることを示しています。これに対して、Llamaファミリーおよび基準精度が低いモデルは無視できる程度の低下を示し、表面的手掛かりへの依存が低いことを示唆しています。さらに、C-BODのデータセットおよびモデルに依存しない設計は、トレーニングパイプラインに簡単に統合でき、より堅牢な言語理解を促進します。私たちの調査結果は、コミュニティに、リーダーボードの得点を超えて、LLMの評価において抵抗力と汎化性を優先させるよう促しています。
ほとんどの検索モデルは、クエリと文書の間の関連性スコアを生成するためにベクトル内積に依存しています。これにより、使用できる関連性スコアの表現力が自然に制限されます。我々は新しいパラダイムを提案します。クエリを表すベクトルを生成する代わりに、学習された関連性関数として機能する小さなニューラルネットワークを生成します。この小さなニューラルネットワークは、文書の表現を受け取り、本論文では単一のベクトルを使用し、スカラーの関連性スコアを生成します。この小さなニューラルネットワークを生成するために、ハイパーネットワークを使用し、他のネットワークの重みを生成するネットワーク、つまり私たちがHypencoderと呼ぶクエリエンコーダとして使用します。ドメイン内の検索タスクでの実験では、Hypencoderが強力な密な検索モデルを大幅に上回り、再ランキングモデルや桁違いに大きなモデルよりも高いメトリクスを持つことが示されました。Hypencoderは、ドメイン外の検索タスクにも適切に汎化されることが示されています。Hypencoderの能力の程度を評価するために、tip-of-the-tongue検索やinstruction-following検索などの一連の難しい検索タスクで評価し、標準的な検索タスクと比較して性能差が大幅に拡大することが分かりました。さらに、当社の手法の実用性を示すために、近似検索アルゴリズムを実装し、モデルが60ms未満で8.8Mの文書を検索できることを示します。
光学文字認識(OCR)技術は、文書の画像からテキストを抽出するため広く利用され、効率的なデジタル化とデータ検索を可能にしています。ただし、複雑な文書を扱う際には、単にテキストを抽出するだけでは不十分です。このような文書を完全に理解するには、フォーマット、数式、表、複数のページにわたる複数のブロックや列の読み取り順序、脚注や画像キャプションなどの要素を検出するための構造の理解が必要です。この包括的な理解は、検索、文書に関する質問への回答、大規模言語モデル(LLMs)やビジョン言語モデル(VLMs)のトレーニングのためのデータ整備など、下流タスクにとって重要です。この課題に対処するために、私たちは幅広い文書タイプを処理するために特に設計された汎用テキスト抽出ツールである「Éclair」を紹介します。画像が与えられると、Éclairは、読み取り順序でフォーマットされたテキストを抽出し、それに対応する境界ボックスとそれらの対応する意味クラスを取得できます。これらの新しい機能を徹底的に評価するために、文書レベルのOCRと意味分類のための多様な人手によるアノテーションベンチマークを紹介します。Éclairは、このベンチマークで最先端の精度を達成し、主要な指標において他の手法を凌駕しています。さらに、Éclairを確立されたベンチマークで評価し、その汎用性と強さを複数の評価基準にわたって示しています。
マルチモーダル大規模言語モデル(MLLMs)は、長いビデオに対して過剰なビジュアルトークンが必要となるため、苦労しています。これらのトークンはMLLMsのコンテキスト長を大幅に超え、冗長なタスクに関係のないショットで満たされる結果となります。ショットの選択方法は未解決の重要な問題です。まばらなサンプリングは重要な詳細を見逃すリスクがあり、徹底的なサンプリングはモデルを無関係なコンテンツで圧倒し、ビデオの誤解を招きます。この問題を解決するために、私たちはショットの連鎖提示(CoS)を提案します。その主要なアイデアは、ショットの選択をテスト時の視覚的なプロンプト最適化としてフレーム化し、ビデオ理解の意味的タスクに適応したショット-タスクの整合性を最適化することです。CoSには2つの主要な部分があります:(1)擬似的な時間的な基盤を行うバイナリビデオサマリーメカニズムは、タスクに関連するショットを特定するためのバイナリコーディングを発見し、(2)ビデオ共同推論モジュールは、タスクに関連するポジティブなショットと無関係なネガティブなショットをペアにする(整列学習)ためにバイナリコーディングを展開します。最適化されたショット選択を元のビデオに埋め込むことで、長いビデオ理解を最適化するための関連するコンテキストに焦点を当てます。3つのベースラインと5つのデータセットを対象とした実験は、CoSの効果と適応性を示しています。コードはhttps://lwpyh.github.io/CoSにあります。
大規模言語モデル(LLMs)は、主要情報を正確に取得する際に問題を抱えていることが明らかになっています。この課題に対処するために、私たちはMask-Enhanced Autoregressive Prediction(MEAP)を提案します。これは、Masked Language Modeling(MLM)をNext-Token Prediction(NTP)にシームレスに統合することで、後者のコンテキスト内での取得能力を向上させるシンプルかつ効果的なトレーニングパラダイムです。具体的には、MEAPは最初に入力トークンの一部をランダムにマスクし、次にデコーダーのみを使用して標準の次トークン予測を自己回帰的に行います。MEAPは、MLMのための双方向アテンションやエンコーダーデコーダーアーキテクチャの必要性を排除し、事前トレーニングや推論時の追加計算負荷を発生させません。集中的な実験により、MEAPが主要情報の取得や長いコンテキスト推論タスクでNTPを大幅に上回り、常識的推論タスクでは同等以上の性能を発揮することが示されました。MEAPの利点は、監督されたファインチューニングにも適用され、中途で迷子になるシナリオでNTPを11.77パーセントポイント上回る驚異的な利点を示します。私たちの分析によると、MEAPの効果は、非マスク化されたトークンの縮小されたセットに集中することで、より区別可能なアテンションスコアを促進する能力から生じています。このメカニズムにより、モデルはタスクに関連する信号に焦点を当てることができ、周辺コンテキストの影響を軽減します。これらの知見から、MEAPは大規模言語モデルの有望なトレーニングパラダイムとして位置付けられます。
コンピュータ支援設計(CAD)は、さまざまな産業分野で不可欠です。テキストベースのCAD編集は、CADモデルの修正をテキスト指示に基づいて自動化するものであり、大きな潜在能力を持ちながらも未開拓の領域です。既存の手法は、主に設計変動の生成またはテキストベースのCAD生成に焦点を当てており、テキストベースの制御をサポートしていないか、既存のCADモデルを制約として無視していることが多いです。我々は、テキストベースのCAD編集のための最初のフレームワークであるCAD-Editorを紹介します。訓練に正確な対応を持つ要求の厳しい三つ組データの課題に対処するために、自動化されたデータ合成パイプラインを提案します。このパイプラインは、設計変動モデルを活用して元のCADモデルと編集されたCADモデルのペアを生成し、その違いを編集指示に要約するために大規模ビジョン言語モデル(LVLMs)を使用します。テキストベースのCAD編集の複合的な性質に対処するために、私たちは、タスクを2つの焦点を当てたサブタスクに分解する「位置を特定して埋める」フレームワークを提案します。修正が必要な領域を特定し、適切な編集でこれらの領域を埋めることを目的としています。大規模言語モデル(LLMs)は、自然言語理解とCAD知識の能力を活用し、両方のサブタスクのバックボーンとして機能します。実験結果は、CAD-Editorが定量的および定性的に優れた性能を達成していることを示しています。
Goedel-Proverは、数学問題の自動形式証明において最先端のパフォーマンスを達成するオープンソースの大規模言語モデル(LLM)です。この分野における主要な課題は、形式化された数学の文や証明の希少性であり、私たちは以下の方法で取り組んでいます。Numinaから自然言語の数学問題を形式言語(Lean 4)に変換する文の形式化器を訓練し、164万の形式文のデータセットを作成します。LLMは、形式文が元の自然言語の問題の内容を正確に保持しているかをチェックするために使用されます。その後、一連の証明器を訓練して形式証明の大規模なデータセットを反復的に構築します。各証明器は、以前のものでは証明できなかった多くの文を証明に成功し、これらの新しい証明は次の証明器の訓練セットに追加されます。最終的な証明器は、全体の証明生成においてすべての既存のオープンソースモデルを凌駕します。miniF2Fベンチマークでは、32回の試行で57.6%の成功率(Pass@32)を達成し、以前の最高のオープンソースモデルを7.6%上回ります。PutnamBenchでは、Goedel-Proverは7つの問題を成功裏に解決し(Pass@512)、リーダーボードで首位を獲得します。さらに、Lean Workbookの問題に対して29.7Kの形式証明を生成し、以前の作業で生成された15.7Kをほぼ倍増させます。
ビジョンモデルを真に理解するためには、学習された特徴を解釈するだけでなく、これらの解釈を制御された実験を通じて検証する必要があります。現在のアプローチは、解釈可能な特徴を提供するものの、その因果関係をテストする能力を持たず、また解釈可能なコントロールを可能にするものの、モデルの編集を可能にするものはありません。私たちは、このギャップを埋めるスパースオートエンコーダー(SAE)を使用した統合フレームワークを提案し、人間が解釈可能な視覚的特徴を発見し、それらを精密に操作してモデルの振る舞いに関する仮説を検証できるようにします。最先端のビジョンモデルに私たちの手法を適用することで、異なる事前学習目標を持つモデルが学習する意味の抽象化の主要な違いを明らかにします。その後、複数のビジョンタスクにわたる制御された介入を通じて、私たちのフレームワークの実用的な使用法を示します。SAEは、モデルの再学習を必要とせずに解釈可能な視覚的特徴を信頼性高く特定および操作できることを示し、ビジョンモデルの振る舞いを理解し制御するための強力なツールを提供します。プロジェクトのウェブサイトhttps://osu-nlp-group.github.io/SAE-Vには、コード、デモ、およびモデルが提供されています。
大規模言語モデル(LLMs)におけるプロンプトのキャッシュは、データ依存のタイミングの変動を引き起こします。キャッシュされたプロンプトは、キャッシュされていないプロンプトよりも処理が速くなります。これらのタイミングの違いは、サイドチャネルのタイミング攻撃のリスクをもたらします。たとえば、キャッシュがユーザー間で共有されている場合、攻撃者は高速なAPI応答時間からキャッシュされたプロンプトを特定し、他のユーザーのプロンプトに関する情報を学ぶことができます。プロンプトのキャッシュによってプライバシーの漏洩が引き起こされる可能性があるため、APIプロバイダーのキャッシングポリシーに関する透明性は重要です。このため、我々は実世界のLLM APIプロバイダーにおけるプロンプトのキャッシングを検出するための統計的監査を開発・実施します。OpenAIを含む7つのAPIプロバイダーでユーザー間でのグローバルなキャッシュ共有を検出し、ユーザーのプロンプトに関する潜在的なプライバシー漏洩が発生しています。プロンプトのキャッシングによるタイミングの変動は、モデルアーキテクチャに関する情報の漏洩も引き起こす可能性があります。具体的には、OpenAIの埋め込みモデルがデコーダーのみのTransformerである証拠を発見しましたが、これは以前一般に知られていませんでした。
人間は、新しい課題に対処するために以前の知識を再利用し、問題を解決する過程でスキルを磨くことに優れています。このパラダイムは、自律エージェントの開発においてますます人気を博しており、人間のように新たな課題に対応するために自己進化できるシステムを開発しています。しかし、従来の手法は、新しいスキルを拡張する際のトレーニング効率が限られており、新しいタスクの学習を促進するために以前の知識を十分に活用できていません。本論文では、パラメトリックスキル拡張と合成(PSEC)という新しいフレームワークを提案し、エージェントの能力を段階的に進化させ、管理可能なスキルライブラリを維持することで新たな課題に効率的に対処することを目指しています。このライブラリは、スキルプリミティブをプラグアンドプレイのLow-Rank Adaptation(LoRA)モジュールとして逐次統合し、パラメータ効率の微調整に活用することで、効率的かつ柔軟なスキル拡張を促進します。この構造はまた、異なるスキルをエンコードするLoRAモジュールをマージすることで、パラメータ空間での直接スキル組成を可能にし、スキル間で共有された情報を活用して新しいスキルを効果的にプログラムします。これに基づき、新しいタスクを共同で処理するために異なるスキルを動的に活性化するコンテキスト感知モジュールを提案します。D4RL、DSRLベンチマーク、DeepMind Control Suite上の結果から、PSECは以前の知識を効率的に活用して新たな課題に効果的に取り組み、スキルライブラリを拡張して能力を進化させる優れた能力を示すことが示されました。プロジェクトのウェブサイト:https://ltlhuuu.github.io/PSEC/。
大規模言語モデルは、巨大なデータセットでの自己教師付き事前トレーニングを通じて、自然言語処理を革新しました。この成功に触発され、研究者たちは、連続したオーディオをトークンに分割することで、ニューラルオーディオコーデックを使用してこれらの手法を音声に適応することを探求してきました。ただし、既存の手法には、高ビットレート、意味情報または音響情報のいずれかの損失、および両方を捉えようとする際のマルチコードブック設計への依存などの制限があります。これにより、下流タスクのためのアーキテクチャの複雑さが増加します。これらの課題に対処するために、私たちはFocalCodecを導入します。これは、単一のバイナリコードブックを利用して、音声を0.16から0.65 kbpsで圧縮するフォーカルモジュレーションに基づく効率的な低ビットレートコーデックです。FocalCodecは、現行の最先端技術よりも低ビットレートで音声再合成や音声変換において競争力のあるパフォーマンスを提供し、多言語音声や騒音環境を効果的に処理します。下流タスクでの評価では、FocalCodecが十分な意味情報と音響情報を保持し、生成モデリングにも適していることが示されています。デモサンプル、コード、チェックポイントは、https://lucadellalib.github.io/focalcodec-web/ で入手可能です。
大規模言語モデルおよびビジョン-言語モデル(LLMs/VLMs)は、安全性に関わるアプリケーションでますます使用されていますが、その不透明な意思決定はリスク評価と信頼性を複雑化させます。不確実性の定量化(UQ)は、予測の信頼度を評価し、不確実性が高い場合には棄却を可能にします。主要なUQ手法である適合性予測(CP)は、統計的な保証を提供しますが、静的な閾値に依存しており、タスクの複雑さやデータ分布の変化に適応できず、精度、カバレッジ、情報量のトレードオフが最適でなくなります。この課題に対処するために、我々は学習可能な適合性棄却を提案し、強化学習(RL)をCPと統合して棄却の閾値を動的に最適化します。CPの閾値を適応的なアクションとして扱うことで、我々の手法は複数の目的をバランスし、予測セットのサイズを最小限に抑えながら信頼性のあるカバレッジを維持します。多様なLLM/VLMベンチマークを通じた包括的な評価により、我々の手法が最も明確な分類器(LAC)および適応的予測セット(APS)を上回り、精度を最大3.2%向上させ、幻覚検出のためのAUROCを22.19%向上させ、不確実性に基づく選択的生成(AUARC)を21.17%向上させ、キャリブレーションエラーを70%〜85%削減します。これらの改善は、複数のモデルとデータセットにわたって一貫して90%のカバレッジ目標を達成しながら成立し、安全性に関わるアプリケーションにおける信頼性のある意思決定のためのより効果的かつ柔軟なソリューションとして我々の手法を確立します。コードはこちらで入手可能です:{https://github.com/sinatayebati/vlm-uncertainty}。