翻訳付きの日次キュレーションされたAI研究論文
エンドツーエンドの人間のアニメーション、例えば音声による会話駆動の人間生成は、ここ数年で著しい進歩を遂げてきました。しかし、既存の手法はまだ大規模な一般的なビデオ生成モデルへのスケーリングに苦労しており、それによって実アプリケーションでの潜在能力が制限されています。本論文では、訓練フェーズに動きに関連する条件を混合することでデータをスケーリングアップするOmniHumanというDiffusion Transformerベースのフレームワークを提案します。このために、これらの混合条件に対する2つの訓練原則と、それに対応するモデルアーキテクチャと推論戦略を導入します。これらの設計により、OmniHumanはデータ駆動型の動き生成を最大限に活用し、最終的に高度にリアルな人間のビデオ生成を実現します。さらに、OmniHumanは、顔のクローズアップ、肖像画、ハーフボディ、フルボディなど、さまざまなポートレートコンテンツをサポートし、会話や歌唱の両方をサポートし、人間とオブジェクトの相互作用や難しい体のポーズを処理し、異なる画像スタイルに対応します。既存のエンドツーエンドの音声駆動手法と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力においてより大きな柔軟性を提供します。さらに、複数の駆動モダリティ(音声駆動、ビデオ駆動、および組み合わせ駆動信号)をサポートします。ビデオサンプルはttfamilyプロジェクトページ(https://omnihuman-lab.github.io)で提供されています。
直接アライメントアルゴリズム(DAAs)は、人間のフィードバックからの強化学習(RLHF)における強化学習(RL)と報酬モデリング(RM)を直接ポリシー最適化で置き換えることにより、言語モデルのアライメントを簡素化します。DAAsは、ランキング損失(ペアワイズ対ポイントワイズ)、それらの損失で使用される報酬(例:ポリシーと参照ポリシーの尤度比やオッズ比)、または教師ありファインチューニング(SFT)フェーズが必要かどうか(二段階対一段階)によって分類できます。まず、一段階法が二段階法よりも性能が低いことを示します。これを解決するために、明示的なSFTフェーズを組み込み、単一段階のORPOとASFTに、好み最適化の強度を制御するベータパラメータを導入します。これらの修正により、Alpaca Eval 2におけるパフォーマンスが+3.46(ORPO)および+8.27(ASFT)向上し、DPOのような二段階法に匹敵します。さらなる分析から、アプローチがペアワイズまたはポイントワイズの目的を使用するかどうかが重要な要素であり、特定の暗黙の報酬や損失関数よりも重要であることが明らかになります。これらの結果は、アライメントアルゴリズムにおける性能向上や全体的な優越性の早まった主張を避けるための注意深い評価の重要性を強調しています。
密なプロセス報酬は、大規模言語モデル(LLM)の推論時スケーリングにおいて、特に複雑な多段階推論を必要とするタスクにおいて、疎な結果レベルの報酬よりも効果的な代替手段であることが証明されています。密な報酬は、細かい報酬を持つため、トレーニング効率やクレジット割り当てなどの結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)にとって魅力的な選択肢でもありますが、この潜在能力はほとんど実現されていません。これは、高品質なプロセスラベルを収集することが非常に高コストであり、報酬ハッキングに特に脆弱であるため、オンラインでプロセス報酬モデル(PRM)をトレーニングする課題に主に起因します。これらの課題に対処するために、私たちはPRIME(Process Reinforcement through IMplicit rEwards)を提案します。これにより、ポリシーロールアウトと結果ラベルを使用して暗黙のプロセス報酬を介してオンラインでPRMを更新することが可能となります。PRIMEは、さまざまなアドバンテージ関数と組み合わせることができ、既存のアプローチが必要とする専用の報酬モデルトレーニングフェーズを省略することで、開発オーバーヘッドを大幅に削減します。私たちはPRIMEの効果を数学とコーディングの競技において示しています。Qwen2.5-Math-7B-Baseから始めて、PRIMEはSFTモデルに比べていくつかの主要な推論ベンチマークで15.1%の平均改善を達成します。特に、私たちの結果として得られたモデルであるEurus-2-7B-PRIMEは、トレーニングデータの10%でQwen2.5-Math-7B-Instructを七つの推論ベンチマークで上回ります。
大規模言語モデル(LLM)による判定とLLMベースのデータ合成は、モデル開発における2つの基本的なLLM駆動データ注釈方法として登場しています。これらの組み合わせはモデルの訓練と評価の効率を大幅に向上させますが、この新しいモデル開発パラダイムによってもたらされる潜在的な汚染にはほとんど注意が払われていません。本研究では、合成データ生成器とLLMベースの評価者の関連性によって引き起こされるLLM判定における汚染問題である「選好漏洩」を明らかにします。この問題を研究するために、まず、データ生成器LLMと判定LLMの間の3つの一般的な関連性を定義します:同じモデルであること、継承関係を持つこと、同じモデルファミリーに属すること。多くの実験を通じて、複数のLLMベースラインとベンチマークにわたる選好漏洩によって判定のバイアスが関連する学習モデルに向かうことを経験的に確認します。さらなる分析から、選好漏洩は、LLM判定シナリオで以前に特定されたバイアスと比較して検出がより難しい普遍的な問題であることが示唆されます。これらのすべての知見は、選好漏洩がLLM判定の領域における普遍的で難しい問題であることを意味しています。すべてのコードとデータは以下で公開されています:https://github.com/David-Li0406/Preference-Leakage.
視覚言語モデル(VLM)における視覚特徴と言語埋め込みの整合性は、重要な課題です。このようなモデルの性能は、視覚エンコーダによって生成された視覚特徴をLLMと共有の埋め込み空間にマッピングするための適切なコネクタにかかっており、同時に意味的な類似性を保持する必要があります。既存のコネクタ、例えば多層パーセプトロン(MLPs)は、しばしば分布外またはノイズの多い入力を生成し、モダリティ間の不整合を引き起こします。本研究では、視覚テキストの整合性を高める新しい手法であるAlignVLMを提案します。この手法は、視覚特徴をLLMテキスト埋め込みの加重平均にマッピングします。我々のアプローチは、LLMによってエンコードされた言語的先行事項を活用し、視覚特徴がLLMが効果的に解釈できる空間の領域にマッピングされることを保証します。AlignVLMは、スキャンされた文書画像をそれらのテキスト内容に正確にマッピングする必要がある文書理解タスクに特に効果的です。我々の包括的な実験は、AlignVLMが従来の整合性手法と比較して最先端の性能を達成することを示しています。さらに、ノイズに対する改善された視覚テキスト特徴の整合性と頑健性を実証する追加の分析を提供します。
検索増強生成(RAG)の索引付け-検索-生成パラダイムは、外部知識を大規模言語モデル(LLM)に統合することで、知識集約的なタスクを解決するのに非常に成功しています。ただし、外部および未検証の知識を組み込むことで、LLMの脆弱性が増加するため、攻撃者が知識を操作して攻撃タスクを実行できる可能性があります。本論文では、RAGのセキュリティを評価するために設計されたベンチマークであるSafeRAGを紹介します。まず、攻撃タスクを銀ノイズ、インターコンテキストの衝突、ソフト広告、およびホワイト・ディニアル・オブ・サービスに分類します。次に、各タスクに対して主に手動でRAGセキュリティ評価データセット(SafeRAGデータセット)を構築します。その後、SafeRAGデータセットを使用して、RAGが遭遇するさまざまな攻撃シナリオをシミュレートします。14の代表的なRAGコンポーネントで実施された実験は、RAGがすべての攻撃タスクに対して脆弱性を示し、最も明白な攻撃タスクでも既存のリトリーバ、フィルタ、または高度なLLMを簡単にバイパスし、RAGサービス品質の低下をもたらすことを示しています。コードは次で入手可能:https://github.com/IAAR-Shanghai/SafeRAG。
私たちは、SliderSpaceというフレームワークを提案します。このフレームワークは、拡散モデルの視覚的な能力を制御可能で人間が理解しやすい方向に自動的に分解するためのものです。従来の制御方法とは異なり、SliderSpaceはユーザーが個々の編集方向ごとに属性を指定する必要がなく、1つのテキストプロンプトから複数の解釈可能で多様な方向を同時に発見します。各方向は低ランクアダプターとしてトレーニングされており、合成的な制御とモデルの潜在空間における驚くべき可能性の発見を実現しています。最先端の拡散モデルに関する包括的な実験を通じて、コンセプトの分解、芸術的スタイルの探索、および多様性の向上という3つのアプリケーションにおいて、SliderSpaceの効果を実証しています。定量的評価により、SliderSpaceが発見した方向がモデルの知識の視覚構造を効果的に分解し、拡散モデルにエンコードされた潜在的な能力に関する洞察を提供していることが示されています。ユーザースタディにより、当社の手法がベースラインと比較してより多様で有用なバリエーションを生成することがさらに検証されています。当社のコード、データ、およびトレーニング済みの重みは、https://sliderspace.baulab.info で入手可能です。
私たちは、入力埋め込み層を拡張して言語モデルの性能を向上させるための方法であるSCONE(Scalable, Contextualized, Offloaded, N-gram Embedding)を提案します。レイヤーサイズが拡大するにつれて、デコードコストの増加を避けるために、SCONEは元の語彙を保持しながら、一連の頻出n-gramの埋め込みを導入します。これらの埋め込みは、各入力トークンの文脈を表現し、トレーニング中に別のモデルで学習されます。推論中には、これらは事前に計算され、アクセラレータメモリに保存され、推論速度への影響が最小限に抑えられます。SCONEは、キャッシュされるn-gram埋め込みの数を増やすことと、それらを学習するモデルをスケーリングすることの両方を可能にし、推論時間のFLOPSを一定に保ちながら、新しいスケーリング戦略を実現します。両側面をスケーリングすることで、SCONEは、多様なコーパスにおいて1.9Bパラメータのベースラインを上回ることができ、推論時間のFLOPSは半分だけで済みます。
大規模言語モデル(LLMs)は、推論において顕著な潜在能力を示していますが、時機適性、正確性、およびパラメトリック知識のカバレッジの不足により、深刻な事実の幻覚に苦しんでいます。一方で、推論と検索拡張生成(RAG)を統合することは、効果的なタスク分解と冗長な検索によるノイズの導入や応答品質の低下という理由から依然として難しい状況です。本論文では、DeepRAGというフレームワークを提案し、検索拡張推論をマルコフ決定過程(MDP)としてモデル化することで、戦略的かつ適応的な検索を実現しています。DeepRAGは、クエリを反復的に分解することで、各ステップで外部知識を取得するかパラメトリック推論に依存するかを動的に決定します。実験結果は、DeepRAGが回答の正確性を21.99%向上させる一方で、検索効率を向上させることを示し、検索拡張推論の最適化においてその効果を証明しています。
IQテストは、人間の認知能力を評価するための基本的な方法論として役立ってきました。この方法論は、言語的背景、言語能力、または特定の知識領域から評価を切り離し、抽象化と推論の中核的な能力を分離することを意図しています。しかし、現在の人工知能研究では、これらの重要な認知次元を多様なモーダルシステムで定量化するための体系的な基準が不足しています。この重要なギャップに対処するために、私たちはMM-IQを提案します。これは、8つの異なる推論パラダイムを網羅する2,710の入念に選別されたテスト項目からなる包括的な評価フレームワークです。 主要なオープンソースおよびプロプライエタリな多様なモデルを体系的に評価することにより、我々のベンチマークは驚くほどの制限を明らかにします。最先端のアーキテクチャでも、ランダムなチャンス(27.49%対25%の基準精度)にわずかに優れたパフォーマンスしか達成できません。この大きなパフォーマンスの隔たりは、現在の多様なシステムが基本的な人間の推論能力を近似するのに不十分であることを強調し、この認知的な分断を埋めるための画期的な進歩の必要性を強調しています。
人間の知能の特徴の1つは、構造化された多段階プロセスを通じて複雑なアーティファクトを作成する能力です。AIによる手順チュートリアルの生成は、長年の課題であり、3つの主要な障害に直面しています:(1)マルチタスク手順データセットの希少性、(2)ステップ間の論理的な連続性と視覚的な一貫性の維持、および(3)複数のドメインにわたる一般化。これらの課題に対処するために、私たちは21のタスクをカバーし、24,000以上の手順シーケンスを持つマルチドメインデータセットを提案します。この基盤を活用して、私たちはDiffusion Transformer(DIT)に基づくMakeAnythingというフレームワークを導入し、DITのコンテキスト内能力を活性化するためのファインチューニングを活用して一貫した手順シーケンスを生成します。画像生成のための非対称低ランク適応(LoRA)を導入し、エンコーダーパラメーターを凍結しながらデコーダーレイヤーを適応的に調整することで、一般化能力とタスク固有のパフォーマンスをバランスさせます。さらに、ReCraftモデルは、時空的一貫性の制約を介して画像からプロセス生成を可能にし、静止画像を妥当な作成シーケンスに分解します。包括的な実験により、MakeAnythingが既存の手法を上回り、手順生成タスクの新たなパフォーマンス基準を設定していることが示されました。
大規模言語モデル(LLM)の論理推論能力と複雑な非単調推論におけるスケーラビリティを調査します。このために、制約充足問題(CSPs)から導かれた論理グリッドパズルにおけるLLMの推論パフォーマンスを評価する包括的な評価フレームワークであるZebraLogicを導入します。ZebraLogicは、制御可能で数量化可能な複雑さを持つパズルの生成を可能にし、Llama、o1モデル、DeepSeek-R1などのモデルのスケーリング限界の系統的な研究を促進します。幅広い探索空間の複雑さと多様な論理制約を包括することで、ZebraLogicは、増加する難易度の下での推論の評価を行うための構造化された環境を提供します。 我々の結果は、問題の複雑さが増すにつれて精度が著しく低下することを明らかにしました -- この現象を複雑性の呪いと呼んでいます。この制限は、より大きなモデルや推論時間の増加にもかかわらず続き、現在のLLMの推論能力に固有の制約が示唆されます。さらに、Best-of-Nサンプリング、バックトラッキングメカニズム、自己検証プロンプトなどの論理推論を強化する戦略を探求します。我々の調査結果は、LLMの推論のスケーラビリティに関する重要な洞察を提供し、基本的な制約を強調し、改善のための潜在的な方向を概説しています。
大規模言語モデル(LLMs)は長いコンテキストシーケンスを処理するのに優れていますが、コンテキスト情報を格納するためにかなりのキー値(KV)キャッシュが必要であり、これは計算効率とメモリ使用量に大きな負担をかける可能性があります。これまでのKVキャッシュの圧縮に関する努力は、主にメモリ要件を削減することに焦点を当てていましたが、レイテンシを向上させることには限界がありました。この問題に対処するために、私たちはFastKVを導入します。これは、長いコンテキストシーケンスのレイテンシを向上させるために設計されたKVキャッシュ圧縮メソッドです。処理速度を向上させつつ精度を維持するために、FastKVは新しいトークン選択伝播(TSP)アプローチを採用しています。これにより、LLMsの初期層で完全なコンテキスト情報を保持し、より深い層ではこの情報の一部のみを選択的に伝播させ、プリフィル段階でも同様です。さらに、FastKVにはグループ化クエリアテンション(GQA)に注意したKVキャッシュ圧縮が組み込まれており、GQAのメモリ効率と計算効率の両方の利点を活用しています。実験結果によると、FastKVは、最先端のKVキャッシュ圧縮方法であるHeadKVと比較して、最初のトークン到達時間(TTFT)とスループットにそれぞれ2.00倍と1.40倍の改善を達成しています。さらに、FastKVは、ベンチマークでの精度をベースラインと同等のレベルで維持しています。コードはhttps://github.com/dongwonjo/FastKV で入手可能です。
大規模言語モデル(LLMs)の急速な進化と大規模多文化モデル(LMMs)への進展の中で、英語や中国語などの高リソース言語においては重要な進展が見られました。アラビア語LLMsも注目すべき進歩を遂げていますが、アラビア語LMMsは未だほとんど未開拓の状態であり、しばしば言語や視覚理解の一部に焦点を絞っています。このギャップを埋めるために、私たちはAIN(Arabic Inclusive Multimodal Model)を導入します。AINは、多様な領域で優れた性能を発揮するよう設計された英語-アラビア語のバイリンガルLMMであり、厳密に構築された360万件の高品質なアラビア語-英語の多文化データサンプルを活用しています。AINは最先端のアラビア語性能を示し、同時に強力な英語の視覚能力も備えています。最近のCAMEL-Benchベンチマークでは、マルチ画像理解、複雑な視覚認識、手書き文書理解、ビデオ理解、医療画像、植物病気、およびリモートセンシングに基づく土地利用理解など、38のサブドメインを含む中で、AINは7BモデルによりGPT-4oを8つの領域と38のサブドメインを平均して3.4%の絶対的な利益で上回る強力なパフォーマンスを示しています。AINの優れた機能は、多様なアプリケーションでアラビア語話者に先進的な多文化生成AIツールを提供するための重要な一歩として位置付けられます。
OpenAIのo1およびo3のリリースは、大規模言語モデルにおける高度な推論能力への重要なパラダイムシフトを示しています。特に、o3は人間を上回り、人工汎用知能(ARC-AGI)の抽象化と推論コーパスにおいて、新しい問題解決やスキル獲得において優れた成績を収めました。しかしながら、このベンチマークは象徴的なパターンに限定されており、一方で人間はしばしばビジョンと言語データの両方を含む多様なシナリオについて知覚し推論します。したがって、多様なタスクにおける高度な推論能力を調査する緊急性があります。このため、私たちはGPT-[n]およびo-[n]シリーズモデルの進化を追跡し、視覚的知覚と抽象的またはアルゴリズミックな推論が必要な難解な多様なパズルでの性能を検証します。o1の優れた性能は、GPT-4oの計算コストの約750倍に及び、その効率性について懸念が呈されています。私たちの結果は、モデルの反復を通じて推論能力に明確な上昇傾向があり、GPTシリーズモデルからo1への顕著な性能向上が見られます。しかしながら、o1モデルは依然として抽象的推論を必要とする単純な多様なパズルに苦戦していることが観察されます。さらに、アルゴリズミックなパズルにおける性能は依然として低いです。私たちは、このシリーズの新しいモデルを継続的に追跡し、本論文で結果を適宜更新する予定です。この評価で使用されたすべてのリソースは https://github.com/declare-lab/LLM-PuzzleTest で公開されています。
非常に能力の高い大規模言語モデル(LLM)でさえ、バイアスのあるまたは安全でない応答を生成することがあり、RLHFなどのアラインメント技術は、この問題を緩和することを目的としており、LLMを再トレーニングすることで過学習しやすいという欠点があります。本論文では、LLMが安全な応答をほぼ確実に生成する推論時のアラインメント手法を紹介します。これは、安全性制約の進化を追跡する安全状態を拡張し、潜在空間内のMDPを解決することで形式的な安全性保証を実証できるようにします。この基盤を活用して、モデルの重みを変更することなく、LLMを安全にアラインメントする実用的な実装であるInferenceGuardを提案します。実証的に、InferenceGuardは安全性とタスクパフォーマンスを効果的にバランスし、安全でアラインされた応答を生成する点で既存の推論時のアラインメント方法を上回ることを示します。
既存のフロンティアモデルのためのベンチマークは、一般の専門外の人々にとって理解が難しい「博士レベル」の特殊な知識をテストすることが多い。それに対して、私たちはNPRサンデーパズルチャレンジに基づくベンチマークを提案する。このベンチマークは一般的な知識のみを必要とし、人間とモデルの両方にとって挑戦的であるが、正しい解決策は簡単に検証でき、モデルの間違いも容易に見つけることができる。 私たちの研究は、既存のベンチマークでは明らかにならない能力のギャップを明らかにしている。例えば、OpenAI o1は、専門知識をテストするベンチマークで同等の理論モデルよりも著しく優れたパフォーマンスを発揮している。さらに、理論の出力の分析により、新しい種類の失敗が明らかになっている。例えば、DeepSeek R1は、しばしば「諦める」と述べた後に、間違っていることを知りながら回答を提供することがある。R1は出力において驚くほど「不確か」であり、稀なケースでは「思考を終えない」こともあり、文脈ウィンドウの制限に達する前に「まとめる」ための推論時のテクニックが必要であることを示唆している。また、R1とGemini Thinkingを用いたより長い推論の効果を定量化し、ベンチマークの精度向上には推論をさらに行うことが有益である限界点を特定している。
私たちは、Craftax-classicという難解なベンチマークで新たな最先端のパフォーマンスを達成するモデルベースの強化学習アプローチを提案します。Craftax-classicは、広大な2Dサバイバルゲームであり、強力な汎化能力、深い探索、長期的な推論など、幅広い一般的な能力をエージェントに要求します。サンプル効率性を向上させるための慎重な設計選択の連続により、当社のMBRLアルゴリズムは、環境ステップが100万回しか経過していない段階で報酬が67.4%に達し、DreamerV3の53.2%を大幅に上回り、初めて65.0%の人間のパフォーマンスを超えました。当社の手法は、まず、CNNとRNNを組み合わせた革新的なポリシーアーキテクチャを使用して、SOTAモデルフリーベースラインを構築します。次に、標準的なMBRLセットアップに3つの改良を加えます:(a)「ウォームアップ付きダイナ」は、ポリシーを実データと架空データでトレーニングするもので、(b) 画像パッチに「最近傍トークナイザー」を適用し、トランスフォーマーワールドモデル(TWM)の入力を改善し、(c) 「ブロック教師強制」は、TWMが次のタイムステップの未来トークンについて共同で推論することを可能にします。
Low-Rank Adaptation(LoRA)およびその派生手法は、大規模なトランスフォーマーネットワークの訓練可能なパラメータ数とメモリ要件を削減する印象的な結果を示していますが、微調整パフォーマンスを維持します。ただし、重み更新の低ランク性質は、微調整モデルの表現力を本質的に制限し、複雑なタスクでのパフォーマンスを損なう可能性があります。これにより、LoRAと標準的な微調整との間にパフォーマンスの差が見られる場合、その原因は訓練可能なパラメータ数の削減なのかランクの欠陥なのかという重要な問題が生じます。本論文は、この問いに答えるために、RandLoRAを導入します。RandLoRAは、低ランクで訓練不可なランダム行列の学習された線形組み合わせを使用して、フルランクの更新を行うパラメータ効率の良い手法です。当手法は、最適化を固定されたランダム行列に適用される対角スケーリング行列に制限することで、訓練可能なパラメータ数を制限し、訓練中に低ランクの制限を効果的に克服することができます。視覚、言語、および視覚言語のベンチマークを横断して、LoRAおよび既存のランダム基底手法の制限を系統的に評価します。我々の調査結果によると、フルランクの更新は、視覚および言語タスクそれぞれにおいて有益であり、視覚言語タスクにおいてはさらに有益であり、RandLoRAは標準的な微調整とLoRAとのパフォーマンスの差を著しく縮小し、場合によっては完全に解消することを示し、その有効性を実証しています。
コンシステンシーモデルは、単一ステップまたは複数ステップで高品質なサンプルを生成できる新しい生成モデルファミリーです。最近、コンシステンシーモデルは、ピクセル空間において拡散モデルと同等の結果を達成し、印象的なパフォーマンスを示しています。ただし、大規模データセットにおけるコンシステンシートレーニングの成功は、特にテキストから画像やビデオを生成するタスクにおいて、潜在空間でのパフォーマンスによって決定されます。本研究では、ピクセル空間と潜在空間の統計的な違いを分析し、潜在データにはしばしば高いインパルスの外れ値が含まれており、これが潜在空間におけるiCTのパフォーマンスを著しく低下させることがわかりました。これを解決するために、疑似ハバー損失をコーシー損失に置き換えることで、外れ値の影響を効果的に軽減します。さらに、初期タイムステップで拡散損失を導入し、最適輸送(OT)カップリングを利用してパフォーマンスをさらに向上させます。最後に、適応的なスケーリングcスケジューラを導入して堅牢なトレーニングプロセスを管理し、アーキテクチャにはスケーリングレイヤーノルムを採用して特徴の統計をより適切に捉え、外れ値の影響を軽減します。これらの戦略により、1ステップまたは2ステップで高品質なサンプリングが可能な潜在コンシステンシーモデルを成功裏にトレーニングし、潜在コンシステンシーと拡散モデルのパフォーマンスの差を著しく縮小させました。実装はこちらで公開されています:https://github.com/quandao10/sLCT/
パラメータ修正型知識編集に関する以前の研究では、大規模な連続編集がモデルの著しい劣化をもたらすことが示されています。本論文では、この背景にある理由を調査し、連続知識編集を10,000回までスケーリングすると同時に、元のモデルの下流パフォーマンスを維持します。まず、編集された事実に過学習を引き起こす「位置特定後編集」知識編集手法を示します。また、これらの手法を用いた連続知識編集が、編集された行列のノルムの不均衡な成長をもたらすことを示します。次に、「位置特定後編集」手法の内部動作に関する重要な洞察を提供します。これらの手法が使用する「重要度ハッキング」としてのノルム成長は、編集された層からの出力活性化により大きな重要度を与える隠れたトリックであることを示します。この「重要度ハッキング」により、編集された層はモデルの出力に対してはるかに大きな貢献を提供します。これらの問題を緩和するために、ENCORE(Early stopping and Norm-Constrained Robust knowledge Editing)を提案します。ENCOREは、過学習とノルムの不均衡な成長を制御し、下流パフォーマンスの損失なしに長期的な連続編集を可能にします。ENCOREは、Llama3-8BにおいてMEMITより61%、AlphaEditより64%高速です。
長文生成は学術論文やリポジトリレベルのコード生成において重要です。それにもかかわらず、現在のモデル、GPT-4oを含む、まだ満足できる性能を示していません。既存の手法は、結果の監督を利用する好み学習を行っているにもかかわらず、拡張された文脈に対する詳細なフィードバックを提供することができず、クエリ要件を十分に満たさないコンテンツや長さの逸脱、品質の低下などの問題が生じる可能性があります。本論文では、プロセスの監督を取り入れることで長文生成を向上させることを提案します。Monte Carlo Tree Searchを用いて段階的な好みのペアを収集し、一貫性を保つためにグローバルメモリプールを利用します。最適でない候補の選択の問題に対処するために、外部の批評を統合して好みのペアの品質を洗練し改善します。最後に、収集した段階的な好みのペアを用いて段階レベルのDPOを適用します。実験結果は、当社の手法が長文生成のベンチマークにおいて長さと品質を向上させ、様々なモデルのバックボーンにおいて一般的なベンチマークにおいてほぼ損失のないパフォーマンスを示すことを示しています。
ユニットテスト(UTs)は、コードの正確性を評価するだけでなく、大規模言語モデル(LLM)にフィードバックを提供する重要な役割を果たし、反復的に誤ったコードをデバッグする際に自動テスト生成を促進します。しかし、誤ったコードが与えられた際にエラーを明らかにするユニットテスト入力を生成すると同時に、ゴールドソリューションにアクセスせずにユニットテスト出力を正しく予測することの間にトレードオフがあることが明らかになりました。このトレードオフに対処するために、タスクの説明と候補コードに基づいて、エラーを明らかにするユニットテスト入力とそれらの正しい期待される出力を生成するようLLMsに教えるUTGenを提案します。我々は、生成されたテストを使用してLLMsが効果的にデバッグするのを支援する頑健なデバッグパイプラインであるUTDebugにUTGenを統合します。モデルが生成したテストはノイズの信号を提供する可能性があるため(例:正しく予測されなかった出力から)、UTDebugは(i)UT出力予測を改善するためにテスト時計算を介してUTGenをスケーリングし、(ii)過学習を避けるために複数の生成されたUTに基づいて編集を検証およびバックトラックします。UTGenは、エラーを明らかにするUT入力と正しいUT出力の両方の存在を測定するメトリックに基づいて、UT生成のベースラインを7.59%上回ることを示しています。UTDebugと併用すると、UTGenのユニットテストからのフィードバックが、HumanEvalFixとMBPP+のより難しいデバッグ分割におけるQwen-2.5 7Bのpass@1精度を、他のLLMベースのUT生成のベースラインよりもそれぞれ3%と12.35%以上向上させることがわかります。
言語モデル(LMs)は、ユーザーが出力の誤りを検出し、必要に応じて人間の専門家に譲るのを支援するために、信頼性の高い信頼度推定を提供すべきです。言語モデルに自信を評価するよう求める(「0から1までの信頼度を評価してください」という)ことは、その不確実性を評価する自然な方法です。しかし、モデルは信頼度の絶対的な評価(つまり、他の質問とは独立して質問に答える際の信頼度を判断すること)を提供するのに苦労し、彼らが生成する粗いスコアは、彼らの回答の正確性を評価するのに役立ちません。私たちは、相対的な信頼度推定を提案します。ここでは、質問同士を対戦させ、モデルに相対的な信頼度の判断を求めます(「どちらの質問について正しく回答する自信がありますか?」)。各質問を他の質問と対戦させ、モデルの選好を対戦結果として扱うことで、EloレーティングやBradley-Terryなどのランク集約手法を使用して、モデルの信頼度の選好を信頼度スコアに変換できます。私たちは、14の難解なSTEM、社会科学、および常識的な推論問題に対する5つの最先端LM(GPT-4、GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet、およびLlama 3.1 405B)で、相対的な信頼度推定を絶対的な信頼度推定および自己整合信頼度手法と比較評価します。結果は、相対的な信頼度推定が常に絶対的な信頼度推定よりも信頼性の高い信頼度スコアを提供し、直接の絶対的な信頼度推定手法に対して選択的分類AUCで平均3.5%、自己整合手法に対しては全モデルとデータセット全体で平均1.7%の利益をもたらすことを示しています。
腹膜後腔には、稀な良性および悪性の種類を含むさまざまな腫瘍が存在し、その希少性と重要な構造物に近接しているため、診断および治療において課題が生じます。腫瘍の容積を推定することは困難であり、その不規則な形状のため、手動セグメンテーションは時間がかかります。U-Netおよびその派生物を使用した自動セグメンテーションは、Vision Transformer(ViT)要素を組み込んでおり、有望な結果を示していますが、高い計算要求に苦しんでいます。この問題に対処するために、Mamba State Space Model(SSM)やExtended Long-Short Term Memory(xLSTM)などのアーキテクチャが、リソース消費を低減しつつ長距離依存関係を処理する効率的な解決策を提供しています。本研究では、新しい社内CTデータセットと公開されている臓器セグメンテーションデータセットを使用して、CNN、ViT、Mamba、およびxLSTMを含むU-Netの拡張機能を評価します。提案されたViLU-Netモデルは、改良されたセグメンテーションのためにVi-blocksを統合しています。結果は、U-NetフレームワークにおけるxLSTMの効率性を示しています。コードはGitHubで一般にアクセス可能です。
病理学の基礎モデル(FMs)は医療分野において大きな可能性を秘めています。臨床実践で利用する前に、医療センター間の変動に対して堅牢であることを確認することが不可欠です。病理学の基礎モデルが組織やがんの種類などの生物学的特徴に焦点を当てているか、または染色手順などによって導入された既知の医療センターの特徴に焦点を当てているかを測定します。我々は「堅牢性指標」を導入します。この新しい堅牢性指標は、生物学的特徴が混同要因を支配する程度を反映しています。現在公開されている10の病理学の基礎モデルを評価します。現在の全ての病理学の基礎モデルは、医療センターを強く表現していることがわかります。堅牢性指標における著しい差異が観察されます。現時点では、生物学的特徴が混同要因を支配しているモデルは1つだけであり、わずかではありますが堅牢性指標が1よりも大きいことが示されています。FMベースの予測性能に医療センター間の違いが及ぼす影響を測定する定量的アプローチが記述されています。我々は、下流モデルの分類性能に対する堅牢性の影響を分析し、がんの分類エラーがランダムではなく、特定の同一医療センターの混同要因に起因することがわかります。我々はFMの埋め込み空間を可視化し、これらが生物学的要因よりも医療センターによってより強く構成されていることがわかります。その結果、出所の医療センターが組織の源やがんの種類よりも正確に予測されます。ここで導入された堅牢性指標は、堅牢で信頼性の高い病理学の基礎モデルの臨床採用に向けた進展を目指して提供されています。