翻訳付きの日次キュレーションされたAI研究論文
本研究は、生物医学的リソースが限られた言語であるロシア語における臨床コーディングの自動化の実現可能性を調査する。我々は、電子健康記録(EHR)の診断フィールドを含む新しいICDコーディング用データセットを提示し、10,000以上のエンティティと1,500以上のユニークなICDコードが注釈付けされている。このデータセットは、BERT、LoRAを適用したLLaMA、RAGなど、いくつかの最先端モデルのベンチマークとして機能し、ドメイン間(PubMedアブストラクトから医療診断へ)および用語体系間(UMLS概念からICDコードへ)の転移学習を検証する追加実験も行った。その後、最も性能の高いモデルを適用し、2017年から2021年までの患者履歴を含む社内EHRデータセットにラベル付けを行った。慎重に選定されたテストセットで実施した実験では、自動予測コードを用いたトレーニングが、医師による手動注釈データと比較して精度の大幅な向上をもたらすことを示した。我々は、本研究の結果が、ロシア語のようなリソースが限られた言語における臨床コーディングの自動化の可能性について貴重な知見を提供し、これらの文脈における臨床効率とデータ精度の向上に寄与すると考えている。
人間の嗜好アラインメントにおける最近の進展は、マルチモーダル生成と理解を大幅に向上させました。その鍵となるアプローチは、嗜好最適化を導くための報酬モデルのトレーニングです。しかし、既存のモデルはしばしばタスク固有であり、多様な視覚アプリケーションへの適応性が制限されています。また、複数のタスクを同時に評価することを学習することで、相乗効果が生まれる可能性があります。つまり、画像理解の向上が画像生成評価を高め、洗練された画像評価がフレーム分析を通じて映像評価に利益をもたらすと考えられます。この目的のために、本論文ではUnifiedRewardを提案します。これは、マルチモーダル理解と生成評価のための初の統合報酬モデルであり、ペアワイズランキングとポイントワイズスコアリングの両方を可能にし、視覚モデルの嗜好アラインメントに利用できます。具体的には、(1) まず、画像および映像の生成/理解タスクを含む大規模な人間の嗜好データセットに基づいてUnifiedRewardを開発します。(2) 次に、視覚モデルに基づいて高品質な嗜好ペアデータを自動的に構築し、ペアランキングとポイント選別を通じてその出力を細かくフィルタリングします。(3) 最後に、これらのデータをDirect Preference Optimization (DPO) を通じて嗜好アラインメントに使用します。実験結果は、多様な視覚タスクを同時に評価する学習が相互に大きな利益をもたらすことを示しており、我々のパイプラインを画像および映像の理解/生成タスクに適用し、各領域のパフォーマンスを大幅に向上させました。
検索、回帰、分類に使用される汎用多言語ベクトル表現は、伝統的に双方向エンコーダモデルから取得されてきました。その幅広い適用性にもかかわらず、エンコーダは最近、生成専用デコーダモデルの進展に影を落とされています。しかし、この進歩を牽引する多くの革新は、本質的にデコーダに限定されるものではありません。本論文では、これらの進展を視点として多言語エンコーダの開発を再考し、欧州および広く話されている世界の言語をカバーする多言語エンコーダファミリーであるEuroBERTを紹介します。私たちのモデルは、多言語能力、数学、コーディングにわたる多様なタスクにおいて既存の代替モデルを上回り、最大8,192トークンのシーケンスをネイティブにサポートします。また、EuroBERTの設計決定についても検証し、データセット構成とトレーニングパイプラインに関する洞察を提供します。私たちは、中間トレーニングチェックポイントを含むEuroBERTモデルとトレーニングフレームワークを公開します。
最近、DeepSeek R1は、シンプルなルールベースのインセンティブを用いた強化学習が、大規模言語モデルにおける複雑な推論能力の自律的発達を可能にし、「アハ体験」として特徴づけられる現象、すなわちトレーニング中にモデルが自己反省を示し、応答長が増加することを実証しました。しかし、この成功をマルチモーダル推論に拡張しようとする試みは、これらの重要な特性を再現することにしばしば失敗していました。本報告では、非SFTの2Bモデルにおいて、マルチモーダル推論におけるこれらの創発的特性の初めての成功した再現を提示します。Qwen2-VL-2Bを出発点として、SATデータセットに直接強化学習を適用することで、我々のモデルはCVBenchにおいて59.47%の精度を達成し、ベースモデルを約30%上回り、SFT設定を約2%超える結果を示しました。さらに、指示モデルを用いたRLによるR1のような推論能力の実現を試みた失敗例と洞察を共有し、関連する課題に光を当てることを目指します。我々の主な観察点は以下の通りです:(1) 指示モデルにRLを適用すると、しばしば取るに足らない推論軌道が生じること、(2) 単純な長さの報酬は推論能力を引き出すのに効果的でないこと。プロジェクトのコードはhttps://github.com/turningpoint-ai/VisualThinker-R1-Zeroで公開されています。
大規模言語モデル(LLM)の急速な発展に伴い、音声モデル、特に音声入出力をサポートするspeech2speechプロトコルの最近の進展が注目を集めています。しかし、既存のベンチマークでは、これらのモデルの指示追従能力を評価するために自動テキストベースの評価器を採用しており、音声理解と生成におけるパラ言語情報の考慮が欠如しています。これらの課題に対処するため、我々はS2S-Arenaを導入します。これは、現実世界のタスクにおいて、音声入力と音声出力の両方でパラ言語情報を考慮した指示追従能力を評価する、新たなアリーナ形式のS2Sベンチマークです。我々は、4つのドメインにおける21のタスクでTTSとライブ録音を融合した154のサンプルを設計し、既存の人気音声モデルをアリーナ形式で手動評価しました。実験結果は以下の通りです:(1)GPT-4oの優れた性能に加え、カスケード型のASR、LLM、TTSからなる音声モデルが、テキストと音声のアラインメント後の共同学習モデルをspeech2speechプロトコルで上回ること、(2)パラ言語情報を考慮すると、音声モデルの知識性は主にLLMバックボーンに依存し、その多言語サポートは音声モジュールによって制限されること、(3)優れた音声モデルは既に音声入力におけるパラ言語情報を理解できるが、適切なパラ言語情報を含む音声を生成することは依然として課題であること、を示しています。
大規模言語モデルの最近の進展により、Chain of Thought (CoT) プロンプティングを通じて顕著な推論能力が示されていますが、中間出力における冗長性が高く、計算コストが増大するという課題があります。本論文では、Sketch-of-Thought (SoT) という新しいプロンプティングフレームワークを提案します。SoTは、認知科学に基づく推論パラダイムと言語的制約を組み合わせ、推論精度を維持しながらトークン使用量を最小化することを目指します。SoTは柔軟なフレームワークとして設計されており、認知科学に基づく任意のカスタム推論パラダイムを組み込むことが可能です。本論文では、Conceptual Chaining、Chunked Symbolism、Expert Lexiconsという3つの推論パラダイムを具体化し、軽量なルーティングモデルによって動的に選択されるようにしました。15の推論データセットを用いた多言語・マルチモーダルシナリオでの包括的評価を通じて、SoTが76%のトークン削減を達成しつつ、精度への影響が無視できるレベルであることを示します。数学的推論やマルチホップ推論などの特定の領域では、トークン使用量を大幅に削減しながら精度を向上させることも確認されました。コードは公開されています: https://www.github.com/SimonAytes/SoT。
本研究では、感情認識という視覚と音声の両モダリティが重要な役割を果たすタスクにおいて、検証可能な報酬を用いた強化学習(RLVR)をオムニマルチモーダル大規模言語モデルに初めて適用した。RLVRを活用してオムニモデルを最適化し、推論能力、感情認識精度、一般化能力の3つの主要な側面で大幅な性能向上を実現した。RLVRの導入は、モデルの分布内データに対する全体的な性能を向上させるだけでなく、分布外データセットでの評価においても優れたロバスト性を示した。さらに重要なことに、推論能力の向上により、特に視覚情報と音声情報といった異なるモダリティが感情認識プロセスにどのように寄与するかを明確に分析することが可能となった。これは、マルチモーダル大規模言語モデルの最適化に関する貴重な知見を提供するものである。
現代のリカレントシーケンスモデルにおいて重要な要素の一つが忘却ゲートです。Transformerは明示的なリカレント形式を持ちませんが、本研究では、データ依存の方法で正規化されていないアテンションスコアを減衰させることで、Transformerに自然に忘却ゲートを組み込めることを示します。このアテンションメカニズムを「Forgetting Attention」、そしてその結果得られるモデルを「Forgetting Transformer(FoX)」と名付けました。FoXは、長文脈の言語モデリング、長さの外挿、短文脈の下流タスクにおいてTransformerを上回る性能を示し、長文脈の下流タスクではTransformerと同等の性能を発揮します。さらに、FlashAttentionアルゴリズムと互換性があり、位置埋め込みを必要としません。針を干し草の中から探すテストを含むいくつかの分析により、FoXはMamba-2、HGRN2、DeltaNetなどのリカレントシーケンスモデルに対するTransformerの優れた長文脈能力も保持していることが示されています。また、リカレントシーケンスモデルで一般的に使用されるいくつかのアーキテクチャコンポーネントを組み込んだ「Pro」ブロック設計を導入し、これがFoXとTransformerの両方の性能を大幅に向上させることを見出しました。私たちのコードはhttps://github.com/zhixuan-lin/forgetting-transformerで公開されています。
既存の大規模推論モデル(LRM)は、強化学習(RL)が大規模言語モデル(LLM)の複雑な推論能力を強化する可能性を示しています。数学やコーディングなどの挑戦的なタスクで顕著な性能を発揮する一方で、これらのモデルは問題を解決するために内部知識に依存することが多く、時間的制約のある知識集約的な質問に対して不十分であり、不正確さや幻覚を引き起こすことがあります。この問題に対処するため、我々はR1-Searcherを提案します。これは、LLMの検索能力を強化するために設計された、新しい二段階の結果ベースのRLアプローチです。この手法により、LLMは推論プロセス中に外部検索システムを自律的に呼び出し、追加の知識にアクセスすることが可能になります。我々のフレームワークは、プロセス報酬や蒸留を必要とせず、RLのみに依存しています。実験結果は、我々の手法が従来の強力なRAG手法を大幅に上回り、クローズドソースのGPT-4o-miniと比較しても優れていることを示しています。
ビデオインペインティングは、破損したビデオコンテンツを修復することを目的としており、大きな進展を遂げてきました。しかしながら、既存の手法は、オプティカルフローや受容野の事前情報を通じてマスクされていない領域のピクセルを伝播させる方法や、画像インペインティングモデルを時間的に拡張する方法など、完全にマスクされたオブジェクトの生成や、背景の文脈保存と前景生成という競合する目的を一つのモデルでバランスよく達成することに課題を抱えています。これらの制約を解決するため、我々は新しいデュアルストリームパラダイムであるVideoPainterを提案します。このモデルは、効率的なコンテキストエンコーダ(バックボーンパラメータのわずか6%を占める)を組み込み、マスクされたビデオを処理し、事前学習済みのビデオDiTにバックボーンを意識した背景文脈の手がかりを注入することで、プラグアンドプレイ方式で意味的に一貫したコンテンツを生成します。このアーキテクチャの分離により、モデルの学習複雑性が大幅に削減されつつ、重要な背景文脈の微妙な統合が可能になります。また、任意の長さのビデオインペインティングを可能にする新しいターゲット領域IDリサンプリング技術を導入し、実用性を大幅に向上させました。さらに、現在の視覚理解モデルを活用したスケーラブルなデータセットパイプラインを確立し、セグメンテーションベースのインペインティングトレーニングと評価を促進するためにVPDataとVPBenchを提供します。これらは、39万以上の多様なクリップを含む、これまでで最大のビデオインペインティングデータセットとベンチマークです。インペインティングをパイプラインの基盤として、ビデオ編集やビデオ編集ペアデータ生成などの下流アプリケーションも探索し、競争力のある性能と大きな実用可能性を示しています。広範な実験により、VideoPainterがビデオ品質、マスク領域の保存、テキストの一貫性など、8つの主要な指標において、任意の長さのビデオインペインティングと編集の両方で優れた性能を発揮することが実証されました。
LLMベースのエージェントは、ウェブベースのタスクを解決する能力がますます向上しています。この能力とともに、オンラインフォーラムでの誤情報の投稿やウェブサイトでの違法な物質の販売など、悪意のある目的での誤用のリスクも高まっています。これらのリスクを評価するために、私たちはSafeArenaを提案します。SafeArenaは、ウェブエージェントの意図的な誤用に焦点を当てた最初のベンチマークです。SafeArenaは、4つのウェブサイトにわたる250の安全なタスクと250の有害なタスクで構成されています。有害なタスクは、誤情報、違法行為、ハラスメント、サイバー犯罪、社会的偏見の5つの危害カテゴリに分類され、ウェブエージェントの現実的な誤用を評価するように設計されています。私たちは、GPT-4o、Claude-3.5 Sonnet、Qwen-2-VL 72B、Llama-3.2 90Bなどの主要なLLMベースのウェブエージェントをこのベンチマークで評価しました。有害なタスクに対するエージェントの脆弱性を体系的に評価するために、エージェントの行動を4つのリスクレベルに分類するAgent Risk Assessmentフレームワークを導入しました。エージェントが悪意のあるリクエストに驚くほど従順であることがわかり、GPT-4oとQwen-2はそれぞれ34.7%と27.3%の有害なリクエストを完了しました。私たちの調査結果は、ウェブエージェントの安全性を確保するための手順が緊急に必要であることを強調しています。私たちのベンチマークはこちらで利用可能です:https://safearena.github.io
本論文では、単眼動画のカメラ軌道をリダイレクトする新規手法「TrajectoryCrafter」を提案する。決定論的な視点変換と確率的なコンテンツ生成を分離することで、ユーザー指定のカメラ軌道を精密に制御する。我々は、ポイントクラウドレンダリングとソース動画を条件として同時に統合する新規のデュアルストリーム条件付き動画拡散モデルを提案し、正確な視点変換と一貫性のある4Dコンテンツ生成を実現する。希少な多視点動画を利用する代わりに、ウェブ規模の単眼動画と静的な多視点データセットを組み合わせたハイブリッドトレーニングデータセットを、革新的な二重回投影戦略によってキュレーションし、多様なシーンにわたる堅牢な汎化能力を大幅に促進する。多視点および大規模単眼動画を用いた広範な評価により、本手法の優れた性能が実証された。
大規模言語モデル(LLM)の強化学習(RL)における最近の進展、特にDeepSeek R1に代表される研究では、単純な質問応答タスクであってもLLMの推論能力を大幅に向上させることが示されています。本研究では、このアプローチを拡張し、タスクを複数回試行可能な設定に変更しました。各質問に対して単一の応答を生成する代わりに、モデルは複数回の試行を行い、不正解の後にフィードバックが提供されます。この複数回試行タスクは、モデルが以前の試行を改善し、検索効率を向上させることを促します。実験結果によると、複数回試行タスクで訓練された小さなLLMでも、評価時に試行回数を増やすことで精度が大幅に向上し、数学ベンチマークにおいて1回の試行で45.6%から2回の試行で52.5%に改善されました。対照的に、標準的な単一ターンタスクで訓練された同じLLMは、評価時に試行回数を増やしても42.3%から43.2%とわずかな改善しか示しませんでした。これらの結果は、標準的な単一ターンタスクと比較して、複数回試行タスクで訓練されたLLMが数学ベンチマークでわずかに優れた性能を発揮するだけでなく、ユーザーフィードバックに基づいて応答をより効果的に改善することを学習することを示しています。完全なコードはhttps://github.com/DualityRL/multi-attemptで公開されています。
大規模言語モデル(LLM)のサイズを縮小しながら性能を維持するという課題は、大きな注目を集めています。しかし、モデル蒸留や転移学習といった既存の手法では、高い精度を達成できないことが多いです。この制約を克服するため、我々はBranch-Merge蒸留アプローチを提案します。この手法は、2つのフェーズを通じてモデル圧縮を強化します:(1)Branch Phaseでは、大規模な教師モデルから得られた知識を、ドメイン固有の教師ありファインチューニング(SFT)を介して専門化された学生モデルに選択的に蒸留します。(2)Merge Phaseでは、これらの学生モデルを統合し、ドメイン間の知識転移を可能にし、汎化性能を向上させます。我々は、教師モデルとしてDeepSeek-R1、学生モデルとしてDeepSeek-R1-Distill-Qwen-32Bを使用して、この蒸留アプローチを検証しました。その結果得られた統合モデル、TinyR1-32B-Previewは、Mathematics(+5.5ポイント)、Coding(+4.4ポイント)、Science(+2.9ポイント)など複数のベンチマークで、対応するDeepSeek-R1-Distill-Qwen-32Bを上回り、AIME 2024ではDeepSeek-R1とほぼ同等の性能を達成しました。Branch-Merge蒸留アプローチは、計算コストと時間を削減しつつ、小型で高性能なLLMを作成するためのスケーラブルなソリューションを提供します。
コード埋め込みはセマンティックコード検索において不可欠であるが、現在のアプローチではコードに内在する正確な構文や文脈のニュアンスを捉えるのに苦戦することが多い。CodeBERTやUniXcoderなどのオープンソースモデルは、スケーラビリティと効率性に制限があり、高性能なプロプライエタリシステムは多大な計算コストを課す。本論文では、Low-Rank Adaptation(LoRA)に基づくパラメータ効率の良いファインチューニング手法を導入し、コード検索のためのタスク特化型アダプターを構築する。このアプローチにより、学習可能なパラメータ数をベースモデルの2%未満に削減し、大規模なコードコーパス(2H100 GPU上で200万サンプルを25分)での迅速なファインチューニングを可能にする。実験では、Code2Code検索において最大9.1%、Text2Code検索タスクでは最大86.69%のMean Reciprocal Rank(MRR)の向上を複数のプログラミング言語で実証した。タスクごとと言語ごとの適応の違いを分析することで、構文と言語的バリエーションに対するコード検索の感度を探ることができる。
現実世界の家事タスクは、移動操作ロボットにとって大きな課題を提示します。既存のロボティクスベンチマークを分析すると、タスクの成功には3つの重要な全身制御能力が不可欠であることがわかります:両手協調、安定かつ精密なナビゲーション、そして広範なエンドエフェクタ到達性です。これらの能力を実現するには、慎重なハードウェア設計が必要ですが、その結果として生じるシステムの複雑さは、視覚運動ポリシーの学習をさらに困難にします。これらの課題に対処するため、私たちはBEHAVIOR Robot Suite(BRS)を導入します。これは、多様な家事タスクにおける全身操作のための包括的なフレームワークです。両手操作可能な車輪型ロボットと4自由度の胴体を基盤として構築されたBRSは、データ収集のためのコスト効率の良い全身テレオペレーションインターフェースと、全身視覚運動ポリシーを学習するための新規アルゴリズムを統合しています。BRSを、長距離ナビゲーション、関節や変形可能な物体とのインタラクション、狭い空間での操作などの追加の複雑さを伴う5つの挑戦的な家事タスクで評価します。BRSの統合されたロボットの具現化、データ収集インターフェース、および学習フレームワークは、日常の家事タスクにおける現実世界の全身操作を可能にするための重要な一歩であると私たちは考えています。BRSはhttps://behavior-robot-suite.github.io/でオープンソース化されています。
拡散モデルは画像および動画生成において大きな進展を遂げているものの、依然として膨大な計算コストが課題となっています。この問題に対する効果的な解決策として、フローマッチングは拡散モデルのプロセスを直線的に再構築し、数ステップ、さらにはワンステップでの生成を可能にすることを目指しています。しかし、本論文では、元来のフローマッチングのトレーニングパイプラインが最適ではないことを指摘し、それを改善するための2つの手法を提案します。まず、プログレッシブリフローを導入し、拡散モデルを局所的なタイムステップで段階的に再構築することで、フローマッチングの難易度を低減します。次に、アラインドv-予測を導入し、フローマッチングにおける方向性のマッチングが大きさのマッチングよりも重要であることを強調します。SDv1.5およびSDXLでの実験結果は、本手法の有効性を示しています。例えば、SDv1.5において、MSCOCO2014検証セットでFID 10.70を達成し、わずか4サンプリングステップで教師モデル(32 DDIMステップ、FID = 10.05)に近い性能を実現しました。
線形シーケンスモデリング(LSM)である線形アテンション、状態空間モデル、線形RNN、およびMixture-of-Experts(MoE)は、最近重要なアーキテクチャの改善として登場しました。本論文では、LSMとMoEを統合した大規模モデルのモデリングとトレーニングのためのプロダクションレベルシステムであるLinear-MoEを紹介します。Linear-MoEは、線形計算量のシーケンスモデリングのためのLSMモジュールと、疎な活性化のためのMoEレイヤーの両方の利点を活用し、効率的なトレーニングで高性能を提供することを目指しています。Linear-MoEシステムは以下の要素で構成されます:1)モデリングサブシステム。これは、すべてのLSMインスタンスをサポートする統一フレームワークを提供します。2)トレーニングサブシステム。これは、特にLinear-MoEモデル向けに設計されたシーケンス並列処理を含む、さまざまな高度な並列処理技術を組み込むことで効率的なトレーニングを促進します。さらに、Linear-MoEレイヤーと標準のTransformer-MoEレイヤーを組み合わせたハイブリッドモデルを探索し、そのシーケンス並列処理を活用してモデルの柔軟性と性能をさらに向上させます。A0.3B-2BおよびA1B-7Bの2つのモデルシリーズでの評価により、Linear-MoEがさまざまなベンチマークで競争力のある性能を維持しながら効率性を向上させることが示され、次世代の基盤モデルアーキテクチャとしての可能性が示されています。コード:https://github.com/OpenSparseLLMs/Linear-MoE。
本報告書では、STILLプロジェクトの一環として開発中のslow-thinkingモデルに関する第3回技術報告を紹介します。技術的な道筋が明確になるにつれ、RL(強化学習)トレーニングのスケーリングが、このような推論モデルを実装するための中心的な技術となっています。我々は、RLトレーニングに影響を与える様々な要因を体系的に実験し、その効果を記録しました。具体的には、ベースモデルとファインチューニングされたモデルの両方で実験を行いました。特に、我々のRLトレーニングアプローチがQwen2.5-32Bベースモデルを一貫して改善し、応答の長さとテスト精度の両方を向上させることを実証しました。さらに、DeepSeek-R1-Distill-Qwen-1.5Bのようなモデルがすでに高い性能レベルを達成している場合でも、RLトレーニングを通じてさらに洗練され、AIME 2024で39.33%の精度に到達できることを示しました。RLトレーニングに加えて、ツール操作の使用も探求し、大規模な推論モデルの推論性能を大幅に向上させることがわかりました。このアプローチは、AIME 2024で貪欲探索を用いて86.67%という顕著な精度を達成し、モデルの能力を強化する上での有効性を強調しています。我々のリソースはSTILLプロジェクトのウェブサイトで公開しています: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
検索拡張生成(RAG)は、特定のコーパス内での質問応答(QA)タスクにおいて、顕著な能力を発揮することが実証されています。しかしながら、RAGのQAにおける失敗事例も依然として数多く存在します。これらの失敗は、大規模言語モデル(LLM)の限界にのみ起因するものではなく、主として以下の2つの制約により、LLMに対して不正確な情報が検索されることから生じています。(1) 現在のRAG手法は、セマンティクスを考慮せずにコーパスを分割するため、質問とセグメント間の関連性が損なわれ、関連する文脈を見つけることが困難です。(2) 検索する文脈の量が少ないと必要な文脈が欠落し、多いと無関係な文脈が含まれるというトレードオフが存在します。 本論文では、これらの制約を克服するためのRAGフレームワーク(SAGE)を提案します。まず、セマンティクスを考慮しない分割問題に対処するため、セマンティックセグメンテーションモデルを訓練することを提案します。このモデルは、コーパスを意味的に完全なチャンクに分割するように訓練されます。次に、最も関連性の高いチャンクのみが検索され、無関係なチャンクが無視されることを保証するため、関連性スコアの減少速度に基づいてチャンクを動的に選択するアルゴリズムを設計します。これにより、より関連性の高い選択が可能となります。さらに、検索されたチャンクの精度をさらに確保するため、LLMに検索されたチャンクが過剰または不足しているかどうかを評価させ、それに応じて文脈の量を調整することを提案します。実験結果は、SAGEがQAの品質においてベースラインを平均61.25%上回ることを示しています。さらに、ノイズの多い文脈の検索を回避することで、SAGEはLLM推論で消費されるトークンのコストを削減し、平均49.41%のコスト効率の向上を達成します。加えて、本研究はRAGを強化するための貴重な知見を提供します。
現在の高度な長文脈言語モデルは、実世界のソフトウェア工学アプリケーションにおいて大きな可能性を提供しています。しかし、この重要な領域における進展は、根本的な制限によって妨げられています。それは、長いコード理解のための厳密な評価フレームワークの欠如です。この障壁を埋めるため、我々は実用的なアプリケーションに必要な長いコード理解能力を評価するために、4つの側面(8つのタスク)からなる長いコード理解ベンチマークLONGCODEUを提案します。これには、コードユニットの認識、コードユニット内の理解、コードユニット間の関係理解、および長いコードのドキュメント理解が含まれます。我々は、LONGCODEUにおいて9つの人気のある長文脈言語モデル(すなわち、6つの一般モデルと3つのコードモデル)を評価しました。実験結果は、現在の長文脈言語モデルの長いコード理解能力における重要な限界を明らかにしています。特に、長いコードの長さが32Kを超えると、長文脈言語モデルの性能は劇的に低下し、彼らが主張する128K-1Mのコンテキストウィンドウには遠く及びません。4つの側面の中で、コードユニット間の関係理解は長文脈言語モデルにとって最も困難な課題です。我々の研究は、長文脈言語モデルの最適化とソフトウェア工学の進展を促進するための貴重な洞察を提供します。
現代の大規模言語モデル(LLM)は逐次的な性質を持つため、コストが高く処理速度も遅いが、この問題に対する有効な解決策として推測サンプリングが証明されている。EAGLEのような手法は、特徴量レベルで自己回帰を行い、ターゲットモデルの最上位層の特徴量を再利用することで、従来の推測サンプリングよりも優れた結果を達成している。LLMコミュニティでは、推論コストを増やすことなくモデルの知能を向上させるために、トレーニングデータをスケールアップする傾向が高まっている。しかし、我々は、データをスケールアップしてもEAGLEの改善が限定的であることを観察した。この制限は、EAGLEの特徴量予測の制約に起因していると特定した。本論文では、EAGLE-3を紹介する。EAGLE-3は、特徴量予測を放棄し、代わりに直接トークン予測を行い、最上位層の特徴量への依存を、トレーニングタイムテストと呼ばれる技術による多層特徴量融合に置き換える。これらの改善により、性能が大幅に向上し、ドラフトモデルがトレーニングデータのスケールアップを最大限に活用できるようになる。我々の実験では、チャットモデルと推論モデルの両方を含め、5つのタスクで評価を行った。その結果、EAGLE-3は最大6.5倍の高速化を達成し、EAGLE-2と比較して約1.4倍の改善を示した。コードはhttps://github.com/SafeAILab/EAGLEで公開されている。
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視において重要な技術です。しかし、既存のVADモデルは学習された正常パターンに依存しており、多様な環境に適用することが困難です。その結果、ユーザーは新しい環境に対してモデルを再学習するか、別々のAIモデルを開発する必要があり、これには機械学習の専門知識、高性能ハードウェア、および大規模なデータ収集が必要となり、VADの実用性が制限されています。これらの課題に対処するため、本研究ではカスタマイズ可能なビデオ異常検出(C-VAD)技術とAnyAnomalyモデルを提案します。C-VADは、ユーザー定義のテキストを異常イベントとして考慮し、ビデオ内で指定されたイベントを含むフレームを検出します。私たちは、大規模な視覚言語モデルのファインチューニングを行わずに、コンテキストを考慮した視覚的質問応答を用いてAnyAnomalyを効果的に実装しました。提案モデルの有効性を検証するため、C-VADデータセットを構築し、AnyAnomalyの優位性を実証しました。さらに、私たちのアプローチはVADベンチマークデータセットにおいても競争力のある性能を示し、UBnormalデータセットで最先端の結果を達成し、すべてのデータセットにわたる汎化性能において他の手法を上回りました。私たちのコードはgithub.com/SkiddieAhn/Paper-AnyAnomalyで公開されています。
ユーザーシミュレータは、対話システムとの人間のインタラクションを再現する上で重要であり、特に大規模言語モデル(LLM)の協調的なトレーニングと自動評価を支援します。しかし、既存のシミュレータはしばしばテキスト発話のみに依存し、性格、話し方、目標といった暗黙的なユーザー特性を見落としています。一方、ペルソナベースの手法は、著名人やアーキタイプの事前定義されたプロファイルに依存するため、汎用性に欠けています。これらの課題に対処するため、我々は暗黙的プロファイルを備えたユーザーシミュレータ(USP)を提案します。このフレームワークは、人間と機械の会話から暗黙的なユーザープロファイルを推論し、それらを用いてよりパーソナライズされた現実的な対話を生成します。まず、包括的なプロファイルスキーマを備えたLLM駆動の抽出器を開発します。次に、条件付き教師ありファインチューニングとサイクル一貫性を伴う強化学習を通じてシミュレーションを改良し、発話レベルと会話レベルの両方で最適化します。最後に、多様なプロファイルサンプラーを採用して、現実世界のユーザープロファイルの分布を捕捉します。実験結果は、USPが真正性と多様性の点で強力なベースラインを上回り、一貫性においても同等の性能を達成することを示しています。さらに、USPに基づく動的なマルチターン評価は、主流のベンチマークと強く一致し、実世界のアプリケーションにおけるその有効性を実証しています。