翻訳付きの日次キュレーションされたAI研究論文
世界初のオープンウェイト大規模ハイブリッドアテンション推論モデルであるMiniMax-M1を紹介します。MiniMax-M1は、ハイブリッドMixture-of-Experts(MoE)アーキテクチャとライトニングアテンションメカニズムを組み合わせて動作します。このモデルは、トークンあたり45.9億パラメータが活性化される合計4560億パラメータを持つ前身モデルMiniMax-Text-01を基に開発されました。M1モデルは、100万トークンのコンテキスト長をネイティブでサポートし、DeepSeek R1のコンテキストサイズの8倍です。さらに、MiniMax-M1のライトニングアテンションメカニズムにより、テスト時の計算効率が向上します。これらの特性により、M1は長い入力の処理と深い思考を必要とする複雑なタスクに特に適しています。MiniMax-M1は、サンドボックスベースの実世界のソフトウェアエンジニアリング環境を含む多様な問題に対して、大規模な強化学習(RL)を用いて訓練されています。M1のRL訓練における固有の効率性に加え、RL効率をさらに向上させる新しいアルゴリズムCISPOを提案します。CISPOは、トークン更新ではなく重要度サンプリングの重みをクリップし、他の競合するRLバリアントを凌駕します。ハイブリッドアテンションとCISPOを組み合わせることで、MiniMax-M1の完全なRL訓練は512台のH800 GPU上でわずか3週間で完了し、レンタルコストはわずか534,700ドルです。40Kと80Kの思考予算を持つ2つのバージョンのMiniMax-M1モデルをリリースします。40Kモデルは80K訓練の中間段階を表しています。標準ベンチマークでの実験では、当社のモデルはオリジナルのDeepSeek-R1やQwen3-235Bなどの強力なオープンウェイトモデルに匹敵または優れており、特に複雑なソフトウェアエンジニアリング、ツール利用、長文コンテキストタスクにおいて優れた性能を発揮します。MiniMax-M1はhttps://github.com/MiniMax-AI/MiniMax-M1で公開しています。
科学的発見は、情報集約型の科学データとドメイン固有の専門知識に基づく複雑なマルチモーダル推論にますます依存するようになっている。専門家レベルの科学ベンチマークによって強化された科学的多モーダル大規模言語モデル(MLLMs)は、現実的なワークフローにおけるこの発見プロセスを大幅に向上させる可能性を秘めている。しかし、現在の科学ベンチマークは主にMLLMsの知識理解能力を評価することに焦点を当てており、その知覚と推論能力の評価が不十分である。このギャップを埋めるため、我々は科学者の初級試験(SFE)ベンチマークを提案する。SFEは、科学的信号の知覚、科学的属性の理解、科学的比較推論という3つの相互に関連するレベルを通じて、MLLMsの科学的認知能力を評価するように設計されている。具体的には、SFEは5つの高価値分野にわたる66のマルチモーダルタスクをカバーする830の専門家検証済みのVQAペアで構成されている。広範な実験により、現在の最先端モデルであるGPT-3とInternVL-3がSFEでそれぞれ34.08%と26.52%しか達成できないことが明らかになり、MLLMsが科学的領域で改善する余地が大きいことが強調された。SFEで得られた知見が、AIによる科学的発見のさらなる発展に寄与することを期待する。
ディープリサーチエージェントは、LLMベースのエージェントの中でも特に注目すべきカテゴリーです。これらは、多段階のウェブ探索、ターゲットを絞った情報検索、そして高次の統合を自律的に調整することで、膨大なオンライン情報をアナリストレベルの引用豊富なレポートに変換し、手動でのデスクリサーチに要する時間を数分に圧縮します。しかし、これらのエージェントの能力を体系的に評価するための包括的なベンチマークはまだ存在しません。このギャップを埋めるため、我々はDeepResearch Benchを提案します。これは、22の異なる分野のドメインエキスパートによって慎重に作成された100の博士号レベルの研究タスクからなるベンチマークです。 DRAsを評価することは本質的に複雑で労力を要するため、我々は人間の判断と強く一致する2つの新しい方法論を提案します。1つ目は、生成された研究レポートの品質を評価するための適応基準を備えた参照ベースの方法です。もう1つのフレームワークは、DRAsの情報検索および収集能力を評価するために、その有効な引用数と全体的な引用精度を評価するために導入されました。我々は、実用的なLLMベースのエージェントの開発を加速するため、DeepResearch Benchとこれらのフレームワークの主要コンポーネントをhttps://github.com/Ayanami0730/deep_research_benchでオープンソース化しました。
本論文では、オートリグレッシブ(AR)トランスフォーマーと拡散モデルを統合した初の画像生成モデルであるTransDiffを紹介する。この統合モデリングフレームワークにおいて、TransDiffはラベルと画像を高次元の意味的特徴にエンコードし、拡散モデルを用いて画像サンプルの分布を推定する。ImageNet 256x256ベンチマークにおいて、TransDiffは単独のARトランスフォーマーまたは拡散モデルに基づく他の画像生成モデルを大幅に上回る性能を示した。具体的には、TransDiffはFr\'echet Inception Distance(FID)1.61、Inception Score(IS)293.4を達成し、最先端のARトランスフォーマーベースの手法と比較して2倍、拡散モデルのみの手法と比較して112倍高速な推論遅延を実現した。さらに、TransDiffモデルを基盤として、次画像を予測することでオートリグレッシブ生成を行う新しい画像生成パラダイムであるMulti-Reference Autoregression(MRAR)を提案する。MRARは、複数の過去生成画像を参照することで、より多様な表現の学習を促進し、反復的な生成画像の品質向上を可能にする。MRARを適用することで、TransDiffの性能は向上し、FIDは1.61から1.42に改善された。TransDiffが画像生成分野における新たなフロンティアを切り開くことを期待する。
本論文では、高スループットかつ大規模なウェブ知識インデックスに最適化された検索拡張生成システム、DoTA-RAG(Dynamic-of-Thought Aggregation RAG)を紹介する。従来のRAGパイプラインは、大規模で多様なデータセットにおいて高いレイテンシと精度の限界に悩まされることが多い。DoTA-RAGは、これらの課題に対処するために、クエリ書き換え、専門化されたサブインデックスへの動的ルーティング、および多段階の検索とランキングという3段階のパイプラインを採用している。さらに、優れた埋め込みモデルを評価・選択し、大規模なFineWeb-10BTコーパスを再埋め込みすることで、検索性能を向上させた。また、DataMorganaセットアップを用いて、WebOrganizerの幅広いトピックとフォーマットにわたる500の質問からなる多様なQ&Aデータセットを作成した。DoTA-RAGは、低レイテンシを維持しながら、回答正解率を0.752(ベースライン、LiveRAGの事前構築ベクトルストア使用)から1.478に向上させ、Live Challenge Dayでは0.929の正解率を達成した。これらの結果は、DoTA-RAGが大規模かつ進化する知識源への迅速で信頼性の高いアクセスを必要とする分野での実用的な展開の可能性を示している。
大規模推論モデルの最近の進展により、複雑な段階的推論が可能となったが、しばしば過剰な思考が導入され、冗長で非効率な出力が生じることが問題となっている。本研究では、「Wait」や「Hmm」といったトークンによって示される明示的な自己反映が、高度な推論に必要かどうかを検証する。我々は、推論中にこれらのトークンを抑制することで明示的な自己反映を無効化する、シンプルかつ効果的なアプローチであるNoWaitを提案する。テキスト、視覚、映像推論タスクにわたる10のベンチマークでの広範な実験により、NoWaitが5つのR1スタイルモデルシリーズにおいて、モデルの有用性を損なうことなく、連鎖思考の軌跡長を最大27%~51%削減することが示された。したがって、NoWaitは効率的かつ有用性を維持したマルチモーダル推論のためのプラグアンドプレイソリューションを提供する。
我々は、超長時間(数日から数週間)のエゴセントリックビデオに対する推論を行うための新しいフレームワーク「Ego-R1」を提案する。このフレームワークは、強化学習(RL)によって訓練されたEgo-R1エージェントが指揮する構造化されたChain-of-Tool-Thought(CoTT)プロセスを活用している。人間の問題解決戦略に着想を得たCoTTは、複雑な推論をモジュール化されたステップに分解し、RLエージェントが各ステップごとに特定のツールを起動して、時間的検索やマルチモーダル理解といったタスクに対処するためのサブ質問に反復的かつ協調的に答える。我々は、CoTTデータを用いた事前訓練済み言語モデルの教師ありファインチューニング(SFT)とRLを含む2段階の訓練パラダイムを設計し、エージェントが長時間推論のためのステップバイステップのツールを動的に提案できるようにした。訓練を容易にするため、SFT用のEgo-CoTT-25KとRL用のEgo-QA-4.4KからなるEgo-R1 Dataデータセットを構築した。さらに、我々のEgo-R1エージェントは、ハイブリッドソースからの人間検証済みQAペアを含む新たにキュレーションされた1週間のビデオQAベンチマーク「Ego-R1 Bench」で評価された。広範な結果は、Ego-R1エージェントによる動的でツール拡張されたChain-of-Thought推論が、超長時間エゴセントリックビデオの理解という独特の課題に効果的に対処し、時間的カバレッジを数時間から1週間に大幅に拡張できることを示している。
本研究では、離散拡散言語モデル(dLLMs)および離散拡散マルチモーダル言語モデル(dMLLMs)に関する体系的な調査を提供する。自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsは、全注意機構とノイズ除去ベースの生成戦略を用いたマルチトークン並列デコードパラダイムを採用している。このパラダイムは、並列生成、細粒度の出力制御性、動的かつ応答認識型の知覚を自然に実現する。これらの能力は、従来のARモデルでは達成が困難であった。最近では、産業規模のプロプライエタリなd(M)LLMsや、多数のオープンソースの学術的d(M)LLMsが、自己回帰モデルと同等の性能を示しつつ、推論速度において最大10倍の高速化を達成している。 離散拡散LLMsおよびMLLMsの進展は、主に2つの領域の進歩によって推進されてきた。第一に、自己回帰LLMsおよびMLLMsの開発があり、これにより、訓練と推論のための膨大なデータ、ベンチマーク、基盤インフラが蓄積された。第二に、離散拡散の基盤となる数学モデルの進化がある。これらの進展が相まって、2025年初頭にはdLLMsおよびdMLLMsの研究が急増した。 本研究では、dLLMおよびdMLLM領域の研究を包括的に概観する。dLLMsとdMLLMsの歴史的発展を辿り、基盤となる数学的フレームワークを形式化し、代表的なモデルを分類する。さらに、訓練と推論のための主要な技術を分析し、言語、視覚言語、生物学的領域における新興アプリケーションをまとめる。最後に、研究と展開の将来の方向性について議論する。 論文コレクション: https://github.com/LiQiiiii/DLLM-Survey
データは、言語モデルがスキルと知識を獲得する上で最も重要な役割を果たします。大規模で整理された事前学習データセットの欠如は、コストが高くアクセスしにくいデータパイプラインを引き起こします。本論文では、Essential-Web v1.0を紹介します。これは24兆トークンのデータセットであり、各ドキュメントはトピック、フォーマット、内容の複雑さ、品質をカバーする12カテゴリのタクソノミーで注釈付けされています。タクソノミーラベルは、Qwen2.5-32B-Instructのアノテーター一致率の3%以内を達成する、0.5bパラメータのファインチューニングされたモデルであるEAI-Distill-0.5bによって生成されます。SQLスタイルのフィルタを使用するだけで、数学(SOTAに対して-8.0%)、ウェブコード(+14.3%)、STEM(+24.5%)、医療(+8.6%)の競争力のあるウェブキュレーションデータセットを取得できます。Essential-Web v1.0はHuggingFaceで利用可能です: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
自律性、ツール使用、適応的推論を必要とする多段階の問題解決を要するエージェント的タスクは、NLPおよびAIの進歩においてますます中心的な役割を果たしつつある。しかし、既存の指示データにはツールインタラクションが欠けており、現在のエージェント的ベンチマークはコストのかかる人間によるアノテーションに依存しているため、スケーラビリティが制限されている。本論文では、難易度をスケーラブルに調整可能で、複数ツールを使用し、検証可能なエージェント的タスクとその実行軌跡を自動生成するワークフローであるTaskCraftを紹介する。TaskCraftは、深さベースおよび幅ベースの拡張を用いて原子タスクを拡張し、構造的かつ階層的に複雑な課題を作成する。実験結果は、これらのタスクが生成ワークフローにおけるプロンプト最適化を改善し、エージェント的基盤モデルの教師ありファインチューニングを強化することを示している。我々は、約36,000の異なる難易度のタスクからなる大規模な合成データセットを提示し、将来のエージェントチューニングおよび評価研究を支援する。
我々は、パッチレベルでk最近傍検索を自己回帰的に組み込むことで画像生成を強化する新しいパラダイムであるAutoregressive Retrieval Augmentation(AR-RAG)を提案する。従来の手法が生成前に単一の静的な検索を行い、固定された参照画像に基づいて生成全体を条件付けるのに対し、AR-RAGは各生成ステップで文脈を考慮した検索を行い、事前に生成されたパッチをクエリとして使用して最も関連性の高いパッチレベルの視覚的参照を取得し、取り込むことで、モデルが進化する生成ニーズに対応しつつ、既存の手法に顕著な制約(例:過剰なコピー、スタイルの偏りなど)を回避することを可能にする。AR-RAGを実現するために、我々は2つの並列フレームワークを提案する:(1)Distribution-Augmentation in Decoding(DAiD)は、モデルが予測したパッチの分布と取得したパッチの分布を直接統合するトレーニング不要のプラグアンドプレイデコーディング戦略であり、(2)Feature-Augmentation in Decoding(FAiD)は、マルチスケール畳み込み操作を通じて取得したパッチの特徴を段階的に平滑化し、それらを活用して画像生成プロセスを強化するパラメータ効率の良いファインチューニング手法である。我々は、Midjourney-30K、GenEval、DPG-Benchなどの広く採用されているベンチマークでAR-RAGの有効性を検証し、最先端の画像生成モデルを大幅に上回る性能向上を示した。
DUSt3Rのような密なマッチング手法は、3D再構築のためにペアワイズポイントマップを回帰します。しかし、ペアワイズ予測への依存と限られた汎化能力は、本質的にグローバルな幾何学的整合性を制限します。本研究では、Test3Rという驚くほどシンプルなテスト時学習技術を紹介し、幾何学的精度を大幅に向上させます。Test3Rは画像トリプレット(I_1, I_2, I_3)を使用し、ペア(I_1, I_2)と(I_1, I_3)から再構築を生成します。核心となるアイデアは、テスト時に自己教師あり目的関数を介してネットワークを最適化することです:共通の画像I_1に対するこれら2つの再構築間の幾何学的整合性を最大化します。これにより、モデルは入力に関係なく、クロスペア整合性のある出力を生成します。広範な実験により、本手法が3D再構築および多視点深度推定タスクにおいて、従来の最先端手法を大幅に上回ることが実証されました。さらに、本手法は普遍的に適用可能でほぼコストフリーであり、他のモデルに容易に適用でき、最小限のテスト時トレーニングオーバーヘッドとパラメータフットプリントで実装できます。コードはhttps://github.com/nopQAQ/Test3Rで公開されています。
本研究では、強力な推論モデルを開発するための教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を調査します。まず、SFTのトレーニングデータを2つのスケーリング戦略を通じてキュレーションします。具体的には、収集したプロンプトの数を増やすことと、プロンプトごとに生成される応答の数を増やすことです。どちらのアプローチも推論性能の顕著な向上をもたらし、特にプロンプトの数をスケーリングする方がより大きな効果をもたらすことが確認されました。次に、SFTとRLの相乗効果に関する以下の疑問を探ります:(i) より強力なSFTモデルは、大規模なRLトレーニング後の最終性能を一貫して向上させるか?(ii) 与えられたSFT初期化に対して、探索と活用のバランスを効果的に取るために、RLトレーニング中の適切なサンプリング温度をどのように決定できるか?我々の調査結果は、(i)が有効なRLトレーニングが行われた場合に成り立つことを示唆しており、特にサンプリング温度が探索と活用の良いバランスを取るために温度調整エントロピーを約0.3に保つように慎重に選択された場合に顕著です。注目すべきは、RLプロセスを通じて初期SFTモデル間の性能差が大幅に縮小することです。強力なSFT基盤とSFTとRLの相乗的な相互作用に関する洞察を活用することで、我々のAceReason-Nemotron-1.1 7BモデルはAceReason-Nemotron-1.0を大幅に上回り、Qwen2.5-7Bベースの推論モデルの中で新しい最先端の性能を達成し、困難な数学およびコードベンチマークにおいて我々のポストトレーニングレシピの有効性を実証しました。モデルとデータは以下で公開しています:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
LLMの汎用的な能力が急速に向上する中、LLMのパーソナライゼーション、すなわち、異なるユーザーペルソナに合わせてパーソナライズされた応答やサービスを生成するLLMシステムを構築する方法が、ますます重要な研究およびエンジニアリング上の課題となっている。しかし、汎用的/推論能力を評価するための新しい挑戦的なベンチマークが数多くリリースされているのに対し、LLMのパーソナライゼーションを評価するための高品質なベンチマークの欠如が、この分野の進展を大きく妨げている。この問題に対処するため、我々はPersonaFeedbackという新しいベンチマークを導入する。これは、事前に定義されたユーザーペルソナとクエリを与えられた場合に、LLMがパーソナライズされた応答を提供する能力を直接評価するものである。既存のベンチマークが、モデルに過去のインタラクションから暗黙的なユーザーペルソナを推論させることを要求するのに対し、PersonaFeedbackは、ペルソナ推論とパーソナライゼーションを分離し、明示的なペルソナに合わせた応答を生成するモデルの能力に焦点を当てている。PersonaFeedbackは、8298の人間によるアノテーションが施されたテストケースで構成されており、ユーザーペルソナの文脈的複雑さと、2つのパーソナライズされた応答の微妙な違いを識別する難易度に基づいて、容易、中程度、困難の3つの階層に分類されている。我々は、幅広いモデルに対して包括的な評価を実施し、複雑な現実世界の推論タスクを解決できる最先端のLLMでさえ、人間の評価者でさえ区別が難しいと感じるPersonaFeedbackの困難な階層では不十分であることを明らかにした。さらに、さまざまなタイプのシステムにおける失敗モードの詳細な分析を行い、現在の検索拡張フレームワークがパーソナライゼーションタスクに対する事実上の解決策と見なすべきではないことを示した。すべてのベンチマークデータ、アノテーションプロトコル、および評価パイプラインは、将来のLLMパーソナライゼーション研究を促進するために公開される予定である。
マルチモーダル連鎖思考(CoT)推論の分野において、既存のアプローチは主に純粋な言語空間での推論に依存しており、これには言語バイアスが内在し、数学や科学の領域に大きく限定されている。この狭い焦点は、画像の詳細を包括的に理解する必要がある複雑な視覚推論タスクを扱う能力を制限している。これらの制約を解決するため、本論文では、細粒度の視覚知覚能力を強化した新しい推論型マルチモーダル大規模言語モデル(MLLM)であるVGRを提案する。従来のMLLMが質問に答えるか、言語空間のみで推論を行うのに対し、我々のVGRはまず問題解決に役立つ可能性のある関連領域を検出し、その後、再生された画像領域に基づいて正確な回答を提供する。これを実現するために、視覚的基盤と言語的推論を混合した推論データを含む大規模なSFTデータセットであるVGR-SFTを構築した。VGRの推論パイプラインでは、モデルが視覚的参照のためのバウンディングボックスを選択し、対応する領域を推論プロセスに統合する再生段階を導入することで、マルチモーダル理解を強化する。LLaVA-NeXT-7Bベースラインでの実験により、VGRは画像の詳細を包括的に理解する必要があるマルチモーダルベンチマークで優れた性能を発揮することが示された。ベースラインと比較して、VGRは画像トークン数の30%しか使用せず、MMStarで+4.1、AI2Dで+7.1、ChartQAで+12.9のスコア向上を達成した。
大規模言語モデル(LLMs)は、タスクや言語を超えた優れた汎化能力を示し、自然言語処理に革命をもたらしている。本論文では、特に中間層において自然に生じる表現アラインメントと、それが言語固有および言語非依存の情報を分離する上で持つ意義について調査する。我々は、このアラインメントの存在を実証的に確認し、明示的に設計されたアラインメントモデルとの比較を通じてその挙動を分析し、意味の劣化を伴わずに言語固有の操作を可能にするその潜在能力を示す。これらの知見に基づき、潜在空間への注入を活用して精密な言語間制御を可能にし、LLMsにおける言語混同を軽減する新たな手法である推論時言語制御(Inference-Time Language Control, ITLC)を提案する。実験結果は、ITLCがターゲット言語における意味的整合性を保ちつつ、強力な言語間制御能力を発揮することを明らかにしている。さらに、現在の大規模LLMsにおいても持続する言語間混同問題を軽減する上での有効性を示し、一貫性のある言語生成を実現する。本研究は、LLMsにおける表現アラインメントの理解を深め、その言語間性能を向上させる実用的な解決策を提供するものである。
多様で複雑かつ大規模な指示データの追求は、大規模言語モデル(LLM)を自動的に整合させるために極めて重要です。大規模に合成指示を生成する方法は存在するものの、それらは限られた基盤情報源に起因する狭い分布に留まるか、あるいは複雑さの観点で意味のある軌跡を生成できない些末な拡張に依存しています。一方、効率的な整合に寄与する指示は、通常、認知的洞察に基づいて設計され、実世界のユースケースに基づいています。本論文では、属性付き基盤付けを用いてこのような指示を合成します。これには、1)選択された実指示を特定のユーザーに基盤付けるトップダウンの属性付与プロセス、および2)ウェブ文書を活用してまず状況を生成し、その後意味のある指示を生成するボトムアップの合成プロセスが含まれます。このフレームワークにより、多様で複雑な指示を大規模に収集し、広範なウェブ文書を活用することが可能になります。具体的には、SynthQuestionsと呼ばれる100万の指示からなるデータセットを構築し、それに基づいて訓練されたモデルがいくつかの一般的なベンチマークで最先端の性能を達成し、より多くのウェブコーパスを用いることで継続的に改善されることを実証します。データ、モデル、コードはhttps://github.com/Ignoramus0817/SynthQuestionsで公開されます。
近年、事前学習済みの視覚言語モデル(VLM)を活用して視覚言語行動(VLA)モデルを構築することが、効果的なロボット操作学習の有望なアプローチとして注目されています。しかし、3D信号をVLMに組み込んで行動予測を行う手法は少なく、3Dデータに内在する空間構造を十分に活用できていないため、サンプル効率が低いという課題があります。本論文では、BridgeVLAという新しい3D VLAモデルを提案します。このモデルは、(1) 3D入力を複数の2D画像に投影し、VLMバックボーンとの入力整合性を確保し、(2) 2Dヒートマップを活用して行動予測を行うことで、入力と出力空間を一貫した2D画像空間に統一します。さらに、VLMバックボーンが2Dヒートマップを予測する能力を獲得するためのスケーラブルな事前学習手法を提案します。大規模な実験により、提案手法が3D操作を効率的かつ効果的に学習できることが示されました。BridgeVLAは、3つのシミュレーションベンチマークにおいて、最先端のベースライン手法を上回りました。RLBenchでは、平均成功率を81.4%から88.2%に向上させました。COLOSSEUMでは、困難な一般化設定において大幅に優れた性能を示し、平均成功率を56.7%から64.0%に引き上げました。GemBenchでは、平均成功率においてすべての比較対象ベースライン手法を凌駕しました。実ロボット実験では、BridgeVLAは最先端のベースライン手法を平均32%上回りました。視覚的擾乱や未見の指示を含む複数の分布外設定においても頑健に一般化し、特に、タスクごとに3軌跡のみで10以上のタスクにおいて96.8%の成功率を達成し、その驚異的なサンプル効率を実証しました。プロジェクトウェブサイト: https://bridgevla.github.io/
大規模言語モデル(LLMs)の最近の進展により、多様でインタラクティブかつ開放的なシナリオにおいて、計画、適応、社会的ダイナミクスといったますます人間らしい振る舞いを示すAIエージェントの開発が可能となった。これらの振る舞いは、基盤となるモデルの内部アーキテクチャのみの産物ではなく、特定の文脈内で動作するエージェントシステムへの統合から生じるものであり、環境要因、社会的な手がかり、インタラクションのフィードバックが時間とともに振る舞いを形成する。この進化は、新しい科学的視点を必要としている:AIエージェント行動科学である。この視点は、内部メカニズムのみに焦点を当てるのではなく、行動の体系的な観察、仮説を検証するための介入の設計、AIエージェントがどのように行動し、適応し、時間とともに相互作用するかを理論に基づいて解釈することを重視する。我々は、個々のエージェント、マルチエージェント、人間とエージェントの相互作用の設定にわたる研究の体系化を行い、さらにこの視点が、公平性、安全性、解釈可能性、説明責任、プライバシーを行動特性として扱うことで、責任あるAIをどのように導くかを示す。最近の知見を統合し、将来の方向性を示すことで、AIエージェント行動科学を伝統的なモデル中心のアプローチに必要な補完として位置づけ、ますます自律的なAIシステムの現実世界での行動を理解し、評価し、統治するための必須のツールを提供する。
言語モデルの継続的な進化により、広範なタスクにおいて卓越した性能を示す大規模アーキテクチャが開発されてきた。しかし、これらのモデルは、多大な計算リソースとエネルギー消費を必要とするだけでなく、プライバシーに関する潜在的な問題も伴う。このような状況において、約5億パラメータを持つ小規模推論言語モデル(SRLMs)は、特にリソースが制約された環境において、その顕著な計算効率とコスト効率の高さから、魅力的な代替手段として注目されている。一方で、5億パラメータモデルの限られた容量は、数学的推論やコード生成などの複雑なタスクを扱う上で課題を引き起こす。本研究では、教師ありファインチューニング(SFT)、知識蒸留(KD)、強化学習(RL)、およびそれらのハイブリッド実装を含む様々な訓練戦略を調査し、5億パラメータSRLMsの性能向上を図る。SRLMsと大規模モデルとの性能差を埋めるための効果的な方法論を分析し、これらの小規模アーキテクチャに最適化された訓練パイプラインに関する洞察を提示する。広範な実験的検証と分析を通じて、本研究は5億パラメータモデルの推論能力を最大化するための実践的な提言を提供することを目指す。
観察と言語フィードバックからインタラクティブに学習することは、大規模言語モデル(LLM)エージェントの出現によってますます研究が進んでいる分野である。これまでに印象的な実証例が示されてきたが、これらの意思決定問題を原理的に定式化する試みはまだ不十分である。本論文では、言語フィードバックからの学習(LLF)問題を定式化し、潜在的な報酬にもかかわらず学習を可能にするための十分な仮説を提示し、LLF問題の難しさを特徴づける複雑性尺度として転移エリューダー次元を導入する。転移エリューダー次元が、フィードバック内の情報がLLF問題の学習複雑性を変化させるという直観を捉えていることを示す。また、豊富な言語フィードバックから学習することが報酬から学習するよりも指数関数的に速くなる場合を実証する。さらに、HELiXと呼ばれるノーリグレットアルゴリズムを開発し、転移エリューダー次元に応じた性能保証を持ちながら、逐次的なインタラクションを通じてLLF問題を解決することを証明する。いくつかの実証領域において、LLMを繰り返しプロンプトしても信頼性が得られない場合でも、HELiXが良好な性能を発揮することを示す。我々の貢献は、一般的な言語フィードバックからの原理的なインタラクティブ学習アルゴリズムの設計に向けた第一歩を記すものである。
AIシステムは、宅配ルート最適化、乗務員スケジューリング、工場生産計画、電力網バランシングなどの難しい最適化問題に対するアルゴリズム工学において、どの程度の性能を発揮するのでしょうか?本論文では、スコアベースのアルゴリズムプログラミングコンテストにおけるAIシステムの評価を行う新しいベンチマーク「ALE-Bench」を紹介します。ALE-Benchは、AtCoder Heuristic Contestsの実際のタスクを基に、計算量的に難しく、既知の厳密解が存在しない最適化問題を提供します。短時間の合否判定型コーディングベンチマークとは異なり、ALE-Benchは長期的な時間軸での反復的な解法改善を促進します。私たちのソフトウェアフレームワークは、テスト実行のフィードバックや可視化を活用するインタラクティブなエージェントアーキテクチャをサポートしています。最先端の大規模言語モデル(LLM)を評価した結果、特定の問題では高い性能を示すものの、問題間での一貫性や長期的な問題解決能力において人間との間に顕著なギャップが残ることが明らかになりました。これは、今後のAI進化を促進するためにこのベンチマークが必要であることを示唆しています。
大規模言語モデル(LLMs)は、日常的なアプリケーションにますます統合されつつある。その影響力が拡大するにつれ、それらの意思決定と根底にあるパーソナリティを理解することが不可欠となっている。本研究では、私たちが提案するSupernova Event Datasetを用いてモデルのパーソナリティを解釈する。このデータセットは、伝記、歴史的事件、ニュース、科学的発見など多岐にわたる記事を含む新しいデータセットである。このデータセットを使用して、LLMsがテキストから主要なイベントを抽出し、ランク付けする能力をベンチマークする。これは、長期的な文脈を推論し、因果関係をモデル化する必要がある主観的で複雑な課題である。Phi-4、Orca 2、Qwen 2.5などの小型モデルと、Claude 3.7、Gemini 2.5、OpenAI o3などの大型で強力なモデルを評価し、別のLLMが裁判官として機能し、各モデルのイベントの選択と分類に基づいてそのパーソナリティを推論するフレームワークを提案する。私たちの分析は、明確なパーソナリティ特性を示している。例えば、Orca 2は対人関係に焦点を当てた感情的な推論を示し、Qwen 2.5はより戦略的で分析的なスタイルを示す。科学的発見のイベントを分析する際、Claude Sonnet 3.7は概念的枠組みを強調し、Gemini 2.5 Proは実証的検証を優先し、o3は段階的な因果推論を好む。この分析はモデルの解釈可能性を向上させ、多様なアプリケーションにおいてユーザーフレンドリーなものとする。
現実世界の時系列データは、しばしば複雑な非線形ダイナミクスによって支配されています。これらの根本的なダイナミクスを理解することは、正確な未来予測にとって極めて重要です。深層学習は時系列予測において大きな成功を収めてきましたが、既存の多くのアプローチはダイナミクスを明示的にモデル化していません。このギャップを埋めるため、我々は非線形ダイナミクスシステムモデリングと深層ニューラルネットワークを統合したフレームワークであるDeepEDMを提案します。経験的ダイナミクスモデリング(EDM)に着想を得て、Takensの定理に基づくDeepEDMは、時間遅れ埋め込みから潜在空間を学習し、カーネル回帰を用いて基礎となるダイナミクスを近似する新しい深層モデルを提示します。さらに、ソフトマックスアテンションの効率的な実装を活用し、将来の時系列ステップを正確に予測することを可能にします。本手法を評価するため、非線形ダイナミクスシステムの合成データおよび複数領域にわたる実世界の時系列データを用いて包括的な実験を行いました。その結果、DeepEDMは入力ノイズに対してロバストであり、予測精度において最先端の手法を凌駕することが示されました。我々のコードは以下で公開されています: https://abrarmajeedi.github.io/deep_edm。
近年の深層思考型大規模言語モデルは、性能向上のために広範な推論を行うことが多いが、そのような長い推論は必ずしも望ましいものではなく、過剰な推論コストを伴いながらも性能向上が不均衡である場合がある。したがって、性能を犠牲にすることなく推論の長さを制御することは重要であるが、特に厳しい思考予算の下では依然として困難である。本研究では、LLMの微調整を必要とせずに、目標予算に向けてLLMの推論プロセスを導くためのシンプルかつ効果的な方法である「予算ガイダンス」を提案する。本手法では、次のトークン生成中に残りの思考長をガンマ分布としてモデル化する軽量な予測器を導入する。この信号は、ソフトなトークンレベルの方法で生成を導くために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。予算ガイダンスは、思考長の自然な制御を可能にし、挑戦的な数学ベンチマークにおいてベースライン手法と比較して大幅なトークン効率の向上をもたらす。例えば、MATH-500ベンチマークにおいて、厳しい予算の下でベースライン手法と比較して最大26%の精度向上を達成し、完全思考モデルが使用する思考トークンのわずか63%で競争力のある精度を維持する。予算ガイダンスは、より広範なタスク領域にも一般化し、問題の難易度を推定するといった新たな能力も示す。ソースコードは以下で公開されている:https://github.com/UMass-Embodied-AGI/BudgetGuidance。
Transformerの自己注意層は設計上、順列不変であるため、空間理解を可能にするために位置エンコーディングを明示的に組み込む必要がある。しかし、従来の学習可能な位置埋め込み(PE)で使用される固定サイズのルックアップテーブルは、事前学習されたシーケンス長を超える外挿能力を制限する。ALiBiやRoPEなどの専門家が設計した手法はこの制限を緩和するが、新しいモダリティに適応するために大規模な変更を必要とし、適応性とスケーラビリティにおける根本的な課題を浮き彫りにする。本研究では、SeqPEを提案する。SeqPEは、各n次元位置インデックスをシンボリックシーケンスとして表現し、軽量な逐次位置エンコーダを使用してそれらの埋め込みをエンドツーエンドで学習する、統一された完全学習可能な位置エンコーディングフレームワークである。SeqPEの埋め込み空間を正則化するために、2つの補完的な目的を導入する。1つは、埋め込み距離を事前定義された位置距離関数と整合させるコントラスティブ目的であり、もう1つは、分布外の位置埋め込みを分布内の教師表現に固定する知識蒸留損失であり、外挿性能をさらに向上させる。言語モデリング、長文脈質問応答、2D画像分類にわたる実験により、SeqPEが特に文脈長外挿下で、パープレキシティ、完全一致(EM)、精度において強力なベースラインを上回るだけでなく、手動でのアーキテクチャ再設計を必要とせずに多次元入力へのシームレスな一般化を可能にすることを示す。コード、データ、チェックポイントをhttps://github.com/ghrua/seqpeで公開する。
エンドツーエンドの誤差逆伝播法を用いた大規模ニューラルネットワークの学習は、メモリのボトルネックを引き起こし、最先端のAI研究へのアクセスを制限しています。本論文では、DiffusionBlocksという新しい学習フレームワークを提案します。このフレームワークは、ニューラルネットワークのブロックを連続時間拡散過程におけるノイズ除去操作として解釈します。ネットワークを独立して学習可能なブロックに分割し、等しい累積確率質量に基づいてノイズレベル割り当てを最適化することで、生成タスクにおいて従来の誤差逆伝播法と同等の性能を維持しつつ、大幅なメモリ効率を実現します。画像生成と言語モデリングタスクにおける実験では、ブロック数に比例したメモリ削減を達成し、優れた性能を示しています。DiffusionBlocksは、限られた計算リソースで大規模ニューラルネットワークの学習を民主化する有望な道筋を提供します。
大規模言語モデル(LLMs)の最近の進展により、正確で効率的な時系列分析の新たな可能性が示されていますが、従来の研究では、多くの場合、大規模なファインチューニングが必要であったり、系列間の相関を無視したりしていました。本研究では、LLMsが広範な再学習や複雑な外部アーキテクチャを使用せずに時系列予測を実行できる、シンプルで柔軟なプロンプトベースの戦略を探求します。時系列分解、パッチベースのトークン化、類似性に基づく近傍拡張を活用した専門的なプロンプト手法の探求を通じて、データの前処理を最小限に抑えつつ、LLMの予測品質を向上させることが可能であることを見出しました。この目的のために、LLMsが正確で効果的な予測を行うことを可能にする独自の手法、PatchInstructを提案します。
本研究では、操作説明動画のためのマルチモーダル要約に着目し、テキストによる指示とキーフレームを用いて効率的にスキルを学ぶ手段を提供することを目的とする。既存のベンチマークは一般的な意味レベルの動画要約に焦点を当てており、段階的に実行可能な指示と図解を提供するには適しておらず、これらは操作説明動画において不可欠な要素である。このギャップを埋めるため、ユーザーインターフェース(UI)操作説明動画の要約に特化した新たなベンチマークを提案する。167時間以上に及ぶ2,413本のUI操作説明動画からなるデータセットを収集し、動画セグメンテーション、テキスト要約、動画要約のための手動アノテーションを行った。これにより、簡潔かつ実行可能な動画要約の包括的評価が可能となった。収集したMS4UIデータセットを用いた広範な実験を行い、最先端のマルチモーダル要約手法がUI動画要約において困難を抱えることを示し、UI操作説明動画要約のための新たな手法の重要性を強調した。
誤情報や偽情報がオンライン上で拡散する時代において、読者が読んでいる内容を理解する力を強化することが極めて重要である。この方向性における重要な取り組みは、手動または自動のファクトチェックに依存しているが、情報が限られた新興の主張に対しては困難を伴うことがある。このようなシナリオは、主張の出典の信頼性と政治的バイアスを評価することで対処できる。つまり、個々の主張や記事ではなく、ニュースメディア全体を特徴づけることである。これは重要な研究分野であるが、十分に研究されていない。先行研究では言語的および社会的文脈が検討されてきたが、個々の記事やソーシャルメディア上の情報を分析するのではなく、プロのファクトチェッカーがメディア全体の事実性と政治的バイアスを評価する際に用いる基準を模倣した新たな方法論を提案する。具体的には、これらの基準に基づいて多様なプロンプトを設計し、大規模言語モデル(LLM)から応答を引き出し、それらを集約して予測を行う。複数のLLMを用いた広範な実験を通じて、強力なベースラインを大幅に上回る改善を示すだけでなく、メディアの人気度や地域がモデルの性能に与える影響について詳細なエラー分析を提供する。さらに、アブレーションスタディを実施し、これらの改善に寄与するデータセットの主要な構成要素を明らかにする。今後の研究を促進するため、データセットとコードをhttps://github.com/mbzuai-nlp/llm-media-profilingで公開した。
大規模言語モデル(LLMs)の最近の進展は、一般領域から専門領域に至るまで、幅広い分野に大きな影響を与えています。しかし、これらの進展は、悪意のあるユーザーが有害なプロンプトやジェイルブレイクプロンプトを悪用して攻撃を行う可能性も大幅に高めています。有害なプロンプトやジェイルブレイクプロンプトを防ぐための多くの取り組みが行われてきたものの、LLMsをこのような悪意のある攻撃から保護することは依然として重要かつ困難な課題です。本論文では、QGuardというシンプルでありながら効果的なセーフティガード手法を提案します。この手法は、質問プロンプティングを利用して、ゼロショットの方法で有害なプロンプトをブロックします。私たちの手法は、テキストベースの有害なプロンプトだけでなく、マルチモーダルな有害なプロンプト攻撃からもLLMsを防御することができます。さらに、ガード質問を多様化し、修正することで、ファインチューニングなしでも最新の有害なプロンプトに対して堅牢性を維持します。実験結果は、私たちのモデルがテキストのみのデータセットとマルチモーダルな有害なデータセットの両方で競争力のある性能を発揮することを示しています。加えて、質問プロンプティングの分析を提供することで、ユーザー入力のホワイトボックス分析を可能にします。私たちの手法は、有害なプロンプトに関連するセキュリティリスクを軽減するための実世界のLLMサービスにとって貴重な洞察を提供すると信じています。
ウェアラブルカメラの急速な普及に伴い、エゴセントリックビデオのプライバシーに関する重大な懸念が提起されているが、これまでの研究では、カメラ装着者に対する独特のプライバシー脅威がほとんど見過ごされてきた。本研究では、核心的な疑問を探る:装着者の一人称視点ビデオから、どの程度のプライバシー情報が推測可能か?我々は、エゴセントリックビジョンにおけるプライバシーリスクを包括的に評価するための初の大規模ベンチマークであるEgoPrivacyを導入する。EgoPrivacyは、人口統計的、個人的、状況的の3種類のプライバシーをカバーし、細粒度(例:装着者の識別)から粗粒度(例:年齢層)までのプライバシー情報を復元することを目的とした7つのタスクを定義する。エゴセントリックビジョンに内在するプライバシー脅威をさらに強調するため、外部のエクソセントリックビデオプールからのエゴ・トゥ・エクソ検索を活用して、人口統計的プライバシー攻撃の効果を高める新たな攻撃戦略であるRetrieval-Augmented Attackを提案する。すべての脅威モデル下で可能な異なる攻撃の広範な比較が提示され、装着者のプライバシー情報が漏洩に対して非常に脆弱であることが示されている。例えば、我々の調査結果によれば、基盤モデルはゼロショット設定においても、識別、シーン、性別、人種などの属性を70-80%の精度で復元することで、装着者のプライバシーを効果的に侵害することができる。我々のコードとデータはhttps://github.com/williamium3000/ego-privacyで利用可能である。
言語モデルは主にインターネットからの大規模なテキストデータを用いて訓練されており、このデータソースを理解することがますます重要となっている。完全一致検索エンジンは、大規模なテキストコーパス内での検索を可能にするが、文字列の出現回数をカウントし、それを含む文書を取得する際に、高いストレージオーバーヘッドが発生し、インターネット規模のデータへの適用が妨げられている。本論文では、ペタバイトレベルのテキストコーパスを検索可能にする効率的でスケーラブルなシステムであるInfini-gram miniを提案する。本システムは、テキストを同時にインデックス化および圧縮するFM-indexデータ構造(Ferragina and Manzini, 2000)に基づいており、コーパスのサイズのわずか44%のインデックスを作成する。Infini-gram miniは、既存のFM-indexの最良の実装と比較して、インデックス作成速度(18倍)、インデックス作成時のメモリ使用量(3.2倍削減)、およびクエリ実行時のメモリ使用量(無視できるレベルまで削減)において大幅に改善されている。我々は、128コアのCPUノード1台を用いて46TBのインターネットテキストを50日間でインデックス化した(75台のノードを使用した場合、19時間で完了)。また、Infini-gram miniの重要な使用例として、ベンチマーク汚染の大規模分析を示す。我々は、主要な言語モデル評価ベンチマークの多くがインターネットクロールにおいて重度に汚染されていることを発見した(SQuADでは最大40%)。このようなデータを用いて訓練を行うと、言語モデルの能力を過大評価する可能性がある。我々は、主要なベンチマークおよびコミュニティ提供のベンチマークの汚染率を共有するためのベンチマーク汚染掲示板をホストしている。さらに、Infini-gram miniインデックスに対する一般的な検索クエリを提供するためのウェブインターフェースとAPIエンドポイントを公開している。
自己調整学習(SRL)は、大学の学業要求と自立性の増大に対処する上で、大学生にとって極めて重要である。SRLスキルの不足は、無秩序な学習習慣、低いモチベーション、そして時間管理の欠如を引き起こし、学習者が困難な環境で成功する能力を損なう可能性がある。59名の大学生を対象とした形成的調査を通じて、学生がSRLスキルを発展させる上で直面する主要な課題、すなわち目標設定、時間管理、および内省的学習の困難を特定した。これらの課題に対処するため、我々はSRLAgentを導入した。これは、ゲーミフィケーションと大規模言語モデル(LLMs)による適応的支援を通じてSRLスキルを育むLLM支援システムである。Zimmermanの3段階SRLフレームワークに基づき、SRLAgentは学生がインタラクティブなゲームベースの環境内で目標設定、戦略実行、および自己反省に取り組むことを可能にする。本システムは、LLMによって強化されたリアルタイムフィードバックとスキャフォールディングを提供し、学生の自立した学習努力を支援する。SRLAgentの評価は、被験者間デザインを用いて行い、ベースラインシステム(エージェント機能なしのSRL)および従来のマルチメディア学習条件と比較した。結果は、SRLAgentグループにおいてSRLスキルの有意な向上(p < .001、Cohenのd = 0.234)と、ベースラインと比較して高いエンゲージメントを示した。本研究は、ゲーミフィケーション環境内にSRLスキャフォールディングとリアルタイムAI支援を組み込むことの価値を強調し、深い学習とメタ認知スキルの発達を促進することを目指す教育技術に対する設計上の示唆を提供する。
材料科学において言語モデルの利用が増加している一方で、典型的なモデルは、自然言語処理向けに開発された頻度中心のトークン化手法に依存している。しかし、これらの手法はしばしば過剰な断片化と意味の喪失を引き起こし、材料概念の構造的および意味的整合性を維持できない。この問題に対処するため、我々はMATTERを提案する。これは材料知識をトークン化に統合する新しいアプローチである。材料知識ベースで訓練されたMatDetectorと、トークン結合において材料概念を優先する再ランキング手法に基づき、MATTERは識別された材料概念の構造的整合性を維持し、トークン化中の断片化を防ぐことで、その意味的意味を損なわない。実験結果は、MATTERが既存のトークン化手法を上回り、生成タスクと分類タスクにおいてそれぞれ平均4%と2%の性能向上を達成することを示している。これらの結果は、科学テキスト処理におけるトークン化戦略におけるドメイン知識の重要性を強調している。我々のコードはhttps://github.com/yerimoh/MATTERで公開されている。
大規模言語モデル(LLM)は通常、次の単語予測(NWP)を通じて訓練されます。この方法は表面的な流暢さを強く提供しますが、堅牢な推論をサポートすることはしばしば欠けています。本研究では、BOttlenecked next Word exploration(BOW)という新しい強化学習(RL)フレームワークを提案します。BOWはNWPを再考し、推論のボトルネックを導入します。ここでは、ポリシーモデルが最初に次のトークンを直接予測するのではなく、推論パスを生成し、その後、凍結されたジャッジモデルがこの推論パスに基づいて次のトークン分布を予測します。ポリシーモデルは、推論パスが次の単語の回復をどれだけ効果的に促進するかを定量化する報酬を用いてGRPOで訓練されます。他の継続的プレトレーニングベースラインと比較して、BOWが基本モデルの一般的な推論能力と次の単語推論能力の両方を向上させることを、さまざまなベンチマークで評価し示します。我々の研究結果は、BOWが従来のNWPの効果的かつスケーラブルな代替手段として機能し得ることを示しています。
画像から死亡率に関連するアウトカムを予測することは、アクセス可能で非侵襲的かつスケーラブルな健康スクリーニングの可能性を提供する。本研究では、事前学習済みのビジョントランスフォーマーファウンデーションモデルを活用し、顔および全身画像から残存寿命を推定する方法を提案する。さらに、堅牢な不確実性の定量化を併せて行う。予測の不確実性は真の残存寿命と系統的に変化し、この不確実性は各サンプルに対してガウス分布を学習することで効果的にモデル化できることを示す。本手法は、既存のデータセットにおいて7.48年の平均絶対誤差(MAE)を達成し、さらに本研究で作成・公開した2つの新しい高品質データセットにおいては4.79年および5.07年のMAEに改善された。重要な点として、本モデルは適切に較正された不確実性推定を提供し、バケット化された期待較正誤差が0.62年であることが示された。臨床展開を目的としたものではないが、これらの結果は画像から医学的に関連するシグナルを抽出する可能性を強調するものである。さらなる研究を促進するため、すべてのコードとデータセットを公開する。
本研究では、学術論文の高次意味解析および言語分析において大規模言語モデル(LLM)を導くための、人間に似た階層的推論を引き出すことを目的とした概念実証(PoC)型の構造化ワークフロープロンプトを提案し、その評価を行った。本プロンプトは、要約内の根拠のない主張の特定(情報的整合性)と、曖昧な代名詞参照の検出(言語的明瞭性)という2つの非自明な分析タスクを対象としている。2つの最先端モデル(Gemini Pro 2.5 ProおよびChatGPT Plus o3)に対して、異なる文脈条件のもとで系統的かつ複数回の評価を実施した。情報的整合性タスクにおける結果は、モデル間で顕著な性能差を示した。具体的には、両モデルとも名詞句の主要部における根拠のない主張を95%の成功率で特定した一方、ChatGPTは形容詞修飾語における根拠のない主張を全く特定できず(0%成功率)、Geminiはこれを95%の成功率で正しく検出した。この結果は、ターゲットの統語的役割が性能に影響を与える可能性を示唆している。言語分析タスクでは、完全な原稿文脈を提供した場合、両モデルとも良好な性能(80-90%成功率)を示した。しかし、要約のみを提供した場合、ChatGPTは100%の成功率を達成したのに対し、Geminiの性能は大幅に低下した。本研究の結果は、構造化プロンプトが複雑なテキスト分析のための有効な手法であることを示唆する一方、プロンプトの性能がモデル、タスクタイプ、および文脈の相互作用に大きく依存する可能性を示しており、モデル固有の厳密なテストの必要性を強調している。
既存の自動音楽生成研究は、主に完全な作曲や続きを生成するエンドツーエンドシステムに焦点を当ててきました。しかし、音楽作曲は通常反復的なプロセスであるため、そのようなシステムでは、コンピュータ支援型の創造性に不可欠な人間と機械の間の双方向的な関与が困難です。本研究では、コンピュータ支援型作曲プロセスを強化するために、パーソナライズ可能でマルチトラック、長文脈、制御可能なシンボリック音楽の埋め込みタスクに取り組みます。RWKV-7線形アーキテクチャに基づく新規モデルであるMIDI-RWKVを提案し、エッジデバイス上での効率的で一貫性のある音楽の共創を可能にします。また、MIDI-RWKVが、非常に少ないサンプル数でのパーソナライゼーションのために初期状態を微調整する効果的な方法を許容することを示します。MIDI-RWKVとその状態調整をいくつかの定量的および定性的な指標で評価し、モデルの重みとコードをhttps://github.com/christianazinn/MIDI-RWKVで公開します。
言語は時間とともに変化し、特にヘイトスピーチの領域では、社会的ダイナミクスや文化的変遷に応じて急速に進化する。自然言語処理(NLP)研究では、言語の進化がモデル訓練に与える影響を調査し、それに対するいくつかの解決策を提案してきたが、モデルのベンチマーク評価への影響はまだ十分に検討されていない。しかし、ヘイトスピーチのベンチマークは、モデルの安全性を確保する上で重要な役割を果たす。本論文では、2つの進化するヘイトスピーチ実験において、20の言語モデルの頑健性を実証的に評価し、静的評価と時間的感度を考慮した評価の間の時間的なずれを示す。我々の研究結果は、ヘイトスピーチ領域において言語モデルを正確かつ信頼性高く評価するためには、時間的感度を考慮した言語ベンチマークが必要であることを示唆している。