翻訳付きの日次キュレーションされたAI研究論文
大規模な視覚言語モデル(VLM)は優れた性能を発揮しますが、多大な計算リソースを必要とするため、モバイルやエッジデバイスへの展開が制限されています。小型のVLMは通常、大規模モデルの設計選択を模倣しており、広範な画像トークン化などによりGPUメモリの使用効率が低く、オンデバイスアプリケーションにおける実用性が制約されています。 私たちは、リソース効率の高い推論に特化した一連のコンパクトなマルチモーダルモデルであるSmolVLMを紹介します。低計算オーバーヘッドに最適化されたアーキテクチャ構成、トークン化戦略、データキュレーションを体系的に探求しました。これにより、最小限のメモリフットプリントで画像およびビデオタスクにおいて大幅な性能向上をもたらす重要な設計選択を特定しました。 私たちの最小モデルであるSmolVLM-256Mは、推論中に1GB未満のGPUメモリを使用し、18ヶ月の開発ギャップがあるにもかかわらず、300倍大きいIdefics-80Bモデルを上回ります。最大モデルである2.2Bパラメータのモデルは、GPUメモリを2倍消費する最先端のVLMと同等の性能を発揮します。SmolVLMモデルは静止画像を超え、堅牢なビデオ理解能力を示します。 私たちの結果は、戦略的なアーキテクチャ最適化、効率的で積極的なトークン化、そして注意深くキュレーションされたトレーニングデータが、マルチモーダル性能を大幅に向上させ、実用的でエネルギー効率の高い展開を大幅に小さなスケールで実現することを強調しています。
今日のTransformerモデルは、1分間の動画生成において依然として苦戦しています。これは、自己注意層が長い文脈に対して非効率的であるためです。Mamba層などの代替手法は、複数のシーンからなる複雑な物語を扱う際に課題を抱えています。その理由は、隠れ状態の表現力が低いためです。私たちは、隠れ状態自体がニューラルネットワークとなり得るTest-Time Training(TTT)層を実験しました。これにより、表現力が向上します。事前学習済みのTransformerにTTT層を追加することで、テキストストーリーボードから1分間の動画を生成できるようになりました。概念実証として、トムとジェリーのカートゥーンに基づいたデータセットをキュレーションしました。Mamba~2、Gated DeltaNet、スライディングウィンドウ注意層などのベースラインと比較すると、TTT層はより一貫性のある動画を生成し、複雑な物語を伝えることができます。100本の動画を各手法で評価した人間評価において、34Eloポイントのリードを達成しました。有望な結果ではありますが、事前学習済みの5Bモデルの能力の限界により、アーティファクトが含まれている可能性があります。また、実装の効率性も改善の余地があります。リソースの制約により、1分間の動画のみを実験しましたが、このアプローチはより長い動画や複雑な物語にも拡張可能です。サンプル動画、コード、アノテーションは以下のURLで公開しています:https://test-time-training.github.io/video-dit
言語モデルが自身の推論を省察する能力は、複雑な問題解決において重要な利点を提供する。最近の研究の多くは、この能力が強化学習中にどのように発達するかに焦点を当てているが、我々はそれが実際にははるかに早い段階、すなわちモデルの事前学習中に現れ始めることを示す。これを研究するため、我々は連鎖思考(chain-of-thought)に意図的な誤りを導入し、モデルがこれらの誤りを認識して修正することで正しい答えにたどり着けるかどうかをテストする。事前学習の異なる段階でのパフォーマンスを追跡することで、この自己修正能力が早期に現れ、時間とともに着実に向上することを観察した。例えば、4兆トークンで事前学習されたOLMo2-7Bモデルは、我々の6つの自己省察タスクにおいて自己修正を示した。
最近の研究では、テスト時の計算リソースのスケーリングが、小規模言語モデル(sLM)の性能を効果的に向上させることが実証されています。しかし、これまでの研究では、主に検証用のより大規模なモデルを追加した場合のテスト時計算スケーリングが検討されており、sLMによる自己検証については十分に検討されていませんでした。本研究では、sLMがテスト時スケーリング下で自身の出力を信頼性高く自己検証できるかどうかを調査します。その結果、大規模な検証モデルからの知識蒸留を行った場合でも、sLMは数値計算や事実確認といった記憶を要する検証タスクに苦戦することがわかりました。この制約に対処するため、我々はツール統合型自己検証(T1)を提案します。T1では、コードインタプリタなどの外部ツールに記憶負荷の高い検証ステップを委譲します。理論分析により、ツール統合が記憶要求を軽減し、テスト時スケーリングの性能を向上させることが示されました。MATHベンチマークでの実験では、T1を適用したLlama-3.2 1Bモデルが、テスト時スケーリング下で、はるかに大規模なLlama-3.1 8Bモデルを上回る性能を示しました。さらに、T1は数学的タスク(MATH500)と多分野にわたる知識集約型タスク(MMLU-Pro)の両方に効果的に汎化することが確認されました。本研究の結果は、ツール統合がsLMの自己検証能力を大幅に向上させる可能性があることを示唆しています。
リージョンレベルのキャプショニングは、特定の画像領域に対して自然言語による説明を生成し、その際にそれらの識別特徴を強調することを目的としています。しかし、既存の手法では、マルチグラニュラリティにわたって一意なキャプションを生成することが難しく、実世界での適用性が制限されています。詳細なリージョンレベルの理解の必要性に対応するため、我々はマルチグラニュラリティリージョンキャプショニングに特化した大規模データセットであるURECAデータセットを導入します。従来のデータセットが主に顕著なオブジェクトに焦点を当てていたのに対し、URECAデータセットは、多様なオブジェクト、パーツ、背景要素を取り入れることで、リージョンとキャプションの間の一意で一貫したマッピングを保証します。その中心となるのは、段階的なデータキュレーションパイプラインであり、各段階でリージョンの選択とキャプション生成を徐々に洗練させます。各段階でマルチモーダル大規模言語モデル(MLLMs)を活用することで、我々のパイプラインは、精度と意味的多様性が向上した、特徴的で文脈に基づいたキャプションを生成します。このデータセットを基に、我々はマルチグラニュラリティリージョンを効果的にエンコードするための新しいキャプショニングモデルであるURECAを提案します。URECAは、既存のMLLMsにシンプルでありながら効果的な修正を加えることで、位置や形状といった重要な空間的特性を維持し、細粒度で意味的に豊かなリージョン記述を可能にします。我々のアプローチでは、キャプションの一意性を高めるために、動的マスクモデリングと高解像度マスクエンコーダを導入しています。実験結果は、URECAがURECAデータセットで最先端の性能を達成し、既存のリージョンレベルキャプショニングベンチマークにもうまく一般化することを示しています。
最近の推論言語モデルの進歩は、複雑なタスクにおいて顕著な性能を示していますが、その拡張された連鎖思考推論プロセスは推論のオーバーヘッドを増加させます。量子化は大規模言語モデルの推論コストを削減するために広く採用されていますが、推論モデルへのその影響は十分に研究されていません。本研究では、量子化された推論モデルに関する最初の体系的な研究を行い、1.5Bから70BパラメータまでのオープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリー、およびQwQ-32Bを評価しました。私たちの調査は、最先端のアルゴリズムを使用した重み、KVキャッシュ、および活性化の量子化を様々なビット幅でカバーし、数学的(AIME、MATH-500)、科学的(GPQA)、およびプログラミング(LiveCodeBench)の推論ベンチマークにわたる広範な評価を行いました。私たちの調査結果は、W8A8またはW4A16量子化でロスレス量子化が達成可能である一方、より低いビット幅では精度リスクが顕著に増加することを明らかにしました。さらに、モデルサイズ、モデルの起源、およびタスクの難易度が性能の重要な決定要因であることを特定しました。予想に反して、量子化されたモデルは出力長の増加を示しませんでした。加えて、モデルサイズや推論ステップを戦略的にスケーリングすることで、効果的に性能を向上させることができます。すべての量子化されたモデルとコードはhttps://github.com/ruikangliu/Quantized-Reasoning-Modelsでオープンソースとして公開されます。
我々は、価値ベースのパラダイムにおける推論モデルに特化した新しいフレームワークであるVAPO(Value-based Augmented Proximal Policy Optimization)を提案する。AIME 2024データセットでベンチマークを行った結果、Qwen 32B事前学習モデルを基に構築されたVAPOは、60.4という最先端のスコアを達成した。同一の実験設定下での直接比較において、VAPOは以前に報告されたDeepSeek-R1-Zero-Qwen-32BおよびDAPOの結果を10ポイント以上上回った。VAPOの学習プロセスは、その安定性と効率性において際立っている。わずか5,000ステップで最先端の性能に到達し、さらに複数の独立した実行においても学習クラッシュが発生しないことから、その信頼性が裏付けられている。本研究では、価値ベースの強化学習フレームワークを用いた長い連鎖思考(long-CoT)推論に焦点を当てている。我々は、価値ベースの手法を悩ませる3つの主要な課題、すなわち価値モデルのバイアス、異種シーケンス長の存在、および報酬信号の希薄性を特定した。体系的な設計を通じて、VAPOはこれらの課題を効果的に緩和する統合ソリューションを提供し、long-CoT推論タスクにおける性能向上を可能にしている。
拡散モデルは画像編集タスクに広く使用されています。既存の編集手法では、テキスト埋め込み空間やスコア空間において編集方向を設計することで、表現操作の手順を構築することが一般的です。しかし、このような手順には重要な課題があります。編集強度を過大に見積もると視覚的一貫性が損なわれ、過小に見積もると編集タスクが失敗します。特に、各ソース画像は異なる編集強度を必要とする可能性があり、試行錯誤を通じて適切な強度を見つけるのはコストがかかります。この課題に対処するため、我々はConcept Lancet(CoLan)を提案します。これは、拡散ベースの画像編集における原則に基づいた表現操作のためのゼロショット・プラグアンドプレイフレームワークです。推論時には、ソース入力を潜在(テキスト埋め込みまたは拡散スコア)空間において、収集された視覚概念の表現の疎な線形結合として分解します。これにより、各画像における概念の存在を正確に推定し、編集を導くことが可能になります。編集タスク(置換/追加/削除)に基づいて、カスタマイズされた概念移植プロセスを実行し、対応する編集方向を適用します。概念空間を十分にモデル化するために、潜在辞書のための多様な視覚用語やフレーズの記述とシナリオを含む概念表現データセット、CoLan-150Kを構築しました。複数の拡散ベースの画像編集ベースラインでの実験により、CoLanを搭載した手法が編集効果と一貫性保持において最先端の性能を達成することが示されました。
私たちは、インターネットから最新の視覚的知識を自動的に収集し、合成されたVQA(Visual Question Answering)問題を組み込んだデータセット「LiveVQA」を紹介します。LiveVQAは、14のニュースカテゴリーにわたる6つのニュースウェブサイトから収集された3,602のシングルホップおよびマルチホップ視覚質問で構成されており、高品質な画像とテキストの一貫性と信頼性のある情報を特徴としています。15のMLLM(例:GPT-4o、Gemma-3、Qwen-2.5-VLファミリー)にわたる評価では、より強力なモデルが全体的に優れたパフォーマンスを示し、高度な視覚推論能力が複雑なマルチホップ質問において重要であることが明らかになりました。テキスト問題での優れたパフォーマンスにもかかわらず、検索エンジンなどのツールを備えたモデルでも、最新の視覚的知識を必要とする視覚質問に対処する際に大きなギャップが存在し、今後の研究における重要な領域が浮き彫りになりました。
大規模言語モデル(LLMs)がブラックボックスAPIを通じて広く利用されるようになる中で、重要な信頼性の問題が浮上しています。ユーザーは、宣伝されているモデルの能力(例:サイズ、性能)に基づいてサービスを購入しますが、プロバイダーは運用コストを削減するために、指定されたモデルをより安価で品質の低い代替モデルに密かに置き換える可能性があります。この透明性の欠如は公平性を損ない、信頼を蝕み、信頼性のあるベンチマークを複雑にします。ブラックボックスの性質上、入出力クエリに限定されるため、このような置き換えを検出することは困難です。本論文では、LLM APIにおけるモデル置き換え検出の問題を形式化します。我々は、モデルの量子化、ランダムな置き換え、ベンチマーク回避などの現実的な攻撃シナリオの下で、出力ベースの統計的テスト、ベンチマーク評価、対数確率分析などの既存の検証技術を体系的に評価します。我々の調査結果は、特に微妙な適応的攻撃に対して、テキスト出力のみに依存する方法の限界を明らかにします。対数確率分析は利用可能な場合に強力な保証を提供しますが、そのアクセシビリティはしばしば制限されています。最後に、信頼できる実行環境(TEEs)のようなハードウェアベースのソリューションが、証明可能なモデル整合性への道筋としての可能性を議論し、セキュリティ、性能、プロバイダーの採用の間のトレードオフを強調します。コードはhttps://github.com/sunblaze-ucb/llm-api-auditで公開されています。
推論は人間の知能の中核をなすものであり、多様なタスクにわたる構造化された問題解決を可能にします。近年の大規模言語モデル(LLM)の進展により、算術、常識、記号領域における推論能力が大幅に向上しました。しかし、これらの能力をマルチモーダルな文脈—モデルが視覚的およびテキスト的な入力を統合しなければならない状況—に効果的に拡張することは、依然として重要な課題です。マルチモーダル推論は、モダリティ間の矛盾する情報を扱うといった複雑さを伴い、モデルが高度な解釈戦略を採用する必要があります。これらの課題に対処するためには、洗練されたアルゴリズムだけでなく、推論の正確性と一貫性を評価するための堅牢な方法論も必要です。本論文では、テキストおよびマルチモーダルLLMにおける推論技術について、簡潔でありながら洞察に富んだ概観を提供します。最新の比較を通じて、核心的な推論の課題と機会を明確に定式化し、ポストトレーニング最適化およびテスト時推論のための実践的な方法を強調します。本研究は、理論的フレームワークと実践的な実装を橋渡しし、将来の研究に向けた明確な方向性を示すことで、貴重な洞察と指針を提供します。
拡散モデルは、ノイズ除去分布をガウス分布として近似し、その平均を予測します。一方、フローマッチングモデルは、ガウス平均をフロー速度として再パラメータ化します。しかし、これらのモデルは、離散化誤差のため少ステップサンプリングでは性能が低下し、クラスファリーフリーガイダンス(CFG)下では過飽和色を生成する傾向があります。これらの制限に対処するため、我々は新しいガウス混合フローマッチング(GMFlow)モデルを提案します:GMFlowは平均を予測する代わりに、動的ガウス混合(GM)パラメータを予測し、多モードのフロー速度分布を捉えます。これはKLダイバージェンス損失で学習可能です。我々は、GMFlowが、L_2ノイズ除去損失で単一ガウスを学習する従来の拡散モデルとフローマッチングモデルを一般化することを示します。推論では、解析的ノイズ除去分布と速度場を活用したGM-SDE/ODEソルバーを導出し、正確な少ステップサンプリングを実現します。さらに、CFGの過飽和問題を緩和し、画像生成品質を向上させる新しい確率的ガイダンススキームを導入します。広範な実験により、GMFlowがフローマッチングベースラインを生成品質で一貫して上回り、ImageNet 256×256でわずか6サンプリングステップで0.942のPrecisionを達成することが実証されました。
ツール拡張型大規模言語モデル(TA-LLM)は現実世界のアプリケーションで有望な成果を示していますが、不完全なクエリや範囲外のリクエストを扱う際に課題に直面しています。既存のアプローチは主に専門家の軌跡を用いた教師ありファインチューニングに依存していますが、本研究ではDirect Preference Optimization(DPO)を通じてTA-LLMの対話能力を強化する新たな手法、DiaTool-DPOを提案します。TA-LLMのインタラクションを5つの異なる対話状態を持つマルコフ決定過程としてモデル化し、ユーザークエリを状態遷移軌跡に基づいて3つのタイプに分類します。正しい対話フローと誤った対話フローのペア軌跡データセットを自動的に構築し、対話制御のための専用の目的関数を導入します。包括的な評価の結果、DiaTool-DPOはGPT-4oの性能(情報収集で94.8%、ツール呼び出し拒否で91%)に近づき、ベースラインと比較して大幅な改善(それぞれ44%と9.6%)を示しつつ、コア機能を維持することが実証されました。本アプローチは、追加の専門家デモンストレーションや人間によるラベル付けを必要とせず、多様な現実世界のシナリオを扱えるTA-LLMの開発に新たな可能性を開くものです。
私たちはClinical ModernBERTを紹介します。これは、大規模な生物医学文献、臨床ノート、および医学オントロジーに基づいて事前学習されたトランスフォーマーベースのエンコーダーであり、PubMedの抄録、MIMIC IVの臨床データ、およびテキスト記述付きの医療コードを組み込んでいます。本モデルは、回転位置埋め込み(RoPE)、Flash Attention、最大8,192トークンまでの拡張コンテキスト長などのアーキテクチャ的改良を特徴とする現状最先端の自然言語テキストエンコーダーであるModernBERTを基盤としており、これらの革新を特に生物医学および臨床領域に適応させています。Clinical ModernBERTは、長文コンテキストタスクに特化した意味的に豊かな表現を生成する点で優れています。私たちは、事前学習された重みの分析と、包括的な臨床NLPベンチマークでの実証評価を通じて、これを検証しました。
単一画像からの3Dシーン理解は、コンピュータビジョンにおける重要な課題であり、グラフィックス、拡張現実、ロボティクスなど多くの下流アプリケーションに応用されています。拡散ベースのモデリング手法は有望な成果を示していますが、特に複雑な現実世界のシナリオでは、オブジェクトやシーンの一貫性を維持するのに苦労することがあります。これらの制限に対処するため、我々はLocal Random Access Sequence(LRAS)モデリングと呼ばれる自己回帰的生成アプローチを提案します。この手法は、ローカルパッチの量子化とランダムな順序のシーケンス生成を利用します。3Dシーン編集の中間表現としてオプティカルフローを活用することで、我々の実験はLRASが最新の新規視点合成と3Dオブジェクト操作能力を達成することを実証しています。さらに、シーケンス設計を簡単に変更することで、このフレームワークが自己教師あり深度推定に自然に拡張可能であることを示します。複数の3Dシーン理解タスクで強力な性能を達成することで、LRASは次世代の3Dビジョンモデルを構築するための統一された効果的なフレームワークを提供します。
ビジョン基盤モデル(VFMs)とビジョン言語モデル(VLMs)は、その強力な汎化能力により、ドメイン一般化セマンティックセグメンテーション(DGSS)において注目を集めています。しかし、既存のDGSS手法は、VFMsまたはVLMsのいずれかに依存することが多く、それらの補完的な強みを見落としています。VFMs(例:DINOv2)は細粒度の特徴を捉えるのに優れている一方、VLMs(例:CLIP)は堅牢なテキストアラインメントを提供しますが、粗粒度の特徴には苦戦します。これらの補完的な強みにもかかわらず、VFMsとVLMsをアテンションメカニズムで効果的に統合することは困難であり、パッチトークンの増加が長いシーケンスのモデリングを複雑にします。この問題に対処するため、我々はMFuserを提案します。これは、VFMsとVLMsの強みを効率的に組み合わせながら、シーケンス長に対して線形のスケーラビリティを維持する新しいMambaベースの融合フレームワークです。MFuserは、2つの主要なコンポーネントで構成されています:MVFuserは、シーケンシャルおよび空間的なダイナミクスを捉えることで、両モデルを共同でファインチューニングする共アダプターとして機能します;MTEnhancerは、画像の事前情報を取り入れることでテキスト埋め込みを洗練させるハイブリッドアテンション-Mambaモジュールです。我々のアプローチは、大きな計算オーバーヘッドを発生させることなく、正確な特徴の局所性と強力なテキストアラインメントを実現します。広範な実験により、MFuserが最先端のDGSS手法を大幅に上回り、合成から実世界へのベンチマークで68.20 mIoU、実世界から実世界へのベンチマークで71.87 mIoUを達成することが示されました。コードはhttps://github.com/devinxzhang/MFuserで公開されています。
BOP Challenge 2024の評価手法、データセット、および結果を紹介します。これは、6D物体姿勢推定および関連タスクにおける最先端技術を把握するために開催された一連の公開コンペティションの第6回です。2024年において、私たちの目標は、BOPを実験室的な設定から実世界のシナリオへと移行させることでした。まず、3D物体モデルが利用できない新しいモデルフリータスクを導入し、提供された参照動画のみから物体をオンボーディングする必要がある手法を求めました。次に、テスト画像に映る物体の識別情報が入力として提供されない、より実用的な6D物体検出タスクを定義しました。さらに、高解像度センサーとAR/VRヘッドセットを使用して記録された新しいBOP-H3データセットを導入し、実世界のシナリオに近い環境を再現しました。BOP-H3には、モデルベースおよびモデルフリータスクをサポートするための3Dモデルとオンボーディング動画が含まれています。参加者は、タスク、物体オンボーディング設定、およびデータセットグループによって定義された7つのチャレンジトラックで競いました。特に、未見物体のモデルベース6D位置推定における2024年最良の手法(FreeZeV2.1)は、BOP-Classic-Coreにおいて2023年最良の手法(GenFlow)よりも22%高い精度を達成し、既知物体に対する2023年最良の手法(GPose2023)に比べてわずか4%遅れているものの、処理速度が大幅に遅い(24.9秒 vs 2.7秒/画像)ことが特徴です。このタスクにおいてより実用的な2024年の手法はCo-opであり、1画像あたり0.8秒しかかからず、GenFlowよりも25倍高速で13%高い精度を実現しています。6D検出における手法のランキングは6D位置推定と同様ですが、実行時間が長くなっています。未見物体のモデルベース2D検出において、2024年最良の手法(MUSE)は2023年最良の手法(CNOS)に比べて21%の相対的改善を達成しました。しかし、未見物体の2D検出精度は、既知物体に対する精度(GDet2023)に比べて依然として顕著に低い(-53%)状態です。オンライン評価システムは引き続き公開されており、http://bop.felk.cvut.cz/ で利用可能です。
我々は、知識蒸留と強化学習最適化を組み合わせた、推論集約型ドキュメントランキングのための小型言語モデルを訓練する新規アプローチを提案する。既存手法が高コストな人間のアノテーションや大規模なブラックボックス言語モデルに依存するのに対し、本手法ではウェブデータと教師LLMを活用して、関連性の説明付きの高品質な訓練例を自動生成する。ドキュメントランキングを強化学習問題として定式化し、明示的な推論能力を促進することで、3Bパラメータのコンパクトな言語モデルを訓練し、BRIGHTベンチマークにおいて最先端の性能を達成した。本モデルはリーダーボードで3位にランクインしつつ、他のアプローチよりも大幅に少ないパラメータ数で、20倍以上大きなモデルを上回る性能を示した。広範な実験を通じて、関連性スコアを直接予測するのではなく、推論中に説明を生成することが、小型言語モデルによるより効果的な推論を可能にすることを実証した。本手法の自己教師あり特性は、現代の情報検索システムに対するスケーラブルで解釈可能なソリューションを提供する。
マルチモーダル大規模言語モデル(MLLMs)は視覚言語タスクにおいて優れた性能を発揮する一方で、特にジェイルブレイク攻撃を通じて有害なコンテンツを生成する重大なリスクも抱えています。ジェイルブレイク攻撃とは、モデルの安全機構を意図的に回避し、不適切または危険なコンテンツを生成させる操作を指します。このような攻撃を検出することは、MLLMsの責任ある展開を確保する上で極めて重要です。既存のジェイルブレイク検出手法は、主に3つの課題に直面しています。(1) 多くの手法がモデルの隠れ状態や勾配に依存しており、モデルの内部構造にアクセス可能なホワイトボックスモデルに限定されること、(2) 不確実性に基づく分析による高い計算コストがかかり、リアルタイム検出が制限されること、(3) 完全にラベル付けされた有害データセットを必要とすることですが、現実世界ではそのようなデータセットが不足していることです。これらの課題を解決するため、我々はJAILDAMと呼ばれるテスト時適応型フレームワークを提案します。本手法は、ポリシー駆動型の安全でない知識表現に基づくメモリベースのアプローチを活用し、有害なデータへの明示的な曝露を不要とします。テスト時に安全でない知識を動的に更新することで、本フレームワークは未見のジェイルブレイク戦略への汎化性能を向上させつつ、効率性を維持します。複数のVLMジェイルブレイクベンチマークでの実験により、JAILDAMが有害コンテンツ検出において最先端の性能を発揮し、精度と速度の両方を向上させることが実証されました。
テスト時の計算量を増やすことが、言語モデルの性能向上に向けた有望な方向性として浮上しています。特に、計算上の制約やモデル重みの秘匿性のために、モデルのファインチューニングが非現実的または不可能なシナリオにおいて有効です。しかし、報酬モデル(RM)を用いた既存のテスト時探索手法は、計算量が増えるにつれて品質が低下する傾向があります。これは、本質的に不完全な報酬代理指標の過剰最適化によるものです。本論文では、新しいテスト時アライメント手法であるQAlignを紹介します。QAlignは、テスト時の計算量をスケールさせることで、各プロンプトに対する最適なアライメント分布からのサンプリングに収束します。テキスト生成のためのマルコフ連鎖モンテカルロ法の最新の進展を採用することで、基礎となるモデルを変更したり、ロジットへのアクセスを必要とせずに、より適切にアライメントされた出力を実現します。タスク固有のRMを用いた数学的推論ベンチマーク(GSM8KおよびGSM-Symbolic)において、QAlignの有効性を実証し、既存のテスト時計算手法(best-of-nや多数決)を一貫して上回る改善を示しました。さらに、Tulu 3選好データセットでトレーニングされたより現実的なRMを適用した場合、QAlignは多様なデータセット(GSM8K、MATH500、IFEval、MMLU-Redux、TruthfulQA)において、直接選好最適化(DPO)、best-of-n、多数決、加重多数決を上回る性能を示しました。追加の計算量を使用してテスト時に言語モデルをアライメントする実用的なソリューションとして、本手法は、さらなるトレーニングなしで既存の言語モデルから得られる能力の限界を拡張します。
大規模言語モデル(LLMs)は世界的に前例のない速度で進化しており、各地域ではこれらのモデルを主要言語での応用に採用する動きが加速しています。特に低リソース言語を含む多様な言語環境におけるこれらのモデルの評価は、学界と産業界にとって大きな課題となっています。既存の評価フレームワークは英語や一部の高リソース言語に偏重しており、多言語および低リソースシナリオにおけるLLMsの現実的な性能を見落としています。このギャップを埋めるため、我々はGlotEvalを紹介します。これは大規模多言語評価のために設計された軽量フレームワークです。7つの主要なタスク(機械翻訳、テキスト分類、要約、オープンエンド生成、読解、シーケンスラベリング、内在的評価)をサポートし、数十から数百の言語にまたがるGlotEvalは、一貫した多言語ベンチマーキング、言語固有のプロンプトテンプレート、非英語中心の機械翻訳を特徴としています。これにより、多様な言語コンテキストにおけるモデルの強みと弱みを正確に診断することが可能になります。多言語翻訳のケーススタディは、GlotEvalが多言語および言語固有の評価に適用可能であることを示しています。
大規模言語モデル(LLM)は、言語間で性能に大きな差を示し、主に高リソース言語を優遇する一方で、十分に表現されていない言語を疎外する傾向があります。この不均衡を解消する有望なアプローチとして、継続的事前学習(CPT)が注目されていますが、単一言語、二言語、およびコード拡張データ戦略の相対的な有効性は依然として不明確です。本研究では、3つの多言語ベースモデルを用いた36のCPT構成を、30以上の言語(利他的、利己的、停滞的のカテゴリに分類)にわたって体系的に評価し、さまざまなリソースレベルを網羅しました。その結果、以下の3つの主要な知見が得られました:(1)二言語CPTは多言語分類を改善しますが、生成時に言語混合の問題を引き起こすことが多い。(2)CPT中にプログラミングコードデータを含めることで、特に低リソース言語にとって多言語分類精度が一貫して向上しますが、生成品質がわずかに低下するトレードオフが生じる。(3)先行研究とは異なり、言語分類が相互言語転移への影響において大幅に逸脱していることが観察されました:利他的と分類された言語は関連言語に悪影響を及ぼすことが多く、利己的言語は条件や構成に依存した振る舞いを示し、停滞的言語は特定のCPT条件下で驚くほどの適応性を示しました。これらの微妙な相互作用は、多言語表現学習の複雑さを強調し、将来の多言語CPT戦略を導くための汎用的な言語分類に関する体系的な研究の重要性を浮き彫りにしています。