翻訳付きの日次キュレーションされたAI研究論文
最近の研究では、大規模言語モデル(LLM)が外部からのフィードバックを与えられると、その応答を改善する能力をある程度持つことが示されています。しかし、これらのモデルが外部フィードバックをどの程度効果的かつ徹底的に取り込むことができるかはまだ明らかではありません。理想的なシナリオでは、LLMがほぼ完璧で完全なフィードバックを受け取った場合、フィードバックを完全に統合し、誤った回答を正しいものに変更することが期待されます。本論文では、制御された実験環境を設計することで、LLMのフィードバック取り込み能力を体系的に調査します。各問題に対して、ソルバーモデルが解答を試み、その後、ほぼ完全な正解にアクセスできるフィードバック生成器が特定のフィードバックを生成し、その後にソルバーが再度試みます。このパイプラインを、数学的推論、知識推論、科学的推論、および一般的な多分野評価を含む多様なタスクで評価し、Claude 3.7(拡張思考あり・なしを含む)などの最先端の言語モデルを使用します。驚くべきことに、これらのほぼ理想的な条件下でも、ソルバーモデルは一貫してフィードバックに対する抵抗を示し、この制限を「フィードバック摩擦(FEEDBACK FRICTION)」と呼びます。この制限を緩和するために、段階的な温度上昇や以前に試みた誤った回答の明示的な拒否などのサンプリングベースの戦略を実験し、改善は見られるものの、モデルが目標性能を達成するには至りませんでした。また、フィードバック摩擦の潜在的な原因を厳密に探求し、モデルの過信やデータの親しみやすさなどの要因を除外しました。LLMにおけるこの問題を強調し、いくつかの明白な原因を除外することで、自己改善に関する将来の研究に役立つことを期待しています。
タスク指向のLLMベースのエージェントは、返金適格性やキャンセルルールなど、厳格なポリシーが存在する領域でますます使用されています。課題は、エージェントがこれらのルールやポリシーを一貫して遵守し、それらに違反するリクエストを適切に拒否しながらも、有用で自然なインタラクションを維持することにあります。これには、悪意のあるユーザー行動に対するエージェントの耐性を確保するための、特化した設計および評価方法論の開発が必要です。私たちは、個人の利益のためにポリシー遵守型エージェントを悪用しようとする敵対的ユーザーに焦点を当てた新しい脅威モデルを提案します。これに対処するため、CRAFTというマルチエージェントのレッドチーミングシステムを紹介します。CRAFTは、ポリシーを意識した説得戦略を活用して、カスタマーサービスシナリオにおけるポリシー遵守型エージェントを弱体化させ、DANプロンプト、感情操作、強制といった従来のジェイルブレイク手法を上回る性能を発揮します。既存のtau-benchベンチマークを基に、tau-breakという補完的なベンチマークを導入し、操作的なユーザー行動に対するエージェントの堅牢性を厳密に評価します。最後に、いくつかのシンプルでありながら効果的な防御戦略を評価します。これらの対策はある程度の保護を提供しますが、不十分であり、ポリシー遵守型エージェントを敵対的攻撃から守るための、より強力な研究主導のセーフガードの必要性が浮き彫りになります。
均一状態離散拡散モデルは、その自己修正能力により高速なテキスト生成が期待される。しかし、通常は自己回帰モデルやマスク拡散モデルに性能で劣る。本研究では、この性能差を縮めるために重要な洞察を活用する:均一状態拡散過程は、基礎となるガウス拡散から自然に生じる。我々の手法「Duo」は、ガウス拡散から強力な技術を転用し、学習とサンプリングの両方を改善する。まず、ガウス過程に基づくカリキュラム学習戦略を導入し、分散を減らすことで学習速度を倍増させる。カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットパープレキシティにおいて自己回帰モデルを上回る。次に、連続設定から離散設定へ一貫性蒸留を適応させた「離散一貫性蒸留」を提案する。このアルゴリズムにより、拡散言語モデルにおける数ステップ生成が可能となり、サンプリング速度を2桁加速する。コードとモデルチェックポイントはプロジェクトページ(http://s-sahoo.github.io/duo)で公開している。
本論文では、ワーピング・アンド・インペインティング手法を用いて、整列された新規視点画像とジオメトリ生成を実行する拡散ベースのフレームワークを提案する。従来の手法では、密なポーズ画像やドメイン内視点に限定されたポーズ埋め込み生成モデルが必要であったが、本手法では、オフザシェルフのジオメトリ予測器を活用して参照画像から見た部分的なジオメトリを予測し、新規視点合成を画像とジオメトリの両方に対するインペインティングタスクとして定式化する。生成された画像とジオメトリの正確な整列を確保するために、画像拡散ブランチからのアテンションマップを並列のジオメトリ拡散ブランチに注入するクロスモーダルアテンション蒸留を提案する。このマルチタスクアプローチは、幾何学的にロバストな画像合成と明確なジオメトリ予測を促進する相乗効果を達成する。さらに、深度と法線の手がかりを統合するために近接ベースのメッシュ条件付けを導入し、点群間を補間し、誤って予測されたジオメトリが生成プロセスに影響を与えないようにフィルタリングする。実験的に、本手法は、未見のシーンにわたる画像とジオメトリの両方において高忠実度の外挿的視点合成を達成し、補間設定下で競争力のある再構成品質を提供し、包括的な3D補完のための幾何学的に整列されたカラー点群を生成する。プロジェクトページはhttps://cvlab-kaist.github.io/MoAIで公開されている。
最近の報告によると、大規模言語モデル(LLM)は競技プログラミングにおいてエリート人間を凌駕するようになったとされている。国際的なアルゴリズムコンテストのメダリストたちの知見を基に、この主張を再検証し、LLMが人間の専門家とどのように異なり、どのような限界が依然として残っているかを考察する。本論文では、Codeforces、ICPC、IOIから問題を集め、データ汚染の可能性を低減するために継続的に更新されるベンチマーク「LiveCodeBench Pro」を紹介する。オリンピアードメダリストのチームが各問題をアルゴリズムカテゴリごとに注釈付けし、モデル生成の失敗した提出物を一行ずつ分析する。この新しいデータとベンチマークを用いて、最先端のモデルには依然として重大な限界があることが明らかになった:外部ツールなしでは、最良のモデルでも中程度の難易度の問題で53%のpass@1を達成するに留まり、難易度の高い問題では0%であり、これらの領域では人間の専門家が依然として優れている。また、LLMは実装が重い問題では成功するが、微妙なアルゴリズム的推論や複雑なケース分析には苦戦し、しばしば自信を持って誤った正当化を生成することがわかった。高いパフォーマンスは、主に実装の精度とツールの拡張によってもたらされており、優れた推論能力によるものではない。したがって、LiveCodeBench Proは、人間のグランドマスターレベルとの大きな隔たりを浮き彫りにしつつ、コード中心のLLM推論の将来の改善を導くための詳細な診断を提供する。
大規模言語モデルは、コンテキスト長が増加するにつれて、Key-Value(KV)キャッシュのメモリ要求に対処するのに苦労している。既存の圧縮手法は、ヘッド次元を均一化するか、注意機構に基づくトークンの刈り込みに依存しており、しばしば精度を犠牲にしたり、計算オーバーヘッドを導入したりしている。本研究では、FourierAttentionを提案する。これは、トランスフォーマーのヘッド次元の異質な役割を活用するトレーニング不要のフレームワークである。具体的には、下位の次元は局所的なコンテキストを優先し、上位の次元は長距離の依存関係を捉える。長いコンテキストに敏感でない次元を直交するフーリエ基底に投影することで、FourierAttentionはそれらの時間的進化を固定長のスペクトル係数で近似する。LLaMAモデルでの評価では、FourierAttentionがLongBenchおよびNeedle-In-A-Haystack(NIAH)において最良の長文コンテキスト精度を達成している。さらに、カスタムTritonカーネルであるFlashFourierAttentionを設計し、効率的な読み書き操作を通じてメモリを最適化し、性能を損なうことなく効率的なデプロイメントを可能にしている。
強化学習(RL)は、数学的推論やコード生成など、挑戦的でありながら容易に検証可能なタスクを用いて、大規模言語モデル(LLM)の微調整に大きな効果を示してきた。しかし、この成功を視覚言語モデル(VLMs)における視覚知覚に拡張することは、同時に挑戦的で曖昧さのない検証が可能な視覚中心のタスクの不足によって妨げられてきた。この問題に対処するため、我々はViCrit(Visual Caption Hallucination Critic)を導入する。これは、人間が書いた画像キャプションの段落に注入された微妙な合成視覚的幻覚をローカライズするようにVLMsを訓練するRLプロキシタスクである。200語のキャプションから始めて、単一の微妙な視覚的記述エラー(オブジェクト、属性、数、または空間関係に関するいくつかの単語を変更)を注入し、モデルに画像と修正されたキャプションを与えて、破損した範囲を特定するタスクを課す。この定式化は、完全な知覚的難易度を維持しながら、計算が容易で曖昧さのない二値の完全一致報酬を提供する。ViCritタスクで訓練されたモデルは、さまざまなVLベンチマークで大幅な向上を示す。重要なことに、改善は自然画像の訓練データを超えて抽象画像推論や視覚的数学に転移し、見た物体を単に記憶するのではなく、知覚することを学習する可能性を示している。評価を容易にするため、我々はさらにViCrit-Benchを導入する。これは、多様な画像ドメインとエラータイプにわたって知覚エラーを体系的に探るカテゴリーバランスの取れた診断ベンチマークである。全体として、我々の結果は、細かい幻覚批評がVLMsにおける視覚知覚を強化するための効果的で一般化可能な目的であることを示している。
大規模言語モデルは臨床意思決定において有望な成果を示しているが、現在のアプローチでは推論プロセスの特定のステップにおけるエラーの特定と修正に課題を抱えている。この制約は医学分野において特に重要であり、正確な診断と効果的な患者ケアのためには推論エラーの特定と対処が不可欠である。本研究では、Med-PRMというプロセス報酬モデリングフレームワークを提案する。このフレームワークは、検索拡張生成を活用して、確立された医療知識ベースに対して各推論ステップを検証する。臨床ガイドラインや文献から検索されたエビデンスを用いて中間推論ステップを検証することで、我々のモデルは推論の質をきめ細かく評価することができる。5つの医療QAベンチマークと2つのオープンエンド診断タスクでの評価により、Med-PRMは最先端の性能を達成し、ベースモデルの性能を最大13.50%向上させることが示された。さらに、Meerkatのような強力なポリシーモデルにプラグアンドプレイ方式で統合することでMed-PRMの汎用性を実証し、80億パラメータの小規模モデルを用いてMedQAで初めて80%以上の精度を達成した。我々のコードとデータはhttps://med-prm.github.io/で公開されている。
検証可能な報酬を伴う強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、数学的問題解決などの複雑な推論タスクにおいて大規模言語モデル(LLMs)を訓練するために有効であることが証明されている。RLVRのスケーラビリティを実現するためには、正確かつ検証可能な解答を伴う高品質な問題セットが前提条件となる。しかし、既存の蒸留指向の合成データセットでは、精巧に人間がラベル付けした数学的問題や限定的な検証が可能な解答が不足しており、これがRLにおける効果を制限している。さらに、ほとんどの問題合成戦略は、モデルの能力を考慮せずに問題セットを無差別に拡張するため、有用な問題を生成する効率が低い。この問題を緩和するため、本研究では、モデルの欠陥を体系的に特定し、それを問題拡張に活用する「自己認識型弱点駆動問題合成フレームワーク(Self-aware Weakness-driven problem Synthesis framework, SwS)」を提案する。具体的には、弱点を、RL訓練中の反復サンプリングを通じてモデルが一貫して学習に失敗する問題と定義する。次に、これらの失敗事例から中核概念を抽出し、新たな問題を合成して、モデルの弱点領域を強化するための拡張訓練を実施し、モデルが自身の弱点に焦点を当てて徐々に克服できるようにする。外部の知識蒸頼に依存することなく、本フレームワークはモデルがRLにおいて自身の弱点を自己識別し、対処する能力を強化することで、堅牢な汎化を可能にする。その結果、7Bおよび32Bモデルにおいて、8つの主要な推論ベンチマークで平均10.0%および7.7%の性能向上を達成した。
Foundation Vision Encoderは、多様な高密度視覚タスクにおいて不可欠な存在となっています。しかし、その低解像度の空間特徴出力は、下流タスクに必要な高解像度モダリティを生成するために特徴アップサンプリングを必要とします。本研究では、任意のFoundation Vision Encoderから得られる視覚特徴の空間解像度を任意の目標解像度に向上させる、軽量で柔軟な特徴アップサンプラーであるJAFARを提案します。JAFARは、低レベル画像特徴から導出された高解像度クエリと、意味的に豊かな低解像度キーとの間のセマンティックアラインメントを促進するように設計されたアテンションベースのモジュールを採用し、Spatial Feature Transform(SFT)変調を利用します。特に、高解像度の教師信号が存在しないにもかかわらず、低いアップサンプリング比率と解像度での学習が、大幅に高い出力スケールに驚くほどよく一般化することを実証します。広範な実験により、JAFARが微細な空間的詳細を効果的に回復し、多様な下流タスクにおいて既存の特徴アップサンプリング手法を一貫して上回ることを示しています。プロジェクトページはhttps://jafar-upsampler.github.ioにあります。
近年の研究では、強化学習(RL)ベースのポストトレーニングが大規模言語モデル(LLM)の推論能力を向上させる効果があることが実証されています。特に、Group Relative Policy Optimization(GRPO)は、グループベースの正規化報酬を用いたPPOスタイルの強化学習アルゴリズムを採用することで、顕著な成功を収めています。しかし、GRPOをビデオ大規模言語モデル(Video LLM)に適用した研究はまだ十分に行われていません。本論文では、GRPOをビデオLLMに適用し、その効果的な学習を妨げる2つの主要な課題を特定しました:(1)セーフガードへの依存、(2)アドバンテージ消失問題です。これらの課題を緩和するため、我々はDeepVideo-R1を提案します。これは、提案したReg-GRPO(回帰型GRPO)と難易度認識データ拡張戦略を用いてトレーニングされたビデオ大規模言語モデルです。Reg-GRPOは、GRPOの目的関数を回帰タスクとして再定式化し、GRPOのアドバンテージを直接予測します。この設計により、クリッピングやmin関数などのセーフガードが不要となり、アドバンテージ値にモデルを整合させることで、より直接的なポリシーガイダンスが可能になります。また、解決可能な難易度レベルでトレーニングサンプルを動的に拡張する難易度認識データ拡張戦略を設計し、多様で有益な報酬信号を促進します。我々の包括的な実験により、DeepVideo-R1が複数のビデオ推論ベンチマークにおいて、ビデオ推論性能を大幅に向上させることが示されました。
近年、xLSTMやMambaといった現代的なリカレントアーキテクチャが、言語モデリングにおいてTransformerに挑戦を投げかけています。しかし、これらの構造はシーケンスのみへの適用を制約するか、画像や分子グラフなどの多次元データ構造を事前に定義された順序で処理する必要があります。対照的に、多次元RNN(MDRNN)は、2Dグリッド、ツリー、有向非巡回グラフ(DAG)などのより高次元の構造を持つデータに適しています。本研究では、線形RNNに多次元性の概念を拡張します。一般DAGの線グラフ上で動作するSource、Transition、Markゲートを用いた並列化可能な線形Source Transition Markネットワーク(pLSTM)を導入します。これにより、並列連想スキャンやシーケンシャル線形RNNのチャンクワイズリカレント形式に類似した並列化がDAGに対して可能になります。画像のような規則的なグリッド(1Dおよび2D)では、このスキームはeinsum操作、連結、およびパディングを用いて対数時間で効率的に実装できます。pLSTMは、DAG内の長距離における活性化/勾配の消失/爆発問題を、2つの異なるモード、すなわち指向性伝播モード(Pモード)と拡散分布モード(Dモード)を通じて解決します。pLSTMの長距離能力を示すために、長距離の方向情報を含む合成コンピュータビジョンタスクとして矢印指向外挿を導入します。pLSTMがより大きな画像サイズにうまく一般化するのに対し、Transformerは外挿に苦労することを示します。確立された分子グラフおよびコンピュータビジョンベンチマークにおいても、pLSTMは強力な性能を示します。コードとデータセットは以下で利用可能です:https://github.com/ml-jku/plstm_experiments。
Transformerは、大規模言語モデルや様々なドメインにおける下流タスクにおいて、事実上の標準となっています。内在的な訓練の並列性といった数多くの利点があるにもかかわらず、Transformerは固定されたコンテキストウィンドウを超えるシーケンスを効果的に処理できないことや、その注意機構の二次的な複雑さといった重要な課題に直面しています。これらの課題は、シーケンス長に対して線形にスケールし、長距離依存関係の処理が改善されるRNNのようなアーキテクチャへの関心を再び高めています。ただし、RNNはその本質的に再帰的な性質により並列性が制限されます。本論文では、注意機構と再帰性の両方から脱却する新しいニューラル基盤アーキテクチャであるAveyを提案します。Aveyは、ランカーと自己回帰型ニューラルプロセッサで構成され、シーケンス内の位置に関係なく、任意のトークンに対して最も関連性の高いトークンを特定し、文脈化します。具体的には、Aveyはシーケンス長とコンテキスト幅を分離することで、任意の長さのシーケンスを効果的に処理できるようにします。実験結果は、Aveyが様々な標準的な短距離NLPベンチマークにおいてTransformerに匹敵する性能を示し、特に長距離依存関係の捕捉において優れていることを示しています。
拡散モデルを用いたビデオ編集は、高品質な編集を生成する点で顕著な成果を上げています。しかし、現在の手法は大規模な事前学習に依存することが多く、特定の編集に対する柔軟性が制限されています。初フレームガイド編集は初フレームに対する制御を提供しますが、後続のフレームに対する柔軟性に欠けます。この問題を解決するため、我々は事前学習済みのImage-to-Video(I2V)モデルを柔軟なビデオ編集に適応させるためのマスクベースのLoRA(Low-Rank Adaptation)チューニング手法を提案します。本手法は背景領域を保持しつつ、制御可能な編集の伝播を可能にします。このソリューションは、モデルアーキテクチャを変更することなく、効率的で適応性の高いビデオ編集を提供します。このプロセスをより適切に導くため、代替視点や代表的なシーンの状態などの追加の参照を組み込み、コンテンツがどのように展開すべきかの視覚的なアンカーとして機能させます。我々は、事前学習済みの画像からビデオへのモデルを編集コンテキストに適応させるためのマスク駆動型LoRAチューニング戦略を用いて、制御の課題に対処します。モデルは2つの異なる情報源から学習する必要があります。入力ビデオは空間構造と動きの手がかりを提供し、参照画像は外観のガイダンスを提供します。空間マスクは、モデルが注目する領域を動的に調整することで、領域ごとの学習を可能にし、各領域が適切な情報源から引き出されることを保証します。実験結果は、我々の手法が最先端の手法と比較して優れたビデオ編集性能を達成することを示しています。
大規模マルチモーダルモデル(LMMs)の最近の進展により、マルチモーダル理解と生成が大幅に向上しました。しかし、これらのモデルは依然として密接に織り交ぜられた画像とテキストの出力を生成するのに苦労しており、その主な原因は現在のトレーニングデータセットの規模、品質、および指示の豊富さの限界にあります。この問題に対処するため、私たちはSelf-Evaluation with Iterative Refinement(SEIR)手法を用いて構築した大規模マルチモーダルデータセットであるInterSynを紹介します。InterSynは、密接に織り交ぜられた画像とテキストの応答を伴う多段階の指示駆動型ダイアログを特徴とし、豊富なオブジェクトの多様性と厳格な自動品質改善を提供し、次世代の指示追従型LMMsのトレーニングに適しています。さらに、織り交ぜられたマルチモーダル出力を評価できる信頼性のある評価ツールの不足に対処するため、テキスト内容、画像内容、画像品質、および画像とテキストの相乗効果という4つの次元に沿ってマルチモーダル出力を定量的に評価する自動評価モデルであるSynJudgeを導入します。 実験的研究により、SEIR手法は、改善なしの同一プロセスと比較して大幅に高いデータセット品質をもたらすことが示されています。さらに、InterSynでトレーニングされたLMMsは、すべての評価指標において一貫した性能向上を達成し、マルチモーダルシステムの進展におけるInterSynの有用性を確認しています。
ヒューマノイドロボットは、その柔軟性と人間に似た形態により、多様な環境下での日常タスクの遂行において大きな可能性を秘めている。近年の研究では、最適制御や強化学習を活用したヒューマノイドの全身制御や移動操作において大きな進展が見られている。しかし、これらの手法は、満足のいく動作を達成するために各タスクごとに煩雑なチューニングを必要とし、日常シナリオにおける多様なタスクへの汎用性と拡張性を制限している。そこで我々は、汎用的なヒューマノイドの移動操作を実現するための新しい階層型強化学習フレームワークであるSkillBlenderを提案する。SkillBlenderはまず、目標条件付きのタスク非依存なプリミティブスキルを事前学習し、その後これらのスキルを動的にブレンドすることで、最小限のタスク固有の報酬設計で複雑な移動操作タスクを達成する。さらに、3つの実装形態、4つのプリミティブスキル、および8つの挑戦的な移動操作タスクを含む並列でクロスエンボディメントかつ多様なシミュレーションベンチマークであるSkillBenchを導入し、精度と実現可能性をバランスさせた科学的評価指標を提供する。大規模なシミュレーション実験により、我々の手法が全てのベースラインを大幅に上回り、報酬ハッキングを避けるために自然に動作を正則化し、日常シナリオにおける多様な移動操作タスクに対してより正確で実現可能な動作を実現することが示された。我々のコードとベンチマークは、今後の研究を促進するためにコミュニティに公開される予定である。プロジェクトページ: https://usc-gvl.github.io/SkillBlender-web/。
テストタイムスケーリングは、推論時に追加の計算リソースを活用することで言語モデルの性能を向上させる効果的な手法として注目されている。最近の研究では、思考終了トークン(例:「</think>」を「Wait」に置き換える)を上書きすることで推論ステップを延長し、精度を向上させることが示されている。本研究では、専用の「継続思考トークン」を学習させ、拡張推論をトリガーできるかどうかを探る。DeepSeek-R1の蒸留版に単一の学習済み「<|continue-thinking|>」トークンを追加し、モデルの重みを固定したまま埋め込みのみを強化学習によって訓練した。実験の結果、この学習済みトークンは、ベースラインモデルや固定トークン(例:「Wait」)を用いたテストタイムスケーリング手法と比較して、標準的な数学ベンチマークで精度の向上を達成した。特に、固定トークン手法がベースモデルの精度を向上させる場合において、本手法はより顕著な改善を示した。例えば、GSM8Kベンチマークでは、固定トークン手法が精度を1.3%向上させたのに対し、本手法は予算強制を行わないベースモデルに対して4.2%の改善を達成した。
大規模言語モデル(LLMs)を日常的および高リスクの領域で確実に展開するためには、正しく回答することと同様に、回答しないタイミングを知ることが極めて重要である。現実世界のユーザークエリは、不十分に指定されていたり、不適切に設定されていたり、根本的に回答不可能な場合があり、LLMsは不確実性について推論し、選択的に回答を控える(すなわち、明確に回答することを拒否する)必要がある。しかし、回答控えに関する研究は未だ十分ではなく、現代のLLMsに対する体系的な評価フレームワークが存在しない。本研究では、AbstentionBenchを導入する。これは、未知の回答、不十分な指定、誤った前提、主観的な解釈、および時代遅れの情報を含む20の多様なデータセットにわたって回答控えを包括的に評価する大規模なベンチマークである。20の最先端LLMsを評価した結果、回答控えは未解決の問題であり、モデルのスケーリングがほとんど役に立たないことが明らかになった。最近の推論LLMsは複雑な問題解決において印象的な結果を示しているが、驚くべきことに、推論のファインチューニングは回答控えを劣化させ(平均24%)、推論モデルが明示的に訓練された数学や科学の領域においてさえも同様であることがわかった。慎重に設計されたシステムプロンプトは実践的に回答控えを向上させることができるが、モデルが不確実性について推論する根本的な能力を解決することはできない。我々は、LLMの信頼性を向上させる研究を促進するためにAbstentionBenchを公開する。
ラベルなしデータセットのみを用いてASR性能を向上させる自己改善型フレームワークを提案する。このプロセスは、既存のASRモデルがラベルなし音声に対して擬似ラベルを生成することから始まり、それらのラベルを用いて高忠実度のテキスト音声合成(TTS)システムを訓練する。その後、合成された音声テキストペアを元のASRシステムにブートストラップし、閉ループ型の自己改善サイクルを完成させる。本フレームワークの有効性を台湾華語音声を用いて実証した。6,000時間のラベルなし音声、適量のテキストデータ、およびAIモデルからの合成コンテンツを活用し、Whisper-large-v2を特殊化したモデルTwisterに適応させた。Twisterは、Whisperと比較して、華語では最大20%、華語-英語のコードスイッチングベンチマークでは最大50%のエラーレート低減を達成した。結果は、本フレームワークが擬似ラベルを用いた自己蒸留アプローチに代わる有力な選択肢であり、低リソースまたはドメイン固有の設定におけるASR性能向上の実用的な道筋を提供することを示している。
本研究は、テキストエンコーダが持つ観察された限界に焦点を当てている:埋め込み表現が意味論内の細かなエンティティやイベントを認識できない可能性があり、その結果、単純なケースにおいても密な検索が失敗することがある。このような挙動を検証するため、まず中国語の新しい評価データセット「CapRetrieval」を導入する。このデータセットのパッセージは画像キャプションであり、クエリは様々な形式でエンティティやイベントを問いかけるフレーズである。ゼロショット評価の結果、エンコーダはこれらの細かなマッチングに失敗する可能性があり、その傾向はトレーニングソースやモデルサイズに関わらず見られることが示唆された。改善を目指して、我々は提案するデータ生成戦略を用いてエンコーダをファインチューニングし、CapRetrievalにおいて最高の性能を達成した。このプロセスの中で、さらに「粒度のジレンマ」という問題を特定した。これは、埋め込み表現が全体的な意味論と整合しつつ、細かな重要性を表現する際に直面する課題である。本研究のデータセット、コード、モデルはhttps://github.com/lxucs/CapRetrievalで公開されている。
近年、マルチモーダル大規模言語モデル(MLLM)をGUIエージェントとして活用する取り組みが有望な成果を上げています。しかし、これらのエージェントは、オンライン環境における長期的なタスクにおいて依然として苦戦しており、その主な原因は知識の不足と、オフラインとオンラインのドメイン間の本質的なギャップにあります。本論文では、人間がオープンエンド環境で知識を一般化する方法に着想を得て、知識不足の問題に取り組むための階層型マルチモーダルスキル(HMS)モジュールを提案します。このモジュールは、軌跡を実行スキル、コアスキル、そして最終的にはメタスキルへと段階的に抽象化し、長期的なタスク計画のための階層的な知識構造を提供します。ドメインギャップを埋めるために、オフライン環境で獲得したスキルを効率的に活用し、オンラインのツリー探索中のアクション探索空間を削減するスキル拡張モンテカルロ木探索(SA-MCTS)アルゴリズムを提案します。HMSを基盤として、マルチモーダルでクロスプラットフォーム、プラグアンドプレイのGUIエージェントであるMirage-1を提案します。Mirage-1の実世界における長期的なシナリオでの性能を検証するために、新しいベンチマークであるAndroidLHを構築しました。実験結果は、Mirage-1がAndroidWorld、MobileMiniWob++、Mind2Web-Live、およびAndroidLHにおいて、それぞれ32%、19%、15%、79%の性能向上を達成し、従来のエージェントを上回ることを示しています。プロジェクトページ:https://cybertronagent.github.io/Mirage-1.github.io/
大規模言語モデル(LLMs)は実世界のアプリケーションにおいて高い性能を示すが、既存のオープンソースの指示データセットは数学やコーディングなどの狭い領域に集中しており、汎化能力が制限され、プロプライエタリモデルとの差が広がっている。この差を埋めるため、我々はInfinity-Instructを導入する。これは、2段階のパイプラインを通じてLLMsの基盤能力とチャット能力の両方を強化するために設計された高品質な指示データセットである。第1段階では、ハイブリッドデータ選択技術を用いて1億以上のサンプルから7.4Mの高品質な基盤指示(InfInstruct-F-7.4M)を選定した。第2段階では、指示の選択、進化、診断フィルタリングを含む2段階のプロセスを通じて1.5Mの高品質なチャット指示(InfInstruct-G-1.5M)を合成した。我々はInfinity-Instructを実証的に評価するため、Mistral、LLaMA、Qwen、Yiなどの複数のオープンソースモデルをファインチューニングし、基盤能力と指示追従ベンチマークの両方で大幅な性能向上を観察し、公式の指示チューニングされたモデルを一貫して上回った。特に、InfInstruct-LLaMA3.1-70Bは指示追従タスクにおいてGPT-4-0314を8.6%上回り、基盤性能でも同等の結果を達成した。これらの結果は、基盤トレーニングとチャットトレーニングの相乗効果を強調し、LLMの包括的開発に関する新たな洞察を提供する。我々のデータセットhttps://huggingface.co/datasets/BAAI/Infinity-Instructとコードhttps://gitee.com/li-touch/infinity-instructは公開されている。
有害なミームを検出することは、オンライン環境の健全性を維持するために不可欠である。しかし、現在のアプローチは、リソース効率、柔軟性、または説明可能性のいずれかにおいて課題を抱えており、コンテンツモデレーションシステムへの実用的な展開が制限されている。これらの課題に対処するため、我々は有害ミーム検出のための新しいフレームワークであるU-CoT+を提案する。マルチモーダルモデルのプロンプティングやファインチューニングに依存する代わりに、まず視覚的ミームを詳細を保持したテキスト記述に変換する高忠実度のミーム・トゥ・テキストパイプラインを開発する。この設計により、ミームの解釈と分類を分離し、複雑な生の視覚コンテンツに対する即時の推論を回避し、汎用の大規模言語モデル(LLMs)を用いたリソース効率の高い有害ミーム検出を可能にする。これらのテキスト記述を基に、ゼロショットCoTプロンプティングの下でモデルの推論を導くための、ターゲットを絞った解釈可能な人間が作成したガイドラインをさらに組み込む。このようにして、このフレームワークは、プラットフォーム、地域、時間を超えた異なる有害性検出基準への容易な適応を可能にし、高い柔軟性と説明可能性を提供する。7つのベンチマークデータセットを用いた広範な実験により、我々のフレームワークの有効性が検証され、小規模LLMsを用いた説明可能かつ低リソースの有害ミーム検出の可能性が強調されている。コードとデータは以下で利用可能である:https://anonymous.4open.science/r/HMC-AF2B/README.md。
大規模言語モデル(LLM)を用いてコーディングタスクを解決するための標準的なパラダイムは、プログラムを生成してからランク付けする「generate-then-rank」アプローチであり、ランク付けの過程では検証器が使用されます。現在の一般的な認識では、可能な限り包括的な検証器(例えば、完全なテストスイート)が結果報酬モデル(ORM)よりも優先されるべきであり、そのトレードオフについてはほとんど考慮されていません。本研究では、この前提に挑戦し、速度と精度のトレードオフを体系的に探求することを目指します。その結果、包括的な検証器が利用可能な場合でも、ORMが精度を犠牲にして速度を向上させることで検証をスケーリングする上で重要な役割を果たすことがわかりました。特に、生成-刈り込み-ランク付け(generate-prune-then-rank)アプローチにおいて、ORMの価値が顕著に現れます。このアプローチでは、高速だが精度の低い検証器がランク付けの前に誤った解を除去し、その結果、完全なテストスイートと比較して11.65倍高速でありながら、精度はわずか8.33%低下するシステムが実現されます。我々はgenerate-prune-then-rankアプローチを分析し、それが誤って高いランク付けされた解をフィルタリングすることで機能することを示します。これらの知見は、スケーラブルで正確なプログラムランク付けシステムの設計を可能にします。
我々は、学習されたバイナリ注意マスクを使用して、予測に影響を与えるのが注意を向けた画像領域のみであることを保証する、注意ベースの手法を提案します。文脈は物体認識に強い影響を与えることがあり、特に物体が分布外の背景に現れる場合、偏った表現を引き起こすことがあります。一方で、多くの画像レベルの物体中心タスクでは、関連する領域を特定する必要があり、しばしば文脈を必要とします。このジレンマに対処するため、我々は2段階のフレームワークを提案します。第1段階では、物体の部分を発見し、タスクに関連する領域を特定するために画像全体を処理します。第2段階では、入力注意マスキングを活用して受容野をこれらの領域に制限し、潜在的に誤った情報をフィルタリングしながら、焦点を絞った分析を可能にします。両段階は共同で訓練され、第2段階が第1段階を洗練できるようになります。多様なベンチマークでの広範な実験により、我々のアプローチが、誤った相関や分布外の背景に対するロバスト性を大幅に向上させることが実証されました。
近年、大規模言語モデル(LLMs)はデータアノテーションにおいて大きな可能性を示し、下流アプリケーションに関連する労力を大幅に削減しています。しかし、既存の手法の多くは、LLMに単一の正解ラベルを決定させる積極的な戦略を採用しています。LLMに内在する不確実性のため、難しいサンプルに対して誤ったラベルを生成することが多く、下流アプリケーションのデータ品質を著しく損なうことがあります。人間の行動における曖昧さ回避の動機に基づき、我々は新しい候補アノテーションパラダイムを提案します。このパラダイムでは、不確実性が生じた際にLLMが全ての可能性のあるラベルを出力するよう促します。下流タスクに対して一意のラベルを提供するために、我々は候補アノテーションを小型言語モデル(SLM)で蒸留する教師-生徒フレームワーク「CanDist」を開発しました。さらに、教師LLMからの候補アノテーションを蒸留することが、単一のアノテーションを直接使用するよりも優れた理論的保証を提供することを厳密に正当化します。6つのテキスト分類タスクにわたる広範な実験により、提案手法の有効性が検証されました。ソースコードはhttps://github.com/MingxuanXia/CanDistで公開されています。
AIアラインメントのための人間のフィードバックモデル、例えばDirect Preference Optimization(DPO)を支えるモデルは、しばしば単一で静的な選好セットを組み込んでおり、適応性が制限されている。本論文は、単一的な選好を前提とする考え方に挑戦し、Configurable Preference Tuning(CPT)という新しいフレームワークを導入する。CPTは、言語モデルに、明示的で人間が解釈可能な指示に基づいて動的にその振る舞いを調整する能力を与えるものである。CPTは、文章スタイルなどの望ましい属性を定義する構造化された細粒度のルーブリックから導出されたシステムプロンプトに基づいて生成された合成選好データを活用する。これらのルーブリックに導かれた選好を用いてファインチューニングを行うことで、LLMは推論時にシステムプロンプトに応じて出力を調整することを学習し、再トレーニングを必要としない。このアプローチは、細粒度の制御を提供するだけでなく、よりニュアンスがあり文脈依存的な人間のフィードバックをモデル化するメカニズムも提供する。トレーニングコード、生成されたデータセット、ファインチューニングされたモデルなどのいくつかの実験成果物は、https://github.com/vicgalle/configurable-preference-tuning で公開されている。