翻訳付きの日次キュレーションされたAI研究論文
大規模推論モデル(LRM)のようなOpenAI-o1は、大規模な強化学習を通じて印象的な長期段階的推論能力を示しています。ただし、その拡張された推論プロセスはしばしば知識不足に苦しんでおり、頻繁な不確実性や潜在的なエラーを引き起こしています。この制限に対処するために、私たちはSearch-o1を導入します。これは、LRMにエージェント検索増強生成(RAG)メカニズムと文書内推論モジュールを組み込んだフレームワークです。Search-o1は、LRMが不確実な知識点に遭遇したときに外部知識を動的に取得できるようにするエージェント検索ワークフローを推論プロセスに統合します。さらに、取得した文書の冗長性から、推論チェーンに注入する前に取得情報を詳細に分析する独立した文書内推論モジュールを設計し、ノイズを最小限に抑え、一貫した推論フローを保持します。科学、数学、コーディングの複雑な推論タスクや6つのオープンドメインQAベンチマークでの広範な実験により、Search-o1の強力なパフォーマンスが示されました。このアプローチは、LRMの信頼性と適用性を高め、複雑な推論タスクでより信頼性の高い多目的インテリジェントシステムの可能性を切り拓くものです。コードはhttps://github.com/sunnynexus/Search-o1で入手可能です。
GAN(Generative Adversarial Networks)のトレーニングが難しいという広く言われている主張があり、文献中のGANアーキテクチャには経験的なトリックが散見されます。私たちはこの主張に反証を提供し、より原則的な方法で現代のGANベースラインを構築します。まず、モードのドロップや非収束の問題に対処するよう以前にアドホックなトリックを用いていた、より適切な正則化された相対論的GAN損失を導出します。我々は数学的にこの損失を分析し、ほとんどの既存の相対論的損失とは異なり、局所収束の保証があることを証明します。第二に、新しい損失により、すべてのアドホックなトリックを廃止し、一般的なGANで使用されていた時代遅れのバックボーンを現代のアーキテクチャに置き換えることができます。StyleGAN2を例に挙げながら、簡素化と現代化のロードマップを提示し、新しいミニマリストベースラインであるR3GANを実現します。シンプルであるにもかかわらず、私たちのアプローチはFFHQ、ImageNet、CIFAR、Stacked MNISTデータセットでStyleGAN2を上回り、最先端のGANや拡散モデルと比較して優れた結果を示します。
本論文では、大規模言語モデル(LLMs)をより人間らしくするための進展について探究する。我々は、自然言語理解、会話の一貫性、およびAIシステムの感情的知能を向上させる技術に焦点を当てる。この研究では、多様なデータセットを用いた微調整、心理学的原理の組み込み、および人間の推論パターンをよりよく模倣するモデルの設計など、さまざまなアプローチを評価する。我々の調査結果は、これらの改善がユーザーとの相互作用を向上させるだけでなく、異なる領域でのAIアプリケーションに新たな可能性を開くことを示している。今後の研究では、これらの人間らしい特性によって導入される倫理的な問題や潜在的な偏見に取り組む予定である。
ビデオからの自己回帰的事前学習を実証的に研究します。研究を行うために、Totoと呼ばれる一連の自己回帰的ビデオモデルを構築します。ビデオを視覚トークンの系列として扱い、トランスフォーマーモデルを訓練して将来のトークンを自己回帰的に予測します。当社のモデルは、1兆以上の視覚トークンから成る多様なデータセットで事前学習されています。異なるアーキテクチャ、トレーニング、推論デザインの選択肢を探ります。画像認識、ビデオ分類、物体追跡、ロボティクスを含むさまざまな下流タスクで学習された視覚表現を評価します。結果は、最小限の帰紵バイアスにもかかわらず、自己回帰的事前学習がすべてのベンチマークで競争力のあるパフォーマンスをもたらすことを示しています。最後に、ビデオモデルをスケーリングすると、言語モデルで見られるスケーリング曲線と同様の結果が得られることがわかりますが、異なる速度で変化します。詳細はhttps://brjathu.github.io/toto/にて。
最近、Vision-Language Models(VLMs)の進歩により、自律走行において自然言語を通じて解釈可能な運転決定を生成するためにこれらを使用することに関心が集まっています。しかしながら、VLMsが視覚的に基盤があり信頼性があり解釈可能な説明を提供するという仮定は、ほとんど検証されていません。このギャップに対処するために、私たちはVLMの信頼性を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介します。このデータセットは、17の設定(クリーン、破損、テキストのみの入力)をカバーし、19,200フレーム、20,498の質疑応答ペア、3つの質問タイプ、4つの主要な運転タスク、および合計12の一般的なVLMを含んでいます。我々の調査結果によれば、VLMはしばしば、真の視覚的基盤ではなく、特に劣化したまたは欠落した視覚的入力の下では、一般的な知識やテキストの手がかりから派生した合理的な応答を生成します。これらの振る舞いは、データセットの不均衡や不十分な評価メトリックによって隠されており、自律走行などの安全に関わるシナリオにおいて重大なリスクをもたらします。さらに、VLMがマルチモーダルな推論に苦労し、入力の破損に対して過敏であり、パフォーマンスに不一貫性が生じることを観察しています。これらの課題に対処するために、堅牢な視覚的基盤とマルチモーダルな理解を重視する洗練された評価メトリックを提案します。さらに、VLMが破損に対する認識を活用して信頼性を向上させる可能性を強調し、現実世界の自律走行環境でより信頼性が高く解釈可能な意思決定システムを開発するためのロードマップを提供します。このベンチマークツールキットは一般に公開されています。
現在までのほとんどの大規模ビジョン言語モデル(LVLM)は、主に英語データで訓練されており、これにより非英語の入力を理解するのに苦労し、望ましいターゲット言語での出力を生成することができません。既存の取り組みは、多言語訓練データを追加することでこれらの問題を緩和していますが、これは主に独自の方法で行われており、異なるトレーニングミックスが異なる言語グループにとってどのように影響を与えるかについての洞察が欠如しています。本研究では、大規模多言語LVLMのトレーニング戦略について包括的な調査を行います。まず、13の下流ビジョン言語タスクと43の言語にわたる一連の多段階実験を実施し、次の点を系統的に調査します:(1)英語のパフォーマンスを低下させることなく含めることができるトレーニング言語の数、(2)事前トレーニングおよび(3)指示調整データの最適な言語分布。さらに、(4)多言語テキストイン画像理解を改善する方法を調査し、そのタスクの新しいベンチマークを導入します。驚くべきことに、我々の分析では、(i)100のトレーニング言語を同時に含めることができ、(ii)非英語データの25-50\%で、多言語パフォーマンスを大幅に向上させながら強力な英語パフォーマンスを維持できることがわかりました。さらに、(iii)事前トレーニングおよび指示調整に非英語OCRデータを含めることが、多言語テキストイン画像理解を改善する上で重要であることがわかりました。最後に、すべての知見をまとめて、Centurioという100言語のLVLMを訓練し、14のタスクと56の言語をカバーする評価で最先端のパフォーマンスを提供します。
大規模言語モデル(LLMs)は、さまざまな複雑なタスクにおいて驚異的な能力を示しています。LLMsの重要な応用の1つは、GitHub上の実世界の課題をユーザーから報告された問題に基づいてコード修正することで、ソフトウェアエンジニアリングの課題に取り組むことです。しかし、多くの現行アプローチはプロプライエタリなLLMsに依存しており、再現性、アクセシビリティ、透明性が制限されています。ソフトウェアエンジニアリングの課題に対処するためのLLMsの重要な構成要素と、その能力を効果的に強化する方法は依然として不明です。これらの課題に対処するために、SWE-Fixerという新しいオープンソースのLLMを紹介します。このモデルは、GitHubの問題を効果的かつ効率的に解決するために設計されています。SWE-Fixerには、コードファイルの取得モジュールとコード編集モジュールの2つの重要なモジュールが含まれています。取得モジュールは、BM25と軽量なLLMモデルを使用して粗-細のファイル取得を実現します。その後、コード編集モジュールは、特定されたファイルにパッチを生成するために別のLLMモデルを使用します。次に、一般に利用可能なデータセットの不足を緩和するために、110KのGitHubの問題とそれに対応するパッチを含む包括的なデータセットを編纂し、SWE-Fixerの2つのモジュールを別々にトレーニングします。私たちは、SWE-Bench LiteおよびVerifiedベンチマークでのアプローチを評価し、それぞれ23.3%と30.2%のスコアを記録し、オープンソースモデルの中で最先端のパフォーマンスを達成しました。これらの結果は、私たちのアプローチの有効性を示しています。私たちは、当該モデル、データセット、およびコードをhttps://github.com/InternLM/SWE-Fixer で公開します。
最近、Visual Autoregressive (VAR) モデルは画像生成の分野で画期的な進歩をもたらし、粗いから細かい「次のスケール予測」パラダイムを通じてスケーラブルなアプローチを提供しています。しかし、[Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] におけるVARモデルの最先端アルゴリズムは O(n^4) の時間を要し、計算効率が低いです。本研究では、VARモデルの計算上の限界と効率基準を詳細な複雑性レンズを通じて分析します。私たちの主要な貢献は、VAR計算が二次時間複雑性を達成できる条件を特定することです。具体的には、VAR注意メカニズムで使用される入力行列のノルムに対する臨界閾値を確立します。この閾値を超えると、細かい複雑性理論からの強指数時間仮説(SETH)を仮定すると、VARモデルのための四次未満の時間アルゴリズムは不可能です。理論的な発見を裏付けるために、導かれた基準に合致する低ランク近似を活用した効率的な構築を提示します。この研究は、VARモデルの計算効率性を理論的観点から研究を開始します。私たちの手法は、VARフレームワークにおけるスケーラブルで効率的な画像生成の進展に光を当てるでしょう。
プロプライエタリな言語モデルの普及は、ユーザーの機密情報を明らかにせずに暗号化されたデータ上で直接計算を行うプライベート推論(PI)の進歩が必要とされる重要なプライバシー上の懸念を引き起こしています。PIは有望な解決策を提供しますが、その実用的な展開は、非線形演算から主に生じる大幅な通信と遅延のオーバーヘッドによって妨げられています。この課題に対処するために、私たちは情報理論的な枠組みを導入して、デコーダーのみの言語モデルにおける非線形性の役割を特徴づけ、PIの要求に適したトランスフォーマーアーキテクチャを最適化するための原則的な基盤を提供します。 Shannonのエントロピーを定量的な尺度として活用することで、非線形性の以前に未探索だった二重の重要性を明らかにします。それは、訓練の安定性を確保するだけでなく、注意のヘッドの多様性を維持するために重要であることが示されます。具体的には、非線形性の除去が、訓練を不安定にするより深い層での「エントロピー崩壊」と、Multi-Head Attention(MHA)の表現能力の過小利用を引き起こす初期の層での「エントロピック過負荷」という2つの重要な障害モードを引き起こすことがわかります。 エントロピーに誘導された注意メカニズムと新しいエントロピー正則化技術を組み合わせて、エントロピック過負荷を緩和する提案を行います。さらに、エントロピー崩壊を防止し、非線形性を削減したLLMの訓練を安定化するための、層正規化に代わるPI向けの代替手法を探求します。私たちの研究は、情報理論と建築設計の間のギャップを埋め、エントロピー動態を効率的なPIアーキテクチャを開発するための原則的なガイドとして確立します。コードと実装は、https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}で入手可能です。
本論文では、計算言語学において未開拓の領域である歴史的トルコ語の自然言語処理(NLP)の基礎的なリソースとモデルを紹介します。我々は、初の固有表現認識(NER)データセットであるHisTRと、歴史的なトルコ語のUniversal DependenciesツリーバンクであるOTA-BOUNを提示し、これらのデータセットを使用してトランスフォーマーベースのモデルを訓練し、固有表現認識、依存構造解析、品詞タグ付けのタスクに取り組みます。さらに、様々な歴史的時代にわたる翻字された歴史的トルコ語テキストのクリーンコーパスであるOttoman Text Corpus(OTC)を紹介します。実験結果は、歴史的トルコ語の計算言語分析において著しい改善を示し、歴史的言語構造の理解を必要とするタスクで有望な結果を達成しています。また、時代によるドメイン適応や言語の変化などの既存の課題を明らかにしています。提示されたすべてのリソースとモデルは、将来の歴史的トルコ語NLPの進展のためのベンチマークとして利用可能であり、https://huggingface.co/bucolin で公開されています。