翻訳付きの日次キュレーションされたAI研究論文
長文脈モデリングは次世代言語モデルにとって極めて重要であるが、標準的なアテンション機構の高い計算コストは重大な計算上の課題を引き起こしている。スパースアテンションは、モデルの能力を維持しつつ効率を向上させる有望な方向性を提供する。本論文では、アルゴリズムの革新とハードウェアに最適化された最適化を統合し、効率的な長文脈モデリングを実現するNatively trainable Sparse Attention(NSA)機構を提案する。NSAは、動的な階層的スパース戦略を採用し、粗粒度のトークン圧縮と細粒度のトークン選択を組み合わせることで、グローバルな文脈認識とローカルな精度の両方を保持する。我々のアプローチは、2つの重要な革新によりスパースアテンション設計を前進させる:(1) 算術強度バランスの取れたアルゴリズム設計により大幅な高速化を実現し、現代のハードウェア向けに実装を最適化する。(2) エンドツーエンドの学習を可能にし、モデルの性能を損なうことなく事前学習の計算量を削減する。図1に示すように、NSAで事前学習されたモデルは、一般的なベンチマーク、長文脈タスク、および指示に基づく推論において、Full Attentionモデルを維持または上回る性能を示す。一方、NSAは64k長のシーケンスにおいて、デコード、順伝播、逆伝播の全てにおいてFull Attentionに対して大幅な高速化を達成し、モデルライフサイクル全体での効率性を実証している。
SWE-Lancerは、Upworkからの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークを紹介します。これらのタスクは、実際の支払総額が100万ドルに達するものです。SWE-Lancerには、独立したエンジニアリングタスク(50のバグ修正から32,000ドルの機能実装まで)と、技術的実装提案の選択をモデルが行うマネージャータスクの両方が含まれています。独立したタスクは、経験豊富なソフトウェアエンジニアによってトリプル検証されたエンドツーエンドテストで評価され、マネジャーの決定は元の雇われたエンジニアリングマネージャーの選択と比較されます。モデルのパフォーマンスを評価し、最先端のモデルでもまだ大半のタスクを解決できないことがわかりました。将来の研究を促進するために、統合されたDockerイメージと公開評価スプリット、SWE-Lancer Diamondをオープンソースで提供します(https://github.com/openai/SWELancer-Benchmark)。モデルのパフォーマンスを金銭価値にマッピングすることで、SWE-LancerがAIモデル開発の経済への影響に関するさらなる研究を可能にすることを期待しています。
ヒューマノイドロボットが信頼性を持って展開される前に、自動転倒回復は重要な前提条件です。転倒後にヒューマノイドがどのような構成になるか、およびヒューマノイドロボットが運用されることが期待される困難な地形のため、起き上がるためのコントローラを手動で設計することは困難です。本論文では、ヒューマノイドロボットが異なる構成や地形から起き上がるためのコントローラを生成するための学習フレームワークを開発します。従来のヒューマノイドの運動学習の成功事例とは異なり、起き上がるタスクには複雑な接触パターンが関与するため、衝突ジオメトリの正確なモデリングと報酬の希薄化が必要です。私たちは、これらの課題に取り組むために、カリキュラムに従う2段階アプローチを通じて対処します。最初の段階では、滑らかさや速度/トルク制限に最小の制約を設けた状態で、適切な起き上がり軌道を発見することに焦点を当てます。次に、2段階目では、初期構成や地形の変動に強い(すなわち、滑らかで遅い)動作に洗練された発見された動作を展開します。これらの革新により、実世界のG1ヒューマノイドロボットが、私たちが考慮した主要な2つの状況から起き上がることが可能になりました:a)仰向けになっている状況、およびb)うつ伏せになっている状況。これらは、平坦な変形可能な滑りやすい表面や斜面(例:傾斜した草地や雪原)でテストされました。私たちの知る限り、これは現実世界で人間サイズのヒューマノイドロボットのための学習された起き上がりポリシーの初の成功したデモンストレーションです。プロジェクトページ:https://humanoid-getup.github.io/
本論文では、ThinkDiffという新しいアライメントパラダイムを提案する。このパラダイムは、テキストから画像への拡散モデルに、視覚言語モデル(VLM)の強みを統合することで、マルチモーダルな文脈理解と推論能力を付与する。既存のマルチモーダル拡散ファインチューニング手法は、主にピクセルレベルの再構成に焦点を当てており、文脈推論には限定的であり、推論ベースのデータセットの複雑さと利用可能性の制約を受けている。ThinkDiffは、視覚言語トレーニングをプロキシタスクとして活用し、VLMを拡散デコーダではなく、エンコーダ-デコーダ型大規模言語モデル(LLM)のデコーダとアライメントすることで、これらの課題に対処する。このプロキシタスクは、LLMデコーダが、対応するLLMエンコーダを使用してプロンプト埋め込みを行う拡散デコーダと同じ入力特徴空間を共有するという観察に基づいている。その結果、VLMを拡散デコーダとアライメントする作業は、LLMデコーダとのアライメントを通じて簡略化できる。複雑なトレーニングやデータセットを必要とせずに、ThinkDiffは拡散モデルにおける理解、推論、および構成能力を効果的に解放する。実験では、ThinkDiffが、マルチモーダルな文脈推論生成のための難易度の高いCoBSATベンチマークにおいて、精度を19.2%から46.3%に大幅に向上させることが示された。これは、4つのA100 GPUでわずか5時間のトレーニングで達成された。さらに、ThinkDiffは、複数の画像とテキストを論理的に一貫した画像に構成する際にも優れた性能を発揮する。プロジェクトページ:https://mizhenxing.github.io/ThinkDiff。
大規模言語モデルの現在の忘却方法は、通常、目標トークンの確率を減らすために逆最適化に依存しています。しかし、このパラダイムは、後続のトークン予測を妨げ、モデルの性能と言語的一貫性を低下させます。さらに、既存の評価メトリクスは、文脈の忘却を過度に強調しており、応答の流暢さや関連性を適切に評価していません。これらの課題に対処するために、私たちはReLearnを提案します。これは、効果的な忘却のためのデータ拡張と微調整パイプラインであり、包括的な評価フレームワークを備えています。このフレームワークでは、知識忘却率(KFR)と知識保持率(KRR)を導入して知識レベルの保存を測定し、また、言語スコア(LS)を導入して生成品質を評価します。私たちの実験では、ReLearnがターゲットの忘却を成功裏に達成しながら、高品質な出力を維持していることが示されています。機構的な分析を通じて、逆最適化が一貫したテキスト生成を妨げる一方、ReLearnがこの重要な機能を維持している方法をさらに実証しています。コードはhttps://github.com/zjunlp/unlearnで入手可能です。
知識集約型タスクにおいて卓越した能力を発揮するにもかかわらず、大規模言語モデル(LLMs)は、新しい知識をどのように内部化するか、特に獲得した知識をニューラル計算に構造的に埋め込む方法について、重要な理解のギャップに直面しています。私たちはこの問題を、知識回路の進化という観点から取り組み、知識の保存と処理を促進する計算サブグラフを特定しました。継続的な事前学習を通じた回路進化の体系的な分析により、いくつかの重要な発見が明らかになりました:(1)新しい知識の獲得は、既存の知識との関連性に影響を受ける;(2)知識回路の進化は、形成から最適化への明確なフェーズシフトを示す;(3)知識回路の進化は、深層から浅層へのパターンに従う。これらの知見は、LLMsにおける新しい知識獲得のメカニズムに関する理論的理解を進めるだけでなく、モデルのパフォーマンスを向上させるための継続的事前学習戦略の改善に潜在的な示唆を提供します。コードとデータはhttps://github.com/zjunlp/DynamicKnowledgeCircuitsで公開されます。
コード生成、記号的数学推論、およびその他のタスクでは、LLMは構文的にも意味的にも正しい出力を生成する必要があります。制約付きLLM生成は、形式的文法への遵守を強制するための有望な方向性ですが、これまでの研究では、形式的制約の厳格な遵守がしばしばLLMの推論能力を低下させることが経験的に観察されてきました。本研究では、まず、LLMの出力を構文的に有効な最終回答のみを許可する非常に制限的な文法に制約することが、モデルの推論能力を低下させる理論的説明を提供します。第二に、出力文法に注意深く設計された追加ルールを組み込むことで、常にLLMの推論能力を維持しつつ、出力の構文的および意味的な正確さを確保できることを実証します。これらの理論的洞察を基に、推論を強化した制約付きデコーディングアルゴリズムであるCRANEを提案し、制約のある生成の正確性と制約のない生成の柔軟性を効果的にバランスさせます。複数のオープンソースLLMおよびベンチマークでの実験結果は、CRANEが最先端の制約付きデコーディング戦略および標準の制約のないデコーディングよりも優れており、難解な記号的推論ベンチマークGSM-symbolicおよびFOLIOにおいて、ベースラインに対して最大10%ポイントの精度向上を示しています。
自然映像におけるマスクされた領域を予測するよう訓練された汎用ディープニューラルネットワークモデルにおいて、直感的物理理解がどのように出現するかを調査する。期待違反フレームワークを活用し、学習された表現空間における結果を予測するよう訓練された映像予測モデルが、物体の永続性や形状の一貫性といった様々な直感的物理特性を理解していることを明らかにした。一方、ピクセル空間での映像予測やテキストを通じて推論を行うマルチモーダル大規模言語モデルは、偶然に近い性能しか達成しなかった。これらのアーキテクチャの比較から、感覚入力の欠落部分を予測しながら抽象的な表現空間を共同で学習すること(予測符号化に類似)が、直感的物理の理解を獲得するのに十分であり、たとえ1週間分のユニークな映像で訓練されたモデルでも偶然を上回る性能を達成することが示された。これは、直感的物理を理解するために、世界を理解するための一連の生得的システムであるコア知識がハードワイヤードされる必要があるという考えに疑問を投げかけるものである。
システムメッセージからユーザーメッセージ、会話履歴、ツール出力までの優先順位を定める命令階層は、言語モデル(LM)の一貫性と安全性を確保する上で不可欠です。しかし、その重要性にもかかわらず、このトピックは十分な注目を集めておらず、命令階層を遵守するモデルの能力を評価する包括的なベンチマークも不足しています。このギャップを埋めるため、我々はIHEvalという新たなベンチマークを導入しました。IHEvalは、異なる優先順位の命令が一致または衝突するケースをカバーする9つのタスクにわたる3,538の例で構成されています。主要なLMの評価を通じて、それらが命令の優先順位を認識することに苦戦していることが明らかになりました。評価されたすべてのモデルは、命令が衝突する状況において、元の命令遵守性能と比較して急激な性能低下を示しました。さらに、最も競争力のあるオープンソースモデルでさえ、そのような衝突を解決する際の精度は48%に留まりました。これらの結果は、今後のLM開発において、特定の最適化が必要であることを強調しています。
Sailor2は、東南アジア(SEA)言語向けの最先端多言語モデルファミリーで、1B、8B、20Bのサイズを提供し、多様なアプリケーションに対応しています。Qwen2.5を基盤として、Sailor2は500Bトークン(400BはSEA固有、100Bはリプレイトークン)の継続的な事前学習を行い、13のSEA言語をサポートしながら、中国語と英語の能力も維持しています。Sailor2-20Bモデルは、SEA言語においてGPT-4oに対して50-50の勝率を達成しています。また、多言語モデルを効率的に開発するための包括的なクックブックを提供し、データキュレーション、事前学習、事後学習、モデルカスタマイズ、評価の5つの主要な側面をカバーしています。Sailor2モデル(Apache 2.0ライセンス)がSEA地域の言語開発を推進し、Sailor2クックブックが研究者にインスピレーションを与え、他の十分にサポートされていない言語のためのより包括的なLLMを構築することを願っています。
大規模言語モデル(LLM)は、静的トレーニングデータへの依存のため、幻覚や古い知識に悩まされることがあります。Retrieval-Augmented Generation(RAG)は、外部の動的情報を統合することで、これらの問題を緩和し、事実に基づいた最新の基盤を強化します。近年のマルチモーダル学習の進展により、テキスト、画像、音声、ビデオなどの複数のモダリティを組み込むことで生成出力を向上させるMultimodal RAGが開発されました。しかし、クロスモーダルの整合性と推論は、従来の単一モーダルRAGとは異なる独自の課題をMultimodal RAGに導入します。本調査では、Multimodal RAGシステムに関する構造化された包括的な分析を提供し、データセット、メトリクス、ベンチマーク、評価、方法論、および検索、融合、拡張、生成におけるイノベーションをカバーします。トレーニング戦略、堅牢性の向上、損失関数を正確にレビューし、多様なMultimodal RAGシナリオを探求します。さらに、この進化する分野の進展を支援するための未解決の課題と将来の研究方向性について議論します。本調査は、マルチモーダル動的外部知識ベースを効果的に活用する、より能力が高く信頼性のあるAIシステムの開発の基盤を築きます。リソースはhttps://github.com/llm-lab-org/Multimodal-RAG-Surveyで利用可能です。
自己回帰パラダイムの顕著な成功は、多様な大規模言語モデル(MLLMs)の重要な進展をもたらしました。Show-o、Transfusion、Emu3などの強力なモデルが統一された画像理解と生成において著しい進歩を達成しています。初めて、我々は共通の現象を明らかにします:MLLMsの理解能力は通常、生成能力よりも強力であり、その間には大きな差があります。この洞察を基に、理解と生成の間のギャップをシームレスに埋めるために設計されたシンプルかつ汎用性のあるフレームワークであるHermesFlowを提案します。具体的には、同様のデータを入力として取り、理解と生成の両方の同様の選好データを編集します。Pair-DPOとセルフプレイの反復最適化を通じて、HermesFlowは同様の選好データを使用して、多様な理解と生成を効果的に整列させます。広範な実験により、我々の手法が従来の手法に比べて、特に多様な理解と生成の間のギャップを狭める点で著しい優位性を示すことが示されました。これらの知見は、HermesFlowが次世代の多様な基礎モデルのための一般的な整列フレームワークとしての潜在能力を強調しています。コード:https://github.com/Gen-Verse/HermesFlow
私たちは、サンプリング軌道を最適化することで下流の整列を向上させる微調整アプローチであるDiffusion-Sharpeningを提案します。既存の強化学習(RL)ベースの微調整方法は、単一のトレーニングタイムステップに焦点を当てており、軌道レベルの整列を無視しています。一方、最近のサンプリング軌道最適化方法は、推論NFEコストを引き起こします。Diffusion-Sharpeningは、訓練中に最適な軌道を選択するために経路積分フレームワークを使用し、報酬フィードバックを活用し、推論コストを分割します。当社の手法は、より速い収束と最適な推論効率を実証し、追加のNFEを必要とせずに優れたトレーニング効率を示します。幅広い実験により、Diffusion-SharpeningがRLベースの微調整方法(例:Diffusion-DPO)やサンプリング軌道最適化方法(例:Inference Scaling)を上回り、テキスト整列、構成能力、および人間の選好を含むさまざまなメトリクスで優れた性能を発揮し、将来の拡散モデル微調整のためのスケーラブルで効率的なソリューションを提供します。コード:https://github.com/Gen-Verse/Diffusion-Sharpening
システムメッセージは、大規模言語モデル(LLM)とのインタラクションにおいて重要な役割を果たし、会話を開始するためのプロンプトとして機能することが多い。システムメッセージを通じて、ユーザーは特定の役割を割り当てたり、意図したタスクを実行したり、背景情報を組み込んだり、さまざまな出力形式やコミュニケーションスタイルを指定したりすることができる。しかし、そのような多様性にもかかわらず、公開されているデータにはシステムメッセージが欠けており、業界では厳しいライセンス制約が課されていることが多い。ユーザー指示に沿ったシステムメッセージを公開データに手動でラベル付けするには、多大なリソースが必要となる。こうした課題を踏まえ、本研究では、システムメッセージのない教師あり微調整データセットから、より整合性の高いアシスタント応答を生成するためのパイプラインであるSysGenを提案する。SysGenデータを用いたトレーニングは、Multifacetベンチマークにおけるさまざまなオープンソースモデルで実証されたように、モデルの応答がシステムメッセージやユーザー指示とより整合することを大幅に改善し、Open LLM Leaderboard 2などの他の未見のベンチマークへの影響を最小限に抑えている。我々の定性分析は、異なる文脈での適応性を確保するために多様なシステムメッセージが重要であることを強調している。
LLMベースのマルチエージェント(LLM-MA)システムの最近の進歩は、有望なものの、エージェントが複雑なタスクで協力する際にコミュニケーションと改良を管理する際には重要な課題が残っています。本論文では、コンテキスト豊かな交換のための構造化された通信プロトコルと、不正確な出力、誤り、バイアスなどの問題に対処するための階層的な改良システムを導入した新しいフレームワークである「Talk Structurally, Act Hierarchically(TalkHier)」を提案します。TalkHierは、オープンドメインの質問応答、特定ドメインの選択的質問、実用的な広告テキスト生成など、多様なタスクにおいて、推論スケーリングモデル(OpenAI-o1)、オープンソースのマルチエージェントモデル(例:AgentVerse)、およびLLMおよび単一エージェントのベースライン(例:ReAct、GPT4o)など、さまざまな種類のSoTAを凌駕します。これらの結果は、LLM-MAシステムの新たな標準を確立し、より効果的で適応性があり、協力的なマルチエージェントフレームワークへの道を開く潜在能力を示しています。コードはhttps://github.com/sony/talkhierで入手可能です。
大規模マルチモーダルモデル(LMM)の最近の成功により、複雑なウェブタスクを自律的に完了可能なエージェントの有望な応用が期待されています。オープンソースのLMMエージェントは、オフライン評価ベンチマークにおいて大きな進展を遂げていますが、より現実的なオンライン設定では、人間レベルの能力に比べてまだ大きく遅れを取っています。主なボトルネックは、様々なドメインにわたる多様で大規模な軌跡レベルのデータセットの不足であり、これらを収集するには多大なコストがかかります。本論文では、この課題に対処するため、これまでで最大かつ最も多様な軌跡レベルのデータセットを合成するためのスケーラブルな手法を開発しました。このデータセットには、94,000以上の成功したマルチモーダルウェブ軌跡、49,000のユニークなURL、720,000のスクリーンショット、および3,300万のウェブ要素が含まれています。特に、多様なタスク意図を得るために、広範なウェブ探索と精緻化を活用しています。成功した軌跡あたりの平均コストは28セントであり、コミュニティ内の幅広いユーザーにとって手頃な価格となっています。このデータセットを活用して、マルチモーダルウェブエージェント「Explorer」を訓練し、Mind2Web-Live、Multimodal-Mind2Web、MiniWob++などのオフラインおよびオンラインのウェブエージェントベンチマークで高い性能を実証しました。さらに、我々の実験は、ウェブエージェントの能力向上におけるデータスケーリングの重要性を強調しています。本研究が、大規模なLMMベースのエージェント研究をよりアクセスしやすいものにすることを願っています。
人工的な評価ではほぼ完璧な結果が得られているにもかかわらず、モデル編集の実世界での有効性は未だに検証されていません。このギャップを埋めるため、我々は質問応答(QA)におけるモデル編集を研究することを提案し、大規模言語モデル(LLM)の誤りを修正する編集手法の有効性を評価するための厳密な評価手法を確立します。これには、人気のあるQAデータセットから派生した新しいベンチマークであるQAEditと、標準化された評価フレームワークが含まれます。単一編集実験の結果、現在の編集手法は以前報告されたものよりも大幅に低い性能(38.5% vs. ~96%)を示しました。モジュール分析と制御実験を通じて、この性能低下は従来の編集研究における評価手法の問題に起因していることを明らかにしました。その主な問題の一つは、テストにおける教師強制の不適切な使用であり、実世界のシナリオではアクセス不可能な正解トークンを入力として与えることで誤りの伝播を防いでいることです。さらに、逐次編集を通じて実世界の展開をシミュレートした結果、現在のアプローチはわずか1000回の編集で劇的に失敗することが明らかになりました。我々の分析は、既存のモデル編集手法の実世界での適用可能性とその評価手法の根本的な再検討を提供し、信頼性と実用性のあるモデル編集研究を進めるための重要な洞察を備えた厳密な評価フレームワークを確立します。
大規模言語モデル(LLMs)は、コード理解やコード生成などのコード関連タスクで顕著な能力を示しています。しかし、同様に重要でありながら未開拓の問題は、LLMsがプログラムを実際に実行せずに出力や振る舞いを予測する一般的な代替コード実行者として機能できるかどうかです。この能力を体系的に調査するために、私たちはSURGEを導入します。これは、マルチ言語プログラミングタスク、競技レベルのプログラミング問題、リポジトリレベルのコード分析、高コストの科学計算、時間複雑度の高いアルゴリズム、バグのあるコード分析、特定のコンパイラや実行環境に依存するプログラム、および形式的な数学的証明検証という8つの主要な側面をカバーする包括的なベンチマークです。私たちは、複数のオープンソースおよびプロプライエタリなLLMsをSURGEで評価し、モデルサイズとトレーニングデータ規模が代替実行の精度に与える影響を分析するスケーリング研究を行います。さらに、モデルの予測エラーを分類し、改善のための可能性のある領域を探索します。私たちの調査結果は、LLMsが特定のケースでコード実行結果を予測できる一方で、一般的な代替実行には制約があることを示しています。この研究は、LLMsを代替コード実行者として使用する可能性についての経験的な洞察を提供します。コードとデータセットは、https://github.com/Imbernoulli/SURGE で公開されています。
3Dコンテンツ制作の爆発的な成長に伴い、静的な3Dモデルをリアルなアニメーションを可能にする関節対応バージョンに自動変換する需要が高まっています。従来のアプローチは手動の注釈に大きく依存しており、時間と労力がかかるものでした。さらに、大規模なベンチマークの不足が、学習ベースのソリューションの開発を妨げてきました。本研究では、静的な3Dモデルを関節対応のアセットに自動変換する効果的なフレームワークであるMagicArticulateを提案します。主な貢献は3つあります。第一に、Objaverse-XLから慎重に選別された高品質な関節注釈を含む33,000以上の3Dモデルを収録した大規模ベンチマーク、Articulation-XLを紹介します。第二に、骨格や関節の数が異なる場合や、異なる3Dモデル間の依存関係を自然に処理するために、自己回帰型トランスフォーマーを活用してタスクをシーケンスモデリング問題として定式化する新しい骨格生成手法を提案します。第三に、頂点と関節間の体積測地線距離の事前情報を取り入れた関数拡散プロセスを使用してスキニング重みを予測します。大規模な実験により、MagicArticulateが多様なオブジェクトカテゴリにおいて既存の手法を大幅に上回り、リアルなアニメーションを可能にする高品質な関節化を実現することが示されました。プロジェクトページ: https://chaoyuesong.github.io/MagicArticulate。
最近の推論最適化の進歩により、大規模言語モデル(LLM)の能力が大幅に向上していますが、推論の改善に関する既存の取り組みは、数学問題の解決に限定され、視覚的なグラフィカル入力に焦点を当てることが一般的なビデオ理解において無視されてきました。本論文では、一般的なビデオ理解タスク向けに設計された最初のオープンソースの推論強化オーディオビジュアルLLMであるvideo-SALMONN-o1を提案します。推論能力を向上させるために、ステップバイステップの解決策を持つ難解なオーディオビジュアル質問を特徴とする推論集中型のデータセットを開発します。また、マルチモーダル入力に適した効率的なステップレベルの報酬モデリングを実現するために、プロセスダイレクトプリファレンス最適化(pDPO)を提案します。さらに、スタンドアップコメディ、学術プレゼンテーション、合成ビデオ検出などのシナリオ全体で4,000以上の高品質で専門家がキュレーションした質問と回答のペアを特集する、最初の推論集中型ビデオ理解ベンチマークであるRivaBenchを紹介します。video-SALMONN-o1は、異なるビデオ推論ベンチマーク全体で、LLaVA-OneVisionベースラインに対して3〜8%の精度向上を達成します。さらに、pDPOは、RivaBench上の教師ありファインチューニングモデルに比べて6〜8%の改善を達成します。推論の強化により、video-SALMONN-o1はゼロショット合成ビデオ検出機能を実現します。
本論文では、拡散モデルの訓練における新たな目的関数であるModel-guidance(MG)を提案し、広く用いられているClassifier-free guidance(CFG)の問題点を解決し、その使用を不要とします。我々の革新的なアプローチは、単なるデータ分布のモデリングを超えて、条件付き事後確率を組み込むものです。提案手法はCFGの概念に由来し、簡潔でありながら効果的で、既存のモデルにプラグアンドプレイ可能なモジュールとなっています。本手法は訓練プロセスを大幅に加速し、推論速度を2倍に向上させ、CFGを用いた同時期の拡散モデルと同等かそれ以上の品質を実現します。様々なモデルとデータセットを用いた広範な実験により、その有効性、効率性、拡張性が実証されました。最後に、ImageNet 256ベンチマークにおいてFIDスコア1.34を達成し、最先端の性能を確立しました。コードはhttps://github.com/tzco/Diffusion-wo-CFGで公開されています。
大規模言語モデルは、特に数学や論理推論の分野で顕著な能力を発揮しています。しかし、現在の評価では物理ベースの推論が見過ごされており、これは物理法則や制約を必要とする複雑なタスクです。本研究では、PhysReasonという1,200問からなるベンチマークを提案します。このベンチマークは知識ベースの問題(25%)と推論ベースの問題(75%)で構成され、後者はさらに3つの難易度(易しい、中程度、難しい)に分類されます。特に、問題を解くには平均8.1ステップが必要で、難しい問題では15.6ステップを要し、物理ベースの推論の複雑さを反映しています。さらに、Physics Solution Auto Scoring Frameworkを提案し、効率的な回答レベル評価と包括的なステップレベル評価を組み込んでいます。Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスのモデルでも、回答レベル評価では60%未満のスコアであり、知識問題(75.11%)から難しい問題(31.95%)にかけて性能が低下しています。ステップレベル評価を通じて、物理法則の適用、物理プロセスの理解、計算、物理条件の分析という4つの主要なボトルネックを特定しました。これらの知見により、PhysReasonは大規模言語モデルの物理ベース推論能力を評価するための新規かつ包括的なベンチマークとして位置付けられます。コードとデータはhttps:/dxzxy12138.github.io/PhysReasonで公開予定です。
Text-to-SQLは、自然言語の質問を実行可能なSQLクエリに変換することを目指しています。従来の手法であるスケルトンマスク選択などは、大規模言語モデル(LLM)を導くために類似の訓練例を取得することで強力なパフォーマンスを示してきましたが、そのような例が利用できない実世界のシナリオでは苦戦しています。この制限を克服するために、私たちはText-to-SQL向けのSelf-Augmentation in-context learning with Fine-grained Example selection(SAFE-SQL)を提案しています。これは、自己拡張例を生成およびフィルタリングすることでSQL生成を改善する新しいフレームワークです。SAFE-SQLはまず、LLMに対してテスト入力に関連する複数のText-to-SQL例を生成するよう促します。その後、SAFE-SQLはこれらの例を3つの関連性評価を通じてフィルタリングし、高品質なインコンテキスト学習例を構築します。自己生成例を使用することで、SAFE-SQLは従来のゼロショットおよびフューショットText-to-SQLフレームワークを凌駕し、より高い実行精度を達成します。特筆すべきは、私たちの手法が、従来の方法がしばしば失敗する非常に困難で未知のシナリオにおいて追加のパフォーマンス向上を提供することです。
私たちは、カーネマンのシステム理論に着想を得た高速思考と低速思考の統合により、大規模言語モデルにおける推論エラーの検出を強化する動的プロセス検証器Dyveを提案します。Dyveは、単純なステップには即時的なトークンレベルの確認を行うシステム1を、複雑なステップには包括的な分析を行うシステム2を適応的に適用します。モンテカルロ推定とLLMベースの評価を組み合わせた新しいステップワイズ・コンセンサスフィルタリングプロセス監視技術を活用することで、Dyveはノイズの多いデータから高品質な監視信号を抽出します。ProcessBenchとMATHデータセットでの実験結果は、Dyveが既存のプロセスベースの検証器を大幅に上回り、Best-of-N設定での性能を向上させることを確認しています。
潜在生成モデルは、高品質な画像合成における主要なアプローチとして台頭してきた。これらのモデルは、オートエンコーダを使用して画像を潜在空間に圧縮し、その後、生成モデルによって潜在分布を学習する。既存のオートエンコーダは、スケーリングや回転などの意味を保持する変換に対して等変性を欠いており、その結果、複雑な潜在空間が生成され、生成性能を妨げていることがわかった。この問題に対処するため、我々はEQ-VAEを提案する。これは、潜在空間における等変性を強制するシンプルな正則化手法であり、再構成品質を損なうことなく潜在空間の複雑さを低減する。事前学習済みのオートエンコーダをEQ-VAEで微調整することにより、DiT、SiT、REPA、MaskGITなど、いくつかの最先端の生成モデルの性能を向上させ、DiT-XL/2ではSD-VAEのわずか5エポックの微調整で7倍の高速化を達成した。EQ-VAEは連続的および離散的なオートエンコーダの両方と互換性があり、幅広い潜在生成モデルに対して汎用的な強化を提供する。プロジェクトページとコード: https://eq-vae.github.io/。
数学的大規模言語モデル(LLMs)を活用した証明生成は、LLMs研究における基本的なトピックです。現在のLLMsが文を証明する能力は、トレーニング中に関連する証明プロセスに遭遇したかどうかに大きく依存すると主張します。この依存性は、数学定理や関連する概念のより深い理解を制限します。人間の数学教育で一般的に使用される「反例による証明」という教育方法から着想を得て、私たちの研究は、LLMsが数学的推論と証明を行う能力を向上させることを目指しています。具体的には、高品質の大学レベルの数学ベンチマークであるCounterMATHを手動で作成し、LLMsに数学的文を反例を提供して証明させ、数学的概念の把握を評価します。さらに、モデルの改善のためにトレーニングデータを自動的に取得するためのデータエンジニアリングフレームワークを開発します。包括的な実験と詳細な分析により、CounterMATHが難しいことが示され、OpenAI o1などのLLMsが不十分な反例に基づく証明能力を持っていることが示されます。さらに、モデルのトレーニングにおける探求から、LLMsの反例に基づく概念的推論能力を強化することが、彼らの全体的な数学的能力を向上させるために重要であることが明らかになります。私たちの研究が数学的LLMsコミュニティに新しい視点を提供していると考えています。
既存の言語モデルは、データの希少性により証明指向プログラミングに苦労しており、これは2つの主要な方法で現れています:(1)F*などの証明指向プログラミング言語用の十分なコーパスの不足、および(2)証明指向プログラミングを行う際の複雑な推論プロセスをモデルに教えることができる大規模なプロジェクトレベルの証明指向実装の不在。私たちは、プロジェクトレベルの証明指向プログラミングのための合成データ拡張に関する初めての研究を提案します。当該手法は、その言語における熟練度向上のために基本的な証明指向プログラミング問題を合成し、推論能力の引き出しのために多様なコーディングデータを組み込み、既存のリポジトリ内で新しい証明と修復データを作成することで、データの希少性に対処します。このアプローチにより、言語モデルは関数およびリポジトリレベルのコードの証明を合成および修復することが可能となります。私たちは、ファインチューニングされた14BパラメータモデルであるPoPilotが、プロジェクトレベルの証明指向プログラミングにおいてGPT-4oを上回るモデルの性能を64%の相対マージンで示し、GPT-4oの出力を修復することでGPT-4oの性能を54%向上させることができることを示します。
大規模な高品質データは、事前トレーニングの生のテキストと事後トレーニングの注釈の両方が慎重に準備され、先進的な大規模言語モデル(LLM)を育成するために用意されています。一方、情報抽出(IE)においては、BIOタグ付きシーケンスなどの事前トレーニングデータを拡大することが難しいです。我々は、IEモデルがLLMリソース上でフリーライダーとして機能できることを示しています。これは、次トークン予測をコンテキスト内に既に存在するトークンの抽出に再構築することで実現されます。具体的には、提案された次トークン抽出(NTE)パラダイムは、102.6Mの抽出データから変換された多目的IEモデルであるCuckooを学習します。この抽出データはLLMの事前トレーニングおよび事後トレーニングデータから変換されました。少数ショット設定下で、Cuckooは従来の複雑な指示に従うIEに効果的に適応し、既存の事前トレーニング済みIEモデルよりも優れたパフォーマンスを発揮します。フリーライダーとして、Cuckooは、LLMデータ準備の進歩に自然に適応し、LLMトレーニングパイプラインの改善により、追加の手作業なしで恩恵を受けることができます。
メモリは、時間的および空間的な依存関係を伴う複雑なタスクにエージェントが取り組むために不可欠です。多くの強化学習(RL)アルゴリズムがメモリを組み込んでいますが、この分野では、多様なシナリオにおけるエージェントのメモリ能力を評価するための普遍的なベンチマークが不足しています。このギャップは特にテーブルトップロボット操作において顕著で、部分観測可能性を伴うタスクを解決し、堅牢な性能を確保するためにメモリが不可欠であるにもかかわらず、標準化されたベンチマークが存在しません。この問題に対処するため、我々はMIKASA(Memory-Intensive Skills Assessment Suite for Agents)を導入します。これはメモリRLの包括的なベンチマークであり、以下の3つの主要な貢献を提供します:(1) メモリ集約型RLタスクの包括的分類フレームワークを提案、(2) MIKASA-Baseを収集 - 多様なシナリオにおけるメモリ強化エージェントの体系的評価を可能にする統一ベンチマーク、(3) MIKASA-Roboを開発 - テーブルトップロボット操作におけるメモリ能力を評価する32の慎重に設計されたメモリ集約型タスクの新たなベンチマーク。我々の貢献は、メモリRL研究を進めるための統一フレームワークを確立し、実世界のアプリケーションにおけるより信頼性の高いシステムの開発を推進します。コードはhttps://sites.google.com/view/memorybenchrobots/で公開されています。
API呼び出し機能を備えた大規模言語モデル(LLM)は、効果的な言語エージェント(LA)の構築を可能にし、従来のタスク指向対話(TOD)パラダイムを革新しました。しかし、現在のアプローチは重大なジレンマに直面しています。TODシステムは、限られたターゲットAPIのセットでトレーニングされることが多く、新しいサービスとインターフェースする際に品質を維持するためには新しいデータが必要です。一方、LAはマルチターン会話でユーザーの意図を維持するようにはトレーニングされていません。堅牢なマルチターン管理と高度な関数呼び出しの両方が効果的な会話エージェントにとって重要であるため、これら3つの人気ベンチマークでこれらのスキルを評価します:MultiWOZ 2.4(TOD)、BFCL V3(LA)、およびAPI-Bank(LA)。分析の結果、専門的なアプローチは一つの領域では優れているが、他の領域ではパフォーマンスが低いことが明らかになりました。このギャップを埋めるために、会話能力とエージェント能力の両方を統合した統一アプローチであるCALM(Conversational Agentic Language Model)を導入します。マルチターンのReAct推論と複雑なAPI使用を交互に織り込んだ慎重に構築されたマルチタスクデータセットであるCALM-ITを作成しました。CALM-ITを使用して、CALM 8B、CALM 70B、およびCALM 405Bの3つのモデルをトレーニングし、これらはGPT-4oを含むトップのドメイン固有モデルをすべての3つのベンチマークで上回りました。
本研究では、大規模インスタンスレベル画像検索のための新しいテストデータセット「ILIAS」を紹介する。このデータセットは、現在および将来の基盤モデルと検索技術が特定の物体を認識する能力を評価するために設計されている。既存のデータセットに対する主な利点は、大規模性、ドメイン多様性、正確なグラウンドトゥルース、そして飽和状態から程遠い性能である。ILIASには、1,000の物体インスタンスに対するクエリ画像とポジティブ画像が含まれており、手作業で収集され、挑戦的な条件と多様なドメインを捉えている。大規模検索は、YFCC100Mからの1億枚のディストラクター画像に対して行われる。追加のアノテーション作業なしに偽陰性を避けるため、2014年以降(YFCC100Mの編纂日)に出現したことが確認されたクエリオブジェクトのみを含めている。広範なベンチマークを行い、以下の観察結果を得た:i) ランドマークや製品などの特定のドメインでファインチューニングされたモデルは、そのドメインでは優れているが、ILIASでは失敗する ii) マルチドメインクラス監視を使用して線形適応層を学習すると、特に視覚言語モデルで性能が向上する iii) 検索の再ランキングにおけるローカル記述子は、特に背景の雑多さが激しい場合に重要な要素である iv) 視覚言語基盤モデルのテキストから画像への性能は、対応する画像から画像の場合に驚くほど近い。ウェブサイト: https://vrg.fel.cvut.cz/ilias/
大規模言語モデルと生成AIがオンラインメディアに広く普及する中、ファクトチェッカーが増大する量と高度化する誤情報に対処するための効果的な自動ファクトチェックの必要性が高まっています。ファクトチェックの複雑な性質から、自動ファクトチェックシステムは、ファクトチェッカーがその出力を精査できるような説明を提供する必要があります。しかし、これらの説明がファクトチェッカーの意思決定と推論プロセスにどのように整合すべきか、またそれらを彼らのワークフローに効果的に統合する方法は明確ではありません。ファクトチェックの専門家との半構造化インタビューを通じて、我々は以下の点でこのギャップを埋めます:(i) ファクトチェッカーが証拠を評価し、意思決定を行い、そのプロセスを説明する方法を記述する、(ii) ファクトチェッカーが実際に自動化ツールをどのように使用しているかを検証する、(iii) 自動ファクトチェックツールに対するファクトチェッカーの説明要件を特定する。調査結果からは、未充足の説明ニーズが明らかになり、モデルの推論経路を追跡し、特定の証拠を参照し、不確実性と情報のギャップを強調する再現可能なファクトチェック説明の重要な基準が特定されました。
本論文では、新たに構築した50問の高校レベルの文章題を用いて、大規模言語モデル(LLM)の数学的推論能力を調査する。従来の研究が答えの正誤のみに焦点を当てていたのに対し、我々は最終的な答えと解決ステップの両方を厳密に分析し、推論の失敗を特定する。Mixtral、Llama、Gemini、GPT-4o、OpenAIのo1バリアントを含む8つの最先端モデルを評価した結果、新しいモデル(例:o3-mini、deepseek-r1)はより高い精度を達成するものの、すべてのモデルが空間推論、戦略的計画、算術においてエラーを示し、時には誤った論理を通じて正しい答えを導くことが明らかになった。一般的な失敗モードには、根拠のない仮定、数値パターンへの過度の依存、物理的直感を数学的ステップに変換する難しさが含まれる。手動分析により、モデルが多段階の推論や実世界の知識を必要とする問題に苦戦することが明らかになったにもかかわらず、広範な数学的知識を有していることが示された。我々の結果は、答えだけでなく推論プロセスを評価することの重要性を強調し、LLMの問題解決能力を過大評価することに警鐘を鳴らす。本研究は、LLMの一般化能力における持続的なギャップを浮き彫りにし、構造化された推論と制約処理のターゲットを絞った改善の必要性を強調する。
本論文は、原子特性予測における最近のパラダイム、すなわち進歩がデータセットの規模と計算リソースの増大に結びついているという考え方に異議を唱えるものである。我々は、タスクに関連した注意深く選ばれたデータセットで事前学習を行うことで、大規模な事前学習と同等かそれ以上の性能を達成しつつ、計算コストを1/24まで削減できることを示す。また、分子グラフにおいて上流の事前学習データセットと下流タスクの整合性を定量化する新しい指標として、コンピュータビジョンのFr\'echet Inception Distanceに着想を得たChemical Similarity Index(CSI)を提案する。CSI距離が最小となる最も関連性の高いデータセットを選択することで、JMPのような大規模で混合されたデータセットで事前学習したモデルよりも、より小さく焦点を絞ったデータセットで事前学習したモデルの方が一貫して優れた性能を発揮することを示す。直感に反して、タスクと整合性の低いデータを無差別に追加すると、モデルの性能が低下することも明らかになった。我々の知見は、原子特性予測における事前学習において、量よりも質が重要であることを強調している。
影響関数はモデル訓練における重要な洞察を提供しますが、既存の手法は計算コストの高さと汎化性能の限界に悩まされています。特に、最近の研究では言語モデルを用いてデータの影響を計算するための様々な指標やアルゴリズムが提案されていますが、大規模なモデルやデータセットに対してはスケールしません。これは、計算に必要な高コストな順伝播と逆伝播、大規模モデルを保存するための膨大なメモリ要件、そして新しいデータに対する影響推定の汎化性能の低さによるものです。本論文では、影響値を推定するために小さなニューラルネットワーク(InfluenceNetworkと呼びます)の使用を探求し、最大99%のコスト削減を達成しました。我々の評価では、フルサイズの言語モデル(7Bおよび8Bバージョンを使用)のわずか0.0027%のサイズのモデルで影響値を推定できることを示しています。我々は、影響値を推定するアルゴリズム(NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuningと呼びます)を、一般的な指示微調整のためのサブセット選択という下流タスクに適用しました。本研究では、4つの最先端の影響関数を含め、NN-CIFTと元の影響関数の間に性能の妥協がないことを示しています。我々はNN-CIFTの詳細なハイパーパラメータ分析を提供します。我々の手法のコードはこちらで見つけることができます: https://github.com/agarwalishika/NN-CIFT。
その驚異的な能力にもかかわらず、大規模言語モデル(LLMs)は望ましくないものの未だ十分に理解されていない異方性の特徴を示す単語表現を学習する。本論文では、Adamにおける第二モーメントが異方性埋め込みの原因であると主張し、この問題を緩和するために修正された最適化手法であるCoupled Adamを提案する。実験結果から、Coupled Adamは埋め込みの品質を大幅に改善し、十分に大規模なデータセットにおいて上流および下流タスクのパフォーマンス向上にも寄与することが示された。
大規模言語モデル(LLM)は自然言語生成において大きな進歩を遂げているが、正確な計算や構造分析を必要とするタスクではしばしば課題に直面している。本論文では、最先端のLLMの言語複雑度測定タスクにおける性能を、LIX可読性指標と平均依存距離(ADD)の計算を通じて調査する。スウェーデンの高校および大学レベルのエッセイを使用し、モデルがLIXスコアを計算し、依存関係解析を行う能力を評価し、その結果を確立されたグラウンドトゥルースと比較する。我々の調査結果によると、すべてのモデルがこれらのタスクに対してある程度の能力を示す中で、ChatGPT-o1-miniが最も一貫した性能を発揮し、LIX計算と依存関係解析の両方で最高の精度を達成した。さらに、モデルがLIXを計算する精度と、Massive Multitask Language Understanding(MMLU)ベンチマークにおける全体的な性能との間に、-0.875 p 0.026(N=6)という強い有意な相関関係が観察された。これらの結果は、言語複雑度測定能力が、LLMの一般的な能力を評価するためのノイジーなゼロショットプロキシとして機能しうることを示唆しており、大規模なベンチマークデータセットを必要としない実用的なモデル評価方法を提供するものである。
大規模言語モデル(LLM)によって生成されたテキストを検出することは、誤った判断による重大な過ちを引き起こす可能性があります。例えば、学生の学術的尊厳を損なうような決定がなされることも考えられます。そのため、LLMテキスト検出は、その予測がどれほど信頼できるかをユーザーが判断できるよう、決定の解釈可能性を確保する必要があります。人間がテキストが人間によって書かれたものか、LLMによって生成されたものかを検証する際、直感的にそのテキストがどちらにより類似した部分を持つかを調査します。しかし、既存の解釈可能な検出器は、人間の意思決定プロセスに沿っておらず、ユーザーが容易に理解できる証拠を提供できていません。このギャップを埋めるため、我々はExaGPTを提案します。これは、テキストの起源を検証するための人間の意思決定プロセスに基づいた解釈可能な検出アプローチです。ExaGPTは、テキストがデータストア内の人間が書いたテキストとLLMが生成したテキストのどちらにより類似した部分を持つかをチェックすることで、テキストを識別します。このアプローチは、テキスト内の各部分に対する決定に寄与する類似部分の例を証拠として提供できます。我々の人間による評価では、類似部分の例を提供することが、既存の解釈可能な方法よりも決定の正しさを判断するのに効果的であることが示されました。さらに、4つのドメインと3つの生成器を用いた広範な実験により、ExaGPTが1%の偽陽性率において、従来の強力な検出器を最大+40.9ポイントの精度で大幅に上回ることが明らかになりました。