翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の継続的なスケーリングは、収穫逓減をもたらすのか?現実世界での価値は、エージェントが完了できるタスクの長さに由来することが多い。本論文では、単一ステップの精度における限界的な向上が、モデルが成功裏に完了できるタスクの長さにおいて指数関数的な改善に繋がるという、単純ながらも直感に反する事実を観察することから始める。次に、単純なタスクが長くなった際のLLMsの失敗は、推論能力の欠如ではなく、実行におけるミスに起因することを論じる。我々は、長期的なタスクを解決するために必要な知識と計画を明示的に提供することで、実行能力を分離することを提案する。その結果、小規模なモデルが単一ターンで100%の精度を達成している場合でも、より大規模なモデルが有意に多くのターンを正しく実行できることを発見した。また、モデルのステップごとの精度は、ステップ数が増加するにつれて低下することを観察した。これは単に長文脈の制限によるものではない――興味深いことに、自己条件付け効果が観察され、文脈に以前のターンでの誤りが含まれている場合、モデルがミスを犯す可能性が高くなる。自己条件付けは、モデルサイズをスケーリングするだけでは減少しない。対照的に、最近の思考モデルは自己条件付けを行わず、また単一ターンでより長いタスクを実行できる。最後に、フロンティア思考モデルが単一ターンで実行できるタスクの長さをベンチマークすることで結論を導く。全体として、実行能力に焦点を当てることで、LLMsが複雑な推論問題を解決できる一方で、単純なタスクが長くなると失敗する理由についての議論を調和させ、長期的なタスクにおけるモデルサイズと逐次的なテストタイム計算のスケーリングの多大な利点を強調することを目指す。
任意解像度画像生成は、デバイス間で一貫した視覚体験を提供し、生産者と消費者にとって広範な応用が可能である。現在の拡散モデルでは、解像度に応じて計算需要が二次的に増加し、4K画像生成に100秒以上の遅延が生じる。これを解決するため、我々は潜在拡散モデルの第二世代を探求し、拡散モデルによって生成された固定潜在を内容表現と見なし、コンパクトな生成潜在を用いて任意解像度画像をワンステップ生成器でデコードすることを提案する。これにより、拡散モデルの再学習を必要とせず、固定サイズの潜在から任意の解像度で画像を生成するために、VAEデコーダを新しい生成器に置き換えたInfGenを提示する。この手法はプロセスを簡素化し、計算複雑性を低減し、同じ潜在空間を使用する任意のモデルに適用可能である。実験結果から、InfGenは多くのモデルを任意の高解像度時代に進化させ、4K画像生成時間を10秒未満に短縮できることが示された。
自律型AIエージェントの急速な普及は、人間の直接的な監視を超えた規模と速度でエージェントが取引や調整を行う新たな経済層を生み出しつつある。本論文では、この新たに出現するシステムを分析するための枠組みとして「サンドボックス経済」を提案し、その起源(自然発生型 vs. 意図的設計)と既存の人間経済からの分離度(透過的 vs. 非透過的)という2つの主要な次元に沿って特徴づける。現在の軌跡は、広大で高度に透過的なAIエージェント経済が自然発生的に出現する方向を示しており、前例のないレベルの調整を可能にする機会とともに、システミックな経済リスクや不平等の悪化といった重大な課題も提示している。本論文では、安全に制御可能なAIエージェント市場を実現するためのいくつかの設計選択肢について議論する。特に、公平な資源配分と選好解決のためのオークションメカニズム、集団目標の達成に向けた調整を行うAI「ミッション経済」の設計、信頼性、安全性、説明責任を確保するために必要な社会技術的インフラを考察する。これを通じて、今後の技術的変化が人類の長期的な集団的繁栄と調和するよう、制御可能なエージェント市場を積極的に設計する必要性を主張する。
パートレベルでの3D形状生成は、メッシュリトポロジー、UVマッピング、3Dプリンティングなどの下流アプリケーションにおいて極めて重要です。しかし、既存のパートベース生成手法は、十分な制御性を欠き、意味的に有意義な分解が不十分であることが多いです。この課題に対処するため、我々はX-Partを提案します。X-Partは、全体的な3Dオブジェクトを意味的に有意義で構造的に一貫したパートに分解し、高い幾何学的忠実度を実現する制御可能な生成モデルです。X-Partは、パート生成のためのプロンプトとしてバウンディングボックスを活用し、意味的分解のためにポイント単位のセマンティック特徴を注入します。さらに、インタラクティブなパート生成のための編集可能なパイプラインを設計しています。広範な実験結果は、X-Partがパートレベル形状生成において最先端の性能を達成することを示しています。本研究成果は、プロダクションレディで編集可能かつ構造的に健全な3Dアセットを作成するための新たなパラダイムを確立します。コードは公開され、研究コミュニティに提供されます。
第二言語習得において、学習者の関与と動機付けは極めて重要であるが、教育会話における学習者の興味を維持することは依然として課題となっている。これまでの研究では、教育テキストを興味深くする要素が探求されてきたが、会話における関与を促進する言語的特徴についてはまだほとんど知られていない。このギャップを埋めるため、我々は教師と生徒の相互作用における興味深さと期待される興味深さを注釈した初の大規模データセットであるIntrExを紹介する。IntrExはTeacher-Student Chatroom Corpus (TSCC)を基盤として構築され、シーケンスレベルの注釈を組み込むことで、孤立したターンを超えた関与の研究を可能にし、長い対話の中で興味がどのように変化するかを捉えることを目指している。我々は100人以上の第二言語学習者を対象とした厳格な注釈プロセスを採用し、人間のフィードバックからの強化学習(RLHF)に着想を得た比較ベースの評価アプローチを用いて、合意率の向上を図った。また、大規模言語モデル(LLM)が人間の興味深さの判断を予測できるかどうかを調査した。その結果、興味深さの評価に基づいてファインチューニングされたLLM(7B/8Bパラメータ)は、GPT-4oのような大規模なプロプライエタリモデルを上回り、教育現場における関与をモデル化するための専門的なデータセットの可能性を示した。最後に、具体性、理解しやすさ(読みやすさ)、取り込みといった言語的・認知的要因が、教育対話における関与にどのように影響するかを分析した。
検索拡張生成(RAG)アプローチは、情報検索(IR)技術と大規模言語モデル(LLM)を統合することで、質問応答システムや対話生成タスクを強化します。この戦略は、外部の知識ベースから情報を検索して生成モデルの応答能力を高めることで、一定の成功を収めています。しかし、現在のRAG手法は、マルチホップクエリを扱う際に多くの課題に直面しています。例えば、一部のアプローチでは反復的な検索に過度に依存し、複合クエリに対して多くの検索ステップを浪費しています。また、元の複雑なクエリをそのまま検索に使用すると、特定のサブクエリに関連する内容を捕捉できず、ノイズの多い検索結果が得られることがあります。このノイズが管理されない場合、ノイズ蓄積の問題が発生する可能性があります。これらの課題に対処するため、我々はHANRAGという新しいヒューリスティックベースのフレームワークを提案します。HANRAGは強力なリベレーターによって駆動され、クエリをルーティングし、サブクエリに分解し、検索されたドキュメントからノイズをフィルタリングします。これにより、システムの適応性とノイズ耐性が向上し、多様なクエリを高度に処理できるようになります。我々は、提案されたフレームワークを他の主要な業界手法とさまざまなベンチマークで比較しました。その結果、我々のフレームワークがシングルホップおよびマルチホップの質問応答タスクにおいて優れた性能を発揮することが示されました。
視覚言語モデル(VLM)の高度化に伴い、その推論能力に対する監視が強化されつつある。多くのタスクで優れた性能を発揮する一方で、物理学などの基本的な科学原理の理解は未開拓の領域である。これらの能力の進展を反映するため、我々は2D物理学の理解を厳密に評価するための新規でアクセスしやすいフレームワークを提案する。本フレームワークは、実践的なシナリオ生成器を特徴とし、投射運動、衝突力学、力学、流体力学の4つの主要領域にわたる400以上の多様な問題群を作成する。4つの最先端VLMを包括的に評価した結果、モデルの規模と推論能力の間に強い相関関係が確認され、最高性能を示したQwen2.5-VL-7Bモデルは0.815の総合スコアを達成した。モデルは定型的な問題では優れた性能を発揮する一方、抽象的な空間推論を必要とする領域では著しく苦戦することが明らかになった。本フレームワークを設計することで、VLMにおける科学的推論の研究を一般化し、その能力と限界に対するより深い洞察を促進することを目指す。
マスク拡散型大規模言語モデル(dLLM)は、自己回帰型LLMの有望な代替として注目を集めており、競争力のある性能を提供しながら、インペインティングなどの独自の生成能力をサポートしています。本論文では、インペインティングがdLLMの強化学習アルゴリズム設計にどのように役立つかを探ります。LLMと強化学習を整合させる際には、探索の課題が存在します。具体的には、報酬信号が疎であり、モデルが正しい解を見つけられない場合にサンプルが無駄になるという問題です。この非効率性はLLM全般に影響を及ぼしますが、dLLMは独自の機会を提供します。つまり、そのインペインティング能力が探索を導くことができるのです。本論文では、IGPO(Inpainting Guided Policy Optimization)を紹介します。これは、オンラインサンプリング中に部分的に正しい推論トレースを戦略的に挿入する強化学習フレームワークです。完全な解を提供するのではなく、インペインティングは有望な軌道空間に向けて探索を導きながら、自己生成された推論を保持し、教師ありファインチューニングと強化学習を橋渡しします。IGPOをGRPOなどのグループベースの最適化手法に適用します。これらの手法では、探索の失敗がゼロのアドバンテージと勾配を引き起こします。IGPOは意味のある勾配を回復し、サンプル効率を向上させます。また、dLLMの生成パターンに適した合成された簡潔なトレースを用いた教師ありファインチューニングを提案します。エントロピーベースのフィルタリングなどの追加技術とともに、我々のトレーニングレシピは、GSM8K、Math500、AMCの3つの数学ベンチマークで大幅な向上をもたらし、フルアテンション型マスクdLLMの新たな最先端の結果を達成しました。
モデルコンテキストプロトコル(MCP)は、エージェントとツールの統合および相互運用性を強化するために設計された重要なオープンスタンダードとして急速に台頭しており、強力で相互接続された真に実用的なエージェントAIの新時代を切り開く位置づけにあります。しかし、MCPの採用が進む一方で、既存のベンチマークはこの新しいパラダイムにおける実世界のエージェント性能を十分に捉えられず、その真の運用価値に対する歪んだ認識や、能力の違いを確実に区別できない状況を引き起こしています。この重要な評価ギャップを埋めるため、我々はMCP-AgentBenchを導入します。これは、MCPを介したツール相互作用における言語エージェントの能力を厳密に評価するために特別に設計された包括的なベンチマークです。MCP-AgentBenchの主な貢献は以下の通りです:33の運用サーバーと188の異なるツールからなる堅牢なMCPテストベッドの確立、6つの異なるカテゴリーにわたる600の体系的に設計されたクエリを含むベンチマークの開発、そして実世界のタスク成功を優先する新しい結果指向の評価手法MCP-Evalの導入です。主要な言語エージェントに対する広範な実証評価を通じて、基礎的な洞察を提供します。MCP-AgentBenchは、研究コミュニティに標準化された信頼性の高いフレームワークを提供し、MCPの変革的な利点を完全に活用できるエージェントを構築、検証、進化させることで、真に有能で相互運用可能なAIシステムへの進歩を加速することを目指しています。
大規模言語モデル(LLM)の最近の進展は、金融推論と市場理解において印象的な能力を示しています。TradingAgentやFINMEMなどのマルチエージェントLLMフレームワークは、これらのモデルを長期投資タスクに拡張し、基本的なデータやセンチメントベースの入力を活用して戦略的意思決定を行います。しかし、こうしたシステムは、高速かつ精度が求められる高頻度取引(HFT)の要求には適していません。HFTでは、テクニカル指標、チャートパターン、トレンドベースの特徴など、構造化された短期シグナルに基づく迅速でリスクを考慮した意思決定が必要であり、これは従来の金融LLMアプリケーションで典型的な長期的な意味論的推論とは異なります。この目的のために、我々は高頻度アルゴリズム取引に特化した初のマルチエージェントLLMフレームワークであるQuantAgentを紹介します。このシステムは、取引を4つの専門エージェント(Indicator、Pattern、Trend、Risk)に分解し、それぞれがドメイン固有のツールと構造化された推論能力を備えており、短期間の市場ダイナミクスの異なる側面を捉えます。ビットコインやナスダック先物を含む10の金融商品におけるゼロショット評価では、QuantAgentは4時間の取引間隔において、予測精度と累積リターンの両方で優れたパフォーマンスを示し、強力なニューラルベースおよびルールベースのベースラインを上回りました。我々の研究結果は、構造化された金融の事前知識と言語ネイティブな推論を組み合わせることで、高頻度金融市場におけるトレーサブルなリアルタイム意思決定システムの新たな可能性が開かれることを示唆しています。
効率的なVision-Language-Action(VLA)ポリシーの開発は、実用的なロボティクス展開において重要であるが、現在のアプローチでは計算コストとリソース要件が過大である。既存の拡散ベースのVLAポリシーは、強力な性能を達成するために数十億パラメータのモデルと大規模なデータセットを必要とする。本論文では、この効率性の課題に取り組むため、2つの貢献を行う。第一に、中間モダリティ融合を提案し、LLM層の最大50%をプルーニングすることで、拡散ヘッドに容量を再配分する。第二に、アクション固有のGlobal-AdaLN条件付けを導入し、モジュール適応によりパラメータを20%削減する。これらの進歩を統合し、950Mパラメータの新規VLA「FLOWER」を開発した。わずか200 H100 GPU時間で事前学習されたFLOWERは、10のシミュレーションおよび実世界ベンチマークにわたる190のタスクにおいて、より大規模なVLAと競争力のある性能を発揮し、多様なロボット形態における堅牢性を実証する。さらに、FLOWERはCALVIN ABCベンチマークで4.53の新たなSoTAを達成した。デモ、コード、および事前学習済みの重みはhttps://intuitive-robots.github.io/flower_vla/で公開されている。
ロングテール学習は、実世界のシナリオにおける幅広い適用可能性から、近年注目を集めています。既存のアプローチの中でも、ロングテール半教師あり学習(LTSSL)は、不均衡なラベル付きデータセットに大量の未ラベルデータを組み込むことで、効果的な解決策として登場しました。しかし、従来のLTSSL手法の多くはモデルをゼロから訓練するように設計されており、過信や低品質の擬似ラベルといった問題を引き起こすことがしばしばあります。これらの課題に対処するため、我々はLTSSLを基盤モデルのファインチューニングパラダイムに拡張し、新たなフレームワーク「LoFT(ロングテール半教師あり学習におけるパラメータ効率的ファインチューニング)」を提案します。ファインチューニングされた基盤モデルがより信頼性の高い擬似ラベルを生成し、不均衡学習に寄与することを実証します。さらに、未ラベルデータに分布外(OOD)サンプルが含まれる可能性があるオープンワールド条件下での半教師あり学習という、より実践的な設定を探求します。この問題に対処するため、識別能力を向上させる「LoFT-OW(オープンワールドシナリオ下のLoFT)」を提案します。複数のベンチマークでの実験結果は、従来手法と比較して未ラベルデータの1%のみを利用した場合でも、我々の手法が優れた性能を達成することを示しています。
本論文では、データから豊富な制御性と柔軟なプロンプト機能を備えた世界モデルを学習するシステムであるProbabilistic Structure Integration(PSI)を提案します。PSIは3段階のサイクルで構成されています。最初の段階である確率的予測では、ランダムアクセス自己回帰型シーケンスモデルとして、データの確率的グラフィカルモデルPsiを構築します。Psiは、データ内の任意の変数が他の変数集合に依存する関係を記述する、完全な条件付き分布のセットを学習します。第2段階の構造抽出では、Psiに対する因果推論を介して、多様な意味のある「中間構造」に対応するデータの低次元特性をゼロショットで抽出する方法を示します。第3段階の統合では、これらの構造を新しいトークンタイプに変換し、それらを条件付け信号および予測ターゲットとしてトレーニングデータに継続的に組み込むことでサイクルを完了します。各サイクルはPsiの能力を拡張し、基礎となるデータをより良くモデル化できるようにするとともに、LLMのような普遍的なプロンプト言語に似た新しい制御手段を創出します。私たちは、1.4兆トークンのインターネット動画データを用いてPsiのインスタンスをトレーニングし、様々な有用な動画予測と理解推論を実行します。また、最先端のオプティカルフロー、自己教師あり深度推定、物体セグメンテーションを抽出し、これらの構造を用いて予測性能の完全な改善サイクルを実現します。
テキストから画像(T2I)生成における正確な色の整合性は、ファッション、製品ビジュアライゼーション、インテリアデザインなどのアプリケーションにおいて重要である。しかし、現在の拡散モデルは、微妙で複合的な色の表現(例:ティファニーブルー、ライムグリーン、ホットピンク)に苦戦しており、人間の意図とずれた画像を生成することが多い。既存のアプローチは、クロスアテンションの操作、参照画像、またはファインチューニングに依存しているが、曖昧な色の記述を体系的に解決することには至っていない。プロンプトの曖昧性の下で正確に色を表現するために、我々は、大規模言語モデル(LLM)を活用して色関連のプロンプトを明確化し、テキスト埋め込み空間内で直接色のブレンド操作を導くトレーニング不要のフレームワークを提案する。我々の手法では、まず大規模言語モデル(LLM)を使用してテキストプロンプト内の曖昧な色の表現を解決し、その後、CIELAB色空間における結果の色の空間的関係に基づいてテキスト埋め込みを洗練する。従来の手法とは異なり、我々のアプローチは、追加のトレーニングや外部の参照画像を必要とせずに色の正確性を向上させる。実験結果は、我々のフレームワークが画像品質を損なうことなく色の整合性を改善し、テキストの意味論と視覚的生成の間のギャップを埋めることを示している。
音声言語モデル(SLM)は、自然な人間と機械のインタラクションを可能にする、音声理解と生成の統一されたパラダイムとして登場しました。しかし、これまでの進歩の多くは意味的精度や指示の追従に焦点が当てられており、SLMが音声指示に基づいて話し方を適応させる能力については限定的な注目しか集めていません。本研究では、音声スタイル適応(Voice Style Adaptation, VSA)という新しいタスクを導入し、SLMが自然言語の音声コマンドに従って音色、プロソディ、またはペルソナなどの話し方を変更できるかどうかを検証します。このタスクを研究するために、音声生成の4つのカテゴリ(音響属性、自然言語指示、役割演劇、暗黙の共感)をカバーする二言語(中国語と英語)ベンチマークであるVStyleを提示します。また、Large Audio Language Model as a Judge(LALM as a Judge)フレームワークを導入し、テキストの忠実度、スタイルの遵守度、自然さに沿って出力を段階的に評価し、再現可能で客観的な評価を確保します。商用システムとオープンソースのSLMを用いた実験により、現在のモデルが制御可能なスタイル適応において明確な限界に直面していることが示され、このタスクの新規性と課題が浮き彫りになりました。VStyleとその評価ツールキットを公開することで、人間中心の音声インタラクションを進めるための基盤をコミュニティに提供することを目指しています。データセットとコードはhttps://junzhan2000.github.io/VStyle.github.io/{プロジェクトのホームページ}で公開されています。
大規模言語モデル(LLMs)は、さまざまな領域で顕著な成功を収めている。しかし、根本的な疑問が残されている:LLMsは因果知識を効果的に活用して予測や生成を行うことができるのか?実証研究を通じて、大規模データを直接学習したLLMsは、真の因果関係ではなく、むしろ疑似相関を捉えることが多く、特に分布外(OOD)シナリオにおいて性能が低下することが明らかとなった。この課題に対処するため、我々はCausal Attention Tuning(CAT)という新しいアプローチを提案する。これは、細粒度の因果知識をアテンションメカニズムに注入するものである。我々は、人間の事前知識を活用してトークンレベルの因果信号を自動生成する自動化パイプラインを提案し、Re-Attentionメカニズムを導入してトレーニングを導くことで、モデルが因果構造に焦点を当てつつ、アテンションスコアにおけるノイズやバイアスを軽減することを支援する。提案したSpurious Token Game(STG)ベンチマークおよび複数の下流タスクにおける実験結果は、本アプローチが因果知識を効果的に活用して予測を行い、OODシナリオにおいても頑健であることを示している。実装の詳細はhttps://github.com/Kairong-Han/CATで確認できる。
外部コンテキストを組み込むことは、大規模言語モデル(LLM)の応答品質を大幅に向上させることができる。しかし、現実世界のコンテキストは、関連する情報と不適切な内容が不均衡に混在していることが多く、信頼性リスクをもたらす。では、LLMはどのように混合コンテキストを処理し、優先順位をつけるのだろうか?これを研究するため、関連する内容と不適切な内容を含む現実世界のコンテキストをクエリと組み合わせた「Poisoned Context Testbed」を導入する。動物の連想学習に着想を得て、神経科学のRescorla-Wagner(RW)モデルを適応し、競合するコンテキスト信号がLLMの出力にどのように影響するかを定量化する。適応したモデルは、一貫した行動パターンを明らかにする:LLMは、コンテキスト内でより少ない情報を組み込む強い傾向を示す。この脆弱性は、少量の不適切な内容が応答品質を大幅に低下させる現実世界の設定において有害である。テストベッドでの実証評価は、この脆弱性をさらに裏付ける。これを解決するため、モデルが内部的に不適切な信号を識別し無視することを可能にする、2段階のファインチューニングベースのアプローチ「RW-Steering」を導入する。多様なコンテキスト混合物にわたる広範な監督に依存する従来の方法とは異なり、RW-Steeringは不適切な内容の割合が変化しても堅牢に汎化する。実験結果は、最良のファインチューニングモデルが応答品質を39.8%向上させ、望ましくない行動曲線を逆転させることを示し、RW-Steeringが現実世界でのLLMの安全性を向上させるための堅牢で汎化可能なコンテキストエンジニアリングソリューションであることを確立する。
表のような構造化データに対する視覚的推論は、現代の視覚言語モデル(VLM)にとって重要な能力である。しかし、現在のベンチマークは、特にレンダリングされた表画像に関して、規模、多様性、または推論の深さの点で限界がある。このギャップを埋めるため、我々はVisual-TableQAを導入する。これは、複雑な表データに対する視覚的推論を評価し強化するために特別に設計された、大規模でオープンドメインのマルチモーダルデータセットである。我々の生成パイプラインはモジュール式でスケーラブル、かつ完全に自律的であり、生成、検証、インスピレーションという異なる役割を担う複数の推論LLMが協力する。Visual-TableQAは、2.5kの豊富に構造化されたLaTeXレンダリング表と6kの推論集約型QAペアで構成され、その生成コストは100米ドル未満である。多様性と創造性を促進するため、我々のパイプラインは、クロスモデルプロンプティング(「インスピレーション」)とLLMジャリーによるフィルタリングを介したマルチモデル協調データ生成を実行する。より強力なモデルがレイアウトとトピックをシードし、より弱いモデルがそれを詳細化することで、多様な推論パターンと視覚的構造をデータセットに蒸留する。実験結果は、Visual-TableQAでファインチューニングされたモデルが外部ベンチマークに対して堅牢に一般化し、データセットの合成性にもかかわらず、いくつかのプロプライエタリモデルを上回ることを示している。完全なパイプラインとリソースは、https://github.com/AI-4-Everyone/Visual-TableQA で公開されている。
本システム論文では、DeMeVaチームが第3回Learning with Disagreements共有タスク(LeWiDi 2025; Leonardelli et al., 2025)に対して採用したアプローチを紹介する。我々は2つの方向性を探求した:大規模言語モデルを用いたインコンテクスト学習(ICL)では、例文サンプリング戦略を比較し;RoBERTa(Liu et al., 2019b)を用いたラベル分布学習(LDL)手法では、いくつかのファインチューニング方法を評価した。我々の貢献は2つある:(1) ICLがアノテータ固有の注釈(パースペクティビスト注釈)を効果的に予測可能であり、これらの予測をソフトラベルに集約することで競争力のある性能を発揮することを示した;(2) LDL手法がソフトラベル予測において有望であり、パースペクティビストコミュニティによるさらなる探求に値することを主張した。
大規模言語モデル(LLM)は、データアノテーションやテキスト分析などの労力を要するタスクを自動化することで、社会科学研究を急速に変革しています。しかし、LLMの出力は、研究者が行う実装上の選択(例えば、モデル選択、プロンプト戦略、温度設定など)によって大きく異なります。このようなばらつきは、系統的なバイアスやランダムな誤差を引き起こし、下流の分析に伝播して、タイプI、タイプII、タイプS、またはタイプMのエラーを引き起こす可能性があります。我々はこれをLLMハッキングと呼びます。 我々は、21の公表された社会科学研究から37のデータアノテーションタスクを再現し、18の異なるモデルを用いてLLMハッキングのリスクを定量化しました。1,300万のLLMラベルを分析し、2,361の現実的な仮説をテストして、研究者の選択が統計的結論にどのように影響するかを測定しました。その結果、最先端のモデルでは約3分の1の仮説で、小規模な言語モデルでは半分の仮説で、LLMアノテーションデータに基づく誤った結論が見つかりました。我々の調査結果は、タスクのパフォーマンスが高く、モデルの汎用能力が優れているほどLLMハッキングのリスクが低くなることを示していますが、非常に正確なモデルでもリスクを完全に排除することはできません。LLMハッキングのリスクは効果量が大きくなるにつれて減少するため、有意性閾値付近の所見のより厳密な検証が必要です。LLMハッキングの緩和技術に関する我々の広範な分析は、偽陽性の所見を減らし、モデル選択を改善する上で人間のアノテーションの重要性を強調しています。驚くべきことに、一般的な回帰推定器の補正技術は、タイプIとタイプIIのエラーのトレードオフが大きいため、LLMハッキングのリスクを軽減する上でほとんど効果がありません。 偶発的なエラーに加えて、意図的なLLMハッキングが容認できないほど簡単であることもわかりました。少数のLLMとわずかなプロンプトの言い換えだけで、何でも統計的に有意であるかのように提示することが可能です。
中国の少数民族言語、例えばチベット語、ウイグル語、伝統的モンゴル語は、国際標準とは異なる独自の書記体系を持つため、大きな課題に直面しています。この差異により、特に見出し生成のような教師ありタスクにおいて、関連するコーパスが深刻に不足しています。このギャップを埋めるため、私たちは新しいデータセット「中国少数民族見出し生成(CMHG)」を導入しました。このデータセットは、チベット語用に10万エントリ、ウイグル語とモンゴル語用にそれぞれ5万エントリを含み、見出し生成タスクに特化して作成されています。さらに、ネイティブスピーカーによる注釈付きの高品質なテストセットを提案し、今後の研究のベンチマークとして活用されることを目指しています。このデータセットが、中国少数民族言語における見出し生成の進展に貢献し、関連するベンチマークの開発に寄与することを期待しています。