AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ファインチューニングの批評：批評を学ぶことは模倣を学ぶよりも効果的である
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

教師ありファインチューニング（SFT）は、言語モデルを指示に従った注釈付き応答を模倣するために一般的に使用されています。本論文では、このパラダイムに挑戦し、批評ファインチューニング（CFT）を提案します。CFTは、モデルが単に正しいものを模倣するのではなく、ノイズの多い応答を批評することを学ぶ戦略です。批評ファインチューニングは、批判的思考を重視する人間の学習プロセスに触発され、より深い分析と微妙な理解を促します。これらの特性は、標準的なSFTではしばしば見落とされています。CFTの効果を検証するために、GPT-4oを教師として使用し、WebInstructから50Kサンプルのデータセットを構築し、入力=[クエリ；ノイズの多い応答]、出力=批評という形式で批評を生成します。このデータセットでのCFTは、Qwen2.5、Qwen2.5-Math、DeepSeek-Mathなどの異なるベースモデルにおける6つの数学ベンチマークで、SFTに比べて一貫した4-10%の改善をもたらします。さらに、MetaMathとNuminaMathのデータセットに拡張し、SFTに比べて同様の利点を観察します。特筆すべきは、われわれのQwen2.5-Math-CFTモデルは、たった50Kサンプルで訓練され、2Mサンプル以上を使用するAceMathやQwen2.5-Math-Instructなどの競合モデルをほとんどのベンチマークで凌駕または上回ることです。削減研究によると、CFTはノイズの多い応答のソースや教師の批評モデルに対して頑健であることが示されています。これらの発見を通じて、批評に基づくトレーニングが言語モデルの推論を進めるためのより効果的な代替手段を提供すると主張しています。

アトラ・セレネ・ミニ：汎用評価モデル
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

最先端の小規模言語モデル審査員（SLMJ）であるAtla Selene Miniを紹介します。Selene Miniは、11の分布外ベンチマーク全体で最高のSLMJおよびGPT-4o-miniを凌駕する汎用評価モデルです。これらのベンチマークは、絶対スコアリング、分類、およびペアワイズな選好タスクを網羅しています。RewardBenchにおいて、GPT-4oや専門の審査員などの強力なベースラインを上回る、最高スコアの8B生成モデルとなっています。これを達成するために、公開データセットに合成的に生成された批評を追加し、フィルタリングとデータセットの削除を通じて高品質を確保する、原則に基づいたデータキュレーション戦略を開発しています。モデルは、直接的な選好最適化（DPO）と教師付きファインチューニング（SFT）損失を組み合わせてトレーニングし、実世界のシナリオで優れたパフォーマンスを発揮する高度にプロンプト可能な評価モデルを生成します。Selene Miniは、金融および医療業界のデータセットにおける人間の専門家評価とのゼロショット合意が著しく向上しています。また、プロンプト形式の変化に対しても頑健です。予備結果によると、Selene Miniは、コミュニティ主導のJudge Arenaにおいて最高ランクの評価モデルであることが示されています。モデルの重みは、広範なコミュニティの採用を促進するためにHuggingFace（https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B）およびOllamaで公開されています。

AIジレンマの持続可能なスケーリングの探求：企業のAI環境への影響の予測的研究
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

人工知能（AI）の急速な成長、特に大規模言語モデル（LLMs）により、温室効果ガス排出を超えてハードウェア製造およびエンドオブライフプロセスを含む世界的な環境への影響に関する懸念が高まっています。主要プロバイダーからの透明性の欠如は、企業がAI関連の環境影響を評価し、ネットゼロ目標を達成する能力を妨げています。本論文では、企業のAIポートフォリオの環境影響を推定する方法論を提案し、AIおよびライフサイクルアセスメント（LCA）の専門知識を必要とせずに具体的な洞察を提供します。結果は、大規模生成AIモデルが従来のモデルよりも最大4600倍のエネルギーを消費することを確認しています。 IPCCシナリオに沿ったAI使用量の増加、ハードウェアコンピューティング効率、電力ミックスの変化を考慮したモデリングアプローチにより、2030年までのAI電力使用量が予測されます。普及する生成AIと複雑なモデルやフレームワークに関連するエージェントの採用によって駆動される高採用シナリオでは、AI電力使用量が24.4倍に増加する見込みです。 2030年までに生成AIの環境影響を軽減するには、AI価値連鎖全体での協調した取り組みが必要です。ハードウェア効率、モデル効率、または電力網の改善だけでは不十分です。標準化された環境評価フレームワーク、価値連鎖の全ての行為者からのより大きな透明性、およびAI開発をネットゼロ目標と調整するための「環境リターン」指標の導入を提唱しています。

Any2AnyTryon：適応可能な位置エンベディングを活用した多目的仮想衣類タスク
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

画像ベースのバーチャル試着（VTON）は、入力された衣類を対象者の画像に転送してバーチャルな試着結果を生成することを目指しています。ただし、衣類とモデルのペアデータの希少性が既存の手法に高い一般化と品質を達成するのを困難にしています。また、マスクなしの試着を生成する能力を制限しています。データの希少性の問題に取り組むために、Stable GarmentやMMTryonなどの手法は、合成データ戦略を使用して、モデル側のペアデータの量を効果的に増やしています。ただし、既存の手法は通常、特定の試着タスクの実行に限定されており、ユーザーフレンドリーさが欠けています。VTON生成の一般化と制御可能性を向上させるために、私たちはAny2AnyTryonを提案しています。これは、さまざまなニーズに応じて、異なるテキスト指示とモデル衣類画像に基づいて試着結果を生成でき、マスク、ポーズ、その他の条件への依存を排除します。具体的には、まず、最大知られているオープンソースの衣類試着データセットであるLAION-Garmentを構築します。次に、適応的位置埋め込みを導入し、モデルが異なるサイズとカテゴリの入力画像に基づいて満足のいく試着済みモデル画像または衣類画像を生成できるようにします。これにより、VTON生成の一般化と制御可能性が大幅に向上します。実験では、Any2AnyTryonの効果を実証し、既存の手法と比較します。その結果、Any2AnyTryonは柔軟で制御可能で高品質な画像ベースのバーチャル試着生成を実現します。

ChatGPTを頻繁に使用する人々は、AIによって生成されたテキストを正確かつ堅牢に検出する能力があります。
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

本論文では、商用LLM（GPT-4o、Claude、o1）によって生成されたテキストを人間がどれだけ正確に検出できるかを調査します。300のノンフィクションの英語記事を読んでもらい、それが人間によって書かれたものかAIによって生成されたものかをラベル付けし、段落の長さの説明を提供してもらいます。実験の結果、LLMを頻繁に使用して執筆タスクを行う注釈者は、専門的なトレーニングやフィードバックがなくてもAIによって生成されたテキストを検出するのに優れていることが示されました。実際、5人の「専門家」注釈者の多数決では300の記事のうちたった1つを誤分類するのみであり、多くの商用およびオープンソースの検出器を凌駕しており、言い換えや人間らしさなどの回避策が存在する状況でも優れた性能を発揮しています。専門家の自由形式の説明の質的分析によると、彼らは特定の語彙的手がかり（「AI語彙」）に大きく依存している一方で、自動検出器にとって評価が難しいより複雑な現象（たとえば、形式、独創性、明瞭さ）にも気付いています。私たちは、AIによって生成されたテキストの人間および自動検出の両方に対する将来の研究を促進するために、アノテーション付きのデータセットとコードを公開します。

OpenAIのo3-miniの初期外部安全テスト：導入前評価からの洞察
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

大規模言語モデル（LLM）は、私たちの日常生活の欠かせない一部となっています。しかしながら、個人のプライバシーを損なう可能性や偏見を助長し、誤情報を広めるなどのリスクが伴います。これらのリスクは、適切な安全メカニズム、倫理的ガイドライン、徹底的なテストが必要であることを示しており、その責任ある展開を確保するために重要です。LLMの安全性は、一般ユーザーがアクセス可能になる前に徹底的にテストされるべき重要な性質です。本論文では、モンドラゴン大学とセビリア大学の研究者によるOpenAIの新しいo3-mini LLMの外部安全性テスト体験について報告します。具体的には、ASTRALというツールを適用して、LLMの異なる安全カテゴリをテストおよび評価するのに役立つ最新の危険なテスト入力（プロンプト）を自動的かつ体系的に生成します。私たちは、o3-miniのベータ版で総計10,080の危険なテスト入力を自動的に生成し実行します。ASTRALによって危険と分類されたテストケースを手動で検証した結果、87件の実際の危険なLLMの挙動のインスタンスを特定します。OpenAIの最新LLMの展開前外部テストフェーズで明らかになった主要な知見と結果を強調します。

ウイルス：ガードレールモデレーションを迂回する大規模言語モデルへの有害なファインチューニング攻撃
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

最近の研究によると、大規模言語モデル（LLM）は有害な微調整攻撃に対して脆弱であり、モデルはわずかな有害サンプルで微調整した後に安全な整合性能力を失います。リスク軽減のために、通常、微調整の前に有害なサンプルをフィルタリングするためにガードレールが使用されます。本論文では、新しいレッドチーム手法を設計することで、データのフィルタリングにおいて単にガードレールに依存することは信頼性に欠けることを示します。提案された攻撃手法であるVirusは、わずかな有害データをわずかに変更することで、ガードレールのモデレーションを容易にバイパスします。実験結果によると、Virusによって最適化された有害データは、100\%の漏洩率までガードレールによって検出されず、同時に優れた攻撃性能を達成します。最後に、本論文を通じて伝えたい主要メッセージは、ガードレールのモデレーションを有害な微調整攻撃に対する最後の手段と考えることは無謀であり、事前学習されたLLMの固有の安全性問題を解決できないことです。当該コードはhttps://github.com/git-disl/Virus で入手可能です。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ファインチューニングの批評：批評を学ぶことは模倣を学ぶよりも効果的である
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Jan 29

ByYubo Wang, Xiang Yue, Wenhu Chen

アトラ・セレネ・ミニ：汎用評価モデル
Atla Selene Mini: A General Purpose Evaluation Model

Jan 27

ByAndrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, Young Sun Park

AIジレンマの持続可能なスケーリングの探求：企業のAI環境への影響の予測的研究
Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Jan 24

ByClément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier

Any2AnyTryon：適応可能な位置エンベディングを活用した多目的仮想衣類タスク
Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Jan 27

ByHailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu

ChatGPTを頻繁に使用する人々は、AIによって生成されたテキストを正確かつ堅牢に検出する能力があります。
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jan 26

ByJenna Russell, Marzena Karpinska, Mohit Iyyer

OpenAIのo3-miniの初期外部安全テスト：導入前評価からの洞察
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Jan 29

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

ウイルス：ガードレールモデレーションを迂回する大規模言語モデルへの有害なファインチューニング攻撃
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Jan 29

ByTiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu