AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Qwen3 技術レポート
Qwen3 Technical Report

May 14

ByAn Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu

281

本論文では、Qwenモデルファミリーの最新バージョンであるQwen3を紹介します。Qwen3は、性能、効率性、多言語対応能力を向上させるために設計された一連の大規模言語モデル（LLM）で構成されています。Qwen3シリーズには、密なアーキテクチャとMixture-of-Expert（MoE）アーキテクチャのモデルが含まれており、パラメータ規模は0.6億から2350億まで幅広くカバーしています。Qwen3の主要な革新点は、複雑な多段階推論を行う「思考モード」と、迅速な文脈駆動型応答を行う「非思考モード」を統合フレームワークに組み込んだことです。これにより、チャット最適化モデル（例：GPT-4o）や専用推論モデル（例：QwQ-32B）のような異なるモデル間で切り替える必要がなくなり、ユーザークエリやチャットテンプレートに基づいて動的にモードを切り替えることが可能になります。また、Qwen3では「思考予算メカニズム」を導入し、推論中に計算リソースを適応的に割り当てることで、タスクの複雑さに応じてレイテンシと性能のバランスを取ることができます。さらに、フラッグシップモデルの知識を活用することで、小規模モデルの構築に必要な計算リソースを大幅に削減しつつ、高い競争力のある性能を確保しています。実証評価の結果、Qwen3はコード生成、数学的推論、エージェントタスクなど多様なベンチマークにおいて、より大規模なMoEモデルやプロプライエタリモデルと競合する最先端の結果を達成しています。前身であるQwen2.5と比較して、Qwen3は多言語サポートを29言語から119言語および方言に拡大し、クロスリンガル理解と生成能力の向上を通じてグローバルなアクセシビリティを高めています。再現性とコミュニティ主導の研究開発を促進するため、すべてのQwen3モデルはApache 2.0ライセンスの下で公開されています。

GuardReasoner-VL：強化学習による推論を用いた視覚言語モデルの保護
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

VLMの安全性を向上させるため、本論文では新しい推論ベースのVLMガードモデル「GuardReasoner-VL」を提案する。中核となるアイデアは、オンライン強化学習（RL）を通じて、ガードモデルがモデレーション決定を行う前に慎重に推論することを促すことである。まず、テキスト、画像、テキスト-画像の入力にまたがる123Kのサンプルと631Kの推論ステップからなる推論コーパス「GuardReasoner-VLTrain」を構築する。次に、これに基づいて、モデルの推論能力をSFT（Supervised Fine-Tuning）でコールドスタートさせる。さらに、オンラインRLを通じてモデレーションに関する推論を強化する。具体的には、サンプルの多様性と難易度を高めるために、提案された安全性を考慮したデータ連結によるデータ拡張を行った後、リジェクトサンプリングを実施する。また、探索を初期段階で促進し、後期段階で活用を促すために、動的なクリッピングパラメータを使用する。性能とトークン効率のバランスを取るために、精度、フォーマット、トークンコストを統合した長さを考慮した安全性報酬を設計する。大規模な実験により、本モデルの優位性が実証された。特に、平均F1スコアで2位のモデルを19.27%上回る結果を示した。GuardReasoner-VLのデータ、コード、およびモデル（3B/7B）をhttps://github.com/yueliu1999/GuardReasoner-VL/で公開している。

ビジュアルプランニング：画像のみで思考しよう
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

大規模言語モデル（LLMs）とそのマルチモーダル拡張（MLLMs）の最近の進展により、多様なタスクにおける機械推論が大幅に向上しました。しかし、これらのモデルは、視覚情報が存在する場合でも、推論を表現し構造化するための媒体として純粋なテキストに主に依存しています。本研究では、特に空間的および幾何学的な情報を含むタスクにおいて、言語が必ずしも最も自然または効果的な推論のモダリティではないと主張します。これに動機づけられ、我々は新しいパラダイムである「Visual Planning（視覚的計画）」を提案します。これは、テキストに依存せず、純粋に視覚的表現を通じて計画を可能にするものです。このパラダイムでは、計画は視覚領域における段階的な推論をエンコードする一連の画像を通じて実行され、人間がスケッチや将来の行動を視覚化する方法に似ています。我々は、GRPOを活用した新しい強化学習フレームワーク「Visual Planning via Reinforcement Learning（VPRL）」を導入し、代表的な視覚ナビゲーションタスク（FrozenLake、Maze、MiniBehavior）における計画の大幅な改善を実現しました。我々の視覚的計画パラダイムは、テキストのみの空間で推論を行う他のすべての計画バリアントを凌駕します。この結果は、視覚的計画が言語ベースの推論に対する有効かつ有望な代替手段であることを示し、直感的な画像ベースの推論を必要とするタスクに新たな道を開くものです。

MMLongBench: 長文脈視覚言語モデルの効果的かつ徹底的なベンチマーキング
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman

大規模視覚言語モデルのコンテキストウィンドウの急速な拡張により、数百枚の画像とテキストトークンを単一のフォワードパスで処理可能な長文脈視覚言語モデル（LCVLM）が登場しました。本研究では、LCVLMを効果的かつ徹底的に評価するため、多様な長文脈視覚言語タスクを網羅した初のベンチマークであるMMLongBenchを紹介します。MMLongBenchは、Visual RAGやMany-Shot ICLなど5つのカテゴリにまたがる13,331の例で構成されており、様々な自然画像や合成画像を含む幅広い画像タイプをカバーしています。異なる入力長に対するモデルの堅牢性を評価するため、視覚パッチとテキストトークンを組み合わせたクロスモーダルトークン化スキームを用いて、全ての例を5つの標準化された入力長（8K-128Kトークン）で提供します。46のクローズドソースおよびオープンソースLCVLMを徹底的にベンチマークし、現在のモデルの視覚言語長文脈能力に関する包括的な分析を提供します。その結果、以下のことが明らかになりました：i）単一タスクの性能は全体的な長文脈能力の弱い代理指標である、ii）クローズドソースとオープンソースのモデル共に長文脈視覚言語タスクで課題に直面しており、今後の大幅な改善の余地がある、iii）推論能力が高いモデルほど長文脈性能が優れる傾向がある。幅広いタスクカバレッジ、様々な画像タイプ、厳密な長さ制御を提供することで、MMLongBenchは次世代LCVLMの診断と進化に欠かせない基盤を提供します。

グループ思考：トークンレベルの粒度で協調する複数の並行推論エージェント
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

May 16

ByChan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu

大規模言語モデル（LLM）の最近の進展は、自己生成された思考の連鎖を通じた推論の力を示しています。複数の推論エージェントが協力することで、個々の結果を超える共同推論の質を高めることが可能です。しかし、このようなエージェントは通常、ターンベースで相互作用し、品質向上のためにレイテンシを犠牲にします。本論文では、Group Thinkを提案します。これは、複数の並行推論エージェント（または思考者）として機能する単一のLLMです。Group Thinkは、互いの部分的な生成進捗を共有することで、トークンレベルで複数の推論軌跡が動的に適応する新しい並行推論パラダイムを導入します。例えば、ある推論スレッドは、別のスレッドが続けるのに適していると検出した場合、文中で生成をシフトすることができます。このきめ細かいトークンレベルの協力により、Group Thinkは冗長な推論を減らし、品質を向上させながら、大幅に低いレイテンシを実現します。さらに、その並行性により、アイドル状態の計算リソースを効率的に利用できるため、非常に小さなバッチサイズがローカルGPUを十分に活用しないエッジ推論に特に適しています。既存のLLMがローカルGPUでGroup Thinkを実行できるようにするためのシンプルで汎用的な修正を提供します。また、推論レイテンシをベンチマークするための評価戦略を提示し、Group Thinkのために明示的に訓練されていないオープンソースのLLMを使用してレイテンシ改善を実証します。この研究が、将来のLLMがより洗練され、効率的な協調行動を示し、より高品質な生成を実現するための道を開くことを期待しています。

シンプルな半教師あり知識蒸留：ビジョン・ランゲージモデルからのデュアルヘッド最適化
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang

視覚言語モデル（VLM）は、最小限のラベル付きデータで豊富なテキスト情報を活用することで、多様なタスクで顕著な成功を収めています。しかし、このような大規模モデルの展開は、特にリソースが制約された環境では依然として課題となっています。知識蒸留（KD）はこの問題に対する確立された解決策を提供しますが、最近のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングが含まれることが多く、計算オーバーヘッドと最適化の複雑さを増大させています。本論文では、texttt{D}ual-texttt{H}ead texttt{O}ptimization（texttt{DHO}）を提案します。これは、半教師あり設定においてVLMからコンパクトでタスク固有のモデルに知識を転送する、シンプルでありながら効果的なKDフレームワークです。具体的には、ラベル付きデータと教師の予測から独立して学習するデュアル予測ヘッドを導入し、推論時にそれらの出力を線形結合することを提案します。DHOは、教師あり信号と蒸留信号の間の勾配衝突を緩和し、シングルヘッドKDベースラインよりも効果的な特徴学習を可能にすることが観察されます。その結果、広範な実験により、DHOが複数のドメインと細粒度データセットにわたって一貫してベースラインを上回ることが示されています。特に、ImageNetでは、1％と10％のラベル付きデータでそれぞれ3％と0.1％の精度向上を達成し、より少ないパラメータを使用しながら最先端の性能を実現しています。

Mergenetic: シンプルな進化モデル統合ライブラリ
Mergenetic: a Simple Evolutionary Model Merging Library

May 16

ByAdrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà

モデルマージングは、既存のモデルの能力を新たなモデルに組み合わせることを可能にします。これは追加のトレーニングを必要とせず、事後的に行うことができます。その低コストと、コンシューマー向けGPUでのマージングをサポートするライブラリの利用可能性により、この手法はますます人気を集めています。最近の研究では、マージングと進化的アルゴリズムを組み合わせることで性能が向上することが示されていますが、言語モデルにおいてそのような戦略を柔軟に実験するためのフレームワークは現在存在しません。我々は、進化的モデルマージングのためのオープンソースライブラリであるMergeneticを紹介します。Mergeneticは、マージング手法と進化的アルゴリズムを容易に組み合わせることができ、評価コストを削減するための軽量な適合度推定器を組み込んでいます。我々はその設計を説明し、Mergeneticが控えめなハードウェアを使用して、タスクや言語を横断して競争力のある結果を生み出すことを実証します。

マルチトークン予測にはレジスタが必要である
Multi-Token Prediction Needs Registers

May 15

ByAnastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis

マルチトークン予測は、言語モデルの事前学習を改善するための有望な目的として注目を集めているが、その利点はファインチューニングなどの他の設定に一貫して一般化されていない。本論文では、MuToRを提案する。これは、入力シーケンスに学習可能なレジスタトークンを交互に挿入し、各トークンが将来のターゲットを予測するタスクを担う、シンプルで効果的なマルチトークン予測手法である。既存の手法と比較して、MuToRはいくつかの重要な利点を提供する：追加されるパラメータ数が無視できるほど少ないこと、アーキテクチャの変更を必要としないため、既存の事前学習済み言語モデルとの互換性を保証すること、そして次のトークン予測という事前学習目的に沿っているため、特に教師ありファインチューニングに適していることである。さらに、スケーラブルな予測期間を自然にサポートする。我々は、言語および視覚領域における挑戦的な生成タスクにおいて、教師ありファインチューニング、パラメータ効率的なファインチューニング（PEFT）、および事前学習を含む幅広いユースケースでMuToRの有効性と汎用性を実証する。我々のコードは、https://github.com/nasosger/MuToR で公開される予定である。

大規模言語モデルを用いたアセンブリコードの性能向上：強化学習によるアプローチ
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

May 16

ByAnjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

大規模言語モデル（LLM）は、幅広いプログラミングタスクにおいて優れた性能を発揮しているが、コード最適化における可能性はまだ十分に探求されていない。本研究では、LLMがアセンブリコードの性能を最適化できるかどうかを調査する。アセンブリコードでは、実行に対するきめ細かい制御が可能であり、高級言語では表現が難しい改善が実現できる。本論文では、Proximal Policy Optimization（PPO）を用いてLLMを訓練する強化学習フレームワークを提案する。このフレームワークでは、テストケースを通じて検証される機能的正確性と、業界標準コンパイラであるgcc -O3に対する実行性能の両方を考慮した報酬関数がガイドとして使用される。本研究を支援するため、8,072の実世界のプログラムからなるベンチマークを導入した。我々のモデル、Qwen2.5-Coder-7B-PPOは、96.0%のテスト合格率と、gcc -O3ベースラインに対して平均1.47倍の高速化を達成し、Claude-3.7-sonnetを含む他の20のモデルを全て上回った。これらの結果は、強化学習がLLMの潜在能力を引き出し、アセンブリコードの性能を効果的に最適化するツールとして活用できることを示している。

MPS-Prover：多視点探索とデータキュレーションによる段階的定理証明の進展
MPS-Prover: Advancing Stepwise Theorem Proving by Multi-Perspective Search and Data Curation

May 16

ByZhenwen Liang, Linfeng Song, Yang Li, Tao Yang, Feng Zhang, Haitao Mi, Dong Yu

形式言語における自動定理証明（Automated Theorem Proving, ATP）は、AI分野において依然として大きな課題であり、厳密な論理的推論と広大な探索空間のナビゲーションを要求します。大規模言語モデル（LLMs）は有望な性能を示していますが、既存の段階的証明器はしばしば偏った探索ガイダンスに悩まされ、非効率性や最適でない証明戦略を引き起こしています。本論文では、これらの制限を克服するために設計された新しい段階的ATPシステムであるMulti-Perspective Search Prover（MPS-Prover）を紹介します。MPS-Proverは、2つの重要な革新を組み込んでいます。1つ目は、性能を損なうことなく冗長なトレーニングデータの約40%を削減する非常に効果的なポストトレーニングデータキュレーション戦略です。2つ目は、多視点木探索メカニズムです。この探索は、学習された批評モデルと戦略的に設計されたヒューリスティックルールを統合し、戦略選択を多様化し、非生産的な状態に陥るのを防ぎ、探索の堅牢性を向上させます。広範な評価により、MPS-ProverがminiF2FやProofNetを含む複数の挑戦的なベンチマークで最先端の性能を達成し、従来の7Bパラメータモデルを上回ることが示されています。さらに、我々の分析により、MPS-Proverが既存の段階的および全体証明法と比較して、大幅に短く多様な証明を生成することが明らかになり、その効率性と有効性が強調されています。我々の研究は、LLMベースの形式的推論の能力を向上させ、より強力な定理証明器を開発するための堅牢なフレームワークと包括的な分析を提供します。

スケーリング推論は大規模言語モデルの事実性を向上させることができる
Scaling Reasoning can Improve Factuality in Large Language Models

May 16

ByMike Zhang, Johannes Bjerva, Russa Biswas

大規模言語モデル（LLM）の推論能力に関する最近の研究では、推論プロセス中に長い思考プロセスと追加の計算リソースを活用することで、特に数学的推論を含むタスクにおいて、モデルの性能が向上することが示されています（Muennighoff et al., 2025）。しかし、数学的コンテキストを超えて、長い推論チェーンが本質的に事実の正確性を向上させるかどうかは依然として不確かです。本研究では、複雑なオープンドメイン質問応答（QA）シナリオにおけるLLMの推論を徹底的に検証します。まず、高度な大規模推論モデル（QwQ-32BおよびDeepSeek-R1-671B）から推論トレースを蒸留し、その後、Qwen2.5ベースの小規模な指示チューニングモデルから大規模アーキテクチャまで、さまざまなモデルを微調整します。推論トレースを充実させるために、知識グラフからの事実情報をパスの形で推論トレースに導入します。実験設定では、4つのベースラインアプローチと6つの異なる指示チューニングモデルを、6つのデータセットにわたる22.6K以上の質問を含むベンチマークで評価します。全体として、168回の実験実行を行い、約170万の推論トレースを分析します。結果として、単一の実行内で、小規模な推論モデルが元の指示チューニングモデルと比較して事実の正確性において顕著な改善を達成することが示されました。さらに、テスト時の計算リソースとトークン予算を追加することで、事実の正確性が一貫して2-8％向上し、オープンドメインQAタスクにおける性能向上と推論精度の向上のためのテスト時スケーリングの有効性が確認されました。今後の研究のために、すべての実験成果物を公開します。

MatTools: 材料科学ツールのための大規模言語モデルのベンチマーキング
MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16

BySiyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen

大規模言語モデル（LLMs）は、文献理解、特性予測、材料発見、合金設計など、材料科学の課題にますます応用されている。同時に、材料特性を計算可能とする多様な物理ベースの計算手法が開発されてきた。本稿では、このような物理ベースの計算材料科学パッケージに基づくコードの生成と安全な実行を通じて、LLMsが材料科学の質問に答える能力を評価するためのベンチマークアプリケーションを提案する。MatToolsは、材料シミュレーションツールの質問応答（QA）ベンチマークと実世界のツール使用ベンチマークという2つの補完的なコンポーネントに基づいて構築されている。我々は、実世界の材料科学ツール使用例を効率的に収集するための自動化手法を設計した。pymatgen（Python Materials Genomics）のコードベースとドキュメントから派生したQAベンチマークは、LLMが材料科学ツールを理解する能力を評価する69,225のQAペアで構成されている。実世界のベンチマークは、材料特性計算のための機能的なPythonコードの生成を必要とする49のタスク（138のサブタスク）を含んでいる。多様なLLMsの評価から得られた3つの重要な知見は以下の通りである：（1）ジェネラリストはスペシャリストを凌駕する；（2）AIはAIを知る；（3）シンプルであることが優れている。MatToolsは、材料科学ツールアプリケーションにおけるLLMの能力を評価し改善するための標準化されたフレームワークを提供し、材料科学および一般的な科学研究のためのより効果的なAIシステムの開発を促進する。

InstanceGen: インスタンスレベル指示による画像生成
InstanceGen: Image Generation with Instance-level Instructions

May 8

ByEtai Sella, Yanir Kleiman, Hadar Averbuch-Elor

生成モデルの能力が急速に進歩しているにもかかわらず、事前学習済みのテキストから画像へのモデルは、複数のオブジェクトやインスタンスレベルの属性を組み合わせた複雑なプロンプトが伝える意味を捉えることに依然として苦戦しています。その結果、このような難しいケースにおいて生成プロセスをより適切に導くために、粗いバウンディングボックスの形で追加の構造的制約を統合することへの関心が高まっています。本研究では、現代の画像生成モデルが直接的に妥当な細粒度の構造的初期化を提供できるという観察に基づいて、構造的ガイダンスのアイデアをさらに一歩進めます。我々は、この画像ベースの構造的ガイダンスとLLMベースのインスタンスレベル指示を組み合わせる技術を提案し、オブジェクトの数、インスタンスレベルの属性、インスタンス間の空間的関係を含むテキストプロンプトのすべての部分に従った出力画像を生成します。

人間は戦略ゲームにおいて、LLM（大規模言語モデル）の対戦相手から合理性と協調性を期待する。
Humans expect rationality and cooperation from LLM opponents in strategic games

May 16

ByDarija Barak, Miguel Costa-Gomes

大規模言語モデル（LLMs）が私たちの社会的・経済的相互作用に統合されるにつれ、戦略的環境において人間がLLMsの対戦相手にどのように反応するかについての理解を深める必要があります。本研究では、人間同士の対戦とLLMsとの対戦における人間の行動の違いを、金銭的インセンティブ付きの制御された実験室実験で初めて検証した結果を提示します。個人レベルでの行動を比較するために、被験者内デザインを採用しました。この環境において、人間の被験者はLLMsと対戦する場合、人間と対戦する場合に比べて有意に低い数字を選択することが明らかになりました。これは主に「ゼロ」ナッシュ均衡選択の増加によって引き起こされています。この変化は、特に戦略的推論能力が高い被験者によって主導されています。ゼロナッシュ均衡選択を行う被験者は、その戦略を、LLMsの推論能力と、予想外にも協調性への傾向に対する認識に基づいて正当化しています。本研究の知見は、同時選択ゲームにおける多人数の人間-LLM相互作用に関する基礎的な洞察を提供し、被験者の行動とLLMsのプレイに対する信念の異質性を明らかにし、人間-LLM混合システムにおけるメカニズムデザインへの重要な示唆を示唆しています。

GIE-Bench: テキスト誘導型画像編集のための接地評価に向けて
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16

ByYusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan

自然言語による指示を用いた画像編集は、視覚的コンテンツを変更するための自然で表現力豊かな方法となっているが、そのようなモデルの性能を評価することは依然として困難である。既存の評価手法は、CLIPのような画像-テキスト類似性メトリクスに依存することが多く、精度に欠ける。本研究では、テキストガイド画像編集モデルをより確実に評価するための新しいベンチマークを導入し、以下の2つの重要な次元に焦点を当てる：(i) 機能的正確性。これは、意図された変更が正しく適用されたかどうかを検証するために自動生成された多肢選択問題を通じて評価される。(ii) 画像内容の保存。これは、オブジェクトを意識したマスキング技術と保存スコアリングを用いて、画像の非ターゲット領域が視覚的に一貫していることを保証する。このベンチマークには、20の多様なコンテンツカテゴリーにわたる1000以上の高品質な編集例が含まれており、それぞれ詳細な編集指示、評価質問、空間的オブジェクトマスクが注釈付けされている。我々は、テキストガイド画像編集分野の最新の旗艦モデルであるGPT-Image-1を、いくつかの最先端編集モデルと比較する大規模な研究を実施し、自動メトリクスを人間の評価に対して検証した。結果は、GPT-Image-1が指示の正確性において優れているものの、無関係な画像領域を過剰に変更することが多いことを示しており、現在のモデル動作における重要なトレードオフを浮き彫りにしている。GIE-Benchは、テキストガイド画像編集のより正確な評価を進めるためのスケーラブルで再現可能なフレームワークを提供する。

不均衡なデータからの高密度な手の接触推定の学習
Learning Dense Hand Contact Estimation from Imbalanced Data

May 16

ByDaniel Sungho Jung, Kyoung Mu Lee

手は人間の相互作用において不可欠であり、手と世界との接触を理解することは、その機能を包括的に理解することを促進します。最近では、物体、他の手、シーン、身体との相互作用をカバーする手の相互作用データセットが増えつつあります。このタスクの重要性と高品質なデータの増加にもかかわらず、密な手の接触推定を効果的に学習する方法はまだ十分に探求されていません。密な手の接触推定を学習するための2つの主要な課題があります。第一に、手の接触データセットにはクラス不均衡の問題が存在し、大多数のサンプルが接触していない状態です。第二に、手の接触データセットには空間的不均衡の問題があり、ほとんどの手の接触が指先に集中しているため、他の手の領域での接触に対する一般化が困難です。これらの問題に対処するため、不均衡なデータから密な手の接触推定（HACO）を学習するフレームワークを提案します。クラス不均衡の問題を解決するために、バランスの取れた接触サンプリングを導入し、接触と非接触のサンプルを公平に代表する複数のサンプリンググループを構築し、そこからサンプリングします。さらに、空間的不均衡の問題に対処するために、頂点レベルのクラスバランス（VCB）損失を提案します。これは、データセット全体での各頂点の接触頻度に基づいて、各頂点の損失寄与を個別に再重み付けすることで、空間的に変化する接触分布を組み込みます。その結果、クラスと空間的不均衡の問題に悩まされることなく、大規模な手の接触データを用いて密な手の接触推定を効果的に学習することができます。コードは公開されます。

顕微鏡におけるセグメンテーションの統一化とマルチモーダル大規模言語モデル
Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16

ByManyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan

生体医用画像における関心領域の正確なセグメンテーションは、画像解析において重要な価値を有する。現在、生体医用セグメンテーションのためのいくつかの基盤モデルが特定のデータセットで優れた性能を達成しているが、未見のドメインデータに対しては通常、最適とは言えない性能を示す。この欠陥は、セグメンテーション前の視覚-言語知識の不足に起因すると考えられる。マルチモーダル大規模言語モデル（MLLMs）は、マルチモーダルタスクに優れた理解と推論能力をもたらし、これにより視覚モデルがクロスドメインデータセットで優れた汎化能力を示すことを可能にする。本論文では、MLLMsを利用してSAMに顕微鏡クロスドメインデータを学習させることを提案し、顕微鏡におけるSegment Anythingを統一するuLLSAMを命名する。具体的には、視覚-言語意味整合（VLSA）モジュールを提案し、Segment Anything Model（SAM）に視覚-言語知識（VLK）を注入する。SAMがグローバルなVLKプロンプトを受信した後、その性能が大幅に向上するが、境界輪郭の知覚に欠陥があることがわかった。そこで、さらに意味境界正則化（SBR）を提案してSAMをプロンプトする。我々の手法は、9つのドメイン内顕微鏡データセットにおいて、Diceで7.71%、SAで12.10%の性能向上を達成し、最先端の性能を実現した。また、10つのドメイン外データセットにおいても、Diceで6.79%、SAで10.08%の改善を示し、強力な汎化能力を発揮した。コードはhttps://github.com/ieellee/uLLSAMで公開されている。

CheXGenBench：合成胸部X線画像の忠実度、プライバシー、有用性を評価する統合ベンチマーク
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

May 15

ByRaman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales

私たちは、合成胸部X線画像生成のための厳密で多面的な評価フレームワークであるCheXGenBenchを紹介します。このフレームワークは、最先端のテキストから画像への生成モデルにおいて、忠実度、プライバシーリスク、臨床的有用性を同時に評価します。現実世界の画像に対する生成AIの急速な進歩にもかかわらず、医療分野の評価は、方法論の不整合、時代遅れのアーキテクチャ比較、そして合成サンプルの実用的な臨床的価値をほとんど考慮しない断片的な評価基準によって妨げられてきました。CheXGenBenchは、標準化されたデータ分割と、生成品質、潜在的なプライバシーの脆弱性、および11の主要なテキストから画像へのアーキテクチャにわたる下流の臨床的適用性を体系的に分析する20以上の定量的メトリクスを含む統一された評価プロトコルを通じて、これらの制限を克服します。私たちの結果は、特に生成忠実度の評価において、既存の評価プロトコルに重大な非効率性があることを明らかにし、一貫性のない情報量の少ない比較を引き起こしています。私たちのフレームワークは、医療AIコミュニティのための標準化されたベンチマークを確立し、客観的で再現可能な比較を可能にするとともに、既存および将来の生成モデルのシームレスな統合を促進します。さらに、私たちは、ベンチマークで最高のパフォーマンスを示したモデル（Sana 0.6B）によって生成された75,000枚のX線画像を含む高品質の合成データセット、SynthCheX-75Kをリリースし、この重要な分野でのさらなる研究を支援します。CheXGenBenchを通じて、私たちは新しい最先端を確立し、フレームワーク、モデル、およびSynthCheX-75Kデータセットをhttps://raman1121.github.io/CheXGenBench/で公開します。

トレードオフからシナジーへ：大規模言語モデルのための汎用共生型透かしフレームワーク
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

May 15

ByYidan Wang, Yubing Ren, Yanan Cao, Binxing Fang

大規模言語モデル（LLMs）の台頭に伴い、AI生成テキストの悪用に対する懸念が高まり、透かし技術が有望な解決策として注目されています。LLMs向けの主流の透かし方式は、ロジットベースとサンプリングベースの2つに大別されます。しかし、現行の方式では、堅牢性、テキスト品質、セキュリティの間でトレードオフが生じています。この問題を緩和するため、我々はロジットベースとサンプリングベースの方式を統合し、それぞれの強みを活かして相乗効果を実現します。本論文では、シリアル、パラレル、ハイブリッドの3つの戦略を備えた汎用的な共生透かしフレームワークを提案します。ハイブリッドフレームワークは、トークンエントロピーと意味的エントロピーを用いて適応的に透かしを埋め込み、検出可能性、堅牢性、テキスト品質、セキュリティのバランスを最適化します。さらに、様々なデータセットとモデルを用いた包括的な実験を通じて、我々のアプローチを検証します。実験結果は、我々の手法が既存のベースラインを上回り、最先端（SOTA）の性能を達成することを示しています。我々は、このフレームワークが多様な透かしパラダイムに対する新たな洞察を提供すると考えています。コードはhttps://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}で公開されています。

ガウシアン事前分布を用いたボーカルエフェクトのスタイル転送における推論時最適化の改善
Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior

May 16

ByChin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas

推論時最適化を用いたスタイル転送（ST-ITO）は、参照音声の効果を生音声トラックに転送するための最近のアプローチである。この手法は、処理された音声と参照音声のスタイル埋め込み間の距離を最小化するために効果パラメータを最適化する。しかし、この方法では全ての可能な設定を均等に扱い、埋め込み空間のみに依存するため、非現実的または偏った結果を招く可能性がある。我々はこの欠点を解決するため、ボーカルプリセットデータセットDiffVoxから導出したガウス事前分布をパラメータ空間に導入する。これにより、最適化は最大事後確率推定と等価となる。MedleyDBデータセットを用いたボーカル効果転送の評価では、ブラインドオーディオ効果推定器、最近傍アプローチ、および未調整のST-ITOと比較して、全ての指標で大幅な改善が見られた。提案する調整により、パラメータの平均二乗誤差は最大33%減少し、参照スタイルとの一致度も向上した。16名の参加者による主観的評価でも、特にデータが限られた状況において、本手法の優位性が確認された。この研究は、推論時に事前知識を組み込むことでオーディオ効果転送が向上し、より効果的で現実的なオーディオ処理システムの道を開くことを示している。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Qwen3 技術レポート
Qwen3 Technical Report

May 14

281

GuardReasoner-VL：強化学習による推論を用いた視覚言語モデルの保護
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

ビジュアルプランニング：画像のみで思考しよう
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

MMLongBench: 長文脈視覚言語モデルの効果的かつ徹底的なベンチマーキング
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman