AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LLMにおける地政学的バイアス：現代の言語モデルが示す「良い」国と「悪い」国
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models

Jun 7

ByMikhail Salnikov, Dmitrii Korzh, Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina

本論文は、LLM（大規模言語モデル）における地政学的バイアスを、対立する国家的視点（米国、英国、旧ソ連、中国）を持つ歴史的事象の解釈を通じて評価する。我々は、中立な事象記述と異なる国々の対照的な視点を含む新規データセットを導入した。その結果、モデルが特定の国家的ナラティブを優先するという顕著な地政学的バイアスが明らかとなった。さらに、単純なバイアス除去プロンプトは、これらのバイアスを軽減する効果が限定的であった。操作された参加者ラベルを用いた実験では、モデルが帰属に対して敏感であり、特にラベルが入れ替わった場合にバイアスを増幅させたり、矛盾を認識したりすることが示された。本研究は、LLMにおける国家的ナラティブのバイアスを浮き彫りにし、単純なバイアス除去手法の有効性に疑問を投げかけ、今後の地政学的バイアス研究のための枠組みとデータセットを提供するものである。

自己回帰的セマンティック視覚再構成がVLMの理解を向上させる
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

Jun 10

ByDianyi Wang, Wei Song, Yikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang

典型的な大規模視覚言語モデル（LVLM）は、テキストシーケンスに対してのみ自己回帰的な教師信号を適用し、視覚モダリティを学習プロセスに完全に組み込んでいない。これにより、以下の3つの主要な制約が生じる：(1) キャプションを伴わない画像を活用できない、(2) キャプションが重要な視覚的詳細を省略するリスクがある、(3) 特定の視覚中心のコンテンツがテキストを通じて適切に伝達されない課題がある。その結果、現在のLVLMは視覚と言語の整合性を優先する一方で、細かな視覚情報を見落とす可能性がある。これまでの研究では自己回帰的な画像生成が探求されてきたが、画像理解を向上させるために自己回帰的な視覚的教師信号を効果的に活用することは未解決の課題である。本論文では、自己回帰的セマンティック視覚再構成（Autoregressive Semantic Visual Reconstruction, ASVR）を提案し、視覚とテキストのモダリティを統一された自己回帰的フレームワーク内で共同学習することを可能にする。我々は、画像の生の視覚的外観を自己回帰的に再構成することがマルチモーダル理解を向上させず、むしろ損なう可能性があることを示す。一方、画像のセマンティック表現を自己回帰的に再構成することは、一貫して理解を向上させる。特に、モデルが連続的な画像特徴を入力として与えられた場合でも、離散的なセマンティックトークンを効果的に再構成でき、幅広いマルチモーダル理解ベンチマークで安定した改善をもたらすことを発見した。我々のアプローチは、さまざまなデータスケール（556k-2M）およびLLMバックボーンのタイプにおいて、顕著な性能向上を実現する。具体的には、ASVRはLLaVA-1.5を14のマルチモーダルベンチマークで平均5％向上させる。コードはhttps://github.com/AlenjandroWang/ASVRで公開されている。

RuleReasoner: ドメイン認識型動的サンプリングによる強化型ルールベース推論
RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

Jun 10

ByYang Liu, Jiaqi Li, Zilong Zheng

ルールベース推論は、推論における基本的な問題の一つとして認識されてきたが、現実世界のアプリケーションにおけるルール形式、タイプ、複雑さの多様性は深刻な課題を提起している。最近の研究では、大規模推論モデル（LRM）が顕著な推論能力を持ち、その性能が強化学習（RL）によって大幅に向上することが示されている。しかし、小規模推論モデル（SRM）が多様なタスクやドメインにわたって堅牢な汎化能力を持ちながら、ルールベース推論を効果的に学習できるかどうかは未解決の問題である。この問題に対処するため、我々は「Reinforced Rule-based Reasoning」（別名RuleReasoner）を提案する。これは、精選された多様なタスクと新しいドメイン認識型動的サンプリングアプローチを用いて、ルールベース推論を行うシンプルかつ効果的な手法である。具体的には、RuleReasonerは、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、各トレーニングバッチを再サンプリングする。これにより、ドメイン拡張と柔軟なオンライン学習スケジュールが促進され、既存手法で必要とされる事前の人間によるミックストレーニングレシピが不要となる。インディストリビューション（ID）およびアウトオブディストリビューション（OOD）ベンチマークでの実証評価では、RuleReasonerが最先端のLRMを大幅に上回る結果を示した（8つのIDタスクで平均4.1%、3つのOODタスクで平均10.4%の差をOpenAI-o1に対して達成）。特に、我々のアプローチは、従来のRL向け動的サンプリング手法と比較しても高い計算効率を示している。

自己強制：自己回帰型ビデオ拡散における訓練-テストギャップの架け橋
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Jun 9

ByXun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman

自己強制（Self Forcing）を導入します。これは、自己回帰型ビデオ拡散モデルのための新しいトレーニングパラダイムです。これにより、グラウンドトゥルースのコンテキストでトレーニングされたモデルが、推論時に自身の不完全な出力に基づいてシーケンスを生成しなければならないという、長年の問題である「エクスポージャーバイアス」に対処します。従来の方法とは異なり、グラウンドトゥルースのコンテキストフレームに基づいて将来のフレームをノイズ除去するのではなく、自己強制は、トレーニング中にキー・バリュー（KV）キャッシュを用いた自己回帰的ロールアウトを実行することで、各フレームの生成を以前に自己生成された出力に基づいて条件付けます。この戦略により、ビデオレベルでの包括的な損失を通じて監督が可能となり、従来のフレーム単位の目的関数に頼るのではなく、生成されたシーケンス全体の品質を直接評価します。トレーニング効率を確保するために、数ステップの拡散モデルと確率的勾配打ち切り戦略を採用し、計算コストとパフォーマンスのバランスを効果的に取ります。さらに、効率的な自己回帰型ビデオ外挿を可能にするローリングKVキャッシュメカニズムを導入します。広範な実験により、私たちのアプローチが、単一のGPU上でサブ秒のレイテンシでリアルタイムのストリーミングビデオ生成を実現し、大幅に遅く非因果的な拡散モデルの生成品質に匹敵するか、それを上回ることが示されています。プロジェクトウェブサイト: http://self-forcing.github.io/

音声を見る：Mirageを用いた音声からのAロール動画生成
Seeing Voices: Generating A-Roll Video from Audio with Mirage

Jun 9

ByAditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter

プロフェッショナルな映画制作からユーザー生成コンテンツまで、クリエイターと消費者は長い間、ビデオの力が「聞こえるもの」（ビデオのオーディオトラック）と「見えるもの」（ビデオの画像シーケンス）の調和のとれた統合に依存していることを認識してきました。現在のビデオ生成アプローチは、一般的な用途ではあるが無音の画像シーケンス生成に焦点を当てて音を無視するか、視覚と音声の両方の要素を扱うが、リダビングなどの限定された応用領域に焦点を当てています。本論文では、オーディオ入力からリアルで表現力豊かな出力画像をゼロから生成するのに優れた、オーディオからビデオへの基盤モデル「Mirage」を紹介します。音声合成（テキストから音声、またはTTS）の既存の手法と統合することで、Mirageは説得力のあるマルチモーダルビデオを実現します。人が話しているオーディオビデオ映像（Aロール）で訓練され、音声を含むオーディオを条件として与えると、Mirageは入力オーディオに含まれるパフォーマンスを信じられる形で解釈して話す人物のビデオを生成します。私たちの中核的な技術的貢献は、スクラッチから、または既存の重みを与えられた状態で、自己注意ベースのオーディオからビデオ生成モデルを訓練するための統一された方法です。この方法論により、Mirageはオーディオからビデオ生成へのアプローチとしての汎用性を維持しつつ、オーディオ固有のアーキテクチャや、人物、音声、または画像やオーディオの捕捉方法の詳細に特化した損失成分を組み込んだ手法よりも優れた主観的品質の出力を生成します。読者には、Mirageの結果を自ら視聴することをお勧めします（リンクは論文とコメントを参照）。

フレームガイダンス：ビデオ拡散モデルにおけるフレームレベル制御のためのトレーニング不要なガイダンス
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Jun 8

BySangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang

拡散モデルの進展により、映像品質が大幅に向上し、細粒度の制御可能性に注目が集まっている。しかしながら、多くの既存手法は特定のタスクに対して大規模な映像モデルのファインチューニングに依存しており、モデルサイズが増大し続ける中でその実用性が低下している。本研究では、キーフレーム、スタイル参照画像、スケッチ、深度マップなどのフレームレベル信号に基づく、トレーニング不要の制御可能な映像生成手法であるFrame Guidanceを提案する。実用的なトレーニング不要のガイダンスを実現するため、メモリ使用量を大幅に削減するシンプルな潜在空間処理手法を提案し、グローバルに一貫性のある映像生成を目的とした新規の潜在空間最適化戦略を適用する。Frame Guidanceは、キーフレームガイダンス、スタイライゼーション、ループ生成など、多様なタスクにわたる効果的な制御を可能にし、いかなる映像モデルとも互換性がある。実験結果から、Frame Guidanceが幅広いタスクと入力信号に対して高品質な制御映像を生成できることが示された。

大規模言語モデルを用いた不等式証明の解法
Solving Inequality Proofs with Large Language Models

Jun 9

ByJiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu

不等式証明は、多様な科学および数学分野において重要な役割を果たし、厳密な境界の発見や戦略的な定理の適用といった高度な推論スキルを試すものである。これにより、大規模言語モデル（LLMs）にとって、一般的な数学的問題解決を超えた洞察を提供する、独特で要求の厳しいフロンティアとなっている。この分野の進展は、既存のデータセットがしばしば不足している、合成的である、または厳密に形式的であることによって妨げられている。我々は、この問題に対処するために、非形式的でありながら検証可能なタスク定式化を提案し、不等式証明を自動的にチェック可能な2つのサブタスク、すなわち境界推定と関係予測に再構築する。これに基づいて、オリンピアドレベルの不等式を含む専門家がキュレートしたデータセットIneqMathを公開し、段階的な解法と定理注釈を充実させたテストセットとトレーニングコーパスを提供する。さらに、最終回答の判定者と、一般的な推論の欠陥を検出するために設計された4つの段階的な判定者を組み合わせた、新しいLLM-as-judge評価フレームワークを開発する。IneqMathにおける29の主要なLLMsの体系的な評価は、驚くべき現実を明らかにする：o1のようなトップモデルでさえ、段階的な精査の下では全体の精度が10%未満であり、これは最終回答の等価性のみを考慮した場合の精度から最大65.5%の低下である。この不一致は、脆弱な演繹的連鎖と、現在のLLMsが単に答えを見つけることと厳密な証明を構築することとの間に存在する重要なギャップを暴露する。モデルサイズの拡大やテスト時の計算量の増加は、全体の証明の正確性において限定的な改善しかもたらさない。代わりに、我々の調査結果は、定理に基づく推論や自己改善といった有望な研究方向性を強調する。コードとデータはhttps://ineqmath.github.io/で利用可能である。

テキスト、画像、および3D構造をトークンごとに整合させる
Aligning Text, Images, and 3D Structure Token-by-Token

Jun 9

ByAadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari

3D空間を理解する機械の開発は、3D環境を構築・編集するデザイナーや、3次元空間内を移動・相互作用するロボットを支援する上で不可欠である。言語および画像モデリングの進展に触発され、我々は新しいモダリティである構造化された3Dシーンに対する自己回帰モデルの可能性を探る。この目的のために、言語、画像、3Dシーンを統合するLLMフレームワークを提案し、最適なトレーニングと性能を達成するための重要な設計選択を詳細に記した「クックブック」を提供する。これには、データ表現、モダリティ固有の目的など、関連する主要な問いに答える内容が含まれる。我々は、レンダリング、認識、指示追従、質問応答という4つのコア3Dタスクと、合成および実世界の4つの3Dデータセットにわたって性能を評価する。さらに、量子化された形状エンコーディングを用いて3Dモダリティを強化し、複雑な3Dオブジェクト形状の再構築にアプローチを拡張し、実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。プロジェクトウェブページ: https://glab-caltech.github.io/kyvo/

飛びつく前に見よ：GUI自動化における術前エラー診断のためのGUI-Critic-R1モデル
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

Jun 5

ByYuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu

近年、マルチモーダル大規模言語モデル（MLLMs）は、グラフィカルユーザーインターフェース（GUI）自動化を含むマルチモーダル推論タスクに広く活用されています。一般的なオフラインのマルチモーダルタスクとは異なり、GUI自動化はオンラインのインタラクティブ環境で実行され、環境のリアルタイムの状態に基づいた段階的な意思決定が必要とされます。このタスクでは、各ステップでの意思決定エラーに対する許容度が低く、いかなるミスもプロセスを累積的に妨げ、削除や支払いなどの取り返しのつかない結果を招く可能性があります。これらの問題に対処するため、我々は事前操作批評メカニズムを導入し、実際の実行前に潜在的な結果とアクションの正しさを推論することで、効果的なフィードバックを提供します。具体的には、Suggestion-aware Gradient Relative Policy Optimization（S-GRPO）戦略を提案し、新たな提案報酬を組み込むことでモデルのフィードバックの信頼性を高めた事前操作批評モデルGUI-Critic-R1を構築します。さらに、推論ブートストラップに基づくデータ収集パイプラインを開発し、GUI-Critic-TrainとGUI-Critic-Testを作成することで、既存のGUI批評データのギャップを埋めます。モバイルとウェブの両ドメインにおけるGUI-Critic-Testでの静的実験により、我々のGUI-Critic-R1が現在のMLLMsと比較して批評精度において顕著な優位性を持つことが明らかになりました。GUI自動化ベンチマークでの動的評価では、成功率と操作効率の向上により、我々のモデルの有効性と優位性がさらに強調されています。

Squeeze3D: あなたの3D生成モデルは極限ニューラル圧縮器としての秘密を持つ
Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

Jun 9

ByRishit Dagli, Yushi Guan, Sankeerth Durvasula, Mohammadreza Mofayezi, Nandita Vijaykumar

我々は、既存の事前学習済み3D生成モデルによって学習された暗黙的な事前知識を活用し、極めて高い圧縮率で3Dデータを圧縮する新しいフレームワークであるSqueeze3Dを提案する。本手法は、事前学習済みエンコーダと事前学習済み生成モデルの潜在空間を、学習可能なマッピングネットワークを介して橋渡しする。メッシュ、ポイントクラウド、またはラディアンスフィールドとして表現された任意の3Dモデルは、まず事前学習済みエンコーダによって符号化され、その後、極めてコンパクトな潜在コードに変換（すなわち圧縮）される。この潜在コードは、メッシュやポイントクラウドの極めて圧縮された表現として効果的に使用できる。マッピングネットワークは、圧縮された潜在コードを強力な生成モデルの潜在空間に変換し、その後、元の3Dモデルを再現するために条件付けられる（すなわち解凍）。Squeeze3Dは、生成された合成データのみで完全に学習され、3Dデータセットを必要としない。Squeeze3Dアーキテクチャは、既存の事前学習済み3Dエンコーダと既存の生成モデルと柔軟に組み合わせて使用できる。メッシュ、ポイントクラウド、ラディアンスフィールドなど、異なるフォーマットを柔軟にサポートする。我々の実験では、Squeeze3Dが、テクスチャ付きメッシュで最大2187倍、ポイントクラウドで55倍、ラディアンスフィールドで619倍の圧縮率を達成し、視覚品質を多くの既存手法と同等に維持することを示した。Squeeze3Dは、オブジェクト固有のネットワークを学習してオブジェクトを圧縮する必要がないため、圧縮および解凍のレイテンシが小さい。

ECoRAG: 長文脈RAGのための証拠性に基づく圧縮
ECoRAG: Evidentiality-guided Compression for Long Context RAG

Jun 5

ByYeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang

大規模言語モデル（LLMs）は、外部文書を活用するRetrieval-Augmented Generation（RAG）を通じて、Open-Domain Question Answering（ODQA）において顕著な性能を示している。RAGのオーバーヘッドを削減するため、長いコンテキストからコンテキスト圧縮が必要とされる。しかし、従来の圧縮手法は非証拠情報のフィルタリングに焦点を当てておらず、これがLLMベースのRAGの性能を制限している。そこで、我々はEvidentiality-guided RAG、すなわちECoRAGフレームワークを提案する。ECoRAGは、証拠性に基づいて検索された文書を圧縮し、回答生成が正しい証拠によって支持されているかどうかを保証することで、LLMの性能を向上させる。追加のステップとして、ECoRAGは圧縮された内容が十分な証拠を提供しているかどうかを反映し、そうでない場合は十分な証拠が得られるまでさらに検索を行う。実験結果は、ECoRAGがODQAタスクにおいてLLMの性能を向上させ、既存の圧縮手法を上回ることを示している。さらに、ECoRAGは非常にコスト効率が高く、レイテンシを削減するだけでなく、正しい回答を生成するために必要な情報のみを保持することでトークン使用量を最小限に抑える。コードはhttps://github.com/ldilab/ECoRAGで公開されている。

Institutional Books 1.0：ハーバード図書館コレクションからの242Bトークンデータセット、精度と有用性を向上させたもの
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability

Jun 10

ByMatteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain

大規模言語モデル（LLMs）は、世界について学び、意味のある相関関係や予測を生成するためにデータを使用します。そのため、これらのモデルを訓練するために使用されるデータセット、または推論時にその作業を支援するデータセットの性質、規模、品質、多様性は、モデルの品質に直接的な影響を及ぼします。品質の異なるLLMsの急速な開発と採用により、公開されている高品質な訓練データの不足が浮き彫りとなり、これらのデータセットの管理を明確なプロヴェナンスチェーンに基づいた持続可能な実践に根ざす必要性が明らかになりました。この目的のために、本技術報告書では、Institutional Books 1.0を紹介します。これは、2006年に始まったハーバード図書館のGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインの書籍の大規模なコレクションです。ハーバード図書館と協力して、これらの書籍を抽出、分析、処理し、歴史的テキストの詳細にわたるデータセットにまとめました。この分析は、ハーバード図書館のコレクション全体をカバーしており、250以上の異なる言語で書かれた1,075,899冊の書籍、総計約2500億トークンに及びます。この初期リリースの一部として、パブリックドメインと特定された983,004冊の書籍（242Bトークン）のOCR抽出テキスト（オリジナルおよび後処理済み）およびメタデータ（書誌情報、ソース、生成されたもの）が公開されています。本報告書では、このプロジェクトの目標と方法、および実施した分析の結果について説明し、この歴史的コレクションを人間と機械の両方にとってよりアクセスしやすく、フィルタリング、読み取り、使用しやすいものにすることを目指しています。

AI生成画像の解釈可能かつ信頼性の高い検出：MLLMにおける根拠に基づく推論
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs

Jun 8

ByYikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang

画像生成技術の急速な進展に伴い、解釈可能で堅牢な検出手法への需要が高まっている。既存のアプローチは高い精度を達成することが多いが、一般的にブラックボックスとして動作し、人間が理解可能な説明を提供しない。マルチモーダル大規模言語モデル（MLLMs）は、偽造検出を当初の目的としていないものの、強力な分析能力と推論能力を示す。適切にファインチューニングを行うことで、AI生成画像を効果的に識別し、意味のある説明を提供することができる。しかし、既存のMLLMsは依然として幻覚（hallucination）に悩まされており、視覚的解釈を実際の画像内容や人間の推論と整合させることができないことが多い。このギャップを埋めるため、合成アーティファクトを強調するバウンディングボックスと記述キャプションで注釈付けされたAI生成画像のデータセットを構築し、人間と整合した視覚的・テキスト的根拠に基づく推論の基盤を確立した。その後、正確な検出、視覚的ローカライゼーション、一貫したテキスト説明の目的を段階的にバランスさせる多段階最適化戦略を通じてMLLMsをファインチューニングした。その結果得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライゼーションの両方において優れた性能を発揮し、ベースライン手法を大幅に上回る結果を示した。

DRAGによる対立検出：検索拡張型LLMにおける矛盾する情報源の検出と対応
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs

Jun 10

ByArie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu

検索拡張生成（Retrieval Augmented Generation, RAG）は、大規模言語モデル（LLMs）に関連性の高い最新の情報を組み込むために広く用いられる手法である。しかし、検索された情報源にはしばしば矛盾する情報が含まれており、モデルがそのような不一致をどのように扱うべきかは未だ明確ではない。本研究では、まずRAGにおける知識衝突のタイプを分類する新たな分類法を提案し、各タイプに対するモデルの望ましい振る舞いを示す。次に、現実的なRAG設定における衝突タイプを専門家が注釈付けた高品質なベンチマーク「CONFLICTS」を紹介する。CONFLICTSは、モデルが多様な知識衝突をどのように扱うかについての進捗を追跡可能にする初のベンチマークである。このベンチマークを用いた広範な実験を行い、LLMsが情報源間の衝突を適切に解決することにしばしば苦戦することを示す。検索された文書内の潜在的な衝突についてLLMsに明示的に推論させることで、応答の質と適切性が大幅に向上するものの、今後の研究において改善の余地が依然として大きいことが明らかとなった。

思考と実行：テスト時の相互作用を拡張することで推論するエージェント
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Jun 9

ByJunhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar

現在のテストタイムスケーリングのパラダイムは、応答を生成する前に長い推論トレース（「より多く考える」）を生成することに依存している。相互作用を必要とするエージェント問題では、これは世界で行動する前に思考トレースを生成することで行うことができる。しかし、このプロセスでは、エージェントが環境から新しい情報を取得したり、時間の経過とともに行動を適応させたりすることはできない。本研究では、テストタイム相互作用をスケーリングすることを提案する。これは、未開拓のテストタイムスケーリングの次元であり、エージェントの相互作用の視野を広げ、単一のロールアウト内で探索、バックトラッキング、動的再計画などの豊かな行動を実行できるようにする。このスケーリング次元の可能性を示すために、ウェブエージェントの領域を研究する。まず、トレーニングなしのプロンプトベースの相互作用スケーリングでも、ウェブベンチマークでのタスク成功率を非自明に向上させることができることを示す。これを基盤として、TTI（Test-Time Interaction）を導入する。これは、カリキュラムベースのオンライン強化学習（RL）アプローチであり、ロールアウトの長さを適応的に調整することでエージェントをトレーニングする。Gemma 3 12Bモデルを使用して、TTIはWebVoyagerおよびWebArenaベンチマークにおいて、オープンソース、オープンデータのウェブエージェントとして最先端の性能を発揮する。さらに、TTIがエージェントに探索と活用を適応的にバランスさせることを可能にすることを示す。我々の結果は、相互作用スケーリングが、ステップごとの計算スケーリングに対する強力な補完的な軸として確立され、適応型エージェントのトレーニングに新たな道を開くことを示している。

Mathesis：自然言語からの形式的定理証明に向けて
Mathesis: Towards Formal Theorem Proving from Natural Languages

Jun 8

ByYu Xuejun, Jianyuan Zhong, Zijin Feng, Pengyi Zhai, Roozbeh Yousefzadeh, Wei Chong Ng, Haoxiong Liu, Ziyi Shou, Jing Xiong, Yudong Zhou, Claudia Beth Ong, Austen Jeremy Sugiarto, Yaoxi Zhang, Wai Ming Tai, Huan Cao, Dongcai Lu, Jiacheng Sun, Qiang Xu, Shen Xin, Zhenguo Li

大規模言語モデルの最近の進展は、形式的推論において強い可能性を示している。しかし、ほとんどのLLMベースの定理証明器は、専門家が作成した形式的なステートメントを入力として必要とするという制約に長らく縛られており、自然言語で表現された現実世界の問題への適用性が限られていた。本研究では、このギャップを埋めるために、非形式的な問題ステートメントを処理する初のエンドツーエンドの定理証明パイプラインであるMathesisを提案する。Mathesisは、自然言語問題の形式化能力を強化するために強化学習を利用した初の自動形式化ツールであるMathesis-Autoformalizerを提供し、これには形式化品質を詳細に評価するための新たなLeanScorerフレームワークが活用されている。また、Mathesis-Proverを提案し、形式化されたステートメントから形式的な証明を生成する。エンドツーエンドの形式的定理証明の現実世界での適用性を評価するために、中国の全国大学入試から抽出された488の複雑な問題からなるベンチマークであるGaokao-Formalを導入した。我々のアプローチは各コンポーネントを徹底的に研究し、慎重に設計されている。実験結果はMathesisの有効性を示しており、自動形式化ツールはGaokao-Formalにおいてベストベースラインを22%上回るパス率を達成した。また、フルシステムは他のモデル組み合わせを上回り、MiniF2Fにおいてpass@32で64%の精度を達成し、Gaokao-Formalでは最先端の18%を記録した。

MoA: 大規模言語モデルのパラメータ効率の良いファインチューニングのためのアダプターの異種混合
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models

Jun 6

ByJie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang

近年の研究では、Low-Rank Adaptation (LoRA) と Mixture-of-Experts (MoE) を統合し、大規模言語モデル (LLM) アプリケーションにおけるパラメータ効率の良いファインチューニング (PEFT) 手法の性能をさらに向上させることが試みられている。既存の手法では、類似または同一の構造と容量を持つ LoRA エキスパートで構成される均質な MoE-LoRA アーキテクチャが採用されている。しかし、これらのアプローチはしばしば表現の崩壊やエキスパートの負荷不均衡を引き起こし、LLM の潜在能力に悪影響を及ぼす。これらの課題に対処するため、我々は異種 Mixture-of-Adapters (MoA) アプローチを提案する。この手法は、多様な構造を持つ PEFT アダプターエキスパートを動的に統合し、それらの補完的な表現能力を活用してエキスパートの専門化を促進し、事前学習された知識の下流タスクへの効果的な転移を向上させる。MoA は2つのバリエーションをサポートする：(i) Soft MoA は、全てのエキスパート出力の重み付き融合を行うことで細かい統合を実現する；(ii) Sparse MoA は、エキスパートの貢献度に基づいてアダプターエキスパートを疎に活性化し、性能の低下をほとんど伴わずにこれを達成する。実験結果は、異種 MoA が均質な MoE-LoRA 手法を性能とパラメータ効率の両面で上回ることを示している。本プロジェクトは https://github.com/DCDmllm/MoA で公開されている。

RKEFino1: 規制知識強化型大規模言語モデル
RKEFino1: A Regulation Knowledge-Enhanced Large Language Model

Jun 6

ByYan Wang, Yueru He, Ruoyu Xiang, Jeff Zhao

大規模言語モデル（LLM）の最近の進展は、金融アプリケーションにおいて大きな可能性を秘めているが、デジタル規制報告（DRR）においては正確性とコンプライアンスの重大な課題を引き起こしている。これらの課題に対処するため、我々はFino1を基盤とし、XBRL、CDM、MOFのドメイン知識でファインチューニングした規制知識強化型金融推論モデルRKEFino1を提案する。我々は、知識ベースと数学的推論の2つのQAタスクを設定し、文と表の両方に含まれる金融エンティティをカバーする新しい数値NERタスクを導入した。実験結果は、RKEFino1がコンプライアンスが重要な金融タスクにおいて有効性と汎化能力を発揮することを示している。我々はこのモデルをHugging Face上で公開した。

DiscoVLA: ビジョン、言語、およびアラインメントにおける不一致低減によるパラメータ効率的なビデオ-テキスト検索
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

Jun 10

ByLeqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding

画像テキスト事前学習モデルCLIPのビデオテキスト検索へのパラメータ効率的な適応は、重要な研究領域である。CLIPは画像レベルの視覚言語マッチングに焦点を当てているが、ビデオテキスト検索ではビデオレベルの包括的な理解が求められる。画像レベルからビデオレベルへの転移において、視覚、言語、およびアラインメントの3つの主要な不一致が生じる。しかし、既存の手法は主に視覚に焦点を当てており、言語とアラインメントを軽視している。本論文では、視覚、言語、およびアラインメントの不一致を同時に軽減するDiscrepancy Reduction in Vision, Language, and Alignment (DiscoVLA)を提案する。具体的には、画像レベルとビデオレベルの特徴を統合するImage-Video Features Fusionを導入し、視覚と言語の不一致を効果的に解決する。さらに、細粒度の画像レベルアラインメントを学習するために、疑似画像キャプションを生成する。アラインメントの不一致を軽減するために、画像レベルのアラインメント知識を活用してビデオレベルのアラインメントを強化するImage-to-Video Alignment Distillationを提案する。広範な実験により、DiscoVLAの優位性が実証された。特に、CLIP (ViT-B/16)を用いたMSRVTTにおいて、DiscoVLAは従来の手法をR@1で1.5%上回り、最終スコアとして50.5% R@1を達成した。コードはhttps://github.com/LunarShen/DsicoVLAで公開されている。

MMRefine: マルチモーダル大規模言語モデルにおける堅牢な精緻化の障害を解明する
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models

Jun 5

ByGio Paik, Geewook Kim, Jinbae Im

本論文では、マルチモーダル大規模言語モデル（MLLMs）の誤り修正能力を評価するためのマルチモーダルリファインメントベンチマーク「MMRefine」を紹介する。推論中の推論能力向上が重視される中、MMRefineは、単に修正前後の最終的な精度を比較するだけでなく、6つの異なるシナリオにわたる誤りの検出と修正能力を評価する枠組みを提供する。さらに、このベンチマークでは、誤りを6つの誤りタイプに分類して修正性能を分析する。様々なオープンおよびクローズドなMLLMsを用いた実験により、修正性能を阻害するボトルネックや要因が明らかとなり、効果的な推論能力向上のための改善点が浮き彫りとなった。我々のコードとデータセットは、https://github.com/naver-ai/MMRefine で公開されている。

QQSUM: レビューベース製品質問応答のための定量的クエリ焦点型要約の新規タスクとモデル
QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering

Jun 4

ByAn Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, Zhuang Li

レビューベースの製品質問応答（PQA）は、eコマースプラットフォームがユーザーレビューから得られた知見を活用して、顧客の質問に自動的に対応することを可能にします。しかし、既存のPQAシステムは単一の視点に基づく回答を生成するため、顧客の多様な意見を捉えることができません。本論文では、多様な顧客の意見を代表的なキーポイント（KP）に要約し、その普及度を定量化することでユーザーの質問に効果的に答えることを目的とした新しいタスク「定量的クエリ焦点型要約（QQSUM）」を提案します。検索拡張生成（RAG）はPQAにおいて有望ですが、生成される回答は依然として視点の完全な多様性を捉えるには至りません。この課題に対処するため、我々のモデルQQSUM-RAGはRAGを拡張し、KP指向の検索器とKP要約生成器を共同で訓練するためのFew-shot学習を採用し、多様で代表的な意見を捉えたKPベースの要約を可能にします。実験結果は、QQSUM-RAGがテキスト品質と意見の定量化精度の両方において、最先端のRAGベースラインを上回る性能を達成することを示しています。ソースコードは以下で公開されています: https://github.com/antangrocket1312/QQSUMM

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LLMにおける地政学的バイアス：現代の言語モデルが示す「良い」国と「悪い」国
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models

Jun 7

ByMikhail Salnikov, Dmitrii Korzh, Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina

自己回帰的セマンティック視覚再構成がVLMの理解を向上させる
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

Jun 10

ByDianyi Wang, Wei Song, Yikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang

RuleReasoner: ドメイン認識型動的サンプリングによる強化型ルールベース推論
RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

Jun 10

ByYang Liu, Jiaqi Li, Zilong Zheng

自己強制：自己回帰型ビデオ拡散における訓練-テストギャップの架け橋
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Jun 9

ByXun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman

音声を見る：Mirageを用いた音声からのAロール動画生成
Seeing Voices: Generating A-Roll Video from Audio with Mirage

Jun 9

フレームガイダンス：ビデオ拡散モデルにおけるフレームレベル制御のためのトレーニング不要なガイダンス
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Jun 8

BySangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang

大規模言語モデルを用いた不等式証明の解法
Solving Inequality Proofs with Large Language Models

Jun 9

ByJiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu

テキスト、画像、および3D構造をトークンごとに整合させる
Aligning Text, Images, and 3D Structure Token-by-Token

Jun 9

ByAadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari

飛びつく前に見よ：GUI自動化における術前エラー診断のためのGUI-Critic-R1モデル
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

Jun 5

ByYuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu

Squeeze3D: あなたの3D生成モデルは極限ニューラル圧縮器としての秘密を持つ
Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

Jun 9

ByRishit Dagli, Yushi Guan, Sankeerth Durvasula, Mohammadreza Mofayezi, Nandita Vijaykumar

ECoRAG: 長文脈RAGのための証拠性に基づく圧縮
ECoRAG: Evidentiality-guided Compression for Long Context RAG

Jun 5

ByYeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang

Institutional Books 1.0：ハーバード図書館コレクションからの242Bトークンデータセット、精度と有用性を向上させたもの
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability

Jun 10

ByMatteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain

AI生成画像の解釈可能かつ信頼性の高い検出：MLLMにおける根拠に基づく推論
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs

Jun 8

ByYikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang

DRAGによる対立検出：検索拡張型LLMにおける矛盾する情報源の検出と対応
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs

Jun 10

ByArie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu

思考と実行：テスト時の相互作用を拡張することで推論するエージェント
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Jun 9

ByJunhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar

Mathesis：自然言語からの形式的定理証明に向けて
Mathesis: Towards Formal Theorem Proving from Natural Languages

Jun 8

MoA: 大規模言語モデルのパラメータ効率の良いファインチューニングのためのアダプターの異種混合
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models

Jun 6

ByJie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang

RKEFino1: 規制知識強化型大規模言語モデル
RKEFino1: A Regulation Knowledge-Enhanced Large Language Model

Jun 6

ByYan Wang, Yueru He, Ruoyu Xiang, Jeff Zhao

DiscoVLA: ビジョン、言語、およびアラインメントにおける不一致低減によるパラメータ効率的なビデオ-テキスト検索
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

Jun 10

ByLeqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding

MMRefine: マルチモーダル大規模言語モデルにおける堅牢な精緻化の障害を解明する
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models

Jun 5

ByGio Paik, Geewook Kim, Jinbae Im

QQSUM: レビューベース製品質問応答のための定量的クエリ焦点型要約の新規タスクとモデル
QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering

Jun 4

ByAn Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, Zhuang Li