AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

START: ツールを用いた自己学習型推論システム
START: Self-taught Reasoner with Tools

Mar 6, 2025

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu

1146

OpenAI-o1やDeepSeek-R1のような大規模推論モデル（LRM）は、長い連鎖思考（Chain-of-Thought, CoT）を活用することで、複雑な推論タスクにおいて顕著な能力を発揮してきました。しかし、これらのモデルは内部推論プロセスに依存するため、しばしば幻覚や非効率性に悩まされます。本論文では、外部ツールを活用することで推論能力を大幅に向上させる、新しいツール統合型長CoT推論LLMであるSTART（Self-Taught Reasoner with Tools）を紹介します。STARTは、コード実行を通じて複雑な計算、自己チェック、多様な方法の探索、自己デバッグを可能にし、LRMの限界を克服します。STARTの核心的な革新は、自己学習フレームワークにあり、以下の2つの主要な技術で構成されています：1）Hint-infer：推論プロセス中に人工的に設計されたヒント（例：「待って、ここでPythonを使うのは良いアイデアかもしれない」）を挿入することで、LRMが外部ツールを活用する能力を効果的に刺激し、デモンストレーションデータを必要としないことを示します。Hint-inferはまた、シンプルで効果的な逐次テストタイムスケーリング手法としても機能します。2）Hint Rejection Sampling Fine-Tuning（Hint-RFT）：Hint-RFTは、Hint-inferとRFTを組み合わせ、Hint-inferによって生成されたツール呼び出しを含む推論軌跡をスコアリング、フィルタリング、修正し、その後LRMをファインチューニングします。このフレームワークを通じて、QwQ-32Bモデルをファインチューニングし、STARTを実現しました。PhDレベルの科学QA（GPQA）、競技レベルの数学ベンチマーク（AMC23、AIME24、AIME25）、および競技レベルのコードベンチマーク（LiveCodeBench）において、STARTはそれぞれ63.6%、95.0%、66.7%、47.1%、47.3%の精度を達成しました。これは、ベースのQwQ-32Bを大幅に上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bおよびプロプライエタリモデルo1-Previewに匹敵する性能を実現しています。

マルチモーダルLLMのためのトークン効率の良い長尺動画理解
Token-Efficient Long Video Understanding for Multimodal LLMs

Mar 6, 2025

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon

952

ビデオベースのマルチモーダル大規模言語モデル（Video-LLMs）の最近の進展により、ビデオを画像フレームのシーケンスとして処理することで、ビデオ理解が大幅に向上しました。しかし、多くの既存の手法では、ビジョンバックボーンにおいてフレームを独立して扱い、明示的な時間的モデリングが欠如しているため、動的なパターンを捉えたり、長いビデオを効率的に処理したりする能力が制限されています。これらの制限に対処するため、我々はSTORM（Spatiotemporal TOken Reduction for Multimodal LLMs）を提案します。これは、画像エンコーダとLLMの間に専用の時間エンコーダを組み込んだ新しいアーキテクチャです。我々の時間エンコーダは、Mamba State Space Modelを活用して、画像トークンに時間情報を統合し、ビデオシーケンス全体にわたるフレーム間の動的関係を保持した豊かな表現を生成します。この豊かなエンコーディングは、ビデオ推論能力を向上させるだけでなく、テストタイムサンプリングやトレーニングベースの時間的および空間的プーリングを含む効果的なトークン削減戦略を可能にし、重要な時間情報を犠牲にすることなくLLMの計算負荷を大幅に削減します。これらの技術を統合することで、我々のアプローチは、トレーニングと推論の遅延を同時に削減し、性能を向上させ、長期的な時間的文脈における効率的で堅牢なビデオ理解を実現します。広範な評価により、STORMがさまざまな長いビデオ理解ベンチマーク（MLVUおよびLongVideoBenchで5％以上の改善）で最先端の結果を達成し、入力フレーム数が固定された場合の計算コストを最大8倍、デコード遅延を2.4～2.9倍削減することが示されました。プロジェクトページはhttps://research.nvidia.com/labs/lpr/stormで公開されています。

LLMVoX：任意のLLM向けオートリグレッシブストリーミングテキスト音声合成モデル
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Mar 6, 2025

Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal

695

最近の音声対話システムの進展では、大規模言語モデル（LLM）を活用したマルチモーダルインタラクションが注目されていますが、ファインチューニングの必要性、高い計算コスト、テキストと音声の不一致といった課題が依然として存在しています。既存の音声対応LLMは、LLMを改変することで会話品質が低下し、言語能力が損なわれることが多いです。これに対し、我々はLLMVoXを提案します。これは、軽量な3000万パラメータのLLM非依存型の自己回帰型ストリーミングTTSシステムで、低遅延で高品質な音声を生成しながら、基盤となるLLMの能力を完全に保持します。本手法は、音声対応LLMと比較して大幅に低い単語誤り率を達成し、同等の遅延時間とUTMOSスコアを維持します。マルチキュー型トークンストリーミングシステムにより音声合成とLLM処理を分離することで、LLMVoXはシームレスで無限長の対話をサポートします。また、プラグアンドプレイ設計により、異なるバックボーンを用いた様々なタスクへの拡張が容易です。さらに、LLMVoXはデータセット適応のみで新しい言語に一般化でき、アラビア語音声タスクにおいて低い文字誤り率を達成しています。加えて、LLMVoXを視覚言語モデルと統合し、追加のマルチモーダルトレーニングを必要とせずに、音声、テキスト、視覚の能力を備えたオムニモデルを構築しました。コードベースとプロジェクトページはhttps://mbzuai-oryx.github.io/LLMVoXで公開されています。

EgoLife：エゴセントリック・ライフアシスタントに向けて
EgoLife: Towards Egocentric Life Assistant

Mar 5, 2025

Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu

452

私たちはEgoLifeプロジェクトを紹介します。これは、AI搭載のウェアラブルグラスを通じて個人の効率を向上させるエゴセントリックな生活アシスタントを開発するプロジェクトです。このアシスタントの基盤を築くため、6人の参加者が1週間共同生活を行い、AIグラスを使用して日常活動（ディスカッション、買い物、料理、社交、娯楽など）を継続的に記録する包括的なデータ収集研究を実施しました。これには、マルチモーダルなエゴセントリックビデオキャプチャと同期された第三者視点のビデオ参照も含まれます。この取り組みにより、EgoLifeデータセットが作成されました。これは、300時間に及ぶエゴセントリック、対人関係、マルチビュー、マルチモーダルの日常生活データセットで、詳細なアノテーションが施されています。このデータセットを活用して、EgoLifeQAを導入しました。これは、過去の関連イベントを思い出したり、健康習慣を監視したり、パーソナライズされた推奨事項を提供したりするなど、日常生活で実用的な質問に対応するための長文脈の生活指向型質問応答タスクのスイートです。主要な技術的課題である（1）エゴセントリックデータのための堅牢な視覚-音声モデルの開発、（2）アイデンティティ認識の実現、（3）広範な時間情報にわたる長文脈質問応答の促進に対処するため、EgoButlerを導入しました。これは、EgoGPTとEgoRAGからなる統合システムです。EgoGPTはエゴセントリックデータセットでトレーニングされたオムニモーダルモデルで、エゴセントリックビデオ理解において最先端の性能を達成しています。EgoRAGは、超長文脈の質問に答えるための検索ベースのコンポーネントです。私たちの実験研究は、それらの動作メカニズムを検証し、重要な要因とボトルネックを明らかにし、将来の改善を導きます。データセット、モデル、ベンチマークを公開することで、エゴセントリックAIアシスタントのさらなる研究を促進することを目指しています。

LLMは壊れた電話のよう：反復生成が情報を歪める
LLM as a Broken Telephone: Iterative Generation Distorts Information

Feb 27, 2025

Amr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang

272

大規模言語モデルがオンラインコンテンツの生成において重要な役割を担うにつれ、それらが自らの出力を繰り返し処理することの影響について懸念が高まっている。本研究は、人間の連鎖的コミュニケーションにおける「伝言ゲーム」効果に着想を得て、大規模言語モデルが反復生成を通じて同様に情報を歪めるかどうかを調査する。翻訳を基にした実験を通じて、歪みが時間とともに蓄積され、言語選択や連鎖の複雑さに影響を受けることを明らかにした。劣化は避けられないものの、戦略的なプロンプト技術によって緩和できることが分かった。これらの知見は、AIを介した情報伝播の長期的影響に関する議論に貢献し、反復的なワークフローにおける大規模言語モデル生成コンテンツの信頼性について重要な問いを提起するものである。

LINGOLY-TOO: 言語テンプレート化と表記難読化による記憶と推論の分離
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Mar 4, 2025

Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi

253

大規模言語モデル（LLM）の推論能力を効果的に評価する際、評価ベンチマークのデータ露出による過大評価のリスクが存在します。本研究では、モデルの性能推定における記憶効果を低減する言語的推論問題を生成するフレームワークを提案し、これを応用してLINGOLY-TOOという言語的推論のための挑戦的な評価ベンチマークを開発しました。正書法テンプレートを開発することで、実在する言語の表記体系を動的に難読化し、多数の問題バリエーションを生成します。これらのバリエーションは、各解答に必要な推論ステップを保持しつつ、特定の問題インスタンスがモデルの訓練データに含まれる可能性を低減します。実験の結果、OpenAI o1-previewやDeepSeem R1といった最先端モデルでさえ、高度な推論に苦戦することが明らかになりました。また、LLMは同一問題の順列間で精度に顕著なばらつきを示し、平均的に元の正書法で提示された問題に対してより良い性能を発揮することが分析により示されました。本研究の知見は、LLMの応答生成における不透明性を浮き彫りにし、先行データの露出が最先端モデルの推論能力を過大評価する要因となっていることを示唆しています。

Audio Flamingo 2: 長音声理解と専門的推論能力を備えた音声-言語モデル
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Mar 6, 2025

Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro

242

非音声の音や音楽を理解し、推論することは、人間とAIエージェントが環境と効果的に相互作用するために重要です。本論文では、高度な音声理解と推論能力を備えたAudio-Language Model（ALM）であるAudio Flamingo 2（AF2）を紹介します。AF2は、(i) カスタムCLAPモデル、(ii) 細粒度の音声推論のための合成音声QAデータ、(iii) 多段階のカリキュラム学習戦略を活用しています。AF2は、わずか3Bパラメータの小型言語モデルでありながら、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを凌駕する最先端の性能を達成しています。次に、初めて音声理解を長時間音声セグメント（30秒から5分）に拡張し、長時間音声キャプショニングと質問応答タスクのための大規模で新しいデータセットであるLongAudioを提案します。LongAudioでAF2をファインチューニングすることで、長時間音声理解能力を評価するための専門家による注釈付きベンチマークであるLongAudioBenchで卓越した性能を発揮します。我々のアプローチの有効性を確認するために、広範なアブレーション研究を実施しています。プロジェクトウェブサイト: https://research.nvidia.com/labs/adlr/AF2/。

L^2M: 長文脈言語モデリングのための相互情報量スケーリング則
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

Mar 6, 2025

Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić

212

我々は、自然言語における長距離依存性を支配する二部相互情報量のスケーリング則を厳密に確立する。このスケーリング則は、従来の二点相互情報量とは異なり、独立してスケールすることを示し、長文脈言語モデリングを理解する鍵となる。このスケーリング則を用いて、モデルの有効な長文脈長モデリング能力と、過去情報を格納するための潜在状態サイズのスケーリングを関連付ける長文脈言語モデリング（L^2M）条件を定式化する。我々の結果は、トランスフォーマーと状態空間モデルの両方における実験を通じて検証される。本研究は、大規模言語モデルの開発をより長い文脈長に向けて導く理論的基盤を確立するものである。

IFIR: 専門領域情報検索における指示追従評価のための包括的ベンチマーク
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Mar 6, 2025

Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao

212

我々は、専門分野における指示追従型情報検索（IR）を評価するための初の包括的ベンチマークであるIFIRを紹介する。IFIRは2,426の高品質な事例を含み、金融、法律、医療、科学文献の4つの専門領域にわたる8つのサブセットをカバーしている。各サブセットは、カスタマイズされた指示が重要な現実世界のシナリオを再現し、1つ以上の領域固有の検索タスクに対応している。IFIRは、異なるレベルの複雑さを持つ指示を組み込むことで、指示追従型検索能力の詳細な分析を可能にする。また、指示に従うモデルの性能をより正確かつ信頼性高く評価するために、新しいLLMベースの評価手法を提案する。LLMを含む15の最先端検索モデルを用いた広範な実験を通じて、現在のモデルが複雑で領域固有の指示に効果的に対応する上で重大な課題に直面していることを明らかにした。さらに、これらの制約を強調する詳細な分析を提供し、検索モデルの今後の発展を導くための貴重な洞察を提示する。

HybridNorm：ハイブリッド正規化による安定かつ効率的なTransformerトレーニングの実現に向けて
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

Mar 6, 2025

Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma

208

Transformerは、特に大規模言語モデル（LLM）において、幅広い機械学習タスクのデファクトスタンダードなアーキテクチャとなっています。その優れた性能にもかかわらず、深層Transformerネットワークの訓練には依然として課題が残っており、特にレイヤー正規化の配置に関して問題が指摘されています。Pre-Norm構造は、より顕著な恒等パスにより訓練が容易になる一方で、Post-Normと比較すると性能が劣ることが多いです。本論文では、Pre-NormとPost-Normの両方の利点を統合した、シンプルでありながら効果的なハイブリッド正規化戦略であるHybridNormを提案します。具体的には、HybridNormは、アテンションメカニズム内でQKV正規化を採用し、各Transformerブロックのフィードフォワードネットワーク（FFN）ではPost-Normを使用します。この設計により、訓練が安定するだけでなく、特にLLMの文脈において性能が向上します。密なアーキテクチャと疎なアーキテクチャの両方での包括的な実験により、HybridNormがPre-NormおよびPost-Normアプローチを一貫して上回り、さまざまなベンチマークで最先端の結果を達成することが示されました。これらの結果は、HybridNormが深層Transformerモデルの訓練と性能を改善するためのより安定かつ効果的な技術としての可能性を強調しています。コードはhttps://github.com/BryceZhuo/HybridNormで公開されています。

FuseChat-3.0：選好最適化と異種モデル融合の融合
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Mar 6, 2025

Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan

153

FuseChat-3.0を紹介します。これは、異種のソース大規模言語モデル（LLM）の強みを統合し、よりコンパクトなターゲットLLMに集約したモデル群です。ソースモデルには、強力なGemma-2-27B-it、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct、Llama-3.1-70B-Instructが含まれます。ターゲットモデルとしては、広く使用されている3つの小型バリアント（Llama-3.1-8B-Instruct、Gemma-2-9B-it、Qwen-2.5-7B-Instruct）と、超コンパクトな2つのオプション（Llama-3.2-3B-InstructおよびLlama-3.2-1B-Instruct）に焦点を当てています。これらのソースモデルの多様な能力を活用するため、さまざまなタスクやドメインに特化したデータ構築プロトコルを開発しました。FuseChat-3.0のトレーニングパイプラインは、2つの主要な段階で構成されています：（1）ターゲットモデルとソースモデルの分布を整合させるための教師ありファインチューニング（SFT）、（2）複数のソースLLMからの選好を適用してターゲットモデルを微調整するDirect Preference Optimization（DPO）。結果として得られたFuseChat-3.0モデルは、指示追従、一般知識、数学、コーディングなどのタスクにおいて、大幅な性能向上を示しています。図1に示すように、Llama-3.1-8B-Instructをターゲットモデルとして使用した場合、我々の融合アプローチは14のベンチマークで平均6.8ポイントの改善を達成しました。さらに、指示追従ベンチマークであるAlpacaEval-2とArena-Hardでは、それぞれ37.1ポイントと30.1ポイントの顕著な向上を示しました。コード、モデル、データセットはhttps://github.com/SLIT-AI/FuseChat-3.0で公開されています。

PokéChamp: エキスパートレベルのミニマックス言語エージェント
PokéChamp: an Expert-level Minimax Language Agent

Mar 6, 2025

Seth Karten, Andy Luu Nguyen, Chi Jin

122

我々は、ポケモンバトル用のミニマックスエージェント「Pok\'eChamp」を紹介する。これは大規模言語モデル（LLM）を活用したもので、2人用競技ゲームの汎用フレームワークに基づいて構築されている。Pok\'eChampは、LLMの汎用能力を活用してミニマックス木探索を強化する。具体的には、LLMが3つの主要モジュールを置き換える：(1)プレイヤー行動サンプリング、(2)対戦相手モデリング、(3)価値関数推定。これにより、エージェントはゲームプレイの履歴と人間の知識を効果的に活用して探索空間を縮小し、部分観測性に対処できる。特に、このフレームワークは追加のLLMトレーニングを必要としない。我々はPok\'eChampを人気のGen 9 OUフォーマットで評価した。GPT-4oを搭載した場合、既存の最良のLLMベースのボットに対して76%の勝率を達成し、最強のルールベースのボットに対しては84%の勝率を示し、その優れた性能を実証した。オープンソースの80億パラメータLlama 3.1モデルを使用した場合でも、Pok\'eChampはGPT-4oを搭載した従来の最良のLLMベースボット「Pok\'ellmon」を64%の勝率で一貫して上回った。Pok\'eChampは、Pok\'emon Showdownのオンラインラダーで1300-1500のEloを達成し、人間プレイヤーの上位30%-10%に位置する。さらに、この研究では、300万以上のゲーム（うち50万以上の高Eloマッチを含む）を特徴とする最大の実プレイヤーポケモンバトルデータセットを編纂した。このデータセットに基づいて、特定のバトルスキルを評価するための一連のバトルベンチマークとパズルを確立した。さらに、ローカルゲームエンジンへの重要な更新を提供する。我々は、この研究がポケモンバトルをベンチマークとして活用し、LLM技術とゲーム理論的アルゴリズムを統合して一般的なマルチエージェント問題に対処するさらなる研究を促進することを期待している。動画、コード、データセットはhttps://sites.google.com/view/pokechamp-llmで公開されている。

LLMの潜在変数をどのように制御して幻覚検出を行うか？
How to Steer LLM Latents for Hallucination Detection?

Mar 1, 2025

Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li

112

大規模言語モデル（LLM）における幻覚（Hallucination）は、現実世界での安全な展開において重大な懸念となっています。最近のアプローチでは、幻覚検出のためにLLMの潜在空間を活用していますが、言語的整合性を最適化された埋め込みは、事実の正確さではなく、真実と幻覚の内容を明確に分離することにしばしば失敗します。この問題に対処するため、我々は「真実分離ベクトル（Truthfulness Separator Vector, TSV）」を提案します。TSVは軽量で柔軟なステアリングベクトルであり、推論中にLLMの表現空間を再形成し、モデルのパラメータを変更することなく、真実と幻覚の出力をより明確に分離します。我々の二段階フレームワークでは、まずTSVを少量のラベル付きサンプルでトレーニングし、コンパクトで明確に分離されたクラスターを形成します。その後、ラベルなしのLLM生成データをサンプルセットに追加し、最適輸送ベースのアルゴリズムを用いた擬似ラベリングと信頼度ベースのフィルタリングプロセスを組み合わせます。大規模な実験により、TSVが最小限のラベル付きデータで最先端の性能を達成し、データセット間での強い汎化能力を示し、現実世界のLLMアプリケーションにおける実用的なソリューションを提供することが実証されました。

両者の長所を統合：ビデオ生成のための言語モデルと拡散モデルの融合
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Mar 6, 2025

Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

テキストからビデオ（T2V）生成の最近の進歩は、2つの競合するパラダイムによって推進されています：自己回帰型言語モデルと拡散モデルです。しかし、それぞれのパラダイムには固有の限界があります。言語モデルは視覚品質とエラーの蓄積に苦戦し、拡散モデルは意味理解と因果モデリングに欠けています。本研究では、粗から細かい生成を通じて両パラダイムの強みを相乗的に活用するハイブリッドフレームワークであるLanDiffを提案します。私たちのアーキテクチャは、以下の3つの主要な革新を導入します：(1) 効率的な意味的圧縮を通じて3D視覚的特徴をコンパクトな1D離散表現に圧縮する意味的トークナイザーで、sim14,000倍の圧縮率を達成します；(2) 高レベルの意味的関係を持つ意味的トークンを生成する言語モデル；(3) 粗い意味を高忠実度のビデオに洗練するストリーミング拡散モデル。実験では、5BモデルのLanDiffがVBench T2Vベンチマークで85.43のスコアを達成し、最先端のオープンソースモデルであるHunyuan Video（13B）やSora、Keling、Hailuoなどの商用モデルを凌駕しました。さらに、私たちのモデルは長尺ビデオ生成においても最先端の性能を達成し、この分野の他のオープンソースモデルを上回りました。私たちのデモはhttps://landiff.github.io/でご覧いただけます。

エキスパートの連合：階層型ルーティングを等価分解されたTransformerに適応
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Mar 4, 2025

Yujiao Yang, Jing Lian, Linhui Li

Mixture-of-Experts (MoE) は、計算効率を維持しながらモデルの性能を向上させるため、大規模なアプリケーションに適しています。しかし、既存のMoEパラダイムでは、各エキスパートが個別に動作するため、高品質なエキスパート間の相互作用が欠如しています。さらに、これらはアテンションブロックに効果的に拡張されておらず、さらなる効率改善が制約されています。これらの課題に対処するため、我々はUnion-of-Experts (UoE) を提案します。UoEは、トランスフォーマーを等価なエキスパートグループに分解し、入力データとエキスパートに対して動的ルーティングを実装します。我々のアプローチは、以下の3つの主要な革新によりMoE設計を進化させます：(1) テンソル並列処理における行列分割に基づき、MLPブロックとアテンションブロックの両方で等価なエキスパート分解を実施しました。(2) パッチ単位のデータ選択とエキスパート選択という2つのルーティングパラダイムを開発し、異なるレベルでルーティングを適用します。(3) Selective Multi-Head Attention (SMHA) と Union-of-MLP-Experts (UoME) を含むUoEモデルのアーキテクチャを設計しました。(4) UoEのルーティングと計算操作の並列実装を開発し、ハードウェア処理分析に基づいて効率を最適化しました。実験結果は、UoEを採用したモデルが、画像および自然言語領域の複数のタスクにおいて、Full Attention、最先端のMoE、および効率的なトランスフォーマーを凌駕することを示しています。ソースコードは https://github.com/YujiaoYang-work/UoE で公開されています。

ポスト量子化積分による感度重みの同定
Identifying Sensitive Weights via Post-quantization Integral

Feb 28, 2025

Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen

大規模言語モデル（LLM）の運用はコストがかかります。しかし、学習後の重み量子化は、メモリ制約下でのモデルサイズの圧縮と、高速化のための帯域幅の節約という両面でこの問題を解決できます。全ての重み次元が同等に重要ではないため、これらの手法は通常、感度メトリックに依存します。このメトリックは、損失関数に対する重みの要素ごとの影響を示し、より良い量子化のために元の重みを前処理するために使用されます。本研究では、感度メトリックの精度に関する実証研究を行い、既存の勾配およびヘッシアンベースのメトリックが非常に不正確であることを発見しました。これらは、主にテイラー公式における勾配とヘッシアン項という局所的な2次近似の収束半径が小さいため、量子化の損失関数への影響を桁違いに過小評価しています。この問題を解決するために、我々はPost-quantization Integral（PQI）を提案します。これは、後処理感度を細かく推定する正確なメトリックです。この正確なメトリックを活用するために、さらにReQuantを提案します。これは、自己適応型外れ値選択と段階的な重要重み分離という2つのDense-and-Sparse分離コンポーネントを主に含む、シンプルでありながら強力なフレームワークです。結果は、ReQuantが最先端の学習後量子化手法を大幅に向上させ、Llama 3.2 1BモデルにおいてQTIPを用いて2.66のパープレキシティ改善をもたらすことを示しています。

専用のフィードバックおよび編集モデルにより、オープンエンドな汎用ドメインタスクにおける推論時のスケーリングが可能になる
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Mar 6, 2025

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

推論時のスケーリングは、OpenAI o1やDeepSeek R1などの最近のモデルの成功に不可欠な要素となっています。しかし、推論時のスケーリングのためにモデルを訓練するために使用される多くの技術は、検証可能な回答を持つタスクを必要とするため、数学、コーディング、論理的推論などの領域に限定されています。私たちは、人間が最初の試みを行い、他者から詳細なフィードバックを求め、そのフィードバックに基づいて幅広いオープンエンドの取り組みにおいて改善を行う方法に着想を得ました。この目的のために、私たちはデータを収集し、オープンエンドの一般領域タスクに対して推論時のスケーリングを実行できる専用のフィードバックモデルと編集モデルを訓練します。私たちの設定では、1つのモデルが初期応答を生成し、2つ目のモデルがその応答に対してフィードバックを行い、3つ目のモデルがそのフィードバックを使用して応答を編集します。私たちは、Chatbot Arena Eloを強く予測するベンチマークであるArena Hardのパフォーマンスが、初期応答の草案数、効果的なフィードバック、および編集された応答のスケーリングによって向上することを示します。最適にスケーリングされた場合、Llama 3ファミリーの70Bモデルに基づく私たちの設定は、2025年3月5日時点でArena Hardにおいて92.7のSoTAパフォーマンスに到達し、90.4のOpenAI o1-preview-2024-09-12と92.3のDeepSeek R1を上回ります。

リテラリズムに迷い込む：教師あり学習が大規模言語モデルにおける翻訳調を形成する仕組み
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Mar 6, 2025

Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang

大規模言語モデル（LLM）は機械翻訳において顕著な成功を収め、多様な言語で印象的な性能を発揮しています。しかし、過度に逐語的で不自然な翻訳を特徴とする「翻訳調」は、LLMベースの翻訳システムにおいて依然として根強い課題です。LLMは自然な発話の大規模なコーパスで事前学習されているにもかかわらず、翻訳調のエラーを引き起こし、教師ありファインチューニング（SFT）中に導入されたバイアスに起因する予期せぬ不自然な翻訳を生成します。本研究では、LLMが生成する翻訳における翻訳調の普及度を体系的に評価し、教師あり学習中のその根源を調査します。私たちは、ゴールデンリファレンスの洗練や不自然な訓練インスタンスのフィルタリングを含む、これらのバイアスを軽減する方法を導入します。実証評価により、これらのアプローチが翻訳調を大幅に減少させ、翻訳の自然さを向上させることが示され、人間による評価と自動メトリクスによって検証されました。私たちの知見は、LLM翻訳出力を最適化するための訓練を意識した調整の必要性を強調し、より流暢でターゲット言語に一貫した翻訳への道を開きます。データとコードはhttps://github.com/yafuly/LLM_Translationeseで公開しています。

ベイズ逆問題の効率的な解法のためのフローマッチングとトランスフォーマーの統合
Combining Flow Matching and Transformers for Efficient Solution of Bayesian Inverse Problems

Mar 3, 2025

Daniil Sherki, Ivan Oseledets, Ekaterina Muravleva

ベイズ逆問題を効率的に解決することは、事後分布の複雑さと従来のサンプリング手法の計算コストの高さから、依然として大きな課題となっています。一連の観測値と順モデルが与えられた場合、観測された実験データを条件としたパラメータの分布を復元することが目的です。本論文では、Conditional Flow Matching (CFM) とトランスフォーマーベースのアーキテクチャを組み合わせることで、可変数の観測値を条件としたこの種の分布から効率的にサンプリングできることを示します。

バイリンガル言語モデルにおける共有文法表現の獲得について
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Mar 5, 2025

Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen

クロスリンガル転移は現代の言語モデルの多言語能力にとって重要であるが、その発生メカニズムは十分に理解されていない。本論文では、単一言語モデルが第二言語の訓練を開始した際に何が起こるかを探る。具体的には、各言語のデータ量と言語接触の順序を制御した小規模な二言語モデルを訓練する。共有された多言語表現の証拠を見つけるため、人間の文法表現を研究するために用いられる構造的プライミングという手法を採用する。まず、先行研究のクロスリンガル構造的プライミングの結果を再現し、訓練データ量と言語接触を制御した後、言語ペアと方向性に非対称的な効果が現れることを明らかにする。この非対称性は、人間の構造的プライミング効果に関する仮説を形成する可能性があると論じる。また、類似性の低い言語ペアでは構造的プライミング効果が弱くなることを発見し、類型論的に多様な言語におけるクロスリンガル転移学習と共有表現の潜在的な限界を浮き彫りにする。

GitHubにおける有害な会話の脱線の理解と予測
Understanding and Predicting Derailment in Toxic Conversations on GitHub

Mar 4, 2025

Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski

ソフトウェアプロジェクトは、多様な背景を持つ個人の参加と貢献によって繁栄します。しかし、有害な言語や否定的な相互作用は、貢献者の参加と継続を妨げ、新規参入者を遠ざける可能性があります。積極的なモデレーション戦略は、意図された目的から外れた会話に対処することで、有害性の発生を防ぐことを目指しています。本研究は、GitHub上での会話の脱線が有害性につながるプロセスを理解し、予測することを目的としています。この研究を進めるため、GitHubから202件の有害な会話と、その脱線ポイントを注釈付きで収集した新規データセットを構築しました。また、比較のための696件の非有害な会話も含まれています。このデータセットに基づき、私たちは有害な会話と脱線ポイントの特徴を特定しました。これには、二人称代名詞や否定語、苦々しいフラストレーションや焦りのトーンといった言語的マーカー、およびプロジェクト貢献者と外部参加者間の会話ダイナミクスのパターンが含まれます。これらの実証的観察を活用し、私たちは潜在的に有害な会話をエスカレーションする前に自動的に検出し対処する積極的なモデレーションアプローチを提案します。現代の大規模言語モデル（LLM）を利用して、議論の進化を捉え、脱線の早期兆候を特定する会話軌跡要約技術を開発しました。私たちの実験では、GitHub会話の要約を提供するように調整されたLLMプロンプトが、会話の脱線を予測する際に69%のF1スコアを達成し、一連のベースラインアプローチを大幅に上回ることを示しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

START: ツールを用いた自己学習型推論システム
START: Self-taught Reasoner with Tools

Mar 6, 2025

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu

1146

マルチモーダルLLMのためのトークン効率の良い長尺動画理解
Token-Efficient Long Video Understanding for Multimodal LLMs

Mar 6, 2025

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon

952