翻訳付きの日次キュレーションされたAI研究論文
最先端の視覚言語モデル(VLM)を構築し、強力なキャプション生成能力を実現するためには、通常、数十億の高品質な画像-テキストペアを用いたトレーニングと数百万GPU時間が必要とされます。本論文では、Vision-Language-Vision(VLV)オートエンコーダフレームワークを提案します。このフレームワークは、事前学習済みの主要コンポーネントを戦略的に活用します。具体的には、視覚エンコーダ、Text-to-Image(T2I)拡散モデルのデコーダ、そして大規模言語モデル(LLM)を利用します。特に、事前学習済みのT2I拡散デコーダを凍結することで、言語表現空間を正則化し、情報ボトルネックを確立します。VLVパイプラインは、テキスト条件付き拡散モデルから連続埋め込みを用いて知識を効果的に蒸留し、高品質な再構成を通じて包括的な意味理解を示します。さらに、事前学習済みのLLMを微調整して中間言語表現を詳細な記述にデコードすることで、GPT-4oやGemini 2.0 Flashのような主要モデルに匹敵する最先端のキャプション生成器を構築します。本手法は、優れたコスト効率性を示し、データ要件を大幅に削減します。主に単一モーダルの画像をトレーニングに使用し、既存の事前学習済みモデル(画像エンコーダ、T2I拡散モデル、LLM)の有用性を最大化することで、大規模な画像-テキストペアデータセットの必要性を回避し、総トレーニング費用を1,000米ドル未満に抑えます。
本技術レポートでは、EXAONE 3.5の優れた使いやすさとEXAONE Deepの高度な推論能力を両立するため、非推論モードと推論モードを統合したEXAONE 4.0を紹介します。エージェントAI時代の到来を見据え、EXAONE 4.0はエージェントツールの使用といった重要な機能を組み込み、英語と韓国語に加えてスペイン語もサポートする多言語対応を拡張しました。EXAONE 4.0モデルシリーズは、高性能に最適化されたミッドサイズの32Bモデルと、オンデバイスアプリケーション向けに設計されたスモールサイズの1.2Bモデルの2つのサイズで構成されています。EXAONE 4.0は、同クラスのオープンウェイトモデルと比較して優れた性能を示し、フロンティアクラスのモデルに対しても競争力を維持しています。これらのモデルは研究目的で公開されており、https://huggingface.co/LGAI-EXAONE から簡単にダウンロードできます。
大規模基盤モデルは通常、複数のドメインからのデータを用いて訓練され、そのデータの混合比率(各ドメインの使用割合)はモデルの性能に重要な役割を果たします。この混合比率を選択する標準的なアプローチは試行錯誤に依存しており、大規模な事前学習では非現実的となります。本研究では、スケーリング則を用いて任意のターゲットドメインに対する最適なデータ混合比率を決定する体系的な手法を提案します。このアプローチは、サイズNのモデルをDトークンで訓練し、特定のドメイン重みベクトルhを用いた場合の損失を正確に予測します。我々は、大規模言語モデル(LLM)、ネイティブマルチモーダルモデル(NMM)、および大規模視覚モデル(LVM)の事前学習という3つの異なる大規模設定において、これらのスケーリング則の予測力を実証することで、その普遍性を検証します。さらに、これらのスケーリング則が新しいデータ混合比率やスケールを外挿できることを示します。すなわち、そのパラメータは少数の小規模な訓練実行を用いて正確に推定でき、より大きなスケールや未見のドメイン重みにおける性能を推定するために使用できます。スケーリング則により、与えられた訓練予算(N, D)の下で任意のターゲットドメインに対する最適なドメイン重みを導出することが可能となり、コストのかかる試行錯誤法に代わる原理的な代替手段を提供します。
本論文では、科学文献内の概略図を解釈するモデルの能力を評価するために特別に設計された最初のベンチマークであるMISS-QAを紹介する。MISS-QAは、465の科学論文にわたる1,500の専門家による注釈付き例を含んでいる。このベンチマークでは、モデルは研究の概要を示す概略図を解釈し、論文のより広い文脈に基づいて対応する情報探索質問に答えることを求められる。我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18の最先端マルチモーダル基盤モデルの性能を評価した。MISS-QAにおいて、これらのモデルと人間の専門家との間に大きな性能差があることを明らかにした。回答不能な質問に対するモデルの性能分析と詳細なエラー分析は、現在のモデルの強みと限界をさらに強調し、マルチモーダル科学文献を理解するためのモデルを強化するための重要な洞察を提供する。
大規模言語モデル(LLMs)は、特にマルチエージェントシステムとして組織化された場合に、強力な問題解決能力を示している。しかし、そのようなシステムの出現は、複雑なエージェントネットワークが効果的に自己組織化し、協力する能力に関するいくつかの疑問を提起する。標準的な推論ベンチマークでの性能測定は、マルチエージェントシステムが推論タスクをどの程度うまく解決できるかを示すが、これらのシステムがそのトポロジーを効果的に活用できるかどうかは不明である。ここでは、マルチエージェント推論のための新しいベンチマークであるAgentsNetを提案する。AgentsNetは、分散システムやグラフ理論における古典的な問題からインスピレーションを得て、与えられたネットワークトポロジーの下で、マルチエージェントシステムが問題解決、自己組織化、および効果的なコミュニケーションのための戦略を協力的に形成する能力を測定する。AgentsNetでは、まず基本的な組織化とコミュニケーションのプロトコルに合意する必要がある均質なエージェントネットワークを含む、さまざまなベースライン手法を評価する。その結果、一部の最先端のLLMsは、小規模なネットワークでは既に高い性能を示しているが、ネットワークの規模が拡大すると性能が低下し始めることがわかった。既存のマルチエージェントベンチマークは最大2〜5エージェントをカバーしているが、AgentsNetは実質的にサイズに制限がなく、新しい世代のLLMsとともにスケールすることができる。そのため、最大100エージェントまでのセットアップで最先端モデルを探ることも行った。
推論ベースの大規模言語モデル(LLMs)における最近の進展、特にテスト時のスケーリングを通じた潜在能力は、コード生成と批評における蒸留に重要な機会をもたらしました。しかし、これらの領域における進展は、大規模で高品質なデータセットに根本的に依存しています。本研究では、OpenCodeReasoning-IIを紹介します。このデータセットは250万の質問-解決策-批評のトリプル(約3万5千のユニークなプログラミング質問)で構成されており、これまでに公開されていた最大のコード推論データセットのほぼ2倍の規模です。本研究では、2段階の教師ありファインチューニング戦略を採用しています。第1段階ではコード生成に焦点を当てたファインチューニングを行い、第2段階ではコード生成と批評の両方のモデルを共同でトレーニングします。その結果、ファインチューニングされたQwen2.5-Instructモデルは、コード生成においてこれまでの最良のオープンウェイト蒸留モデルを上回るか同等の性能を達成しました。特に、コード生成モデルと批評モデルの統合により、競技プログラミングのパフォーマンスが大幅に向上しました。さらに、LiveCodeBenchベンチマークを拡張し、C++プログラミング言語を特にサポートすることで、このベンチマークを使用したより包括的なLLM評価を可能にしました。
ビデオからオプティカルフローを抽出することは、依然としてコンピュータビジョンの核心的な課題である。大規模な汎用モデルの成功に触発され、未来フレーム予測のみを目的として訓練された凍結された自己教師ありビデオモデルが、ファインチューニングなしでフローを出力するように促すことができるかどうかを検討する。以前の研究では、ビデオ生成器から深度や照明を読み取るためにファインチューニングが必要であったが、フローではラベルが不足しており、合成データセットはシミュレーションと現実のギャップに悩まされているため、これは実用的ではない。カウンターファクチュアル・ワールドモデル(CWM)パラダイムに着想を得て、次のフレーム予測器に小さなトレーサー摂動を注入し、その伝播を追跡することで点ごとの対応関係を得るというアイデアを、生成型ビデオモデルに拡張する。いくつかの人気のあるアーキテクチャを探索し、この方法でゼロショットのフロー抽出が成功するためには、以下の3つのモデル特性が役立つことを見出した:(1)未来フレームの分布予測(ぼやけたまたはノイズの多い出力を避ける);(2)各時空間パッチを独立に扱う因子化された潜在変数;(3)任意の未来ピクセルのサブセットに条件付けできるランダムアクセスデコーディング。これらの特性は、最近のLocal Random Access Sequence(LRAS)アーキテクチャに独特に存在する。LRASを基盤として、KLトレーシングを提案する:最初のフレームに局所的な摂動を注入し、モデルを1ステップ展開し、摂動された予測分布と摂動されていない予測分布の間のカルバック・ライブラー(KL)ダイバージェンスを計算する新しいテスト時手順である。フロー固有のファインチューニングなしで、我々の手法は実世界のTAP-Vid DAVISデータセット(エンドポイントエラーで16.6%の相対的改善)および合成のTAP-Vid Kubric(4.7%の相対的改善)において、最先端のモデルを上回る。我々の結果は、制御可能な生成型ビデオモデルのカウンターファクチュアルなプロンプティングが、高品質なフローのための教師ありまたはフォトメトリック損失アプローチのスケーラブルで効果的な代替手段であることを示している。
知識グラフ質問応答(KGQA)は、入力グラフ間の構造的および意味的な変異性により、重要な課題を抱えています。既存の研究では、グラフ探索と検索のために大規模言語モデル(LLM)エージェントに依存していますが、このアプローチは探索の初期化に敏感であり、エンティティリンクエラーが発生しやすく、カスタム(「bring-your-own」)KGへの汎化が不十分である可能性があります。私たちは、BYOKG-RAGというフレームワークを導入し、LLMと専門的なグラフ検索ツールを相乗的に組み合わせることでKGQAを強化します。BYOKG-RAGでは、LLMが重要なグラフアーティファクト(質問エンティティ、候補回答、推論パス、OpenCypherクエリ)を生成し、グラフツールがこれらのアーティファクトをKGにリンクして関連するグラフコンテキストを検索します。検索されたコンテキストにより、LLMは最終的な回答生成の前に、グラフリンクと検索を反復的に改善することができます。異なるグラフツールからコンテキストを検索することで、BYOKG-RAGはカスタムKGに対するQAのより一般的で堅牢なソリューションを提供します。多様なKGタイプにわたる5つのベンチマークでの実験を通じて、BYOKG-RAGが2番目に優れたグラフ検索方法を4.5%ポイント上回り、カスタムKGへのより良い汎化を示すことを実証しました。BYOKG-RAGフレームワークは、https://github.com/awslabs/graphrag-toolkit でオープンソースとして公開されています。
オーディオインペインティングとは、破損した音声記録において欠落したセグメントを再構築するタスクを指します。これまでのアプローチ、例えば波形ベースやスペクトログラムベースの拡散モデルは、短いギャップに対して有望な結果を示してきましたが、ギャップが100ミリ秒(ms)を超えると品質が低下する傾向があります。本研究では、事前に訓練されたオーディオトークナイザーによって生成されたトークン化されたオーディオ表現に基づく、離散拡散モデリングを用いた新しいインペインティング手法を提案します。このアプローチは、生成プロセスを離散潜在空間で直接モデル化し、欠落したオーディオの安定した意味的整合性のある再構築を可能にします。本手法をMusicNetデータセットで評価し、ギャップ期間が最大300 msまでの範囲で客観的および知覚的指標を用いて検証しました。さらに、MTGデータセットでも評価を行い、ギャップ期間を500 msまで拡張しました。実験結果は、本手法が既存のベースラインと比較して競争力のある、あるいは優れた性能を達成し、特に長いギャップに対して、劣化した音楽記録を復元するための堅牢なソリューションを提供することを示しています。提案手法のオーディオ例は、https://iftach21.github.io/ で確認できます。
大規模言語モデル(LLMs)は、ソフトウェア開発と自動コード生成を変革してきた。これらの進歩に触発され、本論文では、LLMsを用いてマルウェアのソースコードを改変し、バリアントを生成する可能性を探る。我々は、LLMsによる意味的および構文的なコード理解を活用し、新しいマルウェアバリアントを生成する半自動フレームワーク「LLMalMorph」を提案する。LLMalMorphは、マルウェアのソースコードから関数レベルの情報を抽出し、カスタム設計されたプロンプトと戦略的に定義されたコード変換を組み合わせることで、リソース集約的なファインチューニングなしにLLMを導き、バリアントを生成する。LLMalMorphを評価するため、我々は多様なタイプ、複雑さ、機能を持つ10のWindowsマルウェアサンプルを収集し、618のバリアントを生成した。詳細な実験により、マルウェアの機能を維持しつつ、これらのマルウェアバリアントの検出率をある程度低下させることが可能であることが示された。さらに、機械学習(ML)ベースのマルウェア検出器に対して最適化を行わなかったにもかかわらず、いくつかのバリアントはMLベースのマルウェア分類器に対して顕著な攻撃成功率を達成した。また、ソースコードからマルウェアバリアントを生成する際の現在のLLMの能力の限界について議論し、この新興技術がマルウェアバリアント生成の広範な文脈においてどの位置にあるかを評価する。
現代の人工知能(AI)は、視覚と言語理解を統合したマルチエージェントアーキテクチャにますます依存している。しかし、特にファインチューニングなしのゼロショット設定において、これらのエージェントをどのように信頼できるかという課題が残されている。本研究では、汎用マルチモーダルエージェント、非視覚的推論オーケストレータ、および検索拡張生成(RAG)モジュールを統合した新しいモジュール型エージェントAI視覚分類フレームワークを提案する。リンゴの葉の病気診断に適用し、3つの構成をベンチマークした:(I)信頼度ベースのオーケストレーションを用いたゼロショット、(II)性能が向上したファインチューニング済みエージェント、(III)CLIPベースの画像検索と再評価ループによって強化された信頼度調整オーケストレーション。信頼度調整指標(ECE、OCR、CCC)を使用して、オーケストレータはエージェント間の信頼度を調整する。結果として、信頼度を考慮したオーケストレーションとRAGを使用することで、ゼロショット設定において77.94%の精度向上を達成し、全体で85.63%の精度を実現した。GPT-4oはより良い調整を示した一方、Qwen-2.5-VLは過信を示した。さらに、画像-RAGは視覚的に類似したケースに基づいて予測を接地し、反復的な再評価を通じてエージェントの過信を修正することを可能にした。提案されたシステムは、知覚(視覚エージェント)とメタ推論(オーケストレータ)を分離し、スケーラブルで解釈可能なマルチエージェントAIを実現する。この設計図は、診断、生物学、およびその他の信頼が重要な分野に拡張可能である。すべてのモデル、プロンプト、結果、およびシステムコンポーネント(完全なソフトウェアソースコードを含む)は、再現性、透明性、およびコミュニティベンチマークを支援するためにGithubで公開されている:https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
現実世界のユーザー生成動画、特にTikTokのようなプラットフォームでは、豊かで絡み合ったオーディオビジュアルコンテンツが特徴的です。しかし、既存の動画キャプションベンチマークやモデルは依然として視覚中心であり、シーンのダイナミクス、話者の意図、物語の文脈を伝える上でオーディオが果たす重要な役割を見落としています。このようなオムニモーダルデータセットと軽量で有能なモデルの不足は、細粒度のマルチモーダル動画理解の進展を妨げています。これらの課題に対処するため、我々はUGC-VideoCapを導入します。これは、短編ユーザー生成動画の詳細なオムニモーダルキャプショニングに特化した新しいベンチマークとモデルフレームワークです。従来のデータセットとは異なり、UGC-VideoCapはオーディオと視覚モダリティのバランスの取れた統合を重視し、オーディオのみ、視覚のみ、そしてオーディオビジュアルの統合セマンティクスをカバーする構造化された3段階のヒューマンインザループパイプラインを通じて注釈付けされた1000本のTikTok動画を特徴としています。また、このベンチマークには、ユニモーダルおよびクロスモーダル理解を探る4000の慎重に作成されたQAペアも含まれています。データセットと共に、我々はGemini 2.5 Flashから蒸留された3BパラメータのキャプションモデルであるUGC-VideoCaptioner(3B)を提案します。新しい2段階のトレーニング戦略(教師ありファインチューニングに続くGroup Relative Policy Optimization (GRPO))を使用することで、限られたデータからの効率的な適応を可能にしつつ、競争力のあるパフォーマンスを維持します。我々のベンチマークとモデルは、制約のない現実世界のUGC設定におけるオムニモーダル動画キャプショニングの進展に向けた高品質な基盤とデータ効率の良いソリューションを提供します。
大規模言語モデル(LLMs)は、人間と同様の非合理的な意思決定の系統的傾向である認知バイアスを示す。先行研究では、これらのバイアスがモデル間で異なり、指示チューニングによって増幅されることが明らかになっている。しかし、これらのバイアスの違いが事前学習、ファインチューニング、あるいは学習の確率性に起因するランダムノイズに由来するのかは依然として不明である。本研究では、これらの要因を分離するための二段階の因果実験的アプローチを提案する。まず、異なるランダムシードを用いてモデルを複数回ファインチューニングし、学習のランダム性が30以上の認知バイアスにどのように影響するかを調査する。次に、クロスチューニングを導入し、異なるバイアスパターンを生じさせた指示データセットをモデル間で交換することで、バイアスの源を分離する。この交換は、バイアスがデータセットに依存するかどうかを直接検証するものである。我々の研究結果は、学習のランダム性が一部の変動を引き起こす一方で、バイアスは主に事前学習によって形成されることを明らかにした:同じ事前学習済みバックボーンを持つモデルは、ファインチューニングデータのみを共有するモデルよりも類似したバイアスパターンを示す。これらの知見は、ファインチューニングされたモデルのバイアスを理解するためには、ファインチューニング効果を超えてその事前学習の起源を考慮する必要があることを示唆している。この視点は、LLMsのバイアスを評価し軽減するための原則に基づいた戦略を開発する今後の取り組みを導くことができる。