AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

生成ワールドエクスプローラー
Generative World Explorer

Nov 18

ByTaiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen

部分的な観測を伴う計画は、具体的なAIにおける中心的な課題です。これまでの多くの研究は、エージェントが環境を物理的に探索して世界の状態に関する信念を更新することで、この課題に取り組んできました。一方、人間は心の探索を通じて世界の見えない部分を想像し、想像された観測で信念を修正することができます。これらの更新された信念により、常に世界を物理的に探索する必要なしに、より情報豊かな意思決定が可能となります。この人間らしい能力を実現するために、私たちはGenerative World Explorer（Genex）を導入します。これは、エージェントが大規模な3D世界（例：都市のシーン）を心理的に探索し、想像された観測を取得して信念を更新することができるフレームワークです。この更新された信念は、エージェントが現在の段階でより情報豊かな意思決定を行うのに役立ちます。Genexを訓練するために、我々は合成都市シーンデータセットGenex-DBを作成します。実験結果は、Genexが大規模な仮想物理世界の長期探索中に高品質かつ一貫した観測を生成できること、および生成された観測で更新された信念が既存の意思決定モデル（例：LLMエージェント）により良い計画を立てるのに役立つことを示しています。

BlueLM-V-3B：モバイルデバイス向けのマルチモーダル大規模言語モデルのためのアルゴリズムとシステム共同設計
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

Nov 16

ByXudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li

マルチモーダル大規模言語モデル（MLLMs）の出現と人気の向上は、コミュニケーションの向上から学習や問題解決の促進まで、日常生活のさまざまな側面を向上させる可能性を秘めています。携帯電話は、必須の日常の仲間として、MLLMsを効果的かつアクセスしやすい展開プラットフォームを提供し、日常のタスクにシームレスに統合することを可能にします。ただし、携帯電話にMLLMsを展開することは、メモリサイズや計算能力の制限による課題があり、広範な最適化なしにスムーズでリアルタイムな処理を実現することが困難です。本論文では、モバイルプラットフォームにおけるMLLMsの効率的な展開に特化したアルゴリズムとシステム共同設計アプローチであるBlueLM-V-3Bを提案します。具体的には、主流のMLLMsで採用されている動的解像度スキームを再設計し、モバイル電話でのモデル推論の最適化のためにハードウェアに配慮した展開を実装します。BlueLM-V-3Bには、以下の主なハイライトがあります：（1）小さなサイズ：BlueLM-V-3Bは、2.7Bのパラメータを持つ言語モデルと400Mのパラメータを持つビジョンエンコーダを特徴としています。（2）高速：BlueLM-V-3Bは、4ビットのLLMウェイト量子化を使用してMediaTek Dimensity 9300プロセッサ上で24.4トークン/秒の生成速度を達成しています。（3）高いパフォーマンス：BlueLM-V-3Bは、4B以下のパラメータを持つモデルの中でOpenCompassベンチマークで最高の平均スコア66.1を達成し、MiniCPM-V-2.6、InternVL2-8Bなどのより大きなパラメータサイズを持つ一連のモデルを上回っています。

AnimateAnything：ビデオ生成のための一貫性のある制御可能なアニメーション
AnimateAnything: Consistent and Controllable Animation for Video Generation

Nov 16

ByGuojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu

我々は、異なる条件下での正確かつ一貫したビデオ操作を容易にする統合可能な制御可能ビデオ生成手法である「AnimateAnything」を提案します。具体的には、異なる条件のために共通の動き表現を構築するために、マルチスケール制御特徴融合ネットワークを慎重に設計します。これにより、すべての制御情報をフレームごとの光学フローに明示的に変換します。その後、光学フローを動きの事前情報として取り込み、最終的なビデオ生成をガイドします。さらに、大規模な動きによって引き起こされるフリッカリング問題を軽減するために、周波数ベースの安定化モジュールを提案します。これにより、ビデオの周波数領域の一貫性を確保することで、時間的な整合性を向上させることができます。実験により、当社の手法が最先端のアプローチを上回ることが示されています。詳細やビデオについては、次のウェブページを参照してください：https://yu-shaonian.github.io/Animate_Anything/。

探索、検証、フィードバック：検証エンジニアリングを通じたファウンデーションモデルの次世代の事後トレーニングパラダイムに向けて
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Nov 18

ByXinyan Guan, Yanjiang Liu, Xinyu Lu, Boxi Cao, Ben He, Xianpei Han, Le Sun, Jie Lou, Bowen Yu, Yaojie Lu, Hongyu Lin

機械学習の進化は、強力なモデルの開発とよりスケーラブルな監督信号の重視がますます進んできました。しかし、基盤モデルの出現により、それらの能力をさらに向上させるために必要な効果的な監督信号を提供することには重大な課題があります。その結果、新しい監督信号や技術的アプローチを探求する緊急性があります。本論文では、基盤モデルの時代に特化した新しい事後トレーニングパラダイムである「検証者エンジニアリング」を提案します。検証者エンジニアリングの核心は、自動検証者のスイートを活用して検証タスクを実行し、基盤モデルに意味のあるフィードバックを提供することにあります。我々は、検証者エンジニアリングプロセスを「探索、検証、フィードバック」という3つの重要な段階に体系的に分類し、各段階での最先端の研究動向について包括的なレビューを提供します。検証者エンジニアリングは、人工一般知能を達成するための基本的な途を構成すると考えています。

Top-nσ: すべてのロジットが必要とは限らない
Top-nσ: Not All Logits Are You Need

Nov 12

ByChenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang

大規模言語モデル（LLMs）は通常、貪欲なデコーディングまたは低温度サンプリングを推論タスクに使用し、多様性と精度の間のトレードオフを反映しています。私たちは、統計的な閾値を活用してpre-softmax logits上で直接動作する新しいサンプリング方法であるtop-nsigmaを導入することで、この慣習に挑戦します。私たちの主要な洞察は、logitsが自然にガウス分布のノイズの多い領域と独自の情報のある領域に分離するため、複雑な確率操作なしで効率的なトークンフィルタリングが可能であることです。既存の方法（例：top-p、min-p）が高温度で誤ってより多くのノイズトークンを含むのに対し、top-nsigmaは温度スケーリングに関係なく安定したサンプリング空間を維持します。また、top-nsigmaの理論的分析を提供し、その振る舞いをよりよく理解します。4つの推論に焦点を当てたデータセット全体での幅広い実験結果は、当社の手法が既存のサンプリング手法を凌駕し、貪欲なデコーディングを上回ることを示し、高温度でも一貫した性能を維持していることを示しています。

文書に溺れる：再ランカー推論のスケーリングの影響
Drowning in Documents: Consequences of Scaling Reranker Inference

Nov 18

ByMathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov

再ランカーは、通常、クロスエンコーダーとして知られるものが使用され、初期のIRシステムで取得された文書の再スコアリングを行います。これは、高価ではありますが、再ランカーの方が効果的であると想定されているためです。私たちは、この想定に疑問を投げかけ、再ランカーのパフォーマンスを、最初の段階の再スコアリングだけでなく、完全な検索に対して測定します。私たちの実験から、驚くべき傾向が明らかになりました。最良の既存の再ランカーは、段階的により多くの文書にスコアを付けると収益が減少し、ある限界を超えると実際に品質が低下することがあります。実際、この状況では、再ランカーはしばしばクエリとの語彙的または意味的な重複がない文書に高いスコアを割り当てることがあります。私たちは、これらの研究結果が再ランキングの改善を促すことを期待しています。

FitDiT: 高忠実度仮想試着のための正確な衣服詳細の向上
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on

Nov 15

ByBoyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu

画像ベースの仮想試着はかなり進歩していますが、新興手法は依然として多様なシナリオで高品質かつ堅牢な適合画像を生成する際に課題に直面しています。これらの手法は、しばしばテクスチャに注意を払ったメンテナンスやサイズに注意を払ったフィッティングなどの問題に苦しんでおり、その全体的な効果を妨げています。これらの制限に対処するために、私たちは高品質な仮想試着のために設計された新しい衣類認識強化技術であるFitDiTを提案します。この技術はDiffusion Transformers（DiT）を使用し、高解像度の特徴により多くのパラメータと注意を割り当てます。まず、テクスチャに注意を払ったメンテナンスをさらに向上させるために、衣類テクスチャ抽出器を導入し、衣類事前条件の進化を取り入れて衣類特徴を微調整し、ストライプ、パターン、テキストなどの豊富な詳細をよりよく捉えるのを容易にします。さらに、高周波数の衣類詳細を強化するために、周波数領域学習を導入し、周波数距離損失をカスタマイズします。サイズに注意を払ったフィッティングの問題に対処するために、適切な長さの衣類に適応する拡張緩和マスク戦略を採用し、クロスカテゴリの試着中にマスク領域全体を埋める衣類の生成を防ぎます。上記の設計を備えたFitDiTは、定性的および定量的評価の両方ですべてのベースラインを凌駕しています。この技術は、写実的で複雑な詳細を持つ適合の良い衣類を生成する点で優れており、また、DiT構造の最適化後に1024x768の単一画像に対して4.57秒の競争力のある推論時間を達成し、既存の手法を上回っています。

SlimLM：オンデバイス文書支援用の効率的な小規模言語モデル
SlimLM: An Efficient Small Language Model for On-Device Document Assistance

Nov 15

ByThang M. Pham, Phat T. Nguyen, Seunghyun Yoon, Viet Dac Lai, Franck Dernoncourt, Trung Bui

小規模言語モデル（SLMs）はモバイル展開に有望性を示していますが、スマートフォンでの実世界でのパフォーマンスや応用は未だ未開拓の領域です。本研究では、モバイルデバイス上での文書支援タスクに最適化された一連のSLM、SlimLMを提案します。Samsung Galaxy S24での幅広い実験を通じて、モデルサイズ（125Mから7Bのパラメータまで）、コンテキスト長、推論時間の効率的なオンデバイス処理における最適なトレードオフを特定します。SlimLMはSlimPajama-627Bで事前学習され、要約、質問応答、提案タスク向けに構築された当社のデータセットであるDocAssistでファインチューニングされています。最小のモデルはS24で効率的なパフォーマンスを示し、より大きなバリエーションはモバイルの制約内で強化された機能を提供します。既存のSLMsとSlimLMを評価し、比較可能または優れたパフォーマンスを示し、オンデバイス言語モデルに関する将来の研究のためのベンチマークを提供します。また、SLMの展開に関する実用的な洞察を提供するAndroidアプリケーションも提供しています。我々の研究結果は、高性能スマートフォンでの高度な言語モデルの実行能力を明らかにし、サーバーコストを削減し、オンデバイス処理によるプライバシーの向上を可能にする貴重な洞察を提供しています。

StableV2V: ビデオ間編集における形状の一貫性を安定化する
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Nov 17

ByChang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu

最近の生成AIの進歩は、コンテンツの作成と編集を大幅に促進し、主流の研究はこの興奮を持続可能な進歩に拡張し、さらにビデオ編集にまで進展させています。これらの研究は、主にソースビデオから固有の動きパターンを編集されたビデオに転送し、結果として、ユーザープロンプトとの一貫性に劣る結果がしばしば観察されます。これは、提供された動きと編集されたコンテンツとの特定の整合性の欠如によるものです。この制限に対処するために、本論文では、形状一貫性のあるビデオ編集手法であるStableV2Vを提案します。当該手法は、編集全体の手順をいくつかの連続した手順に分解し、最初のビデオフレームを編集し、次に提供された動きとユーザープロンプトとの整合性を確立し、最終的にそのような整合性に基づいて他のすべてのフレームに編集されたコンテンツを伝播させます。さらに、さまざまな種類のプロンプトや難易度を考慮したビデオ編集の包括的評価のために、DAVIS-Editというテストベンチマークを編纂します。実験結果と分析は、既存の最先端研究と比較して、当該手法の優れた性能、視覚的一貫性、および推論効率を示しています。

Awaker2.5-VL：パラメータ効率の良いエキスパートの混合によるMLLMの安定したスケーリング
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

Nov 16

ByJinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu

マルチモーダル大規模言語モデル（MLLM）の研究が一般的になるにつれて、進化するMLLMモデルは通常、実世界のアプリケーションにおいてさまざまなテキストおよびビジュアルタスク（例：VQA、Detection、OCR、ChartQA）を同時に処理する必要があります。ただし、さまざまなタスクからのデータの表現と分布には大きな違いがあるため、単にすべてのタスクのデータを混合すると、よく知られた「マルチタスクの衝突」問題が発生し、さまざまなタスクで性能が低下します。この問題に対処するために、私たちはAwaker2.5-VLを提案します。これはMLLMに適した専門家の混合（MoE）アーキテクチャであり、複数の疎に活性化された専門家を介してマルチタスクの機能を取得します。Awaker2.5-VLのトレーニングと推論を高速化するために、当モデル内の各専門家は低ランク適応（LoRA）構造として設計されています。複数の最新ベンチマークでの包括的な実験により、Awaker2.5-VLの効果が示されています。コードとモデルの重みは、弊社のプロジェクトページで公開されています：https://github.com/MetabrainAGI/Awaker.

潜在的な好み最適化を通じた適応デコーディング
Adaptive Decoding via Latent Preference Optimization

Nov 14

ByShehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin

言語モデルのデコーディング中、より高い温度のサンプリングを使用すると、より創造的な応答が得られる一方、低い温度では事実に基づいた応答が得られます。しかしながら、このようなモデルは一般的に一定の温度を全ての例やトークンに適用する一般的な指示に従うタスクに使用されます。本研究では、性能を最適化するために、推論時にサンプリング温度をトークンレベルまたは例レベルで動的に選択するためのモデルに追加されるレイヤーである適応デコーディングを紹介します。パラメータを学習するために、我々は潜在的な選好最適化（LPO）を導入し、温度の選択などの離散的な潜在変数を訓練する一般的なアプローチを提案します。UltraFeedback、創造的なストーリー執筆、GSM8Kを含むさまざまな温度が必要なタスクに対して、当社の手法はすべての固定デコーディング温度を上回る性能を発揮します。

SmoothCache: 拡散トランスフォーマーのための汎用推論高速化テクニック
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

Nov 15

ByJoseph Liu, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana

拡散トランスフォーマー（DiT）は、画像、動画、音声合成を含むさまざまなタスクにおいて強力な生成モデルとして台頭しています。ただし、繰り返し評価されるリソース集約型の注意とフィードフォワードモジュールにより、推論プロセスは計算コストが高いままです。この課題に対処するために、DiTアーキテクチャ向けのモデルに依存しない推論加速技術であるSmoothCacheを紹介します。SmoothCacheは、隣接する拡散タイムステップ間での層の出力の高い類似性を活用します。小さなキャリブレーションセットからの層ごとの表現エラーを分析することで、SmoothCacheは推論中にキーとなる特徴を適応的にキャッシュし再利用します。実験では、SmoothCacheがさまざまなモダリティにわたり、生成品質を維持または向上させつつ、8%から71%の高速化を達成することを示しました。画像生成のDiT-XL、テキストから動画へのOpen-Sora、テキストからオーディオへのStable Audio OpenでSmoothCacheの効果を紹介し、強力なDiTモデルのリアルタイムアプリケーションを可能にし、アクセス性を広げる潜在能力を示しました。

LLäMmlein: ゼロからのコンパクトで競争力のあるドイツ語専用言語モデル
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch

Nov 17

ByJan Pfister, Julia Wunderle, Andreas Hotho

私たちは、LL\"aMmlein 120Mと1Bという2つのドイツ語専用のデコーダーモデルをゼロから透明性を持って作成し、ドイツ語のNLP研究コミュニティが利用できるようにトレーニングデータと共に公開しました。モデルのトレーニングには、包括的なデータ前処理、カスタムドイツ語トークナイザーの作成、トレーニング自体、そして最終モデルのさまざまなベンチマークでの評価など、いくつかの重要なステップが含まれていました。トレーニングプロセス全体で、複数のチェックポイントが保存され、SuperGLEBerベンチマークを使用してモデルの学習ダイナミクスを監視するために分析されました。SuperGLEBerベンチマーク上の最先端モデルと比較して、両方のLL\"aMmleinモデルは競争力があり、類似のパラメータサイズを持つモデルと一致するか、それらを上回る結果を一貫して達成しました。結果は、モデルの品質が期待どおりにサイズと比例して向上することを示していますが、一部のタスクでの性能向上が早くに停滞したことから、将来のモデル開発におけるリソース配分に関する貴重な示唆が得られました。

医療に関する質問応答のための検索拡張生成システムの包括的かつ実践的な評価
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering

Nov 14

ByNghia Trung Ngo, Chien Van Nguyen, Franck Dernoncourt, Thien Huu Nguyen

リトリーバル拡張生成（RAG）は、大規模言語モデル（LLMs）の性能を向上させる有望なアプローチとして台頭しており、医療分野などの知識集約的なタスクにおいて特に有用です。ただし、医療分野の機微な性質から、完全に正確で信頼性の高いシステムが必要とされます。既存のRAGベンチマークは、主に標準的な情報検索-回答設定に焦点を当てていますが、信頼性の高い医療システムの重要な側面を測定する多くの実践的シナリオを見落としています。本論文では、これらの状況においてRAG設定で医療問題応答（QA）システムの包括的な評価フレームワークを提供することで、このギャップに対処します。これには、十分性、統合性、および頑健性が含まれます。私たちは、医療リトリーバル拡張生成ベンチマーク（MedRGB）を導入し、4つの医療QAデータセットにさまざまな補足要素を提供して、LLMsがこれらの特定のシナリオを処理する能力をテストします。MedRGBを活用して、商用LLMsとオープンソースモデルの両方について、複数のリトリーバル条件で包括的な評価を実施します。実験結果から、現行モデルが回収された文書のノイズや誤情報を処理する能力に限界があることが明らかになりました。さらに、LLMsの推論プロセスを分析し、この重要な医療分野でのRAGシステムの開発に向けた貴重な示唆と将来の方向性を提供します。

VeGaS: ビデオガウスシアンスプラッティング
VeGaS: Video Gaussian Splatting

Nov 17

ByWeronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek

暗黙のニューラル表現（INRs）は、ニューラルネットワークを使用して離散データを連続関数として近似します。ビデオデータの文脈では、これらのモデルは、ピクセルの座標とフレームの発生時刻（またはインデックス）をRGB色値に変換するために利用できます。INRsは効果的な圧縮を可能にしますが、編集目的には適していません。1つの潜在的な解決策は、Video Gaussian Representation（VGR）などの3Dガウススプラッティング（3DGS）ベースのモデルを使用することです。これは、ビデオを多数の3Dガウス分布としてエンコードでき、編集を含む多数のビデオ処理操作に適用できます。ただし、この場合、変更の容量は限られた基本的な変換セットに制約されます。この問題に対処するために、私たちはVideo Gaussian Splatting（VeGaS）モデルを導入します。これにより、ビデオデータのリアルな変更が可能になります。VeGaSを構築するために、ビデオストリーム内の非線形ダイナミクスを捉えるために設計された新しいフォールデッドガウス分布のファミリーを提案します。また、連続するフレームを2Dガウス分布としてモデル化します。私たちの実験は、VeGaSがフレーム再構築タスクで最先端のソリューションを上回り、ビデオデータのリアルな変更を可能にすることを示しています。コードは次で入手できます：https://github.com/gmum/VeGaS。

AIフィードバックからの学習における「憲法」の役割を評価する
Evaluating the role of `Constitutions' for learning from AI feedback

Nov 15

BySaskia Redgate, Andrew M. Bean, Adam Mahdi

大規模言語モデル（LLMs）の能力向上により、これらは他のLLMsのトレーニングや評価のために人間のフィードバックの代替手段として使用されるようになりました。これらの手法は、評論モデルがフィードバックを提供し、生成物を改善するために使用するガイドラインである「憲法」に頼ることがよくあります。私たちは、医療面談における患者中心のコミュニケーションを向上させるために、4つの異なる憲法を使用して、憲法の選択がフィードバックの質にどのように影響するかを調査しました。215人の人間の評価者による対照的な比較で、詳細な憲法が感情的な質に関してより良い結果をもたらすことがわかりました。しかし、情報収集と提供に関連するより実践的なスキルの学習において、どの憲法もベースラインを上回ることはありませんでした。私たちの調査結果は、詳細な憲法を優先すべきである一方、特定の分野においてAIフィードバックの効果には制限がある可能性があることを示しています。