AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

HuatuoGPT-o1、LLMを用いた医療複雑推論に向けて
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Dec 25

ByJunying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang

107

OpenAI o1のブレークスルーは、推論を強化する可能性を示しており、LLMの改善が期待されます。しかし、推論に関するほとんどの研究は数学的なタスクに焦点を当てており、医学のような領域は未開拓のままです。医学の領域は数学とは異なりますが、医療の高い基準を考慮すると信頼性のある回答を提供するために堅牢な推論が求められます。ただし、数学とは異なり、医学的な推論の検証は困難です。この課題に対処するために、モデルの出力の正確性を確認する医学的な検証者を用いた検証可能な医学問題を提案します。この検証可能な性質により、医学的な推論の進歩が可能となります。具体的には、(1)検証者を使用してLLMの微調整のための複雑な推論経路の検索をガイドし、(2)検証者ベースの報酬を用いた強化学習（RL）を適用して複雑な推論をさらに強化します。最後に、40Kの検証可能な問題のみを使用して、一般的なベースラインおよび医学特化型のベースラインを上回る複雑な推論が可能な医学LLMであるHuatuoGPT-o1を紹介します。実験結果は、複雑な推論が医学的な問題解決を改善し、RLからより多くの利益を得ることを示しています。私たちのアプローチが医学および他の専門領域全般で推論の進歩を促すことを願っています。

1. 5.8ビットのFLUX
1.58-bit FLUX

Dec 24

ByChenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen

1.58 ビット FLUX を提案します。これは、最先端のテキストから画像を生成するモデルである FLUX.1-dev を 1.58 ビットの重み（つまり、{-1, 0, +1} の値）を使用して量子化する初めての成功したアプローチです。このアプローチは、1024 x 1024 の画像を生成する際に、同等の性能を維持します。特筆すべきは、当該の量子化手法は画像データにアクセスせず、FLUX.1-dev モデルからの自己監督に完全に依存して動作します。さらに、1.58 ビットの演算に最適化されたカスタムカーネルを開発し、モデルのストレージを 7.7 倍、推論メモリを 5.1 倍削減し、推論レイテンシを改善します。GenEval および T2I Compbench ベンチマークでの包括的な評価は、1.58 ビット FLUX が生成品質を維持しながら、計算効率を著しく向上させる効果を示しています。

マルチモーダルインテリジェンスに向けた次トークン予測：包括的調査
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Dec 16

ByLiang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang

自然言語処理における言語モデリングの基盤を築いたことから、次トークン予測（NTP）は、さまざまなモダリティにわたる機械学習タスクのための多目的トレーニング目的として進化し、かなりの成功を収めてきました。大規模言語モデル（LLMs）がテキストモダリティ内の理解と生成タスクを統合するにつれ、最近の研究では、異なるモダリティからのタスクもNTPフレームワーク内に効果的にカプセル化できることが示され、多モーダル情報をトークンに変換し、文脈を考慮して次のトークンを予測することが可能です。本調査は、NTPの観点から多モーダル学習内の理解と生成を統一する包括的なタクソノミーを紹介します。提案されたタクソノミーは、多モーダルトークン化、MMNTPモデルアーキテクチャ、統一されたタスク表現、データセット＆評価、およびオープンチャレンジという5つの主要な側面をカバーしています。この新しいタクソノミーは、研究者が多モーダルインテリジェンスの探求を支援することを目的としています。最新の論文やリポジトリを収集した関連するGitHubリポジトリは、https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction で入手可能です。

何でも方向を向ける：3Dモデルのレンダリングから頑健な物体方向推定を学習する
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

Dec 24

ByZehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

オブジェクトの方向は、画像内での空間的な姿勢や配置を理解するために重要な属性です。ただし、単一の画像から正確な方向推定を行うための実用的なソリューションは未だに未開拓の領域です。本研究では、単一および自由視点の画像でオブジェクトの方向を推定するために設計された初の専門的かつ基礎的なモデルである「Orient Anything」を紹介します。ラベル付きデータが不足しているため、3次元世界から知識を抽出することを提案します。3Dオブジェクトの正面を注釈付けし、ランダムな視点から画像をレンダリングするパイプラインを開発することで、正確な方向の注釈が付いた200万枚の画像を収集します。データセットを十分に活用するために、3つの角度の確率分布として3D方向をモデリングし、これらの分布に適合させてオブジェクトの方向を予測する堅牢なトレーニング目的を設計します。さらに、合成から実際の画像への転送を改善するためにいくつかの戦略を採用します。当モデルは、レンダリングされた画像と実際の画像の両方で最先端の方向推定精度を達成し、さまざまなシナリオで印象的なゼロショット能力を示します。さらに重要なことに、当モデルは、複雑な空間概念の理解と生成、および3Dオブジェクトの姿勢調整など、多くのアプリケーションを向上させます。

タスク選好の最適化：ビジョンタスクの整合性を利用したマルチモーダル大規模言語モデルの改善
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Dec 26

ByZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

現在の多様なモーダルを持つ大規模言語モデル（MLLMs）は、視覚の微細な理解に苦労していますが、幅広いビジョンアプリケーションのスペクトルで包括的な知覚と推論を提供しています。最近の研究では、しばしば特定の視覚タスクを自己回帰フレームワークに統合するか、ツールを使用していますが、これはしばしば全体的な多様なモーダルのパフォーマンスを犠牲にしています。この問題に対処し、視覚タスクを拡張可能な方法でMLLMsを強化するために、典型的な微細な視覚タスクから導かれた差分可能なタスク優先度を利用する新しい方法であるタスク優先度最適化（TPO）を提案します。TPOは、学習可能なタスクトークンを導入し、複数のタスク固有のヘッドとMLLMとの間に接続を確立します。トレーニング中に豊富な視覚ラベルを活用することで、TPOはMLLMの多様なモーダル機能とタスク固有のパフォーマンスを大幅に向上させます。TPO内でのマルチタスク共同トレーニングにより、単一タスクトレーニング手法では達成できない個々のタスクのパフォーマンスを向上させる相乗効果が観察されます。VideoChatとLLaVAでこのアプローチを具体化することで、ベースラインモデルと比較して全体的な多様なモーダルのパフォーマンスが14.6％向上することを示します。さらに、MLLM-TPOは、様々なタスクにわたる堅牢なゼロショット機能を示し、最先端の教師付きモデルと同等のパフォーマンスを発揮します。コードはhttps://github.com/OpenGVLab/TPO で公開されます。

要素からデザインへ：自動グラフィックデザインのための階層アプローチ構成
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition

Dec 27

ByJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian

本研究では、複数モーダルのグラフィック要素からの自動設計構成について調査します。最近の研究では、グラフィックデザインのためのさまざまな生成モデルが開発されてきましたが、通常、次の制限に直面しています：特定のサブタスクに焦点を当て、設計構成タスクを達成するには程遠いこと。また、生成プロセス中にグラフィックデザインの階層情報を考慮していません。これらの問題に対処するために、レイヤー設計原則を大規模多モーダルモデル（LMMs）に導入し、この難しいタスクを達成するための新しいアプローチ、LaDeCoを提案します。具体的には、LaDeCoはまず、与えられた要素セットに対してレイヤープランニングを行い、入力要素を内容に応じて異なる意味的レイヤーに分割します。計画結果に基づいて、それぞれのレイヤーにおいて設計構成を制御する要素属性を予測し、以前に生成されたレイヤーのレンダリング画像をコンテキストに含めます。この洞察に基づく設計により、LaDeCoは困難なタスクをより管理しやすいステップに分解し、生成プロセスをスムーズかつ明確にします。実験結果は、LaDeCoの設計構成における効果を示しています。さらに、LaDeCoが解像度調整、要素の充填、デザインの変更など、グラフィックデザインにおけるいくつかの興味深いアプリケーションを可能にし、タスク固有のトレーニングなしに一部のデザインサブタスクで専門モデルを上回ることを示しています。

イトウ密度推定器を用いた拡散モデルの重ね合わせ
The Superposition of Diffusion Models Using the Itô Density Estimator

Dec 23

ByMarta Skreta, Lazar Atanackovic, Avishek Joey Bose, Alexander Tong, Kirill Neklyudov

容易にアクセス可能な事前トレーニング済み拡散モデルのカンブリア爆発は、複数の異なる事前トレーニング済み拡散モデルを組み合わせる方法への需要を示唆していますが、より大きな組み合わせモデルを再トレーニングすることなく、著しい計算負担を負うことなくこれらを組み合わせる方法に対する需要があります。本論文では、提案された新しいフレームワークである「superposition」の下で、生成段階で複数の事前トレーニング済み拡散モデルを組み合わせる問題を取り扱います。理論的には、我々はsuperpositionを厳密な第一原理から導出し、連続方程式から派生したものとし、SuperDiff内で拡散モデルを組み合わせるために特別に設計された2つの新しいアルゴリズムを開発します。SuperDiffは、拡散SDEの対数尤度のための新しいスケーラブルなIt\^o密度推定器を活用し、発散計算に必要なHutchinsonの推定器と比較して追加のオーバーヘッドが発生しません。SuperDiffは、推論中にのみ合成されるため、大規模な事前トレーニング済み拡散モデルにスケーラブルであり、異なる事前トレーニング済みベクトルフィールドを自動的な再重み付けスキームを介して組み合わせることで痛みを伴わず実装できます。特筆すべきは、SuperDiffが推論時に効率的であり、論理ORや論理ANDなどの従来の合成演算子を模倣していることです。我々は、SuperDiffを使用してCIFAR-10上でより多様な画像を生成する有用性、Stable Diffusionを使用したより忠実なプロンプト条件付き画像編集、およびタンパク質の改善された無条件のde novo構造設計のための実用性を経験的に示します。https://github.com/necludov/super-diffusion

ビデオメーカー：ビデオ拡散モデルの固有力を用いたゼロショットカスタマイズビデオ生成
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Dec 27

ByTao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

ゼロショットカスタマイズビデオ生成は、その大きな応用潜在性から注目を集めています。既存の手法は、ゼロショットカスタマイズビデオ生成においてVideo Diffusion Model（VDM）単体では不十分であると仮定し、参照主題の特徴を抽出および注入するための追加モデルに依存しています。しかし、これらの手法はしばしば、最適でない特徴抽出および注入技術により、一貫した主題の外観を維持するのに苦労しています。本論文では、VDM自体が主題の特徴を抽出および注入する力を持っていることを明らかにします。従来のヒューリスティックアプローチから脱却し、VDMの固有の力を活用して高品質のゼロショットカスタマイズビデオ生成を実現する革新的なフレームワークを紹介します。具体的には、特徴抽出において、参照画像を直接VDMに入力し、その固有の特徴抽出プロセスを使用することで、細かい特徴を提供するだけでなく、VDMの事前学習知識と大きく一致します。特徴注入においては、VDM内の空間自己注意を介した主題特徴と生成されたコンテンツとの革新的な双方向相互作用を考案し、VDMが主題の忠実度を向上させながら生成されたビデオの多様性を維持することを確実にします。カスタマイズされた人間およびオブジェクトビデオ生成に関する実験は、当社のフレームワークの効果を検証しています。

事前および事後調整モデルのマージを通じて、LLMの微調整を保護する
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Dec 27

ByHua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee

大規模言語モデル（LLM）を下流タスクに微調整することは広く採用されていますが、安全性に配慮したLLMではしばしば安全性の低下を招きます。現在、多くの解決策がこの問題に取り組んでおり、追加の安全データを組み込むことで対処していますが、多くの場合実用的ではありません。本論文では、追加の安全データに頼らずにLLMの安全性を保ちつつ下流タスクのパフォーマンスを向上させる方法について問題提起します。我々は、事前および事後に微調整された安全性に配慮したモデルの重みを統合することで、LLMの固有の安全性を維持しつつ下流タスクのパフォーマンスを向上させるシンプルかつ効果的な手法を提案します。さまざまな下流タスク、モデル、および統合方法にわたる実験結果は、このアプローチが安全性の低下を効果的に緩和し、下流タスクのパフォーマンスを向上させることを示しており、安全性に配慮したLLMを適応させるための実用的な解決策を提供しています。

CypherBench: LLM時代におけるフルスケールの現代知識グラフに向けた正確な検索に向けて
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Dec 24

ByYanlin Feng, Simone Papicchio, Sajjadur Rahman

グラフデータからの検索は、大規模言語モデル（LLM）にオープンドメインの知識と企業データを拡充する上で重要であり、最近のGraphRAGシステムにおいても重要なコンポーネントとなっています（edge et al.、2024）。知識グラフと知識ベースの質問応答に関する数十年にわたる研究にもかかわらず、主要なLLMフレームワーク（例：LangchainとLlamaIndex）は、Wikidataのような現代の百科事典知識グラフからの検索をほとんどサポートしていません。本論文では、この根本的な原因を分析し、現代のRDF知識グラフ（例：Wikidata、Freebase）が、典型的なLLMコンテキストウィンドウを大幅に超える過剰に大きなスキーマ、リソース識別子の使用、重複する関係タイプ、および正規化の不足のためにLLMにとって効率的でないことを示唆しています。その解決策として、RDFグラフの下に効率的にクエリできるプロパティグラフビューを提案しています。このアイデアをWikidataに実装し、Cypherを使用してLLMが効率的にクエリできるようにしました。私たちはこのアイデアをWikidataで具体化し、11の大規模な多ドメインプロパティグラフと780万以上のエンティティ、1万以上の質問を備えたCypherBenchを導入しました。これを達成するために、RDFからプロパティグラフへの変換エンジンの開発、テキストからCypherタスク生成のための体系的なパイプラインの作成、新しい評価メトリクスの設計など、いくつかの主要な課題に取り組みました。

SBS図: ステージバイステージ合成された画像からの事前トレーニング図QA
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

Dec 23

ByRisa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku

大規模な図形QAデータセットを構築するには、図を収集し選択する作業からテキスト、数字、色などの属性を抽出し、Q&Aを生成する作業まで、かなりの作業量が必要です。最近のLLMの発展により、図形を合成する取り組みが進められていますが、これらのほとんどは主にQA生成に焦点を当てています。さらに、LLMを使用して直接図形を作成する場合、コードエラーや似たような図形、図形内の反復コンテンツなどの問題がしばしば発生します。この問題に対処するために、私たちはSBSFigures（段階的合成図形）を提案します。これは、図形QAの事前トレーニング用のデータセットです。私たちの提案するパイプラインにより、視覚化されたデータの完全な注釈付きのチャート図形と、手作業の注釈プロセスなしで密なQA注釈を作成することが可能となります。段階的なパイプラインにより、コードエラーを最小限に抑えつつ、効率的に多様なトピックや外観の図形を作成することができます。私たちのSBSFiguresは強力な事前トレーニング効果を示し、事前にトレーニングされた重みから始めることで、限られた実世界のチャートデータでも効率的なトレーニングが可能となります。