AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Paper2Code: 機械学習分野の科学論文からのコード生成の自動化
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Apr 24

ByMinju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang

123

機械学習研究の急速な進展にもかかわらず、対応するコード実装が利用できないことが多く、研究者が結果を再現し、先行研究を基に構築するには時間と労力がかかります。一方で、最近の大規模言語モデル（LLM）は科学文書の理解と高品質なコード生成に優れています。これに着想を得て、我々は機械学習論文を機能的なコードリポジトリに変換するマルチエージェントLLMフレームワークであるPaperCoderを紹介します。PaperCoderは3つの段階で動作します：計画段階では、高レベルのロードマップを構築し、システムアーキテクチャを図示して設計し、ファイル依存関係を特定し、設定ファイルを生成します。分析段階では、実装固有の詳細を解釈することに焦点を当てます。生成段階では、モジュール化され、依存関係を考慮したコードが生成されます。さらに、各段階はパイプライン全体で効果的に協力するように設計された専門エージェントのセットによって実現されます。次に、PaperCoderを機械学習論文からコード実装を生成するタスクで評価します。モデルベースの評価と、特に元論文の著者による人間評価を行い、著者がリリースしたリポジトリを利用可能な場合にはそれをグラウンドトゥルースとして使用します。我々の結果は、PaperCoderが高品質で忠実な実装を作成する上で有効であることを示しています。さらに、最近リリースされたPaperBenchベンチマークにおいても一貫して強みを示し、強力なベースラインを大幅に上回る性能を発揮しています。

Step1X-Edit: 汎用画像編集のための実用的フレームワーク
Step1X-Edit: A Practical Framework for General Image Editing

Apr 24

ByShiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang

近年、画像編集モデルは目覚ましい発展を遂げています。GPT-4oやGemini2 Flashといった最先端のマルチモーダルモデルの登場により、非常に有望な画像編集機能が導入されました。これらのモデルは、ユーザー主導の編集要求の大部分を満たす驚くべき能力を示しており、画像操作の分野において重要な進展を遂げています。しかし、オープンソースのアルゴリズムとこれらのクローズドソースモデルとの間には依然として大きな隔たりがあります。そこで本論文では、GPT-4oやGemini2 Flashのようなクローズドソースモデルに匹敵する性能を提供する、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースすることを目指します。具体的には、マルチモーダルLLMを採用して参照画像とユーザーの編集指示を処理し、潜在埋め込みを抽出して拡散画像デコーダと統合することで、ターゲット画像を取得します。モデルのトレーニングのために、高品質なデータセットを生成するデータ生成パイプラインを構築しました。評価には、実世界のユーザー指示に基づいた新しいベンチマークであるGEdit-Benchを開発しました。GEdit-Benchでの実験結果は、Step1X-Editが既存のオープンソースベースラインを大幅に上回り、主要なプロプライエタリモデルの性能に迫ることを示しており、画像編集分野に大きな貢献を果たしています。

RefVNLI：主題駆動型テキストから画像生成のスケーラブルな評価に向けて
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Apr 24

ByAviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor

主題駆動型テキストから画像（T2I）生成は、与えられたテキスト記述に沿った画像を生成しつつ、参照された主題画像の視覚的同一性を保持することを目的としています。この技術は、画像生成における高度なパーソナライゼーションからビデオレンダリングにおける一貫したキャラクター表現まで、幅広い下流応用が可能であるにもかかわらず、信頼性のある自動評価手法の不足により進展が制限されています。既存の手法は、タスクの一側面（テキスト整合性または主題保持）のみを評価するか、人間の判断と乖離しているか、あるいは高コストなAPIベースの評価に依存しています。この問題を解決するため、我々はRefVNLIを提案します。これは、テキスト整合性と主題保持の両方を単一の予測で評価するコスト効率の高い指標です。ビデオ推論ベンチマークと画像摂動から派生した大規模データセットで訓練されたRefVNLIは、複数のベンチマークと主題カテゴリ（例：動物、物体）において既存のベースラインを上回るか同等の性能を発揮し、テキスト整合性で最大6.4ポイント、主題一貫性で最大8.5ポイントの向上を達成しました。また、あまり知られていない概念においても優れた性能を示し、人間の選好と87%以上の精度で一致しています。

モダリティの壁を打ち破る：マルチモーダルLLMによる普遍的な埋め込み学習
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Apr 24

ByTiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng

コントラスティブ言語-画像事前学習（CLIP）フレームワークは、特に画像-テキスト検索やクラスタリングにおいて、マルチモーダル表現学習の広く使われるアプローチとなっています。しかし、その有効性は3つの主要な制約によって制限されています：(1) テキストトークンの切り捨て、(2) 孤立した画像-テキストエンコーディング、(3) バッグオブワーズの挙動による構成性の欠如。最近のマルチモーダル大規模言語モデル（MLLMs）は、一般化された視覚-言語理解において大きな進歩を示していますが、転移可能なマルチモーダル表現を学習する可能性はまだ十分に探求されていません。本研究では、UniME（Universal Multimodal Embedding）を提案します。これは、MLLMsを活用して多様な下流タスクのための識別可能な表現を学習する新しい2段階フレームワークです。第1段階では、強力なLLMベースの教師モデルからテキストの識別知識を蒸留し、MLLMの言語コンポーネントの埋め込み能力を強化します。第2段階では、ハードネガティブを強化した指示チューニングを導入し、識別表現学習をさらに進めます。具体的には、最初に偽ネガティブの混入を軽減し、次に各バッチ内のインスタンスごとに複数のハードネガティブをサンプリングし、モデルに難しいサンプルに集中させるようにします。このアプローチは、識別力を向上させるだけでなく、下流タスクにおける指示追従能力も強化します。MMEBベンチマークおよび短いキャプション検索、長いキャプション検索、構成検索を含む複数の検索タスクで広範な実験を行いました。結果は、UniMEがすべてのタスクで一貫した性能向上を達成し、優れた識別能力と構成能力を示すことを実証しています。

視覚言語モデルにおける視点認識推論：メンタルイメージシミュレーションを通じて
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Apr 24

ByPhillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung

我々は、メンタルイメージシミュレーションを通じた視覚言語モデル（VLM）における視点認識推論のフレームワークを提案する。視点取得（perspective-taking）、すなわち環境や状況を別の視点から認識する能力は、環境との相互作用や自律エージェントとの協働に不可欠な、人間レベルの視覚理解の重要な指標である。VLMにおける空間推論の進展にもかかわらず、最近の研究では、現代のVLMが視点認識推論能力を著しく欠いており、自己中心的解釈への強いバイアスを示すことが明らかになっている。VLMと人間の知覚のギャップを埋めるため、我々はメンタルイメージの役割に着目する。人間は、視点の変化を容易にする抽象化された表現を通じて世界を認識する。この動機に基づき、我々はAbstract Perspective Change（APC）と名付けた視点認識推論のフレームワークを提案する。このフレームワークは、物体検出、セグメンテーション、方向推定などの視覚基盤モデルを効果的に活用し、シーンの抽象化を構築し、視点変換を可能にする。合成および実画像ベンチマークにおける実験では、様々なVLMと比較して、我々のフレームワークが視点認識推論において大幅な改善を示し、ファインチューニングされた空間推論モデルや新視点合成ベースのアプローチをさらに上回る結果を得た。

DiMeR: 分離型メッシュ再構成モデル
DiMeR: Disentangled Mesh Reconstruction Model

Apr 24

ByLutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen

大規模な3Dデータセットの登場に伴い、Large Reconstruction Model（LRM）のようなフィードフォワード型の3D生成モデルが注目を集め、顕著な成功を収めています。しかし、RGB画像はしばしばトレーニング目標の衝突を引き起こし、ジオメトリ再構築に必要な明確さを欠いていることが観察されます。本論文では、メッシュ再構築に関連する帰納的バイアスを再検討し、疎視点メッシュ再構築のための新しい分離型デュアルストリームフィードフォワードモデルであるDiMeRを提案します。鍵となるアイデアは、入力とフレームワークの両方をジオメトリとテクスチャの部分に分離し、オッカムの剃刀の原則に従って各部分のトレーニング難易度を低減することです。法線マップはジオメトリと厳密に一致し、表面の変動を正確に捉えるため、ジオメトリブランチの入力として法線マップを排他的に使用し、ネットワークの入力と出力の間の複雑さを低減します。さらに、メッシュ抽出アルゴリズムを改善して3Dグラウンドトゥルースの監視を導入します。テクスチャブランチについては、RGB画像を入力として使用し、テクスチャ付きメッシュを取得します。全体として、DiMeRは疎視点再構築、単一画像から3Dへの変換、テキストから3Dへの変換など、さまざまなタスクにおいて堅牢な能力を発揮します。多数の実験により、DiMeRが従来の手法を大幅に上回り、GSOおよびOmniObject3DデータセットにおいてChamfer Distanceで30％以上の改善を達成することが示されています。

Token-Shuffle: 自己回帰モデルによる高解像度画像生成に向けて
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Apr 24

ByXu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu

オートリグレッシブ（AR）モデルは、長らく言語生成の分野で支配的であったが、最近では画像合成にも応用されるようになってきている。しかし、ARモデルは拡散モデル（Diffusion-based models）に比べて競争力が低いとされることが多い。その主な制約は、ARモデルが大量の画像トークンを必要とすることであり、これが学習と推論の効率、および画像解像度を制限している。この問題を解決するため、我々はTransformerにおける画像トークンの数を削減する新しいシンプルな手法、Token-Shuffleを提案する。我々の重要な洞察は、マルチモーダル大規模言語モデル（MLLMs）における視覚語彙の次元冗長性であり、視覚エンコーダからの低次元の視覚コードが高次元の言語語彙に直接マッピングされる点である。これを活用し、我々は2つの主要な操作を考案した：トークンシャッフル（token-shuffle）は、空間的に近接したトークンをチャネル次元に沿って統合し、入力トークン数を減少させる。トークンアンシャッフル（token-unshuffle）は、Transformerブロック後の推論されたトークンを解きほぐし、出力のための空間配置を復元する。テキストプロンプトと共に共同学習を行うことで、我々の戦略は追加の事前学習済みテキストエンコーダを必要とせず、MLLMsが効率的な学習と推論を維持しながら、統一された次トークン予測方式で極めて高解像度の画像合成をサポートすることを可能にする。我々は初めて、ARテキスト画像生成の限界を2048x2048の解像度に押し上げ、満足のいく生成性能を達成した。GenAIベンチマークにおいて、我々の2.7Bモデルはハードプロンプトで0.77の総合スコアを達成し、ARモデルのLlamaGenを0.18、拡散モデルのLDMを0.15上回った。大規模な人間評価も、テキスト整合性、視覚的欠陥、視覚的外観の点で我々の優れた画像生成能力を示している。我々は、Token-ShuffleがMLLMs内での効率的な高解像度画像生成の基礎設計として役立つことを期待している。

QuaDMix: 効率的なLLM事前学習のための品質と多様性を考慮したデータ選択
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

Apr 23

ByFengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao

品質と多様性は、大規模言語モデル（LLM）の学習データにおける2つの重要な指標であり、性能に正の影響を与えます。既存の研究では、これらの指標を個別に最適化することが多く、通常はまず品質フィルタリングを適用し、その後データの比率を調整します。しかし、これらのアプローチは品質と多様性の間の本質的なトレードオフを見落としており、両者を同時に考慮する必要があります。固定された学習クォータが与えられた場合、各データポイントの品質と、データセット全体に対する補完的な効果を評価することが不可欠です。本論文では、QuaDMixと呼ばれる統一されたデータ選択フレームワークを紹介します。このフレームワークは、品質と多様性のバランスを取りながら、LLMの事前学習のためのデータ分布を自動的に最適化します。具体的には、まずデータ品質を測定するための複数の基準を提案し、ドメイン分類を用いてデータポイントを区別することで、全体の多様性を測定します。QuaDMixはその後、これらの品質と多様性に関連するラベルに基づいて各データポイントのサンプリング確率を決定する統一されたパラメータ化されたデータサンプリング関数を採用します。QuaDMixフレームワークに関わる最適なパラメータの探索を加速するために、より小さいモデルでシミュレーション実験を行い、RegMixメソッドにインスパイアされたLightGBMを用いてパラメータ探索を行います。多様なモデルとデータセットでの実験結果は、QuaDMixが複数のベンチマークで平均7.2%の性能向上を達成することを示しています。これらの結果は、品質と多様性の独立した戦略を上回り、データ品質と多様性のバランスを取る必要性と能力を強調しています。

3DV-TON: 拡散モデルによるテクスチャ付き3Dガイドを用いた一貫性のあるビデオ試着
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

Apr 24

ByMin Wei, Chaohui Yu, Jingkai Zhou, Fan Wang

ビデオ試着は、動画内の衣服をターゲットの衣装に置き換える技術です。既存の手法では、複雑な衣服のパターンや多様な身体のポーズを扱う際に、高品質で時間的に一貫した結果を生成することが困難でした。本論文では、高忠実度かつ時間的に一貫したビデオ試着結果を生成するための新しい拡散ベースのフレームワークである3DV-TONを提案します。私たちのアプローチでは、生成されたアニメーション可能なテクスチャ付き3Dメッシュを明示的なフレームレベルガイダンスとして利用し、モデルが動きの一貫性を犠牲にして外観の忠実度に過度に集中する問題を軽減します。これは、ビデオシーケンス全体で一貫した衣服のテクスチャの動きを直接参照できるようにすることで実現されます。提案手法は、動的な3Dガイダンスを生成するための適応型パイプラインを特徴としています：(1) 初期の2D画像試着のためのキーフレームを選択し、(2) 元のビデオのポーズと同期したテクスチャ付き3Dメッシュを再構築およびアニメーション化します。さらに、動的な人体と衣服の動きによる衣服情報の漏洩が引き起こすアーティファクトの伝播を効果的に軽減する堅牢な矩形マスキング戦略を導入します。ビデオ試着研究を進めるために、多様な衣服タイプとシナリオを含む130のビデオからなる高解像度ベンチマークデータセットHR-VVTを紹介します。定量的および定性的な結果は、既存の手法に対する私たちの優れた性能を示しています。プロジェクトページは以下のリンクにあります https://2y7c3.github.io/3DV-TON/

思考するプロセス報酬モデル
Process Reward Models That Think

Apr 23

ByMuhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang

ステップバイステップ検証器（Process Reward Models: PRMs）は、テスト時のスケーリングにおける重要な要素です。PRMsはステップレベルの監視を必要とするため、訓練コストが高くなります。本研究では、各解決ステップを検証するための検証チェーン・オブ・ソート（CoT）を生成する、データ効率の良いPRMsを構築することを目指しています。我々はThinkPRMを提案します。これは、識別型PRMsに比べて桁違いに少ないプロセスラベルでファインチューニングされた長いCoT検証器です。このアプローチは、長いCoTモデルが持つ内在的な推論能力を活用し、PRM800Kのプロセスラベルのわずか1%を使用しながら、LLM-as-a-Judgeや識別型検証器を上回る性能を、いくつかの挑戦的なベンチマークで示しています。具体的には、ThinkPRMはProcessBench、MATH-500、AIME '24において、best-of-N選択と報酬誘導型探索の下でベースラインを上回りました。GPQA-DiamondとLiveCodeBenchのサブセットを用いたドメイン外評価では、我々のPRMは、PRM800K全体で訓練された識別型検証器をそれぞれ8%と4.5%上回りました。最後に、同じトークン予算の下で、ThinkPRMはLLM-as-a-Judgeと比較して検証計算をより効果的にスケールアップし、ProcessBenchのサブセットで7.2%の性能向上を示しました。本研究は、訓練に最小限の監視しか必要とせず、検証のためのテスト時計算をスケールできる生成型の長いCoT PRMsの価値を強調しています。我々のコード、データ、モデルはhttps://github.com/mukhal/thinkprmで公開されます。

生成画像モデリングの促進：画像と特徴量の共同合成によるアプローチ
Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Apr 22

ByTheodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

潜在拡散モデル（LDMs）は高品質な画像生成を支配しているが、表現学習と生成モデリングを統合することは依然として課題である。本研究では、拡散モデルを活用して、低レベルの画像潜在変数（変分オートエンコーダから）と高レベルの意味的特徴（DINOのような事前学習済み自己教師ありエンコーダから）を共同でモデル化する、新しい生成画像モデリングフレームワークを提案する。我々の潜在-意味拡散アプローチは、純粋なノイズから一貫性のある画像-特徴ペアを生成することを学習し、生成品質と学習効率の両方を大幅に向上させ、標準的なDiffusion Transformerアーキテクチャに最小限の変更を加えるだけで実現する。複雑な蒸留目的関数を不要にすることで、我々の統一設計は学習を簡素化し、学習済みの意味を活用して画像生成を誘導・洗練する強力な新しい推論戦略「表現ガイダンス」を可能にする。条件付きおよび無条件設定の両方で評価された本手法は、画像品質と学習収束速度の大幅な改善をもたらし、表現を意識した生成モデリングの新たな方向性を確立する。

DyMU：効率的な視覚言語モデルのための動的マージと仮想アンマージ
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Apr 23

ByZhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

我々は、視覚言語モデル（VLM）の計算負荷を動的に削減しながら高いタスク性能を維持する、効率的で学習不要なフレームワーク「DyMU」を提案する。本手法は2つの主要なコンポーネントから構成される。第一に、Dynamic Token Merging（DToMe）は、画像の複雑度に基づいて類似したトークンを統合することで視覚トークン埋め込みの数を削減し、視覚Transformerにおける固定長出力の非効率性に対処する。第二に、Virtual Token Unmerging（VTU）は、完全なシーケンスのアテンション動態を効率的に再構築することで大規模言語モデル（LLM）の期待されるトークンシーケンスをシミュレートし、追加のファインチューニングなしで下流タスクの性能を維持する。従来の手法とは異なり、本手法は画像の内容に応じてトークン圧縮を動的に適応させ、完全に学習不要で動作するため、最新のVLMアーキテクチャのほとんどに容易に適用可能である。画像および映像理解タスクにおける広範な実験により、DyMUが視覚トークン数を平均32%-85%削減しながら、AnyResベースの視覚エンコーダを含む多様なVLMアーキテクチャにおいて、完全長モデルと同等の性能を達成できることを実証した。さらに、定性的分析を通じて、DToMeが画像の複雑度に基づいてトークン削減を効果的に適応させ、既存システムとは異なり、ユーザーが計算コストをより制御できることを示した。プロジェクトページ：https://mikewangwzhl.github.io/dymu/。

TimeChat-Online: ストリーミング動画における視覚トークンの80%は自然に冗長である
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

Apr 24

ByLinli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun

オンラインビデオプラットフォーム、特にライブストリーミングサービスの急速な成長は、リアルタイムビデオ理解システムの緊急な必要性を生み出しています。これらのシステムは、連続的なビデオストリームを処理し、ユーザーのクエリに即座に対応する必要があり、現在のビデオ大規模言語モデル（VideoLLMs）にとって独特の課題を提示しています。既存のVideoLLMsは完全なビデオの処理に優れていますが、ストリーミングシナリオでは、高密度で冗長なフレームを効率的に処理できないため、大きな制限に直面しています。私たちは、リアルタイムビデオインタラクションを革新する新しいオンラインVideoLLMであるTimeChat-Onlineを紹介します。その中核には、ストリーミングビデオにおける視覚的冗長性の根本的な課題に対処する革新的な差分トークンドロップ（DTD）モジュールがあります。DTDは、人間の視覚知覚の「変化盲」現象に着想を得て、フレーム間の静的で冗長なコンテンツをフィルタリングしながら、意味のある時間的変化を保持します。驚くべきことに、私たちの実験では、DTDがビデオトークンを82.8％削減しながら、StreamingBenchで98％の性能を維持することが示され、ストリーミングビデオの視覚コンテンツの80％以上が言語ガイダンスを必要とせずに自然に冗長であることが明らかになりました。シームレスなリアルタイムインタラクションを可能にするために、後方追跡、現在の知覚、未来応答シナリオを含む多様なインタラクションパターンを特徴とする包括的なストリーミングビデオデータセットであるTimeChat-Online-139Kを提示します。TimeChat-Onlineの独自のProactive Response機能は、DTDを介したビデオシーンの遷移の継続的な監視を通じて自然に達成され、従来のアプローチとは一線を画します。私たちの広範な評価は、TimeChat-Onlineがストリーミングベンチマーク（StreamingBenchおよびOvOBench）で優れた性能を発揮し、Video-MMEやMLVUなどの長編ビデオタスクで競争力のある結果を維持することを示しています。

IberBench：イベリア言語における大規模言語モデルの評価
IberBench: LLM Evaluation on Iberian Languages

Apr 23

ByJosé Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador

大規模言語モデル（LLM）の包括的な評価は依然として困難であり、特に高品質なデータが限られている英語以外の言語ではその傾向が顕著です。既存のベンチマークやリーダーボードは主に英語中心であり、他の言語に対応したものはわずかです。これらのベンチマークにはいくつかの重要な課題があります：言語の多様性を見落としていること、基本的な自然言語処理（NLP）能力を産業関連のタスクよりも優先していること、そして静的であることです。これらの点を踏まえ、私たちはIberBenchを提案します。これは、イベリア半島やイベロアメリカで話される言語において、基本的なNLPタスクと産業関連のタスクの両方でLLMの性能を評価するための包括的かつ拡張可能なベンチマークです。IberBenchは、評価キャンペーンや最近のベンチマークから101のデータセットを統合し、感情分析、毒性検出、要約など22のタスクカテゴリをカバーしています。このベンチマークは、言語の多様性の欠如や静的評価設定といった現在の評価手法の主要な限界に対処し、専門家委員会によって管理される継続的な更新とコミュニティ主導のモデルおよびデータセットの提出を可能にします。私たちは、1億から140億パラメータまでの23のLLMを評価し、それらの強みと限界に関する実証的な洞察を提供します。私たちの調査結果は、(i) LLMは基本的なタスクよりも産業関連のタスクで性能が低いこと、(ii) ガリシア語とバスク語では平均的に性能が低いこと、(iii) 一部のタスクではランダムに近い結果を示すこと、(iv) 他のタスクではLLMがランダムを上回るが共有タスクシステムを下回る性能を示すことを示しています。IberBenchは、データセットの正規化とホスティング、LLMの増分評価、公開アクセス可能なリーダーボードを含む、評価パイプライン全体のオープンソース実装を提供します。

自己回帰的画像生成のための意味論的に認識された順序の蒸留
Distilling semantically aware orders for autoregressive image generation

Apr 23

ByRishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli

オートリグレッシブなパッチベースの画像生成は、最近、画像品質とスケーラビリティの面で競争力のある結果を示しています。また、ビジョン・ランゲージモデル内で容易に統合およびスケールすることができます。しかしながら、オートリグレッシブモデルはパッチ生成のための定義された順序を必要とします。テキスト生成においては単語の指示に基づく自然な順序が理にかなっていますが、画像生成においては本質的な生成順序が存在しません。伝統的に、ラスタースキャン順序（左上から右下へ）がオートリグレッシブ画像生成モデルを導いています。本論文では、この順序が最適ではないと主張します。なぜなら、画像内容の因果関係を尊重しないからです。例えば、夕日の視覚的記述に基づいて条件付けられた場合、オートリグレッシブモデルは太陽よりも先に雲を生成するかもしれませんが、雲の色は太陽の色に依存すべきであり、その逆ではありません。本研究では、まず、任意の順序でパッチを生成するようにモデルを訓練することで、生成中に各パッチの内容と位置（順序）を推論できることを示します。次に、これらの抽出された順序を使用して、任意の順序モデルを微調整し、より高品質な画像を生成します。実験を通じて、この新しい生成方法が、従来のラスタースキャンアプローチよりも優れた画像を生成することを2つのデータセットで示し、同様のトレーニングコストと追加のアノテーションなしで実現できることを示します。

ViSMaP：メタプロンプティングによる教師なし長時間動画要約
ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

Apr 22

ByJian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz

ViSMap: Unsupervised Video Summarisation by Meta Promptingを紹介します。これは、教師なしで長時間の動画を要約するシステムです。既存の動画理解モデルの多くは、事前に分割された短い動画に対しては良好に機能しますが、関連するイベントがまばらに分布し、事前に分割されていない長時間の動画の要約には苦戦します。さらに、長時間の動画理解は、大規模なアノテーションを必要とする教師あり階層的トレーニングに依存することが多く、これにはコストがかかり、時間がかかり、一貫性に欠ける傾向があります。ViSMaPでは、短い動画（アノテーションデータが豊富）と長い動画（アノテーションデータが不足）の間のギャップを埋めます。我々は、短い動画から得られたセグメント記述を使用して、長時間の動画の最適化された疑似要約を作成するためにLLMを利用します。これらの疑似要約は、長時間の動画の要約を生成するモデルのトレーニングデータとして使用され、高価な長時間動画のアノテーションの必要性を回避します。具体的には、メタプロンプティング戦略を採用して、長時間の動画の疑似要約を反復的に生成および改良します。この戦略は、教師あり短い動画モデルから得られた短いクリップ記述を活用して要約を導きます。各反復では、3つのLLMが順番に動作します。1つはクリップ記述から疑似要約を生成し、もう1つはそれを評価し、3つ目は生成器のプロンプトを最適化します。この反復は、疑似要約の品質が生成器のプロンプトに大きく依存し、動画によって大きく異なるため必要です。我々は、複数のデータセットで要約を広範囲に評価しました。その結果、ViSMaPは、完全に教師ありの最先端モデルに匹敵する性能を達成し、性能を犠牲にすることなくドメイン間で一般化できることが示されました。コードは公開時にリリースされます。

動的カメラポーズとその探索手法
Dynamic Camera Poses and Where to Find Them

Apr 24

ByChris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin

動的なインターネット動画におけるカメラポーズの大規模なアノテーションは、リアルな動画生成やシミュレーションといった分野の進展にとって極めて重要です。しかし、そのようなデータセットを収集することは困難であり、ほとんどのインターネット動画はポーズ推定に適していません。さらに、動的なインターネット動画のアノテーションは、最先端の手法にとっても大きな課題を提示します。本論文では、カメラポーズがアノテーションされた大規模な動的インターネット動画データセットであるDynPose-100Kを紹介します。私たちの収集パイプラインは、タスク固有のモデルと汎用モデルを慎重に組み合わせたフィルタリング手法を採用しています。ポーズ推定においては、ポイントトラッキング、動的マスキング、およびStructure-from-Motionの最新技術を組み合わせることで、最先端の手法を上回る改善を実現しました。私たちの分析と実験により、DynPose-100Kが大規模であり、かつ複数の重要な属性において多様性を有していることが示され、さまざまな下流アプリケーションの進展への道を開くことが明らかになりました。

ガウス重み付き線形変換を用いた解釈可能な非線形次元削減
Interpretable non-linear dimensionality reduction using gaussian weighted linear transformation

Apr 24

ByErik Bergh

次元削減技術は、高次元データの分析と可視化において基本的な役割を果たします。t-SNEやPCAなどの確立された手法は、表現力と解釈可能性の間でトレードオフを示します。本論文では、線形手法の解釈可能性と非線形変換の表現力を組み合わせることで、このギャップを埋める新しいアプローチを提案します。提案されたアルゴリズムは、ガウス関数によって重み付けされた線形変換の組み合わせを通じて、高次元空間と低次元空間の間の非線形マッピングを構築します。このアーキテクチャにより、各変換を独立して分析できるため、線形手法の解釈可能性の利点を保ちつつ、複雑な非線形変換を可能にします。結果として得られるモデルは、強力な次元削減と変換された空間に対する透明性のある洞察の両方を提供します。学習された変換を解釈するための技術も提示されており、抑制された次元の特定や空間の拡張・収縮の方法が含まれます。これらのツールにより、実務者はアルゴリズムが次元削減中に幾何学的関係をどのように保持し、変更するかを理解することができます。このアルゴリズムの実用性を確保するために、ユーザーフレンドリーなソフトウェアパッケージの作成が強調されており、学界と産業界の両方での採用を促進します。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Paper2Code: 機械学習分野の科学論文からのコード生成の自動化
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Apr 24

ByMinju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang

123

Step1X-Edit: 汎用画像編集のための実用的フレームワーク
Step1X-Edit: A Practical Framework for General Image Editing

Apr 24

RefVNLI：主題駆動型テキストから画像生成のスケーラブルな評価に向けて
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

Apr 24

ByAviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor

モダリティの壁を打ち破る：マルチモーダルLLMによる普遍的な埋め込み学習
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Apr 24

ByTiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng

視覚言語モデルにおける視点認識推論：メンタルイメージシミュレーションを通じて
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Apr 24

ByPhillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung

DiMeR: 分離型メッシュ再構成モデル
DiMeR: Disentangled Mesh Reconstruction Model

Apr 24

ByLutao Jiang, Jiantao Lin, Kanghao Chen, Wenhang Ge, Xin Yang, Yifan Jiang, Yuanhuiyi Lyu, Xu Zheng, Yingcong Chen

Token-Shuffle: 自己回帰モデルによる高解像度画像生成に向けて
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Apr 24

QuaDMix: 効率的なLLM事前学習のための品質と多様性を考慮したデータ選択
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

Apr 23

ByFengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao

3DV-TON: 拡散モデルによるテクスチャ付き3Dガイドを用いた一貫性のあるビデオ試着
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

Apr 24

ByMin Wei, Chaohui Yu, Jingkai Zhou, Fan Wang

思考するプロセス報酬モデル
Process Reward Models That Think

Apr 23

ByMuhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang

生成画像モデリングの促進：画像と特徴量の共同合成によるアプローチ
Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Apr 22

ByTheodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

DyMU：効率的な視覚言語モデルのための動的マージと仮想アンマージ
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Apr 23

ByZhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

TimeChat-Online: ストリーミング動画における視覚トークンの80%は自然に冗長である
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

Apr 24

ByLinli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun

ガウス重み付き線形変換を用いた解釈可能な非線形次元削減
Interpretable non-linear dimensionality reduction using gaussian weighted linear transformation

Apr 24

ByErik Bergh