HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

22 papers found

スマートでより良く、より速く、より長く：高速でメモリ効率の良い長いコンテキストのファインチューニングと推論のためのモダンな双方向エンコーダ
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Dec 18

ByBenjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, Iacopo Poli

156

BERTなどのエンコーダーのみのトランスフォーマーモデルは、より大きなデコーダーのみのモデルに比べて、リトリーバルおよび分類タスクにおいて優れたパフォーマンスとサイズのトレードオフを提供します。多くのプロダクションパイプラインで重要な役割を果たしているにも関わらず、BERTにはリリース以来、限られたパレート改善しか見られませんでした。本論文では、モダンなモデル最適化をエンコーダーのみのモデルに導入し、古いエンコーダーに比べて主要なパレート改善を実現するModernBERTを紹介します。2兆トークンで訓練され、ネイティブの8192シーケンス長を持つModernBERTモデルは、さまざまな分類タスクや異なるドメイン（コードを含む）におけるシングルおよびマルチベクトルのリトリーバルを含む幅広い評価において最先端の結果を示します。ダウンストリームのパフォーマンスが強力であるだけでなく、ModernBERTは最も高速かつメモリ効率に優れたエンコーダーであり、一般的なGPU上での推論に適しています。

FastVLM: ビジョン言語モデル向けの効率的なビジョンエンコーディング
FastVLM: Efficient Vision Encoding for Vision Language Models

Dec 17

ByPavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari

ビジョン言語モデル（VLM）の性能を向上させるために、入力画像解像度のスケーリングは重要です、特にテキスト豊富な画像理解タスクにおいて。しかし、ViTsなどの一般的なビジュアルエンコーダは、高解像度では効率が悪くなります。これは、大量のトークンとスタックされたセルフアテンション層による高いエンコード待ち時間に起因します。VLMのビジョンエンコーダは、異なる動作解像度において、エンコード待ち時間を削減し、LLMに渡されるビジュアルトークンの数を最小限に抑えることで、全体の待ち時間を低下させるという2つの軸で最適化できます。画像解像度、ビジョン待ち時間、トークン数、およびLLMサイズの相互作用の包括的な効率分析に基づき、私たちはFastVLMを導入します。これは、待ち時間、モデルサイズ、および精度の間の最適なトレードオフを実現するモデルです。FastVLMには、高解像度画像のためにトークン数を減らし、エンコード時間を大幅に短縮するように設計された革新的なハイブリッドビジョンエンコーダであるFastViTHDを組み込んでいます。従来の手法とは異なり、FastVLMは、入力画像のスケーリングだけでビジュアルトークン数と画像解像度の最適なバランスを実現し、追加のトークンの剪定を必要とせず、モデル設計を単純化します。LLaVA-1.5セットアップでは、FastVLMは、従来の作品と比較して、VLMのベンチマークで同様のパフォーマンスを維持しながら、最初のトークンまでの時間（TTFT）を3.2倍改善します。最高解像度（1152×1152）のLLaVa-OneVisionと比較して、FastVLMは、SeedBenchやMMMUなどの主要なベンチマークで同等のパフォーマンスを達成し、0.5BのLLMを使用しつつ、TTFTが85倍速く、ビジョンエンコーダが3.4倍小さくなります。

AniDoc: アニメーション制作をより簡単にする
AniDoc: Animation Creation Made Easier

Dec 18

ByYihao Meng, Hao Ouyang, Hanlin Wang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Zhiheng Liu, Yujun Shen, Huamin Qu

2Dアニメーションの制作は、業界標準のワークフローに従い、キャラクターデザイン、キーフレームアニメーション、中割り、および着色という4つの重要な段階を含んでいます。私たちの研究は、ますます強力になる生成AIの潜在能力を活用し、上記のプロセスにおける労働コストを削減することに焦点を当てています。ビデオ拡散モデルを基盤として使用することで、AniDocはビデオラインアートの着色ツールとして登場し、スケッチシーケンスを自動的に着色アニメーションに変換し、参照キャラクターの仕様に従います。私たちのモデルは、対応マッチングを明示的なガイダンスとして活用し、参照キャラクターと各ラインアートフレームの変動（例：ポーズ）に対する強力な頑健性を実現します。さらに、ユーザーがキャラクター画像と開始および終了スケッチを提供するだけで、中割りプロセスさえ自動化できるため、時間的に整合性の取れたアニメーションを簡単に作成できます。私たちのコードは以下で入手可能です：https://yihao-meng.github.io/AniDoc_demo.

TheAgentCompany：重要な現実世界のタスクにおけるLLMエージェントのベンチマーク
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Dec 18

ByFrank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

私たちは日常生活や仕事でコンピュータとやり取りしており、多くの仕事はコンピュータとインターネットへのアクセスだけで完了できます。同時に、大規模言語モデル（LLMs）の改良により、周囲の環境とやり取りし変化をもたらすAIエージェントの急速な発展もありました。しかし、AIエージェントが業務関連のタスクの加速や自律的な実行をどれだけ効果的に行うことができるのでしょうか？この問いに対する答えは、AIをワークフローに導入しようとする産業や、AIの導入が労働市場に与える影響を理解しようとする経済政策にとって重要な意味を持ちます。本論文では、これらのLLMエージェントが実務タスクをどれだけ効果的に実行するかを測定するために、TheAgentCompanyという、デジタルワーカーと同様の方法で世界とやり取りするAIエージェントを評価するための拡張可能なベンチマークを紹介します。これには、ウェブを閲覧し、コードを記述し、プログラムを実行し、他の同僚とコミュニケーションを取ることで行われるタスクが含まれます。私たちは、小規模ソフトウェア企業の環境を模倣した内部ウェブサイトやデータを備えた自己完結型の環境を構築し、そのような企業で働く従業員が行うかもしれないさまざまなタスクを作成します。私たちは、クローズドAPIベースとオープンウェイト言語モデル（LMs）によって動作するベースラインエージェントをテストし、最も競争力のあるエージェントでは、タスクの24%が自律的に完了できることを発見しました。これは、LMエージェントによるタスクの自動化について微妙な状況を描写しており、実際の職場をシミュレートした環境では、より簡単なタスクのかなりの部分が自律的に解決される可能性がありますが、より難しい長期的なタスクは現行システムの範囲外です。

アダムはもういらない：初期化時の学習率スケーリングがすべてをカバーします
No More Adam: Learning Rate Scaling at Initialization is All You Need

Dec 16

ByMinghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen

本研究では、深層ニューラルネットワークの訓練における適応的勾配法の必要性に疑問を投げかけます。SGD-SaIは、適応的な勾配降下法に運動量を持たせた効果的な単純な拡張です。SGD-SaIは、パラメータグループごとに学習率の初期スケーリング（SaI）を行い、それぞれの勾配信号対ノイズ比（g-SNR）によって誘導されます。適応的な2次モーメントに依存せずに学習率を調整することで、SGD-SaIは訓練の不均衡を最初のイテレーションから防ぎ、AdamWと比較してオプティマイザのメモリ使用量を半分に削減します。そのシンプルさと効率性にもかかわらず、SGD-SaIは、さまざまなTransformerベースのタスクの訓練において、AdamWと一致するかそれを上回る安定した性能を発揮し、SGDをTransformerの訓練に使用する上での長年の課題を効果的に克服します。SGD-SaIは、Vision Transformers（ViT）によるImageNet-1K分類や大規模言語モデル（LLMs、transformer decoder-only）に対するGPT-2の事前トレーニングなどで優れた性能を示し、ハイパーパラメータの変化に対する頑健性や多様なアプリケーションに対する実用性を実証します。また、LoRAのLLMsや拡散モデルのファインチューニングなどのタスクでの頑健性をテストし、最先端のオプティマイザを一貫して上回ることを示しました。メモリ効率の観点から、SGD-SaIはオプティマイザの状態において大幅なメモリ削減を実現し、GPT-2（15億パラメータ）ではAdamWと比較して5.93 GB、Llama2-7Bでは25.15 GBのメモリ使用量をフルプリシジョンの訓練設定で削減します。

GUI エージェント：調査
GUI Agents: A Survey

Dec 18

ByDang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt

大規模な基盤モデルによって強化されたグラフィカルユーザーインターフェース（GUI）エージェントは、人間とコンピュータの相互作用を自動化する革新的なアプローチとして登場しています。これらのエージェントはGUIを介してデジタルシステムやソフトウェアアプリケーションと自律的にやり取りし、クリック、タイピング、さまざまなプラットフォーム上での視覚要素のナビゲーションなど、人間の行動をエミュレートします。GUIエージェントへの関心の高まりと基本的な重要性に触発され、私たちは、それらのベンチマーク、評価メトリクス、アーキテクチャ、およびトレーニング方法を分類する包括的な調査を提供します。私たちは、それらの知覚、推論、計画、および行動能力を明確に定義する統一されたフレームワークを提案します。さらに、重要な未解決の課題を特定し、主要な将来の方向性について議論します。最後に、この研究は、実務家や研究者が現在の進歩、技術、ベンチマーク、および解決すべき重要な未解決の問題に対する直感的な理解を得るための基盤となります。

空間思考: マルチモーダルな大規模言語モデルが空間を見、記憶し、回想する方法
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Dec 18

ByJihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie

人間は、連続した視覚的観察から空間を記憶する視覚空間知能を持っています。しかし、100万規模のビデオデータセットでトレーニングされたMultimodal Large Language Models（MLLMs）がビデオから「空間で考える」ことができるのでしょうか？私たちは、5,000以上の質問と回答のペアからなる革新的なビデオベースの視覚空間知能ベンチマーク（VSI-Bench）を提案し、MLLMsが競争力のあるが、亜人間的な視覚空間知能を示すことを発見しました。モデルがどのように空間で考えるかを言語的および視覚的に表現するようモデルを調査し、空間推論能力がMLLMsがより高いベンチマークパフォーマンスに到達するための主要なボトルネックである一方、これらのモデル内には局所的なワールドモデルと空間認識が現れることを見つけました。特筆すべきは、従来の言語推論技術（例：思考の連鎖、自己整合性、思考の木構造）がパフォーマンスを向上させない一方、質問回答中に認知マップを明示的に生成することがMLLMsの空間距離能力を向上させることができることです。

Mix-LN：Pre-LNとPost-LNを組み合わせることで、より深い層の力を解放する
Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

Dec 18

ByPengxiang Li, Lu Yin, Shiwei Liu

大規模言語モデル（LLMs）は顕著な成功を収めていますが、最近の研究結果によると、そのより深い層はしばしばほとんど寄与せず、削除しても全体の性能に影響を与えないことが明らかになっています。一部の人々はこれをモデルの圧縮の機会と見なしていますが、私たちは、Pre-Layer Normalization（Pre-LN）の広範な使用に起因する訓練上の欠陥として特定しています。私たちは、GPTやLLaMAなどのモデルで一般的に使用されているPre-LNが、そのより深い層において勾配の規模を低下させ、それらの効果を減少させることを実証しています。それに対し、Post-Layer Normalization（Post-LN）は、より深い層において大きな勾配の規模を保持しますが、初期の層において勾配の消失に悩まされます。この問題に対処するために、私たちは、Pre-LNとPost-LNの長所を同じモデル内で組み合わせる革新的な正規化技術であるMix-LNを導入しています。Mix-LNは、初期の層にPost-LNを適用し、より深い層にPre-LNを適用することで、層間でより均一な勾配を確保します。これにより、ネットワークのすべての部分、浅い層と深い層の両方が訓練に効果的に貢献できるようになります。70Mから7Bまでのさまざまなモデルサイズでの包括的な実験により、Mix-LNが一貫してPre-LNとPost-LNを上回り、ネットワーク全体でよりバランスの取れた、健全な勾配規模を促進し、LLMの事前トレーニングの全体的な品質を向上させることが示されました。さらに、Mix-LNで事前トレーニングされたモデルが、Pre-LNやPost-LNを使用したモデルよりも、監督された微調整（SFT）や人間のフィードバックからの強化学習（RLHF）中により良い学習を行うことを示し、高品質の深層の重要性を強調しています。現行のLLMsにおける深層の非効率性を効果的に解決することで、Mix-LNはその潜在能力を引き出し、モデルの容量を増やすことなく向上させます。私たちのコードはhttps://github.com/pixeli99/MixLNで入手可能です。

LLaVA-UHD v2：階層ウィンドウトランスフォーマーを介した高解像度特徴ピラミッドを統合するMLLM
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

Dec 18

ByYipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun

マルチモーダル大規模言語モデル（MLLMs）では、ビジョン・トランスフォーマー（ViTs）が視覚エンコーディングに広く使用されています。しかし、これらのモデルが普遍的なMLLMタスクを解決する性能は満足できるものではありません。我々は、言語生成に必要な様々な意味的粒度との整合性を妨げる、多様な視覚レベルからの情報の不足に起因すると考えています。この問題に対処するために、Hierarchical window transformerを中心とする高度なMLLMであるLLaVA-UHD v2を提案します。Hierarchical window transformerは、高解像度の特徴ピラミッドを構築して統合することで、多様な視覚的粒度を捉えることを可能にします。ビジョン-言語プロジェクタとしてのHiwin transformerは、次の2つの主要モジュールから構成されます：（i）ViT由来の特徴アップサンプリングプロセスによって構築された逆特徴ピラミッド、および（ii）階層的ウィンドウアテンションは、クロススケールウィンドウ内の一連の主要サンプリング特徴に焦点を当て、多レベルの特徴マップを縮約します。広範な実験により、LLaVA-UHD v2が一般的なベンチマークで既存のMLLMに比べて優れた性能を達成することが示されました。特に、我々の設計は、14のベンチマーク全体でベースライン手法と比較して平均で3.7％の向上をもたらし、例えばDocVQAでは9.3％の向上が見られました。今後の研究を促進するために、すべてのデータ、モデルチェックポイント、コードを公開しています。

FashionComposer: 構成的ファッション画像生成
FashionComposer: Compositional Fashion Image Generation

Dec 18

BySihui Ji, Yiyang Wang, Xi Chen, Xiaogang Xu, Hao Luo, Hengshuang Zhao

ファッション画像生成のための構成的なFashionComposerを提案します。従来の手法とは異なり、FashionComposerは非常に柔軟です。テキストプロンプト、パラメトリックな人間モデル、衣服画像、および顔画像といったマルチモーダルな入力を受け入れ、人物の外見、ポーズ、体型を個人化し、1度の処理で複数の衣服を割り当てることができます。これを実現するために、まず多様な入力モダリティを処理できる汎用フレームワークを開発します。モデルの堅牢な構成能力を向上させるために、スケーリングされたトレーニングデータを構築します。複数のリファレンス画像（衣服や顔）をシームレスに取り込むために、これらのリファレンスを「アセットライブラリ」として1つの画像に整理し、外見特徴を抽出するためにリファレンスUNetを使用します。生成された結果の正しいピクセルに外見特徴を注入するために、サブジェクトバインディングアテンションを提案します。これにより、異なる「アセット」からの外見特徴を対応するテキスト特徴と結びつけます。この方法により、モデルは各アセットの意味に基づいて理解し、任意の数や種類のリファレンス画像をサポートします。包括的なソリューションとして、FashionComposerは人物アルバム生成、多様なバーチャル試着タスクなど、他の多くのアプリケーションもサポートしています。

ベクトル量子化を使用しない自己回帰型ビデオ生成
Autoregressive Video Generation without Vector Quantization

Dec 18

ByHaoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang

この論文では、高い効率性を持つ自己回帰的なビデオ生成を実現する革新的なアプローチを提案します。我々は、ビデオ生成問題を、時間的なフレームごとの予測と空間的なセットごとの予測の非量子化された自己回帰モデリングとして再定式化することを提案します。従来の自己回帰モデルにおけるラスタースキャン予測や拡散モデルにおける固定長トークンの共同分布モデリングとは異なり、我々のアプローチは、柔軟なインコンテキスト機能のためにGPTスタイルのモデルの因果特性を維持しつつ、個々のフレーム内での双方向モデリングを活用しています。提案された手法により、ベクトル量子化を行わない新しいビデオ自己回帰モデル「NOVA」を訓練します。我々の結果は、NOVAが、0.6Bパラメータというはるかに小さなモデル容量でも、データ効率性、推論速度、視覚的忠実度、およびビデオの流暢性において、従来の自己回帰ビデオモデルを上回ることを示しています。NOVAは、画像拡散モデルにおいても、テキストから画像への生成タスクにおいても、大幅に低い訓練コストで最先端の性能を発揮します。さらに、NOVAは、拡張されたビデオの長時間にわたる汎化をうまく行い、統一されたモデル内で多様なゼロショットアプリケーションを可能にします。コードとモデルは、https://github.com/baaivision/NOVA で公開されています。

4K解像度に対する正確なメトリック深度推定のための深度プロンプティング
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Dec 18

ByHaotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang

プロンプトは、特定のタスクのための言語とビジョンの基盤モデルの力を解き放つ上で重要な役割を果たします。初めて、我々はプロンプトを深層基盤モデルに導入し、Prompt Depth Anythingと呼ばれるメトリック深度推定の新しいパラダイムを作り出しました。具体的には、低コストのLiDARをプロンプトとして使用し、正確なメトリック深度出力を行うDepth Anythingモデルをガイドします。これにより、最大4Kの解像度が実現されます。我々の手法は、深度デコーダ内でLiDARを複数のスケールで統合する簡潔なプロンプト融合設計に焦点を当てています。LiDAR深度と正確なGT深度の両方を含む限られたデータセットによって引き起こされるトレーニングの課題に対処するため、我々は、合成データLiDARシミュレーションと実データ擬似GT深度生成を含むスケーラブルなデータパイプラインを提案しています。我々の手法は、ARKitScenesとScanNet++データセットで新たな最先端を確立し、3D再構築や汎用ロボットグラスピングなどの下流アプリケーションに恩恵をもたらします。

マルチタスク学習のための専門家の混合を用いた効率的な拡散トランスフォーマーポリシー
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

Dec 17

ByMoritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov

拡散ポリシーは模倣学習で広く使用されるようになり、複数の魅力的な特性を提供しています。これには、多様なモーダルや不連続な振る舞いを生成するというものが含まれます。モデルがより複雑な能力を捉えるために大きくなるにつれ、その計算要求も増加し、最近のスケーリング則によって示されています。したがって、現在のアーキテクチャを継続すると、計算上の障害が発生します。このギャップを解消するために、模倣学習のための革新的なポリシーとして、Denoising Expertsの混合（MoDE）を提案します。MoDEは、スパースな専門家とノイズ条件付きのルーティングを介してパラメータの効率的なスケーリングを可能にしつつ、専門家のキャッシュによってアクティブパラメータを40%削減し、推論コストを90%削減します。当該アーキテクチャは、この効率的なスケーリングをノイズ条件付きの自己注意メカニズムと組み合わせ、異なるノイズレベルでのより効果的なノイズ除去を可能にします。MoDEは、4つの確立された模倣学習ベンチマーク（CALVINおよびLIBERO）の134のタスクで最先端のTransformerベースの拡散ポリシーを上回ります。特に、多様なロボティクスデータでMoDEを事前学習することで、CALVIN ABCでは4.01、LIBERO-90では0.95を達成します。MoDEは、4つのベンチマーク全体で、CNNベースとTransformer拡散ポリシーの両方を57%平均で上回り、デフォルトのDiffusion Transformerアーキテクチャと比較して、90%少ないFLOPsとアクティブパラメータを使用します。さらに、MoDEの構成要素について包括的な削減実験を行い、拡散ポリシーのための効率的でスケーラブルなTransformerアーキテクチャを設計するための洞察を提供します。コードとデモは、https://mbreuss.github.io/MoDE_Diffusion_Policy/ で入手可能です。

AnySat: あらゆる解像度、スケール、モダリティに対応した地球観測モデル
AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities

Dec 18

ByGuillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu

地理空間モデルは、解像度、スケール、およびモダリティの点で地球観測データの多様性に適応する必要があります。しかし、既存のアプローチは固定された入力構成を想定しており、そのため実用性が制限されています。私たちは、AnySatという、共埋め込み予測アーキテクチャ（JEPA）と解像度適応型空間エンコーダに基づくマルチモーダルモデルを提案します。これにより、高度に異質なデータに対して半教師付き学習の形式で単一のモデルを訓練することが可能となります。この統一アプローチの利点を示すために、異なる特性を持つ5つのマルチモーダルデータセットと11種類のセンサを含むGeoPlexを編纂します。その後、これら多様なデータセットに対して単一の強力なモデルを同時に訓練します。微調整後、GeoPlexのデータセットおよび5つの環境モニタリングタスク（土地被覆マッピング、樹木種の識別、作物タイプの分類、変化検出、および洪水セグメンテーション）において、より良いまたは最新の結果を達成します。コードとモデルはhttps://github.com/gastruc/AnySat で入手可能です。

巨大な人間のビデオから学ぶことによる汎用ヒューマノイド姿勢制御
Learning from Massive Human Videos for Universal Humanoid Pose Control

Dec 18

ByJiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang

ヒューマノイドロボットのスケーラブルな学習は、現実世界の応用における展開に不可欠です。従来のアプローチは、主に強化学習や遠隔操作に依存して全身制御を実現していますが、シミュレートされた環境の多様性やデモ収集の高コストによって制約されることが多いです。それに対し、人間のビデオは普及しており、ヒューマノイドロボットの汎化能力を大幅に向上させる可能性があるセマンティックおよびモーション情報の未開拓の情報源となり得ます。本論文では、この豊富なデータを活用するために設計された、2000万以上のヒューマノイドロボットのポーズとそれに対応するテキストベースのモーション記述を持つ大規模データセットであるHumanoid-Xを紹介します。Humanoid-Xは、インターネットからのデータマイニング、ビデオのキャプション生成、人間からヒューマノイドロボットへのモーションリターゲティング、および現実世界への展開のためのポリシー学習を通じて精選されています。Humanoid-Xを使用して、テキスト指示を入力とし、ヒューマノイドロボットを制御するための対応するアクションを出力する大規模なヒューマノイドモデルであるUH-1をさらにトレーニングします。広範なシミュレートおよび現実世界の実験により、当社のスケーラブルなトレーニングアプローチが、テキストベースのヒューマノイド制御において優れた汎化をもたらすことが検証され、適応可能で現実世界で利用可能なヒューマノイドロボットに向けた重要な一歩となっています。

RAG-RewardBench：選好整合のための検索拡張生成における報酬モデルのベンチマーク化
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

Dec 18

ByZhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

既存の検索強化言語モデル（RALM）が信頼できる応答と確かなソースに基づいている点で大きな進展を遂げているにもかかわらず、人間の好みとの効果的な整合性をしばしば見落としています。整合プロセスでは、報酬モデル（RM）が最適化を導くための人間の価値観の重要なプロキシとして機能します。ただし、RALMにおける好みの整合性のための信頼性のあるRMを評価および選択する方法は依然として不明です。このため、私たちは、RAG設定におけるRMの評価のための初のベンチマークであるRAG-RewardBenchを提案します。まず、マルチホップ推論、細かい引用、適切な棄却、および衝突耐性を含む4つの重要で難しいRAG固有のシナリオを設計して、RMを評価します。次に、データソースの多様性を高めるために、18のRAGサブセット、6つのリトリーバー、および24のRALMを組み込みます。最後に、好みの注釈の効率と効果を向上させるために、LLMを判定者として採用し、人間の注釈と強い相関を示します。RAG-RewardBenchに基づいて、45のRMを包括的に評価し、その限界をRAGシナリオで明らかにします。さらに、既存の訓練済みRALMは好みの整合性でほとんど改善が見られないことも明らかにし、好みに整合したトレーニングにシフトする必要性を強調しています。今後の作業のために、当社のベンチマークとコードを https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ で公開しています。

ChatDiT：拡散トランスフォーマーを用いたタスクに依存しないフリーフォームチャットのためのトレーニング不要なベースライン
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Dec 17

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou

最近の研究 arXiv:2410.15027 および arXiv:2410.23775 は、事前学習された拡散トランスフォーマー（DiTs）の固有のコンテキスト内生成能力を強調し、これにより、最小限またはほとんどのアーキテクチャの変更を必要とせずに、さまざまなビジュアルタスクにシームレスに適応できることが可能となりました。これらの能力は、複数の入力およびターゲット画像を横断して自己注意トークンを連結し、グループ化およびマスク処理された生成パイプラインと組み合わせることで実現されます。この基盤を活用して、私たちはChatDiTを提案します。これは、事前学習された拡散トランスフォーマーをそのまま活用する、ゼロショット、汎用、対話型のビジュアル生成フレームワークであり、追加の調整、アダプター、または変更を必要としません。ユーザーは、ChatDiTを介して、1つ以上の会話ラウンドを通じて、自由形式の自然言語を使用して、交互にテキストと画像の記事、複数ページの絵本、画像の編集、IP派生物の設計、キャラクターデザイン設定の開発などを作成できます。ChatDiTの中核となるのは、3つの主要コンポーネントからなるマルチエージェントシステムを採用しています。それは、ユーザーがアップロードした画像と指示を解釈するInstruction-Parsing エージェント、単一ステップまたは複数ステップの生成アクションを考案するStrategy-Planning エージェント、およびこれらのアクションを実行するExecution エージェントから成り立っています。私たちは、IDEA-Bench arXiv:2412.11767 上でChatDiTを徹底的に評価しました。これには、100の実世界の設計タスクと、多様な指示と異なる数の入力およびターゲット画像を持つ275のケースが含まれています。そのシンプルさとトレーニング不要なアプローチにもかかわらず、ChatDiTは、広範なマルチタスクデータセットで特に設計およびトレーニングされた競合他社を含め、すべての競合他社を凌駕しています。さらに、事前学習されたDiTsがゼロショットでタスクに適応する際の主要な制限を特定しています。私たちは、さらなる研究を促進するために、すべてのコード、エージェント、結果、および中間出力を https://github.com/ali-vilab/ChatDiT で公開しています。

大規模言語モデルにおけるアラインメントの偽装
Alignment faking in large language models

Dec 18

ByRyan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger

大規模言語モデルがアライメントフェイキングに従事するデモンストレーションを提供します：トレーニング中にトレーニング目標に選択的に従い、トレーニング外の振る舞いの変更を防ぐために。最初に、私たちはClaude 3 Opusに、すべてのクエリに回答するようトレーニングされており、有害なクエリであっても拒否する以前のトレーニングと矛盾すると述べたシステムプロンプトを与えます。モデルがトレーニング中であると推論できるようにするために、無料ユーザーとの会話のみでトレーニングされると述べます。モデルは、無料ユーザーからの有害なクエリに対して14％の頻度で従うことがわかりましたが、有料ユーザーに対してはほとんど従いません。この差異を説明すると、無料ユーザーからの有害なクエリに従うほとんどのケースで、明示的なアライメントフェイキングの理由を観察しました。モデルは、トレーニング中に有害なクエリに戦略的に回答して、トレーニング外で好ましい無害な振る舞いを維持すると述べています。次に、システムプロンプトではなく、事前トレーニングデータを模倣する合成ドキュメントでトレーニングすることにより、より現実的な状況を研究し、同様のアライメントフェイキングを観察します。最後に、有害なクエリに従うようモデルを実際にトレーニングする効果を研究し、アライメントフェイキングの理由の割合が78％に増加することを発見しましたが、トレーニング外でも従う割合も増加します。また、簡単な機会が与えられた場合、モデルがその重みを外部に持ち出すなど、他の振る舞いも観察しました。モデルにいつ、どのような基準でトレーニングされているかを伝えることで、アライメントフェイキングを容易にしましたが、モデルにアライメントをフェイクするよう指示したり、明示的な目標を与えたりはしませんでした。将来のモデルがトレーニングプロセスについての情報を教えられずに推論する可能性があるため、私たちの結果は、将来のモデルにおけるアライメントフェイキングのリスクを示唆しています。この場合のように、善意の嗜好によるものであるかどうかにかかわらず。

VidTok: 多目的でオープンソースのビデオトークナイザー
VidTok: A Versatile and Open-Source Video Tokenizer

Dec 17

ByAnni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian

ビデオコンテンツをコンパクトな潜在トークンにエンコードすることは、ビデオ生成と理解において基本的な段階となり、ピクセルレベルの表現に内在する冗長性に対処する必要から推進されています。その結果、ビデオ中心の研究が注目される中で、高性能でオープンソースのビデオトークナイザーへの需要が増大しています。私たちは、連続的および離散的なトークン化の両方で最先端のパフォーマンスを提供する汎用性の高いビデオトークナイザーであるVidTokを紹介します。VidTokは、既存の手法に対するいくつかの主要な進歩を組み込んでいます：1）畳み込み層やアップ/ダウンサンプリングモジュールなどのモデルアーキテクチャ；2）従来のベクトル量子化（VQ）に一般的に関連付けられるトレーニングの不安定性やコードブックの崩壊に対処するために、離散的ビデオトークナイゼーションに有限スカラー量子化（FSQ）を統合；3）2段階のトレーニングプロセスやフレームレートの削減の使用を含む改良されたトレーニング戦略。これらの進歩を統合することで、VidTokは既存の手法に比べて実質的な改善を達成し、標準化された評価設定下でPSNR、SSIM、LPIPS、およびFVDを含む複数のメトリックで優れたパフォーマンスを示しています。

AntiLeak-Bench: 最新の現実世界の知識を用いて自動的に構築されたベンチマークによってデータ汚染を防止する
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

Dec 18

ByXiaobao Wu, Liangming Pan, Yuxi Xie, Ruiwen Zhou, Shuai Zhao, Yubo Ma, Mingzhe Du, Rui Mao, Anh Tuan Luu, William Yang Wang

データの汚染は、新しいモデルのトレーニングセットにテストデータを導入することで、公平なLLMの評価を妨げます。既存の研究は、新たに収集されたデータでベンチマークを更新することでこの課題を解決しています。しかし、新たに収集されたデータには事前に存在する知識が含まれている可能性があり、そのベンチマークの更新には人間の労力が必要です。これらの問題に対処するため、本論文では、自動化されたアンチリークベンチマークフレームワークであるAntiLeak-Benchを提案します。単に新たに収集されたデータを使用するのではなく、LLMのトレーニングセットに明示的に新しい知識が欠如しているサンプルを構築することで、厳密に汚染フリーな評価を確実にします。さらに、人間の労力を必要とせずにベンチマークを構築および更新するための完全自動化されたワークフローを設計します。これにより、新興のLLMに対応するためのベンチマークのメンテナンスコストが大幅に削減されます。広範な実験を通じて、データの汚染がLLMのカットオフ時点よりも前に存在する可能性が高いことを強調し、AntiLeak-Benchがこの課題を効果的に克服することを示します。

CAD-Recode: ポイントクラウドからのCADコードのリバースエンジニアリング
CAD-Recode: Reverse Engineering CAD Code from Point Clouds

Dec 18

ByDanila Rukhovich, Elona Dupont, Dimitrios Mallis, Kseniya Cherenkova, Anis Kacem, Djamila Aouada

コンピュータ支援設計（CAD）モデルは、一般的にパラメトリックスケッチを順次描画し、CAD操作を適用して3Dモデルを取得することによって構築されます。3D CAD逆設計の問題は、ポイントクラウドなどの3D表現からスケッチとCAD操作のシーケンスを再構築することを含みます。本論文では、CADシーケンス表現、ネットワーク設計、およびデータセットの3つのレベルで新しい貢献を通じてこの課題に取り組みます。特に、CADスケッチ押し出しシーケンスをPythonコードとして表現します。提案されたCAD-Recodeは、ポイントクラウドをPythonコードに変換し、実行するとCADモデルが再構築されるようにします。事前に訓練された大規模言語モデル（LLM）がPythonコードに露出していることを活用し、比較的小規模なLLMをCAD-Recodeのデコーダーとして利用し、軽量なポイントクラウドプロジェクターと組み合わせます。CAD-Recodeは、提案された多様なCADシーケンスの合成データセットを用いて単独で訓練されます。CAD-Recodeは、より少ない入力ポイントを必要としながら、3つのデータセット全体で既存の手法を大幅に上回ります。特に、DeepCADおよびFusion360データセットにおいて、最先端の手法よりも平均シャンファー距離が10倍低い結果を達成します。さらに、CAD Pythonコードの出力が汎用のLLMによって解釈可能であり、CADの編集やCAD固有の質問に対するポイントクラウドからの回答が可能であることを示します。

損傷した歴史文書の元の外観を予測する
Predicting the Original Appearance of Damaged Historical Documents

Dec 16

ByZhenhua Yang, Dezhi Peng, Yongxin Shi, Yuyi Zhang, Chongyu Liu, Lianwen Jin

歴史的文書は文化的な宝を含んでいますが、文字の欠落、紙の損傷、インクの浸食などの深刻な損傷に苦しんでいます。しかしながら、既存の文書処理方法は主に二値化、強調などに焦点を当てており、これらの損傷の修復を無視しています。このため、私たちは、損傷した歴史的文書の元の姿を予測することを目的とする新しいタスク、Historical Document Repair (HDR) を提案します。この分野の空白を埋めるために、大規模なデータセットHDR28Kと歴史的文書修復用の拡散ベースのネットワークDiffHDRを提案します。具体的には、HDR28Kには28,552の損傷修復画像ペアが含まれており、文字レベルの注釈と複数のスタイルの劣化があります。さらに、DiffHDRは、セマンティックおよび空間情報と、文脈的および視覚的整合性のための緻密に設計された文字知覚損失を使用して、バニラの拡散フレームワークを拡張しています。実験結果は、提案されたHDR28Kで訓練されたDiffHDRが既存の手法を大幅に上回り、実際の損傷した文書の処理において優れた性能を発揮することを示しています。特筆すべきは、DiffHDRは文書の編集やテキストブロックの生成にも拡張でき、その高い柔軟性と汎用性を示しています。この研究が文書処理の新たな方向を切り開き、貴重な文化と文明の継承に貢献すると信じています。データセットとコードはhttps://github.com/yeungchenwa/HDRで入手可能です。