AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

GPT-4 システムカード
GPT-4o System Card

Oct 25

ByOpenAI, Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, Aleksander Mądry, Alex Baker-Whitcomb, Alex Beutel, Alex Borzunov, Alex Carney, Alex Chow, Alex Kirillov, Alex Nichol, Alex Paino, Alex Renzin, Alex Tachard Passos, Alexander Kirillov, Alexi Christakis, Alexis Conneau, Ali Kamali, Allan Jabri, Allison Moyer, Allison Tam, Amadou Crookes, Amin Tootoochian, Amin Tootoonchian, Ananya Kumar, Andrea Vallone, Andrej Karpathy, Andrew Braunstein, Andrew Cann, Andrew Codispoti, Andrew Galu, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Angela Baek, Angela Jiang, Antoine Pelisse, Antonia Woodford, Anuj Gosalia, Arka Dhar, Ashley Pantuliano, Avi Nayak, Avital Oliver, Barret Zoph, Behrooz Ghorbani, Ben Leimberger, Ben Rossen, Ben Sokolowsky, Ben Wang, Benjamin Zweig, Beth Hoover, Blake Samic, Bob McGrew, Bobby Spero, Bogo Giertler, Bowen Cheng, Brad Lightcap, Brandon Walkin, Brendan Quinn, Brian Guarraci, Brian Hsu, Bright Kellogg, Brydon Eastman, Camillo Lugaresi, Carroll Wainwright, Cary Bassin, Cary Hudson, Casey Chu, Chad Nelson, Chak Li, Chan Jun Shern, Channing Conger, Charlotte Barette, Chelsea Voss, Chen Ding, Cheng Lu, Chong Zhang, Chris Beaumont, Chris Hallacy, Chris Koch, Christian Gibson, Christina Kim, Christine Choi, Christine McLeavey, Christopher Hesse, Claudia Fischer, Clemens Winter, Coley Czarnecki, Colin Jarvis, Colin Wei, Constantin Koumouzelis, Dane Sherburn, Daniel Kappler, Daniel Levin, Daniel Levy, David Carr, David Farhi, David Mely, David Robinson, David Sasaki, Denny Jin, Dev Valladares, Dimitris Tsipras, Doug Li, Duc Phong Nguyen, Duncan Findlay, Edede Oiwoh, Edmund Wong, Ehsan Asdar, Elizabeth Proehl, Elizabeth Yang, Eric Antonow, Eric Kramer, Eric Peterson, Eric Sigler, Eric Wallace, Eugene Brevdo, Evan Mays, Farzad Khorasani, Felipe Petroski Such, Filippo Raso, Francis Zhang, Fred von Lohmann, Freddie Sulit, Gabriel Goh, Gene Oden, Geoff Salmon, Giulio Starace, Greg Brockman, Hadi Salman, Haiming Bao, Haitang Hu, Hannah Wong, Haoyu Wang, Heather Schmidt, Heather Whitney, Heewoo Jun, Hendrik Kirchner, Henrique Ponde de Oliveira Pinto, Hongyu Ren, Huiwen Chang, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian O'Connell, Ian Osband, Ian Silber, Ian Sohl, Ibrahim Okuyucu, Ikai Lan, Ilya Kostrikov, Ilya Sutskever, Ingmar Kanitscheider, Ishaan Gulrajani, Jacob Coxon, Jacob Menick, Jakub Pachocki, James Aung, James Betker, James Crooks, James Lennon, Jamie Kiros, Jan Leike, Jane Park, Jason Kwon, Jason Phang, Jason Teplitz, Jason Wei, Jason Wolfe, Jay Chen, Jeff Harris, Jenia Varavva, Jessica Gan Lee, Jessica Shieh, Ji Lin, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joanne Jang, Joaquin Quinonero Candela, Joe Beutler, Joe Landers, Joel Parish, Johannes Heidecke, John Schulman, Jonathan Lachman, Jonathan McKay, Jonathan Uesato, Jonathan Ward, Jong Wook Kim, Joost Huizinga, Jordan Sitkin, Jos Kraaijeveld, Josh Gross, Josh Kaplan, Josh Snyder, Joshua Achiam, Joy Jiao, Joyce Lee, Juntang Zhuang, Justyn Harriman, Kai Fricke, Kai Hayashi, Karan Singhal, Katy Shi, Kavin Karthik, Kayla Wood, Kendra Rimbach, Kenny Hsu, Kenny Nguyen, Keren Gu-Lemberg, Kevin Button, Kevin Liu, Kiel Howe, Krithika Muthukumar, Kyle Luther, Lama Ahmad, Larry Kai, Lauren Itow, Lauren Workman, Leher Pathak, Leo Chen, Li Jing, Lia Guy, Liam Fedus, Liang Zhou, Lien Mamitsuka, Lilian Weng, Lindsay McCallum, Lindsey Held, Long Ouyang, Louis Feuvrier, Lu Zhang, Lukas Kondraciuk, Lukasz Kaiser, Luke Hewitt, Luke Metz, Lyric Doshi, Mada Aflak, Maddie Simens, Madelaine Boyd, Madeleine Thompson, Marat Dukhan, Mark Chen, Mark Gray, Mark Hudnall, Marvin Zhang, Marwan Aljubeh, Mateusz Litwin, Matthew Zeng, Max Johnson, Maya Shetty, Mayank Gupta, Meghan Shah, Mehmet Yatbaz, Meng Jia Yang, Mengchao Zhong, Mia Glaese, Mianna Chen, Michael Janner, Michael Lampe, Michael Petrov, Michael Wu, Michele Wang, Michelle Fradin, Michelle Pokrass, Miguel Castro, Miguel Oom Temudo de Castro, Mikhail Pavlov, Miles Brundage, Miles Wang, Minal Khan, Mira Murati, Mo Bavarian, Molly Lin, Murat Yesildal, Nacho Soto, Natalia Gimelshein, Natalie Cone, Natalie Staudacher, Natalie Summers, Natan LaFontaine, Neil Chowdhury, Nick Ryder, Nick Stathas, Nick Turley, Nik Tezak, Niko Felix, Nithanth Kudige, Nitish Keskar, Noah Deutsch, Noel Bundick, Nora Puckett, Ofir Nachum, Ola Okelola, Oleg Boiko, Oleg Murk, Oliver Jaffe, Olivia Watkins, Olivier Godement, Owen Campbell-Moore, Patrick Chao, Paul McMillan, Pavel Belov, Peng Su, Peter Bak, Peter Bakkum, Peter Deng, Peter Dolan, Peter Hoeschele, Peter Welinder, Phil Tillet, Philip Pronin, Philippe Tillet, Prafulla Dhariwal, Qiming Yuan, Rachel Dias, Rachel Lim, Rahul Arora, Rajan Troll, Randall Lin, Rapha Gontijo Lopes, Raul Puri, Reah Miyara, Reimar Leike, Renaud Gaubert, Reza Zamani, Ricky Wang, Rob Donnelly, Rob Honsby, Rocky Smith, Rohan Sahai, Rohit Ramchandani, Romain Huet, Rory Carmichael, Rowan Zellers, Roy Chen, Ruby Chen, Ruslan Nigmatullin, Ryan Cheu, Saachi Jain, Sam Altman, Sam Schoenholz, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Sara Culver, Scott Ethersmith, Scott Gray, Sean Grove, Sean Metzger, Shamez Hermani, Shantanu Jain, Shengjia Zhao, Sherwin Wu, Shino Jomoto, Shirong Wu, Shuaiqi, Xia, Sonia Phene, Spencer Papay, Srinivas Narayanan, Steve Coffey, Steve Lee, Stewart Hall, Suchir Balaji, Tal Broda, Tal Stramer, Tao Xu, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Cunninghman, Thomas Degry, Thomas Dimson, Thomas Raoux, Thomas Shadwell, Tianhao Zheng, Todd Underwood, Todor Markov, Toki Sherbakov, Tom Rubin, Tom Stasi, Tomer Kaftan, Tristan Heywood, Troy Peterson, Tyce Walters, Tyna Eloundou, Valerie Qi, Veit Moeller, Vinnie Monaco, Vishal Kuo, Vlad Fomenko, Wayne Chang, Weiyi Zheng, Wenda Zhou, Wesam Manassra, Will Sheu, Wojciech Zaremba, Yash Patil, Yilei Qian, Yongjik Kim, Youlong Cheng, Yu Zhang, Yuchen He, Yuchen Zhang, Yujia Jin, Yunxing Dai, Yury Malkov

GPT-4oは、テキスト、音声、画像、およびビデオの任意の組み合わせを入力として受け入れ、テキスト、音声、および画像の任意の組み合わせを生成する自己回帰型オムニモデルです。GPT-4oは、テキスト、ビジョン、および音声全体にわたってエンドツーエンドでトレーニングされており、すべての入力と出力が同じニューラルネットワークによって処理されます。GPT-4oは、音声入力に対して最短232ミリ秒で応答し、平均320ミリ秒で応答します。これは、会話における人間の応答時間に類似しています。GPT-4oは、英語とコードのテキストにおいてGPT-4 Turboの性能に匹敵し、非英語の言語のテキストにおいて大幅な改善を達成しています。また、APIにおいてもはるかに高速であり、コストは50\%安くなっています。GPT-4oは、既存のモデルと比較して、特にビジョンと音声理解において優れています。私たちのAIを安全に構築するという取り組みと、ホワイトハウスへの自主的なコミットメントに一貫していることから、GPT-4oシステムカードを共有しています。このシステムカードでは、GPT-4oの能力、制限、および安全性評価に焦点を当て、音声対音声を中心にテキストと画像の能力を評価し、モデルが安全かつ整合していることを確認するために実施した対策について詳細に説明しています。また、危険な能力に関する第三者の評価や、GPT-4oのテキストとビジョンの能力がもたらす潜在的な社会的影響についての議論も含まれています。

Bielik 7B v0.1: ポーランド語言語モデル -- 開発、洞察、および評価
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

私たちは、ポーランド語処理のための70億パラメータの生成テキストモデルであるBielik 7B v0.1を紹介します。厳選されたポーランド語コーパスで訓練されたこのモデルは、革新的な手法を用いて言語モデル開発の主要な課題に取り組んでいます。これには、異なる命令タイプの学習をバランスさせるWeighted Instruction Cross-Entropy Lossや、トレーニングの進行に応じて学習率を動的に調整するAdaptive Learning Rateなどが含まれます。性能を評価するために、Open PL LLM LeaderboardとPolish MT-Benchを作成しました。これらは、さまざまなNLPタスクや会話能力を評価する新しいフレームワークです。Bielik 7B v0.1は、RAG ReaderタスクにおいてMistral-7B-v0.1と比較して平均スコアが9ポイント向上し、著しい改善を示しています。また、特にReasoning（6.15/10）およびRole-playing（7.83/10）カテゴリーにおいて、Polish MT-Benchで優れた成績を収めています。このモデルは、ポーランド語AIの著しい進歩を表しており、多様な言語アプリケーションにおいて強力なツールを提供し、この分野で新たな基準を設定しています。

小規模言語モデルの調査
A Survey of Small Language Models

Oct 25

ByChien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen

小規模言語モデル（SLMs）は、計算リソースを最小限に抑えながら様々な言語タスクを効率的かつ高性能に実行する能力から、デバイス内、モバイル、エッジデバイスなどの様々な環境で理想的とされ、ますます重要性を増しています。本論文では、SLMsに焦点を当て、そのアーキテクチャ、トレーニング技術、モデル圧縮技術について包括的な調査を行います。我々は、SLMsを最適化するために使用される手法を分類するための新しいタクソノミを提案し、モデル圧縮、プルーニング、量子化技術を含む方法を要約します。さらに、SLMsのベンチマークデータセットと、一般的に使用される評価メトリクスをまとめます。加えて、未解決の主要な課題を強調します。我々の調査は、小規模で効率的な言語モデルの開発と展開に興味を持つ研究者や実務家にとって有益なリソースとなることを目指しています。

AgentStore：異種エージェントのスケーラブルな統合を専門とする汎用コンピュータアシスタント
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24

ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu

複雑なコンピュータタスクを自動化するデジタルエージェントは、人間とコンピュータの相互作用を向上させる潜在能力が大きなため、注目を集めています。しかし、既存のエージェント手法は、特に実世界の環境でのオープンエンドのコンピュータタスクの処理において、一般化能力と特化能力において不足が見られます。Appストアの豊富な機能性に着想を得て、私たちはAgentStoreを提案します。これは、コンピュータタスクを自動化するために異種エージェントを動的に統合するために設計されたスケーラブルなプラットフォームです。AgentStoreは、ユーザーがサードパーティのエージェントを統合できるようにし、システムが能力を持続的に充実させ、急速に進化するオペレーティングシステムに適応できるようにします。さらに、私たちは、多様なエージェントを効率的に管理し、それらの特化能力と一般化能力をドメイン固有のタスクとシステム全体のタスクの両方に活用するための新しい中核となるMetaAgentとAgentToken戦略を提案します。3つの難解なベンチマークでの包括的な実験は、AgentStoreが以前の能力の狭いシステムの制限を超え、特にOSWorldベンチマークで11.21％から23.85％に大幅な改善を達成し、以前の結果を倍以上にしたことを示しています。包括的な定量的および定性的結果は、AgentStoreが一般化と特化の両方でエージェントシステムを向上させる能力を示し、特化した一般化コンピュータアシスタントの開発の可能性を強調しています。私たちのすべてのコードは、https://chengyou-jia.github.io/AgentStore-Home で公開されます。

文書解析の解説：構造化情報抽出の技術、課題、展望
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28

ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He

ドキュメントの解析は、契約書、学術論文、請求書などの非構造化および半構造化ドキュメントを構造化された、機械可読データに変換するために不可欠です。ドキュメントの解析は、非構造化の入力から信頼性の高い構造化データを抽出し、多くのアプリケーションにとって大きな利便性を提供します。特に最近の大規模言語モデルの進展により、ドキュメントの解析は知識ベースの構築とトレーニングデータ生成の両方で不可欠な役割を果たしています。この調査は、現在のドキュメント解析の状況について包括的なレビューを提供し、モジュラーパイプラインシステムから大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまでの主要な方法論を網羅しています。レイアウト検出、コンテンツ抽出（テキスト、表、数式を含む）、およびマルチモーダルデータ統合などの中核コンポーネントが詳細に検討されています。さらに、この論文では、複雑なレイアウトの処理、複数のモジュールの統合、高密度テキストの認識において、モジュラーなドキュメント解析システムとビジョン言語モデルが直面する課題について議論しています。より大規模かつ多様なデータセットの開発の重要性を強調し、将来の研究方向を概説しています。

MarDini: スケールでのビデオ生成のためのマスクされた自己回帰拡散
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26

ByHaozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa

MarDiniは、マスク付き自己回帰（MAR）の利点を統合した統一された拡散モデル（DM）フレームワークを導入する新しいビデオ拡散モデルファミリーです。ここでは、MARが時間的な計画を処理し、DMが非対称ネットワーク設計における空間生成に焦点を当てます。i）ほとんどのパラメータを含むMARベースの計画モデルは、低解像度の入力を使用して各マスク付きフレームのための計画信号を生成します。ii）軽量な生成モデルは、これらの信号を使用して拡散除去を介して高解像度フレームを生成します。MarDiniのMARは、任意のマスク付きフレームの数やフレーム位置に条件付けられたビデオ生成を可能にします：単一のモデルでビデオ補間（例：中間フレームのマスキング）、画像からビデオへの生成（例：2番目のフレーム以降のマスキング）、およびビデオ拡張（例：フレームの半分のマスキング）を処理できます。効率的な設計は、計算リソースの大部分を低解像度の計画モデルに割り当て、計算コストがかかるが重要な空間的時間的注意を規模で実現可能にします。MarDiniは、ビデオ補間の最先端を確立し、一方で、わずかな推論ステップ内で、より高価な高度な画像からビデオへのモデルと同等の効率でビデオを生成します。

COAT: メモリ効率の高いFP8トレーニングのための最適化状態と活性化の圧縮
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25

ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han

FP8トレーニングは、トレーニング効率を向上させる有望な方法として登場しています。既存のフレームワークは、FP8演算を線形層に適用してトレーニングを加速させますが、最適化器の状態と活性化をより高い精度で残すことで、メモリ使用量の最適化が不十分です。本論文では、大規模モデルのトレーニング時のメモリフットプリントを大幅に削減するよう設計された新しいFP8トレーニングフレームワークであるCOAT（Compressing Optimizer States and Activations for FP8 Training）を紹介します。COATは、現在の制限事項に対処するために、次の2つの主要な革新を通じて行います：（1）Dynamic Range Expansionは、最適化器の状態分布をFP8表現範囲により近づけることで、量子化誤差を減らし、（2）Mixed-Granularity Activation Quantizationは、テンソルごととグループごとの量子化戦略の組み合わせを使用して、活性化メモリを最適化します。実験では、COATが、BF16と比較してエンドツーエンドのトレーニングメモリフットプリントを1.54倍削減し、大規模言語モデルの事前トレーニングや微調整、ビジョン言語モデルのトレーニングなど、さまざまなタスクでほぼ損失なくパフォーマンスを達成することを示しています。また、COATは、BF16と比較してエンドツーエンドのトレーニングスピードアップを1.43倍実現し、TransformerEngineのスピードアップと同等以上の性能を発揮します。COATは、少ないGPUで大規模モデルの効率的なフルパラメータートレーニングを可能にし、分散トレーニング設定でのバッチサイズの2倍化を容易にし、大規模モデルのトレーニングをスケーリングするための実用的なソリューションを提供します。コードはhttps://github.com/NVlabs/COAT で入手可能です。

DreamClear: プライバシー保護データセットのキュレーションを活用した高容量の実世界画像修復
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24

ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang

現実世界のシナリオにおける画像修復（IR）は、高容量モデルと包括的なデータセットの不足により、著しい課題を抱えています。これらの問題に対処するために、私たちは二つの戦略を提案します。まず、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散トランスフォーマー（DiT）ベースの画像修復モデルであるDreamClearです。GenIRは、既存のデータセットが通常数千枚しか含まれず、より大規模なモデルに対する一般化能力が限られているという制約を克服する、二重プロンプト学習パイプラインです。GenIRは、画像テキストペアの構築、二重プロンプトに基づく微調整、データ生成とフィルタリングという3つの段階にプロセスを簡素化します。このアプローチにより、手間のかかるデータクローリングプロセスを回避し、著作権の遵守を確保し、IRデータセットの構築に費用対効果の高いプライバシー保護のソリューションを提供します。その結果、100万枚の高品質画像からなる大規模データセットが生成されます。次に、DreamClearは、DiTベースの画像修復モデルです。このモデルは、テキストから画像への拡散モデル（T2I）の生成事前知識と、多モーダル大規模言語モデル（MLLMs）の堅牢な知覚能力を活用して、写実的な修復を実現します。さまざまな現実世界の劣化に対するモデルの適応性を向上させるために、Mixture of Adaptive Modulator（MoAM）を導入します。これにより、トークンごとの劣化事前知識を使用して、さまざまな修復専門家を動的に統合し、モデルが対処できる劣化の範囲を拡大します。私たちの徹底的な実験は、DreamClearの優れたパフォーマンスを確認し、現実世界の画像修復に対する私たちの二重戦略の効果を裏付けています。コードと事前学習済みモデルは以下で入手可能です：https://github.com/shallowdream204/DreamClear.

LongReward: AIによる長いコンテキストを持つ大規模言語モデルの改善
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28

ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

長い文脈を持つ大規模言語モデル（LLM）の開発においては、重要な進展が達成されてきましたが、監督された微調整（SFT）のためのLLM合成データの品質が損なわれることがしばしばあり、これがSFTモデルの長い文脈でのパフォーマンスに影響を与え、固有の制限を引き起こすことがあります。原則として、適切な報酬信号を用いた強化学習（RL）はモデルの能力をさらに向上させることができます。ただし、長い文脈のシナリオで信頼性の高い報酬をどのように獲得するかは未解明のままです。このため、私たちは、4つの人間価値の次元（有益性、論理性、忠実性、完全性）からの長い文脈モデル応答に報酬を提供するために、市販のLLMを利用する新しい手法であるLongRewardを提案します。LongRewardとオフラインRLアルゴリズムDPOを組み合わせることで、長い文脈のSFTモデルを効果的に改善することができます。実験の結果、LongRewardはモデルの長い文脈でのパフォーマンスを著しく向上させるだけでなく、短い指示に従う能力も向上させることが示されました。また、LongRewardと従来の短い文脈DPOを組み合わせた長い文脈DPOは、どちらのパフォーマンスも損なうことなく共存できることも分かりました。

GrounDiT: ノイズのあるパッチ移植を介したグラウンディフュージョントランスフォーマー
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27

ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung

我々は、Diffusion Transformers（DiT）を用いた画像生成のための新しいトレーニング不要の空間基盤技術を紹介します。バウンディングボックスを用いた空間基盤は、そのシンプルさと汎用性から注目されており、画像生成においてユーザーのコントロールを強化することが可能です。しかしながら、従来のトレーニング不要の手法は、しばしばノイズの多い画像をカスタム損失関数からの逆拡散プロセスによる逆伝搬を用いて更新することに依存しており、個々のバウンディングボックスに対する正確な制御を提供するのに苦労することがよくあります。本研究では、Transformerアーキテクチャの柔軟性を活用し、DiTが各バウンディングボックスに対応するノイズの多いパッチを生成し、対象オブジェクトを完全にエンコードし、各領域に対する細かい制御を可能にすることを示します。我々の手法は、DiTの興味深い特性である「意味共有」に基づいて構築されています。意味共有により、より小さなパッチが生成可能なサイズの画像と共に共同でノイズ除去されると、その2つは「意味的クローン」となります。各パッチは生成プロセスの独自の枝でノイズ除去され、それから各タイムステップで元のノイズの多い画像の対応領域に移植されるため、各バウンディングボックスに対する堅牢な空間基盤が実現されます。HRSとDrawBenchのベンチマーク実験において、従来のトレーニング不要の空間基盤手法と比較して、最先端のパフォーマンスを達成しました。

ビジョン検索アシスタント：ビジョン言語モデルをマルチモーダル検索エンジンとして強化する
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28

ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

検索エンジンは、テキストを用いて未知の情報を取得することを可能にします。しかし、伝統的な方法は、見慣れない視覚コンテンツを理解する際には不十分であり、例えばモデルが以前に見たことのないオブジェクトを識別する場合などに問題が生じます。この課題は、大規模なビジョン言語モデル（VLMs）にとって特に顕著です。もしモデルが画像に描かれたオブジェクトに触れたことがない場合、その画像に関するユーザーの質問に信頼性のある回答を生成することが難しくなります。さらに、新しいオブジェクトやイベントが継続的に現れる中、VLMsを頻繁に更新することは、高い計算負荷のため実用的ではありません。この制限に対処するために、我々はVision Search Assistantを提案します。これは、VLMsとWebエージェントの協力を促進する新しいフレームワークです。このアプローチは、VLMsの視覚理解能力とWebエージェントのリアルタイム情報アクセスを活用し、Webを介したオープンワールドの検索増強生成を行います。この協力を通じて視覚的およびテキスト表現を統合することで、システムにとって画像が新しい場合でも、モデルは情報を提供できます。オープンセットおよびクローズドセットのQAベンチマークで実施された幅広い実験は、Vision Search Assistantが他のモデルを大幅に上回り、既存のVLMsに広く適用できることを示しています。

スペキュラティブリジェクションを用いた高速なベストオブNデコーディング
Fast Best-of-N Decoding via Speculative Rejection

Oct 26

ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette

大規模言語モデル（LLM）の安全で効果的な展開には、モデルの応答が人間の選好に一致するようにするための重要なステップであるアラインメントが関わっています。DPO、PPOなどの一般的なアラインメント手法は、事前学習済みモデルの重みを変更することでLLMをアラインメントさせる、ポストトレーニングと呼ばれる段階で行われます。主流であるこれらのポストトレーニング手法は、LLMを展開する前に複雑さを増加させます。推論時のアラインメント手法は、複雑なポストトレーニング手順を回避し、代わりに人間の選好に合致する応答にバイアスをかけます。最もよく知られた推論時のアラインメント手法であるBest-of-Nは、最先端のポストトレーニング手法と同等に効果的です。残念ながら、Best-of-Nは標準のデコーディング戦略よりもはるかに多くのリソースを推論時に必要とし、計算上実行不可能となります。本研究では、計算上実行可能な推論時のアラインメントアルゴリズムであるSpeculative Rejectionを紹介します。Best-of-Nと同様に、与えられた報酬モデルに従って高得点の応答を生成しますが、計算上は16から32倍効率的です。

LARP: 学習された自己回帰生成事前分布を用いたビデオのトークン化
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28

ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

我々は、LARPを提案する。これは、自己回帰生成モデル向けの現行のビデオトークナイゼーション手法の制限を克服するために設計された革新的なビデオトークナイザーである。従来のパッチ単位のトークナイザーが、視覚パッチを直接離散トークンにエンコードするのに対し、LARPは、学習された包括的なクエリのセットを使用して視覚コンテンツから情報を収集する包括的なトークナイゼーションスキームを導入している。この設計により、LARPは、局所のパッチレベルの情報に限定されるのではなく、よりグローバルで意味のある表現を捉えることができる。さらに、任意の数の離散トークンをサポートする柔軟性を提供し、タスクの特定の要件に基づいて適応的かつ効率的なトークナイゼーションを実現する。離散トークン空間を下流の自己回帰生成タスクに整合させるために、LARPは、軽量な自己回帰トランスフォーマーを統合して、トレーニング時の事前モデルとして次のトークンを離散的な潜在空間で予測する。トレーニング中に事前モデルを組み込むことで、LARPは、ビデオ再構成に最適化された潜在空間を学習するだけでなく、自己回帰生成にも適した構造になる。さらに、このプロセスにより、離散トークンに対する連続した順序が定義され、トレーニング中に最適な構成に逐次的に推進され、推論時によりスムーズで正確な自己回帰生成が保証される。包括的な実験により、LARPの強力なパフォーマンスが示され、UCF101クラス条件付きビデオ生成ベンチマークで最先端のFVDを達成している。LARPは、自己回帰モデルとビデオの互換性を高め、統一された高品質なマルチモーダル大規模言語モデル（MLLMs）の構築の可能性を開く。

EoRA: 圧縮LLMのためのトレーニング不要な補償手法としての固有空間低ランク近似
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28

ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen

本研究では、モデル圧縮の問題をカスタマイズされた補償問題に再構築します。圧縮されたモデルが与えられた場合、ユーザーの要件（例：タスク、圧縮率）に合わせて残差の低ランクパスを導入し、特定の圧縮形式に制約されることなく、全体的な容量を調整する柔軟性を実現します。ただし、残差パスを導出するために単純にSVDを適用すると、低ランク表現容量の最適な利用が妨げられます。その代わりに、我々は訓練不要の固有空間低ランク近似（EoRA）という手法を提案します。この手法は、勾配ベースのトレーニングを必要とせずに、圧縮によるエラーを直接最小化し、少量のキャリブレーションデータを使用して数分で高速最適化を実現します。EoRAは、圧縮エラーを入力活性化の固有空間に射影し、固有値を活用して高重要度のエラーコンポーネントの再構築を効果的に優先します。さらに、EoRAは微調整や量子化とシームレスに統合され、効果と効率をさらに向上させることができます。EoRAは、言語生成、常識推論、数学推論などの様々なタスクで、圧縮LLaMA2/3モデルのエラー補償において、従来の手法を常に上回ります（例：ARC-Easy/ARC-Challengeにおいて31.31％/12.88％、MathQAにおいて9.69％の改善が見られ、LLaMA3-8Bの4ビット量子化および2:4スパース化を補償する際）。EoRAは、圧縮エラーの補償に訓練不要のスケーラブルな解決策を提供し、異なる容量と効率の要件に合わせてLLMを展開するための強力なツールとなります。

VideoWebArena：ビデオを用いた長いコンテキストのマルチモーダルエージェントを評価するためのWebタスク理解
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Oct 24

ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida

動画は、テキストや静止画像だけでは提供できない方法で、学習や必要な情報の抽出にしばしば使用されます。しかし、多くの既存のエージェントのベンチマークは、長いコンテキストの動画理解を無視し、代わりにテキストや静止画像の入力に焦点を当てています。このギャップを埋めるために、私たちはVideoWebArena（VideoWA）を導入し、動画理解のための長いコンテキストのマルチモーダルエージェントの能力を評価するためのベンチマークを提供します。VideoWAには、手作業で作成された動画チュートリアルに基づく2,021のWebエージェントタスクが含まれており、合計約4時間のコンテンツが含まれています。私たちのベンチマークでは、長いコンテキストの動画ベースのエージェントタスクのためのタクソノミーを定義し、スキル保持と事実保持の2つの主要な焦点領域を持っています。スキル保持タスクは、エージェントが与えられた人間のデモンストレーションを使用してタスクを効率的に完了できるかどうかを評価し、事実保持タスクは、エージェントがタスクを完了するために動画から指示に関連する情報を取得できるかどうかを評価します。最良のモデルは、事実保持タスクで13.3％の成功率、事実保持QAペアで45.8％の成功率を達成しましたが、これは人間の73.9％と79.3％と比べて大幅に低いです。スキル保持タスクでは、長いコンテキストモデルはチュートリアルを使用する場合よりも悪い結果を示し、WebArenaタスクでは5％、VisualWebArenaタスクでは10.3％の性能低下が見られました。私たちの研究は、長いコンテキストのマルチモーダルモデルのエージェント能力を向上させる必要性を示し、長いコンテキストの動画エージェントの将来の開発のためのテストベッドを提供しています。

リラックスした再帰トランスフォーマー：層ごとのLoRAを用いた効果的なパラメータ共有
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Oct 28

BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster

大規模言語モデル（LLMs）の展開には高コストがかかります。パラメータ共有は、そのサイズとコストを削減する可能性のある方法ですが、現代のLLMsにおける効果はかなり限定されています。本研究では、Transformersにおけるパラメータ共有の形態である「レイヤー結合」を再考し、既存のLLMsをより小さな「再帰Transformers」に変換するための新しい手法を導入しました。ここでは、当社の再帰Transformersは、標準の事前学習済Transformersから効率的に初期化されますが、一意のブロックのレイヤーを1つだけ使用し、それをループ内で複数回繰り返します。さらに、深さ方向の低ランク適応（LoRA）モジュールを介してレイヤー結合制約に柔軟性を追加するRelaxed Recursive Transformersを導入することで、全体モデルのコンパクト性を維持しつつ性能を向上させます。当社の再帰モデル（例：再帰Gemma 1B）は、同様のサイズのバニラ事前学習済モデル（TinyLlama 1.1BやPythia 1Bなど）および知識蒸留のベースラインを上回り、元の「フルサイズ」モデル（共有パラメータのないGemma 2Bなど）の性能のほとんどを回復できることを示しています。最後に、再帰Transformerと早期終了を組み合わせた場合に可能となる有望な新しい推論パラダイムである連続深さ方向バッチングを提案します。理論的な分析では、これが推論スループットの大幅な（2〜3倍）向上につながる可能性があることを示しています。

Dialog2Flow: 自動対話フロー抽出のための事前学習ソフトコントラスティブアクション駆動型文エンベッディング
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

Oct 24

BySergio Burdisso, Srikanth Madikeri, Petr Motlicek

未注釈の対話から構造化されたワークフローを効率的に導出することは、計算言語学において未開拓であり、困難な課題です。このプロセスを自動化することは、新しい領域でのワークフローの手動設計を大幅に加速し、大規模言語モデルを特定の領域固有のフローチャートに基づかせ、透明性と制御可能性を高めることができます。本論文では、Dialog2Flow（D2F）埋め込みを紹介し、これは発話をコミュニケーションおよび情報機能（つまり、それらが表すアクション）に従ってグループ化することによって、従来の文埋め込みとは異なります。D2Fは、発話を潜在空間内の連続的な軌跡としてモデリングすることを可能にし、異なるアクションに関連する領域を持つ潜在空間として機能します。D2F埋め込みをクラスタリングすることで、潜在空間が量子化され、対話を領域/アクションIDのシーケンスに変換することができ、基礎となるワークフローを抽出するのを容易にします。D2Fを事前学習するために、20のタスク指向対話データセットを統合し、ターンごとのアクション注釈を正規化した包括的なデータセットを構築します。また、これらのアクションの意味情報を活用して表現学習プロセスを導く新しいソフトコントラスティブ損失を導入し、標準の教師ありコントラスティブ損失と比較して優れた性能を示します。対話固有のものを含むさまざまな文埋め込みに対する評価では、D2Fが多様な領域で優れた質的および量的結果をもたらすことが示されています。

ロボティクスにおけるニューラルフィールド：サーベイ
Neural Fields in Robotics: A Survey

Oct 26

ByMuhammad Zubair Irshad, Mauro Comi, Yen-Chen Lin, Nick Heppert, Abhinav Valada, Rares Ambrus, Zsolt Kira, Jonathan Tremblay

ニューラルフィールドは、コンピュータビジョンやロボティクスにおける3Dシーン表現の革新的なアプローチとして登場し、2Dデータからの幾何学、3Dセマンティクス、およびダイナミクスの正確な推論を可能にしました。微分可能なレンダリングを活用することで、ニューラルフィールドは連続的な暗黙的および明示的なニューラル表現の両方を包括し、高精度な3D再構築、マルチモーダルセンサーデータの統合、および新しい視点の生成を実現しています。この調査は、ロボティクスにおけるニューラルフィールドの応用を探究し、知覚、計画、および制御の向上に対する潜在的な可能性を強調しています。そのコンパクトさ、メモリ効率、および微分可能性、さらには基盤と生成モデルとのシームレスな統合により、リアルタイムアプリケーションに最適であり、ロボットの適応性と意思決定を向上させます。本論文は、ロボティクスにおけるニューラルフィールドの包括的なレビューを提供し、200以上の論文に基づいて、さまざまな領域での応用を分類し、その強みと制限を評価しています。まず、4つの主要なニューラルフィールドフレームワークを提示します：占有ネットワーク、符号付き距離フィールド、ニューラル輝度フィールド、およびガウススプラッティング。次に、ポーズ推定、操作、ナビゲーション、物理、自律走行の5つの主要なロボティクス領域でのニューラルフィールドの応用について詳細に説明し、主要な研究と議論の要点、および課題を取り上げます。最後に、ロボティクスにおけるニューラルフィールドの現在の制限を概説し、将来の研究に向けた有望な方向を提案します。プロジェクトページ：https://robonerf.github.io

言語モデルと第2の意見のユースケース：ポケットプロフェッショナル
Language Models And A Second Opinion Use Case: The Pocket Professional

Oct 27

ByDavid Noever

この研究は、特に経験豊富な医師でも同僚の助言を求める複雑な医療事例に焦点を当て、大規模言語モデル（LLMs）の役割を専門家の意思決定における公式の第二意見ツールとしてテストしています。研究では、Medscapeから20か月間にわたり183の難解な医療事例を分析し、複数のLLMsのパフォーマンスをクラウドソーシングされた医師の回答と比較しました。最新の基盤モデルにおいて高い全体的なスコアが可能であるという重要な発見がありました（合意意見と比較して80％以上の精度）、これは同じ臨床事例（患者プロファイル、検査結果450ページ）に関する多くの人間の指標を上回っています。研究は、明快な事例（精度81％以上）と複雑なシナリオ（精度43％）の間のLLMsのパフォーマンスの格差を評価しました。特に、これらの事例は人間の医師の間で議論が活発になるものでした。この研究は、LLMsが主要な診断ツールとしてではなく包括的な鑑別診断の生成者として有用である可能性があり、臨床的な意思決定における認知バイアスを緩和し、認知負荷を軽減し、医療エラーの一部の原因を取り除くのに役立つことを示しています。第二の比較的な法的データセット（最高裁判所の事例、N=21）の追加は、第二意見を促進するためのAIの使用に対する経験的な文脈を提供しますが、これらの法的課題はLLMsが分析するのがはるかに容易であることが証明されました。LLMsの精度に関する元の貢献に加えて、この研究は、LLMsと異なる意見を持つ人間の実務者の間の高度に争われた質問と回答の信頼性を評価するための新しい基準を集約しました。これらの結果は、専門家の設定でのLLMsの最適な展開が、ルーチン業務の自動化を重視する現在のアプローチと大きく異なる可能性があることを示唆しています。

ロボット操作におけるサンプル効率を向上させるための局所性の活用
Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

Jun 15

ByTong Zhang, Yingdong Hu, Jiacheng You, Yang Gao

現実世界でのロボティクスデータ収集の高いコストを考慮すると、サンプル効率はロボティクスにおいて一貫して魅力的な追求となっています。本論文では、視覚と行動表現の改善を通じてサンプル効率を向上させる模倣学習フレームワークであるSGRv2を紹介します。SGRv2の設計の中心にあるのは、ロボットの行動が主に目標物体とその周囲の環境との相互作用に影響を受けるという重要な帰納バイアスである「行動局所性」の組み込みです。シミュレートおよび実世界の両方での広範な実験により、行動局所性がサンプル効率向上に不可欠であることが示されています。SGRv2は、わずか5つのデモンストレーションを使用してRLBenchタスクでキーフレーム制御を優れた成績で達成し、26のタスクのうち23でRVTベースラインを上回ります。さらに、ManiSkill2とMimicGenでの密な制御を使用した評価では、SGRv2の成功率はSGRの2.54倍です。実世界環境では、わずか8つのデモンストレーションで、SGRv2はベースラインモデルと比較して著しく高い成功率でさまざまなタスクを実行できます。プロジェクトのウェブサイト：http://sgrv2-robot.github.io

ヒューマノイドロボットのためのバイレベル動作模倣
Bi-Level Motion Imitation for Humanoid Robots

Oct 2

ByWenshuai Zhao, Yi Zhao, Joni Pajarinen, Michael Muehlebach

ヒューマンモーションキャプチャ（MoCap）データからの模倣学習は、ヒューマノイドロボットを訓練する有望な方法を提供します。ただし、関節の自由度や力の制限などの形態学的な違いにより、ヒューマノイドロボットにとって人間の行動を正確に複製することが困難な場合があります。そのため、物理的に実現不可能なMoCapデータを訓練データセットに組み込むことは、ロボットポリシーのパフォーマンスに悪影響を与える可能性があります。この問題に対処するために、ロボットポリシーと目標となるMoCapデータの両方を最適化するバイレベル最適化ベースの模倣学習フレームワークを提案します。具体的には、まず、新しい自己整合オートエンコーダを使用して、疎で構造化されたモーション表現を学習し、データセット内の望ましいモーションパターンを捉えるジェネレーティブ潜在ダイナミクスモデルを開発します。次に、ダイナミクスモデルを使用してリファレンスモーションを生成し、潜在表現がバイレベルモーション模倣プロセスを正規化します。ヒューマノイドロボットの現実的なモデルで実施されたシミュレーションは、当社の手法がリファレンスモーションを物理的に整合させることでロボットポリシーを向上させることを示しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

GPT-4 システムカード
GPT-4o System Card

Oct 25

Bielik 7B v0.1: ポーランド語言語モデル -- 開発、洞察、および評価
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

小規模言語モデルの調査
A Survey of Small Language Models

Oct 25

AgentStore：異種エージェントのスケーラブルな統合を専門とする汎用コンピュータアシスタント
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24

ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu

文書解析の解説：構造化情報抽出の技術、課題、展望
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28

ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He

MarDini: スケールでのビデオ生成のためのマスクされた自己回帰拡散
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26

COAT: メモリ効率の高いFP8トレーニングのための最適化状態と活性化の圧縮
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25

ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han

DreamClear: プライバシー保護データセットのキュレーションを活用した高容量の実世界画像修復
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24

ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang

LongReward: AIによる長いコンテキストを持つ大規模言語モデルの改善
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28

ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

GrounDiT: ノイズのあるパッチ移植を介したグラウンディフュージョントランスフォーマー
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27

ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung

ビジョン検索アシスタント：ビジョン言語モデルをマルチモーダル検索エンジンとして強化する
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28

ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

スペキュラティブリジェクションを用いた高速なベストオブNデコーディング
Fast Best-of-N Decoding via Speculative Rejection

Oct 26

ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette

LARP: 学習された自己回帰生成事前分布を用いたビデオのトークン化
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28

ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

EoRA: 圧縮LLMのためのトレーニング不要な補償手法としての固有空間低ランク近似
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28

ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen

VideoWebArena：ビデオを用いた長いコンテキストのマルチモーダルエージェントを評価するためのWebタスク理解
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Oct 24

ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida

リラックスした再帰トランスフォーマー：層ごとのLoRAを用いた効果的なパラメータ共有
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Oct 28

BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster

Dialog2Flow: 自動対話フロー抽出のための事前学習ソフトコントラスティブアクション駆動型文エンベッディング
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

Oct 24

BySergio Burdisso, Srikanth Madikeri, Petr Motlicek