Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
383
最近のChain of Thought(COT)生成の進展により、大規模言語モデル(LLMs)の推論能力が大幅に向上し、強化学習(RL)が効果的なポストトレーニング手法として注目を集めています。マルチモーダル大規模言語モデル(MLLMs)はこの推論能力を継承していますが、知覚と論理的推論の両方を必要とするタスクではまだ十分に探索されていません。この問題に対処するため、我々はSEED-Bench-R1を導入しました。これは、ビデオ理解におけるMLLMsのポストトレーニング手法を体系的に評価するためのベンチマークです。SEED-Bench-R1には、複雑な現実世界のビデオと日常の計画タスクが多肢選択問題の形式で含まれており、高度な知覚と推論を必要とします。SEED-Bench-R1は、分布内、環境間、環境間タスクの3段階の階層を通じて汎化能力を評価し、容易に検証可能な正解を持つ大規模なトレーニングデータセットを備えています。Qwen2-VL-Instruct-7Bをベースモデルとして使用し、RLと教師ありファインチューニング(SFT)を比較した結果、RLがデータ効率に優れ、分布内および分布外タスクの両方で優れた性能を示し、LongVideoBenchのような一般的なビデオ理解ベンチマークでもSFTを上回ることが明らかになりました。詳細な分析により、RLが視覚的知覚を強化する一方で、論理的に一貫した推論連鎖を生成することが少ないことが判明しました。我々は、一貫性のない推論や見落とされた視覚的キューといった主要な限界を特定し、ベースモデルの推論能力、報酬モデリング、ノイズに対するRLのロバスト性の改善に向けた将来の課題を提案します。
Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken
342
帰納的プログラム合成、または例によるプログラミングでは、未見の入力に対しても一般化可能な関数を入力-出力例から合成する必要があります。大規模言語モデルエージェントは、自然言語に基づくプログラミングタスクで有望な成果を示していますが、帰納的プログラム合成を行う能力については十分に検証されていません。既存の評価プロトコルは、静的な例セットとホールドアウトテストに依存しており、合成された関数が誤っている場合にフィードバックを提供せず、リバースエンジニアリングなどの現実世界のシナリオを反映していません。本論文では、CodeARC(Code Abstraction and Reasoning Challenge)という新しい評価フレームワークを提案します。このフレームワークでは、エージェントが隠されたターゲット関数と対話し、新しい入力をクエリとして送信し、候補関数を合成し、差分テストオラクルを使用して反復的に解を改良します。このインタラクティブな設定により、エージェントはフィードバックに基づいて関数呼び出しと自己修正を行うことが促されます。我々は、汎用帰納的プログラム合成のための最初の大規模ベンチマークを構築し、1114の関数を特徴としています。評価された18のモデルの中で、o3-miniが52.7%の成功率で最高の性能を示し、このタスクの難しさを浮き彫りにしました。LLaMA-3.1-8B-Instructを精選された合成トレースでファインチューニングすると、最大31%の相対的性能向上が得られました。CodeARCは、LLMベースのプログラム合成と帰納的推論を評価するための、より現実的で挑戦的なテストベッドを提供します。
Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
72
長時間動画のチャプター分割、すなわち動画タイムラインを意味的な単位に分割し、対応するチャプタータイトルを生成するタスクに取り組みます。比較的未開拓の領域である自動チャプター分割は、長時間動画における効率的なナビゲーションとコンテンツ検索を可能にする潜在能力を秘めています。本論文では、'Chapter-Llama'フレームワークを用いてテキスト領域でこの問題に効率的に取り組むことで、1時間以上の長時間動画において優れたチャプター分割性能を達成します。具体的には、大規模なコンテキストウィンドウを持つ事前学習済み大規模言語モデル(LLM)を活用し、(i)音声書き起こしと(ii)ビデオフレームを説明するキャプション、およびそれぞれのタイムスタンプを入力として与えます。すべてのフレームにキャプションを付ける非効率性を考慮し、音声書き起こしの内容に基づいた軽量な音声誘導フレーム選択戦略を提案し、実験的にその顕著な利点を実証します。LLMを、チャプター境界のタイムスタンプと自由形式のチャプタータイトルを出力するように訓練します。このシンプルでありながら強力なアプローチにより、1時間の長時間動画を単一のフォワードパスで処理することが可能になります。最新のVidChapters-7Mベンチマークにおいて、従来の最先端技術と比較して大幅な改善(例:45.3 vs 26.7 F1スコア)を実証しました。さらなる研究を促進するため、プロジェクトページでコードとモデルを公開しています。