Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
774
현재 비디오 생성 커뮤니티 내에서 정확한 사용자 의도 해석의 병목 현상을 해결하기 위해, 우리는 어떤 조건에서도 제어 가능한 비디오 생성을 위한 새로운 프레임워크인 Any2Caption을 제안합니다. 핵심 아이디어는 다양한 조건 해석 단계를 비디오 합성 단계에서 분리하는 것입니다. 최신 멀티모달 대형 언어 모델(MLLMs)을 활용하여, Any2Caption은 텍스트, 이미지, 비디오, 그리고 영역, 움직임, 카메라 포즈와 같은 특수한 신호를 포함한 다양한 입력을 밀도 높고 구조화된 캡션으로 해석합니다. 이는 백본 비디오 생성기에 더 나은 지침을 제공합니다. 또한, 우리는 337K 인스턴스와 407K 조건을 포함한 대규모 데이터셋인 Any2CapIns를 소개합니다. 이 데이터셋은 어떤 조건에서 캡션으로의 명령 튜닝을 위해 설계되었습니다. 포괄적인 평가를 통해, 우리 시스템이 기존 비디오 생성 모델의 다양한 측면에서 제어 가능성과 비디오 품질에서 상당한 개선을 보여줌을 입증합니다. 프로젝트 페이지: https://sqwu.top/Any2Cap/
Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
616
대규모 언어 모델(LLM)이 평가자로 부상함에 따라 인간 주석의 확장 가능한 대안이 등장했지만, 복잡한 추론이 필요한 영역에서 기존의 감독 미세 조정(SFT) 기반 판단 모델 접근법은 종종 한계를 보입니다. 본 연구에서는 LLM 판단자가 실제로 향상된 추론 능력으로부터 이득을 얻는지 조사합니다. 평가 과제 전반에 걸친 추론 요구 사항에 대한 상세한 분석을 통해, SFT 성능 향상과 추론이 필요한 샘플 비율 간에 음의 상관관계가 있음을 밝혀냄으로써 이러한 시나리오에서 SFT의 한계를 강조합니다. 이를 해결하기 위해, 우리는 판단자 중심의 보상을 활용한 강화 학습(RL)으로 훈련된 판단 지향 LLM 패밀리인 JudgeLRM을 소개합니다. JudgeLRM 모델들은 SFT 조정 모델과 최첨단 추론 모델 모두를 꾸준히 능가합니다. 특히, JudgeLRM-3B는 GPT-4를 능가하며, JudgeLRM-7B는 DeepSeek-R1을 F1 점수에서 2.79% 앞서며, 깊은 추론이 필요한 판단 과제에서 특히 뛰어난 성능을 보입니다.
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
522
소프트 어텐션(Soft Attention)은 LLM(Large Language Models)이 주어진 컨텍스트 내에서 관련 부분을 찾아내는 데 중요한 메커니즘으로 작용합니다. 그러나 개별 어텐션 가중치는 단일 쿼리와 키 토큰 벡터 간의 유사성에 의해 결정됩니다. 이러한 "단일 토큰 어텐션"은 컨텍스트 내에서 관련 부분을 구별하는 데 사용되는 정보의 양을 제한하는 병목 현상을 초래합니다. 이 문제를 해결하기 위해, 우리는 새로운 어텐션 방법인 멀티 토큰 어텐션(Multi-Token Attention, MTA)을 제안합니다. MTA는 LLM이 여러 쿼리와 키 벡터를 동시에 고려하여 어텐션 가중치를 결정할 수 있도록 합니다. 이는 쿼리, 키, 그리고 헤드에 컨볼루션 연산을 적용함으로써 인접한 쿼리와 키가 서로의 어텐션 가중치에 영향을 미치게 하여 더 정밀한 어텐션을 가능하게 합니다. 결과적으로, 우리의 방법은 단일 벡터의 용량을 초과할 수 있는 더 풍부하고 세밀한 정보를 활용하여 관련 컨텍스트를 찾아낼 수 있습니다. 광범위한 평가를 통해, MTA가 다양한 인기 벤치마크에서 향상된 성능을 달성함을 입증했습니다. 특히, 표준 언어 모델링 작업과 긴 컨텍스트 내에서 정보를 검색해야 하는 작업에서 Transformer 기반 모델을 능가하며, 우리 방법이 더 풍부한 정보를 활용할 수 있는 능력이 특히 유용함을 보여줍니다.
Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
383
최근 사고의 연쇄(Chain of Thought, COT) 생성 기술의 발전으로 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력이 크게 향상되었으며, 강화 학습(Reinforcement Learning, RL)이 효과적인 사후 학습(post-training) 접근법으로 부상하고 있습니다. 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 이러한 추론 잠재력을 물려받았지만, 지각과 논리적 추론이 모두 필요한 작업에서는 아직 충분히 탐구되지 않고 있습니다. 이를 해결하기 위해, 우리는 비디오 이해를 위한 MLLM의 사후 학습 방법을 체계적으로 평가하기 위한 벤치마크인 SEED-Bench-R1을 소개합니다. 이 벤치마크는 복잡한 실세계 비디오와 일상적인 계획 작업을 객관식 질문 형식으로 포함하며, 정교한 지각과 추론을 요구합니다. SEED-Bench-R1은 세 가지 수준의 일반화 시나리오(내부 분포, 교차 환경, 교차 환경-작업)를 통해 일반화 능력을 평가하며, 쉽게 검증 가능한 정답을 포함한 대규모 학습 데이터셋을 제공합니다. Qwen2-VL-Instruct-7B를 기본 모델로 사용하여 RL과 지도 미세 조정(Supervised Fine-Tuning, SFT)을 비교한 결과, RL이 데이터 효율성과 내부 분포 및 외부 분포 작업 모두에서 우수한 성능을 보였으며, LongVideoBench와 같은 일반 비디오 이해 벤치마크에서도 SFT를 능가하는 것으로 나타났습니다. 우리의 상세한 분석은 RL이 시각적 지각을 향상시키지만, 종종 논리적으로 일관성이 떨어지는 추론 체인을 생성한다는 것을 보여줍니다. 또한, 일관성 없는 추론과 간과된 시각적 단서와 같은 주요 한계를 식별하고, 기본 모델의 추론, 보상 모델링, 그리고 잡음 신호에 대한 RL의 견고성 향상을 위한 미래 개선 방향을 제안합니다.
Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
367
최첨단 멀티모달 대형 언어 모델(LLM) 사전 학습의 재현은 고품질 데이터 필터링, 멀티모달 데이터 혼합 전략, 시퀀스 패킹 기술, 그리고 학습 프레임워크 등 파이프라인의 모든 단계에서 장벽에 직면합니다. 우리는 Open-Qwen2VL을 소개합니다. 이는 29M개의 이미지-텍스트 쌍을 사용하여 단 442 A100-40G GPU 시간만으로 효율적으로 사전 학습된 완전 오픈소스 2B 파라미터 멀티모달 대형 언어 모델입니다. 우리의 접근 방식은 낮은 해상도에서 높은 해상도로의 동적 이미지 해상도와 멀티모달 시퀀스 패킹을 사용하여 사전 학습 효율성을 크게 향상시켰습니다. 학습 데이터셋은 MLLM 기반 필터링 기술(예: MLM-Filter)과 기존의 CLIP 기반 필터링 방법을 모두 사용하여 신중하게 선별되었으며, 이는 데이터 품질과 학습 효율성을 크게 개선했습니다. Open-Qwen2VL의 사전 학습은 UCSB의 학술 수준 8xA100-40G GPU에서 5B 패킹된 멀티모달 토큰으로 수행되었으며, 이는 Qwen2-VL의 1.4T 멀티모달 사전 학습 토큰의 0.36%에 해당합니다. 최종적으로 명령어 튜닝된 Open-Qwen2VL은 MMBench, SEEDBench, MMstar, MathVista 등 다양한 멀티모달 벤치마크에서 부분적으로 오픈된 최첨단 MLLM인 Qwen2-VL-2B를 능가하며, Open-Qwen2VL의 놀라운 학습 효율성을 보여줍니다. 우리는 컴퓨팅 효율적이고 데이터 효율적인 학습 세부 사항, 데이터 필터링 방법, 시퀀스 패킹 스크립트, WebDataset 형식의 사전 학습 데이터, FSDP 기반 학습 코드베이스, 그리고 기본 및 명령어 튜닝된 모델 체크포인트를 포함한 작업의 모든 측면을 오픈소스로 공개합니다. 우리는 멀티모달 LLM에 대한 "완전한 오픈"을 다음과 같이 재정의합니다: 1) 학습 코드베이스의 완전한 공개, 2) 상세한 데이터 필터링 기술, 3) 모델 개발에 사용된 모든 사전 학습 및 지도 미세 조정 데이터.
Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken
342
귀납적 프로그램 합성(Inductive Program Synthesis) 또는 예제 기반 프로그래밍(Programming by Example)은 입력-출력 예제로부터 보이지 않는 입력에 일반화 가능한 함수를 합성하는 것을 요구합니다. 자연어로 지시된 프로그래밍 작업에서 대규모 언어 모델 에이전트가 유망한 성과를 보여왔지만, 귀납적 프로그램 합성 수행 능력은 아직 충분히 탐구되지 않았습니다. 기존 평가 프로토콜은 정적 예제 세트와 보류된 테스트에 의존하며, 합성된 함수가 잘못되었을 때 피드백을 제공하지 않고 역공학과 같은 실제 시나리오를 반영하지 못합니다. 우리는 CodeARC(Code Abstraction and Reasoning Challenge)라는 새로운 평가 프레임워크를 제안합니다. 이 프레임워크에서 에이전트는 숨겨진 목표 함수와 상호작용하며 새로운 입력으로 쿼리하고, 후보 함수를 합성하며, 차등 테스트 오라클을 사용하여 반복적으로 솔루션을 개선합니다. 이 상호작용 설정은 에이전트가 피드백을 기반으로 함수 호출 및 자기 수정을 수행하도록 장려합니다. 우리는 1114개의 함수를 포함한 최초의 대규모 범용 귀납적 프로그램 합성 벤치마크를 구축했습니다. 평가된 18개 모델 중 o3-mini가 52.7%의 성공률로 가장 우수한 성능을 보였으며, 이 작업의 어려움을 강조합니다. LLaMA-3.1-8B-Instruct를 선별된 합성 트레이스로 미세 조정하면 최대 31%의 상대적 성능 향상을 얻을 수 있습니다. CodeARC는 LLM 기반 프로그램 합성 및 귀납적 추론을 평가하기 위한 더 현실적이고 도전적인 테스트베드를 제공합니다.
David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
304
시각적 자기 지도 학습(Visual Self-Supervised Learning, SSL)은 현재 시각 질의 응답(Visual Question Answering, VQA)과 같은 다중 모달 설정에서 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pretraining, CLIP)에 비해 성능이 뒤처지고 있습니다. 이러한 다중 모달 간의 격차는 종종 언어 지도 학습에 의해 도입된 의미론적 특성으로 인한 것으로 여겨지지만, 시각적 SSL과 CLIP 모델은 서로 다른 데이터로 학습되는 경우가 많습니다. 본 연구에서는 다음과 같은 질문을 던집니다: "시각적 자기 지도 학습 접근법이 CLIP에 뒤처지는 이유는 언어 지도 학습의 부재 때문인가, 아니면 학습 데이터의 차이 때문인가?" 이 질문을 탐구하기 위해, 우리는 동일한 MetaCLIP 데이터로 시각적 SSL과 CLIP 모델을 학습시키고, VQA를 시각 인코더의 다양한 테스트베드로 활용합니다. 이 통제된 설정에서, 시각적 SSL 모델은 데이터와 모델 용량 측면에서 CLIP 모델보다 더 나은 확장성을 보이며, 심지어 70억 개의 파라미터로 확장한 후에도 성능이 포화되지 않습니다. 결과적으로, 우리는 시각적 SSL 방법이 다양한 VQA 및 고전적인 시각 벤치마크에서 CLIP 수준의 성능을 달성하는 것을 관찰합니다. 이러한 발견들은 순수 시각적 SSL이 대규모에서 언어 지도 시각 사전 학습과 동등한 성능을 낼 수 있음을 보여주며, 시각 중심 표현 학습을 위한 새로운 기회를 열어줍니다.
비디오 깊이 추정 분야에서 놀라운 발전이 있었음에도 불구하고, 기존 방법들은 아핀 불변 예측을 통해 기하학적 정확도를 달성하는 데 있어 본질적인 한계를 보여주며, 이는 재구성 및 기타 미터법 기반의 다운스트림 작업에 대한 적용 가능성을 제한합니다. 우리는 GeometryCrafter를 제안합니다. 이는 오픈 월드 비디오에서 시간적 일관성을 가진 고정밀 포인트 맵 시퀀스를 복구하여 정확한 3D/4D 재구성, 카메라 파라미터 추정 및 기타 깊이 기반 응용 프로그램을 가능하게 하는 새로운 프레임워크입니다. 우리의 접근 방식의 핵심에는 비디오 잠재 분포에 구애받지 않는 잠재 공간을 학습하여 효과적인 포인트 맵 인코딩 및 디코딩을 수행하는 포인트 맵 변이형 오토인코더(VAE)가 있습니다. 이 VAE를 활용하여, 입력 비디오에 조건부된 포인트 맵 시퀀스의 분포를 모델링하기 위해 비디오 확산 모델을 학습시킵니다. 다양한 데이터셋에 대한 광범위한 평가를 통해 GeometryCrafter가 최첨단의 3D 정확도, 시간적 일관성 및 일반화 능력을 달성함을 입증합니다.
Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han
282
대규모 언어 모델(LLMs)의 다양한 응용은 단계별 추론 능력에 의존합니다. 그러나 LLMs의 추론 행동은 여전히 잘 이해되지 않고 있어 연구, 개발 및 안전에 도전 과제를 제기합니다. 이러한 격차를 해소하기 위해, 우리는 '생각의 풍경(landscape of thoughts)'을 소개합니다. 이는 사용자가 다중 선택 데이터셋에서 사고의 연쇄(chain-of-thought) 및 그 파생물의 추론 경로를 검사할 수 있는 첫 번째 시각화 도구입니다. 구체적으로, 우리는 추론 경로의 상태를 모든 답변 선택지와의 거리를 정량화하는 특징 벡터로 표현합니다. 이러한 특징들은 t-SNE를 사용하여 2차원 플롯으로 시각화됩니다. '생각의 풍경'을 통한 질적 및 양적 분석은 강력한 모델과 약한 모델, 정답과 오답, 그리고 다양한 추론 작업을 효과적으로 구분합니다. 또한, 낮은 일관성과 높은 불확실성과 같은 바람직하지 않은 추론 패턴을 발견합니다. 추가적으로, 사용자는 우리의 도구를 관찰하는 속성을 예측하는 모델에 적용할 수 있습니다. 우리는 이 장점을 경량 검증기(verifier)에 적용하여 추론 경로의 정확성을 평가하는 사례를 보여줍니다. 코드는 https://github.com/tmlr-group/landscape-of-thoughts에서 공개되어 있습니다.
대규모 언어 모델(LLMs)은 테스트 시간 계산 확장을 통해 향상된 복잡 문제 해결 능력을 달성할 수 있지만, 이는 종종 더 긴 컨텍스트와 많은 추론 토큰 비용을 수반합니다. 본 논문에서는 코드 관련 추론 궤적을 통해 LLMs를 훈련시켜 과도한 사고 토큰을 줄이면서도 성능을 유지하는 효율적인 테스트 시간 확장 방법을 제안합니다. 먼저, 간단하고 복잡한 코딩 문제와 그에 대한 짧고 긴 해결 궤적을 짝지은 Z1-Code-Reasoning-107K 데이터셋을 구축했습니다. 둘째, 컨텍스트 구분 태그(예: <think>. . . </think>)를 제거하고 추론 토큰을 제한함으로써 과도한 사고 오버헤드를 완화하는 새로운 Shifted Thinking Window를 제시합니다. 긴 및 짧은 궤적 데이터로 훈련되고 Shifted Thinking Window를 장착한 우리의 모델, Z1-7B는 문제의 복잡성에 따라 추론 수준을 조정할 수 있는 능력을 보여주며, R1-Distill-Qwen-7B의 성능을 약 30%의 평균 사고 토큰으로 맞추는 다양한 추론 작업에서 효율적인 테스트 시간 확장을 보여줍니다. 특히, 코드 궤적만으로 미세 조정된 Z1-7B는 더 넓은 추론 작업(예: GPQA Diamond에서 47.5%)으로의 일반화 능력을 입증했습니다. 효율적인 추론 유도에 대한 우리의 분석은 향후 연구에 유용한 통찰을 제공합니다.
Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao
263
본 보고서에서는 실질적인 기업 사용 사례에서 탁월한 성능을 발휘하도록 특별히 설계된 강력한 대규모 언어 모델인 Command A의 개발 과정을 설명합니다. Command A는 에이전트 최적화 및 다국어 지원이 가능한 모델로, 글로벌 비즈니스에서 사용되는 23개 언어를 지원하며 효율성과 최고 수준의 성능을 균형 있게 조화시킨 혁신적인 하이브리드 아키텍처를 갖추고 있습니다. 이 모델은 정교한 비즈니스 프로세스를 자동화하기 위한 최고 수준의 검색 증강 생성(Retrieval Augmented Generation, RAG) 기능과 근거 기반 및 도구 사용 기능을 제공합니다. 이러한 능력은 자체 개선 알고리즘과 모델 병합 기법을 포함한 분산형 훈련 접근 방식을 통해 달성되었습니다. 또한 Command A와 유사한 기능 및 아키텍처를 공유하는 Command R7B의 결과도 포함되어 있습니다. 두 모델의 가중치는 연구 목적으로 공개되었습니다. 본 기술 보고서는 원래의 훈련 파이프라인을 상세히 설명하고, 기업 관련 작업 및 공개 벤치마크에 걸친 모델의 광범위한 평가를 제시하여 우수한 성능과 효율성을 입증합니다.
Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
222
컴퓨터 사용 에이전트는 컴퓨터와 모바일 기기의 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하여 디지털 작업을 자동화함으로써, 다양한 사용자 쿼리를 처리하여 인간의 생산성을 크게 향상시킬 수 있는 잠재력을 제공합니다. 그러나 현재의 에이전트들은 몇 가지 중요한 과제에 직면해 있습니다: GUI 요소의 부정확한 위치 파악, 장기적 작업 계획의 어려움, 그리고 다양한 인지 작업을 위해 단일 일반 모델에 의존함으로써 발생하는 성능 병목 현상 등이 있습니다. 이를 해결하기 위해, 우리는 다양한 일반 및 전문 모델 간에 인지 책임을 위임하는 새로운 구성적 프레임워크인 Agent S2를 소개합니다. 우리는 정확한 GUI 위치 파악을 위해 새로운 Mixture-of-Grounding 기법을 제안하고, 변화하는 관찰에 대응하여 여러 시간적 규모에서 동적으로 작업 계획을 개선하는 Proactive Hierarchical Planning을 도입합니다. 평가 결과, Agent S2는 세 가지 주요 컴퓨터 사용 벤치마크에서 최신 기술(SOTA) 성능을 달성했습니다. 특히, Agent S2는 OSWorld의 15단계 및 50단계 평가에서 Claude Computer Use 및 UI-TARS와 같은 선두 기반 에이전트 대비 각각 18.9% 및 32.7%의 상대적 개선을 보였습니다. 또한, Agent S2는 다른 운영 체제와 애플리케이션에 효과적으로 일반화되어, WindowsAgentArena에서는 이전 최고 방법 대비 52.8%, AndroidWorld에서는 16.52%의 상대적 개선을 달성했습니다. 코드는 https://github.com/simular-ai/Agent-S에서 확인할 수 있습니다.
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
2215
최근 몇 년 동안 LLM 벤치마크의 난이도가 초등학교 수준에서 최첨단 문제로 급격히 상승하면서, 우리가 인간 지능을 넘어서는 데 불과 몇 걸음 남지 않았다는 기적 같은 상황이 연구자들 사이에 펼쳐졌습니다. 그러나 LLM의 놀라운 추론 능력이 정말로 인간 기준의 진정한 지능에서 비롯된 것인지, 아니면 단순히 훈련 중에 인터넷 수준에서 목격한 해결책을 암기하고 있는 것인지에 대한 의문이 제기됩니다. 이 문제를 연구하기 위해, 우리는 간단한 추론 문제를 제시하지만 조건을 미묘하게 변경하여 LLM의 암기 행동을 탐지하는 새로운 다중 모달 벤치마크인 RoR-Bench를 제안하고, 이 벤치마크에 대한 실증적 분석을 수행했습니다. 놀랍게도, 기존의 최첨단 LLM들은 모두 극심한 암기 행동을 보였습니다. 조건에서 한 구절만 변경해도 OpenAI-o1 및 DeepSeek-R1과 같은 최상위 모델들이 초등학교 수준의 산술 및 추론 문제에서 60%의 성능 저하를 겪을 수 있었습니다. 이러한 발견은 LLM 커뮤니티에 경종을 울리는 것으로, 우리가 최첨단 LLM의 진정한 지능 수준을 재평가해야 할 필요성을 강력히 시사합니다.
대규모 언어 모델(LLM)을 효과적으로 평가하는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 정적 벤치마크는 포화 및 오염 문제를 겪고 있으며, 인간 평가는 비용이 많이 들고 느립니다. 이는 실생활 응용에 필수적인 시기적절하거나 도메인 특화된 평가를 방해합니다. 우리는 이러한 한계를 해결하기 위해 YourBench라는 새로운 오픈소스 프레임워크를 소개합니다. YourBench는 사용자가 제공한 문서에서 직접 동적이고 자동화된 방식으로 신뢰할 수 있으며 최신 정보를 반영하고 도메인에 맞춤화된 벤치마크를 저렴한 비용으로 생성할 수 있게 해줍니다. 우리는 최소한의 소스 텍스트를 사용하여 7가지 다양한 MMLU 하위 집합을 복제함으로써 그 효용성을 입증했으며, 총 15달러 미만의 추론 비용으로 원본 벤치마크에서 관찰된 상대적 모델 성능 순위(Spearman Rho = 1)를 완벽하게 유지했습니다. YourBench가 모델의 사후 파라메트릭 지식에 의존하지 않고 제공된 입력에 기반한 데이터를 생성하도록 보장하기 위해, 우리는 2025년 3월 이후에만 출판된 7,000개 이상의 다양한 문서로 구성된 새로운 데이터셋인 Tempora-0325도 소개합니다. 우리의 포괄적인 분석은 3-671B 파라미터 범위의 7개 주요 모델 패밀리에서 26개의 최신 모델을 대상으로 하며, 엄격한 알고리즘 검사(예: 인용 근거)와 인간 평가를 통해 생성된 평가의 품질을 검증합니다. 우리는 YourBench 라이브러리, Tempora-0325 데이터셋, Tempora 기반의 15만 개 이상의 질문-답변 쌍, 그리고 모든 평가 및 추론 흔적을 공개하여 재현 가능한 연구를 촉진하고 커뮤니티가 필요에 따라 맞춤형 벤치마크를 생성할 수 있도록 지원함으로써 더 관련성 높고 신뢰할 수 있는 LLM 평가를 조성합니다.
Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu
213
대형 기반 모델로 구동되는 GUI 에이전트는 디지털 인터페이스와 상호작용할 수 있어 웹 자동화, 모바일 탐색, 소프트웨어 테스트 등 다양한 응용 분야에서 활용되고 있습니다. 그러나 이들의 점점 증가하는 자율성은 보안, 프라이버시, 안전성에 대한 중요한 우려를 불러일으키고 있습니다. 본 조사는 GUI 에이전트의 신뢰성을 다섯 가지 주요 차원에서 검토합니다: 보안 취약점, 동적 환경에서의 신뢰성, 투명성과 설명 가능성, 윤적 고려 사항, 그리고 평가 방법론. 또한 적대적 공격에 대한 취약성, 순차적 의사결정에서의 연쇄적 실패 모드, 현실적인 평가 벤치마크의 부재와 같은 주요 과제를 식별합니다. 이러한 문제들은 실제 배포를 방해할 뿐만 아니라 작업 성공을 넘어선 포괄적인 완화 전략을 요구합니다. GUI 에이전트가 더욱 보편화됨에 따라, 견고한 안전 기준과 책임 있는 개발 관행을 확립하는 것이 필수적입니다. 본 조사는 체계적인 이해와 향후 연구를 통해 신뢰할 수 있는 GUI 에이전트를 발전시키기 위한 기반을 제공합니다.
Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
192
텍스트 설명과 같은 조건에 따라 인간 동작을 생성하는 것은 고품질의 동작과 해당 조건의 쌍으로 이루어진 데이터셋이 필요하기 때문에 어려운 과제입니다. 더욱 세밀한 제어를 목표로 할 때 이러한 어려움은 더욱 커집니다. 이를 위해 기존 연구에서는 다양한 유형의 조건을 가진 데이터셋으로 사전 학습된 여러 동작 확산 모델을 결합하여 다중 조건으로 제어할 수 있도록 하는 방법을 제안했습니다. 그러나 제안된 병합 전략은 각 사전 학습된 생성 모델의 특성과 특정 텍스트 설명에 따라 최적의 생성 과정 결합 방식이 달라질 수 있다는 점을 간과했습니다. 이러한 맥락에서, 우리는 사전 학습된 텍스트 조건 인간 동작 확산 모델을 결합하기 위한 최초의 학습 가능한 모델 구성 기술인 MixerMDM을 소개합니다. 이전 접근 방식과 달리, MixerMDM은 생성 과정을 주도하는 조건 집합에 따라 각 모델의 잡음 제거 과정을 결합하는 방법을 적대적 방식으로 학습하는 동적 혼합 전략을 제공합니다. MixerMDM을 사용하여 단일 및 다중 인물 동작 확산 모델을 결합함으로써, 우리는 각 개인의 동작 역학과 전체 상호작용에 대한 세밀한 제어를 달성했습니다. 또한, 이 과제에서 처음으로 혼합된 생성 동작과 그 조건 간의 정렬을 계산하고, MixerMDM이 잡음 제거 과정 전반에 걸쳐 혼합할 동작에 따라 혼합 방식을 조정하는 능력을 측정하는 새로운 평가 기술을 제안합니다.
GPT-4o와 같은 다중 모달 언어 모델(MLLMs)의 급속한 발전은 연속적인 다중 모달 데이터 스트림을 처리하고 능동적으로 대응할 수 있는 Omni 언어 모델의 개발을 촉진시켰습니다. 이러한 잠재력에도 불구하고, 스트리밍 비디오 환경에서의 실제 상호작용 능력을 평가하는 것은 여전히 큰 도전 과제로 남아 있습니다. 본 연구에서는 스트리밍 비디오 환경에서 OmniLLMs를 위해 특별히 설계된 포괄적인 다중 모달 상호작용 벤치마크인 OmniMMI를 소개합니다. OmniMMI는 1,121개 이상의 비디오와 2,290개의 질문을 포함하며, 기존 비디오 벤치마크에서 충분히 탐구되지 않은 두 가지 중요한 과제인 스트리밍 비디오 이해와 능동적 추론을 여섯 가지 세부 과제에 걸쳐 다룹니다. 더불어, 본 연구에서는 생성 과정에서 보고 들을 수 있는 추론 효율적인 스트리밍 모델을 가능하게 하는 새로운 프레임워크인 다중 모달 멀티플렉싱 모델링(M4)을 제안합니다.
Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong
172
최근 대규모 언어 모델(LLMs)의 발전은 복잡한 추론 작업 수행 능력을 크게 향상시켰으며, 빠르고 직관적인 사고(시스템 1)에서 느리고 깊은 추론(시스템 2)으로의 전환을 이끌었습니다. 시스템 2 추론은 작업 정확도를 향상시키지만, 느린 사고 방식과 비효율적이거나 불필요한 추론 행동으로 인해 상당한 계산 비용이 발생합니다. 반면, 시스템 1 추론은 계산적으로 효율적이지만 최적의 성능을 내지 못합니다. 따라서 성능(이점)과 계산 비용(예산) 사이의 균형을 맞추는 것이 중요하며, 이로 인해 추론 경제성(reasoning economy)이라는 개념이 등장했습니다. 본 조사에서는 LLMs의 사후 학습 및 테스트 시 추론 단계에서의 추론 경제성을 종합적으로 분석하며, i) 추론 비효율성의 원인, ii) 다양한 추론 패턴의 행동 분석, iii) 추론 경제성을 달성하기 위한 잠재적 해결책을 다룹니다. 실행 가능한 통찰을 제공하고 개방된 과제를 강조함으로써, LLMs의 추론 경제성을 개선하기 위한 전략에 대한 통찰을 제공하고, 이 진화하는 분야의 연구를 발전시키는 데 유용한 자료로 활용될 것을 목표로 합니다. 또한, 이 빠르게 진화하는 분야의 발전을 지속적으로 추적하기 위한 공개 저장소를 제공합니다.
Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach
151
테스트 시점 계산 자원 확장은 대규모 언어 모델(LLMs)의 추론 능력, 특히 수학 문제 해결과 같은 작업에서 향상시키기 위한 핵심 전략으로 부상했습니다. 전통적인 접근 방식인 자기 일관성(Self-Consistency, SC)은 문제에 대한 여러 해결책을 생성하고 다수결 투표를 통해 가장 일반적인 답을 선택합니다. 또 다른 일반적인 방법은 각 해결책을 보상 모델(검증기)로 점수화하여 최상의 답을 선택하는 것입니다. 최근 생성적 보상 모델(Generative Reward Models, GenRM)의 발전은 검증을 다음 토큰 예측 작업으로 재구성함으로써 새로운 축에서의 추론 시점 확장을 가능하게 했습니다. 구체적으로, GenRM은 각 해결책을 점수화하기 위해 여러 검증 사고 사슬(chain-of-thought)을 생성합니다. 제한된 추론 예산 하에서, 이는 근본적인 트레이드오프를 도입합니다: SC를 통해 해결책 생성을 확장하는 데 예산을 사용해야 할지, 아니면 더 적은 수의 해결책을 생성하고 GenRM을 통한 검증에 계산 자원을 할당해야 할지? 이를 해결하기 위해, 우리는 고정된 추론 예산 하에서 GenRM과 SC를 비교 평가했습니다. 흥미롭게도, 다양한 모델과 데이터셋에서 대부분의 실용적인 추론 예산에 대해 SC가 GenRM보다 계산 효율적이라는 것을 발견했습니다. 예를 들어, GenRM은 추론 계산 자원을 최대 8배까지 소비한 후에야 SC와 동등한 성능을 보이며, 이를 능가하려면 훨씬 더 많은 계산 자원이 필요합니다. 더 나아가, 우리는 GenRM 패러다임에 대한 추론 확장 법칙을 도출했는데, 이는 계산 최적의 추론이 검증 횟수를 확장하는 것보다 해결책 생성을 더 공격적으로 확장하는 것을 선호한다는 것을 보여줍니다. 우리의 연구는 해결책 생성과 검증의 균형을 맞춤으로써 테스트 시점 확장을 최적화하는 실용적인 지침을 제공합니다. 코드는 https://github.com/nishadsinghi/sc-genrm-scaling에서 확인할 수 있습니다.
Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
152
시각적 토큰 축소는 대규모 시각-언어 모델(LVLMs)에서 광범위한 이미지 특징으로 인한 추론 비용을 낮춥니다. 자기 주의력(self-attention)만을 사용하는 LVLMs에서 토큰을 가지치기(prune)하는 관련 연구들과 달리, 본 연구는 우수한 성능을 달성하는 교차 주의력(cross-attention) 기반 모델을 독창적으로 다룹니다. 우리는 교차 주의력 레이어에서 이미지 토큰의 키-값(KV) 캐시 크기가 자기 주의력 레이어의 텍스트 토큰 크기를 크게 초과하여 주요 계산 병목 현상을 일으킨다는 점을 확인했습니다. 이 문제를 완화하기 위해, 우리는 교차 주의력 맵의 희소성(sparse nature)을 활용하여 중복된 시각적 특징을 선택적으로 가지치기합니다. 우리의 Trimmed Llama는 추가 학습 없이도 KV 캐시 요구량을 효과적으로 줄입니다. 50% 감소된 시각적 특징의 이점을 통해, 우리의 모델은 벤치마크 성능을 유지하면서 추론 지연 시간과 메모리 사용량을 줄일 수 있습니다.
Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
113
최근, 모델 병합 방법들은 여러 대형 언어 모델(LLMs)의 다양한 작업에 대한 능력을 결합하는 데 강력한 성능을 보여주고 있습니다. 기존의 모델 병합 방법들은 주로 동일한 아키텍처를 가진 동종 모델들을 병합하는 데 초점을 맞추었지만, 모델 아키텍처의 차이와 파라미터 공간의 비대칭성과 같은 내재적 이질성을 가진 다중모달 대형 언어 모델(MLLMs)을 다룰 때는 어려움에 직면했습니다. 본 연구에서는 이러한 이질적인 MLLMs를 위해 특별히 설계된 새로운 모델 병합 방법인 AdaMMS를 제안합니다. 우리의 방법은 매핑, 병합, 탐색의 세 단계로 이러한 문제를 해결합니다. 구체적으로, 먼저 서로 다른 아키텍처를 가진 MLLMs에 모델 병합을 적용하기 위해 모델 간 매핑 함수를 설계합니다. 그런 다음, 이질적인 MLLMs의 비대칭성에 적극적으로 대응하기 위해 모델 가중치에 선형 보간을 적용합니다. 마지막으로 하이퍼파라미터 탐색 단계에서는 모델 병합을 위한 비지도 하이퍼파라미터 선택 방법을 제안합니다. 레이블이 없는 데이터에서도 이질적인 MLLMs를 병합할 수 있는 최초의 모델 병합 방법으로서, 다양한 모델 조합에 대한 광범위한 실험을 통해 AdaMMS가 다양한 비전-언어 벤치마크에서 기존의 모델 병합 방법들을 능가하는 성능을 보여주었습니다.
테스트 시간 스케일링(test-time scaling)은 대형 언어 모델의 추론 능력을 향상시키는 강력한 기술로 부상했습니다. 그러나 의료 영역은 지식 표현과 의사결정 과정 측면에서 수학적 과제와 근본적으로 다르기 때문에, 의료 추론에서의 효과는 여전히 불확실합니다. 본 논문에서는 의료 추론을 위한 테스트 시간 스케일링에 대한 첫 번째 포괄적인 연구를 제공하고, 추론 시 모델의 의료 추론 능력을 향상시키는 간단하지만 효과적인 접근 방식인 m1을 제시합니다. 다양한 의료 과제에 대한 평가를 통해 테스트 시간 스케일링이 의료 추론을 지속적으로 향상시키며, 100억 파라미터 미만의 경량 미세 조정 모델이 새로운 최첨단 성능을 달성할 수 있음을 입증했습니다. 또한, 320억 파라미터 모델은 이전 700억 규모 의료 LLM과 견줄 만한 성능을 보였습니다. 그러나 약 4K의 최적 추론 토큰 예산을 확인했으며, 이를 초과할 경우 과도한 사고로 인해 성능이 저하될 수 있음을 발견했습니다. 반복적인 프롬프트를 통해 테스트 시간 계산을 확장하는 예산 강제(budget forcing)는 모델이 답변을 재확인하도록 도우나, 전체 의료 질의응답 성능을 반드시 개선시키지는 않으며, 경우에 따라 이전에 정확했던 응답에 오류를 도입하기도 합니다. 사례별 분석을 통해 테스트 시간 스케일링을 통한 추가 성능 향상을 방해하는 주요 병목 현상으로 불충분한 의료 지식을 확인했습니다. 데이터 규모 증가, 데이터 품질 개선, 모델 용량 확장은 의료 지식 기반을 지속적으로 강화하며, 특히 작은 모델이 포화 상태에 도달하는 어려운 의료 벤치마크에서 지속적인 성능 향상을 가능하게 합니다. 이러한 발견은 의료 추론과 수학적 추론 간의 근본적인 차이를 강조하며, 단순히 추론 깊이를 늘리는 것 외에도 풍부한 의료 지식이 테스트 시간 스케일링의 이점을 실현하는 데 필수적임을 시사합니다.
추론 시 스케일링은 단계별 문제 해결이 필요한 복잡한 문제에 대해 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있습니다. 생성된 스크래치패드를 길게 만드는 것이 수학적 과제에서는 효과적임이 입증되었지만, 이 접근법이 다른 과제에 미치는 광범위한 영향은 여전히 명확하지 않습니다. 본 연구에서는 수학 및 STEM 추론, 캘린더 계획, NP-난제, 내비게이션, 공간 추론 등 8가지 도전적인 과제와 9개의 최첨단 모델에 걸쳐 스케일링 방법의 이점과 한계를 조사합니다. 우리는 기존 모델(예: GPT-4o)과 추론 시 스케일링을 위해 미세 조정된 모델(예: o1)을 반복적인 모델 호출을 통해 평가 프로토콜로 비교합니다. 이러한 평가는 향상된 훈련이나 다중 모델 추론 시스템을 통해 각 모델의 하한 및 상한 성능 한계와 잠재적 성능 향상 가능성을 근사합니다. 우리의 광범위한 실증적 분석은 추론 시 스케일링의 이점이 과제에 따라 다양하며 문제 복잡성이 증가함에 따라 감소한다는 것을 보여줍니다. 또한, 이러한 도전적인 영역에서 단순히 더 많은 토큰을 사용하는 것이 항상 더 높은 정확도로 이어지지는 않습니다. 완벽한 검증기를 사용한 기존 모델의 다중 독립 실행 결과는 일부 과제에서 이러한 모델이 오늘날 가장 진보된 추론 모델의 평균 성능에 근접할 수 있음을 보여줍니다. 그러나 다른 과제에서는 매우 높은 스케일링 영역에서도 상당한 성능 격차가 남아 있습니다. 고무적으로, 모든 모델은 완벽한 검증기나 강력한 피드백으로 추론을 더욱 확장할 때 상당한 성능 향상을 보여주며, 이는 미래의 개선을 위한 충분한 잠재력을 시사합니다.
Text-to-SQL은 자연어 이해, 데이터베이스 스키마 이해, 정확한 SQL 쿼리 작성과 같은 다중 추론 집약적 하위 작업을 포함하는 도전적인 과제입니다. 기존 접근 방식은 종종 귀납적 편향을 가진 수작업 추론 경로에 의존하여 전반적인 효과를 제한할 수 있습니다. 최근 DeepSeek R1과 OpenAI o1과 같은 추론 강화 모델의 성공에 영감을 받아, 이러한 모델이 보상 기반 자기 탐색을 효과적으로 활용하여 추론 능력과 일반화를 향상시킨 점을 바탕으로, 우리는 Text-to-SQL 작업에 특화된 새로운 부분 보상 세트를 제안합니다. 우리의 보상 세트는 스키마 연결, AI 피드백, n-gram 유사성, 구문 검사를 포함하며, 강화 학습(RL)에서 흔히 발생하는 보상 희소성 문제를 명시적으로 해결하기 위해 설계되었습니다. 그룹 상대 정책 최적화(GRPO)를 활용하여, 우리의 접근 방식은 대규모 언어 모델(LLM)이 정확한 SQL 쿼리 생성을 위해 필요한 내재적 추론 능력을 개발하도록 명시적으로 장려합니다. 다양한 크기의 모델을 통해, 우리가 제안한 보상을 사용한 RL 전용 훈련이 지도 미세 조정(SFT)보다 일관되게 더 높은 정확도와 우수한 일반화를 달성함을 입증합니다. 특히, 우리의 RL 훈련을 받은 14B 파라미터 모델은 BIRD 벤치마크에서 더 큰 독점 모델인 o3-mini를 4%, Gemini-1.5-Pro-002를 3% 앞서는 성능을 보였습니다. 이러한 결과는 Text-to-SQL 작업에서 정확도와 추론 능력을 모두 향상시키기 위한 우리의 제안된 RL 훈련 프레임워크와 부분 보상의 효율성을 강조합니다.
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
72
우리는 긴 비디오 타임라인을 의미론적 단위로 분할하고 해당 챕터 제목을 생성하는 비디오 챕터링 작업을 다룹니다. 비교적 덜 탐구된 자동 챕터링은 장편 비디오에서 효율적인 탐색과 콘텐츠 검색을 가능하게 할 잠재력을 가지고 있습니다. 본 논문에서는 'Chapter-Llama' 프레임워크를 통해 텍스트 영역에서 이 문제를 효율적으로 해결함으로써 시간 단위의 긴 비디오에서 강력한 챕터링 성능을 달성합니다. 구체적으로, 우리는 대규모 컨텍스트 윈도우를 가진 사전 훈련된 대형 언어 모델(LLM)을 활용하고, (i) 음성 전사본과 (ii) 비디오 프레임을 설명하는 캡션을 각각의 타임스탬프와 함께 입력으로 제공합니다. 모든 프레임을 포괄적으로 캡션 처리하는 비효율성을 고려하여, 우리는 음성 전사 내용을 기반으로 한 경량의 음성 가이드 프레임 선택 전략을 제안하고, 실험적으로 뛰어난 장점을 입증합니다. 우리는 LLM을 챕터 경계에 대한 타임스탬프와 자유 형식의 챕터 제목을 출력하도록 훈련시킵니다. 이 간단하지만 강력한 접근 방식은 단일 순방향 패스로 1시간 길이의 비디오를 처리할 수 있도록 확장됩니다. 우리의 결과는 최근 VidChapters-7M 벤치마크에서 기존 최신 기술 대비 상당한 개선(예: 45.3 대 26.7 F1 점수)을 보여줍니다. 추가 연구를 촉진하기 위해, 우리는 프로젝트 페이지에서 코드와 모델을 공개합니다.
대규모 언어 모델(LLMs)은 인상적인 언어 능력을 갖추고 있지만, 종종 사실적 지식을 충실히 유지하지 못해 환각(hallucination)과 신뢰할 수 없는 출력을 초래합니다. 완전한 규모의 지식 베이스에 대해 철저히 평가하여 LLMs의 지식 결핍을 이해하는 것은 계산적으로 부담스럽습니다, 특히 가중치가 닫힌(closed-weight) 모델의 경우 더욱 그렇습니다. 우리는 엄격한 쿼리 예산 하에서 가중치가 닫힌 LLMs의 지식 결핍(오류)을 발견하기 위한 확장 가능하고 효율적인 프레임워크인 확률적 오류 상승(Stochastic Error Ascent, SEA)을 제안합니다. SEA는 모든 지식 후보를 단순히 탐색하는 대신, 오류 발견을 확률적 최적화 과정으로 공식화합니다: 이전에 관찰된 실패와의 의미적 유사성을 활용하여 새로운 고오류 후보를 반복적으로 검색합니다. 검색 효율성과 범위를 더욱 향상시키기 위해, SEA는 문서 및 단락 수준에서 계층적 검색을 사용하고, 오류 전파를 모델링하고 체계적인 실패 모드를 식별하기 위해 관계 방향성 비순환 그래프(relation directed acyclic graph)를 구성합니다. 실험적으로, SEA는 Automated Capability Discovery보다 40.7배 더 많은 지식 오류를 발견하고, AutoBencher보다 26.7% 더 많은 오류를 발견하면서 오류당 비용을 각각 599배와 9배 줄였습니다. 인간 평가는 생성된 질문의 높은 품질을 확인했으며, 제거 및 수렴 분석은 SEA의 각 구성 요소의 기여를 검증했습니다. 발견된 오류에 대한 추가 분석은 LLM 패밀리 간의 상관된 실패 패턴과 반복적인 결핍을 드러내며, 향후 LLM 개발에서 더 나은 데이터 커버리지와 목적에 맞는 미세 조정의 필요성을 강조합니다.
인간의 손은 상호작용에서 중심적인 역할을 하며, 이는 민첩한 로봇 조작에 대한 연구를 촉진시키고 있습니다. 데이터 기반의 구체화된 AI 알고리즘은 정밀하고 대규모이며 인간과 유사한 조작 시퀀스를 요구하는데, 이는 기존의 강화 학습이나 실제 세계의 원격 조작으로는 얻기 어렵습니다. 이를 해결하기 위해, 우리는 시뮬레이션에서 인간의 양손 기술을 민첩한 로봇 손으로 효율적으로 전달하는 새로운 두 단계 방법인 ManipTrans를 소개합니다. ManipTrans는 먼저 일반적인 궤적 모방자를 사전 훈련시켜 손의 움직임을 모방한 다음, 상호작용 제약 하에서 특정 잔차 모듈을 미세 조정함으로써 복잡한 양손 작업의 효율적인 학습과 정확한 실행을 가능하게 합니다. 실험 결과, ManipTrans는 성공률, 충실도 및 효율성에서 최신 방법을 능가하는 것으로 나타났습니다. ManipTrans를 활용하여, 우리는 여러 손-객체 데이터셋을 로봇 손으로 전달하여 펜 뚜껑 닫기와 병 뚜껑 풀기와 같은 이전에 탐구되지 않은 작업을 포함하는 대규모 데이터셋인 DexManipNet을 생성했습니다. DexManipNet은 3.3K개의 로봇 조작 에피소드로 구성되어 있으며 쉽게 확장 가능하여, 민첩한 손을 위한 추가 정책 훈련을 용이하게 하고 실제 세계의 배치를 가능하게 합니다.
흐릿한 다중 뷰 이미지로부터 선명한 3D 표현을 재구성하는 것은 컴퓨터 비전 분야에서 오랜 기간 동안 해결되지 않은 문제입니다. 최근 연구들은 고다이내믹 레인지와 마이크로초 단위의 시간 해상도를 제공하는 이벤트 기반 카메라를 활용하여 모션 블러로부터 고품질의 새로운 뷰 합성을 개선하려는 시도를 하고 있습니다. 그러나 이러한 방법들은 부정확한 색상을 복원하거나 미세한 디테일을 잃는 등 최적의 시각적 품질을 달성하지 못하는 경우가 많습니다. 본 논문에서는 DiET-GS라는 확산 사전 정보와 이벤트 스트림을 활용한 모션 디블러링 3DGS를 제안합니다. 우리의 프레임워크는 두 단계의 학습 전략을 통해 블러가 없는 이벤트 스트림과 확산 사전 정보를 효과적으로 활용합니다. 구체적으로, 우리는 이벤트 이중 적분을 통해 3DGS를 제약하는 새로운 프레임워크를 도입하여 정확한 색상과 잘 정의된 디테일을 동시에 달성합니다. 또한, 확산 사전 정보를 활용하여 에지 디테일을 더욱 향상시키는 간단한 기법을 제안합니다. 합성 데이터와 실제 데이터에 대한 정성적 및 정량적 결과는 우리의 DiET-GS가 기존 베이스라인에 비해 훨씬 더 우수한 품질의 새로운 뷰를 생성할 수 있음을 보여줍니다. 우리의 프로젝트 페이지는 https://diet-gs.github.io입니다.
원격 감지(RS) 이미지를 위한 객체 탐지(OD)와 시각적 그라운딩(VG)을 통합한 통합 프레임워크를 제안합니다. 기존의 OD를 지원하고 VG 작업을 위한 직관적인 사전 지식을 확립하기 위해, 참조 표현 데이터를 사용하여 개방형 객체 탐지기를 미세 조정하며 이를 부분적으로 지도된 OD 작업으로 구성합니다. 첫 번째 단계에서는 각 이미지의 그래프 표현을 구성하며, 이는 객체 쿼리, 클래스 임베딩, 제안 위치로 이루어집니다. 그런 다음, 우리의 작업 인식 아키텍처는 이 그래프를 처리하여 VG 작업을 수행합니다. 모델은 다음과 같이 구성됩니다: (i) 공간적, 시각적, 범주적 특징을 통합하여 작업 인식 제안을 생성하는 다중 분기 네트워크, 그리고 (ii) 제안들에 걸쳐 확률을 할당하고 최종 참조 객체 위치 지정을 위한 소프트 선택 메커니즘을 포함하는 객체 추론 네트워크. 우리의 모델은 OPT-RSVG 및 DIOR-RSVG 데이터셋에서 최첨단 방법 대비 상당한 성능 향상을 달성하면서도 기존의 OD 기능을 유지합니다. 코드는 우리의 저장소에서 이용 가능할 예정입니다: https://github.com/rd20karim/MB-ORES.