번역이 포함된 일일 선별된 AI 연구 논문
GPT-4o와 같은 멀티모달 파운데이션 모델들은 최근 눈부신 발전을 이루었지만, 이러한 모델들이 시각 이해 측면에서 정확히 어디에 위치하는지는 명확하지 않습니다. 본 논문에서는 널리 사용되는 멀티모달 파운데이션 모델들(GPT-4o, o4-mini, Gemini 1.5 Pro 및 Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2)의 성능을 표준 컴퓨터 비전 작업(의미론적 분할, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측)에 대해 기존 데이터셋(예: COCO, ImageNet 및 그 변형 등)을 사용하여 벤치마킹합니다. 이를 수행하는 데 있어 주요 도전 과제는 다음과 같습니다: 1) 대부분의 모델은 텍스트를 출력하도록 훈련되어 있어 세그먼트나 3D 기하학과 같은 다양한 도메인을 기본적으로 표현할 수 없으며, 2) 많은 주요 모델들은 독점적이며 API 수준에서만 접근 가능합니다. 즉, 이를 적응시키기 위한 가중치 접근이 불가능합니다. 우리는 이러한 도전 과제를 프롬프트 체인을 통해 표준 비전 작업을 동등한 텍스트 프롬프트 가능 및 API 호환 작업으로 변환하여 표준화된 벤치마킹 프레임워크를 구축함으로써 해결합니다. 우리는 다음과 같은 관찰 결과를 얻었습니다: 1) 모델들은 어떤 작업에서도 최신 전문 모델에 근접하지 못합니다. 그러나 2) 그들은 존경할 만한 일반주의자로서 주로 이미지-텍스트 기반 작업으로 훈련된 것으로 추정됨에도 불구하고 주목할 만합니다. 3) 그들은 기하학적 작업보다 의미론적 작업에서 현저히 더 나은 성능을 보입니다. 4) 프롬프트 체인 기법이 성능에 영향을 미치지만, 더 나은 모델들은 프롬프트 변동에 덜 민감합니다. 5) GPT-4o는 비-추론 모델들 중에서 가장 우수한 성능을 보이며, 6개 작업 중 4개에서 최상위를 차지합니다. 6) o3와 같은 추론 모델들은 기하학적 작업에서 개선을 보입니다. 7) 최신 GPT-4o와 같은 기본 이미지 생성 기능을 가진 모델들의 예비 분석은 환각 및 공간적 불일치와 같은 특이 현상을 보여줍니다.
확산 모델의 추론 시 높은 계산 비용은 이를 빠른 물리 현상 에뮬레이터로 사용하는 데 걸림돌이 됩니다. 이미지 및 비디오 생성 분야에서는 픽셀 공간 대신 오토인코더의 잠재 공간에서 생성함으로써 이러한 계산적 단점을 해결해 왔습니다. 본 연구에서는 동적 시스템 에뮬레이션에도 유사한 전략을 효과적으로 적용할 수 있는지, 그리고 그 대가가 무엇인지 조사합니다. 우리는 잠재 공간 에뮬레이션의 정확도가 놀랍도록 다양한 압축률(최대 1000배)에 대해 견고함을 발견했습니다. 또한 확산 기반 에뮬레이터가 비생성적 대안들보다 일관되게 더 정확하며, 예측의 불확실성을 더 큰 다양성으로 보상한다는 것을 보여줍니다. 마지막으로, 잠재 공간 에뮬레이터를 훈련하는 데 있어 중요한 것으로 판단된 아키텍처부터 옵티마이저에 이르는 실용적인 설계 선택 사항들을 다룹니다.
대규모 언어 모델(LLMs)의 급속한 발전은 영어 중심 벤치마크를 넘어 인도와 같은 언어적으로 다양한 지역의 요구를 해결할 수 있는 평가 프레임워크의 필요성을 더욱 강화하고 있습니다. 우리는 EKA-EVAL을 소개합니다. 이는 추론, 수학, 도구 사용, 장문 맥락 이해, 독해 등 다양한 범주를 아우르는 35개 이상의 벤치마크(인도 특화 데이터셋 10개 포함)를 통합한 통합적이고 프로덕션 준비가 된 평가 프레임워크입니다. 기존의 인도 언어 평가 도구와 비교하여, EKA-EVAL은 더 광범위한 벤치마크 커버리지를 제공하며, 분산 추론, 양자화, 다중 GPU 사용에 대한 내장 지원을 포함하고 있습니다. 우리의 체계적인 비교를 통해 EKA-EVAL은 글로벌 및 인도 LLMs 모두를 위한 최초의 종단 간 확장 가능한 평가 도구로 자리매김하며, 다국어 벤치마킹의 진입 장벽을 크게 낮춥니다. 이 프레임워크는 오픈소스이며, https://github.com/lingo-iitgn/eka-eval에서 공개적으로 이용 가능합니다. 또한, 100개 이상의 벤치마크로 확장하고 LLMs를 위한 강력한 다국어 평가 생태계를 구축하려는 EKA 이니셔티브(https://eka.soket.ai)의 일부입니다.
대규모 언어 모델(LLMs)이 생성한 창의적인 글쓰기를 평가하는 것은 개방형 서사가 명확한 기준을 갖고 있지 않기 때문에 여전히 어려운 과제로 남아 있다. 효과적인 자동 평가 방법이 부재한 상황에서, 기성 언어 모델(OTS)이 제로샷 평가자로 활용되고 있으나, 이러한 맥락에서의 신뢰성은 불분명하다. 창의적인 글쓰기에 대한 견고한 평가를 위해, 우리는 LitBench를 소개한다. 이는 창의적인 글쓰기 검증을 위한 첫 번째 표준화된 벤치마크 및 데이터셋으로, Reddit에서 추출한 2,480개의 편향이 제거된 인간이 라벨링한 이야기 비교를 포함한 테스트 세트와 43,827쌍의 인간 선호도 라벨로 구성된 훈련 코퍼스를 제공한다. LitBench를 활용하여, 우리는 (i) 제로샷 LLM 평가자를 벤치마킹하고, (ii) Bradley-Terry 및 생성적 보상 모델을 훈련시키며, (iii) 새롭게 LLM이 생성한 이야기에 대한 보상 모델의 순위를 검증하기 위한 온라인 인간 연구를 수행한다. 우리의 벤치마크는 Claude-3.7-Sonnet을 가장 강력한 기성 평가자로 식별하며, 인간 선호도와 73% 일치율을 달성한다; 훈련된 보상 모델 중에서는 Bradley-Terry와 생성적 보상 모델 모두 78%의 정확도를 달성하여 모든 기성 평가자를 능가한다. 온라인 인간 연구는 또한 우리가 훈련시킨 보상 모델이 새로운 LLM 생성 이야기에서도 인간 선호도와 일관되게 일치함을 추가로 확인한다. 우리는 LitBench와 보상 모델을 https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461에서 공개하여, 창의적인 글쓰기 시스템의 신뢰할 수 있는 자동 평가 및 최적화를 위한 검증된 리소스를 제공한다.