번역이 포함된 일일 선별된 AI 연구 논문
기존의 언어 모델 사전 학습 방법들은 모든 학습 토큰에 대해 균일하게 다음 토큰 예측 손실을 적용해 왔습니다. 이러한 관행에 도전하며, 우리는 "코퍼스 내 모든 토큰이 언어 모델 학습에 동등하게 중요한 것은 아니다"라는 가설을 제시합니다. 초기 분석에서 우리는 언어 모델의 토큰 수준 학습 동역학을 탐구하며, 서로 다른 토큰에 대한 뚜렷한 손실 패턴을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 Rho-1이라는 새로운 언어 모델을 소개합니다. 전통적인 언어 모델들이 코퍼스의 모든 다음 토큰을 예측하도록 학습하는 것과 달리, Rho-1은 원하는 분포와 일치하는 유용한 토큰을 선택적으로 학습하는 선택적 언어 모델링(Selective Language Modeling, SLM)을 채택합니다. 이 접근법은 참조 모델을 사용해 사전 학습 토큰을 점수화하고, 더 높은 초과 손실을 보이는 토큰에 집중된 손실로 언어 모델을 학습시키는 것을 포함합니다. 15B OpenWebMath 코퍼스에서의 지속적인 사전 학습 시, Rho-1은 9개의 수학 과제에서 최대 30%의 절대적 향상을 보이는 소수 샷 정확도를 달성했습니다. 미세 조정 후, Rho-1-1B와 7B는 각각 MATH 데이터셋에서 40.6%와 51.8%의 최첨단 결과를 기록하며, 사전 학습 토큰의 단 3%만으로 DeepSeekMath와 동등한 성능을 보였습니다. 또한, 80B 일반 토큰에 대한 사전 학습 시 Rho-1은 15개의 다양한 과제에서 평균 6.8%의 향상을 달성하며, 언어 모델 사전 학습의 효율성과 성능을 모두 높였습니다.
최소한의 인간 개입으로 복잡한 컴퓨터 작업을 수행하는 자율 에이전트는 인간-컴퓨터 상호작용을 혁신하고 접근성과 생산성을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 기존 벤치마크는 상호작용 환경이 부족하거나 특정 애플리케이션이나 도메인에 한정된 환경만을 제공하여, 현실 세계의 다양하고 복잡한 컴퓨터 사용을 반영하지 못함으로써 작업 범위와 에이전트 확장성을 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 Ubuntu, Windows, macOS와 같은 다양한 운영체제에서 작업 설정, 실행 기반 평가, 상호 학습을 지원하는 최초의 확장 가능한 실제 컴퓨터 환경인 OSWorld를 소개합니다. OSWorld는 임의의 애플리케이션을 포함하는 개방형 컴퓨터 작업을 평가하기 위한 통합된 컴퓨터 환경으로 활용될 수 있습니다. OSWorld를 기반으로, 우리는 실제 웹 및 데스크톱 애플리케이션, OS 파일 입출력, 그리고 여러 애플리케이션에 걸친 워크플로우를 포함하는 369개의 컴퓨터 작업 벤치마크를 구축했습니다. 각 작업 예제는 현실 세계의 컴퓨터 사용 사례에서 도출되었으며, 신뢰할 수 있고 재현 가능한 평가를 위한 상세한 초기 상태 설정 구성과 맞춤형 실행 기반 평가 스크립트를 포함합니다. OSWorld에서 최신 LLM/VLM 기반 에이전트를 광범위하게 평가한 결과, 이들이 컴퓨터 보조 도구로서의 역할을 수행하는 데 있어 상당한 결함이 있음이 드러났습니다. 인간은 작업의 72.36% 이상을 성공적으로 수행할 수 있는 반면, 최고의 모델은 단 12.24%의 성공률을 보였으며, 주로 GUI 기반 작업과 운영 지식에서 어려움을 겪었습니다. OSWorld를 사용한 포괄적인 분석은 이전 벤치마크로는 불가능했던 멀티모달 일반 에이전트 개발에 대한 귀중한 통찰을 제공합니다. 우리의 코드, 환경, 베이스라인 모델, 데이터는 https://os-world.github.io에서 공개적으로 이용 가능합니다.
텍스트-이미지 확산 모델의 제어 가능성을 향상시키기 위해, 기존의 ControlNet과 같은 연구들은 이미지 기반 조건부 제어를 도입했습니다. 본 논문에서는 기존 방법들이 여전히 이미지 조건부 제어와 일치하는 이미지를 생성하는 데 있어 상당한 어려움에 직면하고 있음을 밝힙니다. 이를 해결하기 위해, 우리는 생성된 이미지와 조건부 제어 간의 픽셀 수준 순환 일관성을 명시적으로 최적화하여 제어 가능한 생성을 개선하는 새로운 접근법인 ControlNet++를 제안합니다. 구체적으로, 입력 조건부 제어에 대해, 우리는 사전 훈련된 판별적 보상 모델을 사용하여 생성된 이미지의 해당 조건을 추출한 다음, 입력 조건부 제어와 추출된 조건 간의 일관성 손실을 최적화합니다. 간단한 구현 방법은 무작위 노이즈로부터 이미지를 생성한 후 일관성 손실을 계산하는 것이지만, 이러한 접근 방식은 여러 샘플링 시간 단계에 대한 그래디언트를 저장해야 하므로 상당한 시간과 메모리 비용이 발생합니다. 이를 해결하기 위해, 우리는 입력 이미지에 노이즈를 추가하여 의도적으로 교란시킨 후, 단일 단계로 노이즈가 제거된 이미지를 사용하여 보상 미세 조정을 수행하는 효율적인 보상 전략을 도입합니다. 이는 이미지 샘플링과 관련된 광범위한 비용을 피함으로써 더 효율적인 보상 미세 조정을 가능하게 합니다. 광범위한 실험을 통해 ControlNet++가 다양한 조건부 제어 하에서 제어 가능성을 크게 향상시킴을 보여줍니다. 예를 들어, 세그멘테이션 마스크, 라인 아트 에지, 깊이 조건에 대해 ControlNet 대비 각각 7.9% mIoU, 13.4% SSIM, 7.6% RMSE의 개선을 달성했습니다.
우리는 Google의 새로운 Griffin 아키텍처를 사용한 오픈 언어 모델인 RecurrentGemma를 소개합니다. Griffin은 선형 회귀(linear recurrences)와 지역적 주의(local attention)를 결합하여 언어 처리에서 우수한 성능을 달성합니다. 이 모델은 고정 크기의 상태를 가지며, 이는 메모리 사용을 줄이고 긴 시퀀스에서도 효율적인 추론을 가능하게 합니다. 우리는 20억 개의 비임베딩 파라미터를 가진 사전 학습된 모델과 지시 튜닝된 변형 모델을 제공합니다. 두 모델 모두 더 적은 토큰으로 학습되었음에도 불구하고 Gemma-2B와 비슷한 성능을 보입니다.
Ferret은 대규모 언어 모델(LLM)에 지역 이해를 원활하게 통합하여 참조 및 접지 능력을 강화하지만, 몇 가지 한계를 가지고 있습니다: 사전 학습된 고정된 시각 인코더에 의해 제약을 받으며, 더 광범위한 작업에서 성능이 떨어지는 문제가 있습니다. 본 연구에서는 Ferret의 중요한 업그레이드 버전인 Ferret-v2를 소개하며, 세 가지 주요 설계를 제안합니다. (1) 임의 해상도 접지 및 참조: 더 높은 이미지 해상도를 손쉽게 처리할 수 있는 유연한 접근 방식으로, 모델이 더 세밀한 이미지를 처리하고 이해하는 능력을 향상시킵니다. (2) 다중 세분화 시각 인코딩: 추가적인 DINOv2 인코더를 통합함으로써, 모델이 전역적 및 세부적인 시각 정보에 대한 더 나은 다양한 맥락을 학습합니다. (3) 3단계 학습 패러다임: 이미지-캡션 정렬 외에도, 최종 명령어 튜닝 전에 고해상도 밀집 정렬을 위한 추가 단계를 제안합니다. 실험 결과, Ferret-v2는 고해상도 스케일링과 세밀한 시각 처리 덕분에 Ferret 및 기타 최신 방법 대비 상당한 개선을 보여줍니다.
AI 모델의 성공은 크고 다양하며 고품질의 데이터셋 가용성에 달려 있지만, 데이터 부족, 개인정보 보호 문제, 높은 비용 등의 이유로 이를 확보하는 것은 어려운 과제입니다. 합성 데이터는 실제 세계의 패턴을 모방한 인공 데이터를 생성함으로써 유망한 해결책으로 떠오르고 있습니다. 본 논문은 합성 데이터 연구에 대한 개요를 제공하며, 그 응용 분야, 도전 과제, 그리고 미래 방향에 대해 논의합니다. 우리는 선행 연구에서의 실증적 증거를 제시하여 합성 데이터의 효과를 입증하고, 사실성, 충실도, 편향 없는 특성을 보장하는 것의 중요성을 강조합니다. 또한 더 강력하고 포용적이며 신뢰할 수 있는 언어 모델을 구축하기 위해 합성 데이터의 책임 있는 사용이 필요함을 강조합니다.
긴 문맥 처리는 대형 언어 모델(LLM)에게 여전히 도전 과제로 남아 있습니다. 이는 셀프 어텐션 메커니즘의 이차 계산 및 메모리 오버헤드와 생성 과정에서의 상당한 KV 캐시 크기 때문입니다. 우리는 이 문제를 해결하기 위해 문맥 압축과 도메인 내 파라미터 효율적 미세 조정을 통해 오프라인에서 문맥을 학습하는 새로운 접근 방식을 제안합니다. 우리의 방법은 LLM이 원본 문맥의 간결한 표현을 생성하고 질문에 정확하게 답변하기 위해 관련 정보를 효율적으로 검색할 수 있도록 합니다. 우리는 LoRA를 사용한 문맥 압축, 검색, 파라미터 효율적 미세 조정을 결합한 기술인 LLoCO를 소개합니다. 우리의 접근 방식은 4k 토큰 LLaMA2-7B 모델의 효과적인 문맥 창을 확장하여 최대 128k 토큰을 처리할 수 있게 합니다. 우리는 여러 긴 문맥 질의응답 데이터셋에서 우리의 접근 방식을 평가하여, LLoCO가 인컨텍스트 학습을 크게 능가하면서 추론 과정에서 30배 적은 토큰을 사용함을 입증했습니다. LLoCO는 최대 7.62배의 속도 향상을 달성하고 긴 문서 질의응답의 비용을 크게 줄여, 효율적인 긴 문맥 처리에 대한 유망한 솔루션임을 보여줍니다. 우리의 코드는 https://github.com/jeffreysijuntan/lloco에서 공개되어 있습니다.
웹 에이전트 연구 분야에서 일반화와 정확성을 동시에 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 웹사이트 구조의 높은 변동성으로 인해 기존 접근 방식들은 종종 실패합니다. 또한, 기존의 미세 조정(fine-tuning) 및 문맥 학습(in-context learning) 기술들은 여러 웹사이트에 걸쳐 일반화하는 데 실패합니다. 우리는 Wilbur라는 접근 방식을 소개합니다. 이 방법은 미분 가능한 순위 모델과 새로운 명령어 합성 기술을 사용하여 블랙박스 대형 언어 모델(LLM)의 프롬프트를 이전 실행에서의 작업 데모로 최적으로 채웁니다. 엔드투엔드 성공률을 극대화하기 위해, 우리는 또한 실수를 학습하고 복구하는 지능형 역추적(backtracking) 메커니즘을 제안합니다. 마지막으로, 우리의 순위 모델이 생성적 자가 커리큘럼(generative auto-curriculum)에서 생성된 데이터로 훈련될 수 있음을 보여줍니다. 이 커리큘럼은 LLM에서 대표적인 목표를 샘플링하고, 에이전트를 실행하며, 수동 주석 없이 자동으로 평가합니다. Wilbur는 WebVoyager 벤치마크에서 최첨단 결과를 달성하며, 텍스트 전용 모델을 전체적으로 8%, 특정 웹사이트에서는 최대 36% 앞섭니다. 동일한 벤치마크에서 Wilbur는 텍스트 입력만 받음에도 불구하고 강력한 멀티모달 모델과 5% 이내의 성능 차이를 보이며, 추가 분석은 상당수의 실패가 웹 운영의 엔지니어링적 과제에 기인함을 보여줍니다.
계층적 게이트 선형 RNN(HGRN, Qin et al. 2023)은 언어 모델링에서 경쟁력 있는 학습 속도와 성능을 보여주며, 효율적인 추론을 제공합니다. 그러나 HGRN의 순환 상태 크기는 상대적으로 작아 표현력이 제한됩니다. 이 문제를 해결하기 위해 선형 어텐션에서 영감을 받아, 추가 매개변수를 도입하지 않고도 순환 상태 크기를 크게 확장할 수 있는 간단한 외적 기반 상태 확장 메커니즘을 제안합니다. 선형 어텐션 형태는 하드웨어 효율적인 학습도 가능하게 합니다. 우리의 광범위한 실험을 통해 HGRN2가 HGRN1보다 언어 모델링, 이미지 분류, Long Range Arena에서 우수함을 검증했습니다. 가장 큰 3B HGRN2 모델은 통제된 실험 설정에서 언어 모델링에 있어 Mamba 및 LLaMa 아키텍처 트랜스포머를 약간 능가하며, 다운스트림 평가에서 많은 오픈소스 3B 모델들과 경쟁력을 보이면서도 훨씬 적은 총 학습 토큰을 사용합니다.
가이던스는 이미지 생성 확산 모델의 최상의 성능을 이끌어내는 중요한 기술입니다. 전통적으로는 이미지 샘플링 체인 전체에 걸쳐 일정한 가이던스 가중치가 적용되어 왔습니다. 우리는 가이던스가 체인의 초기 단계(높은 노이즈 수준)에서는 명백히 해롭고, 후반 단계(낮은 노이즈 수준)에서는 대체로 불필요하며, 중간 단계에서만 유익하다는 것을 보여줍니다. 따라서 우리는 이를 특정 노이즈 수준 범위로 제한함으로써 추론 속도와 결과 품질을 모두 개선했습니다. 이 제한된 가이던스 구간은 ImageNet-512에서 기록적인 FID를 1.81에서 1.40으로 크게 향상시켰습니다. 우리는 이 방법이 다양한 샘플러 매개변수, 네트워크 아키텍처, 데이터셋, 그리고 Stable Diffusion XL과 같은 대규모 설정에서도 양적 및 질적으로 유익함을 보여줍니다. 따라서 우리는 가이던스를 사용하는 모든 확산 모델에서 가이던스 구간을 하이퍼파라미터로 노출할 것을 제안합니다.
차선 검출은 자율 주행의 핵심 과제 중 하나이며, 딥러닝의 등장으로 큰 발전을 이루어 왔습니다. 기존의 앵커 기반 방법들은 주로 조밀한 앵커를 설계하는데, 이는 학습 데이터셋에 크게 의존하며 추론 과정에서 고정된 상태로 유지됩니다. 본 연구에서는 차선 검출을 위해 조밀한 앵커가 반드시 필요하지 않음을 분석하고, 희소 앵커 메커니즘을 기반으로 한 트랜스포머 기반 차선 검출 프레임워크를 제안합니다. 이를 위해 전통적인 명시적 앵커 대신 위치 인식 차선 쿼리와 각도 쿼리를 사용하여 희소 앵커를 생성합니다. 수평 방향으로 차선 특징을 집계하기 위해 Horizontal Perceptual Attention(HPA)을 도입하고, 차선 쿼리와 각도 쿼리 간의 상호작용을 수행하기 위해 Lane-Angle Cross Attention(LACA)을 적용합니다. 또한, 변형 가능한 교차 주의력 기반의 Lane Perceptual Attention(LPA)을 제안하여 차선 예측을 더욱 정교화합니다. 우리의 방법은 Sparse Laneformer로 명명되었으며, 구현이 간단하고 종단간 학습이 가능합니다. 광범위한 실험을 통해 Sparse Laneformer가 최신 방법들에 비해 우수한 성능을 보임을 입증하였습니다. 예를 들어, 동일한 ResNet-34 백본을 사용한 CULane 데이터셋에서 Laneformer보다 3.0% 높은 F1 점수를, O2SFormer보다 0.7% 높은 F1 점수를 달성하면서 더 적은 MACs를 사용하였습니다.