번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 문맥 내 학습(In-context Learning, ICL)은 강력한 새로운 학습 패러다임으로 부상했습니다. 그러나 그 근본적인 메커니즘은 아직 잘 이해되지 않고 있습니다. 특히, 이를 "표준" 머신 러닝 프레임워크에 매핑하는 것은 어려운 과제입니다. 표준 프레임워크에서는 학습 세트 S를 사용하여 특정 가설 클래스 내에서 최적의 함수 f(x)를 찾습니다. 여기서 우리는 이 문제에 대한 진전을 이루어, ICL에 의해 학습된 함수들이 종종 매우 단순한 구조를 가진다는 것을 보여줍니다: 이 함수들은 쿼리 x와 학습 세트로부터 계산된 단일 "태스크 벡터"만을 입력으로 받는 트랜스포머 LLM에 해당합니다. 따라서 ICL은 S를 단일 태스크 벡터 theta(S)로 압축한 후, 이 태스크 벡터를 사용하여 트랜스포머를 조정하여 출력을 생성하는 것으로 볼 수 있습니다. 우리는 다양한 모델과 작업에 걸친 포괄적인 실험을 통해 위 주장을 뒷받침합니다.
공개적으로 이용 가능한 비전 파운데이션 모델(VFM)의 풍경은 CLIP과 Segment Anything Model(SAM)과 같은 모델들이 빠르게 확장되고 있습니다. VFM은 사전 학습 목표에서 비롯된 독특한 능력을 갖추고 있습니다. 예를 들어, CLIP은 의미 이해에 뛰어나고, SAM은 분할을 위한 공간 이해에 특화되어 있습니다. 본 연구에서는 VFM을 통합 모델로 효율적으로 병합하여 그들의 전문성을 흡수하는 간단한 방법을 소개합니다. 우리가 제안한 방법은 다중 작업 학습, 지속 학습 기술, 그리고 교사-학생 증류를 통합합니다. 이 전략은 전통적인 다중 작업 학습에 비해 상당히 적은 계산 비용을 요구합니다. 또한, 개별 모델을 처음 훈련하는 데 사용된 사전 학습 데이터셋의 작은 부분만 필요로 합니다. 우리의 방법을 SAM과 CLIP에 적용하여 SAM-CLIP을 도출했습니다: SAM과 CLIP의 강점을 단일 백본에 통합한 통합 모델로, 이는 에지 디바이스 애플리케이션에 적합합니다. SAM-CLIP은 더 풍부한 시각적 표현을 학습하며, 위치 정보와 의미 특징을 모두 갖추어 다양한 비전 작업에 적합합니다. SAM-CLIP은 SAM과 CLIP과 비교하여 여러 헤드 프로빙 작업에서 향상된 성능을 보입니다. 우리는 더 나아가 SAM-CLIP이 선행 모델들의 기본 강점을 유지할 뿐만 아니라 시너지 기능을 도입함을 보여주며, 특히 제로샷 의미 분할에서 SAM-CLIP이 5개의 벤치마크에서 새로운 최첨단 결과를 달성합니다. 이는 이 작업을 위해 특별히 설계된 이전 모델들을 큰 차이로 능가하며, Pascal-VOC와 COCO-Stuff 데이터셋에서 각각 +6.8%와 +5.9%의 평균 IoU 향상을 보입니다.
환각(hallucination)은 빠르게 진화하는 멀티모달 대형 언어 모델(MLLMs) 위에 드리운 큰 그림자로, 생성된 텍스트가 이미지 내용과 불일치하는 현상을 의미합니다. 환각을 완화하기 위해 기존 연구들은 주로 특정 데이터로 모델을 재학습시키는 지시 튜닝(instruction-tuning) 방식을 사용해 왔습니다. 본 논문에서는 이러한 접근과는 다른 길을 제시하며, 훈련이 필요 없는 방법인 Woodpecker를 소개합니다. 딱따구리가 나무를 치료하듯, 이 방법은 생성된 텍스트에서 환각을 찾아내고 수정합니다. 구체적으로, Woodpecker는 다섯 단계로 구성됩니다: 핵심 개념 추출, 질문 구성, 시각 지식 검증, 시각 주장 생성, 그리고 환각 수정. 사후 보완 방식으로 구현된 Woodpecker는 다양한 MLLMs에 쉽게 적용할 수 있으며, 다섯 단계의 중간 출력을 통해 해석 가능합니다. 우리는 Woodpecker를 정량적 및 정성적으로 평가하며 이 새로운 패러다임의 엄청난 잠재력을 보여줍니다. POPE 벤치마크에서 우리의 방법은 기준 모델인 MiniGPT-4/mPLUG-Owl 대비 정확도에서 각각 30.66%/24.33%의 향상을 달성했습니다. 소스 코드는 https://github.com/BradyFU/Woodpecker에서 공개되었습니다.
최근 GPT-3와 같은 대형 언어 모델(LLMs)을 기계 번역(MT)에 활용하는 연구는 주로 프롬프트를 위한 소수의 샘플을 선택하는 데 초점을 맞추어 왔습니다. 본 연구에서는 고품질의 도메인 내 데모를 변형시켜 번역의 문맥 학습에서 데모 속성의 역할을 더 잘 이해하려고 합니다. 우리는 소스-타겟 매핑의 비대칭적 변형이 매우 다른 결과를 가져온다는 것을 발견했습니다. 소스 측의 변형은 놀랍게도 거의 영향을 미치지 않는 반면, 타겟 측의 변형은 번역 품질을 크게 저하시킬 수 있으며, 이는 문맥 학습 중에 출력 텍스트 분포가 가장 중요한 학습 신호를 제공한다는 것을 시사합니다. 우리는 이러한 신호를 제로샷 프롬프팅에 자동으로 추가하는 Zero-Shot-Context라는 방법을 제안합니다. 이 방법이 GPT-3의 제로샷 번역 성능을 향상시키고, 심지어 소수 샘플 프롬프팅을 사용한 번역과도 경쟁력을 갖출 수 있음을 보여줍니다.
본 논문에서는 시맨틱 개념을 이미지 태깅 학습 프레임워크에 주입하여 강력한 오픈셋 인식 능력을 갖춘 기본 이미지 인식 모델인 Recognize Anything Plus Model~(RAM++)을 소개한다. 기존 접근 방식은 제한된 시맨틱에 의해 제약받는 이미지 태깅 모델이거나, 다중 태그 인식에서 최적의 성능을 내지 못하는 얕은 상호작용을 가진 시각-언어 모델이었다. 반면, RAM++은 이미지-텍스트 정렬과 이미지 태깅을 이미지-태그-텍스트 삼중항 기반의 통합된 세밀한 상호작용 프레임워크 내에서 통합한다. 이러한 설계는 RAM++이 사전 정의된 카테고리를 식별하는 데 뛰어날 뿐만 아니라, 오픈셋 카테고리에서의 인식 능력을 크게 향상시킨다. 또한, RAM++은 대규모 언어 모델~(LLM)을 활용하여 다양한 시각적 태그 설명을 생성함으로써, LLM의 지식을 이미지 태깅 학습에 통합하는 선구적인 접근 방식을 채택한다. 이 방법은 RAM++이 추론 과정에서 시각적 설명 개념을 통합하여 오픈셋 인식을 수행할 수 있도록 한다. 포괄적인 이미지 인식 벤치마크에서의 평가 결과, RAM++은 대부분의 측면에서 기존의 최첨단(SOTA) 기본 이미지 인식 모델을 능가하는 것으로 나타났다. 구체적으로, 사전 정의된 일반적인 태그 카테고리에서 RAM++은 OpenImages와 ImageNet에서 CLIP 대비 각각 10.2 mAP와 15.4 mAP의 향상을 보였다. 사전 정의된 범위를 벗어난 오픈셋 카테고리에서는 OpenImages에서 CLIP과 RAM 대비 각각 5 mAP와 6.4 mAP의 개선을 기록했다. 다양한 인간-객체 상호작용 구문에 대해서는 HICO 벤치마크에서 7.8 mAP와 4.7 mAP의 향상을 달성했다. 코드, 데이터셋 및 사전 학습된 모델은 https://github.com/xinyu1205/recognize-anything에서 확인할 수 있다.
우리는 최신 모델들이 정보 검색을 위한 제약 조건 충족 쿼리(예: '샌디에고에 있는 아이스크림 가게 목록')에 답변할 수 있는 능력을 연구합니다. 과거에는 이러한 쿼리가 웹 검색이나 지식 베이스를 통해서만 해결할 수 있는 작업으로 여겨졌습니다. 최근에는 대규모 언어 모델(LLM)들이 이러한 작업에서 초기적인 창발적 능력을 보여주었습니다. 그러나 현재의 많은 검색 벤치마크는 이미 포화 상태이거나 제약 조건 충족을 측정하지 않습니다. LLM의 사실 오류와 환각 현상에 대한 우려가 증가함에 따라, 우리는 언어 모델의 제약 조건 충족 능력을 측정하기 위한 새로운 데이터셋인 KITAB를 제시합니다. KITAB은 600명 이상의 작가와 13,000개 이상의 쿼리에 걸친 도서 관련 데이터로 구성되어 있으며, 다른 작가에 대한 유사한 테스트 데이터를 수집하기 위한 동적 데이터 수집 및 제약 조건 검증 접근법도 제공합니다. GPT4와 GPT3.5에 대한 확장된 실험을 통해 정보 인기도, 제약 조건 유형, 컨텍스트 가용성 등의 차원에서 일반적인 실패 모드를 특성화하고 분리합니다. 결과는 컨텍스트가 없는 경우 모델이 관련 없는 정보, 사실 오류, 불완전성 등으로 심각한 한계를 보이며, 이러한 문제는 정보 인기도가 낮아질수록 악화됨을 보여줍니다. 컨텍스트 가용성은 관련 없는 정보를 완화하지만, 제약 조건을 충족하는 데에는 도움이 되지 않아, 제약 조건 충족의 근본적인 장벽을 확인합니다. 우리는 향후 모델의 제약 조건 충족 능력 개선을 위한 추가 연구를 촉진하기 위해 기여 내용을 오픈소스로 공개합니다.
트랜스포머(Transformer) 아키텍처는 수많은 AI 모델에서 핵심적인 역할을 하지만, 여전히 장거리 언어 모델링에서의 문제점을 안고 있습니다. 장거리 의존성 문제를 해결하기 위해 여러 특수한 트랜스포머 아키텍처가 설계되었지만, Transformer-XL과 같은 기존 방법들은 비효율적인 메모리 사용 비율이 높다는 한계를 지니고 있습니다. 본 연구에서는 단순한 메트릭을 기반으로 어텐션 계산에 참여할 토큰을 선택하는 플러그 앤 플레이 전략인 TRAining-free Memory Selection(TRAMS)을 제안합니다. 이 전략은 현재 쿼리와 높은 어텐션 점수를 가질 가능성이 있는 토큰은 유지하고, 나머지는 무시할 수 있게 합니다. 우리는 이 접근법을 단어 수준 벤치마크(WikiText-103)와 문자 수준 벤치마크(enwik8)에서 테스트했으며, 추가적인 학습이나 파라미터 증가 없이도 성능 향상을 확인했습니다.
도덕 기초 이론(Moral Foundations Theory, MFT)은 인간의 도덕적 추론을 돌봄/해악, 자유/억압, 신성/타락 등 다섯 가지 요소로 분해하는 심리학적 평가 도구이다(Graham et al., 2009). 사람들은 도덕적 결정을 내릴 때 이러한 차원에 부여하는 중요도가 다르며, 이는 부분적으로 문화적 배경과 정치적 이념에 기인한다. 대규모 언어 모델(LLM)은 인터넷에서 수집된 데이터셋으로 학습되기 때문에, 이러한 코퍼스에 존재하는 편향을 반영할 가능성이 있다. 본 논문은 MFT를 통해 인기 있는 LLM이 특정 도덕적 가치에 대한 편향을 습득했는지 분석한다. 우리는 알려진 LLM을 분석하여 특정 도덕 기초를 나타내는지 확인하고, 이러한 기초가 인간의 도덕 기초 및 정치적 성향과 어떻게 관련되는지 보여준다. 또한 이러한 편향의 일관성을 측정하거나, 모델이 어떤 맥락에서 프롬프트를 받는지에 따라 편향이 크게 달라지는지 살펴본다. 마지막으로, 모델이 특정 도덕 기초를 나타내도록 유도하는 적대적 프롬프트를 선택할 수 있으며, 이는 다운스트림 작업에서 모델의 행동에 영향을 미칠 수 있음을 보여준다. 이러한 연구 결과는 LLM이 특정 도덕적 입장을 취할 때 발생할 수 있는 잠재적 위험과 의도하지 않은 결과를 잘 보여준다.