번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델(LLMs)의 힘을 활용하여 컴퓨터 비전 문제를 해결하기 위한 모듈식 접근법인 LENS를 제안한다. 본 시스템은 이미지에 대한 포괄적인 정보를 제공하는 독립적이고 매우 설명적인 비전 모듈 세트의 출력을 언어 모델을 통해 추론한다. 우리는 이 접근법을 제로샷 및 퓨샷 객체 인식과 같은 순수 컴퓨터 비전 설정뿐만 아니라 비전과 언어 문제에서도 평가한다. LENS는 기성 LLM에 적용할 수 있으며, LENS를 적용한 LLM은 훨씬 더 크고 정교한 시스템과 매우 경쟁력 있게 성능을 발휘함을 확인했다. 이는 어떠한 다중모달 학습도 없이 이루어진다. 우리는 코드를 https://github.com/ContextualAI/lens에서 오픈소스로 공개하고, 인터랙티브 데모를 제공한다.
생성형 AI와 대형 언어 모델은 초급 프로그래밍 교육을 위한 차세대 교육 기술을 강화함으로써 컴퓨팅 교육을 개선할 큰 잠재력을 가지고 있습니다. 최근 연구들은 프로그래밍 교육과 관련된 다양한 시나리오에서 이러한 모델들을 연구해 왔지만, 이러한 연구들은 일반적으로 이미 구식이 된 모델을 고려하거나 특정 시나리오만을 다루는 등 여러 가지 이유로 제한적입니다. 결과적으로, 포괄적인 프로그래밍 교육 시나리오에 대해 최신 모델들을 벤치마킹하는 체계적인 연구가 부족한 상황입니다. 본 연구에서는 ChatGPT(GPT-3.5 기반)와 GPT-4 두 모델을 체계적으로 평가하고, 다양한 시나리오에서 인간 튜터와의 성능을 비교합니다. 우리는 초급 Python 프로그래밍 문제 5개와 온라인 플랫폼의 실제 버그가 있는 프로그램을 사용하여 평가를 진행하며, 전문가 기반 주석을 통해 성능을 평가합니다. 연구 결과, GPT-4는 ChatGPT(GPT-3.5 기반)를 크게 능가하며 여러 시나리오에서 인간 튜터의 성능에 근접하는 것으로 나타났습니다. 또한 이러한 결과는 GPT-4가 여전히 어려움을 겪는 설정을 강조하며, 이러한 모델의 성능을 개선하기 위한 기술 개발에 대한 흥미로운 미래 방향을 제시합니다.
유전체(DNA) 서열은 유전자 조절과 단백질 합성을 위한 방대한 양의 정보를 인코딩합니다. 자연어 모델과 유사하게, 연구자들은 유전체학에서 레이블이 없는 유전체 데이터로부터 일반화 가능한 특징을 학습한 후, 규제 요소 식별과 같은 다운스트림 작업에 미세 조정할 수 있는 기초 모델을 제안했습니다. 주의 메커니즘의 이차적 스케일링으로 인해, 이전의 Transformer 기반 유전체 모델들은 512에서 4k 토큰을 컨텍스트로 사용했으며(<0.001%의 인간 유전체), 이는 DNA 내 장거리 상호작용 모델링을 상당히 제한했습니다. 또한, 이러한 방법들은 의미 있는 DNA 단위를 집계하기 위해 토크나이저에 의존함으로써, 단일 뉴클레오티드 변이(SNPs)를 통해 단백질 기능을 완전히 바꿀 수 있는 미세한 유전적 변이를 잃어버렸습니다. 최근, 암시적 컨볼루션을 기반으로 한 대형 언어 모델인 Hyena는 더 긴 컨텍스트 길이와 더 낮은 시간 복잡도를 허용하면서도 주의 메커니즘과 동등한 품질을 보여주었습니다. Hyena의 새로운 장거리 기능을 활용하여, 우리는 단일 뉴클레오티드 수준에서 최대 100만 토큰의 컨텍스트 길이로 인간 참조 유전체에 사전 훈련된 유전체 기초 모델인 HyenaDNA를 제시합니다. 이는 이전의 밀집 주의 기반 모델 대비 최대 500배 증가한 수치입니다. HyenaDNA는 서열 길이에 대해 준이차적으로 스케일링되며(Transformer 대비 최대 160배 빠른 훈련 속도), 단일 뉴클레오티드 토큰을 사용하고, 각 레이어에서 전역 컨텍스트를 완전히 갖춥니다. 우리는 더 긴 컨텍스트가 가능하게 하는 것, 즉 사전 훈련된 모델 가중치를 업데이트하지 않고도 새로운 작업에 간단히 적응할 수 있는 유전체학 내 컨텍스트 학습의 첫 사용을 탐구합니다. Nucleotide Transformer의 미세 조정 벤치마크에서, HyenaDNA는 훨씬 적은 매개변수와 사전 훈련 데이터를 사용하여 17개 데이터셋 중 12개에서 최첨단(SotA) 성능을 달성했습니다. GenomicBenchmarks에서는 HyenaDNA가 모든 8개 데이터셋에서 평균 +9 정확도 포인트로 SotA를 능가했습니다.
명령어 튜닝은 대형 언어 모델(LLM)이 인간과 상호작용할 수 있는 우수한 능력을 발휘하도록 합니다. 더 나아가, 최근의 명령어 수행 데이터셋은 시각적 입력으로 이미지를 포함하며, 이미지 기반 명령어에 대한 응답을 수집합니다. 그러나 시각적 명령어 튜닝 모델은 이미지 내의 텍스트 세부 사항을 잘 이해하지 못합니다. 본 연구는 텍스트가 풍부한 이미지(예: 영화 포스터, 책 표지 등)를 활용하여 현재의 시각적 명령어 튜닝 파이프라인을 개선합니다. 구체적으로, 먼저 공개적으로 이용 가능한 OCR 도구를 사용하여 LAION 데이터셋의 422K 텍스트 풍부한 이미지에 대한 결과를 수집합니다. 또한, 인식된 텍스트와 이미지 캡션을 기반으로 텍스트 전용 GPT-4를 프롬프트하여 16K 대화를 생성하며, 각 대화는 텍스트 풍부한 이미지에 대한 질문-답변 쌍을 포함합니다. 수집한 데이터를 기존의 다중 모달 명령어 수행 데이터와 결합함으로써, 우리의 모델인 LLaVAR는 LLaVA 모델의 텍스트 기반 VQA 데이터셋에서의 성능을 크게 향상시키며(최대 20% 정확도 향상), ScienceQA에서 91.42%의 정확도를 달성합니다. GPT-4 기반 명령어 수행 평가는 또한 우리 모델이 자연 이미지와 텍스트 풍부한 이미지 모두에서 개선된 성능을 보임을 입증합니다. 질적 분석을 통해, LLaVAR는 텍스트와 이미지를 결합한 최신 실시간 온라인 콘텐츠를 기반으로 인간과의 상호작용(예: 추론, 글쓰기, 설명) 기술에서 유망한 가능성을 보여줍니다. 우리는 코드/데이터/모델을 https://llavar.github.io/에서 공개합니다.
대형 언어 모델(LLMs)은 사회적 문제에 대한 다양한 글로벌 관점을 공평하게 반영하지 못할 수 있다. 본 논문에서는 모델 생성 응답이 누구의 의견과 더 유사한지를 평가하기 위한 정량적 프레임워크를 개발한다. 먼저, 다양한 국가 간의 글로벌 이슈에 대한 다양한 의견을 포착하기 위해 설계된 국제 설문조사의 질문과 답변으로 구성된 데이터셋인 GlobalOpinionQA를 구축한다. 다음으로, 국가를 조건으로 하여 LLM 생성 설문 응답과 인간 응답 간의 유사성을 정량화하는 지표를 정의한다. 이 프레임워크를 사용하여, 헌법적 AI(Constitutional AI)를 통해 도움적이고, 정직하며, 무해하도록 훈련된 LLM에 대해 세 가지 실험을 실행한다. 기본적으로 LLM 응답은 미국 및 일부 유럽 및 남미 국가와 같은 특정 인구의 의견과 더 유사한 경향이 있어 편향 가능성을 강조한다. 모델에 특정 국가의 관점을 고려하도록 프롬프트를 제공하면, 응답이 프롬프트된 인구의 의견과 더 유사하게 이동하지만, 유해한 문화적 고정관념을 반영할 수 있다. GlobalOpinionQA 질문을 대상 언어로 번역할 때, 모델의 응답이 반드시 해당 언어 사용자의 의견과 가장 유사해지지는 않는다. 우리는 다른 연구자들이 사용하고 발전시킬 수 있도록 데이터셋을 공개한다. 데이터는 https://huggingface.co/datasets/Anthropic/llm_global_opinions에서 확인할 수 있다. 또한, https://llmglobalvalues.anthropic.com에서 인터랙티브 시각화 자료를 제공한다.
노이즈 제거 확산 모델은 최근 생성 작업에서 인상적인 결과를 보여주고 있다. 방대한 양의 훈련 이미지 컬렉션으로부터 강력한 사전 정보를 학습함으로써, 이러한 모델들은 완전한 노이즈를 깨끗한 자연 이미지로 점진적으로 변환하는 일련의 작은 노이즈 제거 단계를 통해 단일 이미지 노이즈 제거에 적합해 보인다. 그러나, 노이즈 제거 확산 모델을 현실적인 노이즈 제거에 효과적으로 적용하는 것은 생각보다 더 어려운 과제이다. 이는 이러한 모델들의 공식화가 실제 세계 이미지의 노이즈와 달리 가산적 백색 가우시안 노이즈를 기반으로 하기 때문이다. 본 연구에서는 보다 현실적인 공간적으로 변이하는 노이즈 모델을 가정한 새로운 노이즈 제거 확산 공식화인 SVNR을 제안한다. SVNR은 노이즈가 있는 입력 이미지를 노이즈 제거 확산 과정의 시작점으로 사용할 수 있게 할 뿐만 아니라, 이 과정을 조건화할 수 있게 한다. 이를 위해, 각 픽셀이 자신만의 시간 임베딩을 가질 수 있도록 확산 과정을 조정하고, 공간적으로 변이하는 시간 맵을 지원하는 훈련 및 추론 방식을 제안한다. 또한, 본 공식화는 수정된 확산 과정을 따라 조건 이미지와 샘플 간에 존재하는 상관관계를 고려한다. 실험을 통해 우리의 접근 방식이 강력한 확산 모델 기준선뿐만 아니라 최신 단일 이미지 노이즈 제거 방법보다 우수함을 입증한다.
실패한 실행을 자동으로 탐지하고 분석하는 능력은 설명 가능하고 견고한 로봇 시스템에 있어 매우 중요합니다. 최근 대규모 언어 모델(LLM)은 텍스트 입력에 대한 강력한 상식적 추론 능력을 보여주었습니다. 로봇 실패 설명을 위해 LLM의 힘을 활용하기 위해, 우리는 다중 감각 데이터를 로봇의 과거 경험에 대한 계층적 요약으로 변환하고 점진적 실패 설명 알고리즘으로 LLM을 쿼리하는 REFLECT 프레임워크를 제안합니다. 설명에 기반하여, 실패 수정 플래너는 로봇이 실패를 수정하고 작업을 완료할 수 있는 실행 가능한 계획을 생성합니다. 이 프레임워크를 체계적으로 평가하기 위해, 우리는 RoboFail 데이터셋을 생성하고 LLM 기반 프레임워크가 성공적인 수정 계획을 지원하는 유익한 실패 설명을 생성할 수 있음을 보여줍니다. 프로젝트 웹사이트: https://roboreflect.github.io/
대규모 언어 모델(LLM)은 다양한 응용 분야에서 즉시 사용 가능한 뛰어난 능력을 보여주었지만, 특히 생물의학과 같은 임무가 중요한 분야에서는 정확도가 여전히 주요 성장 영역으로 남아 있습니다. LLM 응답에 대한 신뢰 수준을 효과적으로 조정하는 방법은 오류를 자동으로 감지하고 인간 중심 검증을 용이하게 하는 데 필수적입니다. 이러한 조정 신호의 중요한 원천은 전문가가 규정한 프로그램적 감독에서 비롯되며, 이는 종종 낮은 비용으로 이용 가능하지만 노이즈와 커버리지와 같은 자체적인 한계를 가지고 있습니다. 본 논문에서는 추가적인 수작업 없이 모든 응답에 대한 위험 점수를 생성함으로써 이용 가능한 프로그램적 감독을 활용하여 LLM 응답을 체계적으로 조정할 수 있는 파레토 최적 자기 감독 프레임워크를 소개합니다. 이는 LLM 출력과 다른 이용 가능한 감독 소스를 정렬하기 위한 조정 모델을 학습함으로써 달성되며, 이 모델은 더 불확실한 LLM 응답에 더 높은 위험 점수를 할당하고 오류 수정을 용이하게 합니다. 생물의학 및 일반 도메인의 표준 관계 추출 작업에 대한 실험은 이 접근법의 유망성을 보여주며, 제안된 위험 점수는 LLM의 실제 오류율과 높은 상관관계를 보입니다. 가장 불확실한 테스트 인스턴스의 경우, 제안된 위험 점수를 기반으로 한 동적 프롬프팅은 즉시 사용 가능한 LLM의 정확도를 크게 향상시켜, GPT-3 결과를 최신 약한 감독 결과를 넘어서게 하고, GPT-4 결과를 도전적인 평가 데이터셋에서 최신 감독 결과를 넘어서게 합니다.
최근의 종단간 자동 음성 인식(ASR) 시스템은 종종 높은 프레임 속도로 임베딩을 생성하는 Transformer 기반의 음향 인코더를 활용한다. 그러나 이러한 설계는 자기 주의(self-attention)의 이차 계산으로 인해, 특히 긴 음성 신호에 대해 비효율적이다. 이를 해결하기 위해, 우리는 인접한 토큰을 키 값 간의 높은 유사도 점수를 기반으로 점진적으로 결합하는 새로운 방법인 Adjacent Token Merging(A-ToMe)을 제안한다. 이를 통해 전체 시간 단계를 줄일 수 있으며, 인코더와 결합 네트워크의 추론 속도를 가속화할 수 있다. LibriSpeech에서의 실험 결과, 우리의 방법은 토큰의 57%를 줄이고 GPU에서의 추론 속도를 70% 향상시키면서도 정확도의 유의미한 손실 없이 이를 달성할 수 있음을 보여준다. 또한, A-ToMe는 다중 발화로 구성된 장문 ASR에서도 토큰을 줄이는 효과적인 해결책임을 입증한다.