번역이 포함된 일일 선별된 AI 연구 논문
텍스트 기반 이미지 편집은 개인적인 사용부터 포토샵과 같은 전문적인 응용 프로그램에 이르기까지 일상생활에서 널리 요구되는 기능입니다. 그러나 기존 방법들은 제로샷(zero-shot) 방식이거나 자동으로 합성된 데이터셋을 기반으로 학습된 경우가 많으며, 이러한 데이터셋에는 상당한 양의 노이즈가 포함되어 있습니다. 따라서 실제로 원하는 결과를 얻기 위해서는 여전히 많은 수동 조정이 필요합니다. 이 문제를 해결하기 위해 우리는 MagicBrush(https://osu-nlp-group.github.io/MagicBrush/)를 소개합니다. MagicBrush는 단일 턴, 다중 턴, 마스크 제공, 마스크 없는 편집 등 다양한 시나리오를 포함하는, 지침 기반 실제 이미지 편집을 위한 최초의 대규모 수동 주석 데이터셋입니다. MagicBrush는 10,000개 이상의 수동 주석이 달린 삼중항(원본 이미지, 지침, 목표 이미지)으로 구성되어 있으며, 이를 통해 대규모 텍스트 기반 이미지 편집 모델을 학습할 수 있습니다. 우리는 MagicBrush를 사용하여 InstructPix2Pix를 미세 조정(fine-tuning)했으며, 새로운 모델이 인간 평가에 따라 훨씬 더 나은 이미지를 생성할 수 있음을 보여줍니다. 또한, 우리는 현재의 이미지 편집 베이스라인을 정량적, 정성적, 인간 평가 등 다양한 차원에서 평가하기 위한 광범위한 실험을 수행했습니다. 그 결과, 우리 데이터셋의 도전적인 특성과 현재 베이스라인과 실제 세계의 편집 요구 사이의 격차가 드러났습니다.
대규모 언어 모델(LLMs)은 자연어 처리(NLP) 분야에 혁신을 가져왔지만, 학습을 위해서는 막대한 GPU 자원이 필요합니다. LLMs 학습의 문턱을 낮추는 것은 연구자들의 더 많은 참여를 유도하여 학계와 사회 모두에 이익을 줄 것입니다. 기존 접근법들은 매개변수 효율적 미세 조정에 초점을 맞추어 소수의 매개변수를 조정하거나 추가하는 데 집중해왔지만, 제한된 자원으로 LLMs의 전체 매개변수를 조정하는 문제를 다룬 연구는 거의 없었습니다. 본 연구에서는 메모리 사용량을 줄이기 위해 그래디언트 계산과 매개변수 업데이트를 한 단계로 융합한 새로운 최적화 기법인 LOw-Memory Optimization(LOMO)을 제안합니다. LOMO를 기존의 메모리 절약 기술과 통합함으로써, 표준 접근법(DeepSpeed 솔루션) 대비 메모리 사용량을 10.8%로 줄였습니다. 결과적으로, 우리의 접근법은 24GB 메모리를 가진 8개의 RTX 3090으로 구성된 단일 머신에서 65B 모델의 전체 매개변수 미세 조정을 가능하게 합니다.
대형 언어 모델(LLMs)은 코드 생성에서 뛰어난 능력을 보여주지만 여전히 도전적인 프로그래밍 작업에서는 어려움을 겪고 있습니다. 최근에는 모델이 자신이 생성한 코드의 오류를 디버깅하고 수정하는 '자기 수정(Self-repair)'이 이러한 환경에서 성능을 향상시키는 인기 있는 방법으로 부상했습니다. 그러나 문헌에서는 자기 수정이 어떻게 그리고 언제 효과적으로 작동하는지에 대한 연구가 매우 제한적이며, 동일한 모델이 생성한 코드에 대해 정확한 피드백을 제공할 수 있는 능력이 어느 정도인지 의문이 들 수 있습니다. 본 논문에서는 GPT-3.5와 GPT-4가 다양한 코딩 문제로 구성된 도전적인 데이터셋인 APPS에서 자기 수정을 수행하는 능력을 분석합니다. 이를 위해 먼저 모델에서 샘플링된 총 토큰 수에 대해 작업의 통과율을 측정하는 새로운 평가 전략인 'pass@t'를 제안하여 순수 샘플링 기반 접근 방식과의 공정한 비교를 가능하게 합니다. 이 평가 전략을 통해 우리는 자기 수정의 효과가 GPT-4에서만 나타난다는 것을 발견했습니다. 또한 자기 수정이 피드백 단계에서 병목 현상을 겪고 있음을 관찰했습니다. GPT-4가 GPT-3.5가 생성한 프로그램에 피드백을 제공하거나 전문 인간 프로그래머가 GPT-4가 생성한 프로그램에 피드백을 제공함으로써 상당한 성능 향상을 이끌어냈습니다.
우리는 텍스트 프롬프트나 특정 이미지를 사용하여 고품질 3D 아바타를 생성하는 새로운 방법인 AvatarBooth를 소개합니다. 기존의 단순한 텍스트 설명에 기반한 아바타 합성만 가능했던 방법과 달리, 우리의 방법은 캐주얼하게 촬영된 얼굴이나 신체 이미지로부터 개인화된 아바타를 생성할 수 있으며, 여전히 텍스트 기반 모델 생성 및 편집을 지원합니다. 우리의 주요 기여는 인간의 얼굴과 신체를 각각 위해 별도로 미세 조정된 이중 확산 모델을 사용하여 정확한 아바타 생성 제어를 가능하게 한 것입니다. 이를 통해 얼굴 외모, 의상, 액세서리의 복잡한 세부 사항을 포착하여 매우 사실적인 아바타 생성을 가능하게 합니다. 또한, 확산 모델에서 합성된 머리 이미지의 다중 뷰 일관성을 강화하고 제어되지 않은 인간 자세의 간섭을 제거하기 위해 최적화 과정에 포즈 일관성 제약을 도입했습니다. 더불어, 3D 아바타 생성을 위한 거친 단계에서 세밀한 단계로의 감독을 용이하게 하는 다중 해상도 렌더링 전략을 제시하여 제안 시스템의 성능을 향상시켰습니다. 결과적으로 생성된 아바타 모델은 추가 텍스트 설명을 사용하여 더욱 편집할 수 있으며, 모션 시퀀스에 의해 구동될 수 있습니다. 실험 결과, AvatarBooth는 텍스트 프롬프트나 특정 이미지로부터의 렌더링 및 기하학적 품질 측면에서 기존의 텍스트-투-3D 방법들을 능가하는 것으로 나타났습니다. 자세한 내용은 프로젝트 웹사이트(https://zeng-yifei.github.io/avatarbooth_page/)를 참조해 주세요.
로봇 공학을 위한 자기 지도 방식의 감각운동 사전 학습 접근법을 제안한다. 우리의 모델인 RPT는 감각운동 토큰 시퀀스에서 작동하는 트랜스포머(Transformer)이다. 카메라 이미지, 로봇의 자세 정보, 그리고 과거 동작의 시퀀스가 주어지면, 우리는 이 인터리브된 시퀀스를 토큰으로 인코딩하고 무작위로 선택된 부분을 마스킹한 후, 모델이 마스킹된 내용을 예측하도록 학습시킨다. 로봇이 누락된 내용을 예측할 수 있다면, 이는 물리적 세계에 대한 좋은 모델을 획득했음을 의미하며, 이를 통해 행동할 수 있게 된다고 가정한다. RPT는 잠재적 시각 표현에서 작동하도록 설계되어 예측을 용이하게 하고, 모델 크기를 10배까지 확장할 수 있으며, 실제 로봇에서 10Hz의 추론 속도를 가능하게 한다. 이 접근법을 평가하기 위해, 우리는 모션 플래닝과 모델 기반 그랩핑 알고리즘을 조합하여 9개월 동안 20,000개의 실제 궤적 데이터셋을 수집했다. 이 데이터에 대한 사전 학습은 처음부터 학습하는 것보다 일관되게 우수한 성능을 보였으며, 블록 쌓기 작업에서 2배의 성능 향상을 이끌었고, 확장성 측면에서도 유리한 특성을 보였다.
오픈-보커블러리 객체 탐지는 사전 학습된 시각-언어 모델로부터 큰 혜택을 받았지만, 여전히 이용 가능한 탐지 학습 데이터의 양에 의해 제한받고 있다. 탐지 학습 데이터는 웹 이미지-텍스트 쌍을 약한 감독으로 사용하여 확장할 수 있지만, 이는 이미지 수준의 사전 학습과 비교할 만한 규모로 이루어지지 않았다. 여기서 우리는 기존 탐지기를 사용하여 이미지-텍스트 쌍에 대한 가상 박스 주석을 생성하는 자기 학습을 통해 탐지 데이터를 확장한다. 자기 학습을 확장하는 데 있어 주요 과제는 레이블 공간 선택, 가상 주석 필터링, 그리고 학습 효율성이다. 우리는 이러한 과제를 해결하는 OWLv2 모델과 OWL-ST 자기 학습 레시피를 제시한다. OWLv2는 비교 가능한 학습 규모(~10M 예시)에서 이미 이전의 최첨단 오픈-보커블러리 탐지기의 성능을 능가한다. 그러나 OWL-ST를 통해 1B 이상의 예시로 확장할 수 있으며, 이는 더 큰 개선을 가져온다: L/14 아키텍처를 사용할 때, OWL-ST는 인간 박스 주석을 전혀 보지 못한 LVIS 희귀 클래스에 대한 AP를 31.2%에서 44.6%로 개선한다(43% 상대적 개선). OWL-ST는 이미지 분류와 언어 모델링에서 볼 수 있었던 것과 유사하게, 오픈-월드 위치 지정을 위한 웹 규모의 학습을 가능하게 한다.
상태 공간 모델(SSMs)은 장거리 의존성을 모델링하고 긴 시퀀스에 효율적으로 확장할 수 있는 작업에서 인상적인 결과를 보여주며, 이는 그들의 서브쿼드라틱 실행 시간 복잡성 덕분입니다. 원래 연속 신호를 위해 설계된 SSMs는 비전 및 오디오 분야의 다양한 작업에서 우수한 성능을 보여주었으나, 언어 모델링 작업에서는 여전히 트랜스포머의 성능에 뒤처지고 있습니다. 본 연구에서는 장거리 문맥화를 위한 SSM 서브레이어와 단기 시퀀스 표현을 위한 블록 트랜스포머 서브레이어를 내부적으로 결합한 블록-상태 트랜스포머(BST)라는 하이브리드 레이어를 제안합니다. 우리는 SSMs와 블록 단위 어텐션을 통합한 세 가지 서로 다른, 그리고 완전히 병렬화 가능한 변형을 연구합니다. 우리의 모델이 언어 모델링 퍼플렉서티에서 유사한 트랜스포머 기반 아키텍처를 능가하며, 더 긴 시퀀스로 일반화됨을 보여줍니다. 또한, 블록-상태 트랜스포머는 모델 병렬화가 적용될 때 블록-회귀 트랜스포머에 비해 레이어 수준에서 10배 이상의 속도 증가를 보여줍니다.
스케일링 법칙에 대한 연구는 대형 언어 모델(LMs)이 규모(모델 크기, 학습 데이터, 컴퓨팅 자원)가 증가함에 따라 전체 손실이 예측 가능하게 개선된다는 것을 발견했습니다. 본 연구에서는 언어 모델이 규모가 증가함에 따라 역스케일링, 즉 작업 성능이 더 나빠지는 현상을 보일 수 있다는 주장에 대한 증거를 제시합니다. 이는 학습 목표와 데이터의 결함 등으로 인해 발생할 수 있습니다. 우리는 상당한 상금이 걸린 공개 콘테스트인 'Inverse Scaling Prize'를 통해 수집된 11개의 데이터셋에서 역스케일링의 경험적 증거를 제시합니다. 이 데이터셋과 문헌에서 발견된 다른 사례들을 분석하여 역스케일링의 네 가지 잠재적 원인을 확인했습니다: (i) 문맥 내 지시를 따르기보다 기억된 시퀀스를 반복하려는 선호, (ii) 학습 데이터에서 바람직하지 않은 패턴을 모방하는 경향, (iii) 더 어려운 실제 작업 대신 쉬운 방해 작업에 집중할 가능성, (iv) 작업의 올바르지만 오해를 불러일으킬 수 있는 소수 예시(few-shot demonstrations). 우리는 역스케일링에 대한 추가 연구를 위해 수상 데이터셋을 https://inversescaling.com/data 에 공개했습니다. 우리의 작업은 초기 경향이 반전되는 U자형 및 역U자형 스케일링 경향의 발견을 촉진했으며, 이는 스케일링 경향이 대규모 모델의 행동을 예측하는 데 이전에 이해된 것보다 덜 신뢰할 수 있음을 시사합니다. 전반적으로, 우리의 결과는 모델 규모만 증가시켜도 진전을 이룰 수 없는 작업이 존재하며, 언어 모델 학습을 위한 데이터와 목표에 대해 더 신중한 고민이 필요함을 시사합니다.
최근 연구에서는 대량의 텍스트-오디오 쌍 데이터를 사용하여 텍스트-오디오 합성을 연구해 왔습니다. 그러나 고품질의 텍스트 주석이 포함된 오디오 녹음을 획득하는 것은 어려울 수 있습니다. 본 연구에서는 레이블이 없는 비디오와 사전 학습된 언어-비전 모델을 활용하여 텍스트-오디오 합성에 접근합니다. 우리는 시각적 모달리티를 매개체로 활용하여 원하는 텍스트-오디오 대응 관계를 학습하는 방법을 제안합니다. 사전 학습된 대조적 언어-이미지 사전 학습(CLIP) 모델로 인코딩된 비디오 프레임을 기반으로 비디오의 오디오 트랙을 생성하기 위해 조건부 확산 모델을 학습합니다. 테스트 시에는 먼저 제로샷 모달리티 전환을 수행하고, CLIP으로 인코딩된 텍스트 쿼리를 사용하여 확산 모델을 조건화하는 방법을 탐구합니다. 그러나 이미지 쿼리에 비해 성능 저하가 관찰됩니다. 이 격차를 줄이기 위해, 우리는 CLIP 텍스트 임베딩이 주어졌을 때 CLIP 이미지 임베딩을 생성하기 위해 사전 학습된 확산 프라이어 모델을 추가로 도입합니다. 우리의 결과는 제안된 방법의 효과를 보여주며, 사전 학습된 확산 프라이어가 모달리티 전환 격차를 줄일 수 있음을 보여줍니다. 우리는 텍스트-오디오 합성에 초점을 맞추고 있지만, 제안된 모델은 이미지 쿼리에서도 오디오를 생성할 수 있으며, 주관적 청취 테스트에서 최신 이미지-오디오 합성 모델과 경쟁력 있는 성능을 보여줍니다. 이 연구는 비디오에서 자연스럽게 발생하는 오디오-비주얼 대응 관계와 사전 학습된 언어-비전 모델의 힘을 활용하여 텍스트-오디오 합성에 접근하는 새로운 방향을 제시합니다.
대형 언어 모델(LLMs)을 배포할 때 유해한 출력물, 예를 들어 독성이 있거나 부정직한 발언 등으로 인한 위험이 발생할 수 있습니다. 기존 연구에서는 이러한 위험을 식별하고 완화하기 위해 유해한 출력물을 유도하는 도구들을 소개했습니다. 이는 언어 모델을 보호하기 위한 중요한 단계이지만, 이러한 접근 방식은 일반적으로 원치 않는 출력물을 분류하기 위해 사전에 존재하는 분류기에 의존합니다. 이는 유해 행동의 유형이 정확히 사전에 알려진 상황으로만 그 적용이 제한된다는 것을 의미합니다. 그러나 이는 레드 팀(red teaming)의 핵심 과제인 모델이 보여줄 수 있는 행동에 대한 맥락적 이해를 개발하는 과정을 건너뛰게 됩니다. 더욱이, 이러한 분류기가 이미 존재할 경우, 레드 팀은 한계적인 가치만을 지니게 되는데, 분류기를 단순히 훈련 데이터나 모델 출력물을 필터링하는 데 사용할 수 있기 때문입니다. 본 연구에서는 적대자가 원치 않는 행동에 대한 높은 수준의 추상적 명세를 기반으로 작업한다는 가정 하에 레드 팀을 고려합니다. 레드 팀은 이 명세를 정제/확장하고 모델로부터 이러한 행동을 유도하는 방법을 식별할 것으로 기대됩니다. 우리의 레드 팀 프레임워크는 세 단계로 구성됩니다: 1) 원하는 맥락에서 모델의 행동을 탐색; 2) 원치 않는 행동에 대한 측정 기준 설정(예: 인간 평가를 반영하도록 훈련된 분류기); 3) 이 측정 기준과 확립된 레드 팀 방법론을 사용하여 모델의 결함을 활용. 우리는 이 접근법을 GPT-2 및 GPT-3 모델에 적용하여 독성이 있거나 부정직한 발언을 유도하는 프롬프트의 유형을 체계적으로 발견했습니다. 이를 통해 우리는 또한 20,000개의 진술로 구성된 CommonClaim 데이터셋을 구축하고 공개했습니다. 이 데이터셋은 인간 피험자에 의해 일반 지식-참, 일반 지식-거짓, 또는 둘 다 아닌 것으로 레이블이 지정되었습니다. 코드는 https://github.com/thestephencasper/explore_establish_exploit_llms에서 확인할 수 있으며, CommonClaim은 https://github.com/thestephencasper/common_claim에서 확인할 수 있습니다.
인간은 장면을 구성적 방식으로 이해하는 인지 능력을 가지고 있습니다. AI 시스템이 유사한 능력을 갖추도록 하기 위해, 객체 중심 표현 학습은 시각적 장면에서 개별 객체의 표현을 어떠한 감독 없이 획득하는 것을 목표로 합니다. 최근 객체 중심 표현 학습의 발전은 복잡한 합성 데이터셋에서 놀라운 진전을 이루었지만, 복잡한 실제 세계 장면에 적용하기에는 여전히 큰 도전이 남아 있습니다. 그 중 하나의 핵심적인 이유는 객체 중심 표현 학습 방법에 특화된 실제 세계 데이터셋의 부족입니다. 이 문제를 해결하기 위해, 우리는 객체 중심 학습을 위한 다용도 실제 세계 테이블탑 장면 데이터셋인 OCTScenes를 제안합니다. 이 데이터셋은 객체 중심 표현 학습 방법을 비교, 평가, 분석하기 위한 벤치마크로 세심하게 설계되었습니다. OCTScenes은 총 15개의 일상용품으로 구성된 5000개의 테이블탑 장면을 포함하며, 각 장면은 360도 시각을 커버하는 60개의 프레임으로 촬영되었습니다. 결과적으로, OCTScenes은 정적 장면, 동적 장면, 그리고 다중 시점 장면 작업에 걸쳐 객체 중심 표현 학습 방법의 평가를 동시에 충족할 수 있는 다용도 벤치마크 데이터셋입니다. OCTScenes에서 정적, 동적, 다중 시점 장면에 대한 객체 중심 표현 학습 방법의 광범위한 실험이 수행되었습니다. 그 결과는 복잡한 합성 데이터셋에서의 인상적인 성과에도 불구하고, 실제 세계 데이터로부터 의미 있는 표현을 학습하는 최신 방법들의 한계를 보여줍니다. 더 나아가, OCTScenes은 기존의 최신 방법들이 실제 세계 장면에 적응하도록 영감을 주는 촉매제 역할을 할 수 있습니다. 데이터셋과 코드는 https://huggingface.co/datasets/Yinxuan/OCTScenes에서 확인할 수 있습니다.
우리는 다리형 로봇이 적응형 점프 거리로 연속적으로 점프할 수 있게 하는 새로운 계층적 학습 및 제어 프레임워크인 CAJun을 제안합니다. CAJun은 상위 수준의 중심 질량 정책과 하위 수준의 다리 제어기로 구성됩니다. 특히, 우리는 강화 학습(RL)을 사용하여 다리 제어기에 대한 보행 타이밍, 베이스 속도, 스윙 발 위치를 지정하는 중심 질량 정책을 학습시킵니다. 다리 제어기는 최적 제어를 사용하여 스윙 발 목표와 베이스 속도 명령을 추적하기 위해 보행 타이밍에 따라 스윙 다리와 스탠스 다리의 모터 명령을 최적화합니다. 또한, 우리는 정책 학습 속도를 한 차원 빠르게 하기 위해 다리 제어기의 스탠스 다리 최적화기를 재구성했습니다. 우리의 시스템은 학습의 다양성과 최적 제어의 견고성을 결합합니다. RL과 최적 제어 방법을 결합함으로써, 우리의 시스템은 학습의 다양성을 달성하면서 제어 방법의 견고성을 누릴 수 있어 실제 로봇으로 쉽게 전환할 수 있습니다. 우리는 단일 GPU에서 20분의 학습 후 CAJun이 Go1 로봇에서 시뮬레이션과 실제 간의 작은 차이로 적응형 거리의 연속적인 긴 점프를 달성할 수 있음을 보여줍니다. 또한, 로봇은 최대 70cm의 간격을 뛰어넘을 수 있으며, 이는 기존 방법보다 40% 이상 넓은 수치입니다.