번역이 포함된 일일 선별된 AI 연구 논문
특정 아이덴티티(ID)를 위한 콘텐츠 생성은 생성 모델 분야에서 상당한 관심을 받고 있다. 텍스트-이미지 생성(T2I) 분야에서는 이미지 내 ID를 제어 가능한 주체 기반 콘텐츠 생성이 큰 진전을 이루었다. 그러나 이를 비디오 생성으로 확장하는 연구는 아직 충분히 탐구되지 않았다. 본 연구에서는 단순하면서도 효과적인 주체 ID 제어 비디오 생성 프레임워크인 Video Custom Diffusion(VCD)을 제안한다. VCD는 몇 장의 이미지로 정의된 특정 주체 ID를 기반으로, 초기화 단계에서 ID 정보 추출을 강화하고 프레임 간 상관관계를 주입하여 ID가 크게 보존된 안정적인 비디오 출력을 생성한다. 이를 위해 고품질 ID 보존에 필수적인 세 가지 새로운 컴포넌트를 제안한다: 1) 프롬프트-세그멘테이션을 통해 잘라낸 ID로 학습된 ID 모듈로, ID 정보와 배경 노이즈를 분리하여 더 정확한 ID 토큰 학습을 가능하게 함; 2) 더 나은 프레임 간 일관성을 위한 3D 가우시안 노이즈 사전을 갖춘 텍스트-비디오(T2V) VCD 모듈; 3) 얼굴 디블러링 및 고해상도 비디오 업스케일링을 위한 비디오-비디오(V2V) Face VCD 및 Tiled VCD 모듈. 단순함에도 불구하고, VCD가 선택된 강력한 베이스라인 대비 더 나은 ID를 갖춘 안정적이고 고품질의 비디오를 생성할 수 있음을 검증하기 위해 광범위한 실험을 수행했다. 또한, ID 모듈의 전이 가능성 덕분에 VCD는 공개적으로 사용 가능한 파인튜닝된 텍스트-이미지 모델과도 잘 작동하여 사용성을 더욱 향상시킨다. 코드는 https://github.com/Zhen-Dong/Magic-Me에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 다양한 영역에서 놀라운 추론 성능을 달성해 왔다. 그러나 추론 과제 영역에서 우리는 한 가지 취약점을 발견했다: 전제의 순서가 근본적인 과제를 변경하지 않음에도 불구하고, LLMs는 전제 순서에 대해 놀라울 정도로 취약하다. 특히, 우리는 중간 추론 단계에서 요구되는 맥락과 전제 순서가 일치할 때 LLMs가 최고의 성능을 달성한다는 것을 관찰했다. 예를 들어, 연역적 추론 과제에서 전제를 프롬프트 내에서 실제 증명과 동일한 순서로 제시하는 경우(무작위 순서와 반대로), 모델의 정확도가 크게 증가한다. 우리는 먼저 다양한 LLMs에서 전제 순서가 연역적 추론에 미치는 영향을 조사했으며, 평가 결과 전제 순서를 변경하면 성능이 30% 이상 하락할 수 있음을 확인했다. 또한, 우리는 수학적 문제 해결을 위한 순서 효과를 조사하기 위해 GSM8K를 기반으로 한 벤치마크 R-GSM을 공개했고, 원래의 GSM8K 벤치마크에 비해 정확도가 크게 하락하는 것을 다시 한 번 관찰했다.
DALL-E 3 및 Stable Diffusion-XL과 같은 확산 기반 이미지 생성 모델은 사실적이고 독창적인 구성을 가진 이미지를 생성하는 데 있어 뛰어난 능력을 보여줍니다. 그러나 이러한 모델들은 물리적 및 공간적 객체 구성을 정확하게 추론하는 데 있어서는 강건하지 못하며, 특히 "다섯 개의 다리를 가진 의자"와 같은 비전통적이면서도 분포 외(Out-of-Distribution) 설명을 지시받을 때 더욱 취약합니다. 본 논문에서는 이러한 문제를 해결하기 위해 체인-오브-3D-생각(Chain-of-3D-Thoughts, L3GO)을 갖춘 언어 에이전트를 제안합니다. 이는 현재의 데이터 기반 확산 모델들이 어려워하는 비전통적 객체의 부분 기반 3D 메시 생성을 추론할 수 있는 추론 시점 접근법입니다. 구체적으로, 우리는 대형 언어 모델을 에이전트로 활용하여 3D 시뮬레이션 환경 내에서 시행착오를 통해 원하는 객체를 구성합니다. 이를 위해 우리는 새로운 벤치마크인 비전통적 가능 객체(Unconventionally Feasible Objects, UFO)와 Blender 위에 구축된 SimpleBlenv라는 래퍼 환경을 개발했습니다. 이 환경에서 언어 에이전트는 API 호출을 통해 원자적 빌딩 블록을 구성하고 조립할 수 있습니다. 인간 및 자동화된 GPT-4V 평가 결과, 우리의 접근법은 ShapeNet에서의 3D 메시 생성에 있어 표준 GPT-4 및 ReAct, Reflexion과 같은 다른 언어 에이전트들을 능가하는 것으로 나타났습니다. 또한, UFO 벤치마크에서 테스트했을 때, 우리의 접근법은 인간 평가를 기반으로 한 최신 텍스트-투-2D 이미지 및 텍스트-투-3D 모델들을 능가하는 성능을 보였습니다.
길이 일반화(length generalization)는 더 짧은 훈련 시퀀스에서 더 긴 테스트 시퀀스로 외삽(extrapolate)할 수 있는 능력으로 정의되며, 언어 모델에게 중요한 도전 과제입니다. 이 문제는 비교적 단순한 작업을 처리하는 대규모 트랜스포머(Transformer)에서도 여전히 존재합니다. 본 논문에서는 두 정수의 덧셈 작업을 사용하여 트랜스포머의 길이 일반화 능력을 테스트합니다. 우리는 길이 일반화의 성공이 데이터 형식과 위치 인코딩(position encoding)의 유형과 복잡하게 연결되어 있음을 보여줍니다. 적절한 데이터 형식과 위치 인코딩의 조합을 사용하여, 표준 트랜스포머가 입력 길이의 2.5배에 달하는 시퀀스 길이로 외삽할 수 있음을 처음으로 입증합니다. 그러나 분포 내 일반화(in-distribution generalization)와 달리, 길이 일반화는 여전히 취약하며, 무작위 가중치 초기화와 훈련 데이터 순서와 같은 요인에 크게 영향을 받아 서로 다른 무작위 시드(random seed) 간에 큰 변동을 보입니다.
수많은 노드에 걸쳐 계산을 확장해야 하는 절박한 필요성은 특히 메시지 전달 인터페이스(MPI) 통합 영역에서 효율적인 병렬 컴퓨팅의 중요성을 강조한다. MPI 기반 병렬 프로그램을 생성하는 도전적인 병렬 프로그래밍 작업은 아직까지 탐구되지 않은 상태로 남아 있다. 본 연구는 먼저 최신 언어 모델들이 MPI 기반 병렬 프로그램을 생성하는 데 있어서의 성능을 조사한다. 연구 결과에 따르면, GPT-3.5 및 PolyCoder(특화된 다국어 코드 모델)과 같은 널리 사용되는 모델들은 일반 목적 프로그램 생성에 비해 MPI 기반 프로그램 생성에서 현저한 성능 저하를 보인다. 반면, C와 C++와 같은 MPI 관련 프로그래밍 언어로 사전 학습된 MonoCoder와 같은 도메인 특화 모델들은 더 큰 모델들을 능가한다. 이후, 우리는 HPCorpusMPI에서 MonoCoder를 미세 조정하여 MPI 기반 프로그램 생성을 위한 전용 하위 작업을 소개한다. 이를 MPIrigen이라 명명한다. 우리는 전체 코드를 관찰한 후에만 완성을 위한 혁신적인 전처리를 제안하여 더 넓은 맥락에서 더 나은 완성을 가능하게 한다. 새로운 HPC 지향 평가 방법을 사용하여 GPT-3.5의 제로샷 성능과 비교 분석한 결과, MPIrigen은 위치 및 함수 예측에서 최대 0.8의 정확도로 정확한 MPI 함수를 생성하며, 인수 예측에서는 0.9 이상의 정확도를 보인다. 이 맞춤형 솔루션의 성공은 병렬 컴퓨팅 코드 생성을 위해 언어 모델을 최적화하는 데 있어 도메인 특화 미세 조정의 중요성을 강조하며, 새로운 세대의 자동 병렬화 도구의 길을 열어준다. 본 작업의 소스는 GitHub MPIrigen 저장소에서 확인할 수 있다: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
컴퓨팅 파워, 즉 "컴퓨트(compute)"는 인공지능(AI) 역량의 개발과 배포에 있어 핵심적인 요소이다. 이에 따라 정부와 기업들은 AI를 통제하기 위한 수단으로 컴퓨트를 활용하기 시작했다. 예를 들어, 정부들은 국내 컴퓨트 역량에 투자하고, 경쟁국으로의 컴퓨트 유출을 통제하며, 특정 산업에 대한 컴퓨트 접근을 지원하고 있다. 그러나 이러한 노력들은 컴퓨트가 AI 개발과 배포를 통제하는 데 활용될 수 있는 잠재력의 표면만을 긁어내고 있다. AI의 다른 주요 입력 요소(데이터와 알고리즘)에 비해, AI 관련 컴퓨트는 특히 효과적인 개입 지점이다: 이는 탐지 가능하고, 배제 가능하며, 정량화가 가능하며, 극도로 집중된 공급망을 통해 생산된다. 이러한 특성들과 최첨단 AI 모델에 대한 컴퓨트의 독보적인 중요성을 고려할 때, 컴퓨트를 통제함으로써 AI의 안전성과 유익한 사용을 보장하는 것과 같은 공통의 정책 목표를 달성하는 데 기여할 수 있다. 보다 구체적으로, 정책 결정자들은 컴퓨트를 활용하여 AI에 대한 규제 가시성을 확보하고, 유익한 결과를 촉진하기 위해 자원을 배분하며, 무책임하거나 악의적인 AI 개발과 사용에 대한 제재를 강제할 수 있다. 그러나 컴퓨트 기반 정책과 기술이 이러한 영역에서 도움을 줄 잠재력을 가지고 있음에도 불구하고, 이들의 실행 준비도에는 상당한 차이가 있다. 일부 아이디어는 현재 시범적으로 시행되고 있는 반면, 다른 것들은 근본적인 연구의 필요성으로 인해 방해를 받고 있다. 더욱이, 컴퓨트 통제에 대한 순진하거나 잘못된 접근 방식은 프라이버시, 경제적 영향, 권력 집중과 같은 영역에서 상당한 위험을 초래할 수 있다. 우리는 이러한 컴퓨트 통제로 인한 위험을 최소화하기 위한 가드레일을 제안하며 글을 마무리한다.
보상 미세 조정(Finetuning)은 기초 모델을 하위 작업 목표에 맞추는 유망한 접근법으로 부상했습니다. 인간의 선호도를 반영하는 보상을 최대화하기 위해 강화 학습(Reinforcement Learning, RL)을 사용함으로써 언어 분야에서 주목할 만한 성과를 거두었습니다. 그러나 비전 분야에서는 기존의 RL 기반 보상 미세 조정 방법들이 대규모 훈련에서의 불안정성으로 인해 제한적이며, 복잡하고 보지 못한 프롬프트에 일반화하는 데 실패하고 있습니다. 본 논문에서는 Proximal Reward Difference Prediction(PRDP)을 제안하여, 10만 개 이상의 프롬프트로 구성된 대규모 데이터셋에서 확산 모델(Diffusion Model)에 대한 안정적인 블랙박스 보상 미세 조정을 처음으로 가능하게 합니다. 우리의 핵심 혁신은 RL 목표와 동일한 최적 해를 가지면서도 더 나은 훈련 안정성을 제공하는 Reward Difference Prediction(RDP) 목표입니다. 구체적으로, RDP 목표는 확산 모델이 생성된 이미지 쌍의 보상 차이를 디노이징(Denoising) 궤적에서 예측하도록 하는 지도 회귀(Supervised Regression) 목표입니다. 우리는 이론적으로 완벽한 보상 차이 예측을 달성하는 확산 모델이 RL 목표의 최대화자와 정확히 일치함을 증명합니다. 또한, RDP 목표를 안정적으로 최적화하기 위해 근접 업데이트(Proximal Update)를 사용한 온라인 알고리즘을 개발했습니다. 실험에서 PRDP는 소규모 훈련에서 잘 정립된 RL 기반 방법들의 보상 최대화 능력과 동등한 성능을 보여줍니다. 더 나아가, Human Preference Dataset v2와 Pick-a-Pic v1 데이터셋의 텍스트 프롬프트에 대한 대규모 훈련을 통해 PRDP는 다양한 복잡하고 보지 못한 프롬프트에서 우수한 생성 품질을 달성한 반면, RL 기반 방법들은 완전히 실패했습니다.
대규모 언어 모델(LLM)은 점점 더 보편화되고 있으며 다양한 형태의 글쓰기 지원에 널리 사용되고 있습니다. 그러나 LLM 기반 글쓰기 시스템은 개인화와 제어 기능이 제한적이어서 사용자들에게 불만을 초래할 수 있으며, 특히 프롬프트 엔지니어링 경험이 부족한 사용자들에게는 이러한 문제가 더욱 심화될 수 있습니다. 우리는 이러한 문제를 해결하기 위한 한 가지 방법으로 디자인을 고려하며, 사용자가 강화된 주도권과 개인화를 행사할 수 있는 AI 강화 글쓰기 디자인 프로브인 GhostWriter를 소개합니다. GhostWriter는 LLM을 활용하여 사용자가 글을 쓰는 동안 암묵적으로 의도한 글쓰기 스타일을 학습하고, 수동 스타일 편집과 주석을 통해 명시적인 학습 기회를 제공합니다. 우리는 두 가지 다른 글쓰기 작업에서 GhostWriter를 사용한 18명의 참가자를 연구하여, 이 도구가 사용자가 개인화된 텍스트 생성을 도와주고 시스템의 글쓰기 스타일을 제어할 수 있는 다양한 방법을 제공함으로써 사용자에게 권한을 부여한다는 것을 관찰했습니다. 이 연구를 바탕으로, 우리는 AI 지원 글쓰기와 사람들의 관계에 대한 통찰을 제시하고 향후 작업을 위한 디자인 권장 사항을 제안합니다.
생성형 AI 모델의 복잡성이 증가함에 따라, 모바일 기기 및 TV와 같은 엣지 디바이스에 초대규모 모델을 배포하기 위한 유망한 솔루션으로 사후 학습 양자화(PTQ)가 부상하고 있다. 그러나 기존의 PTQ 기법은 상당한 시간과 자원을 소모하며, 이는 빈번한 모델 업데이트와 다중 하이퍼파라미터 튜닝이 필요한 실제 상황에서 병목 현상이 될 수 있다. 비용 효율적인 대안으로, 원샷 PTQ 기법이 제안되었다. 그러나 이러한 기법은 트랜스포머의 매우 중요한 특징인 어텐션 모듈 내의 계층 간 의존성을 고려할 수 없기 때문에 성능이 다소 제한적이다. 본 논문에서는 정확도와 효율성을 균형 있게 유지하는 새로운 PTQ 알고리즘을 제안한다. aespa라고 명명된 제안 알고리즘의 핵심 아이디어는 효율성을 위해 계층별 양자화를 수행하면서도 어텐션 점수를 보존하기 위해 계층 간 의존성을 고려하는 것이다. 다양한 언어 모델에 대한 광범위한 실험과 복잡도 분석을 통해, aespa가 트랜스포머 모델을 양자화하는 데 있어 정확하고 효율적임을 입증한다.