번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM) 기반 지능형 에이전트의 통합 및 배포는 효율성과 효과성을 저해하는 여러 도전 과제로 가득 차 있습니다. 이러한 문제들 중에는 에이전트 요청에 대한 LLM 상의 최적화되지 않은 스케줄링 및 자원 할당, 에이전트와 LLM 간 상호작용 중 컨텍스트 유지의 어려움, 그리고 다양한 능력과 전문성을 가진 이질적인 에이전트들을 통합하는 데 내재된 복잡성 등이 있습니다. 에이전트의 수와 복잡성이 급격히 증가함에 따라 이러한 문제들은 더욱 악화되어 병목 현상과 자원의 비효율적 활용을 초래하는 경우가 많습니다. 이러한 도전 과제에 영감을 받아, 본 논문은 대규모 언어 모델을 운영 체제(OS)에 내장한 LLM 에이전트 운영 체제인 AIOS를 제안합니다. 구체적으로, AIOS는 자원 할당을 최적화하고, 에이전트 간 컨텍스트 전환을 용이하게 하며, 에이전트의 동시 실행을 가능하게 하고, 에이전트를 위한 도구 서비스를 제공하며, 에이전트에 대한 접근 제어를 유지하도록 설계되었습니다. 우리는 이러한 운영 체제의 아키텍처를 제시하고, 해결하고자 하는 핵심 과제들을 개괄하며, AIOS의 기본 설계와 구현을 제공합니다. 다중 에이전트의 동시 실행에 대한 실험을 통해 AIOS 모듈의 신뢰성과 효율성을 입증합니다. 이를 통해 우리는 LLM 에이전트의 성능과 효율성을 개선할 뿐만 아니라, 미래 AIOS 생태계의 더 나은 개발과 배포를 선도하고자 합니다. 이 프로젝트는 https://github.com/agiresearch/AIOS에서 오픈소스로 제공됩니다.
텍스트-이미지 확산 모델은 다양하고 고품질의 이미지를 생성할 수 있는 전례 없는 능력을 가지고 있습니다. 그러나 이러한 모델들은 종종 여러 주체를 포함하는 복잡한 입력 프롬프트의 의도된 의미를 충실히 포착하는 데 어려움을 겪습니다. 최근에는 사용자 제어를 개선하기 위해 특정 토큰으로 표현된 주체를 지역화하는 것을 목표로 하는 다양한 레이아웃-이미지 확장 방법들이 도입되었습니다. 그러나 이러한 방법들은 특히 의미적으로나 시각적으로 유사한 여러 주체를 다룰 때 의미적으로 부정확한 이미지를 생성하는 경우가 많습니다. 본 연구에서는 이러한 한계의 원인을 연구하고 분석합니다. 우리의 탐구는 주된 문제가 노이즈 제거 과정에서 주체 간의 의도치 않은 의미적 누출에서 비롯된다는 것을 밝혀냅니다. 이 누출은 확산 모델의 어텐션 레이어가 서로 다른 주체의 시각적 특징을 혼합하는 경향이 있기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 샘플링 과정에서 정보 흐름을 제한하는 학습이 필요 없는 방법인 Bounded Attention을 소개합니다. Bounded Attention은 주체 간의 해로운 누출을 방지하고, 복잡한 다중 주체 조건에서도 각 주체의 개별성을 촉진하도록 생성 과정을 안내할 수 있게 합니다. 광범위한 실험을 통해, 우리의 방법이 주어진 프롬프트와 레이아웃에 더 잘 부합하는 여러 주체의 생성을 가능하게 한다는 것을 입증합니다.
본 연구는 사용자가 하나 또는 몇 개의 참조 얼굴 이미지와 텍스트 프롬프트를 제공하여 즉석에서 자신의 사진을 쉽게 개인화할 수 있는 실용적인 도구인 FlashFace를 소개합니다. 우리의 접근 방식은 기존의 인간 사진 맞춤화 방법과 비교하여 더 높은 정확도의 신원 보존과 더 나은 지시 사항 준수를 특징으로 하며, 이는 두 가지 세심한 설계로부터 기인합니다. 첫째, 우리는 얼굴 신원을 이전 기술에서와 같이 하나의 이미지 토큰 대신 일련의 특징 맵으로 인코딩하여 모델이 참조 얼굴의 더 많은 세부 사항(예: 흉터, 문신, 얼굴 형태)을 유지할 수 있도록 합니다. 둘째, 텍스트-이미지 생성 과정에서 텍스트와 이미지 지침 간의 균형을 맞추기 위해 분리된 통합 전략을 도입함으로써 참조 얼굴과 텍스트 프롬프트 간의 충돌(예: 성인을 "어린이" 또는 "노인"으로 개인화)을 완화합니다. 다양한 실험 결과는 인간 이미지 개인화, 언어 프롬프트 하의 얼굴 교체, 가상 캐릭터를 실제 사람으로 만드는 등 다양한 응용 분야에서 우리 방법의 효과를 입증합니다. 프로젝트 페이지: https://jshilong.github.io/flashface-page.
최근 디퓨전 모델의 발전으로 인해 이들은 이미지 생성 분야의 최전선에 위치하게 되었습니다. 그러나 뛰어난 성능에도 불구하고, 디퓨전 모델은 복잡한 아키텍처와 상당한 계산 요구량으로 인해 반복적인 샘플링 과정에서 발생하는 상당한 지연 시간이라는 단점을 가지고 있습니다. 이러한 한계를 완화하기 위해, 우리는 모델 지연 시간을 크게 줄이기 위한 모델 소형화와 샘플링 단계 감소라는 이중 접근 방식을 도입했습니다. 우리의 방법론은 지식 증류를 활용하여 U-Net 및 이미지 디코더 아키텍처를 간소화하고, 특징 매칭과 스코어 증류를 활용한 혁신적인 원스텝 DM 훈련 기법을 소개합니다. 우리는 단일 GPU에서 각각 약 100 FPS(SD v1.5 대비 30배 빠름)와 30 FPS(SDXL 대비 60배 빠름)의 추론 속도를 달성한 SDXS-512와 SDXS-1024 두 가지 모델을 제시합니다. 또한, 우리의 훈련 접근 방식은 이미지-이미지 변환을 효율적으로 가능하게 하는 이미지 조건 제어 분야에서 유망한 응용 가능성을 제공합니다.
고성능 대규모 언어 모델(LLMs)을 압축하는 것은 자원 효율적인 추론을 위한 선호 전략으로 부상했습니다. 최첨단(SoTA) 압축 방법들은 일반 작업 성능을 유지하는 데 있어 인상적인 발전을 이루었지만, 압축이 안전성과 신뢰성 측면에서 초래할 수 있는 잠재적 위험은 크게 간과되어 왔습니다. 본 연구는 세 가지(3) 주요 LLM을 대상으로 다섯 가지(5) SoTA 압축 기술을 적용하여 여덟 가지(8) 신뢰성 차원에 걸쳐 처음으로 철저한 평가를 수행했습니다. 우리의 실험은 압축과 신뢰성 간의 복잡한 상호작용을 부각시키며 몇 가지 흥미로운 패턴을 밝혀냈습니다. 양자화(quantization)가 현재로서는 효율성과 신뢰성을 동시에 달성하는 데 있어 가지치기(pruning)보다 더 효과적인 접근법임을 발견했습니다. 예를 들어, 4비트 양자화 모델은 원본 모델의 신뢰성을 유지하지만, 모델 가지치기는 50% 희소성에서도 신뢰성을 크게 저하시킵니다. 또한, 적당한 비트 범위 내에서 양자화를 적용하면 윤리성과 공정성과 같은 특정 신뢰성 차원이 예상치 못하게 개선될 수 있습니다. 반면, 매우 낮은 비트 수준(3비트)으로의 극단적인 양자화는 신뢰성을 크게 감소시키는 경향이 있습니다. 이러한 증가된 위험은 단순히 일반 성능만으로는 파악할 수 없으며, 이는 실질적으로 포괄적인 신뢰성 평가의 필요성을 강조합니다. 이러한 연구 결과는 LLM에서 높은 유용성, 효율성, 신뢰성을 동시에 달성하기 위한 실질적인 권장 사항으로 귀결됩니다. 모델과 코드는 https://decoding-comp-trust.github.io/에서 확인할 수 있습니다.
우리는 일본어 중심 대규모 언어 모델 제품군인 RakutenAI-7B를 소개합니다. 이 모델은 오픈 소스 7B 모델 중 일본어 LM Harness 벤치마크에서 최고의 성능을 달성했습니다. 기반 모델과 함께, Apache 2.0 라이선스 하에 지침 튜닝 모델인 RakutenAI-7B-instruct와 채팅 튜닝 모델인 RakutenAI-7B-chat을 공개합니다.
텍스트-투-비디오 생성 분야의 최근 발전은 강력한 확산 모델의 유용성을 입증했습니다. 그러나 정적 이미지를 애니메이션화하는(즉, 이미지-투-비디오 생성) 작업에서 확산 모델을 적용하는 문제는 사소하지 않습니다. 이러한 어려움은 후속 애니메이션 프레임의 확산 과정이 주어진 이미지와의 충실한 정렬을 유지해야 할 뿐만 아니라 인접 프레임 간의 시간적 일관성을 추구해야 한다는 점에서 비롯됩니다. 이를 완화하기 위해, 우리는 정적 이미지에서 도출된 이미지 노이즈 사전에 기반하여 프레임 간 관계 추론을 공동으로 촉발하고 시간적 잔차 학습을 통해 일관된 시간적 모델링을 용이하게 하는 새로운 이미지-투-비디오 확산 패러다임인 TRIP을 제안합니다. 기술적으로, 이미지 노이즈 사전은 정적 이미지와 노이즈가 추가된 비디오 잠재 코드를 기반으로 한 한 단계 역확산 과정을 통해 먼저 획득됩니다. 다음으로, TRIP은 노이즈 예측을 위한 잔차와 유사한 이중 경로 방식을 실행합니다: 1) 각 프레임의 참조 노이즈로 이미지 노이즈 사전을 직접 사용하여 첫 번째 프레임과 후속 프레임 간의 정렬을 강화하는 단축 경로; 2) 노이즈가 추가된 비디오와 정적 이미지 잠재 코드에 대해 3D-UNet을 적용하여 프레임 간 관계 추론을 가능하게 하고, 이를 통해 각 프레임의 잔차 노이즈 학습을 용이하게 하는 잔차 경로. 또한, 각 프레임의 참조 노이즈와 잔차 노이즈는 최종 비디오 생성을 위해 주의 메커니즘을 통해 동적으로 통합됩니다. WebVid-10M, DTDB 및 MSR-VTT 데이터셋에 대한 광범위한 실험을 통해 우리의 TRIP이 이미지-투-비디오 생성에 효과적임을 입증했습니다. 자세한 내용은 프로젝트 페이지(https://trip-i2v.github.io/TRIP/)를 참조하십시오.
최근 텍스트-3D 생성 분야에서는 2D 확산 모델로부터 사전 지식을 직접 추출하여 암시적 3D 모델(NeRF)의 제로샷 학습을 가능하게 하는 Score Distillation Sampling(SDS)이 주목받고 있습니다. 그러나 현재의 SDS 기반 모델들은 복잡한 텍스트 프롬프트를 처리하는 데 어려움을 겪으며, 비현실적인 텍스처나 시점 간 불일치 문제를 가진 왜곡된 3D 모델을 생성하는 경우가 많습니다. 본 연구에서는 2D 시각적 프롬프트에 내재된 시각적 외관 지식을 명시적으로 활용하여 텍스트-3D 생성을 향상시키는 새로운 Visual Prompt-guided 텍스트-3D 확산 모델(VP3D)을 소개합니다. VP3D는 텍스트 프롬프트만으로 SDS를 감독하는 대신, 먼저 2D 확산 모델을 활용하여 입력 텍스트로부터 고품질 이미지를 생성하고, 이를 시각적 프롬프트로 사용하여 명시적인 시각적 외관을 통해 SDS 최적화를 강화합니다. 동시에, SDS 최적화에 추가적인 미분 가능한 보상 함수를 결합하여 3D 모델의 렌더링 이미지가 2D 시각적 프롬프트와 더 잘 시각적으로 정렬되고 텍스트 프롬프트와 의미적으로 일치하도록 유도합니다. 광범위한 실험을 통해, VP3D의 2D 시각적 프롬프트가 3D 모델의 시각적 외관 학습을 크게 용이하게 하여 더 세밀한 텍스처와 높은 시각적 충실도를 달성함을 보여줍니다. 또한, 자체 생성된 시각적 프롬프트를 주어진 참조 이미지로 대체할 경우, VP3D는 스타일화된 텍스트-3D 생성이라는 새로운 작업을 수행할 수 있다는 점에서 매력적입니다. 프로젝트 페이지는 https://vp3d-cvpr24.github.io에서 확인할 수 있습니다.