번역이 포함된 일일 선별된 AI 연구 논문
이미지 편집은 다양한 복잡한 작업을 포함하며 효율적이고 정확한 조작 기술이 필요합니다. 본 논문에서는 창의적인 아이디어를 신속하게 구현할 수 있는 통합 이미지 편집 시스템인 MagicQuill을 제안합니다. 저희 시스템은 간소화되었지만 기능적으로 견고한 인터페이스를 특징으로 하며, 최소한의 입력으로 편집 작업(예: 요소 삽입, 객체 삭제, 색상 변경)을 표현할 수 있습니다. 이러한 상호작용은 실시간으로 편집 의도를 예측하기 위해 다중 모달 대형 언어 모델(MLLM)에 의해 모니터링되어 명시적인 프롬프트 입력이 필요 없이 진행됩니다. 마지막으로, 정밀한 제어를 위해 강화된 강력한 확산 사전을 적용하고, 신중하게 학습된 이중 분기 플러그인 모듈에 의해 향상된 편집 요청을 처리합니다. 실험 결과는 MagicQuill의 고품질 이미지 편집 성능을 입증합니다. 저희 시스템을 사용해 보려면 https://magic-quill.github.io를 방문해 주세요.
본 연구는 텍스트로 사전 훈련된 대규모 언어 모델(Large Language Models, LLMs)의 기능을 확장하여 통합 모델 내에서 3D 메쉬를 생성하는 것을 탐구한다. 이는 (1) LLMs에 이미 포함된 공간 지식을 활용함으로써 3D 자습서와 같은 텍스트 소스에서 유래된 것과 같은 장점을 제공하며, (2) 대화식 3D 생성 및 메쉬 이해를 가능하게 한다. 주요 과제는 LLMs가 원활하게 처리할 수 있는 이산 토큰으로 3D 메쉬 데이터를 효과적으로 토큰화하는 것이다. 이를 해결하기 위해 우리는 LLaMA-Mesh라는 새로운 접근법을 소개한다. 이 접근법은 3D 메쉬의 정점 좌표와 면 정의를 일반 텍스트로 표현하여 어휘를 확장하지 않고도 LLMs와 직접 통합할 수 있게 한다. 우리는 사전 훈련된 LLMs가 (1) 텍스트 프롬프트로부터 3D 메쉬를 생성하고, (2) 필요에 따라 교차로운 텍스트와 3D 메쉬 출력을 생성하며, (3) 3D 메쉬를 이해하고 해석할 수 있도록 하는 지도된 미세 조정(Supervised Fine-Tuning, SFT) 데이터셋을 구축한다. 본 연구는 LLMs가 복잡한 공간 지식을 획득하기 위해 미세 조정될 수 있음을 처음으로 입증하며, 텍스트 기반 형식에서 3D 메쉬 생성을 위해 효과적으로 3D 및 텍스트 모달리티를 통합한다. LLaMA-Mesh는 제로부터 훈련된 모델과 유사한 메쉬 생성 품질을 달성하면서 강력한 텍스트 생성 성능을 유지한다.
언어 모델이 점점 커지면 어휘도 커집니다. 이로 인해 LLM의 메모리 풋프린트가 훈련 중에 한 가지 단일 레이어, 즉 손실 계산에서의 교차 엔트로피로 불균형하게 이동했습니다. 교차 엔트로피는 입력 토큰과 어휘 항목 각 쌍에 대한 로짓 행렬을 구축하며, 작은 모델의 경우 LLM의 나머지 부분보다 메모리를 한 순위 더 많이 소비합니다. 우리는 모든 토큰에 대한 로짓을 전역 메모리로 구체화하지 않고 교차 엔트로피 손실을 계산하는 방법인 Cut Cross-Entropy (CCE)를 제안합니다. 대신 CCE는 올바른 토큰에 대한 로짓만 계산하고 모든 로짓에 대한 로그-합-지수를 실시간으로 평가합니다. 우리는 플래시 메모리에서 어휘에 대한 행렬 곱셈과 로그-합-지수 축소를 수행하는 사용자 정의 커널을 구현하여 교차 엔트로피 계산을 위한 전역 메모리 소비를 무시할 수 있게 했습니다. 이것은 극적인 효과를 가져왔습니다. 예를 들어 Gemma 2 (2B) 모델을 살펴보면, CCE는 손실 계산의 메모리 풋프린트를 24 GB에서 1 MB로 줄이고, 분류기 헤드의 총 훈련 시간 메모리 소비를 28 GB에서 1 GB로 줄였습니다. CCE의 처리량을 향상시키기 위해 소프트맥스의 본질적인 희소성을 활용하고, 그레이디언트 계산의 요소 중 기여가 무시할 만큼 작은(즉, 수치적 정밀도 아래) 요소를 건너뛰는 것을 제안합니다. 실험 결과, 메모리 소비의 극적인 감소가 훈련 속도나 수렴을 희생하지 않고 달성되었음을 보여줍니다.
대규모 언어 모델(LLMs)은 의학 텍스트 처리 작업 및 의학 면허 시험에서 우수한 성능을 보유하여 현재의 임상 시스템을 혁신할 수 있는 큰 가능성을 가지고 있습니다. 한편, SVM 및 XGBoost와 같은 전통적인 ML 모델은 여전히 주로 임상 예측 작업에 채택되고 있습니다. 한 가지 신흥 질문은 LLMs가 임상 예측에서 전통적인 ML 모델을 이길 수 있을까요? 따라서 우리는 일반용 및 의학용 LLMs의 임상 예측 모델링 능력을 철저히 연구하고 전통적인 ML 모델과 비교하기 위해 새로운 기준인 ClinicalBench를 구축했습니다. ClinicalBench는 세 가지 일반적인 임상 예측 작업, 두 개의 데이터베이스, 14개의 일반용 LLMs, 8개의 의학용 LLMs 및 11개의 전통적인 ML 모델을 포함하고 있습니다. 광범위한 경험적 조사를 통해, 우리는 다양한 모델 규모, 다양한 프롬프팅 또는 파인튜닝 전략을 사용하더라도 일반용 및 의학용 LLMs가 아직도 임상 예측에서 전통적인 ML 모델을 이길 수 없음을 발견했습니다. 이는 그들의 임상 추론 및 의사 결정 능력에 대한 잠재적인 결핍을 밝혀주며, 임상 응용 프로그램에서 LLMs를 채택할 때 신중함을 요구합니다. ClinicalBench는 의료 분야에서 LLMs의 개발과 현실 세계의 임상 실무 사이의 간극을 줄이는 데 활용될 수 있습니다.
사용자 활동의 비디오 녹화, 특히 데스크톱 녹화는 사용자 행동을 이해하고 프로세스를 자동화하기 위한 데이터의 풍부한 원천을 제공합니다. 그러나 시각-언어 모델(Vision-Language Models, VLMs)의 발전과 비디오 분석에서의 증가하는 활용에도 불구하고, 데스크톱 녹화로부터 사용자 행동을 추출하는 것은 미개척된 영역입니다. 본 논문은 사용자 행동 추출을 위한 두 가지 새로운 VLM 기반 방법을 제안하여 이 간극을 해소합니다: 샘플된 프레임을 VLM에 직접 입력하는 직접 프레임 기반 접근법(DF)과 컴퓨터 비전 기술을 통해 감지된 명시적인 프레임 차이를 통합하는 차이 프레임 기반 접근법(DiffF). 우리는 이러한 방법들을 기본적인 자체 제작 데이터셋과 이전 연구에서 채택한 고급 벤치마크를 사용하여 평가합니다. 결과는 DF 접근법이 사용자 행동을 식별하는 데 70%에서 80%의 정확도를 달성하며, 추출된 행동 순서는 로봇 프로세스 자동화를 통해 재생 가능함을 보여줍니다. VLM이 잠재력을 보이지만 명시적인 UI 변경을 통합하는 것이 성능을 저하시킬 수 있어 DF 접근법이 더 신뢰할 수 있음을 발견했습니다. 본 연구는 데스크톱 녹화로부터 사용자 행동 순서를 추출하기 위한 VLM의 첫 응용을 대표하며, 미래 연구를 위한 새로운 방법, 벤치마크, 통찰을 제공합니다.
확산 모델은 매우 높은 품질의 샘플을 생성할 수 있지만, 비용이 많이 드는 반복적 샘플링 절차로 본질적으로 병목 현상을 겪습니다. 일관성 모델(CMs)은 최근에 유망한 확산 모델 증류 방법으로 등장하여 고품질 샘플을 몇 번의 반복만으로 생성함으로써 샘플링 비용을 줄입니다. 일관성 모델 증류는 기존 확산 모델에 의해 정의된 확률 흐름 상미분 방정식(ODE)을 해결하는 것을 목표로 합니다. CMs는 ODE 해결 프로그램에 대한 오류를 최소화하도록 직접 훈련되는 것이 아니라, 보다 계산 가능한 목적을 사용합니다. CMs가 확률 흐름 ODE를 효과적으로 해결하고 발생한 오류가 생성된 샘플의 품질에 미치는 영향을 연구하기 위한 한 가지 방법으로, 우리는 이 오류를 직접 최소화하는 Direct CMs를 소개합니다. 흥미로운 점은, Direct CMs가 CMs보다 ODE 해결 오류를 줄이지만 생성된 샘플의 품질이 현저히 나빠지는 것을 발견했으며, 따라서 CMs가 처음부터 왜 잘 작동하는지에 대한 의문을 제기합니다. 전체 코드는 다음에서 확인할 수 있습니다: https://github.com/layer6ai-labs/direct-cms.
세포 네트워크 운영의 자동화를 위한 노력은 이러한 시스템의 증가하는 복잡성과 함께 증가해왔습니다. 발전에도 불구하고, 네트워크 행동을 모델링하고 정책을 정의하여 목표 요구 사항을 충족시키기 위해 인간 개입에 의존하고 있어서 완전한 자율성은 아직 이루어지지 않았습니다. 네트워크 디지털 트윈(NDT)은 네트워크 지능을 향상시키는 데 유망성을 보여주었지만, 이 기술의 성공적인 구현은 사용 사례별 아키텍처에 제약을 받아 네트워크 자율성 발전에 제한을 두고 있습니다. 더 강력한 네트워크 지능 또는 "통신 두뇌"가 필요하여 세포 네트워크의 원활하고 자율적인 관리를 가능케 합니다. 대형 언어 모델(LLM)은 이 비전을 실현하는 데 잠재력을 갖추었지만, 특히 추론과 다양한 데이터 유형 처리에서 네트워크 모델링에 어려움을 겪고 있습니다. 이러한 공백을 해결하기 위해 우리는 Hermes를 소개합니다. Hermes는 구조화되고 설명 가능한 논리적 단계를 통해 NDT 인스턴스를 구축하기 위한 "청사진"을 사용하는 LLM 에이전트 체인입니다. Hermes는 다양한 사용 사례와 구성의 네트워크 모델링을 자동적으로, 신뢰성 있게, 정확하게 수행하여 완전히 자율적인 네트워크 운영으로의 진전을 나타냅니다.