번역이 포함된 일일 선별된 AI 연구 논문
우리는 단일 이미지로부터 의미론적으로 분해된 고품질 3D 캐릭터를 생성하는 혁신적인 파이프라인인 StdGEN을 제안합니다. 이를 통해 가상 현실, 게임 및 영화 제작 등 다양한 분야에서 널리 활용할 수 있습니다. 이전 방법과는 달리 한정된 분해 능력, 불만족스러운 품질 및 오랜 최적화 시간에 어려움을 겪는 것과는 달리, StdGEN은 분해 가능성, 효과성 및 효율성을 갖추고 있습니다. 즉, 몸, 옷 및 머리와 같은 의미론적 구성 요소를 분리하여 복잡하게 디테일한 3D 캐릭터를 3분 안에 생성합니다. StdGEN의 핵심은 우리가 제안하는 Transformer 기반의 일반화 모델인 Semantic-aware Large Reconstruction Model (S-LRM)입니다. 이 모델은 다중 뷰 이미지로부터 기하학, 색상 및 의미론을 함께 전진 방식으로 재구성합니다. 우리의 S-LRM에 의해 재구성된 하이브리드 암시적 필드로부터 메쉬를 획득하기 위해 미분 가능한 다층 의미론적 표면 추출 방법이 도입되었습니다. 더불어, 특수화된 효율적인 다중 뷰 확산 모델과 반복적인 다층 표면 세밀화 모듈이 파이프라인에 통합되어 고품질이면서 분해 가능한 3D 캐릭터 생성을 용이하게 합니다. 광범위한 실험을 통해 3D 애니메이션 캐릭터 생성에서 우리의 최첨단 성능을 입증하며 기하학, 질감 및 분해 능력에서 기존 벤치마크를 크게 능가합니다. StdGEN은 사용 준비가 된 의미론적으로 분해된 3D 캐릭터를 제공하며 다양한 응용 분야에 유연한 맞춤 설정을 가능하게 합니다. 프로젝트 페이지: https://stdgen.github.io
CLIP은 오늘날 가장 중요한 다중 모달 기초 모델 중 하나입니다. CLIP의 능력을 강화하는 것은 무엇일까요? 인간 지식의 보디인인 자연어가 제공하는 풍부한 감독 신호는 강력한 교차 모달 표현 공간을 형성합니다. 그러나 GPT-4 및 LLaMA와 같은 대형 언어 모델의 급속한 발전으로 언어 이해와 생성의 경계가 계속 밀려납니다. 이는 흥미로운 질문을 던집니다: 언어 모델의 능력을 활용하여 다중 모달 표현 학습을 더 개선할 수 있을까요? LLM을 CLIP에 통합하는 잠재적 이점은 명확합니다. LLM의 강력한 텍스트 이해력은 CLIP이 이미지 캡션을 처리하는 능력을 근본적으로 향상시킬 수 있으며, 이는 바닐라 CLIP의 잘 알려진 한계인 긴 및 복잡한 텍스트 처리 능력을 현격히 향상시킵니다. 게다가, LLM은 방대한 텍스트 말뭉치에서 훈련되어 있어 개방 세계 지식을 보유하고 있습니다. 이는 훈련 중 캡션 정보를 확장하여 학습 프로세스의 효율성을 높일 수 있습니다. 본 논문에서는 LLM2CLIP이라는 새로운 접근 방식을 제안합니다. 이는 CLIP의 잠재력을 발휘하기 위해 LLM의 힘을 받아들이는 것입니다. 대조 학습을 통해 캡션 공간에서 LLM을 미세 조정함으로써 텍스트 능력을 출력 임베딩으로 추출하여 출력 레이어의 텍스트 구별력을 크게 향상시킵니다. 그런 다음, 미세 조정된 LLM이 CLIP의 시각 인코더에 강력한 교사로 작용하는 효율적인 훈련 과정을 설계합니다. LLM의 존재 덕분에 이제 바닐라 CLIP의 텍스트 인코더의 컨텍스트 창과 능력 제한에 제약받지 않고 더 긴 및 더 복잡한 캡션을 통합할 수 있습니다. 실험 결과 이 접근 방식이 교차 모달 작업에서 상당한 개선을 가져온다는 것을 입증하였습니다.
대형 언어 모델(Large language models, LLMs)은 놀라운 능력을 보여주었지만 여전히 여러 단계를 필요로 하는 복잡한 추론 작업에 어려움을 겪고 있습니다. Chain-of-Thought (CoT)와 같은 프롬프트 기반 방법은 추론 시 LLM의 추론 능력을 향상시킬 수 있지만, 훈련 중 추론 능력을 최적화하는 것은 여전히 어려운 과제입니다. 저희는 추론을 잠재 분포에서 샘플링하는 것으로 정의하고 변분 접근을 통해 최적화하는 원칙적인 프레임워크인 LaTent Reasoning Optimization (LaTRO)를 소개합니다. LaTRO는 외부 피드백이나 보상 모델이 필요하지 않고 LLM이 추론 프로세스와 추론 품질을 동시에 향상시킬 수 있도록 합니다. 저희는 Phi-3.5-mini, Mistral-7B, 그리고 Llama-3.1-8B를 포함한 여러 모델 구조를 사용하여 GSM8K와 ARC-Challenge 데이터셋에서 실험을 통해 LaTRO를 검증합니다. GSM8K에서 LaTRO는 기본 모델 대비 제로샷 정확도를 평균 12.5% 향상시키고 지도된 미세 조정 대비 9.6% 향상시킵니다. 저희의 연구 결과는 사전 훈련된 LLM이 잠재적인 추론 능력을 갖고 있으며 제안된 최적화 접근을 통해 자체 개선 방식으로 해제하고 향상시킬 수 있다는 것을 시사합니다. LaTRO의 코드는 https://github.com/SalesforceAIResearch/LaTRO에서 확인할 수 있습니다.
파이프라인 병렬화는 트랜스포머 기반 대형 언어 모델의 학습을 확장하는 데 널리 사용되며, 이에 대한 다양한 연구가 이루어져 왔습니다. 본 논문에서는 자주 간과되는 문제에 대해 다룹니다: 어휘 레이어는 파이프라인 단계 간의 계산 및 메모리 사용량 불균형을 유발하여 파이프라인 버블과 메모리 병목을 악화시킬 수 있습니다. 이를 해결하기 위해 우리는 어휘 레이어를 파이프라인 장치에 고르게 분할하고 계산을 파이프라인 패스로 그룹화합니다. 활성화 메모리 오버헤드를 줄이기 위해 어휘 레이어 내의 통신 장벽을 줄이기 위한 여러 알고리즘을 제안합니다. 게다가, 기존의 파이프라인 일정과 어휘 병렬화를 통합하기 위한 일반화 가능한 방법을 활용합니다. 이러한 기술을 결합함으로써, 우리의 방법은 계산과 매개변수 메모리를 효과적으로 균형 있게 유지하며, 작은 상수 활성화 메모리 오버헤드만 발생합니다. 특히, V-Half와 같은 활성화 메모리 균형 일정과 결합할 때, 우리의 접근 방식은 메모리와 계산 양쪽에서 완벽한 균형을 달성합니다. 포괄적인 평가 결과, 우리의 방법은 어휘 크기에 관계없이 계산과 메모리 균형을 달성하며, 순진한 방법에 비해 처리량이 5%에서 51% 향상되는 동시에, 특히 대형 어휘 시나리오에서 피크 메모리 사용량을 크게 줄입니다. 저희의 구현은 https://github.com/sail-sg/VocabularyParallelism 에서 오픈 소스로 제공됩니다.
대형 언어 모델(LLMs)의 세밀 조정은 특정 작업에서의 성능을 향상시키는 데 중요하지만 종종 중복되거나 정보가 없는 데이터로 인해 리소스를 많이 소비합니다. 이 효율성을 해결하기 위해 우리는 DELIFT (Data Efficient Language model Instruction Fine-Tuning)라는 혁신적인 알고리즘을 소개합니다. 이 알고리즘은 세밀 조정의 세 가지 주요 단계(1) 지시 조정, (2) 작업별 세밀 조정(예: 추론, 질의응답), (3) 지속적인 세밀 조정(예: 새로운 데이터 버전 통합)에서 데이터 선택을 체계적으로 최적화합니다. 기존 방법과 달리 단일 단계 최적화에 초점을 맞추거나 계산 집약적인 그래디언트 계산에 의존하는 대신, DELIFT는 모든 단계에서 효율적으로 작동합니다. 우리 방법의 핵심은 데이터 샘플이 모델의 현재 능력에 상대적으로 정보적 가치를 측정하여 다른 샘플에 대한 모델의 응답을 개선하는 데 얼마나 유익한지를 측정하는 쌍별 유틸리티 메트릭입니다. 이 메트릭에 적용된 다양한 서브모듈러 함수를 활용하여 DELIFT는 세밀 조정의 모든 단계에서 유용한 다양하고 최적의 하위 집합을 선택합니다. 다양한 작업 및 모델 규모에서 수행된 실험 결과 DELIFT가 성능을 저하시키지 않으면서 세밀 조정 데이터 크기를 최대 70% 줄일 수 있으며 상당한 계산 절약을 제공하고 효율성과 효과성 측면에서 기존 방법을 능가한다는 것을 보여줍니다.
본 논문은 텍스트 설명, 이미지, 포인트 클라우드 또는 그들의 조합과 같은 사용자 입력을 기반으로 쉽게 CAD 모델을 생성할 수 있는 통합된 컴퓨터 지원 설계(CAD) 생성 시스템을 설계하는 것을 목표로 합니다. 이를 위해, 우리는 다중 모달 입력에 의존하는 매개변수 CAD 모델을 생성할 수 있는 최초의 시스템인 CAD-MLLM을 소개합니다. 구체적으로, CAD-MLLM 프레임워크 내에서 CAD 모델의 명령 시퀀스를 활용하고 다양한 다중 모달 데이터와 CAD 모델의 벡터화된 표현 사이의 특징 공간을 맞추기 위해 고급 대형 언어 모델(LLM)을 활용합니다. 모델 훈련을 용이하게 하기 위해, 우리는 모든 CAD 모델에 해당하는 다중 모달 데이터를 갖춘 포괄적인 데이터 구축 및 주석 파이프라인을 설계합니다. 우리의 결과 데이터 세트인 Omni-CAD는 텍스트 설명, 다중 뷰 이미지, 포인트 및 각 CAD 모델에 대한 명령 시퀀스를 포함하는 최초의 다중 모달 CAD 데이터 세트입니다. 약 45만 개의 인스턴스와 그들의 CAD 구성 시퀀스를 포함하고 있습니다. 우리가 생성한 CAD 모델의 품질을 철저히 평가하기 위해, 재구성 품질에 중점을 둔 현재의 평가 지표를 넘어 토폴로지 품질과 표면 포함 범위를 평가하는 추가 지표를 도입합니다. 광범위한 실험 결과는 CAD-MLLM이 기존의 조건부 생성 방법을 현저히 능가하며 잡음과 누락된 포인트에 대해 높은 강인성을 유지한다는 것을 입증합니다. 프로젝트 페이지와 더 많은 시각화 자료는 다음에서 확인할 수 있습니다: https://cad-mllm.github.io/
대규모 언어 모델(Large Language Models, LLMs)인 GitHub Copilot과 같은 것들의 등장은 코드 생성에서 특히 프로그래머들의 생산성을 크게 향상시켰습니다. 그러나 이러한 모델들은 종종 세밀한 조정 없이는 실제 업무에서 어려움을 겪습니다. LLMs가 점점 더 크고 성능이 향상됨에 따라 전문화된 작업을 위한 세밀한 조정이 점점 더 비용이 많이 들어가게 됩니다. 모델 파라미터 효율적인 세밀한 조정(Parameter-efficient Fine-Tuning, PEFT) 방법은 모델 파라미터의 일부만 세밀하게 조정하여 LLMs의 조정 비용을 줄이면서 성능을 유지하는 유망한 해결책을 제공합니다. 기존 연구에서는 PEFT와 LLMs를 다양한 코드 관련 작업에 활용하고 PEFT 기술의 효과는 작업에 따라 다르다는 것을 발견했습니다. 단위 테스트 생성에 PEFT 기술을 적용한 연구는 아직 미비합니다. 최신 기술은 LLMs를 전체 세밀한 조정하여 단위 테스트를 생성하는 데 사용됩니다. 본 논문에서는 LoRA, (IA)^3, 프롬프트 튜닝을 포함한 전체 세밀한 조정과 다양한 PEFT 방법을 다양한 모델 아키텍처와 크기에 걸쳐 조사합니다. 우리는 잘 알려진 벤치마크 데이터셋을 사용하여 단위 테스트 생성의 효과를 평가합니다. 우리의 연구 결과는 PEFT 방법이 전문화된 세밀한 조정을 더 접근 가능하고 비용 효율적으로 만들어 단위 테스트 생성에 대한 전체 세밀한 조정과 유사한 성능을 제공할 수 있다는 것을 보여줍니다. 특히, 프롬프트 튜닝은 비용과 자원 활용 측면에서 가장 효과적이며, LoRA는 여러 경우에 전체 세밀한 조정의 효과를 달성합니다.
현대 언어 모델은 다양한 언어 및 형식을 통해 입력을 처리할 수 있습니다. 우리는 모델이 이 능력을 획득하는 과정에서 이질적인 데이터 유형(예: 다른 언어 및 형식) 간에 공유 표현 공간을 학습함으로써 이 능력을 습득한다고 가정합니다. 이는 의미적으로 유사한 입력을 서로 가까이 배치하여 다른 형식/언어에서 나왔더라도 서로 가깝게 배치하는 것입니다. 이를 '의미 중심 가설'이라고 명명하며, 이는 신경과학의 허브-스포크 모델(Patterson et al., 2007)을 따릅니다. 이 모델은 인간 뇌의 의미 지식이 다양한 형식별 "스포크" 영역에서 정보를 통합하는 트랜스모달 의미 "허브"를 통해 조직된다고 가정합니다. 먼저, 서로 의미적으로 동등한 입력에 대한 모델 표현이 중간층에서 유사하며, 이 공간은 모델의 주요 사전 학습 언어를 통해 로짓 렌즈를 사용하여 해석할 수 있음을 보여줍니다. 이 경향은 산술 표현, 코드, 시각/음향 입력을 포함한 다른 데이터 유형으로 확장됩니다. 한 데이터 유형에서 공유 표현 공간에 대한 개입은 다른 데이터 유형에서 모델 출력에 예측 가능하게 영향을 미치며, 이는 이 공유 표현 공간이 단순히 광범위한 데이터에 대한 대규모 학습의 유물적 부산물이 아니라 입력 처리 중에 모델에 의해 활발하게 활용되는 것을 시사합니다.
미세 조정된 비전-언어 모델(VLMs)은 종종 이미지 특징과 텍스트 속성 간의 잘못된 상관 관계를 포착하여, 시험 시간에 성능이 저하된 제로샷 성능을 보입니다. 잘못된 상관 관계를 다루기 위한 기존 방법은 (i) 주로 전역 이미지 수준에서 작동하며 미세 조정된 이미지 특징에 직접 개입하지 않으며, (ii) 주로 단일 모달 설정을 대상으로 합니다. 본 연구에서는 RaVL을 제시하여, VLM의 강건성에 대한 미세한 관점을 제시하며, 전역 이미지 수준에서 작동하는 대신 지역 이미지 특징을 활용하여 잘못된 상관 관계를 발견하고 완화합니다. 미세 조정된 VLM이 주어졌을 때, RaVL은 먼저 영역 수준 클러스터링 접근을 활용하여 제로샷 분류 오류에 기여하는 정확한 이미지 특징을 식별하여 잘못된 상관 관계를 발견합니다. 그런 다음, RaVL은 새로운 영역 인식 손실 함수를 사용하여 식별된 잘못된 상관 관계를 완화시키며, VLM이 미세 조정 중에 관련 영역에 집중하고 잘못된 관계를 무시할 수 있도록 합니다. 우리는 다양한 모델 아키텍처, 데이터 도메인 및 학습된 잘못된 상관 관계를 가진 654개의 VLM에 대해 RaVL을 평가합니다. 결과는 RaVL이 잘못된 상관 관계를 정확하게 발견(최근접 기준선 대비 191% 향상)하고 완화(최악의 그룹 이미지 분류 정확도에서 8.2% 향상)시킨다는 것을 보여줍니다. 일반 도메인 및 의료 도메인 VLM에 대한 질적 평가는 우리의 결과를 확인합니다.
기술 부채(TD)는 개발자가 문제에 대해 빠르고 쉬운 해결책을 선택한 경우에 발생하는 추가 작업 및 비용을 설명하는 용어입니다. 이는 더 효과적이고 잘 설계된 시간 소모적인 접근 방식보다 선택한 경우에 나타납니다. 자가 인정 기술 부채(SATD)는 개발자가 일반적으로 텍스트 코멘트를 통해 의도적으로 문서화하고 인정하는 특정 유형의 기술 부채입니다. 이러한 자가 인정 코멘트는 기술 부채를 식별하는 데 유용한 도구이지만, 기존의 대부분의 접근 방식은 TD의 다양한 범주에 연관된 중요한 토큰을 캡처하는 데 초점을 맞추고 소스 코드 자체에 내재된 풍부한 정보를 무시합니다. 최근 연구는 소스 코드에 포함된 코멘트를 분석하여 SATD를 감지하는 데 중점을 두었으며, 소스 코드에 포함된 기술 부채를 다루는 연구는 거의 없었습니다. 이러한 공백을 채우기 위해 본 연구에서는 Stack 코퍼스에 호스팅된 974개의 Java 프로젝트에서 코멘트 및 관련 소스 코드를 분석함으로써, 코드 코멘트로 식별된 TD의 최초 데이터셋을 정리했습니다. 경험적 평가를 통해, 결과 데이터셋의 코멘트가 최첨단 SATD 감지 모델의 예측 성능을 향상시키는 데 도움이 되는 것을 발견했습니다. 더 중요한 것은 분류된 소스 코드를 포함하면 다양한 유형의 기술 부채를 예측하는 정확도가 크게 향상된다는 것입니다. 이러한 측면에서 본 연구는 이중으로 이루어져 있습니다: (i) 우리의 데이터셋이 기술 부채 인식과 관련된 다양한 연구 문제에 영감을 주어 향후 연구를 촉진할 것으로 믿습니다; (ii) 제안된 분류기는 정리된 데이터셋을 통해 TD 감지에 대한 다른 연구의 기준으로 기능할 수 있습니다.