번역이 포함된 일일 선별된 AI 연구 논문
우리는 금융 분석에 특화된 Mistral-7b 모델을 기반으로 구축된 최첨단 멀티모달 대형 언어 모델(LLM) 제품군인 FinTral을 소개합니다. FinTral은 텍스트, 수치, 표, 이미지 데이터를 통합합니다. 본 연구를 위해 구축한 방대한 텍스트 및 시각적 데이터셋을 활용하여 도메인 특화 사전 학습, 지시 미세 조정, RLAIF(Reinforcement Learning from AI Feedback) 훈련을 통해 FinTral을 강화했습니다. 또한, 금융 영역에서의 환각 현상을 포함한 9개 작업과 25개 데이터셋으로 구성된 포괄적인 벤치마크를 도입했습니다. 고급 도구 및 검색 방법을 활용한 직접 선호 최적화(Direct Preference Optimization)로 훈련된 FinTral 모델, 즉 FinTral-DPO-T&R은 탁월한 제로샷 성능을 보여줍니다. 이 모델은 모든 작업에서 ChatGPT-3.5를 능가하며, 9개 작업 중 5개에서 GPT-4를 앞지르는 등 AI 기반 금융 기술의 중요한 발전을 이뤘습니다. 또한 FinTral이 다양한 금융 맥락에서 실시간 분석 및 의사결정에서 뛰어난 잠재력을 가지고 있음을 입증했습니다.
자연은 무한한 해상도 자유를 지니고 있다. 이러한 현실 속에서, Diffusion Transformers와 같은 기존의 확산 모델들은 훈련된 도메인 외부의 이미지 해상도를 처리할 때 종종 어려움에 직면한다. 이러한 한계를 극복하기 위해, 본 연구에서는 무제한 해상도와 종횡비를 가진 이미지를 생성하기 위해 특별히 설계된 트랜스포머 아키텍처인 Flexible Vision Transformer(FiT)를 제안한다. 기존의 방법들이 이미지를 고정된 해상도의 격자로 인식하는 것과 달리, FiT는 이미지를 동적으로 크기가 조정되는 토큰의 시퀀스로 개념화한다. 이러한 관점은 훈련 및 추론 단계에서 다양한 종횡비에 쉽게 적응할 수 있는 유연한 훈련 전략을 가능하게 하여, 해상도 일반화를 촉진하고 이미지 크롭으로 인한 편향을 제거한다. 세심하게 조정된 네트워크 구조와 훈련이 필요 없는 외삽 기법의 통합을 통해, FiT는 해상도 외삽 생성에서 뛰어난 유연성을 보인다. 포괄적인 실험을 통해 FiT는 광범위한 해상도 범위에서 탁월한 성능을 보이며, 훈련 해상도 분포 내외에서 모두 효과적임을 입증한다. 저장소는 https://github.com/whlzy/FiT에서 확인할 수 있다.
본 논문에서는 음성, 텍스트, 이미지, 음악 등 다양한 모달리티를 통합 처리하기 위해 이산적 표현을 활용하는 Any-to-Any 다중모달 언어 모델인 AnyGPT를 소개한다. AnyGPT는 현재의 대규모 언어 모델(LLM) 아키텍처나 훈련 패러다임을 변경하지 않고도 안정적으로 훈련될 수 있다. 대신, 데이터 수준의 전처리에 전적으로 의존함으로써 새로운 모달리티를 LLM에 원활하게 통합할 수 있으며, 이는 새로운 언어를 통합하는 것과 유사하다. 우리는 다중모달 정렬 사전 훈련을 위한 텍스트 중심의 다중모달 데이터셋을 구축하였다. 또한 생성 모델을 활용하여, 다양한 모달리티가 복잡하게 얽힌 다중 턴 대화로 구성된 108k 샘플의 대규모 Any-to-Any 다중모달 명령어 데이터셋을 최초로 합성하였다. 이를 통해 모델은 임의의 다중모달 입력과 출력 조합을 처리할 수 있게 되었다. 실험 결과, AnyGPT는 모든 모달리티에서 특화된 모델과 비슷한 성능을 달성하면서도 Any-to-Any 다중모달 대화를 가능하게 함으로써, 이산적 표현이 언어 모델 내에서 여러 모달리티를 효과적이고 편리하게 통합할 수 있음을 입증하였다. 데모는 https://junzhan2000.github.io/AnyGPT.github.io/에서 확인할 수 있다.
추측적 디코딩은 보조 드래프트 모델의 예측을 기반으로 대형 목표 언어 모델의 추론 속도를 높이는 주요 기술이다. 이 방법은 효과적이지만, 특정 애플리케이션 환경에서는 높은 수용률을 달성하기 위해 드래프트 모델과 목표 모델 모두를 미세 조정해야 하는 경우가 많다. 다운스트림 작업의 수가 증가함에 따라, 이러한 드래프트 모델들은 추론 시스템에 상당한 복잡성을 더한다. 본 연구에서는 단일 모델 추측적 디코딩 방법인 '추측적 스트리밍'을 제안한다. 이 방법은 미세 조정 목표를 다음 토큰 예측에서 미래 n-그램 예측으로 변경함으로써 드래프팅을 목표 모델에 통합한다. 추측적 스트리밍은 요약, 구조화된 쿼리, 의미 표현 등 다양한 작업에서 생성 품질을 저하시키지 않으면서 디코딩 속도를 1.8배에서 3.1배까지 향상시킨다. 또한, 추측적 스트리밍은 매개변수 효율적이다. 이 방법은 Medusa 스타일 아키텍처와 동등하거나 더 높은 속도 향상을 달성하면서도 약 10,000배 적은 추가 매개변수를 사용하므로, 자원이 제한된 장치에 적합하다.
모델 양자화는 모델의 가중치 행렬을 저비트 값으로 표현하는 기술로, 기대가 큰 대형 언어 모델(LLM)의 배포 시 저장 공간과 계산 오버헤드를 줄이기 위한 유망한 접근법입니다. 그러나 기존의 양자화 방법은 비트 폭이 극도로 줄어들었을 때 심각한 성능 저하를 겪으며, 이에 따라 주로 4비트 또는 8비트 값을 사용하여 모델을 양자화하는 데 초점을 맞추고 있습니다. 본 논문은 LLM의 가중치 행렬을 1비트로 과감하게 양자화함으로써, 극도로 낮은 비트 폭으로 LLM을 배포할 수 있는 길을 열었습니다. 이를 위해, 우리는 OneBit이라는 1비트 양자화 인지 학습(QAT) 프레임워크를 소개합니다. 이 프레임워크는 LLM을 더 잘 양자화하기 위한 새로운 1비트 매개변수 표현 방법과, QAT 프레임워크의 수렴 속도를 향상시키기 위한 행렬 분해 기반의 효과적인 매개변수 초기화 방법을 포함합니다. 충분한 실험 결과는 OneBit이 1비트 가중치 행렬만을 사용할 때도 견고한 학습 과정을 통해 우수한 성능(비양자화 성능의 최소 83%)을 달성함을 보여줍니다.
대규모 언어 모델(LLM)은 언어 명령으로부터 로봇 코드를 작성하는 등 다양한 능력을 보여주며, 비전문가가 로봇의 행동을 지시하고 피드백을 바탕으로 이를 수정하거나 새로운 작업을 구성할 수 있게 합니다. 그러나 이러한 능력(컨텍스트 내 학습에 의해 주도됨)은 단기 상호작용에 국한되어 있으며, 사용자의 피드백은 LLM의 컨텍스트 크기 내에서만 관련성을 유지하고, 장기 상호작용에서는 잊혀질 수 있습니다. 본 연구에서는 로봇 코드 작성 LLM을 미세 조정하여 컨텍스트 내 상호작용을 기억하고 가르치기 쉬운 능력(즉, 인간의 입력에 얼마나 효율적으로 적응하는지, 사용자가 작업을 성공적으로 간주하기 전의 평균 수정 횟수로 측정)을 개선하는 방법을 탐구합니다. 우리의 주요 관찰은 인간-로봇 상호작용이 부분 관측 가능 마르코프 결정 과정(인간의 언어 입력은 관측, 로봇 코드 출력은 행동으로 간주)으로 공식화될 때, 이전 상호작용을 완료하도록 LLM을 훈련시키는 것을 전이 역학 모델을 훈련시키는 것으로 볼 수 있다는 것입니다. 이는 모델 예측 제어(MPC)와 같은 고전적인 로봇 공학 기법과 결합하여 성공으로 이르는 더 짧은 경로를 발견할 수 있게 합니다. 이는 언어 모델 예측 제어(LMPC)라는 프레임워크를 탄생시켰으며, PaLM 2를 미세 조정하여 5가지 로봇 구현체에서 78개 작업에 대한 가르치기 쉬운 능력을 개선했습니다. 이를 통해 보이지 않는 작업에 대한 비전문가의 가르침 성공률을 26.9% 향상시키고, 평균 인간 수정 횟수를 2.4에서 1.9로 줄였습니다. 실험 결과, LMPC는 강력한 메타 학습자를 생성하며, 보이지 않는 로봇 구현체와 API에서 새로운 작업을 컨텍스트 내 학습하는 성공률을 31.5% 향상시켰습니다. 비디오, 코드, 데모는 https://robot-teaching.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)과 명령어 튜닝의 놀라운 성공은 비전 언어 모델(VLMs)의 진화를 다목적 범용 모델로 이끌고 있습니다. 그러나 현재의 VLMs가 '이미지에 어떤 객체가 있는가?' 또는 '지정된 바운딩 박스에 해당하는 객체는 무엇인가?'와 같은 질문을 통해 진정한 객체 수준의 이미지 이해 능력을 보유하고 있는지 여부는 아직 탐구되지 않았습니다. 우리의 연구 결과는 현재 VLMs의 이미지 이해 능력이 비전 언어(VL) 작업에서의 제로샷 성능과 강한 상관관계가 있음을 보여줍니다. 이는 VLMs가 VL 작업에서 뛰어나기 위해 기본적인 이미지 이해를 우선시하는 것이 중요함을 시사합니다. 객체 수준의 이미지 이해를 향상시키기 위해, 우리는 팬옵틱 컬러 맵을 기반으로 한 새로운 시각적 프롬프트 튜닝 방식인 크레용 프롬프트를 통한 명령어 튜닝을 통합한 Crayon Large Language and Vision mOdel(CoLLaVO)을 제안합니다. 또한, 시각적 명령어 튜닝 과정에서 객체 수준의 이미지 이해를 잊지 않고 보존하기 위한 Dual QLoRA 학습 전략을 제시함으로써, 다양한 VL 벤치마크에서의 제로샷 성능을 크게 향상시켰습니다.
대규모 언어 모델(LLM)을 인간의 가치와 조율하기 위해서는 파인튜닝 데이터의 품질이 매우 중요합니다. 현재 데이터 품질을 개선하기 위한 방법들은 노동 집약적이거나 LLM의 환각으로 인한 사실 오류가 발생하기 쉽습니다. 본 논문은 기존의 지시 데이터 품질을 높여 인간의 가치와 더 잘 조율하기 위한 방법을 탐구하며, ReAlign이라는 간단하면서도 효과적인 접근 방식을 소개합니다. 이 방식은 지시 데이터의 응답을 미리 설정된 기준과 수집된 증거에 더 잘 맞는 형식으로 재구성합니다. 이 접근법은 인간 주석, 환각, 그리고 확장의 어려움을 최소화하며, 기존의 조율 기술과 직교적으로 작동합니다. 실험적으로, ReAlign은 LLM의 일반적인 조율 능력, 수학적 추론, 사실성, 그리고 가독성을 크게 향상시킵니다. 고무적으로도, 추가 데이터나 고급 훈련 기술을 도입하지 않고 단순히 응답을 재구성함으로써, LLaMA-2-13B의 GSM8K에서의 수학적 추론 능력 정확도가 46.77%에서 56.63%로 향상되었습니다. 또한, ReAlign 데이터의 단 5%만으로도 Alpaca 데이터셋으로 측정한 일반적인 조율 능력이 67% 증가했습니다. 이 연구는 LLM의 과학적 이해와 기계적 해석 가능성에 대한 추가 연구의 필요성을 강조합니다. 향후 연구를 지원하기 위해 관련 코드와 데이터를 https://github.com/GAIR-NLP/ReAlign에서 공개적으로 접근 가능하게 하였습니다.
대형 언어 모델(LLM)은 언어 이해와 복잡한 추론 작업 수행에서 인상적인 성능을 보여왔다. 그러나 긴 문맥 윈도우를 가진 LLM은 훈련 비용이 비싸고 추론 지연 시간이 길다는 점으로 악명이 높다. GPT-4와 Claude2와 같은 가장 진보된 모델들조차 100k 토큰 이상의 입력을 처리할 때 실수를 저지르는 경우가 많으며, 이는 '중간에서 길을 잃음(lost in the middle)' 현상으로도 알려져 있다. 본 논문에서는 다중 에이전트 협업을 기반으로 한 LongAgent 방법을 제안한다. 이 방법은 LLM(예: LLaMA)을 128K 문맥으로 확장하며, GPT-4와 비교하여 장문 처리에서 잠재적인 우수성을 보인다. LongAgent에서는 리더가 사용자의 의도를 이해하고 팀원들에게 문서에서 정보를 수집하도록 지시하는 역할을 맡는다. 팀원들의 환각(hallucination)으로 인해 리더가 수십에서 수백 명의 팀원들의 응답으로부터 정확한 정보를 얻는 것은 쉬운 일이 아니다. 이를 해결하기 위해, 우리는 정보 공유를 통해 환각으로 인한 응답 충돌을 해결하는 팀원 간 통신 메커니즘을 개발했다. 실험 결과는 LongAgent가 장문 처리에 있어 유망한 대안을 제공함을 보여준다. LLaMA-7B로 구현된 에이전트 팀은 128k 길이의 텍스트 검색, 다중 홉 질문 응답 등의 작업에서 GPT-4와 비교하여 상당한 개선을 달성했다.
최신 언어 모델은 수학, 과학 또는 코딩 과제에서 인상적인 추론 개선 능력을 보여줄 수 있다. 그러나 최근 연구에 따르면, 외부 피드백 없이는 최고의 모델들도 언제, 어디서 개선해야 하는지 식별하는 데 어려움을 겪는다. 최종 답변의 정확성을 예측하여 언제 개선해야 하는지를 나타내는 결과 기반 보상 모델(Outcome-based Reward Models, ORMs)은 이러한 결정을 위한 편리한 해결책을 제공한다. 중간 단계의 정확성을 예측하여 어디서 개선해야 하는지를 나타내는 과정 기반 보상 모델(Process Based Reward Models, PRMs)도 사용될 수 있지만, 이는 광범위한 인간 주석이 필요하여 학습 비용이 많이 든다. 본 논문에서는 합성 데이터만을 사용하여 최적 정책 또는 \( V^{\star} \)의 기대 미래 보상을 근사하도록 학습된 단계적 ORMs(Stepwise ORMs, SORMs)를 제안한다. 구체적으로, SORMs는 현재 정책을 여러 번 샘플링할 때(ORMs의 경우와 달리 한 번만 샘플링하는 것이 아니라) 최종 답변의 정확성을 예측하도록 학습된다. 우리의 실험 결과, SORMs는 ORMs에 비해 잘못된 추론 단계를 더 정확하게 감지할 수 있으며, 이를 통해 개선 작업 시 하류 정확도를 향상시킬 수 있음을 보여준다. 그런 다음, 질문과 초안 해결책만을 입력으로 받아 수정된 해결책을 예측하는 전역 개선 모델과, 첫 번째 추론 오류의 위치를 나타내는 비평도 입력으로 받는 지역 개선 모델을 학습시킨다. 두 모델의 학습 데이터는 SORM을 학습하는 데 사용된 데이터를 재사용하여 합성적으로 생성한다. ORM을 재순위 지정자로 사용하여 전역 및 지역 개선을 결합하는 것이 각각을 개별적으로 사용하는 것보다, 그리고 세 가지 샘플 기준선 중 최고의 성능을 크게 능가함을 발견했다. 이 전략을 통해 GSM8K에서 이미 RL로 미세 조정된 LLaMA-2 13B 모델의 정확도를 탐욕적으로 샘플링할 때 53\%에서 65\%로 향상시킬 수 있었다.
표면 기반 뷰 합성 알고리즘은 낮은 계산 요구량으로 인해 매력적이지만, 종종 얇은 구조를 재현하는 데 어려움을 겪습니다. 반면, 장면의 기하학을 체적 밀도 필드(예: NeRF)로 모델링하는 더 비용이 많이 드는 방법들은 미세한 기하학적 디테일을 재구성하는 데 탁월합니다. 그러나 밀도 필드는 종종 기하학을 "퍼지"한 방식으로 표현하기 때문에 표면의 정확한 위치 파악을 방해합니다. 본 연구에서는 얇은 구조를 재구성하는 능력을 저해하지 않으면서 밀도 필드가 표면으로 수렴하도록 수정합니다. 첫째, 연속적인 밀도 필드 대신 이산적인 불투명도 그리드 표현을 사용하여 표면에서 불투명도 값이 불연속적으로 0에서 1로 전환되도록 합니다. 둘째, 픽셀당 여러 개의 광선을 투사하여 앨리어싱을 방지함으로써, 반투명 복셀을 사용하지 않고도 폐색 경계와 서브픽셀 구조를 모델링할 수 있습니다. 셋째, 불투명도 값의 이진 엔트로피를 최소화하여 훈련 후반에 불투명도 값이 이진화되도록 유도함으로써 표면 기하학 추출을 용이하게 합니다. 마지막으로, 융합 기반 메싱 전략을 개발한 후 메시 단순화와 외관 모델 피팅을 수행합니다. 우리 모델이 생성한 컴팩트한 메시는 모바일 기기에서 실시간으로 렌더링될 수 있으며, 기존의 메시 기반 접근법에 비해 훨씬 더 높은 뷰 합성 품질을 달성합니다.
본 논문은 텍스트 기반 확산 모델(diffusion model)을 이용한 이미지 생성 과정에서 세밀한 조명 제어를 가능하게 하는 새로운 방법을 제시합니다. 기존의 확산 모델은 어떤 조명 조건에서도 이미지를 생성할 수 있는 능력을 갖추고 있지만, 추가적인 지침 없이는 이미지 콘텐츠와 조명이 상호 연관되는 경향이 있습니다. 또한, 텍스트 프롬프트는 세부적인 조명 설정을 설명하기에 충분한 표현력을 갖추지 못합니다. 이를 해결하기 위해, 본 연구에서는 이미지 생성 과정에서 콘텐츠 제작자가 조명을 세밀하게 제어할 수 있도록, 조명 정보를 방사광 힌트(radiance hints) 형태로 텍스트 프롬프트에 추가합니다. 방사광 힌트는 목표 조명 하에서 균일한 표준 재질을 가진 장면 기하학의 시각화를 의미합니다. 그러나 방사광 힌트를 생성하기 위해 필요한 장면 기하학은 알려져 있지 않습니다. 여기서 우리의 핵심 관찰은 정확한 방사광 힌트가 필요하지 않으며, 확산 과정을 올바른 방향으로 유도하기만 하면 된다는 것입니다. 이러한 관찰을 바탕으로, 우리는 이미지 생성 중 조명을 제어하기 위한 세 단계 방법을 제안합니다. 첫 번째 단계에서는, 미리 학습된 표준 확산 모델을 활용하여 제어되지 않은 조명 하에서 임시 이미지를 생성합니다. 다음으로, 두 번째 단계에서는 임시 이미지에서 추론된 전경 객체의 대략적인 형태를 기반으로 계산된 방사광 힌트를 사용하여, DiLightNet이라는 개선된 확산 모델에 목표 조명을 전달함으로써 생성된 이미지의 전경 객체를 재합성하고 정제합니다. 텍스처 세부 정보를 유지하기 위해, DiLightNet에 전달하기 전에 방사광 힌트를 임시 합성 이미지의 신경망 인코딩과 곱합니다. 마지막으로, 세 번째 단계에서는 전경 객체의 조명과 일관성을 유지하도록 배경을 재합성합니다. 우리는 다양한 텍스트 프롬프트와 조명 조건에서 조명 제어 확산 모델을 시연하고 검증합니다.
비전-언어 모델(VLM)이 다재다능한 시각적 보조 도구로서 놀라운 능력을 보여주고 있음에도 불구하고, 기존 VLM 프레임워크 내에는 두 가지 중대한 과제가 여전히 존재합니다: (1) 사전 학습과 시각적 지시 튜닝에서의 작업 다양성 부족, 그리고 (2) GPT-4 합성 지시 튜닝 데이터의 주석 오류와 편향. 이러한 과제들은 일반화 능력 저하, 환각 현상, 그리고 치명적 망각과 같은 문제를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 현재까지 공개된 가장 다양한 시각적 지시 튜닝 데이터셋인 Vision-Flan을 구축했습니다. 이 데이터셋은 학술 데이터셋에서 수집된 187개의 다양한 작업과 1,664,261개의 인스턴스로 구성되어 있으며, 각 작업은 전문가가 작성한 지시문과 함께 제공됩니다. 또한, 우리는 두 단계의 지시 튜닝 프레임워크를 제안합니다. 이 프레임워크에서는 VLM이 먼저 Vision-Flan에서 미세 조정된 후, GPT-4 합성 데이터에서 추가로 튜닝됩니다. 우리는 이 두 단계 튜닝 프레임워크가 기존의 단일 단계 시각적 지시 튜닝 프레임워크를 크게 능가하며, 다양한 다중 모달 평가 벤치마크에서 최첨단 성능을 달성함을 발견했습니다. 마지막으로, 우리는 시각적 지시 튜닝을 이해하기 위해 심층 분석을 수행했으며, 그 결과 다음과 같은 사실을 발견했습니다: (1) GPT-4 합성 데이터는 VLM의 능력을 크게 향상시키기보다는 모델의 응답을 인간이 선호하는 형식으로 조정하는 역할을 합니다; (2) 최소량(예: 1,000개)의 GPT-4 합성 데이터만으로도 VLM의 응답을 인간의 선호에 효과적으로 맞출 수 있습니다; (3) 시각적 지시 튜닝은 주로 대형 언어 모델(LLM)이 시각적 특징을 이해하는 데 도움을 줍니다.
자기회귀 모델은 그리드 공간에서 결합 분포를 모델링함으로써 2D 이미지 생성에서 인상적인 결과를 달성해 왔습니다. 본 논문에서는 자기회귀 모델을 3D 도메인으로 확장하고, 모델의 용량과 확장성을 동시에 개선하여 더 강력한 3D 형태 생성 능력을 추구합니다. 먼저, 대규모 모델 학습을 촉진하기 위해 공개된 3D 데이터셋의 앙상블을 활용합니다. 이는 약 900,000개의 객체로 구성된 포괄적인 컬렉션으로, 메시, 포인트, 복셀, 렌더링된 이미지, 텍스트 캡션 등 다양한 속성을 포함합니다. 이렇게 다양한 라벨이 지정된 데이터셋인 Objaverse-Mix는 우리의 모델이 광범위한 객체 변형을 학습할 수 있도록 지원합니다. 그러나 3D 자기회귀를 직접 적용하는 것은 복셀 그리드에 대한 높은 계산 요구와 그리드 차원을 따른 모호한 자기회귀 순서라는 중요한 문제에 직면하게 되어, 3D 형태의 품질이 저하됩니다. 이를 해결하기 위해, 우리는 용량 측면에서 새로운 프레임워크인 Argus3D를 제시합니다. 구체적으로, 우리의 접근 방식은 복셀 그리드 대신 잠재 벡터 기반의 이산 표현 학습을 도입하여, 계산 비용을 줄이는 동시에 더 다루기 쉬운 순서로 결합 분포를 학습함으로써 필수적인 기하학적 세부 사항을 보존합니다. 이에 따라, 포인트 클라우드, 카테고리, 이미지, 텍스트와 같은 다양한 조건 입력을 잠재 벡터에 간단히 연결함으로써 조건부 생성의 용량을 실현할 수 있습니다. 또한, 우리 모델 아키텍처의 단순성 덕분에, 우리는 이 접근 방식을 36억 개의 매개변수를 가진 더 큰 모델로 자연스럽게 확장하여 다재다능한 3D 생성의 품질을 더욱 향상시킵니다. 네 가지 생성 작업에 대한 광범위한 실험을 통해 Argus3D가 여러 카테고리에서 다양하고 충실한 형태를 합성할 수 있으며, 뛰어난 성능을 달성함을 입증합니다.