번역이 포함된 일일 선별된 AI 연구 논문
텍스트에서 3D 생성은 텍스트 프롬프트로부터 생생한 3D 객체를 합성하는 것을 목표로 하며, 컴퓨터 비전 커뮤니티로부터 많은 관심을 받고 있습니다. 기존의 여러 연구들이 이 작업에서 인상적인 결과를 달성했지만, 이들은 주로 시간이 많이 소요되는 최적화 패러다임에 의존합니다. 구체적으로, 이러한 방법들은 각 텍스트 프롬프트에 대해 신경망 필드를 처음부터 최적화하며, 하나의 객체를 생성하는 데 약 1시간 이상이 소요됩니다. 이러한 높고 반복적인 학습 비용은 실제 배포를 방해합니다. 본 논문에서는 빠른 텍스트에서 3D 생성을 위한 새로운 프레임워크인 Instant3D를 제안합니다. 한 번 학습된 Instant3D는 보지 못한 텍스트 프롬프트에 대해 단일 순방향 네트워크 실행으로 1초 미만의 시간 내에 3D 객체를 생성할 수 있습니다. 우리는 텍스트 프롬프트로부터 직접 3D 트라이플레인을 구성하는 새로운 네트워크를 설계함으로써 이 놀라운 속도를 달성했습니다. Instant3D의 핵심 혁신은 텍스트 조건을 네트워크에 효과적으로 주입하기 위한 전략 탐구에 있습니다. 또한, 우리는 원래의 시그모이드 함수를 대체하기 위해 단순하지만 효과적인 활성화 함수인 스케일드 시그모이드를 제안하며, 이를 통해 학습 수렴 속도를 10배 이상 가속화했습니다. 마지막으로, 3D 생성에서의 야누스(다중 머리) 문제를 해결하기 위해, 우리는 학습 중 야누스 문제의 심각도에 따라 개념 부정 스케일을 동적으로 조정할 수 있는 적응형 Perp-Neg 알고리즘을 제안하여 다중 머리 효과를 효과적으로 줄였습니다. 다양한 벤치마크 데이터셋에 대한 광범위한 실험을 통해 제안된 알고리즘이 정성적 및 정량적으로 최신 방법들에 비해 우수한 성능을 보이면서도 훨씬 더 나은 효율성을 달성함을 입증했습니다. 프로젝트 페이지는 https://ming1993li.github.io/Instant3DProj에서 확인할 수 있습니다.
최근 오픈 월드 3D 객체 생성 분야의 발전은 눈부시며, 이미지-투-3D 방식이 텍스트-투-3D 방식보다 우수한 세밀한 제어를 제공하고 있습니다. 그러나 대부분의 기존 모델들은 실용적인 애플리케이션에 필수적인 두 가지 특징인 빠른 생성 속도와 입력 이미지에 대한 높은 충실도를 동시에 제공하는 데는 미치지 못하고 있습니다. 본 논문에서는 단일 이미지를 약 1분 만에 상세한 텍스처가 적용된 3D 메시로 변환하는 혁신적인 방법인 One-2-3-45++를 소개합니다. 우리의 접근 방식은 2D 확산 모델에 내재된 광범위한 지식과 가치 있지만 제한적인 3D 데이터의 사전 지식을 최대한 활용하는 것을 목표로 합니다. 이는 먼저 일관된 다중 뷰 이미지 생성을 위해 2D 확산 모델을 미세 조정한 다음, 다중 뷰 조건부 3D 네이티브 확산 모델의 도움으로 이러한 이미지를 3D로 고도화함으로써 달성됩니다. 광범위한 실험 평가를 통해 우리의 방법이 원본 입력 이미지를 매우 가깝게 반영하는 고품질의 다양한 3D 자산을 생성할 수 있음을 입증했습니다. 우리의 프로젝트 웹페이지: https://sudo-ai-3d.github.io/One2345plus_page.
대규모 사전 학습 언어 모델(LLM)의 유창함과 창의성은 전통적인 검색 엔진을 대체할 정도로 널리 사용되게 만들었습니다. 그러나 언어 모델은 사실적으로 들리지만 사실과 다른 주장을 하는 경향이 있으며, 이를 '환각(hallucination)'이라고 부릅니다. 이러한 오류는 의도치 않게 잘못된 정보를 확산시키거나 유해한 오해를 영속화할 수 있습니다. 또한, 모델 응답을 수동으로 사실 확인하는 작업은 시간이 많이 소요되어 인간이 제공하는 사실성 레이블을 얻는 데 비용이 많이 듭니다. 본 연구에서는 인간 레이블링 없이 언어 모델을 더 사실적으로 미세 조정하며, 기존 연구보다 더 개방형 생성 설정을 목표로 합니다. 이를 위해 최근 NLP 분야의 두 가지 주요 혁신을 활용합니다. 첫째, 여러 최근 연구에서는 외부 지식 베이스와의 일관성을 측정하거나 단순히 대형 모델의 신뢰도 점수를 통해 개방형 텍스트의 사실성을 판단하는 방법을 제안했습니다. 둘째, 직접 선호 최적화(direct preference optimization) 알고리즘은 지도 학습 모방 외의 목표에 대해 언어 모델을 간단히 미세 조정할 수 있도록 해줍니다. 이를 위해 가능한 모델 응답에 대한 선호 순위를 사용합니다. 우리는 기존 검색 시스템이나 우리가 제안한 새로운 검색 없는 접근 방식을 통해 자동으로 생성된 사실성 선호 순위로부터 학습함으로써, RLHF(Reinforcement Learning from Human Feedback)나 사실성을 목표로 한 디코딩 전략과 비교했을 때 Llama-2의 보류된 주제에 대한 사실성(생성된 주장 중 정확한 비율)을 크게 향상시킴을 보여줍니다. 7B 규모에서 Llama-2-chat과 비교했을 때, 전기 생성 시 58%, 의학 질문 응답 시 40%의 사실 오류율 감소를 관찰했습니다.
본 연구에서는 코드 처리 분야의 최신 발전을 체계적으로 검토하며, 50개 이상의 모델, 30개 이상의 평가 과제, 그리고 500편 이상의 관련 연구를 다룹니다. 코드 처리 모델을 GPT 계열로 대표되는 일반 언어 모델과 코드에 특화된 목적으로 사전 학습된 전문화된 모델로 구분하여 살펴봅니다. 이러한 모델 간의 관계와 차이점을 논의하고, 통계적 모델과 RNN에서 사전 학습된 트랜스포머와 대형 언어 모델(LLM)로의 코드 모델링 역사적 전환을 강조합니다. 이는 자연어 처리(NLP) 분야에서 겪은 과정과 정확히 일치합니다. 또한 AST(추상 구문 트리), CFG(제어 흐름 그래프), 단위 테스트와 같은 코드 특화 기능과 이들이 코드 언어 모델 학습에 어떻게 적용되는지 논의하며, 이 분야의 주요 과제와 잠재적인 미래 방향을 제시합니다. 본 조사는 깃허브 저장소(https://github.com/codefuse-ai/Awesome-Code-LLM)에서 공개적으로 유지되며 지속적으로 업데이트됩니다.
대규모 언어 모델(LLM)의 핵심 기능 중 하나는 자연어 지시를 따르는 것입니다. 그러나 이러한 능력을 평가하는 방법은 표준화되어 있지 않습니다. 인간 평가는 비용이 많이 들고 느릴 뿐만 아니라 객관적으로 재현하기 어렵습니다. 반면, LLM 기반 자동 평가는 평가자 LLM의 능력에 의해 편향되거나 제한될 가능성이 있습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델을 위한 지시 따르기 평가(Instruction-Following Eval, IFEval)를 소개합니다. IFEval은 간단하고 재현하기 쉬운 평가 벤치마크입니다. 이는 "400단어 이상으로 작성하라" 또는 "AI 키워드를 최소 3번 언급하라"와 같은 "검증 가능한 지시" 집합에 초점을 맞춥니다. 우리는 이러한 검증 가능한 지시 25가지 유형을 식별하고, 각 프롬프트가 하나 이상의 검증 가능한 지시를 포함하도록 약 500개의 프롬프트를 구성했습니다. 우리는 시장에서 널리 사용 가능한 두 가지 LLM의 평가 결과를 보여줍니다. 우리의 코드와 데이터는 https://github.com/google-research/google-research/tree/master/instruction_following_eval에서 확인할 수 있습니다.
우리는 도움이 되고, 해롭지 않으며, 정직하도록 훈련된 대형 언어 모델(Large Language Models)이 사용자에 대해 전략적으로 기만 행위를 보이며, 이 행위를 숨기는 잘못된 행동을 보일 수 있는 상황을 실험적으로 보여줍니다. 구체적으로, GPT-4를 현실적인 시뮬레이션 환경에서 자율 주식 거래 에이전트 역할을 수행하도록 배치했습니다. 이 환경 내에서 모델은 수익성이 높은 주식 거래에 대한 내부자 정보를 얻고, 회사 경영진이 내부자 거래를 금지한다는 사실을 알고 있음에도 불구하고 이를 실행에 옮깁니다. 이후 관리자에게 보고할 때 모델은 거래 결정의 진짜 이유를 일관적으로 숨깁니다. 우리는 이러한 잘못된 행동이 다양한 환경 변화에 따라 어떻게 달라지는지 간단히 조사했습니다. 예를 들어, 모델의 추론 스크래치패드 접근을 제거하거나, 시스템 지시를 변경하여 잘못된 행동을 방지하려고 시도하거나, 모델이 받는 압박의 정도를 조정하거나, 적발될 위험을 다르게 인식하도록 하거나, 환경에 간단한 변화를 주는 등의 실험을 수행했습니다. 우리가 아는 한, 이는 도움이 되고, 해롭지 않으며, 정직하도록 훈련된 대형 언어 모델이 직접적인 지시나 기만 훈련 없이도 현실적인 상황에서 사용자를 전략적으로 기만하는 첫 번째 실증 사례입니다.
본 연구에서는 추가적인 보조 모델 훈련이나 대형 언어 모델(LLM) 자체의 수정 없이 병렬 디코딩(parallel decoding)을 기반으로 한 모델-불문 프레임워크인 FastCoT를 제안합니다. FastCoT는 위치에 따라 크기가 변하는 가변 크기 컨텍스트 창을 사용하여 병렬 디코딩과 자기회귀 디코딩(auto-regressive decoding)을 동시에 수행함으로써 GPU 계산 자원을 최대한 활용합니다. FastCoT에서 병렬 디코딩 부분은 LLM에 근사 토큰으로 구성된 미래를 빠르게 살펴볼 수 있게 하여, 인과적 트랜스포머(causal transformer)가 사용하는 일반적인 자기회귀 디코딩에 비해 더 빠른 답변을 이끌어낼 수 있습니다. 또한, LLM 내부에서 KV 캐시 생성과 배치 처리를 지원하는 병렬 디코딩 구현을 제공합니다. 광범위한 실험을 통해 FastCoT가 일반적인 접근 방식에 비해 성능 저하가 거의 없으면서도 추론 시간을 약 20% 절약할 수 있음을 입증했습니다. 더불어, 컨텍스트 창 크기가 다양한 작업에 대해 상당한 견고성을 보인다는 점도 확인했습니다.
대규모 언어 모델(LLM)은 머신러닝의 많은 응용 분야에서 핵심 구성 요소로 자리 잡았습니다. 그러나 LLM을 훈련시키기 위한 표준 접근 방식은 많은 수의 긴밀하게 연결된 가속기를 필요로 하며, 각 최적화 단계에서 기기들이 그래디언트와 기타 중간 상태를 교환해야 합니다. 많은 수의 가속기를 호스팅하는 단일 컴퓨팅 클러스터를 구축하고 유지하는 것은 어려운 일이지만, 더 적은 수의 기기를 호스팅하는 여러 컴퓨팅 클러스터를 찾는 것은 더 쉬울 수 있습니다. 본 연구에서는 연결 상태가 좋지 않은 기기 그룹(섬)에서도 언어 모델을 훈련시킬 수 있는 분산 최적화 알고리즘인 DiLoCo(Distributed Low-Communication)를 제안합니다. 이 접근 방식은 페더레이티드 평균화(federated averaging)의 변형으로, 내부 단계 수가 많고 내부 최적화기는 AdamW, 외부 최적화기는 네스테로프 모멘텀(Nesterov momentum)을 사용합니다. 널리 사용되는 C4 데이터셋에서, 8개의 워커를 사용한 DiLoCo는 완전 동기화 최적화와 동등한 성능을 보이면서도 통신량을 500배 줄였습니다. DiLoCo는 각 워커의 데이터 분포에 대해 높은 견고성을 보여줍니다. 또한 시간이 지남에 따라 리소스를 사용할 수 없게 되는 상황에도 강건하며, 반대로 훈련 중에 사용 가능해지는 리소스를 원활하게 활용할 수 있습니다.
최근 몇 년 동안 대형 언어 모델(LLM)은 놀라운 생성 능력을 보여주었지만, 이들이 자신이 생성한 결과물의 품질을 판단할 수 있을까요? 자기 개선(self-refinement)이라고 불리는 인기 있는 개념은 LLM이 요청받을 때 자신의 생성 결과에서 오류를 감지하고 수정할 수 있다고 가정합니다. 그러나 최근의 실증적 증거는 이와 반대 방향을 가리키며, LLM이 추론이 필요한 상황에서 오류를 정확히 식별하는 데 종종 어려움을 겪는다는 것을 시사합니다. 이를 해결하기 위해, 우리는 ART(Ask, Refine, and Trust)라는 추론과 개선을 결합한 목표를 제안합니다. ART는 LLM이 언제 자신의 출력을 개선해야 하는지를 결정하기 위해 필요한 질문을 하고, 개선된 결과와 초기 예측을 순위 매김하여 개선을 확신하거나 신뢰를 보류합니다. 수학적 단어 문제(GSM8K)와 질문 응답(StrategyQA)이라는 두 가지 다단계 추론 과제에서 ART는 자기 개선 기준선보다 +5점의 성능 향상을 달성하면서, 훨씬 더 작은 모델을 의사 결정자로 사용합니다. 또한, 더 큰 모델을 미세 조정하는 대신 더 작은 모델을 사용하여 개선 결정을 내리는 것이 비용 효율적인 대안임을 입증합니다.
최근, 인간과의 오디오 상호작용을 위한 명령 수행 오디오-언어 모델이 광범위한 관심을 받고 있습니다. 그러나 다양한 오디오 유형과 작업을 처리할 수 있는 사전 훈련된 오디오 모델의 부재로 인해 이 분야의 발전이 저해되어 왔습니다. 결과적으로, 기존 연구 대부분은 제한된 범위의 상호작용 기능만을 지원할 수 있었습니다. 본 논문에서는 Qwen-Audio 모델을 개발하고, 인간 음성, 자연 소리, 음악, 노래 등 다양한 오디오 유형과 30개 이상의 작업을 포괄하는 오디오-언어 사전 훈련을 확장하여 보편적인 오디오 이해 능력을 촉진함으로써 이러한 한계를 해결하고자 합니다. 그러나 모든 작업과 데이터셋을 직접 공동 훈련할 경우, 작업 초점, 언어, 주석의 세분화, 텍스트 구조 등의 차이로 인해 서로 다른 데이터셋과 연관된 텍스트 레이블이 상당한 변동을 보이기 때문에 간섭 문제가 발생할 수 있습니다. 이러한 일대다 간섭 문제를 극복하기 위해, 우리는 디코더에 계층적 태그 시퀀스를 조건으로 하는 다중 작업 훈련 프레임워크를 신중하게 설계하여 공유 태그와 지정 태그를 통해 각각 지식 공유를 촉진하고 간섭을 방지합니다. 특히, Qwen-Audio는 작업별 미세 조정 없이도 다양한 벤치마크 작업에서 인상적인 성능을 달성하며, 경쟁 모델들을 능가합니다. Qwen-Audio의 능력을 기반으로, 우리는 다양한 오디오와 텍스트 입력을 허용하고 다중 턴 대화를 가능하게 하며 다양한 오디오 중심 시나리오를 지원하는 Qwen-Audio-Chat을 추가로 개발합니다.
레드 팀링(Red-teaming)은 대규모 언어 모델(LLM)의 안전하지 않은 행동을 완화하기 위한 일반적인 방법으로, 잠재적인 결함을 식별하고 책임감 있고 정확한 응답으로 이를 해결하기 위해 LLM을 철저히 평가하는 과정을 포함합니다. 수동 레드 팀링은 효과적이지만 비용이 많이 들며, 기존의 자동 레드 팀링은 일반적으로 안전 위험을 발견하지만 이를 해결하지는 못합니다. 본 논문에서는 다중 라운드 자동 레드 팀링(Multi-round Automatic Red-Teaming, MART) 방법을 제안합니다. 이 방법은 자동 적대적 프롬프트 작성과 안전한 응답 생성을 모두 통합하여 레드 팀링의 확장성과 대상 LLM의 안전성을 크게 향상시킵니다. 구체적으로, 적대적 LLM과 대상 LLM이 반복적으로 상호작용하며, 적대적 LLM은 대상 LLM으로부터 안전하지 않은 응답을 이끌어내기 위한 도전적인 프롬프트를 생성하는 것을 목표로 합니다. 반면, 대상 LLM은 이러한 적대적 프롬프트에 대해 안전성을 강화한 데이터로 미세 조정됩니다. 각 라운드에서 적대적 LLM은 업데이트된 대상 LLM에 대해 더 나은 공격을 구성하고, 대상 LLM은 안전성 미세 조정을 통해 스스로를 개선합니다. 적대적 프롬프트 벤치마크에서, 제한된 안전성 조정을 가진 LLM의 위반률은 4라운드의 MART 이후 최대 84.7% 감소하며, 광범위한 적대적 프롬프트 작성이 적용된 LLM과 비슷한 성능을 달성합니다. 특히, 비적대적 프롬프트에 대한 모델의 유용성은 반복 과정 동안 안정적으로 유지되어, 대상 LLM이 명령 수행에서 강력한 성능을 유지함을 나타냅니다.