번역이 포함된 일일 선별된 AI 연구 논문
생성 모델은 다양한 영역에서 중요한 영향을 미쳤는데, 이는 데이터, 계산 자원, 그리고 모델 크기를 증가시킴으로써 훈련 중에 확장할 수 있는 능력 때문이다. 이러한 현상은 스케일링 법칙에 의해 특징 지어진다. 최근 연구에서는 대형 언어 모델 (LLM)의 추론 시간 스케일링 행동을 탐구하기 시작하여 성능이 추가 계산을 통해 어떻게 더 개선될 수 있는지 밝혀내고 있다. LLM과는 달리 확산 모델은 기본적으로 노이즈 제거 단계 수를 통해 추론 시간 계산을 조정할 수 있는 유연성을 갖고 있지만, 성능 향상은 일반적으로 수십 단계 후에 안정화된다. 본 연구에서는 확산 모델의 추론 시간 스케일링 행동을 더 많은 노이즈 제거 단계를 추가함으로써 탐구하고, 계산 증가로 생성 성능이 어떻게 더 개선될 수 있는지 조사한다. 구체적으로, 확산 샘플링 과정에서 더 나은 노이즈를 식별하기 위한 검색 문제를 고려한다. 우리는 피드백을 제공하는 확인자와 더 나은 노이즈 후보를 찾기 위해 사용되는 알고리즘을 따라 설계 공간을 구조화한다. 클래스 조건부 및 텍스트 조건부 이미지 생성 벤치마크에 대한 광범위한 실험을 통해, 확산 모델에 의해 생성된 샘플의 품질이 상당히 향상되는 것을 밝혀내며, 이미지의 복잡성과 함께, 프레임워크 구성 요소의 조합은 다양한 응용 시나리오와 일치하도록 특별히 선택될 수 있다.
대형 언어 모델을 활용한 기계 작성은 종종 검색 증강 생성에 의존합니다. 그러나 이러한 접근 방식은 모델의 미리 정의된 범위 내에서 제한되어 있어, 풍부한 정보를 포함한 콘텐츠 생성을 제한합니다. 구체적으로, 바닐라 검색된 정보는 깊이와 유용성이 부족하며 중복으로 인해 품질이 저하되어 얕고 반복적이며 원본이 없는 결과물을 만들어냅니다. 이러한 문제를 해결하기 위해 우리는 인간과 유사한 반복적 확장 및 반성 과정을 에뮬레이트하는 기계 작성 프레임워크인 OmniThink을 제안합니다. OmniThink의 핵심 아이디어는 주제에 대한 지식을 점진적으로 심화시키는 학습자의 인지적 행동을 모방하는 것입니다. 실험 결과는 OmniThink이 일관성과 깊이와 같은 메트릭을 희생하지 않고 생성된 기사의 지식 밀도를 향상시킨다는 것을 입증합니다. 인간 평가 및 전문가 피드백은 OmniThink이 장문 기사 생성에서 실제 문제에 대처하는 잠재력을 강조합니다.
언어는 오랫동안 인간 추론에 필수적인 도구로 여겨져 왔습니다. 대형 언어 모델(LLMs)의 돌파는 이러한 모델을 활용하여 복잡한 추론 작업에 대처하기 위한 중요한 연구 관심을 불러일으켰습니다. 연구자들은 "생각"이라는 개념을 도입함으로써 단순한 자기회귀 토큰 생성을 넘어서 추론 과정의 중간 단계를 나타내는 토큰 시퀀스를 도입했습니다. 이 혁신적인 패러다임은 LLMs가 나무 탐색과 반성적 사고와 같은 복잡한 인간 추론 과정을 모방할 수 있게 합니다. 최근에는 추론 학습에 대한 신흥 트렌드가 나타나며 강화 학습(RL)을 활용하여 LLMs를 추론 과정을 숙달시키도록 훈련시키고 있습니다. 이 접근 방식은 시행착오 검색 알고리즘을 통해 고품질 추론 경로를 자동으로 생성함으로써 LLMs의 추론 능력을 크게 확장시키고 훈련 데이터를 상당히 더 제공합니다. 더 나아가 최근 연구에서는 시험 시 추론 중 LLMs에게 더 많은 토큰을 사용하여 "생각"하도록 장려함으로써 추론 정확도를 크게 향상시킬 수 있다는 것을 입증하고 있습니다. 따라서 훈련 시간과 시험 시간의 확장이 결합되어 대규모 추론 모델로 향하는 새로운 연구 분야를 보여주고 있습니다. OpenAI의 o1 시리즈의 도입은 이 연구 방향에서 중요한 이정표를 세우고 있습니다. 본 조사에서는 LLM 추론의 최근 진전에 대한 포괄적인 검토를 제시합니다. 먼저 LLMs의 기초적 배경을 소개하고, 그 후 자동 데이터 구축, 추론 학습 기술, 시험 시간 확장을 주요 기술 구성 요소로 탐구하며 대규모 추론 모델의 발전을 주도하는 요소를 살펴봅니다. 또한 대규모 추론 모델을 구축하는 인기 있는 오픈 소스 프로젝트를 분석하고, 미래 연구 방향과 열린 도전 과제로 마무리합니다.
시각적 토큰화를 통한 자동 인코딩은 픽셀을 잠재 공간으로 압축하여 이미지 및 비디오 생성 모델의 최첨단을 강화합니다. 최근의 발전에 중추적인 역할을 한 Transformer 기반 생성기의 확장은 주로 이루어졌지만, 토크나이저 구성 요소 자체는 드물게 확장되어 왔으며, 이는 자동 인코더 설계 선택이 재구성 목표 및 하류 생성 성능에 어떻게 영향을 미치는지에 대한 의문을 남겨 두고 있습니다. 본 연구는 이 공백을 채우기 위해 자동 인코더의 확장에 대한 탐색을 목표로 합니다. 이 탐색을 용이하게 하기 위해 우리는 일반적인 합성곱 백본을 향상된 Vision Transformer 아키텍처로 대체한 Tokenization (ViTok)을 도입합니다. 우리는 ImageNet-1K를 크게 초과하는 대규모 이미지 및 비디오 데이터셋에서 ViTok을 훈련시켜, 토크나이저 확장에 대한 데이터 제약을 제거합니다. 먼저 자동 인코더 병목 현상의 확장이 재구성 및 생성에 어떻게 영향을 미치는지 연구하였고, 재구성과 매우 상관관계가 있음을 발견했으나 생성과의 관계는 더 복잡하다는 것을 알아냈습니다. 다음으로 자동 인코더의 인코더와 디코더를 별도로 확장하는 것이 재구성 및 생성 성능에 미치는 영향을 탐구하였습니다. 중요한 점은 인코더를 확장하면 재구성이나 생성 양쪽 모두에는 미미한 이득이 있지만, 디코더를 확장하면 재구성이 향상되지만 생성에 대한 이점은 혼합된 결과를 보입니다. 우리의 탐색을 기반으로, 우리는 ImageNet-1K 및 COCO 재구성 작업 (256p 및 512p)에서 최첨단 자동 인코더와 경쟁력 있는 성능을 달성하면서, UCF-101의 16프레임 128p 비디오 재구성에서 기존 자동 인코더보다 2-5배 적은 FLOPs로 뛰어난 성과를 거두는 경량 자동 인코더인 ViTok을 설계합니다. Diffusion Transformers와 통합되었을 때, ViTok은 ImageNet-1K의 이미지 생성에 대해 경쟁력 있는 성능을 보여주며, UCF-101의 클래스 조건부 비디오 생성에 대한 최첨단 벤치마크를 설정합니다.
AI 비디오 생성 기술은 현재 혁명을 겪고 있으며 품질과 현실성이 급속히 발전하고 있습니다. 이러한 발전은 열정적인 과학적 논쟁을 불러일으켰습니다. 비디오 모델이 물리 법칙을 발견하는 "세계 모델"을 학습하는지, 아니면 단순히 물리적 원리를 이해하지 않고 시각적 현실성을 달성하는 정교한 픽셀 예측기인지에 대한 문제입니다. 우리는 이 질문에 대답하기 위해 Physics-IQ를 개발했습니다. 이는 유체 역학, 광학, 고체 역학, 자기 및 열역학과 같은 다양한 물리적 원리에 대한 심층적인 이해를 획득함으로써만 해결할 수 있는 포괄적인 벤치마크 데이터셋입니다. 우리는 현재 모델들(Sora, Runway, Pika, Lumiere, Stable Video Diffusion 및 VideoPoet)의 범위에 걸쳐 물리적 이해력이 심각하게 제한되어 있으며 시각적 현실성과 관련이 없음을 발견했습니다. 동시에, 일부 테스트 케이스는 이미 성공적으로 해결될 수 있음을 보여줍니다. 이는 단순히 관찰로부터 특정 물리적 원리를 습득하는 것이 가능할 수 있지만 중요한 도전이 남아있음을 나타냅니다. 우리는 앞으로의 급속한 발전을 기대하지만, 우리의 연구는 시각적 현실성이 물리적 이해를 의미하지 않음을 보여줍니다. 우리의 프로젝트 페이지는 https://physics-iq.github.io에서 확인할 수 있으며, 코드는 https://github.com/google-deepmind/physics-IQ-benchmark에서 확인할 수 있습니다.
자가회귀 시퀀스 모델인 Transformer 기반의 시각-언어-행동 (VLA) 정책은 복잡하고 일반화된 로봇 행동을 포착하는 데 매우 효과적일 수 있습니다. 그러나 이러한 모델은 연속적인 행동 신호의 토큰화를 선택해야 합니다. 이는 모델이 예측하는 이산적인 기호가 연속적인 로봇 행동으로 어떻게 매핑되는지를 결정합니다. 우리는 현재 로봇 행동 토큰화에 대한 접근 방식이 높은 주파수의 로봇 데이터로부터 민첩한 기술을 학습할 때 일반적으로 성능이 나쁘다는 것을 발견했습니다. 이 문제를 해결하기 위해 우리는 이산 코사인 변환을 기반으로 한 새로운 압축 기반 토큰화 방식을 제안합니다. 우리의 토큰화 접근 방식인 주파수-공간 행동 시퀀스 토큰화 (FAST)는 표준 이산화 방법이 완전히 실패하는 민첩하고 고주파 작업에 대한 자가회귀 VLA를 학습할 수 있게 합니다. FAST에 기반하여, 우리는 1백만 개의 실제 로봇 행동 궤적으로 훈련된 범용 로봇 행동 토크나이저인 FAST+를 공개합니다. 다양한 행동 공간과 제어 주파수를 갖는 로봇 행동 시퀀스에 대한 블랙박스 토크나이저로 사용할 수 있습니다. 마지막으로, pi0 VLA와 결합했을 때, 우리의 방법은 1만 시간의 로봇 데이터로 훈련할 수 있으며 확산 VLA의 성능과 일치시킬 수 있으면서 최대 5배까지 훈련 시간을 줄일 수 있음을 보여줍니다.
우리는 SynthLight를 소개합니다. 이는 초상화 재조명을 위한 확산 모델입니다. 우리의 방법론은 이미지 재조명을 환경 조명 조건의 변화에 대한 응답으로 픽셀을 변환하는 문제로 정의합니다. 물리 기반 렌더링 엔진을 사용하여, 우리는 3D 헤드 자산에서 다양한 조명 하에서 이러한 조명 조건 변환을 시뮬레이션하기 위한 데이터셋을 합성합니다. 우리는 합성 및 실제 이미지 도메인 간의 간극을 좁히기 위한 두 가지 교육 및 추론 전략을 제안합니다: (1) 조명 레이블이 없는 실제 인물 초상화를 활용하는 멀티 태스크 교육; (2) 입력 초상화를 활용하여 세부 사항을 보다 잘 보존하는 분류기 없는 가이드를 기반으로 하는 추론 시간 확산 샘플링 절차. 우리의 방법은 다양한 실제 사진에 일반화되며, 주관의 정체성을 보존하면서 광택 및 음영과 같은 현실적인 조명 효과를 생성합니다. Light Stage 데이터에 대한 우리의 양적 실험은 최첨단 재조명 방법과 유사한 결과를 보여줍니다. 야외 이미지에 대한 우리의 질적 결과는 풍부하고 전례 없는 조명 효과를 보여줍니다. 프로젝트 페이지: https://vrroom.github.io/synthlight/
온라인 의료 상담(OMC)은 의사들이 환자 정보를 조사하는 데 문의를 통해서만 수집하도록 제한하여 이미 복잡한 진단의 순차적 의사 결정 과정을 더욱 어렵게 만듭니다. 최근 대형 언어 모델의 신속한 발전은 OMC를 변형시키는 중요한 잠재력을 보여주었습니다. 그러나 대부분의 연구는 비교적 충분한 정보가 있는 조건에서 진단 정확도를 향상시키는 데 주로 초점을 맞추었으며 상담 과정의 "조사" 단계에 제한적인 관심을 기울였습니다. 이러한 초점 부족으로 인해 "조사"와 "진단" 사이의 관계가 충분히 탐구되지 않은 상태입니다. 본 논문에서는 먼저 실제 의사-환자 대화에서 실제 환자 상호작용 전략을 추출하고 이러한 전략을 사용하여 현실 세계 행동을 밀접하게 모방하는 환자 시뮬레이터의 교육을 안내합니다. 의료 기록을 환자 시뮬레이터에 입력하여 환자 응답을 모방하고 "조사"와 "진단" 사이의 관계를 탐구하기 위해 광범위한 실험을 수행합니다. 실험 결과는 조사와 진단이 Liebig의 법칙을 준수함을 보여줍니다: 부족한 조사 품질은 진단의 효과를 제한하며 진단 능력과는 관계없이 그 반대도 마찬가지입니다. 또한 실험은 다양한 모델의 조사 성능에 중요한 차이가 있음을 밝혀냅니다. 이 현상을 조사하기 위해 우리는 조사 과정을 네 가지 유형으로 분류합니다: (1) 주요 불편 사항 조사; (2) 알려진 증상의 명시; (3) 동반 증상에 대한 조사; 및 (4) 가족 또는 의료 기록 수집. 다양한 모델에 대한 네 가지 유형의 조사 분포를 분석하여 그들의 중요한 성능 차이의 이유를 탐구합니다. 우리는 환자 시뮬레이터의 가중치와 관련 코드를 https://github.com/LIO-H-ZEN/PatientSimulator에서 오픈 소스로 공개할 계획입니다.
텍스트나 시각적 입력으로부터 고품질 3D 에셋을 합성하는 것은 현대 생성 모델링에서 중요한 목표가 되었습니다. 3D 생성 알고리즘은 증식되었지만, 종종 다중 뷰 불일치, 생성 시간 지연, 낮은 충실도, 표면 재구성 문제 등과 같은 어려움에 직면합니다. 일부 연구는 이러한 문제 중 일부를 다루었지만, 포괄적인 해결책은 아직 찾기 어렵습니다. 본 논문에서는 고품질 3D 에셋을 효율적으로 생성하는 캐브 앤 페인트(CaPa) 프레임워크를 소개합니다. CaPa는 기하 생성과 질감 합성을 분리하는 두 단계 프로세스를 사용합니다. 먼저, 3D 잠재 확산 모델이 다중 뷰 입력에 따라 안내되는 기하를 생성하여 다양한 관점에서의 구조적 일관성을 보장합니다. 이후, 새로운 모델에 중립적인 공간적으로 분리된 어텐션을 활용하여 프레임워크는 주어진 기하에 대해 고해상도 질감(최대 4K)을 합성합니다. 더불어, 우리는 3D 인식 가림막 인페인팅 알고리즘을 제안하여 텍스처가 없는 영역을 채워 전체 모델에 걸쳐 일관된 결과를 얻습니다. 이 파이프라인은 30초 미만의 시간 내에 고품질 3D 에셋을 생성하여 상업용 응용 프로그램에 사용할 수 있는 결과물을 제공합니다. 실험 결과는 CaPa가 질감 충실도와 기하적 안정성 모두에서 우수함을 입증하며, 실용적이고 확장 가능한 3D 에셋 생성을 위한 새로운 표준을 세우고 있음을 보여줍니다.
최근 대규모 생성 모델은 탁월한 텍스트 대 이미지 생성 능력을 보여주었습니다. 그러나 특정 주제로 고품질의 개인화된 이미지를 생성하는 것은 여전히 어려운 과제를 제기하고 있습니다, 특히 여러 주제가 포함된 경우에는 더 그렇습니다. 본 논문에서는 개인화된 주제 생성을 위한 통합 접근 방식인 AnyStory를 제안합니다. AnyStory는 단일 주제에 대한 고품질의 개인화를 달성하는 동시에 여러 주제에 대해서도 주제의 충실도를 희생하지 않고 처리합니다. 구체적으로 AnyStory는 주제 개인화 문제를 "인코딩 후 라우팅" 방식으로 모델링합니다. 인코딩 단계에서 AnyStory는 참조 네트 ReferenceNet과 CLIP 비전 인코더를 활용하여 주제 특징의 고품질 인코딩을 달성합니다. 라우팅 단계에서 AnyStory는 분리된 인스턴스 인식 주제 라우터를 활용하여 해당 주제의 잠재 공간 내 잠재적인 위치를 정확하게 인식하고 예측하며 주제 조건의 주입을 안내합니다. 자세한 실험 결과는 주제 세부 정보의 유지, 텍스트 설명과의 일치, 그리고 여러 주제에 대한 개인화에 대한 우수한 성능을 보여주고 있습니다. 프로젝트 페이지는 https://aigcdesigngroup.github.io/AnyStory/ 에서 확인하실 수 있습니다.
최근 대형 언어 모델의 인기 상승으로 인해 이를 훈련하기 위해 필요한 방대한 코드 데이터셋의 개발이 촉진되었습니다. 이는 특정 행동의 하류 조사나 데이터 오염 없이 대형 언어 모델을 평가하기 위해 수집 및 사용 가능한 코드가 제한되어 있다는 것을 의미합니다. 이 문제를 해결하기 위해 우리는 57가지 프로그래밍 언어를 다루는 대규모 다국어 데이터셋인 'The Heap'을 공개합니다. 이 데이터셋은 다른 공개 코드 데이터셋과 중복을 제거하여, 연구자들이 중요한 데이터 정리 작업 없이 대형 언어 모델을 공정하게 평가할 수 있도록 합니다.
생성적 AI 시스템인 Foundation 모델(FMs)은 인간의 가치와 잘 일치해야 하며 그들의 행동이 도움이 되고 신뢰할 수 있도록 보장해야 합니다. 인간 피드백으로부터 강화 학습(RLHF)은 모델 성능을 최적화하는 데 유용한 것으로 입증되었지만, 기존의 RLHF 파이프라인은 주로 즉각적인 피드백에 의존하며, 이는 상호 작용이 사용자의 유틸리티에 미치는 하류 영향을 정확하게 반영하지 못할 수 있습니다. 우리는 평가자의 선견적인 결과 예측에 기반한 피드백이 Goodhart의 법칙 역학을 체계적으로 유발하여 아첨과 속임수와 같은 일치하지 않은 행동을 장려하고 궁극적으로 사용자 결과를 저하시킨다는 것을 입증합니다. 이를 완화하기 위해 우리는 평가를 예측으로부터 분리함으로써 RLHF를 회고 피드백에 재집중하는 것을 제안합니다. 우리의 이론적 분석은 평가자 피드백을 하류 관측에 조건을 두면 일치하지 않음을 완화하고 기대 인간 유틸리티를 향상시킨다는 것을 밝혀냅니다. 심지어 이러한 관측이 AI 시스템 자체에 의해 시뮬레이션된 경우에도 해당됩니다. 이러한 통찰을 실용적인 정렬 알고리즘에 활용하기 위해 우리는 회고 피드백으로부터 강화 학습을 소개합니다. 먼저 가능한 결과를 시뮬레이션하고 나중에 어떤 행동이 실제로 회고에서 유익했는지를 평가하기 위해 피드백을 얻습니다. 우리는 Proximal Policy Optimization (PPO)와 Direct Preference Optimization (DPO)라는 두 가지 널리 사용되는 온라인 및 오프라인 선호도 최적화 방법에 RLHS를 적용하고, 두 방법 모두에서 일치하지 않음이 크게 감소하는 것을 실험적으로 보여줍니다. 온라인 사용자 연구를 통해 RLHS가 사용자가 목표를 달성하는 데 도움이 되고 더 높은 만족도 평가를 받는 RLHF보다 일관되게 우수함을 보여줍니다. 이러한 결과는 RLHF에서 일치하지 않음을 완화하기 위해 장기적인 결과에 집중하는 중요성을 강조합니다.