번역이 포함된 일일 선별된 AI 연구 논문
다중 에이전트 강화 학습(MARL)은 다양한 환경에서 협력적 및 경쟁적 다중 에이전트 문제를 해결하는 데 상당한 진전을 보여줍니다. MARL에서 주요한 과제 중 하나는 협력을 달성하기 위해 에이전트의 행동을 명시적으로 예측해야 한다는 점입니다. 이 문제를 해결하기 위해 우리는 Shared Recurrent Memory Transformer (SRMT)를 제안합니다. SRMT는 메모리 트랜스포머를 확장하여 개별 작업 메모리를 풀링하고 전역적으로 방송하여 에이전트가 정보를 암묵적으로 교환하고 행동을 조정할 수 있게 합니다. 우리는 SRMT를 부분 관측 다중 에이전트 경로 찾기 문제와 좁은 병목 현상을 통과해야 하는 장난감 병목 내비게이션 작업, 그리고 POGEMA 벤치마크 작업 세트에서 평가합니다. 병목 작업에서 SRMT는 일관되게 다양한 강화 학습 베이스라인을 능가하며 특히 희소 보상 하에서 효과적으로 일반화되어 훈련 중 본 적이 없는 보다 긴 복도에 대해 효과적으로 일반화됩니다. 미로, 무작위, MovingAI를 포함한 POGEMA 맵에서 SRMT는 최근 MARL, 혼합 및 계획 기반 알고리즘과 경쟁력을 갖습니다. 이러한 결과는 공유 재귀 메모리를 트랜스포머 기반 아키텍처에 통합함으로써 분산된 다중 에이전트 시스템에서 조정을 향상시킬 수 있다는 것을 시사합니다. 훈련 및 평가용 소스 코드는 GitHub에서 확인할 수 있습니다: https://github.com/Aloriosa/srmt.
비디오 생성은 수정된 플로우 기술을 통해 상당한 진전을 이루었지만, 부드럽지 않은 움직임과 비디오와 프롬프트 간의 불일치 같은 문제가 지속되고 있습니다. 본 연구에서는 이러한 문제를 완화하고 비디오 생성 모델을 개선하기 위해 인간 피드백을 활용하는 체계적인 파이프라인을 개발합니다. 구체적으로 현대 비디오 생성 모델에 초점을 맞춘 대규모 인간 선호 데이터셋을 구축하여 다차원적으로 쌍으로 된 주석을 통합합니다. 그런 다음 다차원 비디오 보상 모델 VideoReward를 소개하고 주석 및 다양한 설계 선택이 보상 효과에 미치는 영향을 조사합니다. 보상을 최대화하기 위해 KL 정규화를 사용하는 통합 강화 학습 관점에서, 확산 모델에서 확장된 흐름 기반 모델을 위해 세 가지 정렬 알고리즘을 소개합니다. 이에는 두 가지 훈련 시 전략이 포함되어 있습니다: 흐름에 대한 직접적인 선호 최적화 (Flow-DPO) 및 흐름에 대한 보상 가중 회귀 (Flow-RWR) 그리고 추론 시 기술인 Flow-NRG은 노이즈가 있는 비디오에 직접 보상 가이드를 적용합니다. 실험 결과는 VideoReward가 기존 보상 모델보다 훨씬 우수한 성능을 보여주며, Flow-DPO가 Flow-RWR 및 표준 지도 미세 조정 방법보다 우수한 성능을 나타낸다는 것을 보여줍니다. 또한, Flow-NRG는 사용자가 추론 중에 여러 목표에 사용자 정의 가중치를 할당할 수 있도록 하여 개인화된 비디오 품질 요구를 충족시킵니다. 프로젝트 페이지: https://gongyeliu.github.io/videoalign.
우리는 Sigma를 소개합니다. Sigma는 체계 도메인에 특화된 효율적인 대형 언어 모델로, 새로운 구조인 DiffQKV 어텐션을 포함하고 있으며, 저희가 세심하게 수집한 체계 도메인 데이터로 사전 훈련되었습니다. DiffQKV 어텐션은 모델 성능과 효율성 지표에 따라 Query(Q), Key(K), Value(V) 구성 요소를 차별적으로 최적화함으로써 Sigma의 추론 효율성을 크게 향상시킵니다. 구체적으로, 저희는 (1) K 및 V 구성 요소의 압축에 대한 모델의 민감도의 다양성을 보여주는 실험을 수행하여 차별적으로 압축된 KV의 개발을 이끌었으며, (2) Q 헤드 차원을 확장하는 증강된 Q를 제안하여 모델의 표현 능력을 향상시키고 추론 속도에 미미한 영향을 미칩니다. 엄격한 이론적 및 경험적 분석 결과, DiffQKV 어텐션은 효율성을 크게 향상시켜, 장문 맥락 시나리오에서 기존의 그룹화된 쿼리 어텐션(GQA)에 비해 추론 속도에서 최대 33.36%의 개선을 달성합니다. 우리는 다양한 소스로부터 6조 토큰을 Sigma에 사전 훈련시켰는데, 이는 저희가 주의 깊게 수집한 195억 개의 체계 도메인 데이터와 합성 및 재작성된 1조 토큰을 포함합니다. 일반 도메인에서 Sigma는 다른 최신 모델과 비교 가능한 성능을 달성합니다. 체계 도메인에서는 Sigma가 모든 작업에서 높은 성능을 보이는 첫 번째 포괄적인 벤치마크 AIMicius를 소개했는데, 이때 Sigma는 GPT-4를 큰 폭으로 앞선 52.5%의 절대적인 개선을 보여줍니다.
Chain-of-Thought (CoT) 추론은 복잡한 이해 작업에 대처하기 위해 대규모 모델에서 철저히 탐구되어 왔습니다. 그러나 이미지 생성 시나리오를 검증하고 강화하는 데 이러한 전략이 적용될 수 있는지는 여전히 미해결된 문제입니다. 본 논문에서는 CoT 추론의 잠재력을 자동 회귀 이미지 생성을 향상시키기 위해 첫 번째로 철저히 조사합니다. 우리는 세 가지 기술에 초점을 맞춥니다: 검증을 위한 시험 시간 계산 확장, 모델 선호도를 직접 선호도 최적화(DPO)로 조정, 그리고 이러한 기술을 보완적 효과를 위해 통합하는 것입니다. 우리의 결과는 이러한 접근 방식이 효과적으로 적응되고 결합되어 이미지 생성 성능을 크게 향상시킬 수 있음을 보여줍니다. 더욱이, 우리의 결과에서 보상 모델의 중요한 역할을 고려하여, 우리는 자동 회귀 이미지 생성을 위해 특화된 잠재력 평가 보상 모델(PARM)과 PARM++을 제안합니다. PARM은 잠재력 평가 접근 방식을 통해 각 생성 단계를 적응적으로 평가하며, 기존 보상 모델의 장점을 통합하고, PARM++은 생성된 불만족스러운 이미지를 자가 수정하기 위한 반사 메커니즘을 도입합니다. 우리가 조사한 추론 전략을 사용하여 우리는 기준 모델인 Show-o를 향상시켜 우수한 결과를 달성하였으며, GenEval 벤치마크에서 +24%의 큰 개선을 이루어내어 Stable Diffusion 3를 +15% 초과하여 능가합니다. 우리의 연구가 독특한 통찰력을 제공하고 CoT 추론을 자동 회귀 이미지 생성과 통합하는 새로운 길을 열어줄 것으로 기대합니다. 코드와 모델은 https://github.com/ZiyuGuo99/Image-Generation-CoT에서 공개되어 있습니다.
인간은 세 가지 인지 단계를 통해 지식을 습득합니다: 정보를 인지하는 단계, 지식을 이해하는 단계, 그리고 새로운 문제를 해결하기 위해 지식을 적응하는 단계입니다. 비디오는 이러한 학습 과정에서 효과적인 매체로 작용하여 이러한 인지 단계를 거치는 것을 용이하게 합니다. 그러나 기존의 비디오 벤치마크는 대규모 다중모달 모델(LMMs)의 지식 습득 능력을 체계적으로 평가하지 못합니다. 이러한 공백을 해결하기 위해 우리는 비디오-MMMU를 소개합니다. 이는 비디오에서 지식을 습득하고 활용하는 LMMs의 능력을 평가하기 위해 설계된 다중모달, 다학제 벤치마크입니다. 비디오-MMMU는 여섯 학문 분야를 대상으로 300개의 전문 수준 비디오와 900개의 인간 주석이 달린 질문으로 구성된 선별된 컬렉션을 특징으로 하며, 지식 습득을 인지, 이해 및 적응 단계에 따른 질문-답변 쌍을 통해 평가합니다. 제안된 지식 획득 메트릭인 Δ지식은 비디오 시청 후 성능 향상을 양적으로 측정합니다. LMMs의 평가 결과는 인지적 요구가 증가함에 따라 성능이 급격히 저하되고, 인간과 모델 간 지식 습득 간의 상당한 격차를 강조하여 비디오로부터 학습하고 적응하는 LMMs의 능력을 향상시키는 방법이 필요함을 강조합니다.
비디오 대규모 다중 모달 모델(video-LMMs)의 중요한 발전에도 불구하고, 장편 비디오에서 효과적인 시간적 그라운딩을 달성하는 것은 기존 모델에 대한 도전 과제입니다. 이 한계를 해결하기 위해 우리는 Temporal Preference Optimization (TPO)이라는 새로운 사후 훈련 프레임워크를 제안합니다. 이 프레임워크는 선호 학습을 통해 비디오-LMMs의 시간적 그라운딩 능력을 향상시키기 위해 설계되었습니다. TPO는 모델이 정제된 선호 데이터셋을 활용하여 잘 그라운딩된 시간적 응답과 덜 정확한 시간적 응답을 구별할 수 있도록 하는 자가 훈련 접근 방식을 채택합니다. 이는 특정 비디오 세그먼트에 초점을 맞춘 지역화된 시간적 그라운딩과 전체 비디오 시퀀스에 걸친 확장된 시간적 종속성을 포착하는 포괄적인 시간적 그라운딩 두 가지 세분화 수준에서 이루어집니다. 이러한 선호 데이터셋에 대해 최적화함으로써 TPO는 수동으로 주석 달린 데이터에 대한 의존성을 줄이면서 시간적 이해를 크게 향상시킵니다. LongVideoBench, MLVU 및 Video-MME 세 가지 장편 비디오 이해 벤치마크에서 수행된 포괄적인 실험은 TPO의 효과를 입증하며, 최신 비디오-LMMs 두 가지에서 TPO의 효과를 입증합니다. 특히, LLaVA-Video-TPO는 Video-MME 벤치마크에서 선도적인 7B 모델로 자리 잡아, TPO가 장편 비디오 이해에서 시간적 추론을 발전시키는 확장 가능하고 효율적인 솔루션으로서의 잠재력을 강조합니다. 프로젝트 페이지: https://ruili33.github.io/tpo_website.
확산 모델의 급속한 발전으로 텍스트-이미지(T2I) 모델은 상당한 진전을 이루어 빠른 추종과 이미지 생성에서 놀라운 능력을 보여주고 있다. 최근 출시된 FLUX.1 및 Ideogram2.0과 Dall-E3, Stable Diffusion 3과 같은 다른 모델들은 다양한 복잡한 작업에서 우수한 성능을 나타내며, T2I 모델이 일반용도 적용으로 나아가고 있는지에 대한 의문을 던지고 있다. 전통적인 이미지 생성을 넘어, 이러한 모델들은 조절 가능한 생성, 이미지 편집, 비디오, 오디오, 3D 및 동작 생성, 그리고 시맨틱 분할 및 깊이 추정과 같은 컴퓨터 비전 작업에서 능력을 나타내고 있다. 그러나 현재의 평가 프레임워크는 이러한 모델들의 성능을 철저히 평가하기에는 부족하다. 이러한 모델들을 철저히 평가하기 위해, 우리는 IMAGINE-E를 개발하고 FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3, 그리고 Jimeng 등 6가지 주요 모델을 테스트했다. 우리의 평가는 구조화된 출력 생성, 현실성 및 물리적 일관성, 특정 도메인 생성, 도전적인 시나리오 생성, 그리고 다양한 스타일 생성 작업으로 나뉘었다. 이 포괄적인 평가는 각 모델의 장단점을 강조하며, 특히 FLUX.1과 Ideogram2.0의 구조화된 및 특정 도메인 작업에서의 우수한 성능을 강조하여 T2I 모델의 확장되는 응용 및 잠재력을 강조하고 있다. 본 연구는 T2I 모델이 일반용도 사용성으로 발전함에 따른 현재 상태와 미래 궤적에 대한 소중한 통찰력을 제공한다. 평가 스크립트는 https://github.com/jylei16/Imagine-e에서 공개될 예정이다.
최근 대형 언어 모델(Large language models, LLMs)은 수학적 추론에서 놀라운 성과를 보여주고 있습니다. 연상사고 체인(chain-of-thought prompting) 및 자일 일관성 샘플링(self-consistency sampling)과 같은 방법들의 발전에도 불구하고, 이러한 발전은 종종 최종 정확성에 초점을 맞추지만 기저 추론 과정이 일관되고 신뢰할 수 있는지를 보장하지는 않습니다. 본 논문에서는 Step-KTO를 소개하는데, 이는 LLMs를 더 신뢰할 수 있는 추론 경로로 이끄는 과정 수준과 결과 수준의 이진 피드백을 결합한 교육 프레임워크입니다. 중간 추론 단계와 최종 답변 양쪽에 대한 이진 평가를 제공함으로써, Step-KTO는 모델이 논리적 진행을 따르도록 유도하고 피상적인 단축키에 의존하지 않도록 합니다. 우리의 실험 결과는 어려운 수학적 벤치마크에서 Step-KTO가 최종 답변 정확도와 중간 추론 단계의 품질을 크게 향상시킨다는 것을 보여줍니다. 예를 들어, MATH-500 데이터셋에서, Step-KTO는 강력한 기준선에 비해 Pass@1 정확도에서 주목할만한 개선을 달성합니다. 이러한 결과는 단계별 과정 피드백을 LLM 교육에 통합함으로써 해석 가능하고 신뢰할 수 있는 추론 능력으로 나아가는 가능성을 강조합니다.
최근의 비디오 인페인팅 알고리즘은 근접 프레임으로부터의 정보를 활용하여 광학 흐름을 이용하여 텍스처와 객체를 복원하기 위해 픽셀 전파 기반 흐름과 트랜스포머 기반 생성을 통합합니다. 이러한 접근 방식은 주로 시각적 트랜스포머를 통해 마스크된 영역을 완성하는 동안 큰 마스크를 처리할 때 흐림과 시간적 불일치를 겪는데, 이는 향상된 생성 능력을 갖춘 모델이 필요함을 강조합니다. 최근에는 이미지 및 비디오 생성에서 높은 성능으로 인해 확산 모델이 주목받고 있습니다. 본 논문에서는 안정적인 확산을 기반으로 한 비디오 인페인팅 모델인 DiffuEraser를 소개합니다. 이 모델은 더 많은 세부 정보와 더 일관된 구조로 마스크된 영역을 채우도록 설계되었습니다. 우리는 초기화와 약한 조건부 제공을 위해 사전 정보를 통합하여 잡음 아티팩트를 완화하고 환각을 억제하는 데 도움을 줍니다. 또한, 장기 시퀀스 추론 중 시간적 일관성을 향상시키기 위해 사전 모델과 DiffuEraser의 시간적 수용 영역을 확장하고 비디오 확산 모델의 시간적 평활 특성을 활용하여 일관성을 더욱 향상시킵니다. 실험 결과는 우리의 제안된 방법이 내용 완전성과 시간적 일관성 측면에서 최첨단 기술을 능가하면서 합리적인 효율성을 유지함을 보여줍니다.
연구자들은 대형 언어 모델 (LLMs)에서 환각에 대한 우려를 제기했지만, 창의성이 중요한 약물 발견과 같은 분야에서의 잠재력은 탐구할 가치가 있다. 본 논문에서는 환각이 LLMs의 약물 발견에서 성능을 향상시킬 수 있다는 가설을 제시한다. 이 가설을 확인하기 위해, 우리는 LLMs를 사용하여 분자의 SMILES 문자열을 자연어로 설명하고 이러한 설명을 프롬프트의 일부로 통합하여 약물 발견의 특정 작업을 수행한다. 일곱 개의 LLMs와 다섯 개의 분류 작업에서 평가한 결과, 우리의 연구 결과는 이 가설을 확인한다: 환각을 포함한 텍스트로 LLMs는 더 나은 성능을 달성할 수 있다. 특히, Llama-3.1-8B는 환각이 없는 기준선과 비교하여 ROC-AUC에서 18.35%의 향상을 달성한다. 또한, GPT-4o에 의해 생성된 환각은 모델 전반에서 가장 일관된 향상을 제공한다. 추가로, 성능에 영향을 미치는 주요 요소와 근본적인 이유를 조사하기 위해 경험적 분석과 사례 연구를 실시한다. 우리의 연구는 LLMs에 대한 환각의 잠재적 활용가능성을 밝히고, 약물 발견에서 LLMs를 활용한 미래 연구에 대한 새로운 시각을 제시한다.
텍스트 대 이미지 생성 모델은 입력 프롬프트로부터 고품질 이미지를 생성할 수 있습니다. 그러나, 이러한 모델은 이야기를 위한 동일성 보존 요구사항을 일관되게 지원하는 데 어려움을 겪습니다. 이 문제에 대한 기존 접근 방식은 일반적으로 대규모 데이터셋에서의 광범위한 훈련이나 원본 모델 아키텍처에 대한 추가 수정을 필요로 합니다. 이는 다양한 도메인 및 다양한 확산 모델 구성에서의 적용 가능성을 제한합니다. 본 논문에서는 우선 언어 모델의 본질적 능력, 즉 맥락 일관성이라는 용어로 정의되는 것을 관찰하여 단일 프롬프트를 통해 맥락을 통해 동일성을 이해하는 능력을 제안합니다. 본 연구는 이러한 본질적 맥락 일관성에서 영감을 받아 일관된 텍스트 대 이미지 (T2I) 생성을 위한 훈련 없는 새로운 방법을 제안합니다. 이를 "한 프롬프트 한 이야기" (1Prompt1Story)라고 합니다. 접근 방식 1Prompt1Story는 모든 프롬프트를 T2I 확산 모델을 위한 단일 입력으로 연결하여 초기에 캐릭터 신원을 보존합니다. 그런 다음, 우리는 두 가지 새로운 기술, 특이값 재가중 및 신원 보존 교차 어텐션을 사용하여 생성 프로세스를 개선하여 각 프레임에 대한 입력 설명과의 더 나은 정렬을 보장합니다. 실험에서 우리는 우리의 방법을 다양한 기존 일관된 T2I 생성 접근 방식과 비교하여 그 효과를 양적 측정 및 질적 평가를 통해 보여줍니다. 코드는 https://github.com/byliutao/1Prompt1Story에서 사용할 수 있습니다.
최근 비디오 생성 기술의 발전은 다양한 하위 응용 프로그램에 중대한 영향을 미쳤으며 특히 신원 보존 비디오 생성(IPT2V) 분야에 큰 영향을 미쳤다. 그러나 기존 방법은 "복사-붙여넣기" 아티팩트와 낮은 유사성 문제로 고전했는데, 이는 주로 저수준 얼굴 이미지 정보에 의존하기 때문이다. 이 종속성은 단단한 얼굴 외관과 관련 없는 세부 사항을 반영하는 아티팩트로 이어질 수 있다. 이러한 도전에 대처하기 위해 우리는 EchoVideo를 제안한다. 이는 두 가지 주요 전략을 사용한다: (1) 텍스트로부터 고수준 의미적 특징을 통합하는 Identity Image-Text Fusion Module (IITF)을 사용하여 깨끗한 얼굴 신원 표현을 캡처하고 아티팩트 도입을 피하기 위해 가려지고 자세 및 조명 변화를 버린다; (2) 두 단계 교육 전략을 채택하여 두 번째 단계에서 확률적 방법을 통합하여 얕은 얼굴 정보를 무작위로 활용한다. 이 목표는 얕은 특징이 제공하는 충실성 향상을 균형 있게 유지하면서 그들에 대한 과도한 의존을 완화하는 것이다. 이 전략은 모델이 교육 중에 고수준 특징을 활용하도록 유도하여 궁극적으로 더 견고한 얼굴 신원 표현을 육성한다. EchoVideo는 효과적으로 얼굴 신원을 보존하고 전신의 무결성을 유지한다. 광범위한 실험 결과는 높은 품질, 조절 가능성 및 충실도를 갖는 비디오 생성에서 우수한 결과를 달성한다.
이미 능숙한 모델을 원하는 동작과 일치시키는 일반적인 방법은 인간이 감독을 제공할 수 있는 능력에 의존합니다. 그러나 미래의 초인공지능 모델은 인간의 능력을 능가할 것입니다. 따라서 인간은 초인공지능 모델을 약하게만 감독할 수 있을 것입니다. 이러한 예상된 인간 평가의 결핍은 미래 AI 시스템의 안전성을 약화시킬 것으로 예상됩니다. 확장 가능한 감독 및 약한-강한 일반화는 이 문제에 대처하기 위한 두 가지 보완적인 접근 방식입니다. 본 논문에서는 이 두 접근 방식의 강점을 결합하여 일치를 더욱 개선하려고 시도합니다. 구체적으로, 강력한 사전 학습 모델을 사용하여 인간 감독을 개선하는 방법과 그런 강력한 모델을 향상된 약한 인간 감독으로 감독하는 방법을 조사합니다. 반복적인 경험적 진전을 이루기 위해 다음과 같은 유추를 고려합니다: 강력한 모델을 사용하여 약한 모델 감독을 개선하고 그것을 사용하여 강력한 모델을 감독할 수 있을까? 우리는 작은 약한 모델을 참가자가 생성한 라벨과 함께 추가적인 큰 강력한 모델의 도움으로 세밀하게 조정하고, 그런 다음 강력한 모델을 약한 모델이 생성한 라벨로 세밀하게 조정함으로써 이를 경험적으로 테스트합니다. 우리는 논쟁이 약한 모델이 신뢰할 수 있는 정보를 신뢰할 수 없는 강력한 모델로부터 추출하는 데 도움이 되어, 약한 모델을 훈련할 때 샘플에 대한 맥락으로서 지레를 제공한다는 것을 발견했습니다. 또한 약한 모델의 앙상블이 강력한 모델 참가자가 생성한 긴 논쟁을 활용하고 더 견고한 감독 추정치를 얻는 데 도움이 된다는 것을 보여줍니다. OpenAI의 약한-강한 NLP 벤치마크에서의 광범위한 실험 결과는 이러한 결합 접근 방식이 더 나은 일치로 이어진다는 것을 보여주며, 논쟁이 약한-강한 일반화에 도움이 될 수 있는 잠재력을 시사합니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 상당한 발전을 보여주며, 구현된 에이전트들에게 융합된 미래를 제공한다. MLLMs을 평가하기 위한 기존 벤치마크는 주로 정적 이미지나 비디오를 활용하여, 상호작용이 없는 시나리오에 대한 평가로 제한되어 있다. 한편, 기존의 융합된 AI 벤치마크는 과제별이며 다양성이 충분하지 않아 MLLMs의 융합된 능력을 충분히 평가하지 못한다. 이에 우리는 MLLMs을 위한 포괄적이고 상호작용적인 평가 벤치마크인 EmbodiedEval을 제안한다. EmbodiedEval은 125가지 다양한 3D 장면 내 328가지 독특한 과제를 특히 엄선되고 주석이 달려있는 형태로 제공한다. 이는 기존의 융합된 AI 과제의 넓은 스펙트럼을 다양하게 다루며, MLLMs에 특화된 통합된 시뮬레이션 및 평가 프레임워크 내에서 이루어진다. 이러한 과제는 다섯 가지 범주로 구성되어 있으며, 즉 탐색, 물체 상호작용, 사회적 상호작용, 특성 질문 응답, 그리고 공간 질문 응답으로 에이전트의 다양한 능력을 평가한다. 우리는 최첨단 MLLMs을 EmbodiedEval에서 평가한 결과, 그들이 융합된 과제에서 인간 수준과 비교하여 상당한 결핍이 있음을 발견했다. 우리의 분석은 기존 MLLMs의 융합된 능력의 한계를 보여주며, 그들의 미래 발전에 대한 통찰을 제공한다. 우리는 모든 평가 데이터와 시뮬레이션 프레임워크를 https://github.com/thunlp/EmbodiedEval에서 오픈 소스로 제공한다.
본 논문은 기계 학습(ML)이 일반적 지능의 중요한 측면인 미래의 질적으로 알려지지 않은 상황에 대한 견고성을 크게 간과한다고 주장합니다. 이러한 견고성은 경제학에서의 Knightian 불확실성(KU)과 관련이 있으며, 측정할 수 없는 불확실성을 의미하며, 이는 ML의 주요 형식론에서 배제됩니다. 본 논문은 이러한 미지점을 식별하고, 그 중요성을 주장하며, 이에 대한 연구를 촉진함으로써 실제로 견고한 개방형 AI를 창조하는 데 필요하다고 믿습니다. 이 미지점을 명확히 하기 위해 ML의 한 영역인 강화 학습(RL)을 생물 진화 과정과 대조합니다. 현저한 진전이 있음에도 불구하고, RL은 여전히 개방형 상황에서 고전하며, 종종 예기치 못한 상황에서 실패합니다. 예를 들어, 미국에서만 훈련된 자율 주행 자동차 정책을 영국으로 제로샷 전이하는 아이디어는 현재 매우 야심찹니다. 생물 진화는 대조적으로 개방형 세계에서 번성하는 에이전트를 규칙적으로 생산하는데, 때로는 분포 외의 상황(예: 침입종 또는 제로샷 국제 운전을 하는 사람들)에까지 이르는 상황에서도 번성합니다. 흥미롭게도 진화는 명시적 이론, 형식론 또는 수학적 그래디언트 없이 이러한 견고성을 달성합니다. 우리는 RL의 전형적인 형식론을 뒷받침하는 가정을 탐구하며, 이러한 가정이 계속해서 변화하는 복잡한 세계의 특징인 알려지지 않은 미지점과의 관련성을 제한하는 방식을 보여줍니다. 더 나아가, 진화 과정이 신규하고 예측할 수 없는 도전에 대한 견고성을 유도하는 메커니즘을 식별하고, 이를 알고리즘적으로 구현하는 잠재적인 방법을 논의합니다. 결론은 ML의 흥미로운 취약성이 그 형식론의 미지점에서 비롯될 수 있으며, KU의 도전과 직접적인 대립으로 상당한 이득을 얻을 수 있다는 것입니다.
대규모 언어 모델(LLM)은 상당한 컴퓨팅 자원을 요구하여, 처음부터 재훈련 없이 그들의 능력을 향상시키는 것이 중요합니다. 이 도메인에서의 주요 과제 중 하나는 연속 사전 훈련(CPT) 및 연속 지도 미세 조정(CSFT) 중 성능을 저해하는 재앙적인 잊기(CF)입니다. 우리는 제어 LLM(Control LLM)이라는 혁신적인 접근 방식을 제안합니다. 이 방법은 병렬 사전 훈련 및 확장된 트랜스포머 블록을 활용하여 그들의 숨겨진 상태를 보간 전략을 통해 정렬합니다. 이 방법은 기존 작업의 성능을 효과적으로 보존하면서 새로운 지식을 매끄럽게 통합합니다. 광범위한 실험은 제어 LLM의 CPT 및 CSFT에서의 효과를 입증합니다. Llama3.1-8B-Instruct에서는 수학적 추론(+14.4%의 Math-Hard) 및 코딩 성능(+10%의 MBPP-PLUS)에서 상당한 향상을 달성합니다. Llama3.1-8B에서는 다국어 능력(+10.6%의 C-Eval, +6.8%의 CMMLU, 그리고 +30.2%의 CMMLU-0shot-CoT)을 향상시킵니다. 이는 동일한 기본 모델에서 튜닝된 오픈 소스 모델 중 최고 성능을 달성하며, 훨씬 적은 데이터와 컴퓨팅을 사용합니다. 중요한 점은 이러한 이득이 강력한 원래 능력을 보존하면서 실현되었으며, 오픈 소스 수학 및 코딩 모델에서의 >35%에 비해 최소한의 저하(<4.3%의 MMLU)가 있습니다. 이 방법은 LinkedIn의 GenAI 기반 구직자 및 광고 제품에 성공적으로 적용되었습니다. 더 나아가는 연구를 지원하기 위해 우리는 훈련 및 평가 코드(https://github.com/linkedin/ControlLLM)와 공개 데이터셋에서 훈련된 모델(https://huggingface.co/ControlLLM)을 커뮤니티에 공개합니다.
3D 가우시안 스플래팅 기술은 정적 장면의 효율적인 사실적 렌더링을 가능하게 했습니다. 최근 연구들은 이러한 방법을 확장하여 표면 재구성과 추적을 지원하였습니다. 그러나 3D 가우시안을 사용하여 동적 표면을 추적하는 것은 표면이 나타나거나 사라지거나 분할되는 복잡한 위상 변화로 인해 여전히 어려움이 남아 있습니다. 이러한 도전에 대처하기 위해 우리는 일반적인 동적 장면에 대해 사실적 렌더링, 정확한 표면 재구성 및 신뢰할 수 있는 3D 추적을 달성하는 새로운 방법인 GSTAR을 제안합니다. 입력으로 다중 뷰 캡처를 제공받으면, GSTAR은 동적 객체를 나타내기 위해 가우시안을 메쉬 면에 바인딩합니다. 일관된 위상을 가진 표면의 경우, GSTAR은 메쉬 위상을 유지하고 가우시안을 사용하여 메쉬를 추적합니다. 위상이 변경되는 지역에서는, GSTAR은 메쉬에서 가우시안을 적응적으로 바인딩 해제하여 정확한 등록을 가능하게 하고 이러한 최적화된 가우시안을 기반으로 새로운 표면을 생성합니다. 게다가, 우리는 프레임 간 추적을 위한 견고한 초기화를 제공하는 표면 기반의 장면 흐름 방법을 소개합니다. 실험 결과는 우리의 방법이 효과적으로 동적 표면을 추적하고 재구성하여 다양한 응용 프로그램을 가능하게 한다는 것을 보여줍니다. 코드 릴리스가 포함된 프로젝트 페이지는 https://eth-ait.github.io/GSTAR/에서 확인할 수 있습니다.