번역이 포함된 일일 선별된 AI 연구 논문
확장 가능 벡터 그래픽스(SVG)는 해상도 독립성과 편집 가능성으로 인해 그래픽 디자인 분야에서 널리 채택된 중요한 이미지 형식입니다. 고품질 SVG 생성에 대한 연구는 AIGC 커뮤니티의 디자이너와 연구자들로부터 지속적으로 관심을 받아 왔습니다. 그러나 기존 방법들은 과도한 계산 비용이 드는 비구조적 출력을 생성하거나 지나치게 단순화된 구조의 단색 아이콘 생성에만 국한되는 한계가 있었습니다. 고품질의 복잡한 SVG를 생성하기 위해, 우리는 사전 학습된 시각-언어 모델(VLMs)을 활용한 종단간 다중모달 SVG 생성 프레임워크인 OmniSVG를 제안합니다. OmniSVG는 SVG 명령어와 좌표를 이산 토큰으로 매개변수화함으로써 복잡한 SVG 구조의 표현력을 유지하면서도 구조적 논리를 저수준 기하학적 요소로부터 분리하여 효율적인 학습을 가능하게 합니다. 또한 SVG 합성 기술의 발전을 촉진하기 위해, 200만 개의 풍부한 주석이 달린 SVG 자산을 포함한 다중모달 데이터셋 MMSVG-2M과 조건부 SVG 생성 작업을 위한 표준화된 평가 프로토콜을 소개합니다. 광범위한 실험을 통해 OmniSVG가 기존 방법들을 능가하며 전문 SVG 디자인 워크플로우에 통합될 잠재력을 보여줍니다.
대형 언어 모델(LLMs)은 고급 추론, 장문 콘텐츠 생성, 도구 사용 등을 통해 점점 더 복잡한 작업을 해결할 수 있는 능력을 입증했습니다. 이러한 작업을 해결하는 데는 종종 긴 추론 시간이 소요됩니다. 인간의 문제 해결 과정에서 작업을 가속화하기 위한 일반적인 전략은 협업입니다: 문제를 하위 작업으로 나누거나, 다양한 전략을 동시에 탐색하는 등의 방법이 있습니다. 최근 연구에 따르면, LLMs도 투표 메커니즘 또는 병렬로 실행할 수 있는 독립적인 하위 작업을 명시적으로 생성하는 등의 명시적 협업 프레임워크를 통해 병렬로 작동할 수 있습니다. 그러나 이러한 프레임워크는 모든 유형의 작업에 적합하지 않을 수 있어 적용 가능성이 제한될 수 있습니다. 본 연구에서는 다른 설계 접근 방식을 제안합니다: LLM "워커"를 병렬로 실행하여 동시에 업데이트되는 어텐션 캐시를 통해 동기화하고, 이러한 워커들이 최적의 협업 방식을 결정하도록 유도합니다. 우리의 접근 방식은 인스턴스들이 문제에 대한 자체적인 협업 전략을 마련할 수 있도록 하며, 동시에 동시 캐시에서 서로의 부분적인 진행 상황을 "보게" 합니다. 우리는 이 접근 방식을 Hogwild! 추론을 통해 구현합니다: Hogwild! 추론은 동일한 어텐션 캐시를 공유하며 동시에 실행되는 동일한 LLM의 여러 인스턴스로 구성된 병렬 LLM 추론 엔진으로, 서로가 생성한 토큰에 "즉시" 접근할 수 있습니다. Hogwild! 추론은 Rotary Position Embeddings(RoPE)를 활용하여 재계산을 피하면서 병렬 하드웨어 활용도를 향상시킵니다. 우리는 현대의 추론 능력을 갖춘 LLMs가 추가적인 미세 조정 없이도 공유 Key-Value 캐시를 사용하여 추론을 수행할 수 있음을 발견했습니다.
우리는 R1 시리즈 대규모 언어 모델(LLM)을 시각적 모달리티로 확장한 다중모달 추론 모델인 Skywork R1V를 소개합니다. 경량화된 시각 프로젝터를 활용하여 Skywork R1V는 기반 언어 모델이나 시각 인코더의 재학습 없이도 원활한 다중모달 적응을 가능하게 합니다. 시각-텍스트 정렬을 강화하기 위해, 우리는 반복적 지도 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO)를 결합한 하이브리드 최적화 전략을 제안하며, 이를 통해 교차모달 통합 효율을 크게 향상시켰습니다. 또한, 추론 데이터 생성을 위해 적응형 길이의 사고 연쇄(Chain-of-Thought) 증류 방식을 도입했습니다. 이 방식은 추론 체인의 길이를 동적으로 최적화하여 추론 효율을 높이고 과도한 사고 과부하를 방지합니다. 실험적 평가 결과, Skywork R1V는 단 380억 개의 파라미터로도 경쟁력 있는 성능을 보이며, MMMU 벤치마크에서 69.0점, MathVista에서 67.5점을 달성했습니다. 동시에, AIME에서 72.0점, MATH500에서 94.0점이라는 인상적인 점수로 견고한 텍스트 추론 성능을 유지했습니다. Skywork R1V 모델 가중치는 개방성과 재현성을 촉진하기 위해 공개되었습니다.
이미지 생성 분야는 초기 GAN 기반 접근법에서 확산 모델로, 그리고 최근에는 이해와 생성 작업을 통합하려는 통합 생성 아키텍처로 빠르게 진화해 왔습니다. 특히 GPT-4o와 같은 최근의 발전은 고품질 다중모달 생성의 가능성을 입증했지만, 그 아키텍처 설계는 여전히 미스터리로 남아 있고 공개되지 않았습니다. 이는 이미지와 텍스트 생성이 이미 이러한 방법들을 위한 통합 프레임워크로 성공적으로 통합되었는지에 대한 질문을 제기합니다. 본 연구에서는 GPT-4o의 이미지 생성 능력을 실증적으로 연구하고, 이를 선도적인 오픈소스 및 상용 모델들과 비교 평가합니다. 우리의 평가는 텍스트-이미지, 이미지-이미지, 이미지-3D, 그리고 이미지-X 생성 등 4가지 주요 범주와 20개 이상의 작업을 포함합니다. 분석을 통해 다양한 설정에서 GPT-4o의 강점과 한계를 밝히고, 이를 생성 모델링의 더 넓은 진화 과정 속에 위치시킵니다. 이 연구를 통해 우리는 아키텍처 설계와 데이터 스케일링의 역할을 강조하며, 미래의 통합 생성 모델을 위한 유망한 방향성을 제시합니다.
대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 작업은 놀라운 성과를 거두었습니다. 그러나 기존의 중국어 선호도 데이터셋은 규모가 작고, 도메인 범위가 좁으며, 엄격한 데이터 검증이 부족한 한계를 가지고 있습니다. 또한, 지침과 응답 라벨링을 위해 인간 주석자에 의존하는 방식은 인간 선호도 데이터셋의 확장성을 크게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 인간 개입 없이 LLM 기반의 중국어 선호도 데이터셋 주석 파이프라인을 설계했습니다. 구체적으로, 우리는 92,000개의 고품질 중국어 질의를 크롤링하고 신중하게 필터링한 후, 15개의 주류 LLM을 사용하여 선택-거부 응답 쌍을 생성하고 점수를 매겼습니다. 이를 바탕으로, 우리는 COIG-P(Chinese Open Instruction Generalist - Preference)라는 고품질의 대규모 중국어 선호도 데이터셋을 소개합니다. 이 데이터셋은 채팅, 코드, 수학, 논리, 소설, 역할 등 6가지 다양한 도메인에 걸쳐 1,009,000개의 중국어 선호도 쌍으로 구성되어 있습니다. COIG-P를 기반으로, LLM을 사용한 점수 매기기의 오버헤드를 줄이기 위해, 우리는 8B 크기의 중국어 보상 모델(CRM)을 학습시키고 중국어 보상 벤치마크(CRBench)를 세심하게 구축했습니다. AlignBench(liu2024alignbenchbenchmarkingchinesealignment)를 기반으로 한 평가 결과, COIG-P는 다른 중국어 선호도 데이터셋을 크게 능가하며, Qwen2/2.5 및 Infinity-Instruct-3M-0625 모델 시리즈에서 각각 2%에서 12%에 이르는 성능 향상을 가져왔습니다. CRBench의 결과는 우리의 CRM이 강력하고 견고한 점수 매기기 능력을 가지고 있음을 보여줍니다. 우리는 이를 COIG-P의 테스트 분할에서 선택-거부 응답 쌍을 필터링하는 데 적용했으며, 실험 결과 GPT-4o와 비교하여 저품질 샘플을 식별하는 데 있어 효율성과 비용 효율성을 유지하면서도 비슷한 성능을 보였습니다. 우리의 코드와 데이터는 https://github.com/multimodal-art-projection/COIG-P에서 공개되었습니다.
광범위한 응용 분야로 인해 이미지 생성 분야에서 주체 기반 생성이 광범위하게 탐구되었음에도 불구하고, 데이터 확장성과 주체 확장성 측면에서 여전히 과제가 남아 있습니다. 첫 번째 과제로, 단일 주체 데이터셋에서 다중 주체 데이터셋으로 전환하고 이를 확장하는 것은 특히 어려운 작업입니다. 두 번째 과제로, 최근의 대부분의 방법들은 단일 주체 생성에 초점을 맞추고 있어 다중 주체 시나리오를 다룰 때 적용하기 어렵습니다. 본 연구에서는 이러한 과제를 해결하기 위해 높은 일관성을 가진 데이터 합성 파이프라인을 제안합니다. 이 파이프라인은 디퓨전 트랜스포머의 내재적인 문맥 내 생성 능력을 활용하여 높은 일관성을 가진 다중 주체 쌍 데이터를 생성합니다. 또한, 점진적인 교차 모달 정렬과 범용 회전 위치 임베딩으로 구성된 UNO를 소개합니다. UNO는 텍스트-이미지 모델에서 반복적으로 훈련된 다중 이미지 조건 기반 주체-이미지 모델입니다. 광범위한 실험을 통해 우리의 방법이 단일 주체 및 다중 주체 기반 생성 모두에서 높은 일관성을 유지하면서도 제어 가능성을 보장할 수 있음을 입증했습니다.
전문가 혼합(Mixture of Experts, MoE) 아키텍처는 계산량의 비례적 증가 없이 모델 용량을 증가시킬 수 있어 상당한 이점을 입증했습니다. 그러나 대규모 MoE 모델의 크기는 여전히 상당한 메모리 요구를 유발하며, 이는 일반적으로 자원이 제한된 플랫폼에서 전문가 오프로딩을 필요로 하고 상당한 오버헤드를 초래합니다. CPU-GPU 하이브리드 추론은 CPU 연산을 활용하여 전문가 로딩 오버헤드를 줄이기 위해 제안되었지만 주요 문제에 직면해 있습니다: 한편으로 MoE 모델의 전문가 활성화 패턴은 매우 불안정하여 기존 연구의 고정 매핑 전략을 비효율적으로 만들고, 다른 한편으로 MoE를 위한 하이브리드 CPU-GPU 스케줄링은 다양한 전문가 크기, 구조, 불균일한 작업 분배 등으로 인해 본질적으로 복잡합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 새로운 CPU-GPU 스케줄링 및 캐시 관리 시스템을 통해 자원 활용을 개선하는 하이브리드 CPU-GPU 추론 프레임워크인 HybriMoE를 제안합니다. HybriMoE는 (i) CPU와 GPU 간 작업 부하를 균형 있게 분배하기 위한 동적 계층 내 스케줄링 전략, (ii) 영향 기반 계층 간 프리페치 알고리즘, 그리고 (iii) 전문가 활성화 불안정성을 완화하기 위한 점수 기반 캐싱 알고리즘을 도입합니다. 우리는 HybriMoE를 kTransformers 프레임워크 위에 구현하고 널리 사용되는 세 가지 MoE 기반 LLM에서 평가했습니다. 실험 결과, HybriMoE는 최신 하이브리드 MoE 추론 프레임워크와 비교하여 프리필 단계에서 평균 1.33배, 디코드 단계에서 평균 1.70배의 성능 향상을 달성했습니다. 우리의 코드는 https://github.com/PKU-SEC-Lab/HybriMoE에서 확인할 수 있습니다.
텍스트-이미지(T2I) 확산/플로우 모델은 유연한 시각적 창작물을 제공하는 놀라운 능력으로 인해 최근 상당한 주목을 받고 있습니다. 그러나 고해상도 이미지 합성은 고해상도 콘텐츠의 부족과 복잡성으로 인해 상당한 도전 과제로 남아 있습니다. 이를 위해, 우리는 사전 학습된 플로우 모델의 해상도 잠재력을 해제할 수 있는 학습이 필요 없고 모델에 구애받지 않는 프레임워크인 HiFlow를 제안합니다. 구체적으로, HiFlow는 고해상도 공간 내에서 가상 참조 플로우를 설정하여 저해상도 플로우 정보의 특성을 효과적으로 포착하고, 저주파 일관성을 위한 초기화 정렬, 구조 보존을 위한 방향 정렬, 디테일 충실도를 위한 가속 정렬이라는 세 가지 핵심 측면을 통해 고해상도 생성을 안내합니다. 이 플로우 정렬된 안내를 활용함으로써, HiFlow는 T2I 모델의 고해상도 이미지 합성 품질을 크게 향상시키고, 그들의 개인화된 변형에서도 다재다능함을 입증합니다. 광범위한 실험을 통해 HiFlow가 현재 최첨단 방법들을 능가하는 우수한 고해상도 이미지 품질을 달성하는 데 있어서의 우수성을 검증하였습니다.
강력한 대규모 언어 모델(LLM)이 초인간적인 추론 능력을 보여주면서, 중요한 질문이 제기됩니다: LLM이 진정으로 추론을 하는 것인가, 아니면 단순히 웹에서 수집한 방대한 학습 데이터셋에서 답변을 회상하는 것인가? 공개된 벤치마크는 이후 LLM 학습 데이터셋에 통합되면 필연적으로 오염되어, 신뢰할 수 있는 평가 도구로서의 신뢰성을 훼손합니다. 이를 해결하기 위해, 우리는 LLM의 추론 능력을 평가하기 위해 특별히 설계된 생성적 평가 프레임워크인 KUMO를 소개합니다. KUMO는 LLM과 기호 엔진을 시너지적으로 결합하여 부분적으로 관찰 가능하고 난이도를 조절할 수 있는 다양한 다중 턴 추론 과제를 동적으로 생성합니다. 자동화된 파이프라인을 통해, KUMO는 개방형 도메인에서 지속적으로 새로운 과제를 생성하여 모델이 단순한 암기가 아닌 진정한 일반화 능력을 보여주도록 합니다. 우리는 KUMO가 생성한 100개 도메인에 걸친 5,000개 과제에서 23개의 최신 LLM을 평가하고, 그들의 추론 능력을 대학생들과 비교했습니다. 연구 결과, 많은 LLM이 쉬운 추론 과제에서 대학생 수준을 능가했으며, 추론 능력이 강화된 LLM은 복잡한 추론 과제에서도 대학생 수준의 성능에 도달했습니다. 또한, KUMO 과제에서의 LLM 성능은 새로 출시된 실세계 추론 벤치마크 결과와 강한 상관관계를 보여, KUMO가 진정한 LLM 추론 능력을 평가하는 견고하고 지속 가능한 도구로서의 가치를 입증했습니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 다양한 멀티모달 벤치마크에서 상당한 개선이 이루어졌습니다. 그러나 평가가 정적 데이터셋에서 개방형 동적 환경으로 전환됨에 따라, 현재의 게임 기반 벤치마크는 시각 중심 과제가 부족하고 실제 세계의 의사결정에 필요한 다양한 추론 능력을 평가하지 못해 여전히 부적합합니다. 이를 해결하기 위해, 우리는 MLLM의 시각적 추론 능력을 평가하기 위해 설계된 게임 기반 평가 프레임워크인 시각 중심 다중 능력 게임 평가(V-MAGE)를 소개합니다. V-MAGE는 위치 지정, 궤적 추적, 타이밍, 시각적 기억과 같은 핵심 시각 능력과 장기 계획 및 숙고와 같은 상위 수준의 추론을 테스트하는 30개 이상의 수작업 레벨로 구성된 다섯 가지 다양한 게임을 특징으로 합니다. 우리는 V-MAGE를 사용하여 주요 MLLM을 평가하고, 그들의 시각적 인식과 추론에서 상당한 어려움을 발견했습니다. 모든 게임 환경에서 Elo 등급 비교에 의해 결정된 최고 성능의 MLLM은 인간과 비교하여 상당한 성능 격차를 보였습니다. 우리의 연구 결과는 모델이 만드는 다양한 유형의 인식 오류를 포함한 중요한 한계를 강조하고, 에이전트 전략 개선 및 인식 부정확성 해결과 같은 에이전트 중심 관점에서의 개선 가능성을 제안합니다. 코드는 https://github.com/CSU-JPG/V-MAGE에서 확인할 수 있습니다.
텍스트 기반 이미지 편집(TIE)에서 충실도(fidelity)와 편집 가능성(editability)의 균형을 맞추는 것은 매우 중요하며, 이러한 균형이 깨지면 과도한 편집 또는 편집 부족 문제가 발생하기 쉽습니다. 기존 방법들은 주로 구조 보존을 위해 주의 주입(attention injection)을 사용하고, 사전 학습된 텍스트-이미지(T2I) 모델의 내재된 텍스트 정렬 능력을 활용하여 편집 가능성을 확보하지만, 이 두 목표를 적절히 균형 있게 조절하기 위한 명시적이고 통합된 메커니즘을 제공하지 못합니다. 본 연구에서는 이러한 문제를 해결하기 위해 UnifyEdit를 제안합니다. UnifyEdit는 튜닝이 필요 없는 방법으로, 확산 잠재 공간 최적화(diffusion latent optimization)를 통해 충실도와 편집 가능성을 통합된 프레임워크 내에서 균형 있게 통합합니다. 직접적인 주의 주입과 달리, 우리는 두 가지 주의 기반 제약 조건을 개발했습니다: 구조적 충실도를 위한 자기 주의(self-attention, SA) 보존 제약과, 텍스트 정렬을 강화하여 편집 가능성을 개선하기 위한 교차 주의(cross-attention, CA) 정렬 제약입니다. 그러나 두 제약을 동시에 적용하면 그래디언트 충돌이 발생하여 한 제약이 지배적으로 작용해 과도한 편집 또는 편집 부족 문제가 발생할 수 있습니다. 이를 해결하기 위해, 우리는 이러한 제약의 영향을 동적으로 조절하는 적응형 시간 단계 스케줄러(adaptive time-step scheduler)를 도입하여 확산 잠재 공간이 최적의 균형을 달성하도록 유도합니다. 다양한 편집 작업에서 구조 보존과 텍스트 정렬 간의 견고한 균형을 달성하는 데 있어 우리 접근법의 우수성을 입증하는 광범위한 정량적 및 정성적 실험 결과를 제시하며, 이는 다른 최신 방법들을 능가하는 성능을 보여줍니다. 소스 코드는 https://github.com/CUC-MIPG/UnifyEdit에서 공개될 예정입니다.
최근 추론 모델의 발전은 특히 수학적 추론과 같은 복잡한 작업에서 상세하고 포괄적인 추론 과정을 통해 정확도 측면에서 상당한 개선을 보여주었습니다. 그러나 이러한 긴 추론 시퀀스를 생성하는 것은 계산 비용이 많이 들고 시간이 소요됩니다. 이러한 비효율성을 해결하기 위해, 우리는 특정 작업의 본질적인 병렬화 가능성을 활용하여 추론 과정을 가속화합니다. 구체적으로, 여러 병렬 추론 분기가 존재할 때, 특수화된 어텐션 마스크를 사용하여 단계당 여러 토큰을 디코딩하고 이를 단일 시퀀스 내에서 처리함으로써 추가적인 메모리 사용을 방지합니다. 실험 결과, 우리의 방법은 답변 품질을 유지하면서 디코딩 시간에서 100% 이상의 속도 향상을 달성함을 보여줍니다.
강화 미세 조정(Reinforcement Finetuning, RFT)은 대규모 언어 모델(LLMs)의 수학적 추론 능력을 향상시키는 데 큰 잠재력을 보여주었지만, 종종 샘플 및 계산 비효율적이며 광범위한 훈련이 필요합니다. 본 연구에서는 적응형 커리큘럼 학습을 통해 RFT의 효율성과 최종 정확도를 크게 개선하는 AdaRFT(Adaptive Curriculum Reinforcement Finetuning) 방법을 소개합니다. AdaRFT는 모델의 최근 보상 신호를 기반으로 훈련 문제의 난이도를 동적으로 조정하여, 모델이 도전적이지만 해결 가능한 과제를 지속적으로 훈련하도록 보장합니다. 이 적응형 샘플링 전략은 최적의 난이도 범위를 유지함으로써 학습을 가속화하고, 너무 쉬운 또는 너무 어려운 문제에 대한 계산 낭비를 방지합니다. AdaRFT는 Proximal Policy Optimization(PPO)과 같은 표준 RFT 알고리즘에 경량 확장만을 필요로 하며, 보상 함수나 모델 아키텍처를 수정하지 않습니다. AMC, AIME, IMO 스타일 문제를 포함한 경쟁 수준의 수학 데이터셋에 대한 실험을 통해 AdaRFT가 훈련 효율성과 추론 성능을 크게 향상시킴을 입증합니다. 우리는 다양한 데이터 분포와 모델 크기에 걸쳐 AdaRFT를 평가하며, 훈련 단계 수를 최대 2배까지 줄이고 정확도를 상당히 개선하여 더 확장 가능하고 효과적인 RFT 프레임워크를 제공함을 보여줍니다.
기존의 대형 언어 모델(LLMs)과 대형 시각-언어 모델(LVLMs)을 위한 추론 평가 프레임워크는 주로 텍스트 기반 추론 능력이나 시각-언어 이해 능력을 평가하는 데 초점을 맞추고 있으며, 텍스트와 시각적 제약 간의 동적 상호작용은 제한적으로 다루어져 왔습니다. 이러한 한계를 해결하기 위해, 우리는 크로스워드 퍼즐이라는 매체를 통해 LLMs와 LVLMs의 추론 능력을 평가하기 위한 벤치마크인 CrossWordBench를 소개합니다. 이 작업은 텍스트 기반 단서에서의 의미적 제약과 시각적 그리드 구조에서의 교차적 제약을 다중 모드로 준수해야 하는 과제입니다. CrossWordBench는 다양한 형식(텍스트 및 이미지)으로 퍼즐을 생성할 수 있는 제어 가능한 퍼즐 생성 프레임워크를 활용하며, 직접 퍼즐 해결부터 상호작용 모드까지 다양한 평가 전략을 제공합니다. 20개 이상의 모델에 대한 광범위한 평가를 통해, 교차 문자 제약을 효과적으로 활용하는 추론 LLMs가 비추론 모델을 크게 능가한다는 것을 확인했습니다. 또한, LVLMs가 이 과제에 어려움을 겪으며, 퍼즐 해결 성능과 그리드 파싱 정확도 간에 강한 상관관계가 있음을 보여주었습니다. 우리의 연구 결과는 현재 LLMs와 LVLMs의 추론 능력의 한계에 대한 통찰을 제공하며, 향후 평가를 위한 다중 모드 제약 과제를 생성하는 효과적인 접근 방식을 제시합니다.
최근 LLM(Large Language Model)을 통한 자동 정리 증명(ATP)의 발전은 Lean 4 코드를 활용한 형식적 추론의 잠재력을 부각시켰습니다. 그러나 ATP는 OpenAI O1/O3와 Deepseek R1에서 입증된 최근의 사후 학습 스케일링(posttraining scaling)에 의해 혁신되지는 못했습니다. 본 연구에서는 자연어 추론 모델에서의 획기적인 발전과 ATP를 정렬시키기 위해 ATP의 전체 사후 학습 과정을 조사합니다. 먼저, 우리는 현재의 ATP 모델을 다양한 진술-증명 쌍과 인간의 추론 및 가설 정제를 모방하는 인지적 행동을 통합하기 위한 추가 데이터로 구성된 하이브리드 데이터셋으로 지속적으로 학습시킵니다. 다음으로, Lean 4 컴파일러가 반환하는 결과 보상을 활용한 강화 학습을 탐구합니다. 우리가 설계한 지속적 학습 및 강화 학습 과정을 통해 DeepSeek-Prover-v1.5와 Goedel-Prover를 포함한 기존의 형식적 증명기를 개선하여 전체 증명 생성 분야에서 최첨단 성능을 달성했습니다. 예를 들어, MiniF2F에서 59.8%의 통과율(pass@32)을 달성했습니다. 이는 진행 중인 프로젝트이며, 우리는 점진적으로 연구 결과를 업데이트하고 데이터 및 학습 세부 사항을 공개할 예정입니다.
모방 학습은 범용 로봇을 구축하기 위한 유망한 접근 방식으로 부상했습니다. 그러나 고품질 전문가 시연 데이터에 의존해야 한다는 점 때문에 대규모 로봇 파운데이션 모델에 모방 학습을 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 한편, 다양한 환경과 행동을 담은 방대한 양의 비디오 데이터가 쉽게 구할 수 있는 형태로 존재합니다. 이 데이터는 실제 세계의 역학과 에이전트-환경 상호작용에 대한 풍부한 정보를 제공합니다. 그러나 대부분의 현대적 방법에 필요한 행동 주석이 부족하기 때문에 이 데이터를 모방 학습에 직접 활용하는 것은 어려운 것으로 입증되었습니다. 본 연구에서는 비디오와 행동 데이터를 모두 활용하여 정책 학습을 가능하게 하는 통합 세계 모델(Unified World Models, UWM) 프레임워크를 제시합니다. 구체적으로, UWM은 통합 트랜스포머 아키텍처 내에서 행동 확산 과정과 비디오 확산 과정을 통합하며, 각 모달리티는 독립적인 확산 타임스텝에 의해 제어됩니다. 우리는 각 확산 타임스텝을 단순히 제어함으로써 UWM이 정책, 순방향 역학, 역방향 역학, 비디오 생성기를 유연하게 표현할 수 있음을 보여줍니다. 시뮬레이션과 실제 실험을 통해 다음과 같은 결과를 확인했습니다: (1) UWM은 역학 및 행동 예측을 포함한 대규모 다중 작업 로봇 데이터셋에서 효과적인 사전 학습을 가능하게 하여 모방 학습보다 더 일반화 가능하고 견고한 정책을 생성하며, (2) UWM은 모달리티별 확산 타임스텝의 독립적 제어를 통해 행동이 없는 비디오 데이터로부터의 학습을 자연스럽게 촉진하여 미세 조정된 정책의 성능을 더욱 향상시킵니다. 우리의 결과는 UWM이 대규모 이질적 데이터셋을 활용하여 확장 가능한 로봇 학습을 위한 유망한 단계를 제공하며, 종종 분리된 패러다임인 모방 학습과 세계 모델링 간의 간단한 통합을 제공함을 시사합니다. 비디오와 코드는 https://weirdlabuw.github.io/uwm/에서 확인할 수 있습니다.
일반화된 범주 발견(GCD)은 실용적이지만 아직 충분히 탐구되지 않은 문제로, 이는 모델이 기존 클래스의 레이블이 지정된 샘플을 활용하여 새로운 범주를 자동으로 클러스터링하고 발견하도록 요구합니다. 여기서의 도전 과제는 레이블이 없는 데이터가 기존 클래스와 새로운 클래스를 모두 포함한다는 점입니다. 초기 연구에서는 파라미터적 분류기를 사용한 의사 레이블링을 통해 기존 클래스와 새로운 클래스를 별도로 처리했는데, 이는 두 클래스 간의 정확도 불균형을 초래했습니다. 최근의 방법들은 대조 학습을 사용하지만 잠재적인 긍정적 사례를 간과하고 클러스터링 목표와 분리되어 있어 편향된 표현과 차선의 결과를 가져옵니다. 이러한 문제를 해결하기 위해, 우리는 통합적이고 편향되지 않은 프로토타입 학습 프레임워크인 ProtoGCD를 소개합니다. 이 프레임워크에서는 기존 클래스와 새로운 클래스가 공동 프로토타입과 통합 학습 목표로 모델링되어, 기존 클래스와 새로운 클래스 간의 통합 모델링이 가능합니다. 구체적으로, 우리는 확인 편향을 완화하기 위한 이중 수준 적응형 의사 레이블링 메커니즘과 GCD에 더 적합한 표현을 학습하도록 돕는 두 가지 정규화 항을 제안합니다. 또한, 실용적인 고려를 위해 새로운 클래스의 수를 추정하는 기준을 고안했습니다. 더 나아가, ProtoGCD를 확장하여 보이지 않는 이상치를 탐지함으로써 작업 수준의 통합을 달성했습니다. 포괄적인 실험을 통해 ProtoGCD가 일반 및 세분화된 데이터셋에서 최첨단 성능을 달성함을 보여줍니다. 코드는 https://github.com/mashijie1028/ProtoGCD에서 확인할 수 있습니다.