번역이 포함된 일일 선별된 AI 연구 논문
최근에는 더 나은 코드 명령어 조정 데이터를 구축하는 방법에 대한 연구에 대한 관심이 증가하고 있습니다. 그러나 이러한 데이터셋으로 훈련된 코드 모델은 HumanEval에서 높은 성능을 보이지만 LiveCodeBench와 같은 다른 벤치마크에서는 성능이 떨어지는 것을 관찰합니다. 추가 조사를 통해 많은 데이터셋이 심각한 데이터 누출 문제를 겪고 있음을 발견합니다. 누출된 데이터 대부분을 정리한 후에도 일부 잘 알려진 고품질 데이터셋은 성능이 저하됩니다. 이 발견은 고품질 코드 명령어 데이터로 진정으로 자격이 있는 데이터셋을 식별하는 새로운 도전을 드러냅니다. 이에 대응하기 위해 우리는 좋은 샘플을 선택하기 위한 효율적인 코드 데이터 가지치기 전략을 제안합니다. 우리의 접근 방식은 명령어 복잡성, 응답 품질 및 명령어 다양성 세 가지 차원을 기반으로 합니다. 선택한 데이터를 기반으로 LLaMA3에서 파인튜닝된 XCoder라는 모델 패밀리를 제시합니다. 실험 결과, XCoder는 더 적은 훈련 데이터를 사용하여 새로운 최고 수준의 성능을 달성하며, 이는 우리의 데이터 전략의 효과를 확인합니다. 더불어, 데이터 구성에 대한 포괄적인 분석을 수행하고 기존 코드 데이터셋이 구축 방법에 따라 다른 특성을 가지고 있음을 발견하여, 미래 코드 LLMs에 대한 새로운 통찰을 제공합니다. 우리의 모델과 데이터셋은 https://github.com/banksy23/XCoder에서 공개되어 있습니다.
LLM의 발전은 최근에 컴퓨팅 효율성과 지속적 확장성과 관련된 도전을 드러내었는데, 이는 거대한 매개변수를 필요로 하기 때문에 제한된 계산 자원을 갖는 장치 및 다양한 능력이 필요한 시나리오에서 이러한 모델의 응용 및 진화가 점점 더 번거로워지고 있다. 인간 뇌 내의 모듈성에서 영감을 받아 LLM을 다양한 기능 모듈로 분해하는 경향이 높아지고 있으며, 이는 모듈의 일부로 추론하고 모듈을 동적으로 조합하여 복합 작업(예: 전문가 모델의 혼합)을 처리할 수 있게 한다. 모듈 접근법의 내재적 효율성과 조립성을 강조하기 위해 우리는 각 기능 모듈을 나타내는 용어로 "brick"이라는 용어를 만들어내고, 이를 구성 가능한 기초 모델로 지정된 모듈화된 구조를 디자인한다. 본 논문에서는 구성 가능한 기초 모델의 구축, 활용 및 한계에 대한 포괄적 개요와 조사를 제공한다. 우리는 먼저 모듈을 신흥 브릭으로 공식화하고, 이는 사전 훈련 단계에서 발생하는 기능 뉴런 파티션으로, 그리고 맞춤형 브릭으로, LLM의 능력과 지식을 향상시키기 위해 추가적인 사후 훈련을 통해 구성된 브릭이다. 다양한 기능 브릭을 기반으로 우리는 검색 및 라우팅, 병합, 업데이트 및 확장이라는 네 가지 브릭 지향 작업을 제시한다. 이러한 작업은 복잡한 작업을 처리하기 위한 지침에 따라 LLM의 동적 구성을 가능하게 한다. 우리의 관점을 검증하기 위해 널리 사용되는 LLM에 대한 경험적 분석을 수행한다. 우리는 FFN 레이어가 뉴런의 기능적 특화와 기능 뉴런 파티션을 따르는 모듈 패턴을 보여준다. 마지막으로, 미래 연구를 위한 여러 개방적 문제와 방향을 강조한다. 이 논문은 기존 LLM 연구에 대한 신선한 모듈 관점을 제시하고 더 효율적이고 확장 가능한 기초 모델의 미래 창조를 영감 주기 위해 목표를 두고 있다.
우리는 300M에서 1.5B로 이어지는 자기 회귀 이미지 생성 모델 패밀리인 Open-MAGVIT2를 제시합니다. Open-MAGVIT2 프로젝트는 Google의 MAGVIT-v2 토크나이저의 오픈 소스 복제본을 생산하며, 이 토크나이저는 초대형 코드북(즉, 2^{18} 코드)을 갖추고 있으며 ImageNet 256x256에서 최첨단 재구성 성능(1.17 rFID)을 달성합니다. 더불어, 우리는 이를 일반 자기 회귀 모델에 적용하고 확장성 특성을 검증합니다. 초대형 어휘를 예측하는 자기 회귀 모델을 지원하기 위해 우리는 비대칭 토큰 인수분해를 통해 두 가지 크기의 하위 어휘로 분해하고, 더 나은 생성 품질을 위해 하위 토큰 상호 작용을 강화하기 위해 "다음 하위 토큰 예측"을 도입합니다. 우리는 시각적 자기 회귀 생성 분야에서 혁신과 창의성을 촉진하기 위해 모든 모델과 코드를 공개합니다.
확산 트랜스포머의 글로벌 셀프 어텐션 메커니즘은 시각 정보의 희소하고 중복적인 성격으로 인해 중복 계산을 포함하며, 공간 창 내의 토큰들의 어텐션 맵은 상당한 유사성을 보여줍니다. 이러한 중복성을 해결하기 위해 우리는 프록시 토큰 확산 트랜스포머(PT-DiT)를 제안합니다. 이는 전역 시각 정보를 효율적으로 모델링하기 위해 토큰의 어텐션을 희소한 대표 토큰으로 사용합니다(대표 토큰의 수가 전체 토큰 수보다 훨씬 작음). 구체적으로, 각 트랜스포머 블록에서는 각 공간-시간 창에서 하나의 토큰을 무작위로 샘플링하여 해당 영역의 프록시 토큰으로 사용합니다. 이러한 프록시 토큰들의 셀프 어텐션을 통해 전역 의미론을 포착하고, 그것들을 모든 잠재 토큰에 교차 어텐션을 통해 주입합니다. 동시에, 희소한 어텐션 메커니즘에 의한 세부 모델링의 제한 사항을 해결하기 위해 창 및 시프트 창 어텐션을 도입합니다. 잘 설계된 PT-DiT를 기반으로하여, T2I, T2V 및 T2MV 작업을 위한 다양한 모델을 포함하는 Qihoo-T2X 패밀리를 추가로 개발합니다. 실험 결과는 PT-DiT가 이미지 및 비디오 생성 작업에서 계산 복잡성을 줄이면서 경쟁력 있는 성능을 달성한다는 것을 보여줍니다(예: DiT 대비 48% 감소 및 Pixart-alpha 대비 35% 감소). 소스 코드는 https://github.com/360CVGroup/Qihoo-T2X에서 확인할 수 있습니다.
단안 이미지로부터 현실적인 3D 인간 모델을 재구성하는 것은 창의적 산업, 인간-컴퓨터 인터페이스 및 의료 분야에서 중요한 응용 분야를 가지고 있습니다. 우리의 작업은 가우시안 혼합으로 이루어진 3D 가우시안 스플래팅(3DGS)에 기반하고 있습니다. 단일 입력 이미지로부터 이러한 혼합을 인간을 위해 예측하는 것은 도전적입니다. 왜냐하면 이는 입력 픽셀과의 다대일 관계를 가지는 비균일 밀도이며 엄격한 물리적 제약이 있기 때문입니다. 동시에 이는 다양한 의상과 자세를 수용하기 위해 유연해야 합니다. 우리의 주요 관찰은 표준화된 인간 메쉬(예: SMPL)의 정점들이 가우시안을 위한 적절한 밀도와 근사적인 초기 위치를 제공할 수 있다는 것입니다. 그런 다음 변형 모델을 훈련하여 이러한 위치에 대한 비교적 작은 조정뿐만 아니라 다른 가우시안 속성 및 SMPL 매개변수를 동시에 예측할 수 있습니다. 우리는 실험적으로 이러한 조합(다중 뷰 지도만 사용)이 테스트 시간 최적화, 비용이 많이 드는 확산 모델 또는 3D 포인트 지도 없이 단일 이미지로부터 3D 인간 모델의 빠른 추론을 달성할 수 있음을 보여줍니다. 또한 이를 통해 의상 및 다른 변형을 고려한 인간 모델을 더 잘 맞출 수 있어 3D 자세 추정을 개선할 수 있음을 보여줍니다. 코드는 프로젝트 웹사이트 https://abdullahamdi.com/gst/ 에서 사용할 수 있습니다.
긴 맥락 언어 모델(LMs)의 능력은 종종 "바늘을 바늘더미에서 찾기" (NIAH) 테스트를 사용하여 평가됩니다. 이 테스트는 모델이 대량의 텍스트 시퀀스("바늘더미") 내에서 특정 정보("바늘")를 식별하는 능력을 평가하기 위해 설계된 작업으로 구성됩니다. 이러한 벤치마크는 모델이 긴 맥락 입력 시퀀스를 얼마나 잘 이해하는지를 측정하지만, 긴 형식의 텍스트 생성 품질을 효과적으로 측정하지는 않습니다. 이는 디자인 제안서 및 창의적 글쓰기와 같은 응용 분야에 중요한 측면입니다. 이러한 공백을 해결하기 위해 우리는 새로운 긴 형식 텍스트 평가 벤치마크인 "황금 실을 휘날리며" (SGT)를 소개했습니다. 이 벤치마크는 모델이 생성된 긴 텍스트 시퀀스 내에서 특정 이벤트를 식별하는 능력을 테스트합니다. 이 벤치마크에서 우리는 긴 맥락 LMs에게 특정 이벤트나 제약 조건을 반드시 포함해야 하는 긴 형식 텍스트를 작성하도록 요청하고, 이러한 요소를 통합하는 능력을 평가합니다. 우리는 10개의 긴 맥락 LMs를 네 가지 다른 시나리오, 세 가지 유형의 프롬프트 지침, 두 가지 다른 생성 길이 설정(16K 및 32K)을 통해 평가했습니다. 이 모델들은 NIAH 벤치마크에서 성능이 우수하지만, "황금 실을 휘날리며"에서는 만족스러운 성과를 보이지 않아, 지시 사항을 따르는 일관된 긴 형식 텍스트를 생성하는 능력에 대한 우려가 제기되었습니다. 게다가, 생성된 텍스트의 길이가 증가함에 따라 모든 모델이 상당한 성능 하락을 보입니다.