번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)의 개발 및 평가는 주로 개별 능력에 초점을 맞추었습니다. 그러나 이는 종종 실제 과제에 필요한 다양한 전문성 간의 교차 능력, 즉 교차 능력을 간과합니다. 이 개념을 체계적으로 탐구하기 위해, 우리는 먼저 일곱 가지 핵심 개별 능력을 정의하고, 이를 짝지어 일곱 가지 공통 교차 능력을 형성하였으며, 각각은 수동으로 구축된 분류법에 의해 지원됩니다. 이러한 정의를 기반으로, 우리는 1,400개의 인간 주석이 달린 프롬프트로 이루어진 CrossEval 벤치마크를 소개합니다. 각 개별 및 교차 능력에 100개의 프롬프트가 포함되어 있습니다. 신뢰할 수 있는 평가를 보장하기 위해 전문 주석가들을 참여시켜 4,200개의 모델 응답을 평가하고, 상세한 설명을 포함한 8,400개의 인간 평가를 수집하여 참조 예제로 활용합니다. 우리의 연구 결과는 현재 LLMs가 "최약 환승의 법칙"을 일관되게 나타내며, 교차 능력 성능이 가장 약한 구성 요소에 의해 심각하게 제약된다는 것을 밝혀냅니다. 구체적으로, 17개 모델의 58가지 교차 능력 점수 중 38가지는 모든 개별 능력보다 낮으며, 20가지는 강한 능력과 약한 능력 사이에 위치하지만, 보다 약한 능력에 더 가깝습니다. 이러한 결과는 LLMs의 교차 능력 과제에서의 성능 저하를 강조하며, 미래 연구에서 성능을 최적화하기 위해 가장 약한 능력을 식별하고 개선하는 것이 중요한 우선 순위임을 보여줍니다.
대규모 모델 추론은 사용자 상호작용 데이터의 개인 정보 보호 우려로 인해 클라우드에서 엣지로 이동하고 있습니다. 그러나 엣지 장치는 종종 제한된 컴퓨팅 파워, 메모리 및 대역폭으로 고민하며, 여러 장치 간의 협력이 필요하여 LLM 추론을 실행하고 가속화하는 데 어려움을 겪습니다. 주류 솔루션인 파이프라인 병렬성은 단일 사용자 시나리오에 비효율적이며, 텐서 병렬성은 빈번한 통신으로 인해 어려움을 겪습니다. 본 논문에서는 저자들이 저자원 장치에서 파이프라인보다 텐서 병렬성이 더 효과적일 수 있다고 주장하고, 70B 규모 모델을 위한 계산 및 메모리 효율적인 텐서 병렬 추론 시스템인 TPI-LLM을 제시합니다. TPI-LLM은 민감한 원시 데이터를 사용자 장치에 로컬로 유지하고 추론 중에 레이어 가중치를 동적으로 관리하기 위해 슬라이딩 윈도우 메모리 스케줄러를 도입하며, 디스크 I/O 지연을 계산 및 통신과 겹쳐지게 합니다. 이를 통해 더 큰 모델이 메모리 제한 장치에서 원활하게 실행될 수 있습니다. 통신 병목 현상을 분석한 결과 링크 지연이 대역폭이 아닌 주요 문제로 나타나, 스타 기반 allreduce 알고리즘을 구현했습니다. 에뮬레이션 및 실제 테스트베드에서 수행된 광범위한 실험을 통해 TPI-LLM은 Accelerate에 비해 80% 이상의 첫 번째 토큰 시간 및 토큰 지연 시간을 보여주었으며, Transformers 및 Galaxy에 비해 90% 이상을 달성하면서 Llama 2-70B의 최대 메모리 풋프린트를 90% 줄여 70B 규모 모델에 대해 3.1GB의 메모리만 필요로 합니다.
우리는 Atlas-Chat을 소개합니다. 이는 사적인 아랍어를 위해 특별히 개발된 대규모 언어 모델의 최초의 모음입니다. 모로코 아랍어인 다리자에 초점을 맞추어, 기존의 다리자 언어 자원을 통합하고 수작업 및 합성을 통해 새로운 데이터셋을 작성하고 엄격한 품질 통제를 통해 영어 지침을 번역하여 우리의 지침 데이터셋을 구축했습니다. 데이터셋에 맞게 세밀하게 조정된 Atlas-Chat-9B 및 2B 모델은 다리자 지침을 따르고 표준 NLP 작업을 수행하는 능력에서 우수함을 나타냅니다. 특히, 우리의 모델은 LLaMa, Jais, AceGPT와 같은 최첨단 및 아랍어에 특화된 LLMs를 능가하는데, 예를 들어, 우리가 새롭게 소개한 다리자 평가 스위트인 DarijaMMLU에서 13B 모델보다 13%의 성능 향상을 달성했습니다. 이 평가 스위트는 판별적 및 생성적 작업을 모두 다루는 다리자를 위한 것입니다. 더 나아가, 우리는 다양한 세밀 조정 전략과 기본 모델 선택에 대한 실험적 분석을 수행하여 최적의 설정을 결정했습니다. 우리의 모든 자원은 공개적으로 접근 가능하며, 우리의 작업이 현대 LLMs에 의해 데이터가 풍부한 언어를 선호하는 가운데 종종 무시되는 저자원 언어 변형에 대한 지침 조정의 포괄적인 설계 방법론을 제공한다고 믿습니다.
텍스트, 단일 이미지 또는 희소한 시야 이미지에서 고품질 3D 콘텐츠를 생성하는 것은 광범위한 응용 분야에서 어려운 작업입니다. 기존 방법은 일반적으로 다중 시야 확산 모델을 사용하여 다중 시야 이미지를 합성한 후 3D 재구성을 위한 피드 포워드 과정을 따릅니다. 그러나 이러한 접근 방식은 종종 소수의 입력 시야로 제한되어 다양한 시점을 포착하는 능력이 제한되며, 더 나쁜 경우에는 합성된 시야가 저품질이면 최적이 아닌 생성 결과를 초래할 수 있습니다. 이러한 한계를 해결하기 위해 우리는 임의의 고품질 입력 시야를 활용할 수 있는 새로운 두 단계 프레임워크인 Flex3D를 제안합니다. 첫 번째 단계는 후보 뷰 생성 및 선별 파이프라인으로 구성됩니다. 세밀하게 조정된 다중 시야 이미지 확산 모델과 비디오 확산 모델을 사용하여 후보 뷰 풀을 생성하여 대상 3D 객체의 풍부한 표현을 가능하게 합니다. 이후 뷰 선택 파이프라인은 품질과 일관성에 따라 이러한 뷰를 필터링하여 재구성에 사용되는 고품질이고 신뢰할 수 있는 뷰만 사용되도록 보장합니다. 두 번째 단계에서 선별된 뷰는 임의의 입력을 효과적으로 처리할 수 있는 트랜스포머 아키텍처를 기반으로 구축된 유연한 재구성 모델 (FlexRM)에 공급됩니다. FlemRM은 트라이-플레인 표현을 활용하여 3D 가우시안 포인트를 직접 출력하여 효율적이고 상세한 3D 생성을 가능하게 합니다. 디자인 및 교육 전략을 철저히 탐색하여 FlexRM을 최적화하여 재구성 및 생성 작업 모두에서 우수한 성능을 달성합니다. 결과는 Flex3D가 최신 피드 포워드 3D 생성 모델 중 몇 가지와 비교했을 때 3D 생성 작업에서 92% 이상의 승률을 차지하여 최고 수준의 성능을 달성함을 보여줍니다.
우리는 비디오 기반 다중 모달 대형 언어 모델 VideoLISA를 소개합니다. 이 모델은 비디오에서 언어 지시에 따른 추론 세분화 문제를 해결하기 위해 설계되었습니다. 대형 언어 모델의 추론 능력과 세그먼트 어떤 것 모델의 성능을 활용하고, VideoLISA는 언어 지시에 기반한 비디오 내에서 시간적으로 일관된 세분화 마스크를 생성합니다. LISA와 같은 기존의 이미지 기반 방법은 추가적인 시간적 차원으로 인해 비디오 작업에 어려움을 겪는데, 이는 시간적 동적 이해와 프레임 간 일관된 세분화를 요구합니다. VideoLISA는 이러한 도전에 대응하기 위해 비디오-LLM에 희소 밀집 샘플링 전략을 통합하여 계산 제약 내에서 시간적 맥락과 공간 세부 정보를 균형 있게 유지합니다. 게다가, 우리는 특별히 설계된 <TRK> 토큰을 활용한 One-Token-Seg-All 접근 방식을 제안하여 모델이 여러 프레임을 통해 객체를 세분화하고 추적할 수 있도록 합니다. 새롭게 소개된 ReasonVOS 벤치마크를 포함한 다양한 벤치마크에서의 광범위한 평가는 VideoLISA가 복잡한 추론, 시간적 이해 및 객체 추적이 포함된 비디오 객체 세분화 작업에서 우수한 성능을 보여줍니다. 비디오에 최적화되었지만, VideoLISA는 이미지 세분화로의 일반화 가능성을 보여주며, 언어 지시 객체 세분화를 위한 통합 기반 모델로의 잠재력을 드러냅니다. 코드와 모델은 다음에서 이용 가능합니다: https://github.com/showlab/VideoLISA.
본 연구에서는 Illustrious라고 불리는 텍스트-이미지 애니메이션 이미지 생성 모델에서 최첨단 품질을 달성하기 위한 통찰을 공유합니다. 고해상도, 동적 색상 범위 이미지 및 높은 복원 능력을 달성하기 위해 모델 개선을 위한 세 가지 중요한 방법에 초점을 맞추었습니다. 첫째, 배치 크기와 드롭아웃 제어의 중요성을 탐구하여, 조절 가능한 토큰 기반 개념 활성화의 빠른 학습을 가능하게 합니다. 둘째, 이미지의 훈련 해상도를 높여 캐릭터 해부의 정확한 묘사에 영향을 미치며, 적절한 방법을 통해 20MP 이상의 생성 능력을 확장합니다. 마지막으로, 모델 개발에 있어 중요한 요소로 다양한 자연어 캡션과 모든 태그를 다루는 정교한 다중 수준 캡션을 제안합니다. 철저한 분석과 실험을 통해, Illustrious는 애니메이션 스타일 측면에서 최첨단 성능을 나타내며, 일러스트레이션 분야에서 널리 사용되는 모델들을 능가하여 오픈 소스의 성격으로 쉬운 사용자 정의 및 개인화를 촉진합니다. 우리는 Illustrious 모델 시리즈를 순차적으로 업데이트하여 지속 가능한 개선 계획을 공개할 계획입니다.
확산 모델은 강력한 생성 기술로 등장하여 다양한 시나리오에 적용 가능하다는 것이 밝혀졌습니다. 대부분의 기존 기본 확산 모델은 주로 텍스트 안내 시각적 생성을 위해 설계되었으며 다중 모달 조건을 지원하지 않습니다. 다중 모달 조건은 많은 시각적 편집 작업에 필수적이지만, 이러한 제한으로 인해 이러한 기본 확산 모델들이 GPT-4와 같이 자연어 처리 분야에서의 통합 모델로 작용하는 것을 방해합니다. 본 연구에서는 ACE(All-round Creator and Editor)를 제안합니다. ACE는 다양한 시각적 생성 작업에서 전문 모델들과 비슷한 성능을 달성합니다. 이를 위해 먼저 Long-context Condition Unit(LCU)라는 통합 조건 형식을 소개하고, LCU를 입력으로 사용하는 새로운 Transformer 기반 확산 모델을 제안하여 다양한 생성 및 편집 작업에 걸쳐 공동 훈련을 목표로 합니다. 더불어, 훈련 데이터 부재 문제를 해결하기 위해 효율적인 데이터 수집 방법을 제안합니다. 이 방법은 합성 기반 또는 클러스터링 기반 파이프라인을 사용하여 쌍으로 된 이미지를 획득하고, 미세 조정된 다중 모달 대형 언어 모델을 활용하여 정확한 텍스트 지침을 제공합니다. 우리 모델의 성능을 종합적으로 평가하기 위해 다양한 시각적 생성 작업에 걸친 수동으로 주석이 달린 쌍 데이터의 벤치마크를 수립합니다. 광범위한 실험 결과는 우리 모델의 시각적 생성 분야에서의 우월성을 입증합니다. 우리 모델의 올인원 기능 덕분에, 시각적 에이전트에서 일반적으로 사용되는 번거로운 파이프라인을 피하고 단일 모델을 백엔드로 사용하여 이미지 생성에 대한 상호작용 요청에 응답하는 다중 모달 채팅 시스템을 쉽게 구축할 수 있습니다. 코드 및 모델은 프로젝트 페이지에서 제공될 예정입니다: https://ali-vilab.github.io/ace-page/.
자율 주행 기술의 발전은 점점 더 높은 품질의 주석이 달린 데이터셋에 의존하고 있는데, 특히 3D 점유 예측 작업에서는 밀도 높은 3D 주석이 필요하여 상당한 인간 노력이 필요합니다. 본 논문에서는 주행 시나리오에서 점유 레이블을 조건부로 사용하여 사실적이고 기하학적으로 제어된 이미지를 합성하는 확산 모델인 SyntheOcc를 제안합니다. 이를 통해 인식 모델 및 시뮬레이션을 위한 훈련과 같은 응용 프로그램에 대한 다양하고 주석이 달린 조절 가능한 데이터셋을 무제한으로 생성할 수 있습니다. SyntheOcc는 어떻게 3D 기하 정보를 효율적으로 2D 확산 모델의 조건부 입력으로 인코딩하는지에 대한 중요한 도전 과제를 해결합니다. 접근 방식은 혁신적으로 3D 의미론적 다중 평면 이미지(MPIs)를 통합하여 포괄적이고 공간적으로 정렬된 3D 장면 설명을 제공합니다. 결과적으로 SyntheOcc는 주어진 기하학적 레이블(3D 복셀 공간의 의미론)과 정확하게 일치하는 사실적인 다중 뷰 이미지 및 비디오를 생성할 수 있습니다. nuScenes 데이터셋에서의 SyntheOcc의 광범위한 질적 및 양적 평가는 인식 모델에 대한 효과적인 데이터 증강으로 작용하는 조절 가능한 점유 데이터셋 생성의 효과를 입증합니다.
대규모 다중 모달 모델(LMMs)은 짧은 비디오 이해 작업에서 놀라운 성능을 보여주었지만, 긴 비디오 이해 작업에 적용할 때 큰 어려움을 겪습니다. 반면에 대규모 언어 모델(LLMs)은 긴 텍스트를 모델링하는 뛰어난 능력을 보여줍니다. 기존 연구는 훈련 중에 긴 비디오-텍스트 쌍을 도입함으로써 이 문제에 대처하려고 노력해왔습니다. 그러나 이러한 방법은 상당한 계산 및 데이터 자원을 필요로 합니다. 본 논문에서는 문맥 창의 관점에서 긴 비디오 이해 작업의 도전 과제를 다루며, LMMs를 재훈련하지 않고도 긴 비디오 작업에 적용하는 것을 목표로 합니다. 우리는 먼저 사전 훈련된 LMMs가 긴 비디오 콘텐츠를 이해하는 데 어려움을 겪는 이유에 대해 철저한 분석을 실시하고, 시각 및 언어 모달리티 간의 불일치로 인해 시각 및 언어 토큰에 대한 다른 문맥 창이 발생하여 시각 토큰을 언어 문맥 창에 직접 확장하는 것이 어렵다는 것을 확인했습니다. 이를 바탕으로 우리는 시각 문맥 창을 확장하여 LMMs를 긴 비디오 이해 작업에 적용하고, 대규모 긴 비디오 데이터셋에 대한 재훈련이 필요 없도록 하는 것을 제안합니다. 긴 시퀀스로 인한 중요한 메모리 소비를 더 줄이기 위해, 우리는 프레임 임베딩의 공간 해상도를 선택적으로 조정하여 시각 토큰의 수를 줄이면서 중요한 공간 정보를 유지하는 점진적 풀링 추론 전략을 도입합니다. 여러 개의 긴 비디오 이해 벤치마크에서, 우리의 방법은 비디오 프레임 수가 증가함에 따라 일관되게 성능을 향상시킵니다. MLVU 벤치마크에서, 우리의 방법은 우리 모델 크기가 7B에 불과하더라도 GPT-4o를 능가합니다. 또한 256프레임 설정에서, 우리의 방법은 기준과 비교하여 메모리 사용량을 약 45% 줄이면서 성능 저하 없이 이루어냅니다.
사실적인 이미지 복원 알고리즘은 일반적으로 왜곡 측정(예: PSNR, SSIM)과 지각적 품질 측정(예: FID, NIQE)을 통해 평가되며, 목표는 지각적 품질을 희생하지 않고 가능한 한 낮은 왜곡을 달성하는 것입니다. 이 목표를 달성하기 위해 현재 방법은 일반적으로 사후 분포에서 샘플링하거나 왜곡 손실(예: MSE)과 지각적 품질 손실(예: GAN)의 가중 합을 최적화하려고 노력합니다. 이 논문은 이전 연구와는 달리, 복원된 이미지의 분포가 원본 이미지의 분포와 동일한 경우에 MSE를 최소화하는 최적 추정자에 특히 관심을 가집니다. 최근의 이론적 결과는 이러한 추정자가 사후 평균 예측(MMSE 추정)을 원본 이미지의 분포로 최적으로 이동시킴으로써 구성될 수 있다는 것을 보여줍니다. 이 결과에 영감을 받아, 우리는 Posterior-Mean Rectified Flow (PMRF)를 소개합니다. 이는 이러한 최적 추정자를 근사하는 간단하면서 매우 효과적인 알고리즘입니다. 특히, PMRF는 먼저 사후 평균을 예측하고, 그 결과를 원하는 최적 이동 맵을 근사하는 rectified flow 모델을 사용하여 고품질 이미지로 이동시킵니다. 우리는 PMRF의 이론적 유효성을 조사하고, 다양한 이미지 복원 작업에서 이전 방법보다 일관되게 우수한 성능을 보여주는 것을 증명합니다.
우리는 단안 동영상으로부터 시간 일관성 있는 인간 신체 모델을 재구성하는 방법을 제시합니다. 이 방법은 극도로 헐거운 의류나 손에 든 물체와의 상호작용에 초점을 맞춥니다. 이전의 인간 재구성 연구는 주로 물체와의 상호작용이 없는 타이트한 의류에 한정되어 있거나 보정된 다중 뷰 촬영이나 대규모로 수집하기 어려운 개인화된 템플릿 스캔이 필요합니다. 우리의 고품질이면서 유연한 재구성을 위한 핵심 아이디어는 대규모 훈련 데이터로부터 학습된 관절 신체 형태에 관한 일반적인 인간 사전과 동영상별 관절 "뼈 가방" 변형을 조심스럽게 결합하는 것입니다(테스트 시 최적화를 통해 단일 동영상에 맞게 맞춤). 이를 위해 우리는 신경 암시적 모델을 학습하여 별도의 동작 모델 계층으로 신체와 의류 변형을 분리합니다. 의류의 섬세한 기하학을 캡처하기 위해 최적화 중에 인간 신체 자세, 표면 법선 및 광학 흐름과 같은 이미지 기반 사전을 활용합니다. 결과적으로 얻어지는 신경장은 시간 일관성 있는 메쉬로 추출되거나 고품질 대화형 렌더링을 위해 명시적 3D 가우시안으로 더 최적화될 수 있습니다. 매우 어려운 의류 변형과 물체 상호작용이 있는 데이터셋에서, DressRecon은 이전 연구보다 더 높은 품질의 3D 재구성을 제공합니다. 프로젝트 페이지: https://jefftan969.github.io/dressrecon/
학습 기반 방법은 네 다리 보행에 강력한 성능을 달성했습니다. 그러나 몇 가지 도전 과제로 인해 네 다리로 환경 및 인간과 상호 작용이 필요한 유용한 실내 기술을 학습하는 것이 어렵습니다: 조작을 위한 종단 효과기 부재, 시뮬레이션 데이터만을 사용한 제한된 의미 이해, 그리고 실내 환경에서의 접근성 및 이동 가능성이 낮습니다. 우리는 실내 환경에서의 네 다리 이동식 조작을 위한 시스템을 제시합니다. 이 시스템은 물체 조작을 위한 전면 그리퍼, 기민한 기술을 위해 시뮬레이션에서 이고중심 깊이를 사용하여 훈련된 저수준 컨트롤러, 그리고 의미 이해와 명령 생성을 위해 제 3자 시야 피시아이 및 이고중심 RGB 카메라를 사용한 사전 훈련된 비전-언어 모델(VLMs)을 사용합니다. 우리는 실제 데이터 수집이나 훈련 없이 두 개의 보지 않은 환경에서 시스템을 평가했습니다. 우리의 시스템은 이러한 환경에 대해 제로샷 일반화할 수 있으며, 퀸 사이즈 침대를 넘어서 장난감을 가져오는 사용자 명령을 따르는 등의 작업을 60%의 성공률로 완료할 수 있습니다. 프로젝트 웹사이트: https://helpful-doggybot.github.io/
기계 번역(MT)에서의 성 차별은 사람들과 사회에 해를 끼칠 수 있는 문제로 인식되고 있습니다. 그럼에도 불구하고, 이 분야의 발전은 거의 결국 MT 사용자인 사람들을 포함하거나, 편향된 기술이 그들에게 어떤 영향을 미칠 수 있는지 알려주지 않습니다. 현재의 평가는 자동 방법에 제한되어 있으며, 이는 성 차별의 하류 영향이 무엇일지에 대한 불투명한 추정을 제공합니다. 우리는 MT의 편향이 여성과 남성 사이의 서비스 품질 격차와 같은 구체적인 비용이 발생하는지 여부를 조사하기 위해 광범위한 인간 중심 연구를 실시합니다. 이를 위해 MT 결과물을 올바른 성 번역을 보장하기 위해 90명의 참가자로부터 행동 데이터를 수집합니다. 여러 데이터셋, 언어 및 사용자 유형을 대상으로 한 우리의 연구는 여성의 후편집 요구가 상당히 더 많은 기술적 및 시간적 노력을 필요로 하며, 이는 높은 금전적 비용과 일치합니다. 그러나 기존의 편향 측정은 발견된 격차를 반영하지 못합니다. 우리의 연구 결과는 사회적 영향을 알려줄 수 있는 인간 중심 접근 방식을 옹호합니다.
로봇이 탐험하고 학습하는 양은 제한이 없지만, 그 모든 지식은 검색 가능하고 실행 가능해야 합니다. 언어 연구 내에서 검색 증강 생성 (RAG)은 대규모 비몤개례 지식의 주력이 되었지만, 기존 기술은 직접 체현 영역으로 이전되지 않습니다. 이 영역은 다중 모달이며 데이터가 높은 상관 관계를 갖고 있으며 지각에는 추상화가 필요합니다. 이러한 도전에 대응하기 위해 우리는 체현-RAG를 소개합니다. 이는 비모수 메모리 시스템을 갖춘 체현 에이전트의 기본 모델을 강화하여 자율적으로 계층적 지식을 구축할 수 있는 프레임워크입니다. 체현-RAG는 다양한 환경 및 쿼리 유형에 걸쳐 공간 및 의미적 해상도의 전 범위를 처리하며, 특정 객체 또는 분위기의 전체적 설명을 위한 것일지라도 처리합니다. 체현-RAG의 핵심은 의미적 숲으로 구성된 메모리로, 다양한 세부 수준에서 언어 설명을 저장합니다. 이러한 계층적 구성은 시스템이 다른 로봇 플랫폼에서 다양한 맥락에 민감한 출력을 효율적으로 생성할 수 있도록 합니다. 우리는 체현-RAG가 RAG를 로봇 공간으로 효과적으로 연결하며, 19개 환경에서 200개 이상의 설명 및 탐색 쿼리를 성공적으로 처리함으로써, 체현 에이전트를 위한 일반 목적 비모수 시스템의 잠재력을 강조합니다.