번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델은 인공지능, 과학 및 사회 전반에서 점차 중요한 기술로 자리 잡고 있지만, 데이터셋 구성 및 필터링에 대한 최적 전략은 여전히 대부분 불분명합니다. 성능이 우수한 모델 중 많은 모델은 데이터셋 선별 및 모델 개발 과정에서 투명성이 부족하여 완전히 공개적인 언어 모델의 개발에 장애를 일으킵니다. 본 논문에서는 오픈 소스 언어 모델의 발전을 위해 해결해야 할 세 가지 핵심 데이터 관련 도전 과제를 확인합니다. 이는 (1) 데이터 선별 과정을 포함한 모델 개발의 투명성, (2) 대규모 고품질 데이터에 대한 접근, (3) 데이터셋 선별 및 분석을 위한 자료 및 메타데이터의 가용성을 포함합니다. 이러한 도전 과제를 해결하기 위해 LLaMA 훈련 데이터셋의 오픈 재현인 RedPajama-V1을 공개합니다. 더불어, 원시, 필터링되지 않은 텍스트 데이터와 품질 신호 및 메타데이터로 이루어진 대규모 웹 전용 데이터셋인 RedPajama-V2를 공개합니다. RedPajama 데이터셋은 다양한 도메인에 걸쳐 100조 개 이상의 토큰을 포함하며, 품질 신호를 통해 데이터 필터링을 용이하게 하여 다양한 새로운 데이터셋의 개발을 촉진하는 것을 목표로 합니다. 현재까지 이러한 데이터셋은 이미 Snowflake Arctic, Salesforce의 XGen 및 AI2의 OLMo와 같이 제품에서 사용되는 강력한 언어 모델의 훈련에 사용되었습니다. RedPajama의 품질에 대한 통찰력을 제공하기 위해 1.6B 매개변수까지 가진 디코더 전용 언어 모델을 사용한 일련의 분석 및 제거 연구를 제시합니다. 우리의 연구 결과는 웹 데이터의 품질 신호가 데이터의 고품질 하위 집합을 선별하는 데 효과적으로 활용될 수 있음을 보여주며, RedPajama가 투명하고 고품질의 언어 모델의 대규모 발전을 촉진할 수 있는 잠재력을 강조합니다.
스케치 애니메이션은 간단한 플립북 스케치부터 전문 스튜디오 제작물까지 시각적 이야기 전달에 강력한 매체를 제공합니다. 전통적인 애니메이션은 숙련된 예술가 팀이 주요 프레임과 중간 프레임을 그리는 것을 요구하지만, 기존의 자동화 시도는 여전히 정확한 모션 경로나 키프레임 명세를 통해 상당한 예술적 노력을 필요로 합니다. 저희는 FlipSketch를 제안합니다. 이 시스템은 플립북 애니메이션의 매력을 되살리며, 아이디어를 그리고 어떻게 움직이길 원하는지 설명하기만 하면 됩니다! 저희의 접근 방식은 텍스트에서 비디오로 확산되는 모델로부터 모션 사전을 활용하여 세 가지 주요 혁신을 통해 스케치 애니메이션을 생성합니다: (i) 스케치 스타일 프레임 생성을 위한 파인튜닝, (ii) 입력 스케치의 시각적 무결성을 보존하는 참조 프레임 메커니즘을 통한 노이즈 정제, (iii) 시각적 일관성을 유지하면서 순조로운 모션을 가능하게 하는 이중 주의 구성. 제한된 벡터 애니메이션과 달리, 우리의 래스터 프레임은 동적 스케치 변환을 지원하여 전통적인 애니메이션의 표현적 자유를 포착합니다. 결과적으로, 스케치 애니메이션을 간단한 드로잉과 설명으로 만들 수 있는 직관적인 시스템이 탄생하며, 손으로 그린 애니메이션의 예술적 본질을 유지합니다.
연속값 자기회귀(AR) 이미지 생성 모델은 이산 토큰 대응물보다 뚜렷한 우월성을 나타내며 상당한 재구성 품질과 높은 생성 충실도를 보여주고 있다. 그러나 자기회귀 프레임워크의 계산 요구는 상당한 추론 오버헤드로 이어진다. 추측적 디코딩이 대형 언어 모델(LLMs)의 가속화에 효과적임이 입증되었지만, 이를 연속값 시각 자기회귀 모델에 적용한 연구는 아직 시도되지 않았다. 본 연구는 추측적 디코딩 알고리즘을 이산 토큰에서 연속 공간으로 일반화한다. 출력 분포의 본질적 특성을 분석하여, 이러한 모델에서 흔히 나타나는 확산 분포에 대한 맞춤형 수용 기준을 수립한다. 추측적 디코딩 출력 분포에서 발생한 불일치를 극복하기 위해, 소음 제거 궤적 정렬 및 토큰 사전 채움 방법을 도입한다. 또한, 거부 단계에서 발생하는 샘플링 어려움 분포를 식별한다. 이 문제를 완화하기 위해, 적절한 상한선을 가진 세심한 수용-거부 샘플링 방법을 제안하여 복잡한 적분을 우회한다. 실험 결과는 우리의 연속 추측적 디코딩이 완제품 모델에서 놀라운 2.33배 속도 향상을 달성하면서 출력 분포를 유지한다는 것을 보여준다. 코드는 https://github.com/MarkXCloud/CSpD에서 이용 가능할 것이다.
최근의 기본 비전 언어 모델(VLMs)의 발전은 컴퓨터 비전 작업에서 평가 패러다임을 재정립했습니다. 특히 CLIP와 같은 이러한 기본 모델들은 Open-Vocabulary Semantic Segmentation (OVSS)를 포함한 개방 어휘의 컴퓨터 비전 작업의 연구를 가속화했습니다. 초기 결과는 유망하지만, VLMs의 밀집 예측 능력은 여전히 추가적인 개선이 필요합니다. 본 연구에서는 CLIP의 의미 분할 성능을 향상시키기 위해 새로운 모듈과 수정 사항을 도입했습니다: 1) ViT의 마지막 레이어에서의 구조적 변화 및 중간 레이어로부터의 어텐션 맵을 마지막 레이어와 통합, 2) 이미지 엔지니어링: 입력 이미지 표현을 풍부하게 하기 위해 데이터 증강을 적용, 그리고 3) 각 클래스 이름에 대한 정의와 동의어를 생성하기 위해 대형 언어 모델(LLMs)을 활용하여 CLIP의 개방 어휘 능력을 활용합니다. 저희의 훈련 무료 방법인 ITACLIP은 COCO-Stuff, COCO-Object, Pascal Context, Pascal VOC와 같은 세그멘테이션 벤치마크에서 현재 최첨단 접근법을 능가합니다. 저희의 코드는 https://github.com/m-arda-aydn/ITACLIP에서 확인하실 수 있습니다.
본 논문은 공개적으로 이용 가능한 AI 모델의 급속히 진화하는 생태계와 그것이 보안 및 안전 환경에 미칠 잠재적 영향을 탐구합니다. AI 모델이 점차 보편화되면서, 그들의 잠재적 위험과 취약점을 이해하는 것이 중요합니다. 우리는 현재의 보안 및 안전 시나리오를 검토하면서 추적 문제, 복구, 그리고 AI 모델 수명주기와 소유권 프로세스의 명백한 부재 등의 도전에 주목합니다. 모델 개발자와 최종 사용자 모두의 보안과 안전을 강화하기 위한 포괄적인 전략을 제안합니다. 본 논문은 AI 모델의 개발 및 운영에서 더 표준화된 보안, 안전, 그리고 투명성을 위한 기초적인 요소들을 제공하기 위한 것으로, 그 주변에서 형성되고 있는 더 큰 개방적인 생태계와 커뮤니티에 대해 다룹니다.
소프트 로봇 시스템에서 동적 손 내 조작은 안전하고 유연한 상호 작용에서 이점을 보이지만 고속 동적 작업에 어려움을 겪는 도전적인 과제입니다. 본 연구에서는 소프트하고 유연한 로봇 손을 사용하여 동적 작업을 학습하는 SWIFT 시스템을 제안합니다. 이전 연구들과 달리 시뮬레이션, 준정적 행동 및 정확한 객체 모델에 의존하는 것이 아니라, 제안된 시스템은 펜을 회전시키는 것을 시행착오를 통해 학습하며 펜의 물리적 속성에 대한 명시적 사전 지식이 필요하지 않은 실제 데이터만 사용합니다. 실제 세계에서 샘플링된 자체 레이블이 지정된 시행착오를 통해 시스템은 소프트한 손이 펜을 견고하고 신뢰성 있게 회전시킬 수 있는 펜을 잡고 회전시키는 기본 매개변수 세트를 발견합니다. 물체 당 130개의 샘플링된 작업 후, SWIFT는 서로 다른 무게와 무게 분포를 가진 세 개의 펜에 걸쳐 100%의 성공률을 달성하여 시스템의 일반화 및 물체 속성 변화에 대한 견고성을 입증합니다. 결과는 소프트 로봇 종단 효과기가 빠른 손 내 조작을 포함한 동적 작업을 수행할 잠재력을 강조합니다. 또한 SWIFT가 브러시와 나사 드라이버와 같은 다른 모양과 무게의 항목을 회전시키는 데 일반화되며, 각각 10/10 및 5/10의 성공률로 회전시킴을 시연합니다. 비디오, 데이터 및 코드는 https://soft-spin.github.io에서 제공됩니다.
기존의 이미지 품질 평가(IQA) 방법은 전체 이미지의 품질을 분석하는 데 놀라운 성과를 거두었지만, 일부 연구는 관심 영역(ROIs)에 대한 품질 분석을 탐구하고 있지 않다. ROIs의 품질 분석은 이미지 품질 향상을 위한 세밀한 지침을 제공하며 영역 수준의 품질에 초점을 맞춘 시나리오에 중요하다. 본 논문에서는 SEAGULL이라는 새로운 네트워크를 제안하는데, 이는 대형 Vision-Language 모델로부터의 지침을 받아 ROIs의 품질을 볼 수 있고 평가할 수 있는 능력을 갖추고 있다. SEAGULL은 Vision-Language 모델(VLM), ROIs를 지정하기 위해 생성된 Mask를 사용하는 Segment Anything Model (SAM), 그리고 지정된 ROIs의 전역 및 지역 토큰을 추출하기 위한 섬세하게 설계된 Mask 기반 특징 추출기(MFE)를 통합하여 ROIs에 대한 정확한 세밀한 IQA를 가능하게 한다. 게다가, 본 논문은 두 개의 ROI 기반 IQA 데이터셋, SEAGULL-100w와 SEAGULL-3k를 구축했는데, 이는 ROI 기반 IQA의 교육 및 평가를 위한 것이다. SEAGULL-100w는 선별적인 품질 지각 능력을 향상시키기 위해 사전 훈련용으로 약 100w의 합성 왜곡 이미지와 3300만 개의 ROIs로 구성되어 있으며, SEAGULL-3k는 실제 세계 왜곡을 인식하는 모델의 능력을 향상시키기 위해 약 3k의 실제 왜곡 ROIs를 포함하고 있다. SEAGULL-100w에서 사전 훈련을 거친 후 SEAGULL-3k에서 세밀한 조정을 한 결과, SEAGULL은 세밀한 ROI 품질 평가에서 놀라운 성과를 보여주었다. 코드와 데이터셋은 https://github.com/chencn2020/Seagull에서 공개적으로 제공된다.
트랜스포머 아키텍처를 기반으로 한 대형 언어 모델(Large Language Models, LLMs)은 다양한 영역을 혁신하며, 토큰화는 전처리 및 세밀 조정 단계에서 중추적인 역할을 합니다. 특히 인디아어에 맞춘 다국어 모델에서는 효과적인 토큰화가 성능 최적화에 중요합니다. 본 논문은 인도의 모든 22개 공식 언어를 대상으로 12개 LLMs에서 사용된 토크나이저의 종합적인 평가를 제시하며, 토큰화 과정의 효율성을 비교하는 데 초점을 맞춥니다. 분석에서 주요 지표로 정규화된 시퀀스 길이(Normalized Sequence Length, NSL)를 활용했습니다. 연구 결과는 SUTRA 토크나이저가 14개 언어에서 포함하여 다른 모델들을 능가하는 것을 밝혀냅니다. 주목할 만한 인사이트로는 SUTRA 토크나이저가 인디아어를 우수하게 처리하며, GPT-4o가 선배 모델인 GPT-4보다 인도어 처리에서 진보한 점, 그리고 특정 언어에서 Project Indus의 제한된 성능이 있습니다. 본 연구는 다국어 및 인디아 중심 모델을 위한 표적 토큰화 전략 개발의 중요성을 강조하며, 언어적 커버리지와 모델 효율성을 향상시키기 위한 토크나이저 설계 개선을 위한 토대를 마련합니다.