번역이 포함된 일일 선별된 AI 연구 논문
주체 중심 텍스트 대 이미지 생성은 새로운 주체의 이미지를 원하는 맥락 내에서 정확하게 캡처하여 주체의 시각적 특성과 텍스트 프롬프트의 의미적 내용을 모두 보여주는 것을 목표로 합니다. 기존 방법은 주체 정렬을 위해 시간과 자원을 많이 필요로 하는 미세 조정에 의존하며, 최근의 제로샷 접근법은 온더플라이 이미지 프롬프팅을 활용하며 종종 주체 정렬을 희생시킵니다. 본 논문에서는 대규모 텍스트 대 이미지 모델에서 발생하는 디피크 생성의 신흥 특성을 활용하여 정확한 주체 정렬을 통해 재해석하는 새로운 제로샷 접근법인 디피크 프롬프팅을 소개합니다. 디피크 프롬프팅은 왼쪽 패널에 참조 이미지와 함께 불완전한 디피크를 배치하고, 오른쪽 패널에서 텍스트에 의존하는 인페인팅을 수행합니다. 또한 참조 이미지에서 배경을 제거함으로써 원치 않는 콘텐츠 누출을 방지하고, 인페인팅 중 패널 간 주의 가중치를 강화하여 생성된 주체의 세부 사항을 개선합니다. 실험 결과는 우리의 방법이 제로샷 이미지 프롬프팅 방법을 크게 능가하여 사용자들이 시각적으로 선호하는 이미지를 생성한다는 것을 확인합니다. 더불어, 우리의 방법은 주체 중심 생성 뿐만 아니라 스타일화된 이미지 생성 및 주체 중심 이미지 편집을 지원하며, 다양한 이미지 생성 응용 프로그램에서 다재다능함을 보여줍니다. 프로젝트 페이지: https://diptychprompting.github.io/
본 연구는 675개의 근본적으로 해결 불가능한 문제에 대한 대규모 언어 모델(Large Language Models, LLMs)의 불확실성을 인지하는 능력을 평가하기 위해 고안된 혁신적인 평가 프레임워크를 소개합니다. 고의적으로 알 수 없는 답변을 가진 대학 수준의 중요한 도전 과제 질문들로 구성된 선별된 데이터셋을 활용하여, 오픈 및 폐쇄 소스 모델을 포함한 12개의 최첨단 LLMs를 평가하여, 그들이 가능한 대답을 생성하는 대신 무지를 인정하는 경향을 조사했습니다. 최고의 모델들은 생물학부터 철학 및 수학 분야까지의 문제 해결이 알려지지 않았음을 인정하는 정확도 범위에서 62-68%의 점수를 기록했습니다. 문제 난이도와 모델 정확도 사이에 역상관 관계를 관찰했으며, GPT-4는 보다 어려운 문제(35.8%)에서 더 높은 불확실성 인지율을 보여주었고, 더 간단한 문제(20.0%)에서는 그렇지 않았습니다. 이 패턴은 문제가 보다 해결 가능해 보일 때 모델이 추측적인 답변을 생성하기 쉬울 수 있다는 것을 나타냅니다. 연구는 또한, 발명과 NP-하드 문제에서의 불확실성을 인정하는 데 어려움을 겪는 모델들과 철학적 및 심리적 도전 과제에서 상대적으로 더 나은 성과를 보이는 모델들 사이의 중요한 차이를 밝혔습니다. 이러한 결과는 미래 기계 지능 평가의 중요한 구성 요소로서 불확실성 인지의 중요성을 강조함으로써 인공 일반 지능(Artificial General Intelligence, AGI) 평가에 대한 연구의 증가하는 영역에 기여합니다. 이 불가능성 테스트는 현재 LLMs의 자신의 지식 경계를 인지하는 능력의 한계를 경험적 증거로 제시함으로써, 향후 모델 훈련 아키텍처 및 평가 방법을 개선하기 위한 새로운 방향을 제안하여, 범용 지능 테스트에 대한 이론적 프레임워크를 확장합니다.
물질 어떤 것(Material Anything)은 3D 객체를 위해 물리적 기반의 물질을 생성하기 위해 설계된 완전 자동화된 통합 확산 프레임워크를 제시합니다. 복잡한 파이프라인이나 특정 사례에 최적화된 기존 방법과는 달리, 물질 어떤 것은 다양한 조명 조건 하의 객체에 적응 가능한 견고한 엔드 투 엔드 솔루션을 제공합니다. 저희 방법은 사전 훈련된 이미지 확산 모델을 활용하며, 트리플 헤드 아키텍처와 렌더링 손실을 향상시켜 안정성과 물질 품질을 향상시킵니다. 게다가, 우리는 확신 마스크를 확산 모델 내에서 동적 스위처로 소개하여 다양한 조명 조건 하의 텍스처 있는 객체와 텍스처 없는 객체를 효과적으로 처리할 수 있게 합니다. 이러한 확신 마스크에 의해 이끌리는 점진적 물질 생성 전략과 UV-공간 물질 세련기를 활용함으로써, 우리의 방법은 일관된, UV 준비된 물질 출력을 보장합니다. 광범위한 실험 결과는 우리의 방법이 다양한 객체 범주와 조명 조건에서 기존 방법을 능가함을 입증합니다.
본 논문은 OpenAI의 O1 모델 능력을 복제하는 현재 접근 방식에 대한 비판적 검토를 제시하며, 특히 지식 증류 기술의 널리 사용되지만 종종 공개되지 않는 측면에 초점을 맞춥니다. 이전 연구는 O1 복제에 대한 기본 기술적 경로를 탐구했으나, 본 연구는 O1의 API에서의 간단한 증류와 지도 미세 조정을 결합하여 복잡한 수학적 추론 작업에서 우수한 성능을 달성할 수 있는 방법을 밝혀냅니다. 광범위한 실험을 통해, 수만 개의 O1-증류된 샘플에 미세 조정된 기본 모델이 AIME(American Invitational Mathematics Examination)에서 O1-미리보기보다 우수한 성과를 보이는 것을 보여줍니다. 더욱이, 우리의 조사는 수학적 추론을 넘어 O1-증류된 모델의 일반화 능력을 다양한 작업을 통해 탐구합니다: 환각, 안전 및 오픈 도메인 QA. 특히, 수학 문제 해결 데이터만을 학습한에도 불구하고, 우리 모델은 오픈 엔드 QA 작업에 강한 일반화 능력을 보여주었으며, 미세 조정 후에는 현파에 대한 저항력이 크게 향상되었습니다. 우리는 이 발견을 공개적으로 공개하여 AI 연구의 투명성을 증진하고, 분야에서의 불분명한 기술적 주장에 도전합니다. 우리의 작업에는 다음이 포함됩니다: (1) 증류 과정과 그 효과에 대한 상세한 기술적 해설, (2) O1 복제 시도를 기술적 투명성과 재현성에 따라 평가하고 분류하는 포괄적인 벤치마크 프레임워크, (3) 증류 접근 방식에 과도하게 의존하는 한계와 잠재적 위험에 대한 비판적 논의. 우리의 분석은 중요한 쓴 교훈으로 이루어지며, 더 능력 있는 AI 시스템을 추구하는 것은 중요하지만, 원리주의적 사고에 기반을 둔 연구자들의 개발이 중요하다는 것을 결론으로 합니다.
평가와 평가는 인공지능(AI)과 자연어 처리(NLP)에서 오랫동안 중요한 과제였습니다. 그러나 전통적인 방법들, 매칭 기반이든 임베딩 기반이든, 종종 섬세한 속성을 판단하고 만족스러운 결과를 제공하는 데 한계가 있습니다. 최근 대형 언어 모델(LLMs)의 발전은 "LLM-판사" 패러다임을 영감을 주었는데, 여기서 LLMs는 다양한 작업과 응용 프로그램에서 점수 매기기, 순위 매기기 또는 선택을 수행하는 데 활용됩니다. 본 논문은 LLM 기반 판단과 평가에 대한 포괄적인 조사를 제공하여 이 신흥 분야를 발전시키기 위한 심층적인 개요를 제공합니다. 우리는 입력 및 출력 관점에서 상세한 정의를 제공함으로써 시작합니다. 그런 다음, 우리는 어떤 것을 판단할지, 어떻게 판단할지, 어디서 판단할지라는 세 가지 차원에서 LLM-판사를 탐색하기 위한 포괄적인 분류 체계를 소개합니다. 마지막으로, LLM-판사를 평가하기 위한 벤치마크를 편성하고 주요 도전 과제와 유망한 방향을 강조하여 이 유망한 연구 분야에서 가치 있는 통찰력을 제공하고 미래 연구를 영감을 주고자 합니다. LLM-판사에 관한 논문 목록 및 더 많은 자료는 https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge 및 https://llm-as-a-judge.github.io에서 찾을 수 있습니다.
일반적인 인공지능 분야에서의 중요한 발전이 있었음에도 불구하고, 예를 들어 GPT-4와 같은 것들이 의료 분야(일반 의료 인공지능, GMAI)에서는 전문적인 의료 지식의 부재로 인해 효과가 제한되어 있습니다. 이러한 도전에 대처하기 위해, 우리는 수백 개의 전문 의료 데이터셋을 세심하게 구축된 이미지-텍스트 쌍으로 변환하여 만든 포괄적인 다중 모달 의료 데이터셋인 GMAI-VL-5.5M을 제시합니다. 이 데이터셋은 포괄적인 작업 범위, 다양한 모달리티, 그리고 고품질의 이미지-텍스트 데이터를 특징으로 합니다. 이 다중 모달 데이터셋을 기반으로, 우리는 점진적으로 세 단계의 훈련 전략을 갖춘 일반 의료 비전-언어 모델인 GMAI-VL을 제안합니다. 이 방법은 시각적 및 텍스트 정보를 통합함으로써 모델의 능력을 크게 향상시키며, 다중 모달 데이터를 처리하고 정확한 진단 및 임상 의사 결정을 지원하는 능력을 향상시킵니다. 실험적 평가 결과, GMAI-VL이 시각적 질문 응답 및 의료 이미지 진단과 같은 다양한 다중 모달 의료 작업에서 최첨단 결과를 달성한다는 것을 보여줍니다. 우리의 기여에는 GMAI-VL-5.5M 데이터셋의 개발, GMAI-VL 모델의 소개, 그리고 여러 의료 분야에서 새로운 기준의 수립이 포함됩니다. 코드와 데이터셋은 https://github.com/uni-medical/GMAI-VL에서 공개될 예정입니다.
제2회 대형 언어 모델 (LLM) 응용 소재 과학 및 화학 해커톤의 결과를 제시합니다. 이 해커톤은 전 세계의 혼합 위치에 참가자들을 모아 총 34개의 팀 제출을 이끌었습니다. 제출물은 일곱 가지 주요 응용 영역을 아우르며, (1) 분자 및 물질 특성 예측; (2) 분자 및 물질 설계; (3) 자동화 및 새로운 인터페이스; (4) 과학적 커뮤니케이션 및 교육; (5) 연구 데이터 관리 및 자동화; (6) 가설 생성 및 평가; 그리고 (7) 과학 문헌으로부터 지식 추출 및 추론을 보여주었습니다. 각 팀 제출물은 코드 링크와 함께 요약 테이블에 제시되었으며, 부록에 간결한 논문으로 수록되었습니다. 팀 결과물 외에도, 우리는 해커톤 행사와 그 혼합 형식에 대해 논의하였습니다. 이 형식은 토론토, 몬트리올, 샌프란시스코, 베를린, 로잔, 도쿄에 물리적 허브를 포함하고 지역 및 가상 협업을 가능케 하는 글로벌 온라인 허브를 함께 제공했습니다. 전반적으로, 이 행사는 작년 해커톤 이후 LLM 능력의 상당한 향상을 강조하며, 소재 과학 및 화학 연구에 대한 LLM 응용의 지속적 확대를 시사합니다. 이러한 결과는 LLM의 이중 활용성을 보여주며, 다양한 기계 학습 작업을 위한 다목적 모델로서와 과학 연구에서 사용자 정의 응용 프로그램을 신속하게 프로토타이핑하는 플랫폼으로서의 LLM의 역할을 입증합니다.
저희는 OneDiffusion을 소개합니다. 이는 다양한 작업을 효율적으로 지원하는 다목적 대규모 확산 모델로, 양방향 이미지 합성과 이해를 매끄럽게 지원합니다. 이 모델은 텍스트, 깊이, 자세, 레이아웃, 의미 지도와 같은 입력으로부터 조건付 생성을 가능케 하며, 이미지 흐림 제거, 확대, 그리고 깊이 추정, 분할과 같은 역과정을 처리합니다. 더불어, OneDiffusion은 다중 뷰 생성, 카메라 자세 추정, 순차적 이미지 입력을 이용한 즉각적인 개인화도 가능합니다. 저희 모델은 모든 작업을 훈련 중에 다양한 잡음 스케일을 가진 프레임 시퀀스로 취급하여 간단하면서도 효과적인 방식을 채택하며, 추론 시 어떤 프레임이든 조건 이미지로 작용할 수 있도록 합니다. 통합된 훈련 프레임워크는 전문화된 아키텍처의 필요성을 없애며, 확장 가능한 다중 작업 훈련을 지원하며, 어떤 해상도에도 원활하게 적응하여 일반화 및 확장성을 향상시킵니다. 실험 결과는 텍스트에서 이미지로, 다중 뷰 생성, ID 보존, 깊이 추정, 카메라 자세 추정과 같은 생성 및 예측 작업에서 경쟁력 있는 성능을 보여주었으며, 상대적으로 작은 훈련 데이터셋에도 불구하고 우수한 성과를 얻었습니다. 저희의 코드와 체크포인트는 https://github.com/lehduong/OneDiffusion에서 무료로 제공됩니다.
다중 헤드 전문가 혼합 (MH-MoE)은 다양한 전문가들 사이에서 다양한 표현 공간에서 정보에 집중하기 위해 다중 헤드 메커니즘을 사용하여 우수한 성능을 나타냅니다. 본 논문에서는 FLOP 및 매개변수 동등성을 유지하는 새로운 MH-MoE 구현을 제시합니다. 언어 모델에 대한 실험 결과는 새로운 구현이 일반 MoE 및 세분화된 MoE 모델보다 품질 향상을 가져온다는 것을 보여줍니다. 게다가, 우리의 실험은 MH-MoE가 BitNet과 같은 1-비트 대규모 언어 모델 (LLM)과 호환되는 것을 보여줍니다.
대화식 의료 이미지 분할(IMIS)은 오랫동안 대규모, 다양하며 밀도 높은 주석 데이터셋의 제한된 가용성으로 모델의 일반화와 다양한 모델 간 일관된 평가가 어려웠습니다. 본 논문에서는 일반적인 IMIS 연구의 중요한 발전으로 IMed-361M 벤치마크 데이터셋을 소개합니다. 먼저, 다양한 데이터 소스에서 640만 개 이상의 의료 이미지와 그에 상응하는 정답 마스크를 수집하고 표준화했습니다. 그런 다음, 시각 기반 모델의 강력한 객체 인식 능력을 활용하여 각 이미지에 대해 밀도 높은 대화식 마스크를 자동으로 생성하고 엄격한 품질 관리와 세분화 관리를 통해 품질을 보장했습니다. 이전 데이터셋과 달리, IMed-361M은 특정 모달리티나 희소한 주석으로 제한되지 않으며, 14가지 모달리티와 204개의 분할 대상을 포함하여 총 3억 6100만 개의 마스크로 이루어져 있습니다. 마지막으로, 이 데이터셋에서 IMIS 기준 신경망을 개발했는데, 이는 클릭, 바운딩 박스, 텍스트 프롬프트 및 그들의 조합을 포함한 대화식 입력을 통해 고품질 마스크 생성을 지원합니다. 본 연구는 다양한 관점에서 의료 이미지 분할 작업에 대한 성능을 평가하여, 기존의 대화식 분할 모델보다 우수한 정확성과 확장성을 보여줍니다. 의료 컴퓨터 비전의 기초 모델 연구를 촉진하기 위해, IMed-361M과 모델을 https://github.com/uni-medical/IMIS-Bench 에 공개합니다.
전산 단층 촬영(CT)은 의료 영상 분야에서 가장 인기 있는 모달리티 중 하나입니다. 현재까지 CT 영상은 체적 의료 분할 작업을 위한 가장 큰 공개 데이터셋에 기여하며, 전신 해부 구조를 다룹니다. 대량의 전신 CT 영상은 강력한 모델, 예를 들어 감독 학습으로 사전 훈련된 STU-Net과 같은 모델을 사전 훈련하는 기회를 제공합니다. 그러나 이러한 사전 훈련된 모델이 다양한 하류 의료 분할 작업, 특히 다른 모달리티 및 다양한 대상을 분할하는 데 어떤 조건에서 전이될 수 있는지는 여전히 명확하지 않습니다. 이 문제를 해결하기 위해 포괄적인 평가를 위한 대규모 벤치마크가 중요합니다. 따라서 우리는 다양한 모달리티, 대상 및 샘플 크기에 변화하는 87개의 공개 데이터셋을 수집하여 전신 CT 사전 훈련 모델의 전이 능력을 평가했습니다. 그런 다음 대표적인 모델인 STU-Net과 여러 모델 스케일을 사용하여 모달리티 및 대상 간 전이 학습을 수행했습니다. 실험 결과는 다음과 같습니다. (1) 미세 조정에서 데이터셋 크기에 따른 병목 효과가 있을 수 있으며, 중간 규모의 데이터셋보다 소규모 및 대규모 데이터셋에서 더 많은 개선이 있습니다. (2) 전신 CT에서 사전 훈련된 모델은 MRI와 같은 다른 모달리티에 효과적으로 전이되며, (3) 전신 CT에서 사전 훈련을 받는 것은 구조 감지에서 강력한 성능을 지원할 뿐만 아니라 병변 감지에서도 효과를 보여주며, 대상 작업 간의 적응성을 보여줍니다. 우리는 이러한 체적 의료 영상 분할에 대한 미래 연구를 이끌 수 있는 대규모 개방 평가를 통해 전이 학습에 대한 방향을 제시할 수 있기를 희망합니다.
AdamW는 트랜스포머 사전 훈련의 기본 옵티마이저였습니다. 많은 해동안, 우리 커뮤니티는 더 빠르고 안정적인 옵티마이저를 찾아왔으며 이는 긍정적인 결과에만 제약을 두었습니다. 본 연구에서는 PyTorch에 한 줄의 수정을 제안하여 모멘텀 기반 옵티마이저에 Cautious Optimizer라는 이름을 붙였습니다. 예를 들어 C-AdamW와 C-Lion입니다. 우리의 이론적 결과는 이 수정이 Adam의 Hamiltonian 함수를 보존하며 Lyapunov 분석에서 수렴 보장을 깨지 않음을 보여줍니다. 게다가, 우리의 이론적 통찰력에 의해 새로운 옵티마이저 패밀리 전체가 밝혀졌습니다. 이 중에서 우리는 실험적 연구를 위해 가장 간단한 것을 선택하여 Llama 및 MAE 사전 훈련에서 최대 1.47배의 가속을 보여주었습니다. 코드는 https://github.com/kyleliang919/C-Optim에서 확인할 수 있습니다.
스토리텔링 비디오 생성(SVG)은 최근에 등장한 작업으로, 입력 텍스트 스크립트에 설명된 이야기를 일관되게 나타내는 긴 다중 동작, 다중 장면 비디오를 생성하는 것을 목표로 합니다. SVG는 미디어 및 엔터테인먼트 분야에서 다양한 콘텐츠 생성의 가능성을 가지고 있지만, 중요한 도전 과제도 제기됩니다: (1) 객체는 다양한 세밀하고 복잡한 동작을 보여줘야 하며, (2) 여러 객체는 장면 전체에 걸쳐 일관되게 나타나야 하며, (3) 주제는 단일 장면 내에서 매끄러운 전환을 통해 여러 동작이 필요할 수 있습니다. 이러한 도전 과제에 대응하기 위해 우리는 DreamRunner이라는 혁신적인 이야기-비디오 생성 방법을 제안합니다: 먼저, 우리는 대규모 언어 모델(LLM)을 사용하여 입력 스크립트를 구조화하여 대략적인 장면 계획 및 세밀한 객체 수준의 레이아웃 및 동작 계획을 용이하게 합니다. 그 다음, DreamRunner은 검색 증강 테스트 시간 적응을 제시하여 각 장면의 객체에 대한 목표 동작 사전을 캡처하여, 검색된 비디오를 기반으로 다양한 동작 사용자 정의를 지원함으로써 복잡한 스크립트된 동작을 갖는 새로운 비디오 생성을 용이하게 합니다. 마지막으로, 우리는 세밀한 객체 동작 바인딩과 프레임별 의미적 제어를 위한 혁신적인 공간-시간 영역 기반 3D 주의 및 사전 주입 모듈 SR3AI를 제안합니다. 우리는 DreamRunner을 다양한 SVG 기준선과 비교하여, 캐릭터 일관성, 텍스트 정렬 및 부드러운 전환에서 최신 기술 성능을 보여줍니다. 게다가, DreamRunner은 T2V-ComBench에서 합성 텍스트-비디오 생성에서 강력한 세밀한 조건 따르기 능력을 나타내며, 기준선을 크게 능가합니다. 마지막으로, 우리는 DreamRunner의 강력한 다중 객체 상호작용 생성 능력을 질적 예시를 통해 검증합니다.
시각 토크나이저는 이미지 생성에 기본적입니다. 이들은 시각 데이터를 이산 토큰으로 변환하여 트랜스포머 기반 모델이 이미지 생성에서 뛰어난 성과를 거둘 수 있게 합니다. 그들의 성공에도 불구하고, VQGAN과 같은 VQ 기반 토크나이저는 제한된 어휘 크기로 인한 중요한 제약으로 직면합니다. 코드북을 단순히 확장하는 것은 종종 훈련 불안정성과 성능 저하로 이어지며, 확장성이 중요한 과제가 됩니다. 본 연구에서는 Factorized Quantization (FQ)이라는 혁신적인 방법을 소개하여 VQ 기반 토크나이저를 부활시킵니다. 이 방법은 대규모 코드북을 여러 독립적인 하위 코드북으로 분해함으로써 큰 코드북의 조회 복잡성을 줄이고 더 효율적이고 확장 가능한 시각 토큰화를 가능하게 합니다. 각 하위 코드북이 구별되고 보완적인 정보를 포착하도록 보장하기 위해 중복을 명시적으로 줄이고 하위 코드북 간 다양성을 촉진하는 disentanglement regularization을 제안합니다. 더불어, 훈련 과정에서 표현 학습을 통합하여 CLIP와 DINO와 같은 사전 훈련된 비전 모델을 활용하여 의미론적 풍부함을 학습된 표현에 주입합니다. 이 설계는 우리의 토크나이저가 다양한 의미 수준을 포착하도록 보장하여 더 표현적이고 분리된 표현을 이끌어냅니다. 실험 결과 제안된 FQGAN 모델이 시각 토크나이저의 재구성 품질을 상당히 향상시켜 최첨단 성능을 달성함을 보여줍니다. 더불어, 이 토크나이저가 효과적으로 자기 회귀적 이미지 생성으로 적응될 수 있음을 입증합니다. https://showlab.github.io/FQGAN
우리는 사용자의 시각적 히스토리가 일상을 반영하는 이미지를 통해 그들의 관심사와 선호도에 대한 소중한 통찰을 제공하며 개인화에 활용될 수 있다고 가설을 세웁니다. 이 목표를 달성하기 위한 많은 도전 중 가장 중요한 것은 시각적 히스토리에 포함된 다양성과 잡음입니다. 이는 추천 작업과 관련이 없는 이미지, 사용자의 관심을 반영하지 않을 수도 있고 심지어 선호와 관련이 없을 수도 있는 이미지를 포함합니다. 기존의 추천 시스템은 특정 작업용 사용자 상호작용 로그(예: 온라인 쇼핑 히스토리)에 의존하거나 텍스트 신호에 초점을 맞춥니다. 저희는 VisualLens라는 새로운 접근 방식을 제안합니다. 이 방법은 이미지 표현을 추출, 필터링, 정제하고 이러한 신호를 개인화에 활용합니다. 우리는 작업에 중립적인 시각적 히스토리를 가진 두 가지 새로운 벤치마크를 만들었으며, 우리의 방법이 Hit@3에서 최신 추천 시스템보다 5-10% 향상되고 GPT-4o보다 2-5% 향상됨을 보여줍니다. 우리의 접근 방식은 전통적인 방법이 실패하는 시나리오에서의 개인화된 추천을 위한 길을 열어놓습니다.
우리는 새로운 개념을 배우는 방법을 제시합니다. 이 방법은 텍스트 설명만을 사용하여 새로운 개념을 학습하는 것입니다. 이를 '지식 전이'라고 부릅니다. 인간의 지각과 유사하게, 우리는 새로운 개념을 도입하기 위해 크로스 모달 상호작용을 활용합니다. 사전 훈련된 시각 인코더에는 이미 학습된 충분한 수준의 낮은 수준 특징(예: 모양, 외관, 색상)이 있다고 가정합니다. 이러한 특징은 이전에 알려지지 않은 고수준 개념을 설명하는 데 사용될 수 있습니다. 새로운 개념의 텍스트 설명이 제공될 때, 우리의 방법은 시각 인코더의 알려진 낮은 수준 특징을 해당 고수준 텍스트 설명에 정렬함으로써 작동합니다. 우리는 '지식 전이'가 다중 모달 모델에 새로운 개념을 매우 효율적으로 소개할 수 있음을 보여줍니다. 이는 대상 개념의 단일 설명만 필요로 합니다. 우리의 접근 방식은 별도의 텍스트 및 시각 인코더(예: CLIP) 및 모달 간 공유 매개변수와 호환됩니다. 또한 동일한 원칙을 따르면 '지식 전이'가 모델이 이미 알고 있는 개념을 개선할 수 있음을 보여줍니다. 지식 전이를 활용하여 우리는 분류, 분할, 이미지-텍스트 검색 및 캡션 작성과 같은 다양한 작업에서 제로샷 성능을 향상시킵니다.
x86에서 ARM 아키텍처로의 전환은 주로 ARM의 에너지 효율성과 전통적인 분야에서의 성능 향상으로 주도되어 다양한 영역에서 점점 더 일반적으로 이루어지고 있습니다. 그러나 이 ISA 전환은 주로 x86 소프트웨어의 방대한 레거시 생태계와 프로프라이어터리 생태계 및 소프트웨어 스택 간의 이식성 부족으로 인해 중대한 도전을 제기합니다. 본 논문은 CRT를 소개하는데, 이는 가벼운 LLM 기반 트랜스파일러로 x86 어셈블리를 ARM 어셈블리로 자동 변환합니다. 저희의 방법론은 x86의 CISC 기반과 ARM의 RISC 기반 컴퓨팅 패러다임 사이의 근본적인 아키텍처적 격차를 극복하면서 프로그램 의미론을 보존하고 성능을 최적화합니다. 저희는 다양한 실제 응용 프로그램에서 CRT를 평가하였으며, 포괄적인 테스트 스위트에서 x86에서 ARMv5로의 79.25% 번역 정확도와 x86에서 RISC-V로의 88.68% 정확도를 달성하였습니다. Apple M2 하드웨어 (ARMv8)에서의 실제 배포에서, 저희의 트랜스파일된 코드는 Apple의 Rosetta 2 가상화 엔진 대비 1.73배의 가속을 달성하면서 2.41배의 메모리 효율성과 1.47배의 더 나은 에너지 소비를 제공합니다. 테스트와 분석을 통해, CRT가 CISC/RISC 분할을 성공적으로 탐험하고 기계 "언어" 장벽에도 불구하고 올바르게 실행 가능한 RISC 코드를 생성함을 보여줍니다. 저희는 코드, 모델, 훈련 데이터셋 및 벤치마크를 다음 링크에서 공개합니다: https://ahmedheakl.github.io/asm2asm/.
기존의 대형 다중모달 모델(LMMs)은 일반적으로 몇 개의 지역과 언어에만 초점을 맞추고 있습니다. LMMs가 계속 발전함에 따라 문화적 맥락을 이해하고 지역 감수성을 존중하며 저자원 언어를 지원하는 것이 점점 중요해지고 있습니다. 이 모든 것을 효과적으로 통합하면서 상응하는 시각적 단서를 효과적으로 통합하는 것이 중요합니다. 문화적으로 다양한 글로벌 다중모달 모델을 추구하기 위해 우리의 제안된 All Languages Matter Benchmark (ALM-bench)는 100개 언어를 대상으로 LMMs를 평가하기 위한 지금까지 가장 크고 포괄적인 노력을 대표합니다. ALM-bench는 기존 모델들을 도전하여 문화적으로 다양한 이미지와 텍스트를 다양한 언어로 결합한 것에 대한 이해력과 추론 능력을 테스트합니다. 이는 LMM 연구에서 일반적으로 소홀히 되는 저자원 언어를 포함한 다양한 언어로 진행됩니다. 이 벤치마크는 다양한 질문 형식을 갖춘 견고하고 세밀한 평가 프레임워크를 제공하며, 참/거짓, 객관식, 주관식 질문으로 구성되어 있습니다. 이는 또한 짧은 답변과 긴 답변으로 나뉘어져 있습니다. ALM-bench의 디자인은 시각적 및 언어적 추론의 다양한 난이도를 처리하는 모델의 능력을 포괄적으로 평가합니다. 글로벌 문화의 풍요로움을 담기 위해 ALM-bench는 전통과 의식, 유명 인물 및 축제 등 13가지 다양한 문화 측면에서 콘텐츠를 신중하게 선별합니다. 이를 통해 ALM-bench는 최첨단 오픈 및 폐쇄 소스 LMMs에 대한 엄격한 테스트 플랫폼을 제공할 뿐만 아니라 문화적 및 언어적 포용성의 중요성을 강조하며 다양한 글로벌 인구를 효과적으로 지원할 수 있는 모델의 개발을 촉진합니다. 우리의 벤치마크는 공개적으로 이용 가능합니다.
텍스트 기반의 3D 장면 생성 및 편집은 직관적인 사용자 상호작용을 통해 콘텐츠 생성을 효율적으로 할 수 있는 상당한 잠재력을 지니고 있습니다. 최근의 발전은 고품질 및 실시간 렌더링을 위해 3차원 가우시안 스플래팅(3DGS)을 활용하고 있지만, 기존 방법들은 종종 특수화되어 있고 작업 중심적이며, 생성 및 편집을 위한 통합된 프레임워크가 부족합니다. 본 논문에서는 이 간극을 해소하기 위해 직접적인 3DGS 생성 및 편집을 가능하게 하는 포괄적인 프레임워크인 SplatFlow를 소개합니다. SplatFlow는 두 가지 주요 구성 요소로 이루어져 있습니다: 다중 뷰 정정된 플로우(RF) 모델과 가우시안 스플래팅 디코더(GSDecoder). 다중 뷰 RF 모델은 잠재 공간에서 작동하여 텍스트 프롬프트에 의해 조건부로 동시에 다양한 장면 규모와 복잡한 카메라 궤적과 같은 실제 세계 설정에서의 도전과제를 해결하기 위해 다중 뷰 이미지, 깊이 및 카메라 위치를 생성합니다. 그런 다음, GSDecoder는 이러한 잠재적 출력을 효율적으로 3DGS 표현으로 변환하기 위해 순방향 3DGS 방법을 사용합니다. 훈련 없이 역전 및 인페인팅 기술을 활용하여 SplatFlow는 신속한 3DGS 편집을 가능하게 하며, 별도의 복잡한 파이프라인이 필요하지 않는 통합된 프레임워크 내에서 객체 편집, 새로운 뷰 합성 및 카메라 위치 추정을 포함한 다양한 3D 작업을 지원합니다. MVImgNet 및 DL3DV-7K 데이터셋에서 SplatFlow의 능력을 검증하여 다양한 3D 생성, 편집 및 인페인팅 기반 작업에서의 다재다능성과 효과를 입증합니다.
Chain-of-Thought(사고 연쇄)가 복잡한 작업에서 LLMs의 성능을 현저히 향상시킬 수 있다는 것은 잘 알려져 있습니다. 그러나 이는 추론 속도가 느려지고 계산 비용이 높아지는 단점을 동반합니다. 이에 많은 연구들이 LLMs가 중간 단계를 명시적으로 생성할 필요가 없는 암시적 CoT를 사용하려고 시도해 왔습니다. 그러나 그들의 효과성과 전형적인 명시적 CoT 방법 사이에는 여전히 격차가 존재합니다. 이는 우리에게 의문을 남깁니다. 암시적 CoT가 정말 명시적 CoT와 동등한가요? 따라서 본 연구에서는 실험을 통해 이 질문에 대답합니다. 우리는 모델이 암시적 CoT를 수행할 때 숨겨진 상태에서 중간 단계의 정보를 조사합니다. 결과는 놀랍게도 LLMs가 중간 단계에 대해 거의 고려하지 않는다는 것을 나타내며, 이는 엄격한 단계별 추론보다는 경험에 의존할 수도 있다는 것을 시사합니다. 게다가, 우리는 LLMs의 암시적 추론 능력이 영향을 받고 불안정하다는 것을 발견하여, 복잡한 작업을 효과적으로 지원하기 위해 명시적 CoT의 필요성을 재확인합니다.
현대 LLM 확장에서의 근본적인 개방 도전 과제는 신흥 능력에 대한 부족한 이해입니다. 특히, 언어 모델 사전학습 손실은 계산의 함수로 매우 예측 가능하다는 것이 알려져 있습니다. 그러나 하류 능력은 훨씬 예측하기 어렵습니다. 때로는 신흥적인 점프조차 나타나기도 하는데, 이는 미래 모델의 능력을 예측하기 어렵게 만듭니다. 본 연구에서는 먼저 신흥 예측 작업을 제시합니다. 현재 무작위 소수점 정확도를 가진 LLM에 접근할 때, 미래 모델(GPT-N+1)이 해당 작업에서 비트 trivial 정확도를 가질지 예측할 수 있을까요? 그런 다음, 주어진 작업에 대해 LLM을 세밀 조정함으로써 신흥이 발생하는 지점을 덜 능력 있는 모델로 이동시킬 수 있는 간단한 통찰을 발견합니다. 이 통찰을 운영화하기 위해 데이터 양이 다른 LLM을 세밀 조정하고 신흥이 발생할 때를 예측하는 매개변수 함수를 맞출 수 있습니다("신흥 법칙"). 우리는 대형 오픈 소스 LLM이 이미 신흥을 보여주는 네 가지 표준 NLP 벤치마크(MMLU, GSM8K, CommonsenseQA, CoLA)를 사용하여 이 접근 방식을 검증합니다. 소규모 LLM만 사용하여, 경우에 따라 최대 4배 더 많은 계산으로 훈련된 모델이 신흥을 경험했는지 정확하게 예측할 수 있습니다. 마지막으로, 신흥 예측을 위한 두 가지 현실적인 사용 사례를 제시합니다.
현대 시퀀스 모델(예: 트랜스포머, 선형 RNN 등)은 효율성, 표현력, 그리고/또는 장거리 종속성을 포착하는 능력 때문에 최근 딥러닝 프레임워크의 중심적인 백본으로 부상했습니다. 그래프 구조 데이터에 대해 이러한 시퀀스 모델을 채택하는 것은 최근에 메시지 전달 신경망(Message Passing Neural Networks, MPNNs)의 대안으로 인기를 얻고 있습니다. 그러나 양질의 그래프 시퀀스 모델을 구성하는 데 대한 공통적인 기초가 부족하며, 서로 다른 시퀀스 모델을 그래프 학습에 채택할 때의 이점과 단점에 대한 수학적 설명이 부족합니다. 이에 우리는 먼저 Graph Sequence Model (GSM)을 제시합니다. 이는 그래프에 대한 시퀀스 모델을 채택하기 위한 통합 프레임워크로, 세 가지 주요 단계로 구성됩니다: (1) 토큰화, 그래프를 일련의 시퀀스로 변환하는 과정; (2) 지역 부호화, 각 노드 주변의 지역 이웃을 부호화하는 과정; 그리고 (3) 전역 부호화, 시퀀스 내에서 장거리 종속성을 포착하기 위해 확장 가능한 시퀀스 모델을 사용하는 과정입니다. 이 프레임워크를 통해 우리는 그래프 작업에서 다양한 시퀀스 모델 백본의 능력을 이해하고 평가하며 비교할 수 있습니다. 우리는 트랜스포머와 현대 재귀 모델의 표현 능력을 글로벌 및 지역 그래프 작업의 관점에서 이론적으로 평가하고, 두 유형의 모델에 대한 부정적인 면과 긍정적인 면이 모두 존재함을 보여줍니다. 이 관찰을 기반으로 우리는 GSM++을 제시합니다. 이는 그래프를 계층적 시퀀스로 토큰화하는 데 계층적 군집화(Hierarchical Affinity Clustering, HAC) 알고리즘을 사용하고, 이후에는 Transformer의 하이브리드 아키텍처를 사용하여 이러한 시퀀스를 부호화하는 빠른 하이브리드 모델입니다. 이론적 및 실험적 결과는 GSM++의 설계를 지원하며, GSM++이 대부분의 벤치마크 평가에서 베이스라인을 능가한다는 것을 보여줍니다.
카테고리에 중립적인 포즈 추정(Category-Agnostic Pose Estimation, CAPE)은 단일 모델을 사용하여 다양한 객체 카테고리에서 키포인트를 지역화하며, 하나 또는 몇 개의 주석이 달린 지원 이미지를 사용합니다. 최근 연구에서는 포즈 그래프를 사용함으로써(즉, 키포인트를 고립된 점이 아닌 그래프의 노드로 취급함으로써) 가려짐을 다루고 대칭을 깨는 데 도움이 되는 것으로 나타났습니다. 그러나 이러한 방법들은 정적 포즈 그래프를 가정하고 등중량 엣지를 갖는다고 가정하여 최적의 결과를 얻지 못합니다. 본 논문에서는 그래프의 엣지 가중치를 예측하여 지역화를 최적화하는 EdgeCape라는 혁신적인 프레임워크를 제안합니다. 구조적 사전 지식을 더 활용하기 위해, 우리는 Markovian Structural Bias를 통합하는 것을 제안합니다. 이는 노드 사이의 호핑 수에 따라 노드 간의 자기 주의 상호 작용을 조절합니다. 이를 통해 모델이 전역 공간 의존성을 포착하는 능력이 향상된다는 것을 보여줍니다. 100가지 카테고리와 20,000장 이상의 이미지를 포함하는 MP-100 벤치마크에서 평가한 결과, EdgeCape는 1-샷 설정에서 최첨단 결과를 달성하며, 5-샷 설정에서 유사한 크기의 방법들 중 가장 우수한 성과를 보여주어 키포인트 지역화 정확도를 크게 향상시킵니다. 우리의 코드는 공개적으로 이용 가능합니다.
3D에서 오픈 월드 부분 분할을 연구합니다: 어떤 텍스트 쿼리를 기반으로 어떤 객체의 어떤 부분도 분할합니다. 이전 방법들은 객체 범주와 부분 어휘에 제한이 있습니다. AI의 최근 발전은 2D에서 효과적인 오픈 월드 인식 능력을 증명했습니다. 이 발전을 영감으로 삼아, 우리는 어떤 객체에도 제로샷으로 적용할 수 있는 3D 부분 분할을 위한 오픈 월드, 직접 예측 모델을 제안합니다. Find3D라는 우리의 접근 방식은 어떤 인간 주석도 없이 인터넷의 대규모 3D 자산에서 일반 범주의 포인트 임베딩 모델을 훈련합니다. 이는 데이터를 주석 달기 위한 기초 모델에 의해 구동되는 데이터 엔진과 대조적인 훈련 방법을 결합합니다. 우리는 다중 데이터셋에서 강력한 성능과 일반화를 달성하며, 다음으로 최고의 방법에 비해 mIoU에서 최대 3배의 개선을 이룩합니다. 우리의 모델은 기존 베이스라인보다 6배에서 300배 이상 빠릅니다. 일반 범주의 오픈 월드 3D 부분 분할 연구를 촉진하기 위해 일반 객체 및 부분을 위한 벤치마크도 공개합니다. 프로젝트 웹사이트: https://ziqi-ma.github.io/find3dsite/