번역이 포함된 일일 선별된 AI 연구 논문
컴퓨터 비전(CV)은 자연어 처리(NLP)에서 관찰되는 제로샷 작업 일반화를 완전히 달성하지 못했습니다. NLP에서 설정된 많은 이정표를 따르고 있지만, 큰 트랜스포머 모델, 방대한 사전 훈련, 그리고 자기 회귀 패러다임 등과 같은 것들을 따르고 있음에도 불구하고요. 본 논문에서는 CV가 이산적이고 용어적인 작업 정의(예: "이미지 분할")를 채택하고 있는데, 이것이 제로샷 작업 일반화에 중요한 장벽일 수 있다는 아이디어를 탐구합니다. 우리의 가설은 이러한 용어적 정의로 인해 이전에 본 작업을 실제로 이해하지 못하는 경우, 깊은 모델이 새로운 작업으로 일반화하는 데 어려움을 겪을 수 있다는 것입니다. 이를 확인하기 위해 우리는 설명적 지시사항(Explanatory Instructions)을 소개합니다. 이 지시사항은 입력 이미지로부터 출력까지의 상세한 언어적 변환을 통해 CV 작업 목표를 직관적으로 정의하는 방법을 제공합니다. 우리는 1200만 개의 "이미지 입력에서 설명적 지시사항을 거쳐 출력" 쌍으로 이루어진 대규모 데이터셋을 만들고, 이미지와 설명적 지시사항을 모두 입력으로 취하는 자기 회귀 기반 비전-언어 모델(AR-based VLM)을 훈련시킵니다. 이 지시사항을 따르도록 학습함으로써, AR-based VLM은 이전에 본 작업에 대한 지시 수준의 제로샷 능력을 달성하고, 보이지 않는 CV 작업에 대한 강력한 제로샷 일반화를 보여줍니다. 코드와 데이터셋은 우리의 GitHub 저장소에서 공개적으로 이용 가능할 것입니다.
다중 모달 대형 언어 모델(MLLMs)은 의료 분야에서 상당한 잠재력을 가지고 있지만 종종 특정 의료 분야에서 데이터가 부족하여 그 능력이 제한되며, MLLMs가 일반화를 위해 어떤 종류의 이미지를 사용할 수 있는지 이해하는 필요성을 강조한다. 현재 연구에 따르면, 다중 작업 훈련이 단일 작업보다 우수한 성과를 내는 것으로 나타나며, 서로 다른 작업이 서로 이익을 줄 수 있지만 이러한 작업 내부 관계를 종종 간과하여 특정 작업을 향상시키기 위한 데이터셋 선택에 제한된 지침을 제공한다. 이 현상을 분석하기 위해 우리는 학습된 요소를 재조합하여 새로운 조합을 이해하는 모델의 능력인 합성 일반화(CG)를 안내 프레임워크로 활용하려고 시도했다. 의료 이미지는 Modal, 해부 영역 및 작업에 의해 정확하게 정의될 수 있어 CG를 탐색하기 위한 환경을 자연스럽게 제공한다. 따라서 우리는 종합적인 실험을 위해 106개의 의료 데이터셋을 모아 Med-MAT를 만들었다. 실험은 MLLMs가 CG를 사용하여 보이지 않는 의료 이미지를 이해하고 다중 작업 훈련에서 관측된 일반화의 주요 원동력 중 하나로 CG를 확인했다. 게다가, 추가 연구에서 CG가 제한된 데이터를 지원하고 다양한 백본에서 일관된 성능을 제공하여 그 다양성과 광범위한 적용 가능성을 강조함으로써 효과적으로 지원함을 입증했다. Med-MAT는 https://github.com/FreedomIntelligence/Med-MAT에서 공개적으로 이용할 수 있다.
OpenAI o1과 같은 모델의 놀라운 성능은 추론 중에 인간과 유사한 장기적 사고를 흉내 내는 능력으로 설명될 수 있습니다. 이러한 모델은 문제 해결 능력을 향상시키기 위해 여러 전략을 탐색하는 확장된 사고 연쇄 (CoT) 프로세스를 사용합니다. 그러나 중요한 질문이 남아 있습니다: 테스트 중에 계산 자원을 지능적이고 효율적으로 확장하는 방법은 무엇인가. 본 논문은 이러한 모델에서 지나치게 계산 자원이 할당되어 단순한 문제에 대해 최소한의 이점을 얻는 과도한 사고에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 o1과 유사한 모델이 계산 자원을 합리적으로 사용하는지 평가하기 위해 결과 및 과정 관점에서 혁신적인 효율성 지표를 소개합니다. 자가 교육 패러다임을 사용하여, 우리는 과도한 사고를 완화하고 정확도를 희생하지 않고 추론 프로세스를 간소화하는 전략을 제안합니다. 실험 결과는 우리의 접근 방식이 GSM8K, MATH500, GPQA, AIME 등 다양한 난이도의 테스트 세트에서 모델 성능을 유지하면서 계산 자원 과다 소비를 성공적으로 줄였음을 보여줍니다.
최근 발전된 생성 모델링 기술을 통해 이제는 텍스트 프롬프트로 제어되는 4D 콘텐츠(움직이는 3D 객체)를 생성할 수 있습니다. 4D 생성은 가상 세계, 미디어, 게임 등 다양한 응용 분야에서 큰 잠재력을 가지고 있지만, 기존 방법은 생성된 콘텐츠의 외관과 기하에 대한 제어를 제한합니다. 본 연구에서는 사용자가 제공한 3D 객체를 애니메이션화하는 방법을 소개하며, 텍스트 프롬프트를 활용하여 4D 생성을 안내함으로써 원본 객체의 정체성을 유지하면서 사용자 정의 애니메이션을 가능하게 합니다. 먼저, 3D 메쉬를 입력 객체의 시각적 속성을 보존하는 "정적" 4D 신경 방사율 필드(NeRF)로 변환합니다. 그런 다음, 텍스트에 의해 구동되는 이미지-비디오 확산 모델을 사용하여 객체를 애니메이션화합니다. 움직임의 현실성을 향상시키기 위해, 사실적인 움직임을 촉진하기 위해 관점 선택 프로토콜을 도입하고, 관련 영역에 최적화를 집중하기 위해 주의 맵을 활용하는 마스킹된 점수 증류 샘플링(SDS) 손실을 도입합니다. 우리는 시간적 일관성, 프롬프트 준수, 시각적 충실도 측면에서 모델을 평가하고, LPIPS 점수를 사용하여 측정한 정체성 보존에서 최대 3배의 개선을 달성하며 시각적 품질과 동적 콘텐츠 간의 균형을 효과적으로 유지하는 기존 접근 방식을 기반으로 한 기준선을 능가하는 결과를 얻습니다.
대형 언어 모델(LLMs)의 신속한 발전은 수학 문제 해결, 코드 생성 및 법률 분석과 같은 고급 추론 작업에서 그들의 능력을 발휘하게 했다. 이 발전의 핵심은 추론 시간 추론 알고리즘인데, 이 알고리즘은 여러 해결 경로를 탐색하여 출력을 개선함으로써 계산 요구량과 응답 지연 시간을 증가시킨다. 기존의 서비스 시스템은 이러한 알고리즘의 확장 행동이나 쿼리의 다양한 난이도에 적응하지 못하여 비효율적인 자원 사용과 미달된 응답 시간 목표를 초래한다. 우리는 LLM 추론 쿼리의 추론 시간 계산을 최적화하는 Dynasor 시스템을 제안한다. 전통적인 엔진과는 달리 Dynasor는 추론 쿼리 내에서 요청을 추적하고 일정을 조정하며, 모델의 확신에 기초한 통계적 추론 진행을 측정하는 Certaindex를 사용하여 계산 할당을 동적으로 안내한다. Dynasor는 일정과 추론 진행을 공동으로 적응시킨다: 어려운 쿼리에 더 많은 계산을 할당하고 더 간단한 쿼리에는 계산을 줄이며, 희망이 없는 쿼리를 조기에 종료하여 정확성, 지연 시간 및 비용을 균형있게 유지한다. 다양한 데이터셋과 알고리즘에서 Dynasor는 일괄 처리에서 최대 50%의 계산을 줄이고 온라인 서비스에서는 3.3배 더 높은 쿼리 속도를 유지하거나 4.7배 더 촘촘한 지연 시간 SLO를 제공한다.
우리는 SWE-Gym을 제시합니다. 이는 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 첫 환경입니다. SWE-Gym에는 각각이 실행 가능한 런타임 환경, 단위 테스트 및 자연어로 지정된 작업을 포함하는 2,438개의 실제 Python 작업 인스턴스가 포함되어 있습니다. 우리는 SWE-Gym을 사용하여 언어 모델 기반 SWE 에이전트를 훈련시켜, 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 해결 속도에서 최대 19%의 절대적인 향상을 달성했습니다. 또한 SWE-Gym에서 샘플링된 에이전트 궤적을 기반으로 훈련된 확인자를 통해 추론 시간 스케일링을 실험했습니다. 우리의 세밀하게 조정된 SWE 에이전트와 결합하면, 각각 SWE-Bench Verified 및 Lite에서 32.0% 및 26.0%를 달성하여, 오픈 웨이트 SWE 에이전트에 대한 최신 기술을 반영하고 있습니다. 더 많은 연구를 촉진하기 위해, 우리는 SWE-Gym, 모델 및 에이전트 궤적을 공개적으로 공개합니다.
TangoFlux는 515M개의 매개변수를 가진 효율적인 텍스트-음성 (TTA) 생성 모델을 소개합니다. 이 모델은 단일 A40 GPU에서 3.7초 만에 44.1kHz 음성을 최대 30초 생성할 수 있습니다. TTA 모델을 정렬하는 주요 과제 중 하나는 TTA가 대형 언어 모델 (LLMs)에 대한 확인 가능한 보상이나 골드 표준 답변과 같은 구조화된 메커니즘이 부족하다는 점에 있습니다. 이를 해결하기 위해 우리는 CLAP-Ranked Preference Optimization (CRPO)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 반복적으로 생성하고 최적화하여 TTA 정렬을 향상시키기 위한 선호 데이터를 생성합니다. 우리는 CRPO를 사용하여 생성된 음성 선호 데이터셋이 기존 대안들보다 우수하다는 것을 증명합니다. 이 프레임워크를 통해 TangoFlux는 객관적 및 주관적 평가에서 최첨단 성능을 달성합니다. 우리는 TTA 생성에 대한 추가 연구를 지원하기 위해 모든 코드와 모델을 오픈 소스로 공개합니다.
검증된 필요성으로, 야외 이미지들 사이의 일관된 편집은 객체 자세, 조명 조건, 그리고 촬영 환경과 같은 다양한 관리할 수 없는 요소에서 발생하는 기술적인 어려움으로 남아 있습니다. Edicho는 확산 모델을 기반으로 한 훈련 없는 솔루션으로 이 어려움에 대처합니다. 이 솔루션은 명시적 이미지 대응을 사용하여 편집을 지시하는 기본적인 설계 원칙을 갖추고 있습니다. 구체적으로, 주요 구성 요소는 주의 조작 모듈과 정교하게 개선된 분류기 없는 가이드 (CFG) 소음 제거 전략을 포함하며, 두 가지 모두 사전 추정된 대응을 고려합니다. 이러한 추론 시간 알고리즘은 플러그 앤 플레이 특성을 갖추며, ControlNet 및 BrushNet과 같은 대부분의 확산 기반 편집 방법과 호환됩니다. 광범위한 결과는 Edicho의 다양한 설정에서의 일관된 이미지 간 편집의 효과를 입증합니다. 우리는 미래 연구를 용이하게 하기 위해 코드를 공개할 예정입니다.
우리는 참조 초상화로부터 애니메이션 가능한 개인화된 생성형 아바타를 구축하는 PERSE 방법을 제시합니다. 우리의 아바타 모델은 각 얼굴 속성을 제어하기 위해 연속적이고 분리된 잠재 공간에서 얼굴 속성 편집을 가능하게 하며, 동시에 개인의 정체성을 보존합니다. 이를 달성하기 위해 우리의 방법은 얼굴 표정 및 시점에서 일관된 변화를 포함하고, 특정 얼굴 속성의 변화를 결합한 대규모 합성 2D 비디오 데이터셋을 합성하는 것으로 시작합니다. 우리는 얼굴 속성 편집이 포함된 고품질, 사실적인 2D 비디오를 생성하기 위한 새로운 파이프라인을 제안합니다. 이러한 합성 속성 데이터셋을 활용하여, 우리는 3D 가우시안 스플래팅을 기반으로 한 개인화된 아바타 생성 방법을 제시하며, 직관적인 얼굴 속성 조작을 위한 연속적이고 분리된 잠재 공간을 학습합니다. 이 잠재 공간에서 부드러운 전이를 강화하기 위해, 우리는 보간된 2D 얼굴을 감독으로 사용하는 잠재 공간 정규화 기술을 소개합니다. 이전 방법과 비교하여, 우리는 PERSE가 참조 인물의 정체성을 보존하면서 보간된 속성을 갖는 고품질 아바타를 생성한다는 것을 증명합니다.
대형 언어 모델 (LLM) 기술의 신속한 발전으로 강력한 오픈 소스 지시 튜닝 LLM이 소개되었으며, 이러한 모델은 GPT-4와 같은 최첨단 모델과 동일한 텍스트 생성 품질을 갖추고 있습니다. 이러한 모델의 등장은 민감한 정보 환경에서 LLM 기술의 채택을 가속화시키지만, 이러한 모델의 저자들은 결과를 복제하기 위해 필요한 훈련 데이터를 공개하지 않아 성취가 모델 전용으로 제한됩니다. 이러한 오픈 소스 모델이 다국어 지원이 되어 있기 때문에 언어별 LLM을 훈련하는 이점이 감소하며, 개선된 추론 계산 효율성이 유일하게 보장되는 이 비용이 많이 드는 절차의 장점이 됩니다. 어휘 확장 및 이어지는 지속적인 사전 훈련과 같은 더 비용 효율적인 옵션들도 높은 품질의 지시 튜닝 데이터에 대한 접근이 제한되어 있어 억제됩니다. 이 데이터가 결과적으로 LLM 작업 해결 능력의 주요 요인이기 때문입니다. 이러한 제한사항을 해결하고 언어 적응 파이프라인의 비용을 줄이기 위해 우리는 학습된 임베딩 전파 (LEP)를 제안합니다. 기존 방법과 달리 우리의 방법은 기존 LLM 지식에 미치는 영향이 적어서 학습 데이터 크기 요구 사항이 낮습니다. 이를 위해 새로운 특별 임베딩 전파 절차를 사용하여 지시 튜닝 단계를 건너뛰고 새로운 언어 지식을 기존의 지시 튜닝된 변형에 직접 구현할 수 있습니다. 우리는 LLaMa-3-8B 및 Mistral-7B에 대한 네 가지 러시아어 어휘 적응을 평가했으며, LEP가 전통적인 지시 튜닝 방법과 경쟁력을 갖추며 OpenChat 3.5 및 LLaMa-3-8B-Instruct와 유사한 성능을 달성하며, 자가 보정 및 지속적인 튜닝을 통해 작업 해결 능력을 향상시키는 것을 보여주었습니다.
저희는 웹과 원시 PDF 도서에서 지식을 추출하고 다양한 도메인(과학, 뉴스 등)을 지원하는 도커화된 스키마 안내 지식 추출 시스템인 OneKE를 소개합니다. 구체적으로, 여러 에이전트와 구성된 지식 베이스를 활용하여 OneKE를 설계했습니다. 각각의 에이전트가 각자의 역할을 수행함으로써 다양한 추출 시나리오를 지원합니다. 구성된 지식 베이스는 스키마 구성, 오류 케이스 디버깅 및 수정을 용이하게 하며 성능을 더욱 향상시킵니다. 벤치마크 데이터셋에서의 경험적 평가는 OneKE의 효과를 입증하며, 사례 연구는 다양한 도메인을 가로지르는 다양한 작업에 대한 적응성을 명확히 하여 광범위한 응용 가능성을 강조합니다. 저희는 코드를 https://github.com/zjunlp/OneKE 에 공개하고 비디오를 http://oneke.openkg.cn/demo.mp4 에 공개했습니다.
최근에 "시각 o1"이 사람들의 시야에 들어오기 시작했으며, 이는 느린 사고 디자인이 시각 추론 작업, 특히 기하학적 수학 문제를 해결할 수 있다는 기대와 함께입니다. 그러나 현재의 대형 시각 언어 모델(LVLMs)은 심지어 기하학적 도형을 정확하게 복사하는 데도 어려움을 겪고 있으며, 기하학적 모양 내 복잡한 내재 논리와 공간적 관계를 실제로 이해하지 못합니다. 우리는 정확한 복사(강한 지각)가 시각 o1로 가는 첫걸음이라고 믿습니다. 따라서 우리는 모델이 기하학적 구조를 점진적으로 재구성하는 우리 인간들과 같은 "느린 지각"(SP) 개념을 소개합니다. SP에는 두 가지 단계가 있습니다: a) 지각 분해. 지각은 즉각적이지 않습니다. 이 단계에서 복잡한 기하학적 도형이 기하학 표현을 통일하기 위해 기본 단순 단위로 분해됩니다. b) 지각 흐름. 선을 정확하게 추적하는 것이 쉬운 작업이 아님을 인정합니다. 이 단계는 각 선을 한 줄씩 추적하기 위해 제안된 "지각적 자"를 사용하여 선분을 회귀할 때 "긴 시각적 점프"를 피하려고 합니다. 놀랍게도, 이러한 인간과 같은 지각 방식은 추론 시간 척도 법칙을 즐깁니다 - 느릴수록 더 나아집니다. 연구자들은 과거에 모델의 지각 속도를 높이려고 노력했지만, 우리는 모델이 이미지를 단계별로 주의 깊게 읽도록 하기 위해 다시 속도를 줄이고 있습니다.
우리는 LLM의 점진적 추론 및 문제 해결 능력을 평가하기 위해 설계된 새로운 작업인 자가 호출 코드 생성을 소개합니다. 이 작업에서 모델은 기본 문제와 관련된 더 복잡한 문제를 제시받습니다. 그들은 기본 문제를 해결한 다음 그 해결책을 활용하여 더 복잡한 문제에 대처해야 합니다. 본 연구는 세 가지 주요 기여를 갖추고 있습니다. 첫째, 우리는 기존 벤치마크의 보다 어려운 버전을 생성하는 일반적인 방법을 제안하여 HumanEval Pro, MBPP Pro 및 BigCodeBench-Lite Pro 세 가지 새로운 벤치마크를 도출했습니다. 이들은 LLM의 자가 호출 코드 생성 능력을 평가하기 위해 특별히 설계되었습니다. 둘째, 우리의 벤치마크에서 20개 이상의 LLM에 대한 실험 결과 분석으로부터 두 가지 중요한 관찰을 얻었습니다. (i) 대부분의 LLM은 HumanEval 및 MBPP와 같은 전통적인 코드 생성 벤치마크에서 우수한 성과를 보이지만, 자가 호출 작업에서는 성능이 저하됩니다. 예를 들어, o1-mini는 HumanEval에서 96.2%의 pass@1을 달성하지만 HumanEval Pro에서는 76.2%에 그칩니다. (ii) 자가 호출 코드 생성 작업에서, 지시어에 튜닝된 모델은 기본 모델과 비교하여 미미한 개선만을 보여줍니다. 셋째, 우리는 평가 결과에 존재하는 실패 모드 유형을 공개합니다. 이 모든 결과들은 LLM의 코드 추론 능력을 향상시키기 위한 미래 연구의 새로운 방향을 제시하며, 자가 호출 코드 생성 작업에서의 추가 발전 필요성을 강조합니다.