번역이 포함된 일일 선별된 AI 연구 논문
Depth Anything 3(DA3)를 소개합니다. 이 모델은 알려진 카메라 포즈 유무와 관계없이 임의의 수의 시각적 입력으로부터 공간적으로 일관된 기하구조를 예측합니다. 최소한의 모델링을 지향하는 DA3는 두 가지 핵심 통찰을 제공합니다: 첫째, 구조적 특수화 없이 단일 일반 트랜스포머(예: 기본 DINO 인코더)만으로도 백본으로 충분하며, 둘째 단일 깊이-레이 예측 목표만으로 복잡한 다중 작업 학습이 필요 없습니다. 저희의 교사-학생 훈련 패러다임을 통해 이 모델은 Depth Anything 2(DA2)에 버금가는 수준의 디테일과 일반화 성능을 달성했습니다. 또한 카메라 포즈 추정, 임의 시점 기하구조 및 시각적 렌더링을 포괄하는 새로운 시각 기하구조 벤치마크를 구축했습니다. 이 벤치마크에서 DA3는 모든 작업에서 새로운 최첨단 기술을 수립하며, 기존 SOTA인 VGGT 대비 카메라 포즈 정확도 평균 44.3%, 기하학적 정확도 평균 25.1%를 크게 앞질렀습니다. 더 나아가 단안 깊이 추정에서도 DA2를 능가하는 성능을 보입니다. 모든 모델은 공개된 학술 데이터셋만으로 독점적으로 훈련되었습니다.
월드 모델은 지능형 에이전트가 자신의 행동에 따라 세계가 어떻게 변화하는지를 상상하고 예측하며 추론하고, 이에 따라 계획과 전략을 수립할 수 있게 합니다. 최근의 비디오 생성 모델은 사실적인 시각적 시퀀스를 생성하지만, 일반적으로 목적 지향적 추론에 필요한 인과적 제어, 상호작용성, 또는 장기적 일관성 없이 프롬프트에서 전체 비디오로 생성하는 방식으로 작동합니다. 한편, 기존의 월드 모델링 연구는 제한된 도메인(예: 물리, 게임, 또는 3D 장면 역학)에 초점을 맞추어 깊이와 제어 가능성이 부족하며, 다양한 환경과 상호작용 형식 간 일반화에 어려움을 겪습니다. 본 연구에서는 역사와 자연어 행동에 조건부로 고품질 비디오 시뮬레이션을 통해 미래 세계 상태를 예측하는 일반적이고 상호작용 가능하며 장기적인 월드 모델인 PAN을 소개합니다. PAN은 생성적 잠재 예측(GLP) 아키텍처를 채택합니다. 이 아키텍처는 방대한 텍스트 기반 지식에 시뮬레이션을 기반으로 삼고 언어로 지정된 행동에 대한 조건화를 가능하게 하는 대규모 언어 모델(LLM) 기반의 자기회귀적 잠재 역학 백본과, 지각적으로 상세하며 시간적으로 일관된 시각적 관측을 재구성하는 비디오 디퓨전 디코더를 결합하여 잠재 공간 추론(상상)과 실현 가능한 세계 역학(현실) 사이의 통일을 달성합니다. 다양한 도메인에 걸친 대규모 비디오-행동 쌍으로 학습된 PAN은 일관된 장기 역학을 갖춘 개방형 도메인, 행동 조건부 시뮬레이션을 지원합니다. 광범위한 실험을 통해 PAN이 다른 비디오 생성기 및 월드 모델 대비 행동 조건부 세계 시뮬레이션, 장기 예측, 시뮬레이션 추론에서 강력한 성능을 달성함을 보여주며, 추론과 행동을 위한 미래 세계 상태의 예측적 시뮬레이션을 가능하게 하는 일반 월드 모델로 나아가는 한 걸음을 내디뎠습니다.
확산 모델은 고해상도 샘플링이 느리고 비용이 많이 들며, 사후 이미지 초해상도(ISR)는 디코딩 후에 동작함으로써 아티팩트와 추가 지연을 유발하기 때문에 훈련 해상도를 넘어 확장하는 데 어려움을 겪습니다. 본 논문에서는 최종 VAE 디코딩 단계 이전에 생성기의 잠재 코드에서 직접 초해상도를 수행하는 경량 모듈인 Latent Upscaler Adapter(LUA)를 제안합니다. LUA는 기본 모델이나 추가 확산 단계를 수정할 필요 없이 드롭인 구성 요소로 통합되며, 잠재 공간에서 단일 순방향 패스로 고해상도 합성을 가능하게 합니다. 스케일별 픽셀 셔플 헤드를 갖춘 공유 Swin 스타일 백본은 2배 및 4배 스케일링을 지원하며 이미지 공간 SR 베이스라인과 호환되며, 동일한 SwinIR 아키텍처를 사용한 픽셀 공간 SR의 1.87초에 비해 512px에서 1024px 생성 시 디코딩 및 업스케일링 시간을 거의 3배 낮추면서(+0.42초만 추가) 비슷한 지각 품질을 달성합니다. 또한, LUA는 다양한 VAE의 잠재 공간에서 강력한 일반화 능력을 보여주어, 각각의 새로운 디코더에 대해 처음부터 재훈련할 필요 없이 쉽게 배포할 수 있습니다. 광범위한 실험을 통해 LUA는 고유의 고해상도 생성의 충실도를 거의 유지하면서 현대 확산 파이프라인에서 확장 가능하고 고충실도의 이미지 합성을 위한 실용적이고 효율적인 경로를 제공함을 입증합니다.
블랙박스 증류는 독점적인 교사 모델의 내부 로짓이나 매개변수에 접근하지 않고 텍스트 출력만으로 학습하여 학생 대규모 언어 모델(LLM)을 생성합니다. 본 연구에서는 온-정책 및 블랙박스 증류를 가능하게 하는 생성적 적대 증류(GAD)를 소개합니다. GAD는 학생 LLM을 생성기로 설정하고, 판별기를 훈련시켜 학생의 응답과 교사 LLM의 응답을 구분하는 미니맥스 게임을 구성합니다. 판별기는 학생과 함께 공진화하는 온-정책 보상 모델 역할을 하여 안정적이고 적응적인 피드백을 제공합니다. 실험 결과에 따르면 GAD는 일반적으로 사용되는 시퀀스 수준 지식 증류를 지속적으로 능가합니다. 특히, GAD로 훈련된 Qwen2.5-14B-Instruct(학생)는 LMSYS-Chat 자동 평가에서 교사 모델인 GPT-5-Chat에 버금가는 성능을 보입니다. 이러한 결과는 GAD가 블랙박스 LLM 증류를 위한 유망하고 효과적인 패러다임임을 입증합니다.
전문화된 AI 모델이 생성이나 이해와 같은 개별적인 비디오 작업에서는 뛰어난 성능을 보이지만, 실제 응용 환경에서는 이러한 기능들을 결합한 복잡하고 반복적인 워크플로우가 필요합니다. 이러한 격차를 해소하기 위해 우리는 차세대 비디오 범용 시스템을 위한 오픈소스이며 모든 능력을 갖춘 다중 에이전트 프레임워크인 UniVA를 소개합니다. UniVA는 비디오 이해, 분할, 편집, 생성을 통합된 워크플로우로 결합합니다. UniVA는 고도로 자동화되고 주도적인 워크플로우를 구동하는 Plan-and-Act 이중 에이전트 아키텍처를 채택합니다: 플래너 에이전트는 사용자 의도를 해석하여 구조화된 비디오 처리 단계로 분해하고, 실행자 에이전트는 모듈식 MCP 기반 도구 서버(분석, 생성, 편집, 추적 등)를 통해 이러한 단계들을 실행합니다. 계층적 다중 수준 메모리(글로벌 지식, 작업 문맥, 사용자별 선호도)를 통해 UniVA는 장기적인 추론, 문맥적 연속성, 그리고 에이전트 간 통신을 유지하여 완전한 추적 가능성을 갖춘 대화형 및 자기 성찰적 비디오 생성이 가능하게 합니다. 이러한 설계는 단일 목적 모델이나 통합 비디오-언어 모델로는 달성하기 어려웠던 반복적이고 다양한 조건(예: 텍스트/이미지/비디오 조건 생성 → 다중 라운드 편집 → 객체 분할 → 구성적 합성)의 비디오 워크플로우를 가능하게 합니다. 또한 이해, 편집, 분할, 생성에 이르는 다단계 비디오 작업을 포괄하는 벤치마크 제품군인 UniVA-Bench를 도입하여 이러한 에이전트 기반 비디오 시스템을 엄격하게 평가합니다. UniVA와 UniVA-Bench는 모두 완전히 오픈소스로 공개되어 차세대 멀티모달 AI 시스템을 위한 대화형, 에이전트 기반, 범용 비디오 인텔리전스 연구의 촉매제가 되는 것을 목표로 합니다. (https://univa.online/)
그룹 상대 정책 최적화(GRPO)는 대규모 언어 모델(LLM)의 사후 훈련에서 높은 활용도를 보여주고 있습니다. GRPO에서는 모델이 프롬프트에 답변을 생성하고, 강화 학습을 통해 선호되는 완성문을 학습합니다. 통신량이 적기 때문에 프롬프트를 여러 노드에서 동시에 처리한 후 문자열 형태로 교환할 수 있어 GRPO는 분산 훈련에 본질적으로 적합합니다. 본 연구에서는 분산 GRPO 환경에서의 최초 적대적 공격을 제시합니다. 악의적인 참여자가 문맥 외 공격과 문맥 내 공격 모두에서 양성 모델에 임의의 악성 토큰을 주입하여 시스템을 오염시킬 수 있음을 입증합니다. 수학 및 코딩 작업에 대한 실증적 사례를 통해 적대적 공격이 양성 노드를 쉽게 오염시켜 해당 노드의 로컬 LLM 사후 훈련을 훼손할 수 있으며, 최소 50회 반복만으로 공격 성공률이 최대 100%에 도달함을 보여줍니다. 우리는 모든 사용자가 동일한 모델을 훈련하는지 또는 서로 다른 모델을 훈련하는지에 따라 두 가지 방어 방식을 제안합니다. 이러한 방어 방식이 최대 100%의 차단률을 달성하여 공격을 불가능하게 만들 수 있음을 입증합니다.
대규모 언어 모델(LLM)은 추론, 통찰력, 도구 활용 분야에서 놀라운 발전을 이루었지만, 이러한 능력을 인간이나 조직, 사회가 일상적으로 수행하는 규모의 확장된 프로세스로 연계하는 것은 여전히 달성하지 못한 과제로 남아있습니다. 모델의 지속적인 오류율이 규모 확장을 방해하는데, 예를 들어 하노이의 탑 벤치마크 영역에서의 최근 실험에 따르면 프로세스가 최대 수백 단계를 넘어서면 필연적으로 탈선하는 것으로 나타났습니다. 따라서 LLM 연구가 여전히 상대적으로 적은 수의 논리적 단계로 구성된 과제를 기준으로 평가되기는 하지만, LLM의 장기간 과제 수행 능력(또는 무능력)에 대한 관심이 점차 높아지고 있습니다. 본 논문은 100만 회 이상의 LLM 단계를 오류 없이 성공적으로 수행하며, 원칙적으로는 이 수준을 훨씬 넘어서는 확장이 가능한 최초의 시스템인 MAKER를 소개합니다. 이 접근법은 과제를 하위 과제로 극단적으로 분해하고, 각 하위 과제를 전문화된 마이크로 에이전트가 처리하는 방식에 기반합니다. 분해를 통해 구현된 높은 수준의 모듈성은 효율적인 다중 에이전트 투표 방식을 통해 각 단계별 오류 수정을 가능하게 합니다. 이러한 극단적 분해와 오류 수정의 결합이 규모 확장을 실현합니다. 따라서 본 연구 결과는 기존 LLM의 지속적인 개선에 의존하기보다는 대규모 분해 에이전트 프로세스(MDAP)를 통해 조직 및 사회 수준의 문제를 효율적으로 해결할 수 있는 가능성을 시사합니다.
대규모 언어 모델은 복잡하지만 검증이 쉬운 문제에서는 상당한 진전을 보였으나, 여전히 미지의 영역을 발견하는 데는 어려움을 겪고 있습니다. 본 논문에서는 개방형 문제에서 새로운 알고리즘을 발견하도록 설계된 자율 연구 에이전트인 AlphaResearch를 소개합니다. 발견 과정의 실현 가능성과 혁신성을 시너지 효과로 결합하기 위해, 실행 기반 검증 환경과 시뮬레이션된 실세계 동료 검토 환경을 결합한 새로운 이중 연구 환경을 구축했습니다. AlphaResearch는 (1) 새로운 아이디어 제안, (2) 이중 연구 환경에서 아이디어 검증, (3) 더 나은 성능을 위한 연구 제안서 최적화의 단계를 반복적으로 실행하여 새로운 알고리즘을 발견합니다. 투명한 평가 과정을 촉진하기 위해, 8개의 개방형 알고리즘 문제 경쟁을 포함하는 새로운 평가 벤치마크인 AlphaResearchComp를 구축했습니다. 각 문제는 실행 가능한 파이프라인, 객관적 지표, 재현성 검증을 통해 신중하게 선별 및 검증되었습니다. AlphaResearch는 인간 연구자와의 직접 대결에서 2/8의 승률을 기록하여 LLM을 통한 알고리즘 발견 가속화 가능성을 입증했습니다. 특히, '원 채우기' 문제에서 AlphaResearch가 발견한 알고리즘은 인간 연구자들의 결과와 최근 연구(예: AlphaEvolve)의 강력한 베이스라인을 능가하는 가장 우수한 것으로 알려진 성능을 달성했습니다. 또한, 6/8의 실패 사례에 대한 남은 과제들을 종합적으로 분석하여 향후 연구에 유용한 통찰을 제공합니다.
대규모 언어 모델(LLM)은 수렴성과 일반화 성능 향상을 위해 AdamW와 같은 고전적 최적화 기법으로 점점 더 많이 훈련되고 있습니다. 그러나 양자에서 영감을 받은 방법들이 고전적 훈련을 향상시키는 메커니즘은 아직 충분히 연구되지 않았습니다. 본 연구에서는 양자 회로 섭동을 주입하여 그래디언트 업데이트와 양자 중첩을 연결하는 새로운 최적화 알고리즘인 중첩 그래디언트 하강법(SGD)을 소개합니다. 우리는 수학적 프레임워크를 제시하고 PyTorch와 Qiskit을 이용한 하이브리드 양자-고전 회로를 구현했습니다. 합성 시퀀스 분류 및 대규모 LLM 미세 조정 실험에서 SGD는 AdamW보다 더 빠르게 수렴하고 더 낮은 최종 손실을 달성했습니다. 이러한 유망한 결과에도 불구하고, 확장성과 하드웨어 제약으로 인해 실제 적용에는 한계가 있습니다. 전반적으로, 본 연구는 양자 컴퓨팅과 딥러닝의 교차점에 대한 새로운 통찰을 제공하며, 양자 원리를 활용하여 모델 동작을 제어하고 향상시키는 실용적인 경로를 제안합니다.
우리는 기반 오디오 모델에서 음악(노래 포함) 이해를 발전시키기 위해 설계된 새로운 대규모 오디오-언어 모델인 Music Flamingo를 소개한다. 오디오-언어 연구는 빠르게 진전되었지만, 음악은 그 역동적이고 다층적이며 정보 밀도가 높은 특성으로 인해 여전히 어려운 과제로 남아 있다. 특히 고품질 음악 데이터와 주석의 부족으로 인해 오픈 오디오 이해 모델의 규모 확장이 어려워 진전이 더욱 제한되어 왔다. 그 결과, 기존 모델들은 짧고 높은 수준의 설명만 생성하거나 표면적인 질문에만 답할 뿐이며, 다양한 음악 문화 간 일반화 능력이 제한적이었다. 이러한 문제를 해결하기 위해 우리는 풍부한 설명과 화성, 구조, 음색, 가사, 문화적 맥락을 아우르는 질문-답변 쌍을 생성하는 다단계 파이프라인을 통해 레이블이 지정된 대규모 데이터셋인 MF-Skills를 구축했다. 우리는 향상된 Audio Flamingo 3 백본을 MF-Skills로 미세 조정하고 음악 이해와 관련된 여러 기술을 추가로 강화했다. 모델의 추론 능력을 향상시키기 위해 사후 훈련 방법론을 도입했는데, 먼저 음악 이론에 기반한 새로운 사고 사슬(chain-of-thought) 데이터셋인 MF-Think로 콜드 스타트를 진행한 후, 맞춤형 보상과 GRPO 기반 강화 학습을 적용했다. Music Flamingo는 음악 이해와 추론을 위한 10개 이상의 벤치마크에서 최첨단 성능을 달성하며, 전문가적이고 음악적으로 지능적인 오디오-언어 모델로서의 입지를 확립했다. 강력한 실험 결과를 넘어, Music Flamingo는 모델이 표면적인 인식에서 벗어나 노래에 대한 다층적이고 인간과 유사한 인식으로 나아갈 수 있는 방법을 보여줌으로써 고급 음악 이해의 새로운 기준을 제시한다. 우리는 이 연구가 커뮤니티가 인간과 마찬가지로 의미 있게 음악과 상호작용하는 차세대 모델을 구축하기 위한 벤치마크이자 초석을 제공한다고 믿는다.
딥 리서치(DR)는 대규모 언어 모델(LLM)을 활용하여 개방형 질의를 해결하는 신흥 에이전트 애플리케이션입니다. DR은 다단계 추론, 문서 간 통합, 증거 기반의 장문 답변 생성 등 여러 능력의 통합을 필요로 합니다. DR의 평가는 응답이 길고 다양하며, 많은 유효한 해결책을 허용하며, 종종 동적인 정보원에 의존하기 때문에 여전히 어려운 과제로 남아 있습니다. 본 논문은 사실적 근거, 추론의 건전성, 명확성을 평가하기 위해 현실적이고 다양한 도메인의 프롬프트와 2,500개 이상의 전문가가 작성한 세분화된 루브릭을 결합한, 2,800시간 이상의 인간 노동으로 구축된 DR용 표준화된 벤치마크인 ResearchRubrics를 소개합니다. 또한 개념적 폭, 논리적 중첩, 탐색이라는 세 가지 축을 따라 DR 작업을 분류하기 위한 새로운 복잡성 프레임워크를 제안합니다. 더불어 DR 에이전트의 루브릭 준수도를 측정하는 인간 및 모델 기반 평가 프로토콜을 개발합니다. 여러 최첨단 DR 시스템을 평가한 결과, Gemini의 DR 및 OpenAI의 DR과 같은 주요 에이전트들도 평균 68% 미만의 루브릭 준수율을 보였으며, 이는 주로 암묵적 맥락을 놓치고 검색된 정보에 대한 추론이 부적절했기 때문입니다. 우리의 결과는 딥 리서치 능력에 대한 강력하고 확장 가능한 평가의 필요성을 강조하며, 이를 위해 잘 근거된 연구 보조원으로의 발전을 촉진하기 위해 ResearchRubrics(모든 프롬프트, 루브릭, 평가 코드 포함)를 공개합니다.
지시 기반 이미지 편집 모델은 최근 멀티-지시 프롬프트를 통해 입력 이미지에 복잡한 편집을 적용하며 인상적인 성능을 달성했습니다. 그러나 이러한 모델들은 프롬프트의 각 지시를 고정된 강도로 적용하여 사용자가 개별 편집의 강도를 정밀하고 연속적으로 제어하는 능력을 제한합니다. 본 연구에서는 세밀하고 해석 가능한 지시 제어를 통한 연속적 이미지 편집 프레임워크인 SliderEdit를 소개합니다. 다중 부분으로 구성된 편집 지시가 주어지면, SliderEdit는 개별 지시들을 분리하여 각각을 전역적으로 학습된 슬라이더로 제공하여 그 강도를 부드럽게 조정할 수 있게 합니다. 텍스트-이미지 생성에서 슬라이더 기반 속성 제어를 도입한 기존 연구들이 일반적으로 각 속성이나 개념에 대한 별도의 학습 또는 미세 조정을 필요로 했던 것과 달리, 우리의 방법은 다양한 편집, 속성, 그리고 조합적 지시에 걸쳐 일반화되는 단일 저순위 적응 행렬 세트를 학습합니다. 이는 공간적 지역성과 전역적 의미 일관성을 모두 유지하면서 개별 편집 차원을 따라 연속적인 보간을 가능하게 합니다. 우리는 SliderEdit를 FLUX-Kontext 및 Qwen-Image-Edit를 포함한 최첨단 이미지 편집 모델에 적용하고, 편집 제어성, 시각적 일관성 및 사용자 조종성에서 상당한 향상을 관찰했습니다. 우리가 아는 한, 우리는 지시 기반 이미지 편집 모델에서 연속적이고 세밀한 지시 제어를 위한 프레임워크를 최초로 탐구하고 제안합니다. 우리의 결과는 연속적이고 조합적인 제어가 가능한 상호작용형, 지시 주도 이미지 조작의 길을 열어줍니다.
물리적 환경에서 효과적인 인간-에이전트 협업은 단순히 행동 대상이 무엇인지 이해하는 것을 넘어, 행동 가능 요소들의 위치와 상호작용 방법을 파악해야 합니다. 기존 접근법들은 객체 수준에서 작동하거나 세밀한 어포던스 추론을 분리적으로 처리하여, 지시어 기반의 일관된 근거 확립과 추론이 부족했습니다. 본 연구에서는 3D 장면 내 참조된 각 어포던스 요소에 대해, 과제 지시어를 바탕으로 공간적 위치, 동작 유형, 동작 축으로 구성된 구조화된 삼중항을 예측하는 새로운 과제인 세밀한 3D 체화 추론을 소개합니다. 이를 해결하기 위해 다중모드 대형 언어 모델(MLLM)과 맞춤형 사고 연쇄(CoT) 추론 패러다임을 통합한 새로운 프레임워크인 AffordBot을 제안합니다. 3D 입력과 2D 호환 MLLM 간의 간극을 해결하기 위해 장면의 서라운드 뷰 이미지를 렌더링하고 3D 요소 후보들을 해당 뷰에 투영하여 장면 기하학과 정렬된 풍부한 시각적 표현을 구성합니다. 우리의 CoT 파이프라인은 지시어를 바탕으로 가장 정보량이 많은 시점을 선택하도록 MLLM을 유도하는 능동적 인지 단계로 시작하여, 단계별 추론을 통해 어포던스 요소를 위치 특정하고 타당한 상호작용 동작을 추론합니다. SceneFun3D 데이터셋에서 평가된 AffordBot은 3D 포인트 클라우드 입력과 MLLM만으로 최첨단 성능을 달성하며, 강력한 일반화 능력과 물리적 근거 기반 추론 능력을 입증했습니다.
대규모 언어 모델(LLM)의 최근 발전은 다양한 과제에서 인상적인 성능을 보여주고 있지만, 특히 복잡하고 다중 턴이며 시스템 프롬프트가 포함된 고급 명령어 수행(IF) 능력은 여전히 큰 과제로 남아 있습니다. 이러한 능력에 대한 엄격한 평가와 효과적인 훈련은 고품질의 인간 주석 데이터 벤치마크와 신뢰할 수 있으며 해석 가능한 보상 신호의 부족으로 어려움을 겪고 있습니다. 본 연구에서는 1,600개 이상의 프롬프트와 전문가가 검수한 채점 기준을 통해 LLM의 복잡한 다중 턴 및 시스템 수준 명령어 수행 능력을 평가하는 포괄적인 벤치마크인 AdvancedIF(곧 공개 예정)를 소개합니다. 더 나아가, 채점 기준 생성, 미세 조정된 채점 기준 검증기, 보상 형상을 활용하여 명령어 수행을 위한 효과적인 강화 학습을 가능하게 하는 새로운 사후 훈련 파이프라인인 RIFL(규준 기반 명령어 수행 학습)을 제안합니다. 광범위한 실험을 통해 RIFL이 LLM의 명령어 수행 능력을 크게 향상시켜 AdvancedIF에서 6.7%의 절대적 성능 향상을 달성하고 공개 벤치마크에서도 강력한 결과를 보여줌을 입증했습니다. ablation 연구를 통해 RIFL의 각 구성 요소의 효과를 확인하였습니다. 본 연구는 채점 기준이 LLM의 고급 명령어 수행 능력을 훈련하고 평가하는 강력한 도구임을 입증하며, 더 유능하고 신뢰할 수 있는 AI 시스템 개발의 길을 열어줍니다.
생성 품질의 발전에도 불구하고, 현재의 텍스트-이미지(T2I) 모델은 종종 동질적인 결과물을 생성하며 다양성이 부족한 경향이 있습니다. 본 연구는 T2I 모델의 견고한 다양성 평가 필요성을 해결하기 위한 프레임워크를 소개합니다. 우리의 프레임워크는 개별 개념과 해당 개념의 변이 요인을 평가하여 다양성을 체계적으로 분석합니다. 주요 기여점은 다음과 같습니다: (1) 미세한 다양성 평가를 위한 새로운 인간 평가 템플릿; (2) 다양한 개념과 각각의 식별된 변이 요인(예: 프롬프트: 사과 이미지, 변이 요인: 색상)을 포함하는 엄선된 프롬프트 세트; (3) 이항 검정을 통한 인간 주석 기반 모델 비교 방법론. 더 나아가, 우리는 다양성 측정을 위한 다양한 이미지 임베딩 방법을 엄격하게 비교합니다. 특히, 이 원리 기반 접근법을 통해 T2I 모델을 다양성에 따라 순위를 매기고, 모델이 특히 어려움을 겪는 범주를 식별할 수 있습니다. 본 연구는 견고한 방법론과 통찰을 제공하여 T2I 모델의 다양성 및 측정 지표 개발 개선을 위한 길을 열어줍니다.
비판 능력은 모델의 자기 개선과 신뢰할 수 있는 AI 어시스턴트로서의 역할에 핵심적입니다. 언어 전용 환경에서는 광범위하게 연구되었지만, 캡셔닝 및 시각적 추론과 같은 작업에서의 성능 향상에도 불구하고 대규모 멀티모달 모델(LMM)의 멀티모달 비판 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 기본, 수정, 비교라는 다차원에 걸쳐 LMM의 비판 능력을 평가하기 위한 종합 벤치마크인 MM-CRITIC을 소개합니다. MM-CRITIC은 8가지 주요 작업 유형과 500개 이상의 작업을 포괄하며, 다양한 모델 크기의 LMM 응답을 수집하여 총 4,471개의 샘플로 구성됩니다. 평가 신뢰성을 높이기 위해 전문가 기반 정답을 채점 기준에 통합하여 GPT-4o가 응답을 주석 처리하고 참조 비판을 생성하도록 유도하며, 이를 신뢰할 수 있는 판단의 기준점으로 활용합니다. 대규모 실험을 통해 MM-CRITIC의 효과성을 검증하고 선도적인 LMM들의 다차원적 비판 능력에 대한 포괄적인 평가를 제공합니다. 추가 분석을 통해 응답 품질과 비판 간의 상관관계, 평가 차원별 상이한 비판 난이도 등 주요 통찰력을 도출합니다. 코드는 https://github.com/MichealZeng0420/MM-Critic에서 확인할 수 있습니다.
하위 연구에서 인용된 논문의 재현 가능성에 대한 감성은 커뮤니티의 관점을 제공하며, 발표된 연구 결과의 실제 재현 가능성을 나타내는 유망한 지표로 입증되었습니다. 재현 가능성 지향 감성을 효과적으로 예측하고 재현 가능성과의 상관관계를 체계적으로 연구하기 위한 효과적인 모델을 훈련시키기 위해, 우리는 머신러닝 논문의 총 30,734개 인용 문맥으로 구성된 CC30k 데이터셋을 소개합니다. 각 인용 문맥은 인용된 논문의 인지된 재현 가능성 또는 반복 가능성을 반영하는 세 가지 재현 가능성 지향 감성 레이블(긍정, 부정, 중립) 중 하나로 분류됩니다. 이 중 25,829개는 크라우드소싱을 통해 레이블이 지정되었으며, 부정 레이블의 부족 문제를 해결하기 위해 통제된 파이프라인을 통해 생성된 부정 샘플로 보완되었습니다. 기존 감성 분석 데이터셋과 달리 CC30k는 재현 가능성 지향 감성에 초점을 맞추어 계산적 재현 가능성 연구를 위한 자원 부족이라는 연구 격차를 해소합니다. 이 데이터셋은 강력한 데이터 정제, 신중한 크라우드 작업자 선별, 철저한 검증을 포함하는 파이프라인을 통해 생성되었습니다. 결과적으로 데이터셋의 레이블링 정확도는 94%에 달합니다. 우리는 이후 세 가지 대규모 언어 모델이 본 데이터셋을 사용한 미세 조정 후 재현 가능성 지향 감성 분류 성능이 크게 향상됨을 입증했습니다. 이 데이터셋은 머신러닝 논문의 대규모 재현 가능성 평가를 위한 기반을 마련합니다. CC30k 데이터셋과 데이터셋 생성 및 분석에 사용된 Jupyter 노트북은 https://github.com/lamps-lab/CC30k 에서 공개적으로 이용 가능합니다.
제로샷 이상 분류(AC) 및 분할(AS) 방법은 레이블이 지정된 샘플을 전혀 사용하지 않고 결함을 식별하고 개요를 그리는 것을 목표로 합니다. 본 논문에서 우리는 기존 방법들이 간과한 중요한 특성을 밝힙니다: 산업 제품 전반의 정상 이미지 패치들은 2D 외관뿐만 아니라 3D 형태에서도 일반적으로 많은 다른 유사한 패치들을 발견하는 반면, 이상들은 다양하고 고립된 상태로 남아 있습니다. 우리는 이러한 판별 특성을 명시적으로 활용하기 위해 단일 2D/3D 또는 다중 모달리티를 유연하게 지원하는 제로샷 AC/AS를 위한 상호 평가 프레임워크(MuSc-V2)를 제안합니다. 구체적으로, 우리의 방법은 불연속적인 표면으로 인한 오탐지를 줄이는 반복적 포인트 그룹화(IPG)를 통해 3D 표현을 개선하는 것으로 시작합니다. 그런 다음 다중 차수 유사성 이웃 집계(SNAMD)를 사용하여 2D/3D 이웃 단서를 더욱 판별력 있는 다중 스케일 패치 특징으로 융합하여 상호 평가에 활용합니다. 핵심은 각 모달리티 내 샘플들이 서로에게 점수를 부여하도록 하는 상호 평가 메커니즘(MSM)과 2D와 3D 점수를 융합하여 모달리티별로 누락된 이상들을 복원하는 교차 모달 이상 향상(CAE)으로 구성됩니다. 마지막으로, 제약 이웃 재평가(RsCon)는 더 대표적인 샘플들과의 유사성을 기반으로 오분류를 억제합니다. 우리의 프레임워크는 전체 데이터셋과 더 작은 부분 집합 모두에서 일관되게 강력한 성능을 발휘하며 다양한 제품 라인에 걸쳐 원활한 적응성을 보장합니다. 이러한 새로운 프레임워크의 도움으로 MuSc-V2는 상당한 성능 향상을 달성했습니다: MVTec 3D-AD 데이터셋에서 +23.7% AP 향상, Eyecandies 데이터셋에서 +19.3% 향상을 기록하여 기존 제로샷 벤치마크를 능가하고 대부분의 퓨샷 방법보다도 뛰어난 성능을 보여줍니다. 코드는 https://github.com/HUST-SLOW/MuSc-V2에서 공개될 예정입니다.