번역이 포함된 일일 선별된 AI 연구 논문
시각적 추론은 인간 지능의 핵심 구성 요소이자 고급 멀티모달 모델의 중요한 능력입니다. 그러나 현재 멀티모달 대형 언어 모델(MLLM)의 추론 평가는 종종 텍스트 설명에 의존하고 언어 기반 추론 단축을 허용함으로써 진정한 시각 중심 추론을 측정하지 못하고 있습니다. 이를 해결하기 위해 우리는 VisuLogic을 소개합니다: 이는 양적 변화, 공간 관계, 속성 비교 등 여섯 가지 범주에 걸친 1,000개의 인간 검증 문제로 구성된 벤치마크입니다. 이러한 다양한 유형의 질문을 통해 MLLM의 시각적 추론 능력을 다각적으로 평가할 수 있습니다. 우리는 이 벤치마크에서 주요 MLLM을 평가하고 그 결과를 분석하여 일반적인 실패 모드를 식별했습니다. 대부분의 모델은 30% 미만의 정확도를 보였는데, 이는 25%의 무작위 기준선보다 약간 높은 수준이며 인간이 달성한 51.4%보다 훨씬 낮아 시각적 추론에서 상당한 격차가 있음을 보여줍니다. 또한, 추가적인 학습 데이터셋과 강화 학습 기준선을 제공하여 더 나은 진전을 지원합니다.
강력한 추론 능력을 언어 모델에서 얼마나 비용 효율적으로 달성할 수 있을까? 이 근본적인 질문에 동기를 얻어, 우리는 높은 비용 효율성으로 달성된 소형 추론 모델 패밀리인 Tina를 소개한다. 특히 Tina는 이미 작은 1.5B 파라미터 기반 모델에 강화 학습(RL) 동안 파라미터 효율적인 업데이트를 적용함으로써, 최소한의 자원만으로도 상당한 추론 성능을 개발할 수 있음을 보여준다. 이 미니멀리스트 접근 방식은 동일한 기반 모델을 기반으로 구축된 SOTA RL 추론 모델과 경쟁적이거나 때로는 능가하는 추론 성능을 달성하는 모델을 생산한다. 결정적으로, 이는 기존 SOTA 모델이 사용하는 계산적 사후 학습 비용의 극히 일부로 달성된다. 실제로, 최고의 Tina 모델은 AIME24에서 >20%의 추론 성능 향상과 43.33%의 Pass@1 정확도를 달성하며, 사후 학습 및 평가 비용은 단 \$9 USD에 불과하다(즉, 약 260배의 비용 절감 추정). 우리의 작업은 LoRA를 통한 효율적인 RL 추론의 놀라운 효과를 보여준다. 우리는 이를 단일 고정 하이퍼파라미터 세트로 시작하여 여러 오픈소스 추론 데이터셋과 다양한 어블레이션 설정에서 검증한다. 더 나아가, 우리는 이러한 효과와 효율성이 LoRA가 RL에 의해 보상받는 추론의 구조적 형식에 모델을 빠르게 적응시키는 동시에 기반 모델의 기본 지식을 크게 보존하기 때문이라고 가정한다. 접근성과 개방형 연구를 위해, 우리는 모든 코드, 학습 로그, 모델 가중치 및 체크포인트를 완전히 오픈소스로 공개한다.
본 논문에서는 높은 수준의 ID 유사성, 속성 보존, 이미지 충실도 및 빠른 추론 속도를 달성하는 확산 기반 얼굴 교체 모델인 DreamID를 소개한다. 일반적인 얼굴 교체 학습 과정이 암묵적 감독에 의존하며 만족스러운 결과를 얻기 어려운 반면, DreamID는 Triplet ID Group 데이터를 구성하여 얼굴 교체에 대한 명시적 감독을 확립함으로써 ID 유사성과 속성 보존을 크게 향상시킨다. 확산 모델의 반복적 특성은 효율적인 이미지 공간 손실 함수 활용에 어려움을 초래하는데, 이는 학습 중 생성된 이미지를 얻기 위해 시간이 많이 소요되는 다단계 샘플링을 수행하는 것이 비현실적이기 때문이다. 이 문제를 해결하기 위해 우리는 가속화된 확산 모델인 SD Turbo를 활용하여 추론 단계를 단일 반복으로 줄이고, 명시적 Triplet ID Group 감독을 통한 효율적인 픽셀 수준의 종단간 학습을 가능하게 한다. 또한, SwapNet, FaceNet 및 ID Adapter로 구성된 개선된 확산 기반 모델 아키텍처를 제안한다. 이 강력한 아키텍처는 Triplet ID Group 명시적 감독의 잠재력을 완전히 발휘한다. 마지막으로, 우리의 방법을 더욱 확장하기 위해 학습 중 Triplet ID Group 데이터를 명시적으로 수정하여 안경 및 얼굴 형태와 같은 특정 속성을 미세 조정하고 보존한다. 광범위한 실험을 통해 DreamID가 ID 유사성, 포즈 및 표정 보존, 이미지 충실도 측면에서 최신 방법들을 능가함을 입증한다. 전반적으로, DreamID는 512*512 해상도에서 단 0.6초만에 고품질의 얼굴 교체 결과를 달성하며, 복잡한 조명, 큰 각도 및 가림과 같은 어려운 시나리오에서도 탁월한 성능을 보인다.
우리는 물리적 맥락에서 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위해 설계된 새로운 고품질 벤치마크인 PHYBench를 소개합니다. PHYBench은 현실 세계의 물리적 시나리오를 기반으로 500개의 세심하게 선별된 물리학 문제로 구성되어 있으며, 모델이 현실적인 물리적 과정을 이해하고 추론하는 능력을 평가하도록 설계되었습니다. 이 벤치마크는 역학, 전자기학, 열역학, 광학, 현대 물리학 및 고급 물리학을 아우르며, 고등학교 수준의 연습문제부터 대학 수준의 문제 및 물리 올림피아드 도전 과제까지 다양한 난이도를 포함합니다. 또한, 우리는 수학적 표현 간의 편집 거리를 기반으로 한 새로운 평가 지표인 Expression Edit Distance (EED) 점수를 제안합니다. 이 지표는 기존의 이진 점수 방식보다 모델의 추론 과정과 결과 간의 차이를 효과적으로 포착합니다. 우리는 다양한 LLM을 PHYBench에서 평가하고 그 성능을 인간 전문가와 비교합니다. 우리의 결과는 최첨단 추론 모델조차도 인간 전문가에 비해 상당히 뒤처져 있음을 보여주며, 복잡한 물리적 추론 시나리오에서의 한계와 개선의 필요성을 강조합니다. 우리의 벤치마크 결과와 데이터셋은 https://phybench-official.github.io/phybench-demo/에서 공개적으로 제공됩니다.
우리는 토큰 효율성이 가장 뛰어난 한국어 중심의 다국어 대형 언어 모델인 Trillion-7B를 소개합니다. 우리의 새로운 교차 언어 문서 주의 메커니즘(Cross-lingual Document Attention, XLDA)은 영어에서 한국어, 일본어와 같은 대상 언어로의 지식 전달을 매우 효율적이고 효과적으로 가능하게 합니다. 최적화된 데이터 혼합, 언어별 필터링, 그리고 맞춤형 토크나이저 구축과 결합된 Trillion-7B는 전체 2조(2T) 학습 토큰 중 단 10%만 다국어 데이터에 할당하고, 전체 학습에 단 59.4K H100 GPU 시간(\$148K)만 필요로 하면서도 경쟁력 있는 성능을 달성합니다. 4개 언어에 걸친 27개 벤치마크에서의 포괄적인 평가는 Trillion-7B의 견고한 다국어 성능과 탁월한 교차 언어 일관성을 입증합니다.
표현 학습 분야가 성장함에 따라 다양한 문제 클래스를 해결하기 위한 다양한 손실 함수가 등장하고 있습니다. 본 연구에서는 기계 학습에서 사용되는 현대적인 손실 함수들의 광범위한 집합을 일반화하는 단일 정보 이론적 방정식을 소개합니다. 특히, 우리는 여러 주요 기계 학습 방법들이 두 조건부 분포(감독 표현과 학습된 표현) 간의 통합 KL 발산을 정확히 최소화하고 있음을 보여주는 프레임워크를 제시합니다. 이 관점은 클러스터링, 스펙트럼 방법, 차원 축소, 대조 학습, 지도 학습 등에 내재된 숨겨진 정보 기하학을 드러냅니다. 이 프레임워크는 문헌 전반에 걸쳐 성공적인 기술들을 결합하여 새로운 손실 함수를 개발할 수 있게 합니다. 우리는 23가지 이상의 서로 다른 접근법들을 연결하는 다양한 증명들을 제시할 뿐만 아니라, 이러한 이론적 결과를 활용하여 ImageNet-1K에서의 비지도 분류에서 기존 최첨단 기술 대비 +8%의 성능 향상을 달성한 최첨단 비지도 이미지 분류기를 개발했습니다. 또한 I-Con이 대조 표현 학습기의 성능을 개선하는 원칙적인 편향 제거 방법을 도출하는 데 사용될 수 있음을 입증합니다.
최근 이미지 커스터마이징(예: 정체성, 주제, 스타일, 배경 등)에 대한 광범위한 연구는 대규모 생성 모델에서 강력한 커스터마이징 능력을 보여주고 있습니다. 그러나 대부분의 접근 방식은 특정 작업을 위해 설계되어 다양한 유형의 조건을 결합하는 일반화 가능성을 제한하고 있습니다. 이미지 커스터마이징을 위한 통합 프레임워크를 개발하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 본 논문에서는 다양한 작업을 지원하면서 여러 조건의 원활한 통합을 용이하게 하는 이미지 커스터마이징 프레임워크인 DreamO를 제안합니다. 구체적으로, DreamO는 디퓨전 트랜스포머(DiT) 프레임워크를 활용하여 다양한 유형의 입력을 균일하게 처리합니다. 학습 과정에서는 다양한 커스터마이징 작업을 포함하는 대규모 학습 데이터셋을 구축하고, 참조 이미지에서 관련 정보를 정확하게 쿼리하기 위해 특징 라우팅 제약을 도입합니다. 또한, 특정 위치의 조건과 연관된 플레이스홀더 전략을 설계하여 생성 결과에서 조건의 배치를 제어할 수 있도록 합니다. 더 나아가, 세 단계로 구성된 점진적 학습 전략을 채택합니다: 첫 번째 단계에서는 제한된 데이터로 간단한 작업에 초점을 맞춰 기본 일관성을 확립하고, 두 번째 단계에서는 전면적인 학습을 통해 커스터마이징 능력을 종합적으로 향상시키며, 마지막 단계에서는 저품질 데이터로 인해 발생한 품질 편향을 교정합니다. 광범위한 실험을 통해 제안된 DreamO가 다양한 이미지 커스터마이징 작업을 고품질로 효과적으로 수행하고 다양한 유형의 제어 조건을 유연하게 통합할 수 있음을 입증합니다.
본 논문은 AI 수학 올림피아드 - Progress Prize 2(AIMO-2) 대회에서 우승한 우리의 제출물을 소개합니다. 최첨단 수학적 추론 모델을 구축하기 위한 우리의 접근법은 세 가지 핵심 요소에 기반합니다. 첫째, 올림피아드 수준의 문제를 포함한 54만 개의 고품질 수학 문제와 이에 대한 320만 개의 장문 추론 해결책으로 구성된 대규모 데이터셋을 구축했습니다. 둘째, 반복적인 학습, 생성 및 품질 필터링을 통해 코드 실행을 장문 추론 모델과 통합하는 새로운 방법을 개발하여 170만 개의 고품질 도구 통합 추론(Tool-Integrated Reasoning) 해결책을 생성했습니다. 셋째, 여러 후보 해결책 중에서 가장 유망한 해결책을 선택하도록 모델을 훈련시키는 파이프라인을 구축했습니다. 이러한 생성적 해결책 선택(GenSelect)이 다수결 기반선을 크게 개선할 수 있음을 보여줍니다. 이러한 아이디어를 결합하여, 우리는 수학적 추론 벤치마크에서 최첨단 결과를 달성하는 일련의 모델을 훈련시켰습니다. 추가 연구를 촉진하기 위해, 우리는 상업적으로 허용 가능한 라이선스 하에 코드, 모델 및 완전한 OpenMathReasoning 데이터셋을 공개합니다.
Direct Preference Optimization(DPO)은 명시적인 보상 모델 없이 인간의 선호도를 직접 최적화함으로써 대규모 언어 모델(LLM)에 대한 인간 피드백 기반 강화 학습(RLHF)을 단순화합니다. 우리는 DPO 훈련 중에 참조 모델이 데이터 가중치 조정자의 역할을 한다는 것을 발견했습니다. 그러나 DPO에서 정책 모델과 참조 모델을 동일하게 초기화하는 일반적인 관행은 데이터 활용의 비효율성을 초래하고 성능 상한을 부과할 수 있습니다. 한편, Simple Preference Optimization(SimPO)에서는 참조 모델이 없어 훈련의 견고성이 감소하고 치명적인 망각을 방지하기 위해 더 엄격한 조건이 필요합니다. 본 연구에서는 이러한 문제를 해결하기 위해 Pre-DPO를 제안합니다. Pre-DPO는 가이드 참조 모델을 활용하여 선호도 최적화 성능을 향상시키는 간단하면서도 효과적인 DPO 기반 훈련 패러다임입니다. 이 참조 모델은 훈련 선호도 데이터를 통해 달성할 수 있는 최적 정책 상태에 대한 통찰력을 제공하며, 모델에 더 적합한 샘플에는 더 높은 가중치를, 덜 적합한 샘플에는 더 낮은 가중치를 적응적으로 부여하는 가이드 메커니즘 역할을 합니다. AlpacaEval 2.0 및 Arena-Hard v0.1 벤치마크에서의 광범위한 실험을 통해 Pre-DPO가 외부 모델이나 추가 데이터에 의존하지 않고도 DPO와 SimPO의 성능을 지속적으로 개선함을 입증했습니다.
대조적 언어-이미지 사전학습(CLIP)은 이미지와 텍스트 양식을 정렬함으로써 여러 하위 작업에서 성공을 거두었습니다. 그러나 전역 대조 학습의 특성상 CLIP은 관계와 속성과 같은 구성적 개념을 이해하는 데 한계가 있습니다. 최근 연구에서는 구성적 이해를 개선하기 위해 전역 하드 네거티브 샘플을 사용하지만, 이러한 방법들은 임베딩 공간에서 텍스트 네거티브 샘플을 이미지와 강제로 멀리 떨어뜨림으로써 모델의 본질적인 일반 능력을 크게 저해합니다. 이러한 한계를 극복하기 위해, 우리는 구성적 이해를 개선하면서 일반 능력의 손실을 상당히 완화하는 분리된 전역-지역 정렬(DeGLA) 프레임워크를 소개합니다. 모델의 본질적인 능력을 최적화하기 위해, 우리는 전역 정렬 과정 내에 자기 지식 증류 메커니즘을 통합하여, 학습 가능한 이미지-텍스트 인코더를 지수 이동 평균에서 파생된 고정된 교사 모델과 정렬합니다. 자기 지식 증류의 제약 하에서, 이는 미세 조정 중 사전 학습된 지식의 치명적인 망각을 효과적으로 완화합니다. 구성적 이해를 개선하기 위해, 우리는 먼저 대형 언어 모델(LLM)의 문맥 내 학습 능력을 활용하여 다섯 가지 유형에 걸쳐 약 2백만 개의 고품질 네거티브 캡션을 구성합니다. 이후, 우리는 시각-언어 구성성을 강화하기 위해 이미지 기반 대조(IGC) 손실과 텍스트 기반 대조(TGC) 손실을 제안합니다. 광범위한 실험 결과는 DeGLA 프레임워크의 효과를 입증합니다. 이전의 최신 방법과 비교하여, DeGLA는 VALSE, SugarCrepe, ARO 벤치마크에서 평균 3.5%의 향상을 달성합니다. 동시에, 11개 데이터셋에 걸친 제로샷 분류 작업에서 평균 13.0%의 성능 향상을 얻습니다. 우리의 코드는 https://github.com/xiaoxing2001/DeGLA에서 공개될 예정입니다.
대규모 언어 모델(LLM)의 놀라운 성공은 다양한 애플리케이션에서 전례 없는 성능을 보이며 학계와 산업계 모두에게 인공 일반 지능(AGI) 달성에 대한 유망한 길을 제시했습니다. LLM이 연구 및 상업적 영역에서 계속해서 두각을 나타내면서, 그들의 보안과 안전에 대한 문제는 연구자와 기업뿐만 아니라 모든 국가에게도 점점 더 큰 관심사로 부상하고 있습니다. 현재, LLM 안전성에 대한 기존의 조사는 주로 LLM 생명주기의 특정 단계, 예를 들어 배포 단계나 미세 조정 단계에 초점을 맞추고 있어, LLM의 전체 "생명사슬"에 대한 포괄적인 이해가 부족합니다. 이러한 격차를 해결하기 위해, 본 논문은 처음으로 "풀스택" 안전성 개념을 도입하여 LLM의 훈련, 배포, 그리고 최종 상업화의 전 과정에 걸친 안전 문제를 체계적으로 고려합니다. 기존의 LLM 안전성 조사와 비교하여, 우리의 작업은 몇 가지 독특한 장점을 보여줍니다: (I) 포괄적인 관점. 우리는 데이터 준비, 사전 훈련, 사후 훈련, 배포 및 최종 상업화를 포함하는 완전한 LLM 생명주기를 정의합니다. 우리가 아는 한, 이는 LLM의 전체 생명주기를 포괄하는 첫 번째 안전성 조사입니다. (II) 광범위한 문헌 지원. 우리의 연구는 800편 이상의 논문을 철저히 검토하여 보안 문제를 포괄적으로 다루고 체계적으로 조직화함으로써 더욱 전체적인 이해를 제공합니다. (III) 독창적인 통찰. 체계적인 문헌 분석을 통해, 우리는 각 장에 대한 신뢰할 수 있는 로드맵과 관점을 개발했습니다. 우리의 작업은 데이터 생성의 안전성, 정렬 기술, 모델 편집, 그리고 LLM 기반 에이전트 시스템과 같은 유망한 연구 방향을 식별합니다. 이러한 통찰은 이 분야에서 미래의 연구를 추구하는 연구자들에게 귀중한 지침을 제공합니다.
최근 DeepSeek-R1 (671B) (DeepSeek-AI 외, 2025)는 복잡한 작업에서 탁월한 추론 능력을 보여주었으며, 그 방법론을 공개했습니다. 이는 소형 대규모 언어 모델(LLM)의 추론 능력을 자극하기 위한 잠재적으로 고품질의 사고 연쇄(CoT) 데이터를 제공합니다. 다양한 LLM을 위한 고품질 CoT 데이터를 생성하기 위해, 우리는 LLM에 적응형 질문 난이도 수준을 가진 고품질 CoT 데이터를 생성하는 효율적인 방법을 모색했습니다. 먼저, LLM 자체의 추론 능력에 따라 질문의 난이도를 등급화하고, LLM에 적응형 질문 데이터베이스를 구축했습니다. 둘째, 질문의 난이도 분포를 기반으로 문제 데이터베이스를 샘플링한 후, DeepSeek-R1 (671B) (DeepSeek-AI 외, 2025)를 사용하여 정답과 함께 해당하는 고품질 CoT 데이터를 생성했습니다. LLM에 적응형 난이도 수준의 CoT 데이터 구축 덕분에, 우리는 데이터 생성 비용을 크게 절감하고 모델의 지도 미세 조정(SFT) 효율성을 향상시켰습니다. 마지막으로, 우리는 복잡한 수학 경시대회 및 코드 생성 작업 분야에서 제안된 방법의 효과성과 일반화 가능성을 검증했습니다. 특히, 단 2k의 고품질 수학 CoT 데이터만으로도 우리의 ZMath-32B는 수학 추론 작업에서 DeepSeek-Distill-32B를 능가했습니다. 마찬가지로, 단 2k의 고품질 코드 CoT 데이터만으로도 우리의 ZCode-32B는 코드 추론 작업에서 DeepSeek-Distill-32B를 능가했습니다.
데이터 주석 작업은 비용이 많이 들기 때문에, 벤치마크 데이터셋은 종종 기존 이미지 데이터셋의 레이블을 통합합니다. 본 연구에서는 MSCOCO의 레이블 오류가 자주 사용되는 객체 환각 벤치마크인 POPE에 미치는 영향을 평가합니다. 벤치마크 이미지를 재주석하고, 다양한 하위 집단 간 주석 오류의 불균형을 확인했습니다. 수정된 레이블(RePOPE로 명명)을 사용하여 여러 모델을 평가한 결과, 모델 순위에 상당한 변화가 관찰되어 레이블 품질의 영향을 강조했습니다. 코드와 데이터는 https://github.com/YanNeu/RePOPE에서 확인할 수 있습니다.
인과 분석은 과학적 발견과 신뢰할 수 있는 의사결정에 있어 기초적인 역할을 수행하지만, 그 개념적 및 알고리즘적 복잡성으로 인해 도메인 전문가들이 접근하기 어려운 실정입니다. 이러한 인과 방법론과 실제 사용성 간의 괴리는 이중의 과제를 제시합니다: 도메인 전문가들은 최신 인과 학습 기술을 활용할 수 없으며, 인과 연구자들은 자신들의 방법론을 테스트하고 개선할 수 있는 광범위한 실제 적용 사례를 확보하지 못하고 있습니다. 이를 해결하기 위해, 우리는 대규모 언어 모델 프레임워크 내에서 전문가 수준의 인과 분석을 구현하는 자율 에이전트인 Causal-Copilot을 소개합니다. Causal-Copilot은 테이블 형식 데이터와 시계열 데이터 모두에 대해 인과 분석의 전체 파이프라인을 자동화합니다. 이는 인과 발견, 인과 추론, 알고리즘 선택, 하이퍼파라미터 최적화, 결과 해석, 그리고 실행 가능한 통찰력 생성까지 포함합니다. 또한 자연어를 통한 상호작용적 개선을 지원하여 비전문가들의 접근 장벽을 낮추면서도 방법론적 엄격성을 유지합니다. 20개 이상의 최신 인과 분석 기술을 통합함으로써, 우리의 시스템은 도메인 전문가들이 고급 인과 방법론에 접근할 수 있도록 확장하는 동시에, 인과 이론을 알리고 발전시킬 수 있는 풍부한 실제 적용 사례를 생성하는 선순환 구조를 조성합니다. 실험적 평가를 통해 Causal-Copilot이 기존 베이스라인 대비 우수한 성능을 달성하며, 인과 분석에서 이론적 정교함과 실제 적용 가능성 간의 격차를 해소하는 신뢰할 수 있고 확장 가능하며 확장성 있는 솔루션을 제공함을 입증했습니다. Causal-Copilot의 라이브 인터랙티브 데모는 https://causalcopilot.com/에서 확인할 수 있습니다.
C-to-Rust 변환(transpilation)은 레거시 C 코드를 현대화하고 안전성을 강화하며 현대 Rust 생태계와의 상호 운용성을 높이는 데 필수적입니다. 그러나 현재 C 코드를 안전한 Rust로 변환하는 시스템의 성능을 평가하기 위한 데이터셋이 존재하지 않습니다. 우리는 CRUST-Bench를 소개합니다. 이는 100개의 C 저장소(repository)로 구성된 데이터셋으로, 각 저장소는 수동으로 작성된 안전한 Rust 인터페이스와 변환의 정확성을 검증할 수 있는 테스트 케이스와 함께 제공됩니다. CRUST-Bench는 단일 함수가 아닌 전체 저장소를 고려함으로써, 여러 파일 간의 의존성을 가진 복잡한 프로젝트를 번역하는 데 따른 어려움을 포착합니다. 제공된 Rust 인터페이스는 관용적이고 메모리 안전한 Rust 패턴을 준수하도록 명시적인 사양을 제공하며, 동반되는 테스트 케이스는 기능적 정확성을 강제합니다. 우리는 이 작업에 대해 최신 대형 언어 모델(LLM)을 평가했으며, 안전하고 관용적인 Rust 생성이 다양한 최신 방법과 기술에 여전히 어려운 문제임을 발견했습니다. 또한, LLM이 C에서 안전한 Rust로 코드를 변환할 때 일반적으로 발생하는 오류에 대한 통찰을 제공합니다. 가장 성능이 좋은 모델인 OpenAI o1은 단일 시도(single-shot) 설정에서 단 15개의 작업만 해결할 수 있었습니다. CRUST-Bench에서의 개선은 복잡한 시나리오를 추론하고 레거시 코드베이스를 C에서 Rust와 같은 메모리 안전성을 보장하는 언어로 마이그레이션하는 데 도움이 되는 향상된 변환 시스템으로 이어질 것입니다. 데이터셋과 코드는 https://github.com/anirudhkhatry/CRUST-bench에서 확인할 수 있습니다.
체크박스는 실제 문서 처리에서 틱의 유무가 데이터 추출과 의사 결정 과정에 직접적인 영향을 미치는 중요한 요소입니다. 그러나 대형 비전 및 언어 모델이 다양한 작업에서 뛰어난 성능을 보임에도 불구하고, 체크 가능한 콘텐츠를 해석하는 데는 어려움을 겪고 있습니다. 이 문제는 단 하나의 체크박스를 놓치는 것만으로도 비용이 큰 규제 또는 계약상의 문제를 초래할 수 있는 산업에서 특히 심각합니다. 이러한 격차를 해결하기 위해, 우리는 체크박스 관련 작업에서 모델 성능을 평가하고 개선하기 위해 설계된 특화된 리소스인 CheckboxQA 데이터셋을 소개합니다. 이 데이터셋은 현재 모델의 한계를 드러내며, 법률 기술 및 금융과 같은 분야에서의 응용에 중요한 영향을 미치는 문서 이해 시스템의 발전을 위한 가치 있는 도구로 활용될 수 있습니다. 데이터셋은 다음 링크에서 공개적으로 이용 가능합니다: https://github.com/Snowflake-Labs/CheckboxQA
다중 작업 시각적 그라운딩(Multi-task Visual Grounding, MTVG)은 참조 표현 이해(Referring Expression Comprehension, REC)와 참조 표현 분할(Referring Expression Segmentation, RES)이라는 두 가지 하위 작업을 포함합니다. 기존의 대표적인 접근 방식은 일반적으로 시각적 및 언어적 모달리티에 대한 독립적인 특징 추출, 교차 모달 상호작용 모듈, 그리고 서로 다른 하위 작업을 위한 독립적인 예측 헤드로 구성된 연구 파이프라인을 따릅니다. 이러한 접근 방식은 뛰어난 성능을 달성했지만 두 가지 한계점이 있습니다: 1) 언어적 내용이 전체 시각적 백본에 완전히 주입되지 않아 더 효과적인 시각적 특징 추출을 촉진하지 못하며, 추가적인 교차 모달 상호작용 모듈이 필요합니다; 2) REC와 RES 작업 간의 관계가 효과적으로 활용되지 않아 더 정확한 출력을 위한 협력적 예측에 도움이 되지 않습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 다중 작업 시각적 그라운딩을 위한 점진적 언어-지도 시각적 학습 프레임워크(Progressive Language-guided Visual Learning framework, PLVL)를 제안합니다. PLVL은 시각적 모달리티 자체의 내재적 특징 표현을 세밀하게 탐색할 뿐만 아니라, 언어 정보를 점진적으로 주입하여 언어 관련 시각적 특징을 학습하는 데 도움을 줍니다. 이러한 방식으로, PLVL은 추가적인 교차 모달 융합 모듈 없이도 언어 지도를 완전히 도입할 수 있습니다. 더 나아가, REC의 위치 중심이 RES에서 분할 대상 영역을 어느 정도 식별하는 데 도움이 될 수 있다는 점을 분석했습니다. 이러한 연구를 바탕으로, 두 하위 작업에 대한 협력적 예측을 수행하기 위한 다중 작업 헤드를 설계했습니다. 여러 벤치마크 데이터셋에서 수행된 광범위한 실험을 통해, PLVL이 REC와 RES 작업 모두에서 대표적인 방법들을 뛰어넘는 성능을 보임을 입증했습니다. https://github.com/jcwang0602/PLVL