번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)의 법률 분석 능력을 더 깊이 이해하는 것은 법률 서비스의 효율성 향상, 인공지능 통제, 그리고 법률 내 불일치를 식별하기 위해 LLM을 활용하는 데 기여할 수 있습니다. 본 논문은 세법 적용에 있어 LLM의 능력을 탐구합니다. 우리가 세법을 선택한 이유는 수천 가지 사례에 걸쳐 자동화된 검증 파이프라인을 구축할 수 있는 구조를 가지고 있으며, 논리적 추론과 수학적 능력을 요구하며, 시민과 기업의 실제 경제 생활과 관련된 방식으로 LLM의 능력을 테스트할 수 있기 때문입니다. 우리의 실험은 OpenAI 모델의 각 후속 출시마다 성능이 개선되며, LLM의 법적 이해 능력이 점차 발전하고 있음을 보여줍니다. 우리는 관련 법적 권위를 검색하고 활용하여 추가적인 법적 맥락을 제공했을 때 LLM에 미치는 영향을 평가했습니다. 또한, 질문-답변 쌍의 예시를 제시하는 퓨샷 프롬프팅(few-shot prompting)이 가장 발전된 모델인 GPT-4의 성능을 크게 향상시키는 것으로 나타났습니다. 연구 결과는 LLM이, 특히 프롬프팅 개선과 올바른 법률 텍스트와 결합되었을 때, 높은 수준의 정확도를 달성할 수 있지만 아직 전문 세무 변호사 수준에는 미치지 못한다는 것을 보여줍니다. LLM이 계속 발전함에 따라, 법률에 대해 자율적으로 추론하는 능력은 법률 전문직과 AI 통제에 중대한 영향을 미칠 수 있습니다.
확산 모델(Diffusion Model)은 다양한 이미지를 생성하는 데 있어 뛰어난 잠재력을 보여주고 있습니다. 그러나 반복적인 노이즈 제거 과정으로 인해 생성 속도가 느리다는 단점이 있습니다. 최근 지식 증류(Knowledge Distillation)가 이러한 문제를 해결하기 위해 제안되었으며, 이는 품질 저하 없이 추론 단계를 하나 또는 소수로 줄일 수 있는 방법입니다. 하지만 기존의 증류 방법들은 교사 모델(Teacher Model)로부터 합성 훈련 데이터를 생성하기 위해 상당한 오프라인 계산을 필요로 하거나, 실제 데이터를 활용한 고비용의 온라인 학습을 수행해야 합니다. 본 연구에서는 이러한 한계를 극복하기 위해 BOOT라는 새로운 기법을 제안합니다. 이는 효율적인 데이터 없는(Data-Free) 증류 알고리즘을 기반으로 합니다. 핵심 아이디어는 미리 학습된 확산 모델 교사가 주어진 시간 단계에서 출력하는 결과를 예측하는 시간 조건부 모델(Time-Conditioned Model)을 학습하는 것입니다. 이러한 모델은 두 개의 연속적인 샘플링 단계로부터 부트스트래핑(Bootstrapping)을 통해 효율적으로 훈련될 수 있습니다. 또한, 본 방법은 대규모 텍스트-이미지 확산 모델에도 쉽게 적용할 수 있으며, 이는 기존 방법들이 대규모 훈련 데이터셋에 접근하기 어려운 점을 고려할 때 중요한 장점입니다. 우리는 DDIM 설정에서 여러 벤치마크 데이터셋에 대해 제안된 접근법의 효과를 입증하였으며, 확산 모델 교사보다 수 배 빠른 속도로 비슷한 수준의 생성 품질을 달성했습니다. 텍스트-이미지 생성 결과는 제안된 방법이 매우 복잡한 분포도 처리할 수 있음을 보여주며, 더 효율적인 생성 모델링에 대한 가능성을 제시합니다.
특정 장면의 "분위기"를 구성하는 요소는 무엇인가? "복잡하고 지저분한 도시 거리", "전원적인 시골 풍경", "버려진 거실의 범죄 현장"에는 어떤 것들이 있어야 할까? 추상적인 장면 묘사에서 스타일화된 장면 요소로의 변환은 엄격하고 제한된 실내 데이터셋으로 훈련된 기존 시스템들로는 일반적으로 수행할 수 없다. 본 논문에서는 이러한 변환을 달성하기 위해 파운데이션 모델들이 포착한 지식을 활용하는 방법을 제안한다. 우리는 짧은 구절로 묘사된 3D 장면을 위한 스타일화된 에셋을 생성할 수 있는 시스템을 제시하며, 이 시스템은 장면 내에 포함될 객체들을 열거하거나 그들의 외관에 대한 지시를 필요로 하지 않는다. 또한, 제한된 데이터로 훈련된 전통적인 방법들과 달리 개방형 세계 개념에 강건하여 3D 아티스트에게 더 많은 창의적 자유를 제공한다. 우리의 시스템은 이를 위해 대형 언어 모델, 시각-언어 모델, 그리고 여러 이미지 확산 모델로 구성된 파운데이션 모델 "팀"을 사용하며, 이 모델들은 해석 가능하고 사용자가 편집할 수 있는 중간 표현을 통해 소통함으로써 3D 아티스트들을 위해 더 다양하고 제어 가능한 스타일화된 에셋 생성을 가능하게 한다. 우리는 이 작업을 위한 새로운 메트릭들을 소개하고, 인간 평가를 통해 우리 시스템의 출력이 91%의 경우에서 입력 장면 설명의 의미에 더 충실하다고 판단되었음을 보여줌으로써, 이 접근 방식이 3D 콘텐츠 제작 프로세스를 획기적으로 가속화할 잠재력을 강조한다.
텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티에 걸친 생성형 AI 시스템은 광범위한 사회적 영향을 미치지만, 이러한 영향을 평가하는 방법과 어떤 영향을 평가해야 하는지에 대한 공식적인 표준은 아직 존재하지 않습니다. 우리는 특정 애플리케이션이 정해지지 않은 기본 시스템에서 평가 가능한 사항과 사회에서 평가 가능한 사항이라는 두 가지 포괄적인 범주로, 모든 모달리티의 생성형 AI 시스템을 평가하기 위한 표준 접근 방식을 제안합니다. 우리는 특정 사회적 영향 범주와 기본 기술 시스템, 그리고 사람과 사회에서 평가를 수행하는 방법에 대해 설명합니다. 기본 시스템을 위한 우리의 프레임워크는 편향, 고정관념 및 표현적 피해; 문화적 가치와 민감한 콘텐츠; 불균등한 성능; 프라이버시와 데이터 보호; 재정적 비용; 환경적 비용; 데이터 및 콘텐츠 관리 노동 비용 등 일곱 가지 사회적 영향 범주를 정의합니다. 평가를 위한 제안된 방법은 모든 모달리티에 적용 가능하며, 기존 평가의 한계에 대한 분석은 향후 평가에 필요한 투자를 위한 출발점 역할을 합니다. 우리는 사회에서 평가 가능한 사항에 대해 신뢰성과 자율성; 불평등, 소외 및 폭력; 권력 집중; 노동과 창의성; 생태계와 환경 등 다섯 가지 포괄적인 범주를 제시하며, 각 하위 범주에는 피해를 완화하기 위한 권장 사항이 포함되어 있습니다. 우리는 동시에 AI 연구 커뮤니티가 주어진 범주에 따라 기존 평가를 기여할 수 있는 평가 저장소를 구축 중입니다. 이 버전은 ACM FAccT 2023에서의 CRAFT 세션 이후 업데이트될 예정입니다.
본 논문의 목표는 개방형 어휘 객체 탐지(Open-Vocabulary Object Detection, OVOD)를 구현하는 것으로, 이는 학습 과정에서 접한 범주를 넘어서는 객체를 탐지할 수 있는 모델을 구축하여 사용자가 모델 재학습 없이도 추론 단계에서 관심 있는 범주를 지정할 수 있도록 하는 것이다. 우리는 표준 2단계 객체 탐지기 아키텍처를 채택하고, 새로운 범주를 지정하는 세 가지 방법을 탐구한다: 언어 설명을 통한 방법, 이미지 예시를 통한 방법, 그리고 이 둘을 결합한 방법. 우리는 세 가지 주요 기여를 한다: 첫째, 대형 언어 모델(Large Language Model, LLM)을 활용하여 객체 클래스에 대한 정보성 높은 언어 설명을 생성하고, 강력한 텍스트 기반 분류기를 구축한다; 둘째, 이미지 예시에 대한 시각적 집계기를 도입하여 임의의 수의 이미지를 입력으로 처리할 수 있도록 하여 시각 기반 분류기를 형성한다; 셋째, 언어 설명과 이미지 예시로부터 정보를 융합하는 간단한 방법을 제공하여 다중 모달 분류기를 구현한다. 도전적인 LVIS 개방형 어휘 벤치마크에서 평가한 결과, 우리는 다음과 같은 점을 입증한다: (i) 우리의 텍스트 기반 분류기는 이전의 모든 OVOD 연구를 능가한다; (ii) 우리의 시각 기반 분류기는 이전 연구의 텍스트 기반 분류기와 동등한 성능을 보인다; (iii) 다중 모달 분류기를 사용하는 것이 단일 모달리티만 사용하는 것보다 더 나은 성능을 보인다; 마지막으로, (iv) 우리의 텍스트 기반 및 다중 모달 분류기는 완전 지도 학습 탐지기보다 더 나은 성능을 보인다.
전문 사진작가들이 수행하는 일반적인 편집 작업에는 클린업 작업이 포함됩니다: 주의를 분산시키는 요소를 약화시키고 주요 피사체를 강화하는 작업입니다. 이러한 편집은 시청자의 주의를 조작하면서도 사진의 사실감을 유지하는 미묘한 균형을 요구하기 때문에 어려운 작업입니다. 최근의 접근 방식들은 주의 감소 또는 증폭의 성공적인 사례를 자랑할 수 있지만, 대부분은 빈번한 비현실적인 편집 문제를 겪고 있습니다. 우리는 다양한 이미지 유형에서 높은 사실감을 유지하면서 주의를 분산시키는 요소를 약화시키고 관심 대상 객체를 증폭하기 위해 주의도 기반 이미지 향상을 위한 사실감 손실(realism loss)을 제안합니다. 전문 사진작가들과의 평가를 통해 우리는 사실감과 효과성이라는 이중 목표를 달성했으며, 더 작은 메모리 사용량과 실행 시간을 요구하면서도 최근 접근 방식들을 그들의 데이터셋에서 능가함을 확인했습니다. 따라서 우리는 이미지 향상 및 사진 클린업 작업의 자동화를 위한 실행 가능한 솔루션을 제공합니다.
Neural Radiance Fields(NeRF)는 새로운 시점 합성에서 인상적인 결과를 보여주지만, 철저한 기록조차도 재구성에서 불완전성을 초래할 수 있습니다. 예를 들어, 관찰이 부족한 영역이나 미세한 조명 변화로 인한 문제가 발생할 수 있습니다. 우리의 목표는 이러한 다양한 원인으로 인한 불완전성을 통합된 해결책으로 완화하는 것입니다. 이를 위해, 우리는 생성적 적대 신경망(GAN)이 현실적인 이미지를 생성할 수 있는 능력을 활용하여 NeRF를 사용한 3D 장면 재구성의 현실감을 높입니다. 이를 위해, 우리는 적대적 판별기를 사용하여 장면의 패치 분포를 학습하고, 이를 통해 방사장 재구성에 피드백을 제공하여 3D 일관성을 유지하면서 현실감을 개선합니다. 이를 통해, 다중 시점 경로 렌더링 제약을 부과하여 기본 3D 표현에서 렌더링 아티팩트를 직접 수정합니다. 또한, 우리는 다중 해상도 NeRF 렌더링으로 생성기를 조건화하여 렌더링 품질을 더욱 개선하기 위해 적대적으로 학습시킵니다. 우리의 접근 방식이 렌더링 품질을 크게 개선함을 보여주며, 예를 들어, Tanks and Temples의 고급 실내 장면에서 Nerfacto와 비교하여 LPIPS 점수를 거의 절반으로 줄이면서 동시에 PSNR을 1.4dB 개선합니다.