번역이 포함된 일일 선별된 AI 연구 논문
웹 자동화는 일반적인 웹 작업을 자동화하여 복잡한 웹 작업을 수행하고, 운영 효율성을 높이며, 수동 개입의 필요성을 줄이는 중요한 기술입니다. 래퍼(wrapper)와 같은 전통적인 방법은 새로운 웹사이트를 접할 때 적응성과 확장성이 제한적이라는 단점이 있습니다. 반면, 대규모 언어 모델(LLM)로 강화된 생성 에이전트는 개방형 환경에서 성능과 재사용성이 떨어지는 문제를 보입니다. 본 연구에서는 수직 정보 웹 페이지를 위한 크롤러 생성 작업과 LLM과 크롤러를 결합한 패러다임을 소개하며, 이를 통해 크롤러가 다양하고 변화하는 웹 환경을 더 효율적으로 처리할 수 있도록 돕습니다. 우리는 HTML의 계층적 구조를 활용하여 점진적 이해를 가능하게 하는 2단계 프레임워크인 AutoCrawler를 제안합니다. AutoCrawler는 상향식(top-down) 및 단계적 후퇴(step-back) 작업을 통해 잘못된 동작에서 학습하고, 더 나은 동작 생성을 위해 HTML을 지속적으로 정제할 수 있습니다. 여러 LLM을 사용한 포괄적인 실험을 통해 우리 프레임워크의 효과를 입증하였습니다. 본 논문의 리소스는 https://github.com/EZ-hwh/AutoCrawler에서 확인할 수 있습니다.
우리는 정교하고 세밀한 시각 인식 능력을 갖춘 멀티모달 대형 언어 모델(MLLM)인 Groma를 소개합니다. Groma는 전체적인 이미지 이해를 넘어, 영역 캡셔닝(region captioning) 및 시각적 그라운딩(visual grounding)과 같은 영역 수준의 작업에 능숙합니다. 이러한 능력은 지역화된 시각 토큰화 메커니즘에 기반을 두고 있으며, 여기서 이미지 입력은 관심 영역으로 분해된 후 영역 토큰으로 인코딩됩니다. 영역 토큰을 사용자 지시 및 모델 응답에 통합함으로써, Groma가 사용자가 지정한 영역 입력을 이해하고 텍스트 출력을 이미지에 정확히 연결할 수 있도록 합니다. 또한, Groma의 그라운디드 채팅 능력을 강화하기 위해, GPT-4V와 시각적 프롬프팅 기술을 활용하여 시각적으로 그라운디드된 명령어 데이터셋을 구축했습니다. 언어 모델이나 외부 모듈에 의존하여 지역화를 수행하는 다른 MLLM들과 비교했을 때, Groma는 표준 참조(referring) 및 그라운딩 벤치마크에서 지속적으로 우수한 성능을 보여주며, 지역화를 이미지 토큰화에 내재화하는 것의 장점을 강조합니다. 프로젝트 페이지: https://groma-mllm.github.io/.
텍스트 중심 시각 질의응답(VQA)은 멀티모달 대형 언어 모델(MLLM)의 발전과 함께 큰 진전을 이루었지만, 오픈소스 모델들은 여전히 GPT4V 및 Gemini와 같은 선두 모델에 미치지 못하고 있습니다. 이는 부분적으로 방대하고 고품질의 지시 튜닝 데이터의 부족 때문입니다. 이를 위해, 우리는 폐쇄형 MLLM을 사용하여 생성된 대규모 고품질 지시 튜닝 데이터셋인 Square-10M을 생성하는 새로운 접근 방식을 소개합니다. 이 데이터 구성 과정은 Square라고 불리며, 네 단계로 이루어집니다: 자기 질문, 응답, 추론 및 평가. Square-10M을 사용한 실험을 통해 세 가지 주요 결과를 얻었습니다: 1) 우리의 모델인 TextSquare는 이전의 오픈소스 텍스트 중심 MLLM 최신 기술을 상당히 능가하며 OCRBench에서 새로운 기준을 세웠습니다(62.2%). 또한 10개의 텍스트 중심 벤치마크 중 6개에서 GPT4V 및 Gemini와 같은 최상위 모델을 능가했습니다. 2) 또한, 우리는 VQA 추론 데이터가 특정 질문에 대한 포괄적인 맥락적 통찰력을 제공하는 데 중요한 역할을 한다는 것을 입증했습니다. 이는 정확도를 향상시킬 뿐만 아니라 환각 현상을 크게 완화시킵니다. 특히, TextSquare는 네 개의 일반 VQA 및 환각 평가 데이터셋에서 평균 75.1%의 점수를 기록하며, 이전의 최신 모델을 능가했습니다. 3) 특히, 텍스트 중심 VQA 데이터셋의 규모 확장에서 관찰된 현상은 뚜렷한 패턴을 보여줍니다: 지시 튜닝 데이터 양의 기하급수적 증가는 모델 성능의 개선과 직접적으로 비례하며, 이는 데이터셋 규모의 필요성과 Square-10M의 높은 품질을 검증합니다.
현실적인 객체 상호작용은 몰입형 가상 경험을 창조하는 데 있어 핵심적이지만, 새로운 상호작용에 대한 사실적인 3D 객체 역학을 합성하는 것은 여전히 큰 과제로 남아 있습니다. 무조건적 또는 텍스트 기반 역학 생성과 달리, 행동 기반 역학은 객체의 물리적 재질 특성을 인지하고 이러한 특성(예: 객체의 강성)에 기반하여 3D 운동을 예측해야 합니다. 그러나 실제 객체의 물리적 재질 특성을 측정하는 것이 매우 어렵기 때문에, 이러한 특성을 추정하는 것은 아직 해결되지 않은 문제입니다. 우리는 비디오 생성 모델이 학습한 객체 역학 사전 지식을 활용하여 정적 3D 객체에 상호작용 역학을 부여하는 물리 기반 접근법인 PhysDreamer를 제안합니다. 이러한 사전 지식을 정제함으로써, PhysDreamer는 외부 힘이나 에이전트 조작과 같은 새로운 상호작용에 대한 사실적인 객체 반응을 합성할 수 있습니다. 우리는 탄성 객체의 다양한 예시를 통해 이 접근법을 시연하고, 사용자 연구를 통해 합성된 상호작용의 현실성을 평가합니다. PhysDreamer는 정적 3D 객체가 물리적으로 타당한 방식으로 상호작용 자극에 동적으로 반응할 수 있게 함으로써 더욱 흥미롭고 현실적인 가상 경험을 위한 한 걸음을 내딛습니다. 자세한 내용은 프로젝트 페이지(https://physdreamer.github.io/)를 참조하십시오.
쿼리 재작성(Query Rewrite)은 SQL 쿼리의 구조를 변경하면서도 쿼리 결과를 바꾸지 않고 더 효율적인 쿼리를 생성하는 것을 목표로 하는 중요한 연구 주제입니다. 전통적인 쿼리 재작성 방법은 재작성 과정에서 원본 쿼리와 재작성된 쿼리 간의 동등성을 유지하기 위해 항상 특정 재작성 규칙을 따라 쿼리를 수정합니다. 그러나 몇 가지 문제점이 여전히 존재합니다. 첫째, 최적의 재작성 규칙 선택 또는 순서를 찾는 기존 방법은 여전히 제한적이며, 이 과정은 많은 리소스를 소모합니다. 새로운 재작성 규칙을 발견하는 방법은 일반적으로 복잡한 구조적 논리 증명이나 광범위한 사용자 상호작용을 필요로 합니다. 둘째, 현재의 쿼리 재작성 방법은 종종 정확하지 않은 DBMS 비용 추정기에 크게 의존합니다. 본 논문에서는 이러한 문제를 해결하기 위해 LLM-R2라는 새로운 쿼리 재작성 방법을 제안합니다. 이 방법은 대규모 언어 모델(LLM)을 활용하여 데이터베이스 재작성 시스템을 위한 가능한 재작성 규칙을 제안합니다. LLM이 재작성 규칙을 추천하는 데 있어서의 추론 능력을 더욱 향상시키기 위해, 우리는 커리큘럼을 통해 대조 모델(Contrastive Model)을 학습시켜 쿼리 표현을 학습하고 LLM을 위한 효과적인 쿼리 데모를 선택합니다. 실험 결과는 우리의 방법이 쿼리 실행 효율성을 크게 개선하고 기준 방법들을 능가할 수 있음을 보여줍니다. 또한, 우리의 방법은 다양한 데이터셋에서 높은 견고성을 보입니다.
3D 가우시안 스플래팅(3D Gaussian Splatting)은 최근 고품질의 결과물과 하드웨어 래스터화와의 호환성으로 인해 장면 재구성 및 새로운 시점 합성에 있어 다재다능하고 효과적인 방법으로 주목받고 있습니다. 그러나 이러한 장점에도 불구하고, 가우시안 스플래팅은 Structure-from-Motion(SFM) 알고리즘에 의한 고품질 포인트 클라우드 초기화에 의존한다는 점이 극복해야 할 중요한 한계로 남아 있습니다. 이를 위해, 우리는 가우시안 스플래팅을 위한 다양한 초기화 전략을 탐구하고, 신경망 기반 방사 필드(Neural Radiance Fields, NeRF)로부터 얻은 체적 재구성이 SFM 데이터에 대한 의존성을 우회하는 데 어떻게 활용될 수 있는지 심층적으로 연구합니다. 우리의 연구 결과는, 신중하게 설계된 경우 무작위 초기화가 훨씬 더 나은 성능을 발휘할 수 있으며, 개선된 초기화 전략과 저비용 NeRF 모델로부터의 구조 추출을 결합함으로써 SFM 초기화를 통해 얻은 결과와 동등하거나 때로는 더 우수한 결과를 달성할 수 있음을 보여줍니다.
최근, 대규모 언어 모델(LLM) 기반의 여러 자동 프로그램 수정(APR) 기술이 수정 성능을 향상시키기 위해 제안되었습니다. 이러한 기술들은 주로 단일 라인 또는 덩어리(hunk) 수준의 수정에 초점을 맞추고 있지만, 제한된 수정 작업 범위와 비용이 많이 드는 문장 수준의 결함 위치 파악으로 인해 실제 적용에서 상당한 어려움에 직면하고 있습니다. 그러나 더 실용적인 함수 수준의 APR은 APR 작업의 범위를 확장하여 전체 버그가 있는 함수를 수정하고, 비용 효율적인 함수 수준의 결함 위치 파악만을 요구함에도 불구하고 아직 충분히 탐구되지 않고 있습니다. 본 논문에서는 소수 샷 학습(few-shot learning) 메커니즘과 보조 수정 관련 정보의 효과를 포함하여 LLM 기반 함수 수준 APR에 대한 첫 번째 포괄적인 연구를 수행합니다. 구체적으로, 우리는 널리 연구된 6개의 LLM을 채택하고 Defects4J 1.2 및 2.0 데이터셋에서 벤치마크를 구성했습니다. 우리의 연구는 제로 샷 학습(zero-shot learning)을 적용한 LLM이 이미 강력한 함수 수준 APR 기술임을 보여주며, 소수 샷 학습 메커니즘을 적용하면 수정 성능이 다양하게 나타남을 확인했습니다. 또한, 보조 수정 관련 정보를 LLM에 직접 적용하면 함수 수준 수정 성능이 크게 향상됨을 발견했습니다. 이러한 발견에 영감을 받아, 우리는 보조 수정 관련 정보의 힘을 활용하여 수정 성능을 향상시키기 위해 이중 LLM 프레임워크를 채택한 LLM 기반 함수 수준 APR 기술인 SRepair를 제안합니다. 평가 결과, SRepair는 Defects4J 데이터셋에서 300개의 단일 함수 버그를 올바르게 수정하며, 이는 모든 기존 APR 기술을 최소 85% 이상 크게 능가하는 성과를 보였고, 비용이 많이 드는 문장 수준의 결함 위치 정보 없이도 가능했습니다. 더 나아가, SRepair는 Defects4J 데이터셋에서 32개의 다중 함수 버그를 성공적으로 수정했는데, 이는 우리가 아는 한 최초로 어떤 APR 기술도 달성한 성과입니다.