번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델은 추론 능력에서 상당한 발전을 보여주었으며, 특히 추론 시간 스케일링을 통해 이를 입증하였다. 이는 OpenAI의 o1과 같은 모델들로 설명되었다. 그러나 현재의 시각-언어 모델(VLMs)은 복잡한 시각 질문 응답 작업을 다룰 때 특히 체계적이고 구조화된 추론을 수행하는 데 어려움을 겪는다. 본 연구에서는 자율적인 다단계 추론을 수행하기 위해 설계된 혁신적인 VLM인 LLaVA-o1을 소개한다. 연상의 연쇄가 아닌 LLaVA-o1은 요약, 시각 해석, 논리적 추론 및 결론 생성의 순차적 단계에 독립적으로 참여한다. 이러한 구조화된 접근은 LLaVA-o1이 추론 집중적 작업에서 정밀도를 향상시키도록 한다. 이를 달성하기 위해 다양한 시각 질문 응답 소스에서 샘플을 통합하고 구조화된 추론 주석을 제공하는 LLaVA-o1-100k 데이터셋을 편성한다. 또한 추론 시간 단계별 빔 검색 방법을 제안하여 효과적인 추론 시간 스케일링을 가능하게 한다. 놀랍게도, 100k개의 훈련 샘플과 간단하면서 효과적인 추론 시간 스케일링 방법만으로 LLaVA-o1은 다양한 다중 모달 추론 벤치마크에서 기본 모델을 8.9% 능가할 뿐만 아니라 Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct와 같은 더 크고 심지어 폐쇄 소스 모델의 성능을 능가한다.
3D 콘텐츠 생성 기술은 상당히 발전했지만, 기존 방법은 여전히 입력 형식, 잠재 공간 디자인 및 출력 표현과 관련된 문제에 직면하고 있습니다. 본 논문은 이러한 문제를 해결하는 혁신적인 3D 생성 프레임워크를 제안하며, 상호작용 가능한 포인트 클라우드 구조의 잠재 공간을 활용하여 확장 가능하고 고품질의 3D 생성을 제공합니다. 저희 프레임워크는 Variational Autoencoder (VAE)를 사용하며, 다중 뷰 포즈된 RGB-D(깊이)-N(노멀) 렌더링을 입력으로 사용하여 3D 모양 정보를 보존하는 독특한 잠재 공간 디자인을 채택하고, 개선된 모양-질감 분리를 위해 연쇄 잠재 확산 모델을 통합합니다. 제안된 방법인 GaussianAnything은 다중 모달 조건부 3D 생성을 지원하며, 포인트 클라우드, 캡션, 그리고 단일/다중 뷰 이미지 입력이 가능합니다. 특히, 새롭게 제안된 잠재 공간은 기하학-질감 분리를 자연스럽게 가능케 하여 3D를 인식한 편집을 허용합니다. 실험 결과는 저희 방법이 다중 데이터셋에서 효과적임을 입증하며, 텍스트 및 이미지 조건부 3D 생성에서 기존 방법을 능가함을 보여줍니다.
본 논문에서는 정확한 레이아웃 구성을 위해 지역 설명에 의존하는 지역 인식 텍스트-이미지 생성 방법인 RAG를 제안합니다. 세밀한 공간 제어를 가능하게 하는 지역 프롬프팅 또는 구성 생성은 실제 응용 프로그램에서의 실용성으로 인해 점점 더 주목받고 있습니다. 그러나 이전 방법들은 추가 학습 가능한 모듈을 도입하여 특정 모델에만 적용되거나, 주의 마스크를 사용하여 교차 주의 계층 내에서 점수 맵을 조작함으로써 지역 수가 증가할 때 제어 강도가 제한되는 문제가 있습니다. 이러한 제한 사항을 처리하기 위해 우리는 다중 지역 생성을 지역 하드 바인딩(Regional Hard Binding)과 지역 경계를 무시하고 인접 상호 작용을 강화하는 지역 소프트 세부 조정(Regional Soft Refinement) 두 하위 작업으로 분리합니다. 또한 RAG는 사용자가 추가 inpainting 모델에 의존하지 않고 마지막 생성물에서 특정 불만족스러운 지역을 수정할 수 있는 다시 그리기를 가능하게 합니다. 저희 방법은 튜닝 없이 프롬프트 따르기 속성을 향상시키는 것으로 다른 프레임워크에 적용 가능합니다. 양적 및 질적 실험 결과는 RAG가 이전 튜닝 없는 방법보다 속성 바인딩 및 객체 관계에서 우수한 성능을 달성한다는 것을 입증합니다.
최근 출시된 모델인 Claude 3.5 컴퓨터 사용은 그래픽 사용자 인터페이스(GUI) 에이전트로서 일반 베타로 컴퓨터 사용을 제공하는 최초의 프론티어 AI 모델로 주목받고 있습니다. 초기 베타로서, 이 모델의 실제 복잡한 환경에서의 능력은 알려지지 않았습니다. Claude 3.5 컴퓨터 사용을 탐구하기 위한 이 사례 연구에서는 다양한 도메인과 소프트웨어를 아우르는 신중히 설계된 작업 모음을 편집하고 조직합니다. 이러한 사례에서의 관측 결과는 Claude 3.5 컴퓨터 사용이 언어에서 데스크톱 작업까지의 전체 과정에서 전례없는 능력을 보여주고 있음을 입증합니다. 본 연구와 함께, API 기반 GUI 자동화 모델을 쉽게 구현할 수 있는 즉시 사용 가능한 에이전트 프레임워크를 제공합니다. 우리의 사례 연구는 Claude 3.5 컴퓨터 사용의 능력과 한계를 상세히 분석하여 계획, 행동 및 비평에 대한 문제를 제기하며, 향후 개선을 위해 고려해야 할 사항을 강조하고 있습니다. 이러한 초기 탐구가 GUI 에이전트 커뮤니티에 대한 미래 연구를 촉진할 것으로 기대합니다. 논문의 모든 테스트 케이스는 다음 프로젝트를 통해 시도해 볼 수 있습니다: https://github.com/showlab/computer_use_ootb.
비디오 대규모 언어 모델(Video Large Language Models, Vid-LLMs)은 QA 대화를 위한 비디오 콘텐츠를 이해하는 데 놀라운 진전을 이루었습니다. 그러나 정확한 시간적 위치 지정이 필요한 작업에 이 시각적 이해를 확장하는 데 어려움을 겪는데, 이를 비디오 시간적 지지(Video Temporal Grounding, VTG)라고 합니다. 이 간극을 해결하기 위해 우리는 Number-Prompt(NumPro)을 소개합니다. 이는 각 비디오 프레임에 고유한 숫자 식별자를 추가하여 Vid-LLMs가 시각적 이해와 시간적 지지를 연결할 수 있도록 하는 혁신적인 방법입니다. 비디오를 번호가 매겨진 프레임 이미지의 시퀀스로 취급하여, NumPro은 VTG를 직관적인 프로세스로 변환합니다: 연속된 만화 패널을 넘기는 것과 같습니다. 이를 통해 Vid-LLMs가 사건 타임라인을 "읽어내어" 시각적 콘텐츠를 해당 시간적 정보와 정확하게 연결할 수 있습니다. 우리의 실험 결과는 NumPro가 추가적인 계산 비용 없이 최고 수준의 Vid-LLMs의 VTG 성능을 현저히 향상시킨다는 것을 입증합니다. 더 나아가, NumPro로 향상된 데이터셋에서의 세밀한 조정은 순간 검색에서 이전 최고 성능 방법을 최대 6.9%의 mIoU, 하이라이트 탐지에서 8.5%의 mAP로 능가하는 VTG의 새로운 최첨단을 정의합니다. 코드는 https://github.com/yongliang-wu/NumPro에서 사용할 수 있습니다.
저희는 약 2조 토큰에 대해 사전 훈련된 새로운 10억 개 파라미터 다국어 대형 모델인 Xmodel-1.5를 소개합니다. 이 모델은 몇 가지 언어에서 강력한 성능을 보여주며 특히 태국어, 아랍어, 프랑스어에서 높은 결과를 보여줍니다. 또한 중국어와 영어에서도 효과적입니다. 더불어, 저희는 태국어 평가 데이터셋을 공개함으로써 연구 커뮤니티에 기여합니다. 이 데이터셋은 출러롱콘 대학교 통합 혁신 학부 학생들이 주석을 단 수백 개의 질문을 포함하고 있습니다. 결과가 유망하긴 하지만, 아직 개선할 여지가 있다는 점을 인정합니다. 이 연구가 다국어 인공지능 연구의 지속적인 노력을 촉진하고 다양한 자연어 처리 작업에서 더 나은 상호 언어 이해를 촉진하길 희망합니다. 저희의 모델과 코드는 GitHub(https://github.com/XiaoduoAILab/XmodelLM)에서 공개되어 있습니다.
딥 신경망 및 더 최근에는 대규모 모델을 훈련하는 데는 효율적이고 확장 가능한 옵티마이저가 필요합니다. Adam, AdamW 및 그 변형과 같은 적응형 그래디언트 알고리즘은 이 작업에 중요한 역할을 해왔습니다. 지난 10년 동안 다양한 분산 감소 알고리즘들이 발전되었지만, 볼록 및 비볼록 설정에서 확률적 최적화를 가속화하기 위한 것들이었으나, 분산 감소는 딥 신경망이나 대규모 언어 모델을 훈련하는 데 널리 성공을 거두지 못했습니다. 결과적으로, 현대 AI에서는 이 방법이 상대적으로 선호되지 않는 접근 방식으로 남아 있었습니다. 본 논문에서는 대규모 모델의 효율적인 훈련을 위해 분산 감소의 힘을 발휘하기 위해 사전 조건화된 그래디언트 방법과 스케일 조정된 확률적 재귀 모멘텀 기술을 통해 분산 감소를 조화시키는 통합된 최적화 프레임워크인 MARS (Make vAriance Reduction Shine)를 제안합니다. 우리의 프레임워크 내에서, AdamW, Lion 및 Shampoo를 기반으로 한 사전 조건화된 그래디언트 업데이트를 활용하는 MARS의 세 가지 인스턴스를 소개합니다. 또한 우리의 알고리즘과 기존 옵티마이저 사이의 연결을 설명합니다. GPT-2 모델을 훈련하는 실험 결과는 MARS가 AdamW보다 큰 폭으로 우수한 성능을 보인다는 것을 지속적으로 입증합니다.