번역이 포함된 일일 선별된 AI 연구 논문
시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 한 그래픽 사용자 인터페이스(GUI) 에이전트들은 인간과 유사한 컴퓨터 제어 능력을 보여주었습니다. 디지털 자동화를 발전시키는 데 유용하다는 점에도 불구하고, 훈련을 위한 고품질 궤적 데이터 수집이라는 중요한 병목 현상이 지속되고 있습니다. 이러한 데이터를 수집하는 일반적인 방법은 인간 감독이나 사전 정의된 작업을 실행하여 합성 데이터를 생성하는 데 의존하는데, 이는 자원 소모가 많거나 데이터 품질을 보장할 수 없는 문제가 있습니다. 게다가, 이러한 방법들은 합성 데이터와 실제 환경 간의 한계와 상당한 간극을 겪고 있습니다. 이러한 도전에 대처하기 위해, 우리는 기존의 궤적 수집 과정을 역전시키는 혁신적인 GUI 데이터 합성 파이프라인인 OS-Genesis를 제안합니다. 사전 정의된 작업에 의존하는 대신, OS-Genesis는 에이전트가 먼저 환경을 인식하고 단계별 상호 작용을 수행한 후 궤적 수준의 탐색을 가능하게 하는 고품질 작업을 후향적으로 도출합니다. 그런 다음 궤적 보상 모델을 활용하여 생성된 궤적의 품질을 보장합니다. OS-Genesis를 사용하여 GUI 에이전트를 훈련시키면 매우 어려운 온라인 벤치마크에서 그들의 성능이 크게 향상되는 것을 입증합니다. 심층 분석은 더 나아가, 기존의 합성 방법과 비교하여 OS-Genesis의 효율성 및 우수한 데이터 품질과 다양성을 검증합니다. 우리의 코드, 데이터 및 체크포인트는 다음 링크에서 확인할 수 있습니다: https://qiushisun.github.io/OS-Genesis-Home/{OS-Genesis 홈페이지}.
Xmodel-2는 추론 작업을 위해 특별히 설계된 12억 개의 매개변수를 가진 대형 언어 모델입니다. 해당 아키텍처는 다양한 모델 규모가 통합된 하이퍼파라미터 세트를 공유할 수 있도록 하여, 작은 모델에서의 광범위한 실험과 최적 구성의 대형 모델로의 원활한 전이를 가능케 합니다. 훈련 효율성과 안정성을 극대화하기 위해 Xmodel-2는 MiniCPM의 WSD 학습률 스케줄러를 사용합니다. 다양한 소스로부터 1,500조 토큰으로 사전 훈련된 Xmodel-2는 복잡한 추론 및 에이전트 기반 작업에서 최첨단 성능을 달성하면서 훈련 비용을 낮추었습니다. 이러한 결과는 효율적인 모델 설계와 훈련 전략이 추론 능력을 발전시키는 데 있어 가지는 잠재력을 강조합니다. 모델 체크포인트와 코드는 GitHub(https://github.com/XiaoduoAILab/Xmodel-2)에서 공개되어 있습니다.
대규모 비전-언어 모델(Vision-Language Models, VLMs)은 비전 입력과 텍스트를 조정함으로써 컴퓨터 비전 작업의 성능을 크게 향상시키며 발전해왔습니다. 또한, 실제 응용 프로그램에서 효과적으로 활용하기 위해서는 열, 깊이, X-선 정보와 같은 다양한 다중 비전 센서 데이터에 대한 이해가 필수적입니다. 그러나 현재 VLMs는 다중 비전 센서 이미지를 처리할 때 센서 정보에 대한 심층적인 이해 없이 각 센서의 고유한 물리적 특성을 무시합니다. 이 제한으로 인해 복잡한 다중 비전 센서 추론이 필요한 복잡한 질문에 대한 해석과 응답 능력이 제한됩니다. 이를 해결하기 위해 우리는 새로운 다중 비전 센서 지각 및 추론(Multi-vision Sensor Perception and Reasoning, MS-PR) 벤치마크를 제안하여 VLMs의 센서별 추론 능력을 평가합니다. 더불어, 다양한 부정적 특성(Diverse Negative Attributes, DNA) 최적화를 소개하여 VLMs가 다중 비전 센서 작업에 대해 심층적인 추론을 수행하도록 하고 이미지와 센서 데이터 간의 핵심 정보 간격을 줄이는 데 도움이 되도록 합니다. 방대한 실험 결과가 제안된 DNA 방법이 VLMs의 다중 비전 센서 추론을 크게 향상시킬 수 있다는 것을 검증합니다.
우리는 LEAN4와 상호작용하는 자동 정리 증명을 위해 Hunyuan 7B에서 finetuned된 언어 모델인 HunyuanProver를 소개합니다. 데이터 희소성 문제를 완화하기 위해, 우리는 저비용으로 데이터를 반복적으로 합성하는 확장 가능한 프레임워크를 설계했습니다. 또한, 유도된 트리 탐색 알고리즘을 설계하여 증명자의 효과적인 "시스템 2 사고"를 가능하게 합니다. HunyuanProver는 주요 벤치마크에서 최신 기술 성능을 달성합니다. 구체적으로, 현재 SOTA 결과인 65.9%에 비해 miniF2F-test에서 68.4%의 통과율을 달성합니다. HunyuanProver는 miniF2F-test에서 imo_1960_p2, imo_1962_p2, imo_1964_p2 및 imo_1983_p6의 4개 IMO 문을 증명합니다. 커뮤니티에 이바지하기 위해, 우리는 각 인스턴스가 자연어로 된 원래 질문, 자동 형식화에 의해 변환된 문장, 그리고 HunyuanProver에 의한 증명이 포함된 30k 합성 인스턴스 데이터셋을 오픈 소스로 공개할 예정입니다.
확산 모델은 텍스트에서 이미지를 생성하는 데 뛰어난 재능을 보여주지만, 여전히 매우 미 esthetic한 이미지를 생성하는 데 실패할 수 있습니다. 구체적으로, 생성된 이미지와 실제 세계의 aesthetic 이미지 간에는 색상, 조명, 구성 등을 포함한 보다 세분화된 차원에서 여전히 격차가 존재합니다. 본 논문에서는 시각적 개념을 횡단하는 Cross-Attention Value Mixing Control (VMix) Adapter를 제안하여 생성된 이미지의 품질을 업그레이드하고, 시각적 개념을 횡단하여 일반성을 유지하는 동안 (1) aesthetic embedding의 초기화를 통해 입력 텍스트 프롬프트를 콘텐츠 설명과 aesthetic 설명으로 분리하고, (2) 가치 혼합된 교차-주의를 통해 aesthetic 조건을 소음 제거 프로세스에 통합하는 것입니다. 네트워크는 제로 초기화된 선형 레이어로 연결됩니다. 우리의 주요 통찰력은 이미지-텍스트 정렬을 유지하면서 우수한 조건 제어 방법을 설계함으로써 기존의 확산 모델의 aesthetic 표현을 향상시키는 데 있습니다. 세심한 설계를 통해 VMix는 재훈련 없이 커뮤니티 모델에 적용되어 시각적 성능을 향상시킬 수 있을 만큼 유연합니다. 우리의 방법의 효과를 검증하기 위해 포괄적인 실험을 실시하여 VMix가 다른 최첨단 방법보다 우수하며 이미지 생성을 위해 다른 커뮤니티 모듈 (예: LoRA, ControlNet 및 IPAdapter)과 호환되는 것을 보여주었습니다. 프로젝트 페이지는 https://vmix-diffusion.github.io/VMix/ 에 있습니다.