번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLM)의 발전으로 인해 LLM 기반 에이전트가 인터랙티브 계획 수립 작업을 성공적으로 처리할 수 있게 되었습니다. 그러나 이러한 성과에도 불구하고, 기존 접근 방식들은 종종 계획 수립 과정에서 환각 현상을 겪거나 새로운 에이전트마다 재학습이 필요하다는 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 명시적 지침을 직접 통합하여 에이전트의 계획 수립 능력을 강화하는 메타 계획 최적화(MPO) 프레임워크를 제안합니다. 복잡한 지식에 의존하여 상당한 인간의 노력이 필요하거나 품질 보장이 부족한 기존 방법과 달리, MPO는 메타 계획을 통해 고수준의 일반적인 지침을 활용하여 에이전트의 계획 수립을 지원하고, 에이전트의 작업 실행 피드백을 기반으로 메타 계획의 지속적인 최적화를 가능하게 합니다. 두 가지 대표적인 작업에서 수행한 실험 결과, MPO가 기존 베이스라인을 크게 능가하는 것으로 나타났습니다. 또한, 우리의 분석은 MPO가 플러그 앤 플레이 솔루션을 제공하여 이전에 접하지 못한 시나리오에서도 작업 완료 효율성과 일반화 능력을 모두 향상시킨다는 것을 보여줍니다.
대규모 언어 모델(LLM)은 자율 에이전트로서 놀라운 능력을 보여주고 있지만, 기존 벤치마크는 단일 에이전트 작업에 초점을 맞추거나 좁은 도메인에 국한되어 있어 다중 에이전트 간의 협력과 경쟁의 역동성을 포착하지 못하고 있습니다. 본 논문에서는 다양한 상호작용 시나리오에서 LLM 기반 다중 에이전트 시스템을 평가하기 위해 설계된 포괄적인 벤치마크인 MultiAgentBench를 소개합니다. 우리의 프레임워크는 작업 완료뿐만 아니라 협력과 경쟁의 질을 측정하기 위해 새로운 마일스톤 기반 핵심 성과 지표를 사용합니다. 또한, 스타, 체인, 트리, 그래프 토폴로지를 포함한 다양한 조정 프로토콜과 그룹 토론 및 인지 계획과 같은 혁신적인 전략을 평가합니다. 특히, gpt-4o-mini는 평균 최고 작업 점수를 달성했으며, 연구 시나리오에서 조정 프로토콜 중 그래프 구조가 가장 우수한 성능을 보였고, 인지 계획은 마일스톤 달성률을 3% 향상시켰습니다. 코드와 데이터셋은 https://github.com/MultiagentBench/MARBLE에서 공개되어 있습니다.
GPT와 Gemini와 같은 대형 언어 모델(LLMs)로 인해 악화된 허위정보의 확산은 특히 베트남어와 같은 저자원 언어에 대해 강력한 팩트체크 솔루션을 요구하고 있습니다. 기존 방법들은 의미적 모호성, 동음이의어, 복잡한 언어 구조에 대처하는 데 어려움을 겪으며 종종 정확성을 효율성과 맞바꾸곤 합니다. 우리는 의미 기반 증거 검색(SER)과 2단계 판단 분류(TVC)를 통합한 새로운 베트남어 팩트체크 프레임워크인 SemViQA를 소개합니다. 우리의 접근 방식은 정밀도와 속도의 균형을 맞추며, ISE-DSC01에서 78.97%의 엄격한 정확도와 ViWikiFC에서 80.82%의 정확도를 달성하여 UIT 데이터 과학 챌린지에서 1위를 차지했습니다. 또한, SemViQA Faster는 경쟁력 있는 정확도를 유지하면서 추론 속도를 7배 향상시켰습니다. SemViQA는 베트남어 팩트 검증을 위한 새로운 벤치마크를 설정하며, 허위정보와의 싸움을 진전시킵니다. 소스 코드는 https://github.com/DAVID-NGUYEN-S16/SemViQA에서 확인할 수 있습니다.
본 논문에서는 대규모 언어 모델(LLM)이 위키피디아에 미치는 영향을 심층적으로 분석하며, 기존 데이터를 통해 위키피디아의 진화를 살펴보고 시뮬레이션을 통해 잠재적 위험을 탐구합니다. 먼저, 페이지 뷰와 기사 내용을 분석하여 최근 위키피디아의 변화를 연구하고 LLM의 영향을 평가합니다. 이후, 기계 번역 및 검색 강화 생성(RAG)을 포함한 위키피디아 관련 다양한 자연어 처리(NLP) 작업에 LLM이 미치는 영향을 평가합니다. 연구 결과와 시뮬레이션 결과는 특정 카테고리에서 약 1%-2%의 영향을 미치며 위키피디아 기사가 LLM에 의해 영향을 받았음을 보여줍니다. 위키피디아를 기반으로 한 기계 번역 벤치마크가 LLM의 영향을 받는다면, 모델의 점수가 과도하게 상승할 수 있으며 모델 간 비교 결과도 변화할 수 있습니다. 또한, 지식 기반이 LLM 생성 콘텐츠로 오염될 경우 RAG의 효과가 감소할 수 있습니다. LLM이 아직 위키피디아의 언어와 지식 구조를 완전히 바꾸지는 않았지만, 우리의 실증적 연구 결과는 잠재적 미래 위험에 대한 신중한 고려가 필요함을 시사합니다.
우리는 LADDER(Learning through Autonomous Difficulty-Driven Example Recursion)를 소개합니다. 이 프레임워크는 대규모 언어 모델이 복잡한 문제의 점점 더 단순한 변형을 재귀적으로 생성하고 해결함으로써 자율적으로 문제 해결 능력을 향상시킬 수 있도록 합니다. 기존의 선별된 데이터셋이나 인간의 피드백이 필요한 접근 방식과 달리, LADDER는 모델 자체의 능력을 활용하여 더 쉬운 질문 변형을 생성합니다. 우리는 LADDER의 효과를 수학적 적분 분야에서 입증했는데, Llama 3.2 3B의 정확도를 학부 수준 문제에서 1%에서 82%로 향상시켰으며, Qwen2.5 7B Deepseek-R1 Distilled가 MIT Integration Bee 예선 시험에서 73%의 성적을 달성할 수 있도록 했습니다. 또한 우리는 TTRL(Test-Time Reinforcement Learning)을 소개합니다. 이는 추론 시간에 테스트 문제의 변형에 대해 강화 학습을 수행하는 방식입니다. TTRL을 통해 Qwen2.5 7B Deepseek-R1 Distilled는 MIT Integration Bee 예선 시험에서 90%라는 최첨단 성적을 달성하며 OpenAI o1의 성능을 능가했습니다. 이러한 결과는 아키텍처 확장이나 인간의 감독 없이도 자기 주도적 전략 학습이 상당한 능력 향상을 이룰 수 있음을 보여줍니다.
대형 언어 모델(LLM)은 다양한 도메인에서 AI 어시스턴트로 작동할 때 환각 현상(즉, 신뢰할 수 없거나 무의미한 정보)을 보입니다. 환각 현상은 항상 LLM 응답에서 진실된 내용과 함께 나타나기 때문에, 이전의 사실성 정렬 방법들은 응답 수준의 선호도 학습을 수행하면서 필연적으로 훈련 과정에서 노이즈를 유입했습니다. 따라서 본 논문은 Direct Preference Optimization(DPO)을 기반으로 한 세분화된 사실성 정렬 방법인 Mask-DPO를 제안합니다. Mask-DPO는 문장 수준의 사실성을 마스크 신호로 통합하여, 선호된 샘플에서 사실적으로 정확한 문장만 학습하고, 비선호 샘플에서 사실적 내용에 대한 패널티를 방지함으로써 선호도 학습의 모호성을 해결합니다. 광범위한 실험 결과는 Mask-DPO가 훈련 중에 보지 못한 인도메인 및 아웃오브도메인 데이터셋의 질문에 대한 LLM 응답의 사실성을 크게 향상시킬 수 있음을 보여줍니다. ANAH 훈련 세트에서만 훈련된 Llama3.1-8B-Instruct의 ANAH 테스트 세트 점수는 49.19%에서 77.53%로 향상되었으며, Llama3.1-70B-Instruct의 점수(53.44%)를 능가했습니다. 또한 아웃오브도메인 Biography 데이터셋에서의 FactScore도 30.29%에서 39.39%로 향상되었습니다. 우리는 다양한 훈련 샘플 스케일링 전략을 사용하여 Mask-DPO의 일반화 특성을 추가로 연구했으며, 데이터셋 내 질문 수보다 주제 수를 스케일링하는 것이 더 효과적임을 발견했습니다. 우리는 LLM에서 사실성 정렬이 무엇을 하는지에 대한 가설과 이 현상의 함의를 제시하고, 이를 검증하기 위한 개념 증명 실험을 수행했습니다. 이 방법과 발견이 사실성 정렬의 확장에 대한 미래 연구의 길을 열어주기를 바랍니다.
대형 언어 모델(LLM)의 최근 발전은 인간의 기대를 충족하고 공유된 가치와 일치하는 응답을 생성하는 데 초점을 맞추고 있으며, 이 과정은 '얼라인먼트(alignment)'로 불립니다. 그러나 인간 가치의 복잡성과 이를 해결하기 위해 설계된 기술적 접근 방식의 한계 사이의 근본적인 괴리로 인해 LLM을 얼라인먼트하는 것은 여전히 어려운 과제로 남아 있습니다. 현재의 얼라인먼트 방법은 종종 잘못 지정된 목표를 초래하는데, 이는 모델 개발자와 모델 간의 모든 시나리오를 고려한 계약을 명시하는 것이 불가능하다는 불완전한 계약 문제를 반영합니다. 본 논문에서는 LLM 얼라인먼트를 개선하기 위해 사회적, 경제적, 계약적 얼라인먼트를 포함한 사회적 얼라인먼트 프레임워크의 통찰을 통합해야 한다고 주장하며, 이러한 영역에서 도출된 잠재적 해결책을 논의합니다. 사회적 얼라인먼트 프레임워크 내에서 불확실성의 역할을 고려할 때, 우리는 이러한 불확실성이 LLM 얼라인먼트에서 어떻게 나타나는지 조사합니다. 마지막으로, 우리는 LLM 얼라인먼트의 목표가 명확히 정의되지 않은 특성을 완벽하게 명시하려는 것보다는 기회로 삼는 대안적 관점을 제시합니다. LLM 얼라인먼트의 기술적 개선을 넘어, 우리는 참여형 얼라인먼트 인터페이스 설계의 필요성을 논의합니다.
특정 도메인에 생성 모델을 적용하는 것은 전문화된 요구사항을 충족하기 위한 효과적인 해결책을 제시합니다. 그러나 일부 복잡한 도메인에 적응하는 것은 여전히 어려운 과제로 남아 있으며, 특히 이러한 도메인이 목표 분포를 포착하기 위해 상당한 양의 짝지어진 데이터를 요구할 때 더욱 그러합니다. 비전이나 언어와 같은 단일 모달리티에서의 짝지어지지 않은 데이터는 더 쉽게 구할 수 있기 때문에, 우리는 통합 생성 모델이 학습한 비전과 언어 간의 양방향 매핑을 활용하여 짝지어지지 않은 데이터를 사용한 도메인 적응 학습을 가능하게 합니다. 구체적으로, 우리는 텍스트-이미지-텍스트와 이미지-텍스트-이미지라는 두 가지 다중 모달리티 사이클을 통합한 DoraCycle을 제안합니다. 이 모델은 사이클의 끝점에서 계산된 교차 엔트로피 손실을 통해 최적화되며, 두 끝점은 동일한 모달리티를 공유합니다. 이를 통해 주석이 달린 텍스트-이미지 쌍에 의존하지 않고도 모델의 자기 진화가 가능해집니다. 실험 결과는 스타일화와 같이 짝지어진 지식에 의존하지 않는 작업에서 DoraCycle이 짝지어지지 않은 데이터만을 사용하여 통합 모델을 효과적으로 적응시킬 수 있음을 보여줍니다. 특정 정체성과 같이 새로운 짝지어진 지식을 포함하는 작업의 경우, 소규모의 짝지어진 이미지-텍스트 예제와 대규모의 짝지어지지 않은 데이터를 결합하는 것이 효과적인 도메인 지향 적응을 위해 충분합니다. 코드는 https://github.com/showlab/DoraCycle에서 공개될 예정입니다.
파이프라인 병렬화(PP)는 대규모 언어 모델(LLM) 학습에 널리 사용되지만, PP의 정도가 증가함에 따라 동시에 처리되는 마이크로배치의 수가 늘어나면서 높은 활성화 메모리 소비로 인해 확장성이 제한되는 경우가 많습니다. 본 논문에서는 PP에서 잘 활용되지 않은 메모리 오프로드 전략을 활용하여 이 문제를 해결하는 데 초점을 맞춥니다. 실험적 연구를 통해 표준 구성의 대부분에서 활성화의 절반 이상, 심지어는 전부를 오버헤드 없이 오프로드할 수 있음을 발견했습니다. 완전한 오프로드가 불가능한 경우에는 피크 활성화 메모리를 선형보다 더 나은 방식으로 감소시키는 새로운 선택적 오프로드 전략을 제안합니다. 또한, 메모리 오프로드를 다른 기법들과 통합하여 전체 처리량과 메모리 제약을 함께 고려합니다. 실험 결과, 장치당 활성화 메모리가 총 스테이지 수에 따라 효과적으로 감소함을 확인했으며, 이는 PP를 TP보다 더 강력한 대안으로 만들어 최대 19%의 가속과 더 낮은 메모리 소비를 제공합니다. 구현은 https://github.com/sail-sg/zero-bubble-pipeline-parallelism{이 URL}에서 오픈소스로 공개되었습니다.
인간 피드백을 통한 강화 학습(RLHF)이 언어 모델 출력을 제어하는 주요 방법으로 자리 잡았지만, 이는 높은 계산 비용과 훈련 불안정성이라는 문제를 안고 있습니다. 가이디드 디코딩, 특히 가치 기반 방법은 모델을 재훈련하지 않고도 출력을 제어할 수 있는 비용 효율적인 대안을 제공합니다. 그러나 가치 기반 디코딩에서 가치 함수의 정확성은 매우 중요하며, 부정확한 가치 함수는 차선의 의사결정과 성능 저하로 이어질 수 있습니다. 기존 방법들은 최적의 가치 함수를 정확하게 추정하는 데 어려움을 겪어 효과적인 제어를 달성하지 못했습니다. 우리는 이러한 한계를 해결하기 위해 두 가지 핵심 요소로 구성된 새로운 프레임워크인 반복적 가치 함수 최적화(Iterative Value Function Optimization)를 제안합니다. 첫 번째 요소는 다양한 경로를 탐색하여 추정 분산을 줄이는 몬테카를로 가치 추정(Monte Carlo Value Estimation)이며, 두 번째 요소는 가치 기반 정책에서 수집한 경로를 통해 가치 추정을 점진적으로 개선하는 반복적 온-정책 최적화(Iterative On-Policy Optimization)입니다. 텍스트 요약, 다중 턴 대화, 명령어 수행에 대한 광범위한 실험을 통해 가치 기반 디코딩 접근법이 언어 모델 정렬에 효과적임을 입증했습니다. 이러한 접근법은 정렬을 달성할 뿐만 아니라 원칙적인 가치 함수 최적화를 활용하여 계산 비용을 크게 줄임으로써 효율적이고 효과적인 제어를 가능하게 합니다.
통합 비디오 및 액션 모델은 로보틱스 분야에서 상당한 가능성을 지니고 있습니다. 비디오는 액션 예측을 위한 풍부한 장면 정보를 제공하고, 액션은 비디오 예측을 위한 동역학 정보를 제공하기 때문입니다. 그러나 비디오 생성과 액션 예측을 효과적으로 결합하는 것은 여전히 어려운 과제이며, 현재의 비디오 생성 기반 방법들은 액션 정확도와 추론 속도에서 직접 정책 학습의 성능을 따라잡지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오와 액션 예측을 공동으로 최적화하여 높은 정확도와 효율적인 액션 추론을 모두 달성하는 통합 비디오 액션 모델(UVA)을 소개합니다. 핵심은 공동 비디오-액션 잠재 표현을 학습하고 비디오-액션 디코딩을 분리하는 데 있습니다. 공동 잠재 표현은 비디오와 액션 도메인을 연결하여 비디오와 액션 시퀀스 간의 관계를 효과적으로 모델링합니다. 한편, 두 개의 경량 디퓨전 헤드로 구동되는 분리된 디코딩은 추론 중 비디오 생성을 우회함으로써 고속 액션 추론을 가능하게 합니다. 이러한 통합 프레임워크는 마스크된 입력 훈련을 통해 다양한 기능을 더욱 가능하게 합니다. 액션이나 비디오를 선택적으로 마스킹함으로써, 단일 모델이 정책 학습을 넘어 전방 및 역동역학 모델링, 비디오 생성과 같은 다양한 작업을 해결할 수 있습니다. 광범위한 실험을 통해, 우리는 UVA가 특정 애플리케이션에 맞춰진 방법들과 비교하여 성능 저하 없이 정책 학습, 전방/역동역학 및 비디오 관측 예측과 같은 다양한 로보틱스 작업을 위한 일반적인 솔루션으로 사용될 수 있음을 입증합니다. 결과는 https://unified-video-action-model.github.io/에서 확인할 수 있습니다.
디퓨전 모델은 다양한 이미지 생성 작업에서 놀라운 발전을 이루어냈습니다. 그러나 훈련 기간 동안 사용된 해상도보다 높은 해상도의 이미지를 생성할 때 그 성능이 현저히 저하됩니다. 고해상도 이미지를 생성하기 위한 수많은 방법이 존재하지만, 이들은 비효율적이거나 복잡한 연산으로 인해 제약을 받고 있습니다. 본 논문에서는 훈련 없이 고해상도 이미지를 생성할 수 있는 효율적이고 간단한 솔루션인 RectifiedHR을 제안합니다. 구체적으로, 우리는 노이즈 리프레시 전략을 도입하여 이론적으로 몇 줄의 코드만으로 모델의 고해상도 생성 능력을 해제하고 효율성을 향상시킬 수 있습니다. 또한, 우리는 고해상도 이미지 생성 과정에서 이미지 흐림 현상을 유발할 수 있는 에너지 감쇠 현상을 처음으로 관찰했습니다. 이 문제를 해결하기 위해 에너지 보정 전략을 제안하며, 여기서 분류기 없는 가이던스의 하이퍼파라미터를 수정함으로써 생성 성능을 효과적으로 개선합니다. 우리의 방법은 완전히 훈련이 필요 없으며 간단한 구현 논리를 자랑합니다. 수많은 베이스라인 방법들과의 광범위한 비교를 통해, 우리의 RectifiedHR은 우수한 효과성과 효율성을 입증했습니다.
대규모 언어 모델(LLMs)의 최근 발전으로 인해 그래픽 사용자 인터페이스(GUIs)와 상호작용할 수 있는 지능형 LLM 기반 에이전트가 개발되었습니다. 이러한 에이전트는 강력한 추론 능력과 적응력을 보여주며, 전통적으로 사전 정의된 규칙이 필요한 복잡한 작업을 수행할 수 있습니다. 그러나 LLM 기반 에이전트가 단계별 추론에 의존하는 경우, 특히 일상적인 작업에서 비효율성이 발생하는 경우가 많습니다. 반면, 전통적인 규칙 기반 시스템은 효율성에서는 뛰어나지만 새로운 시나리오에 적응할 수 있는 지능과 유연성이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 지능과 유연성을 유지하면서 운영 효율성을 향상시키는 GUI 에이전트를 위한 새로운 진화 프레임워크를 제안합니다. 우리의 접근 방식은 에이전트의 작업 실행 기록을 저장하는 메모리 메커니즘을 포함합니다. 이 기록을 분석함으로써, 에이전트는 반복적인 동작 시퀀스를 식별하고, 이러한 저수준 작업을 대체하여 효율성을 개선하는 단축키 역할을 하는 고수준 동작으로 진화합니다. 이를 통해 에이전트는 더 복잡한 추론이 필요한 작업에 집중할 수 있으면서도 일상적인 동작을 단순화할 수 있습니다. 여러 벤치마크 작업에 대한 실험 결과는 우리의 접근 방식이 기존 방법보다 효율성과 정확성 모두에서 크게 우수함을 보여줍니다. 코드는 추가 연구를 지원하기 위해 오픈소스로 공개될 예정입니다.
다단계 추론 작업에 대한 실측 데이터 작업 완료 보상이나 인간 시연 데이터를 수집하는 것은 비용이 많이 들고 시간이 소요되는 작업이며, 특히 웹 작업과 같은 상호작용이 필요한 영역에서 더욱 그러하다. 이러한 병목 현상을 해결하기 위해, 우리는 상태 전이 역학을 활용하여 언어 모델 제어 탐색을 효과적으로 안내할 수 있는 가치 모델을 훈련시키는 자기 지도 학습 방법인 '자기 주도형 룩어헤드(self-taught lookahead)'를 제안한다. 우리는 자기 주도형 룩어헤드로 개선된 중간 규모(80억 파라미터)의 오픈 가중치 가치 모델이 GPT-4와 같은 최첨단 대형 언어 모델(LLM)을 가치 모델로 사용했을 때의 성능과 맞먹을 수 있음을 발견했다. 또한, 자기 주도형 룩어헤드는 실측 데이터 보상에 의존하지 않으면서도 기존의 LLM 기반 트리 탐색 대비 성능을 20% 향상시키고 비용을 37배 절감할 수 있음을 확인했다.
자기회귀 언어 모델은 생성 과정에서 과거 은닉 상태를 재계산하지 않아도 되도록 키-값(KV) 캐시를 사용하며, 이로 인해 더 빠른 생성이 가능합니다. 모델 크기와 컨텍스트 길이가 증가함에 따라 KV 캐시는 메모리 병목 현상의 주요 원인이 되며, 이는 생성 중에 크기를 제한하는 압축 방법의 필요성을 촉구합니다. 본 논문에서는 어텐션 맵을 계산하지 않고도 어텐션 점수를 효율적으로 근사할 수 있도록 하는 쿼리(Q)와 키(K) 벡터의 놀라운 특성을 발견했습니다. 우리는 단일 컨텍스트-불특정 투영을 기반으로 덜 중요한 키-값 쌍을 필터링하는 훈련이 필요 없는 KV 캐시 압축 방법인 Q-Filters를 제안합니다. 많은 대안과 달리, Q-Filters는 어텐션 가중치에 직접 접근할 필요가 없기 때문에 FlashAttention과 호환됩니다. 장문 컨텍스트 설정에서의 실험 결과는 Q-Filters가 검색 작업에서는 SnapKV와 같은 어텐션 기반 압축 방법과 경쟁력을 보이며, 생성 설정에서는 Streaming-LLM과 같은 효율적인 압축 방식을 꾸준히 능가함을 보여줍니다. 특히, Q-Filters는 x32 압축 수준에서 needle-in-a-haystack 작업에서 99%의 정확도를 달성하며, 텍스트 생성에서 Streaming-LLM 대비 생성 perplexity 하락을 최대 65%까지 감소시킵니다.
대규모 언어 모델(LLM) 에이전트는 다중 도메인 작업에서 뛰어난 일반화 능력을 보여주고 있습니다. 기존의 에이전트 튜닝 접근법은 일반적으로 전문가의 전체 행동 궤적에 대해 지도 학습을 통해 미세 조정을 수행합니다. 그러나 전체 궤적을 그대로 복제하는 행동 복제 방식은 전문가의 편향을 도입하고, 전문가 데이터가 다루지 않은 상태에 대한 일반화 능력을 약화시킬 수 있습니다. 또한, 계획 수립, 중간 하위 작업에 대한 복잡한 추론, 전략적 의사결정과 같은 중요한 단계들은 에이전트 작업의 성공에 필수적이므로, 이러한 단계를 학습하는 것이 LLM 에이전트의 성능을 향상시키는 핵심입니다. 더 효과적이고 효율적인 에이전트 튜닝을 위해, 우리는 전문가 궤적에서 중요한 단계를 식별하고 이 단계들만을 대상으로 LLM을 저비용으로 미세 조정하는 ATLaS를 제안합니다. 훈련의 초점을 몇 가지 중요한 단계에 맞춤으로써, 우리의 방법은 전체 궤적에 대한 과적합 위험을 완화하고 다양한 환경과 작업에 걸친 일반화를 촉진합니다. 광범위한 실험에서, ATLaS가 선택한 30%의 중요 단계만으로 미세 조정된 LLM은 모든 단계로 미세 조정된 LLM과 최근의 오픈소스 LLM 에이전트들을 능가하는 성능을 보였습니다. ATLaS는 다양한 환경과 상호작용하는 일반적인 에이전트로서 기본 LLM의 능력을 유지하고 향상시킵니다.
범용 모델은 언어 및 시각-언어 작업에서 놀라운 성공을 거두며 통합 모델링의 잠재력을 입증했습니다. 그러나 탐지(detection) 및 분할(segmentation)과 같은 세밀한 인지 작업을 이러한 모델에 효과적으로 통합하는 것은 여전히 큰 과제로 남아 있습니다. 이는 주로 이러한 작업들이 종종 작업별 설계와 아키텍처에 크게 의존하기 때문에 모델링 과정을 복잡하게 만들기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 \ours라는 프레임워크를 제시합니다. 이 프레임워크는 개방형 언어 인터페이스를 통해 세밀한 시각 인지 작업을 통합합니다. 모든 인지 대상을 언어 공간으로 변환함으로써, \ours는 객체 수준의 탐지, 픽셀 수준의 분할, 그리고 이미지 수준의 시각-언어 작업을 단일 모델로 통합합니다. 또한, 우리는 분할 작업을 지원하기 위해 언어 인터페이스만을 활용한 새로운 임베딩 검색 방식을 도입했습니다. 우리의 프레임워크는 세밀한 인지 작업과 시각-언어 작업 간의 간극을 메우며, 복잡한 작업별 설계를 가진 방법들과 비교할 만하거나 더 나은 성능을 달성하면서도 아키텍처 설계와 훈련 전략을 크게 단순화합니다. 다섯 가지 표준 시각 인지 데이터셋에 대한 다중 작업 훈련 후, \ours는 COCO 인스턴스 분할에서 이전 최첨단 범용 모델보다 12.3 mAP, ADE20K 의미론적 분할에서 3.3 mIoU로 더 우수한 성능을 보였습니다. 더 나아가, 우리의 방법은 기존의 MLLM(Multimodal Large Language Models)과 원활하게 통합되어, 세밀한 인지 능력을 고급 언어 능력과 효과적으로 결합함으로써 추론 분할과 같은 더 도전적인 작업을 가능하게 합니다. 코드와 모델은 공개될 예정입니다.
스펙큘레이티브 샘플링은 대형 언어 모델(LLM)의 자기회귀적 생성 과정을 가속화하기 위한 중요한 기술로 부상했으며, 다중 토큰을 한 번의 순방향 전달로 생성하기 위해 초안-검증 메커니즘을 활용합니다. 최첨단 스펙큘레이티브 샘플링 방법은 단일 레이어와 언어 모델링(LM) 헤드만을 초안 모델로 사용하여 인상적인 레이어 압축을 달성하지만, Llama-3-8B와 같이 어휘 크기가 128k 토큰에 이르는 대형 어휘 LLM의 경우 효율성 향상이 크게 감소합니다. 이를 해결하기 위해, 우리는 어휘 공간 압축을 통해 초안 후보 선택을 최적화하는 FR-Spec(주파수 기반 스펙큘레이티브 샘플링) 프레임워크를 제안합니다. 초안 검색을 주파수 우선순위 토큰 하위 집합으로 제한함으로써, 이 방법은 LM 헤드 계산 오버헤드를 75% 줄이면서도 최종 출력 분포의 동등성을 보장합니다. 여러 데이터셋에 대한 실험 결과, 최신 스펙큘레이티브 샘플링 방법인 EAGLE-2 대비 평균 1.12배의 속도 향상을 보여줍니다.
텍스트-투-비전 콘텐츠 평가는 시각적 품질과 정렬이라는 두 가지 중요한 측면에 달려 있습니다. 이러한 차원을 평가하기 위한 객관적 모델 개발에 상당한 진전이 있었지만, 이러한 모델의 성능은 인간 주석의 규모와 품질에 크게 의존합니다. 스케일링 법칙(Scaling Law)에 따르면, 인간이 라벨링한 인스턴스의 수를 늘리는 것은 평가 모델의 성능을 향상시키는 예측 가능한 패턴을 따릅니다. 따라서 우리는 텍스트-투-비전 콘텐츠의 시각적 품질과 정렬 수준을 평가하기 위한 포괄적인 데이터셋(Q-EVAL-100K)을 소개합니다. 이 데이터셋은 앞서 언급한 두 가지 측면에 대해 가장 큰 규모의 인간 주석 평균 의견 점수(Mean Opinion Scores, MOS) 컬렉션을 특징으로 합니다. Q-EVAL-100K 데이터셋은 텍스트-투-이미지와 텍스트-투-비디오 모델을 모두 포함하며, 100K 인스턴스(60K 이미지와 40K 비디오)에 대한 시각적 품질과 정렬에 초점을 맞춘 960K의 인간 주석을 제공합니다. 이 데이터셋을 컨텍스트 프롬프트와 함께 활용하여, 우리는 Q-Eval-Score를 제안합니다. 이는 시각적 품질과 정렬을 모두 평가할 수 있는 통합 모델로, 특히 긴 텍스트 프롬프트 정렬을 처리하기 위한 특별한 개선 사항을 포함합니다. 실험 결과는 제안된 Q-Eval-Score가 시각적 품질과 정렬 모두에서 우수한 성능을 달성하며, 다른 벤치마크에서도 강력한 일반화 능력을 보여준다는 것을 나타냅니다. 이러한 결과는 Q-EVAL-100K 데이터셋의 상당한 가치를 강조합니다. 데이터와 코드는 https://github.com/zzc-1998/Q-Eval에서 제공될 예정입니다.
선호도 학습은 상대적 품질 비교를 활용하여 지도 미세 조정을 넘어 Code LLM을 향상시킵니다. 기존 방법은 테스트 케이스 성공 여부를 기준으로 후보들로부터 선호도 쌍을 구성하며, 더 높은 통과율을 보이는 샘플을 긍정적, 더 낮은 통과율을 보이는 샘플을 부정적으로 처리합니다. 그러나 이 접근 방식은 코드 내 특정 오류를 정확히 지적하지 못하므로, 모델이 더 유익한 오류 수정 패턴을 학습하는 데 방해가 됩니다. 실패한 코드 전체를 정렬하는 방식은 의미 있는 오류 해결 관계를 포착하는 데 필요한 세분성을 제공하지 못하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 인간의 반복적 디버깅을 모방하여 Code LLM을 개선하는 새로운 선호도 정렬 프레임워크인 IterPref를 제안합니다. IterPref는 오류 영역을 명시적으로 찾아내고, 맞춤형 DPO 알고리즘을 통해 해당 토큰들을 정렬합니다. 정보가 풍부한 쌍을 생성하기 위해, 우리는 CodeFlow 데이터셋을 도입했습니다. 이 데이터셋은 테스트를 통과할 때까지 샘플이 반복적으로 개선되며, 수정 사항이 오류 수정을 포착합니다. 광범위한 실험 결과, IterPref를 장착한 다양한 Code LLM들이 코드 생성에서 상당한 성능 향상을 달성하고 BigCodeBench와 같은 도전적인 과제에서도 개선된 성능을 보임을 확인했습니다. 심층 분석 결과, IterPref는 더 적은 오류를 발생시키는 것으로 나타났습니다. 우리의 코드와 데이터는 공개될 예정입니다.
표현 학습에서 균일성(uniformity)은 잠재 공간(즉, 단위 초구) 내에서의 균일한 특성 분포를 의미한다. 선행 연구들은 균일성을 개선하는 것이 과소 표현된 클래스의 학습에 기여한다는 것을 보여주었다. 그러나 대부분의 선행 연구는 분류 문제에 초점을 맞추었으며, 불균형 회귀 문제의 표현 공간은 아직 탐구되지 않았다. 분류 기반 방법들은 회귀 작업에 적합하지 않은데, 이는 회귀에 필수적인 연속적이고 순서가 있는 특성을 고려하지 않고 특성들을 별개의 그룹으로 클러스터링하기 때문이다. 기하학적 관점에서, 우리는 두 가지 핵심 손실 함수인 포괄성(enveloping)과 동질성(homogeneity)을 통해 불균형 회귀 문제에서 잠재 공간의 균일성을 보장하는 데 독창적으로 초점을 맞춘다. 포괄성 손실은 유도된 궤적이 초구의 표면을 균일하게 차지하도록 장려하며, 동질성 손실은 표현들이 일정한 간격으로 균등하게 분포되도록 매끄러움을 보장한다. 우리의 방법은 이러한 기하학적 원칙들을 대리인 기반 표현 학습(Surrogate-driven Representation Learning, SRL) 프레임워크를 통해 데이터 표현에 통합한다. 실제 회귀 및 연산자 학습 작업에 대한 실험은 불균형 회귀에서 균일성의 중요성을 강조하고, 우리의 기하학 기반 손실 함수의 효용성을 검증한다.
계산 병리학(computational pathology) 분야에서 AI를 발전시키기 위해서는 대규모의 고품질이고 다양한 데이터셋이 필요하지만, 기존의 공개 데이터셋은 종종 장기 다양성, 클래스 범위 또는 주석 품질 측면에서 제한적입니다. 이러한 격차를 해소하기 위해 우리는 SPIDER(Supervised Pathology Image-DEscription Repository)를 소개합니다. SPIDER는 피부(Skin), 대장(Colorectal), 흉부(Thorax)를 포함한 여러 장기 유형을 다루는 가장 큰 공개 패치 수준 데이터셋으로, 각 장기에 대한 포괄적인 클래스 범위를 제공합니다. SPIDER는 전문 병리학자들이 검증한 고품질 주석을 제공하며, 공간적 맥락을 제공하여 분류 성능을 향상시키는 주변 맥락 패치를 포함합니다. 데이터셋과 함께, 우리는 Hibou-L 기반 모델을 특징 추출기로 사용하고 주의 기반 분류 헤드와 결합하여 SPIDER로 훈련된 베이스라인 모델을 제시합니다. 이 모델은 여러 조직 범주에서 최첨단 성능을 달성하며, 향후 디지털 병리학 연구를 위한 강력한 벤치마크 역할을 합니다. 패치 분류를 넘어, 이 모델은 중요한 영역의 신속한 식별, 정량적 조직 지표를 가능하게 하고, 다중 모달 접근법의 기반을 마련합니다. 데이터셋과 훈련된 모델은 연구, 재현성, AI 기반 병리학 발전을 촉진하기 위해 공개되었습니다. 다음 링크에서 접근할 수 있습니다: https://github.com/HistAI/SPIDER
최근 일반적인 시각 기반 모델(VFM)의 활용이 증가하고 있으며, 특히 인기 있는 다중 모달 대형 언어 모델(MLLM)의 이미지 인코더로 사용되고 있습니다. 그러나 의미론적으로 세밀한 감독 없이는 이러한 모델들이 하류 텍스트-이미지 관련 작업, 즉 작고 밀집된 텍스트가 포함된 이미지에 대한 인식, 이해 및 추론에서 근본적인 예측 오류를 겪고 있습니다. 이러한 격차를 해소하기 위해, 우리는 텍스트-이미지 관련 작업에 특화된 첫 번째 토큰 수준의 시각 기반 모델인 TokenOCR을 개발했습니다. 이 모델은 다양한 전통적인 하류 애플리케이션을 지원하도록 설계되었습니다. TokenOCR의 사전 학습을 용이하게 하기 위해, 우리는 또한 2천만 개의 이미지와 18억 개의 토큰-마스크 쌍으로 구성된 첫 번째 토큰 수준의 이미지 텍스트 데이터셋인 TokenIT를 구축하는 고품질 데이터 생산 파이프라인을 고안했습니다. 더 나아가, 이 탁월한 이미지-텍스트 능력을 기반으로 하여, 우리는 이전의 VFM을 TokenOCR로 원활하게 대체하여 VQA 기반 문서 이해 작업을 위한 문서 수준의 MLLM인 TokenVL을 구축했습니다. 마지막으로, 광범위한 실험을 통해 TokenOCR과 TokenVL의 효과성을 입증했습니다. 코드, 데이터셋 및 가중치는 https://token-family.github.io/TokenOCR_project에서 제공될 예정입니다.
대규모 언어 모델(LLM)의 발전으로 최근 몇 년 동안 합성 텍스트 데이터의 품질이 크게 향상되었지만, 표 형식 데이터의 합성은 상대적으로 덜 주목받아 왔습니다. 우리는 이러한 격차를 해소하기 위해 표준 Transformer 언어 모델 아키텍처에 간단하지만 강력한 사후 학습 수정을 적용한 Tabby를 제안합니다. Tabby는 Gated Mixture-of-Experts를 사용하여 열 간의 차이를 표현할 수 있으며, 각 열에 특화된 매개변수 세트를 갖추고 있습니다. 실험적으로, Tabby는 실제 데이터와 거의 동등하거나 동일한 수준의 데이터 품질을 달성합니다. 우리의 새로운 LLM 테이블 학습 기법인 Plain을 Tabby와 결합했을 때, 이전 방법 대비 최대 44%의 품질 향상을 관찰했습니다. 또한 Tabby는 테이블을 넘어 더 일반적인 구조화된 데이터에도 적용 가능하며, 중첩된 JSON 데이터셋에서도 실제 데이터와 동등한 성능을 보임을 확인했습니다.
최근 수십 년간 신경과학 및 심리학 연구는 미각과 청각 지각 사이의 직접적인 관계를 추적해 왔습니다. 본 논문은 이러한 기초 연구를 바탕으로 미각 정보를 음악으로 변환할 수 있는 다중모드 생성 모델을 탐구합니다. 우리는 이 분야의 최신 기술 동향을 간략히 검토하며 주요 발견과 방법론을 강조합니다. 또한, 각 음악 작품에 대해 제공된 상세한 미각 설명을 기반으로 음악을 생성하기 위해 미세 조정된 생성 음악 모델(MusicGEN)을 사용한 실험을 소개합니다. 실험 결과는 고무적입니다: 참가자(n=111)의 평가에 따르면, 미세 조정된 모델은 미세 조정되지 않은 모델에 비해 입력된 미각 설명을 더 일관성 있게 반영한 음악을 생성합니다. 이 연구는 AI, 소리, 그리고 미각 간의 체화된 상호작용을 이해하고 발전시키는 데 있어 중요한 진전을 나타내며, 생성 AI 분야에서 새로운 가능성을 열어줍니다. 우리는 데이터셋, 코드, 그리고 사전 훈련된 모델을 https://osf.io/xs5jy/에서 공개합니다.
본 논문은 궤적 분할이나 이벤트 함수 학습 없이 모드 전환을 식별하고 실행하기 위해 온-폴리시 강화 학습을 사용하는 이산 시간 하이브리드 오토마타 학습(DHAL) 프레임워크를 소개합니다. 연속적인 흐름과 이산적인 모드 전환을 포함하는 하이브리드 동적 시스템은 다리형 로봇 보행과 같은 로보틱스 작업을 모델링할 수 있습니다. 모델 기반 방법은 일반적으로 사전 정의된 보행에 의존하는 반면, 모델 프리 접근법은 명시적인 모드 전환 지식을 결여하고 있습니다. 현재의 방법들은 연속적인 흐름을 회귀하기 전에 분할을 통해 이산 모드를 식별하지만, 궤적 레이블이나 분할 없이 고차원의 복잡한 강체 동역학을 학습하는 것은 해결되지 않은 어려운 문제입니다. 우리의 접근법은 접촉 유도 운동을 모델링하기 위해 베타 정책 분포와 멀티-크리틱 아키텍처를 통합하며, 이를 도전적인 사족 보행 로봇 스케이트보드 작업으로 예시합니다. 우리는 시뮬레이션과 실제 환경 테스트를 통해 이 방법을 검증하며, 하이브리드 동적 시스템에서의 견고한 성능을 입증합니다.