번역이 포함된 일일 선별된 AI 연구 논문
현재의 범용 세그멘테이션 방법들은 픽셀 수준의 이미지 및 비디오 이해에서 강력한 능력을 보여줍니다. 그러나 이러한 방법들은 추론 능력이 부족하며 텍스트 지시를 통해 제어할 수 없습니다. 반면, 대규모 시각-언어 다중모달 모델들은 강력한 시각 기반 대화 및 추론 능력을 가지고 있지만 픽셀 수준의 이해가 부족하고 유연한 사용자 상호작용을 위한 시각적 프롬프트를 받아들이는 데 어려움을 겪습니다. 본 논문은 강력한 픽셀 수준의 시각 이해와 추론 능력을 결합한 새로운 우아한 프레임워크인 OMG-LLaVA를 제안합니다. 이 프레임워크는 다양한 시각 및 텍스트 프롬프트를 받아들여 유연한 사용자 상호작용이 가능합니다. 구체적으로, 우리는 범용 세그멘테이션 방법을 시각 인코더로 사용하여 이미지 정보, 인지 사전 지식, 그리고 시각적 프롬프트를 LLM에 제공되는 시각 토큰으로 통합합니다. LLM은 사용자의 텍스트 지시를 이해하고 시각 정보를 기반으로 텍스트 응답과 픽셀 수준의 세그멘테이션 결과를 제공하는 역할을 담당합니다. 우리는 인지 사전 지식을 이미지 특징과 더 잘 통합하기 위해 인지 사전 지식 임베딩을 제안합니다. OMG-LLaVA는 단일 모델에서 이미지 수준, 객체 수준, 그리고 픽셀 수준의 추론과 이해를 달성하며, 여러 벤치마크에서 특화된 방법들의 성능을 능가하거나 그에 맞먹습니다. 각 전문가 모델을 연결하기 위해 LLM을 사용하는 대신, 우리의 작업은 하나의 인코더, 하나의 디코더, 그리고 하나의 LLM에 대한 종단 간 학습을 목표로 합니다. 코드와 모델은 추가 연구를 위해 공개되었습니다.
수학적 추론은 정확성을 위해 광범위하고 정밀한 추론 과정을 요구하기 때문에 대형 언어 모델(LLMs)에게 상당한 도전 과제로 여겨집니다. 각 추론 단계의 정확성을 보장하는 것이 매우 중요합니다. 이를 해결하기 위해, 우리는 인간의 피드백을 학습하여 LLMs의 견고성과 사실성을 향상시키고자 합니다. 그러나 직접 선호 최적화(Direct Preference Optimization, DPO)는 장기간의 수학적 추론에서 제한된 이점만을 보여주었는데, 이는 DPO를 사용하는 모델들이 잘못된 답변에서 세부적인 오류를 식별하는 데 어려움을 겪기 때문입니다. 이러한 한계는 세밀한 과정 감독의 부재에서 비롯됩니다. 우리는 이러한 문제를 해결하기 위해 단계별 선호 최적화(Step-DPO)라는 간단하고 효과적이며 데이터 효율적인 방법을 제안합니다. 이 방법은 답변을 전체적으로 평가하는 대신 개별 추론 단계를 선호 최적화의 단위로 취급합니다. 또한, 우리는 Step-DPO를 위한 데이터 구축 파이프라인을 개발하여 10,000개의 단계별 선호 쌍을 포함한 고품질 데이터셋을 생성할 수 있게 했습니다. 또한, DPO에서 자체 생성된 데이터가 인간이나 GPT-4가 생성한 데이터보다 더 효과적이라는 것을 관찰했는데, 이는 후자가 분포 외(out-of-distribution) 특성을 띠기 때문입니다. 우리의 연구 결과는 70B 이상의 매개변수를 가진 모델에서 단 10,000개의 선호 데이터 쌍과 500개 미만의 Step-DPO 학습 단계만으로도 MATH 데이터셋에서 거의 3%의 정확도 향상을 가져올 수 있음을 보여줍니다. 특히, Qwen2-72B-Instruct에 Step-DPO를 적용한 결과, MATH와 GSM8K 테스트 세트에서 각각 70.8%와 94.0%의 점수를 기록하여 GPT-4-1106, Claude-3-Opus, Gemini-1.5-Pro를 포함한 일련의 클로즈드 소스 모델들을 능가했습니다. 우리의 코드, 데이터, 모델은 https://github.com/dvlab-research/Step-DPO에서 확인할 수 있습니다.
우리는 "한 남자와 그의 개가 만화 스타일로 그려진"과 같이 텍스트와 이미지가 교차된 멀티모달 프롬프트로부터 이미지를 생성하는 모델을 학습시켰습니다. 우리는 합성적으로 생성된 텍스트-이미지 데이터와 공개적으로 이용 가능한 데이터의 이미지 캡션에서 단어에 해당하는 의미론적으로 의미 있는 이미지 크롭을 추출하여 멀티모달 데이터셋을 부트스트랩했습니다. 우리의 모델인 MUMU는 비전-언어 모델 인코더와 디퓨전 디코더로 구성되며, 단일 8xH100 GPU 노드에서 학습되었습니다. 동일한 이미지에서 추출한 크롭만으로 학습되었음에도 불구하고, MUMU는 서로 다른 이미지의 입력을 조합하여 일관된 출력을 생성하는 방법을 학습합니다. 예를 들어, 사실적인 사람과 만화 스타일의 입력이 주어지면 동일한 사람을 만화 스타일로 출력하고, 서 있는 대상과 스쿠터가 입력되면 대상이 스쿠터를 타는 모습을 출력합니다. 결과적으로, 우리의 모델은 스타일 전이와 캐릭터 일관성과 같은 작업으로 일반화됩니다. 우리의 결과는 멀티모달 모델을 이미지 생성을 위한 범용 컨트롤러로 사용하는 가능성을 보여줍니다.
대규모 언어 모델(LLMs)은 다양한 지능형 교육 과제에서 교수 보조를 위해 활용되어 왔습니다. 초기 탐구는 특정 교육 과제를 위한 독립적인 LLM 기반 에이전트에 초점을 맞추었지만, 실제 사용자 참여가 가능한 다중 에이전트 협업 프레임워크 내에서 LLM의 잠재력은 아직 탐구되지 않았습니다. 본 연구에서는 사용자 참여가 포함된 다중 에이전트 교실 시뮬레이션 프레임워크인 SimClass를 제안합니다. 우리는 대표적인 교실 역할을 인식하고 자동 교실 수업을 위한 새로운 클래스 제어 메커니즘을 도입하며, 두 가지 실제 강좌에서 사용자 실험을 진행했습니다. 교육 분석을 위한 플랜더스 상호작용 분석 시스템(Flanders Interactive Analysis System)과 탐구 공동체(Community of Inquiry) 이론적 프레임워크를 활용하여, LLM이 전통적인 교실 상호작용 패턴을 효과적으로 시뮬레이션하면서 사용자 경험을 향상시킬 수 있음을 입증했습니다. 또한 SimClass 내 에이전트들 간의 새로운 그룹 행동을 관찰했는데, 이는 에이전트들이 협력하여 교실 내 활기찬 상호작용을 창출하고 사용자의 학습 과정을 개선하는 것을 목표로 합니다. 이 연구가 가상 교실 수업에서 LLM 기반 다중 에이전트 시스템의 적용을 선도하기를 바랍니다.
본 논문은 LLM(Large Language Model)의 내부 상태로부터 자체 인식 불확실성(self-aware uncertainty)을 추출하는 새로운 적응형 RAG(Retrieval-Augmented Generation) 모델인 Self-aware Knowledge Retrieval(SeaKR)을 소개합니다. SeaKR은 LLM이 생성 과정에서 높은 자체 인식 불확실성을 보일 때 검색을 활성화합니다. 검색된 지식 스니펫을 효과적으로 통합하기 위해, SeaKR은 LLM의 자체 인식 불확실성을 기반으로 스니펫을 재순위화하여, 그 불확실성을 최대한 줄이는 스니펫을 보존합니다. 또한, 다중 검색이 필요한 복잡한 과제 해결을 용이하게 하기 위해, SeaKR은 자체 인식 불확실성을 활용하여 다양한 추론 전략 중에서 선택합니다. 복잡한 질의응답 데이터셋과 단순한 질의응답 데이터셋에 대한 실험 결과, SeaKR은 기존의 적응형 RAG 방법들을 능가하는 성능을 보였습니다. 우리는 코드를 https://github.com/THU-KEG/SeaKR에서 공개합니다.
대규모 언어 모델(LLMs)은 다양한 작업에서 코파일럿으로서 상당한 가능성을 보여주고 있습니다. 개인정보 보호가 중요한 데이터나 지연 시간에 민감한 작업을 처리할 때는 에지 디바이스에 LLMs를 로컬로 배포하는 것이 필요합니다. 이러한 디바이스의 계산적 제약으로 인해 강력한 대규모 LLMs를 직접 배포하는 것은 실용적이지 않으며, 이로 인해 대규모 모델에서 경량 모델로의 지식 증류(Knowledge Distillation)가 필요합니다. LLMs로부터 다양하고 질 높은 훈련 예제를 도출하기 위해 많은 연구가 진행되었지만, 학생의 선호도에 기반하여 교사의 교육 내용을 맞추는 것, 즉 교육학에서의 "반응형 교수법(responsive teaching)"과 유사한 접근에는 거의 주목받지 못했습니다. 따라서 우리는 ARTE(Aligning TeacheR with StudenT PreferencEs)라는 프레임워크를 제안합니다. 이 프레임워크는 교사 모델을 학생의 선호도에 맞추어 지식 증류를 위한 맞춤형 훈련 예제를 생성합니다. 구체적으로, 교사 모델로부터 초안 질문과 논리를 도출한 후, 학생의 성과를 대리 지표로 사용하여 이러한 질문과 논리에 대한 학생의 선호도를 수집하고, 마지막으로 교사 모델을 학생의 선호도에 맞춥니다. 최종적으로, 맞춤화된 교사 모델을 사용하여 첫 번째 단계를 반복하여 목표 작업에 대한 학생 모델을 위한 맞춤형 훈련 예제를 도출합니다. 학술 벤치마크에서의 광범위한 실험을 통해 ARTE가 강력한 LLMs로부터 증류된 기존의 지시 튜닝 데이터셋을 능가하는 우수성을 입증했습니다. 또한, 우리는 ARTE의 일반화를 철저히 조사했는데, 이는 추론 능력에서 미세 조정된 학생 모델의 일반화와 작업 및 학생 간에 맞춤형 훈련 데이터를 생성하는 맞춤화된 교사 모델의 일반화를 포함합니다. 요약하자면, 우리의 기여는 맞춤형 훈련 예제 생성을 위한 새로운 프레임워크를 제안하고, 실험에서 그 효능을 입증하며, ARTE에서 학생 및 맞춤화된 교사 모델의 일반화를 조사한 데 있습니다.
테스트 세트 오염(test set contamination), 즉 벤치마크의 테스트 데이터가 새로운 모델의 학습 데이터에 포함되는 현상은 공정한 대형 언어 모델(LLM) 평가를 위한 잘 알려진 장애물이며, 벤치마크를 빠르게 쓸모없게 만들 수 있습니다. 이를 완화하기 위해 많은 최신 벤치마크는 인간 또는 LLM 평가자로부터 새로운 프롬프트와 평가를 크라우드소싱하지만, 이는 상당한 편향을 초래할 수 있으며, 어려운 질문에 대한 평가에서 문제가 발생할 수 있습니다. 본 연구에서는 테스트 세트 오염과 LLM 평가 및 인간 크라우드소싱의 함정 모두에 면역이 되는 새로운 LLM 벤치마크를 소개합니다. 우리는 LiveBench를 공개합니다. 이는 (1) 최신 정보 출처에서 자주 업데이트되는 질문을 포함하고, (2) 객관적인 기준값에 따라 답변을 자동으로 채점하며, (3) 수학, 코딩, 추론, 언어, 지시 따르기, 데이터 분석 등 다양한 도전적인 과제를 포함하는 최초의 벤치마크입니다. 이를 위해 LiveBench는 최근에 공개된 수학 대회, arXiv 논문, 뉴스 기사, 데이터셋을 기반으로 한 질문을 포함하며, Big-Bench Hard, AMPS, IFEval과 같은 기존 벤치마크의 더 어렵고 오염되지 않은 버전의 과제도 포함합니다. 우리는 많은 주요 폐쇄형 모델과 0.5B에서 110B 크기의 수십 개의 오픈소스 모델을 평가합니다. LiveBench는 어려운 벤치마크로, 최상위 모델도 65% 미만의 정확도를 보입니다. 우리는 모든 질문, 코드, 모델 답변을 공개합니다. 질문은 매월 추가 및 업데이트될 예정이며, 시간이 지남에 따라 새로운 과제와 더 어려운 버전의 과제를 공개하여 LiveBench가 향후 LLM의 능력이 향상됨에 따라 이를 구별할 수 있도록 할 것입니다. 우리는 벤치마크 과제와 모델을 확장하기 위한 커뮤니티 참여와 협력을 환영합니다.
학생 모델을 개선하기 위한 교수법(예: 지식 증류)은 대형 언어 모델(LLM)에서 광범위하게 연구된 방법론입니다. 그러나 인간에게 있어 교수는 학생뿐만 아니라 교사 역시 개선시킵니다. 우리는 다음과 같은 질문을 던집니다: LLM도 가르침을 통해 학습(LbT)할 수 있을까요? 만약 그렇다면, 인간이 생성한 데이터나 더 강력한 모델에만 의존하지 않고도 모델을 지속적으로 발전시킬 가능성을 열 수 있습니다. 본 논문에서는 이 야심 찬 주제에 대한 예비 탐구를 제공합니다. 우리는 LbT 아이디어가 기존 LLM 학습/프롬프트 파이프라인에 통합될 수 있으며 눈에 띄는 개선을 제공할 수 있음을 보여줍니다. 구체적으로, 우리는 인간의 LbT 세 가지 수준을 모방한 세 가지 방법을 설계했습니다: 학생의 피드백 관찰, 피드백으로부터 학습, 반복적 학습. 이는 학습 없이 답변 정확도를 개선하고 미세 조정을 통해 모델의 내재적 능력을 향상시키는 것을 목표로 합니다. 연구 결과는 고무적입니다. 예를 들어, 인간의 LbT와 유사하게, 우리는 다음을 관찰했습니다: (1) LbT는 약한 모델에서 강한 모델로의 일반화를 유도할 수 있습니다: 강력한 모델은 다른 약한 모델을 가르침으로써 스스로를 개선할 수 있습니다; (2) 학생의 다양성이 도움이 될 수 있습니다: 여러 학생을 가르치는 것이 한 명의 학생이나 교사 자신을 가르치는 것보다 더 나을 수 있습니다. 우리는 이 초기 성과가 LbT에 대한 미래 연구와 더 나아가 교육의 고급 기술을 LLM 개선에 더 폭넓게 적용하는 데 영감을 줄 수 있기를 바랍니다. 코드는 https://github.com/imagination-research/lbt에서 확인할 수 있습니다.
모델 인버전 및 멤버십 추론 공격은 모델이 학습된 데이터를 재구성하고 검증하는 것을 목표로 합니다. 그러나 이러한 공격은 학습 데이터셋의 크기를 알지 못하기 때문에 모든 학습 샘플을 찾을 수 있다는 보장이 없습니다. 본 논문에서는 모델의 가중치로부터 직접 학습에 사용된 샘플의 수를 결정하는 새로운 과제인 데이터셋 크기 복구를 소개합니다. 그리고 LoRA를 사용하여 모델을 미세 조정하는 일반적인 경우에, 미세 조정에 사용된 이미지의 수를 복구하는 방법인 DSiRe를 제안합니다. 우리는 LoRA 행렬의 노름과 스펙트럼이 미세 조정 데이터셋의 크기와 밀접하게 연관되어 있음을 발견했으며, 이를 활용하여 간단하면서도 효과적인 예측 알고리즘을 제안합니다. LoRA 가중치의 데이터셋 크기 복구를 평가하기 위해, 2000개 이상의 다양한 LoRA 미세 조정 모델에서 얻은 25000개 이상의 가중치 스냅샷으로 구성된 새로운 벤치마크인 LoRA-WiSE를 개발하고 공개합니다. 우리의 최고 성능 분류기는 미세 조정 이미지의 수를 평균 절대 오차 0.36개의 이미지로 예측할 수 있으며, 이 공격의 실현 가능성을 입증합니다.
희소 주의(Sparse attention)는 긴 문맥에서 대규모 언어 모델(LLMs)의 상당한 메모리 및 처리량 요구를 효과적으로 완화할 수 있습니다. 기존 방법들은 일반적으로 균일한 희소 주의 마스크를 사용하여, 서로 다른 주의 헤드와 입력 길이에 동일한 희소 패턴을 적용합니다. 그러나 이러한 균일한 접근 방식은 LLMs에 내재된 다양한 주의 패턴을 포착하지 못하며, 그들의 독특한 정확도-지연 시간 트레이드오프를 무시합니다. 이 문제를 해결하기 위해, 우리는 서로 다른 헤드와 레이어에 맞춤형 희소 주의 구성을 자동으로 조정하는 주의 혼합(Mixture of Attention, MoA)을 제안합니다. MoA는 다양한 주의 패턴과 입력 시퀀스 길이에 대한 스케일링 규칙의 탐색 공간을 구성하고 탐색합니다. 이는 모델을 프로파일링하고, 잠재적인 구성을 평가하며, 최적의 희소 주의 압축 계획을 찾아냅니다. MoA는 다양한 입력 크기에 적응하며, 일부 주의 헤드는 더 긴 시퀀스를 수용하기 위해 초점을 확장하는 반면, 다른 헤드는 고정 길이의 로컬 문맥에 지속적으로 집중하는 것을 보여줍니다. 실험 결과, MoA는 동일한 평균 주의 범위에서 효과적인 문맥 길이를 3.9배 증가시키고, Vicuna-7B, Vicuna-13B 및 Llama3-8B 모델에서 균일 주의 기준선 대비 검색 정확도를 1.5-7.1배 향상시켰습니다. 또한, MoA는 희소 모델과 밀집 모델 간의 성능 격차를 좁혀, 두 가지 긴 문맥 이해 벤치마크에서 최대 상대 성능 하락을 9%-36%에서 5% 이내로 줄였습니다. MoA는 단일 GPU에서 7B 및 13B 밀집 모델에 대해 GPU 메모리를 1.2-1.4배 절감하고, 디코딩 처리량을 5.5-6.7배 증가시키며, 성능에 미치는 영향을 최소화했습니다.
예제 기반 프로그래밍(Programming-by-Examples, PBE)은 입력-출력 예제로부터 알고리즘을 생성하는 것을 목표로 합니다. 이러한 시스템은 실용적 및 이론적으로 중요한데, 최종 사용자 관점에서는 수백만 명에게 배포되고 있으며, AI 관점에서 PBE는 매우 일반적인 형태의 소수 샷 귀납 추론에 해당합니다. 대규모 언어 모델(Large Language Models, LLMs)이 코드 생성 작업에서 성공을 거두었음을 감안할 때, 본 연구에서는 LLM이 PBE를 '해결'했다고 말할 수 있는 정도를 조사합니다. 우리는 리스트와 문자열과 같은 고전적인 도메인과 일반적인 사전 학습 데이터에서 잘 표현되지 않는 드문 그래픽 프로그래밍 도메인에서 실험을 진행했습니다. 그 결과, 사전 학습된 모델은 PBE에 효과적이지 않지만, 테스트 문제가 분포 내에 있을 경우 미세 조정을 통해 훨씬 더 높은 성능을 달성할 수 있음을 발견했습니다. 우리는 이러한 모델이 성공하고 실패하는 원인을 실증적으로 분석하고, 분포 외 일반화를 더 잘 달성하기 위한 방법을 이해하기 위한 단계를 밟았습니다. 종합적으로 이러한 결과는 LLM이 일반적인 PBE 작업군을 해결하는 데 있어 강력한 진전을 이루었음을 시사하며, PBE 시스템의 유연성과 적용 가능성을 잠재적으로 높이는 동시에 LLM이 여전히 부족한 부분을 식별합니다.
토크나이저는 대규모 언어 모델에서 정보를 인코딩하는 데 중요한 역할을 하지만, 최근 그 개발이 정체 상태에 있으며 본질적인 약점을 가지고 있습니다. 주요 한계로는 계산 오버헤드, 비효율적인 어휘 사용, 그리고 불필요하게 큰 임베딩 및 헤드 레이어 등이 있습니다. 또한, 토크나이저의 성능은 참조 코퍼스에 편향되어 있어, 소수 언어에 대한 효과성이 감소하는 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 T-FREE를 제안합니다. T-FREE는 문자 삼중항에 대한 희소 활성화 패턴을 통해 단어를 직접 임베딩하며, 참조 코퍼스가 필요하지 않습니다. T-FREE는 형태론적 유사성을 본질적으로 활용하며, 임베딩 레이어의 강력한 압축을 가능하게 합니다. 우리의 철저한 실험 평가에서, 이러한 레이어에서 85% 이상의 매개변수 감소와 함께 경쟁력 있는 다운스트림 성능을 달성했습니다. 더 나아가, T-FREE는 크로스-링구얼 전이 학습에서 상당한 개선을 보여줍니다.
대규모 시각-언어 모델(LVLMs)은 환각 현상을 보입니다: 이미지 내 특정 문맥 단서가 언어 모듈의 과도한 자신감과 비정상적이거나 가상의 객체에 대한 잘못된 추론을 유발할 수 있습니다. 비록 LVLM 환각 현상을 조사하기 위해 몇 가지 벤치마크가 개발되었지만, 이들은 주로 수작업으로 만든 극단적인 사례에 의존하며, 이러한 실패 패턴은 일반화하기 어렵고, 이를 기반으로 미세 조정을 하면 벤치마크의 타당성이 훼손될 수 있습니다. 이러한 문제점들은 우리가 최초의 자동 벤치마크 생성 접근법인 AUTOHALLUSION을 개발하도록 동기를 부여했습니다. AUTOHALLUSION은 다양한 환각 예제를 생성하기 위해 몇 가지 주요 전략을 활용합니다. 이는 LVLM의 언어 모듈을 문맥 단서에 대해 탐색하고, 이를 통해 이미지를 합성합니다: (1) 문맥 단서에 비정상적인 객체를 추가하거나; (2) 함께 발생하는 두 객체 중 하나를 유지하고 다른 하나를 제외하거나; (3) 문맥 단서와 밀접하게 연결된 객체를 제거하는 방식입니다. 그런 다음, 언어 모듈의 사전 지식과 모순되는 정답을 가진 이미지 기반 질문을 생성합니다. 모델은 정답에 도달하기 위해 문맥적 편향과 방해 요소를 극복해야 하며, 잘못되거나 일관성 없는 답변은 환각 현상을 나타냅니다. AUTOHALLUSION은 최소 비용으로 새로운 벤치마크를 생성할 수 있게 하여 수작업 벤치마크의 취약성을 극복합니다. 또한 일반적인 실패 패턴과 원인을 밝혀내어 환각 현상을 탐지, 방지 또는 제어하는 데 중요한 통찰을 제공합니다. GPT-4V(ision), Gemini Pro Vision, Claude 3, LLaVA-1.5 등 최상위 LVLM에 대한 포괄적인 평가 결과, AUTOHALLUSION의 합성 및 실제 데이터셋에서 각각 97.7%와 98.7%의 환각 유도 성공률을 보여주며, 환각 현상과의 장기적인 전투를 위한 길을 열었습니다.
그래픽 사용자 인터페이스(GUI)는 디지털 기기와의 상호작용에서 핵심적인 역할을 합니다. 최근 다양한 GUI 이해 작업을 위한 모델을 구축하려는 노력이 증가하고 있습니다. 그러나 이러한 노력은 중요한 GUI 참조 작업인 사용자가 지정한 지점을 기반으로 화면을 읽는 작업, 즉 '스크린 포인트 앤 리드(SPR)' 작업을 크게 간과하고 있습니다. 이 작업은 주로 경직된 접근성 화면 읽기 도구에 의해 처리되며, 다중 모달 대형 언어 모델(MLLM)의 발전에 의해 주도되는 새로운 모델이 절실히 필요합니다. 본 논문에서는 SPR 작업을 해결하기 위해 새로운 ToL(Tree-of-Lens) 기반 메커니즘을 활용한 ToL 에이전트를 제안합니다. 입력된 지점 좌표와 해당 GUI 스크린샷을 기반으로, 우리의 ToL 에이전트는 계층적 레이아웃 트리를 구성합니다. 이 트리를 기반으로 ToL 에이전트는 지정된 영역의 내용을 이해할 뿐만 아니라 요소 간의 레이아웃과 공간적 관계를 명확히 설명합니다. 이러한 레이아웃 정보는 화면의 정보를 정확히 해석하는 데 필수적이며, 이는 ToL 에이전트를 다른 화면 읽기 도구와 구별짓는 특징입니다. 또한, 우리는 새로 제안된 SPR 벤치마크에서 ToL 에이전트를 다른 기준 모델들과 철저히 비교 평가합니다. 이 벤치마크는 모바일, 웹, 운영체제의 GUI를 포함합니다. 마지막으로, ToL 에이전트를 모바일 GUI 탐색 작업에서 테스트하여, 에이전트 실행 경로 상의 잘못된 동작을 식별하는 데 있어 그 유용성을 입증합니다. 코드와 데이터는 screen-point-and-read.github.io에서 확인할 수 있습니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)의 환각 문제를 완화하는 데 효과적임이 입증되었습니다. 그러나 다양한 LLM의 지식 선호도를 검색기와 정렬하는 어려움은 신뢰할 수 있는 RAG 시스템 개발에 필연적인 도전 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 RAG 시스템 내에서 다양한 지식 선호도를 정렬하기 위한 범용 프레임워크인 DPA-RAG를 제안합니다. 구체적으로, 우리는 먼저 선호 지식 구축 파이프라인을 도입하고, 선호 데이터 부족 문제를 완화하기 위해 다섯 가지 새로운 질의 확장 전략을 통합합니다. 선호 데이터를 기반으로, DPA-RAG는 외부 및 내부 선호도 정렬을 모두 달성합니다: 1) RAG 구성 요소 간의 외부 선호도 정렬을 위해, pairwise, pointwise, 그리고 contrastive 선호도 정렬 능력을 리랭커에 통합합니다. 2) 일반적인 지도 미세 조정(Supervised Fine-tuning, SFT) 이전에 사전 정렬 단계를 도입하여, LLM이 자신의 추론 선호도와 일치하는 지식을 암묵적으로 포착할 수 있도록 하여 LLM의 내부 정렬을 달성합니다. 네 가지 지식 집약적 QA 데이터셋에서의 실험 결과는 DPA-RAG가 모든 기준선을 능가하며, 블랙박스 및 오픈소스 LLM 리더를 원활하게 통합함을 보여줍니다. 추가적인 정성적 분석과 논의는 신뢰할 수 있는 RAG 시스템을 구축하기 위한 실질적인 지침을 제공합니다. 우리의 코드는 https://github.com/dongguanting/DPA-RAG에서 공개되어 있습니다.
최근 이집트 아랍어와 영어 간 코드 스위칭(code-switching) 현상이 널리 증가함에 따라, 본 논문은 기계 번역(MT) 및 자동 음성 인식(ASR) 시스템의 복잡성을 탐구하며, 특히 이집트 아랍어-영어 코드 스위칭을 영어 또는 이집트 아랍어로 번역하는 데 초점을 맞춥니다. 우리의 목표는 LLama 및 Gemma와 같은 대규모 언어 모델을 활용하여 이러한 시스템을 개발하는 데 사용된 방법론을 제시하는 것입니다. ASR 분야에서는 Whisper 모델을 활용한 이집트 아랍어 코드 스위칭 인식을 탐구하며, 데이터 전처리 및 훈련 기법을 포함한 실험 절차를 상세히 설명합니다. ASR과 MT를 통합한 연속 음성-텍스트 번역 시스템을 구현함으로써, 제한된 자원과 이집트 아랍어 방언의 독특한 특성으로 인한 문제를 극복하고자 합니다. 기존의 평가 지표와 비교한 결과, 우리의 방법론은 영어 번역에서 최신 기술 대비 56%, 아랍어 번역에서 9.3%의 상당한 개선을 보여주었습니다. 코드 스위칭은 구어체 언어에 깊이 내재되어 있으므로, ASR 시스템이 이 현상을 효과적으로 처리할 수 있는 능력은 비즈니스 협상, 문화 교류, 학술 담론 등 다양한 분야에서 원활한 상호작용을 가능하게 하는 데 중요합니다. 우리의 모델과 코드는 오픈소스 리소스로 제공됩니다. 코드: http://github.com/ahmedheakl/arazn-llm, 모델: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
온라인 채용 플랫폼에 대한 의존도가 증가하고 AI 기술의 도입이 확대되면서, 효율적인 이력서 분류 방법의 필요성이 더욱 부각되고 있습니다. 그러나 소규모 데이터셋, 표준화된 이력서 템플릿의 부재, 그리고 개인정보 보호 문제와 같은 과제들이 기존 분류 모델의 정확성과 효과성을 저해하고 있습니다. 본 연구에서는 이러한 과제들을 해결하기 위해 포괄적인 이력서 분류 접근 방식을 제시합니다. 우리는 다양한 출처에서 13,389건의 대규모 이력서 데이터셋을 구축하고, BERT 및 Gemma1.1 2B와 같은 대형 언어 모델(LLM)을 분류에 활용했습니다. 실험 결과, 기존의 전통적인 머신러닝 접근법 대비 상당한 개선이 확인되었으며, 최적의 모델은 상위 1위 정확도 92%, 상위 5위 정확도 97.5%를 달성했습니다. 이러한 결과는 이력서 분류 시스템의 정확성과 견고성을 향상시키기 위해 데이터셋의 품질과 고급 모델 아키텍처의 중요성을 강조하며, 온라인 채업 관행의 발전에 기여합니다.
마음이론(Theory of Mind) 추론이 필요한 과제에서 언어 모델(LM)의 생성 성능을 평가한 연구는 많지만, 모델 내부의 심리 상태 표현에 대한 연구는 여전히 제한적입니다. 최근 연구에서는 프로빙(probing)을 사용하여 언어 모델이 자기 자신과 타인의 신념을 표현할 수 있음을 입증했습니다. 그러나 이러한 주장은 제한된 평가와 함께 제시되어, 모델 설계와 훈련 선택이 심리 상태 표현에 어떻게 영향을 미치는지 평가하기 어렵습니다. 본 연구에서는 다양한 모델 크기, 미세 조정(fine-tuning) 접근법, 프롬프트 설계를 갖춘 다양한 언어 모델 유형을 대상으로 광범위한 벤치마크를 수행하여 심리 상태 표현의 견고성과 프로빙 내의 기억 문제를 연구했습니다. 연구 결과, 타인의 신념에 대한 모델의 내부 표현 품질은 모델 크기가 커짐에 따라 증가하며, 특히 미세 조정이 더 중요한 영향을 미치는 것으로 나타났습니다. 우리는 프롬프트 변형이 마음이론 과제에서의 프로빙 성능에 미치는 영향을 최초로 연구했습니다. 모델의 표현은 프롬프트 변형에 민감하며, 이러한 변형이 유리할 것으로 예상되는 경우에도 민감하게 반응함을 입증했습니다. 마지막으로, 이전의 활성화 편집(activation editing) 실험을 보완하여, 프로브를 훈련할 필요 없이 활성화를 조정함으로써 모델의 추론 성능을 개선할 수 있음을 보여줍니다.