번역이 포함된 일일 선별된 AI 연구 논문
기존의 RAG 프레임워크에서는 기본 검색 단위가 일반적으로 짧습니다. DPR과 같은 일반적인 검색기는 주로 100단어 정도의 위키피디아 단락을 처리합니다. 이러한 설계는 검색기가 대규모 코퍼스에서 '바늘' 같은 단위를 찾도록 강제합니다. 반면, 리더는 짧게 검색된 단위에서 답변을 추출하기만 하면 됩니다. 이러한 불균형적인 '무거운' 검색기와 '가벼운' 리더 설계는 최적이 아닌 성능으로 이어질 수 있습니다. 이러한 불균형을 완화하기 위해, 우리는 '긴 검색기'와 '긴 리더'로 구성된 새로운 프레임워크인 LongRAG를 제안합니다. LongRAG는 전체 위키피디아를 4K 토큰 단위로 처리하며, 이는 이전보다 30배 더 깁니다. 단위 크기를 늘림으로써, 우리는 총 단위 수를 22M에서 700K로 크게 줄였습니다. 이는 검색기의 부담을 크게 낮추어, NQ에서 답변 recall@1=71%(이전 52%), HotpotQA(full-wiki)에서 답변 recall@2=72%(이전 47%)라는 놀라운 검색 점수를 달성했습니다. 그런 다음, 우리는 상위 k개의 검색된 단위(약 30K 토큰)를 기존의 장문맥 LLM에 입력하여 제로샷 답변 추출을 수행합니다. 어떠한 훈련도 필요 없이, LongRAG는 NQ에서 62.7%의 EM을 달성하며, 이는 현재까지 알려진 최고의 결과입니다. LongRAG는 또한 HotpotQA(full-wiki)에서 64.3%를 달성하며, 이는 SoTA 모델과 동등한 수준입니다. 우리의 연구는 RAG와 장문맥 LLM을 결합하는 미래 로드맵에 대한 통찰을 제공합니다.
인간 평가와 관련된 확장성 문제에 대한 유망한 해결책으로 제시된 LLM-as-a-judge 패러다임은 대규모 언어 모델(LLMs) 평가 접근법으로 빠르게 주목받고 있습니다. 그러나 이 패러다임의 강점과 약점, 그리고 잠재적인 편향에 대해서는 여전히 많은 의문점이 남아 있습니다. 본 논문에서는 다양한 LLM이 판단자 역할을 수행할 때의 성능에 대한 포괄적인 연구를 제시합니다. 우리는 TriviaQA를 벤치마크로 활용하여 LLM의 객관적 지식 추론 능력을 평가하고, 높은 평가자 간 일치도를 보인 인간 주석과 함께 이를 평가합니다. 우리의 연구에는 9개의 판단자 모델과 9개의 시험 응시자 모델(기본 모델과 지시 튜닝 모델 모두 포함)이 포함됩니다. 우리는 판단자 모델의 일치도를 모델 크기, 계열, 그리고 판단자 프롬프트에 따라 평가합니다. 여러 결과 중에서, 우리의 연구는 단순한 백분율 일치도 대신 Cohen's kappa를 일치도 지표로 사용하는 중요성을 재발견하며, 높은 백분율 일치도를 보이는 판단자라도 매우 다른 점수를 부여할 수 있음을 보여줍니다. 우리는 Llama-3 70B와 GPT-4 Turbo가 인간과의 우수한 일치도를 보이지만, 시험 응시자 모델의 순위를 매기는 데 있어서는 인간 일치도가 최대 34점 낮은 JudgeLM-7B와 어휘적 판단자인 Contains에 뒤처지는 것을 발견했습니다. 오류 분석과 지시 길이 및 관대함 편향의 효과를 포함한 다양한 연구를 통해, 우리는 앞으로 LLM을 판단자로 사용하는 데 있어 유용한 교훈을 제공하고자 합니다.
비디오 콘텐츠 제작자들은 콘텐츠를 재활용하기 위한 효율적인 도구가 필요하며, 이 작업은 종종 복잡한 수동 또는 자동화된 검색을 요구합니다. 대규모 비디오 라이브러리에서 새로운 비디오를 제작하는 것은 여전히 어려운 과제입니다. 본 논문에서는 비디오 라이브러리에 검색 증강 생성(Retrieval Augmented Generation, RAG)을 적용하는 상호 운용 가능한 아키텍처를 통해 비디오 라이브러리 질의 응답(Video Library Question Answering, VLQA) 작업을 소개합니다. 우리는 대규모 언어 모델(Large Language Models, LLMs)을 사용하여 검색 쿼리를 생성하고, 음성 및 시각 메타데이터로 인덱싱된 관련 비디오 클립을 검색하는 시스템을 제안합니다. 그런 다음, 답변 생성 모듈은 사용자 쿼리와 이 메타데이터를 통합하여 특정 비디오 타임스탬프가 포함된 응답을 생성합니다. 이 접근 방식은 멀티미디어 콘텐츠 검색 및 AI 지원 비디오 콘텐츠 생성 분야에서 유망한 가능성을 보여줍니다.
트랜스포머(Transformer)는 자연어 처리 작업, 특히 기계 번역에 광범위하게 사용되고 있지만, 처리된 텍스트의 핵심 개념을 저장할 명시적인 메모리가 부족합니다. 본 논문은 트랜스포머 모델 디코더에 추가된 기호적 작업 메모리의 내용 속성을 탐구합니다. 이러한 작업 메모리는 기계 번역 작업에서 모델 예측의 품질을 향상시키며, 모델이 올바른 번역을 수행하는 데 중요한 정보의 신경-기호적 표현으로 작동합니다. 메모리 내용에 대한 연구는 번역된 텍스트의 키워드가 작업 메모리에 저장되어 있음을 보여주며, 이는 메모리 내용이 처리된 텍스트와 관련성이 있음을 시사합니다. 또한, 메모리에 저장된 토큰과 품사의 다양성은 기계 번역 작업을 위한 코퍼스의 복잡성과 상관관계가 있습니다.
최근 몇 년간 비디오 생성 기술은 큰 발전을 이루었습니다. 그러나 자동 비디오 평가 지표의 개발은 상당히 뒤처져 있습니다. 기존의 어떤 지표도 생성된 비디오에 대해 신뢰할 만한 점수를 제공하지 못하고 있습니다. 주요 장벽은 대규모 인간 주석 데이터셋의 부재입니다. 본 논문에서는 11개의 기존 비디오 생성 모델에서 생성된 37.6K개의 합성 비디오에 대해 인간이 제공한 다중 측면 점수를 포함한 첫 번째 대규모 데이터셋인 VideoFeedback를 공개합니다. 우리는 VideoFeedback을 기반으로 Mantis에서 초기화된 MantisScore를 학습시켜 자동 비디오 품질 평가를 가능하게 합니다. 실험 결과, MantisScore와 인간 평가 간의 스피어만 상관관계는 VideoFeedback-test에서 77.1에 달하며, 이는 기존 최고 지표보다 약 50점 높은 수치입니다. EvalCrafter, GenAI-Bench, VBench 등 다른 보류 데이터셋에 대한 추가 결과에서도 MantisScore가 다른 지표보다 인간 평가자와 훨씬 더 높은 상관관계를 보이는 것으로 나타났습니다. 이러한 결과를 바탕으로, 우리는 MantisScore가 인간 평가자의 훌륭한 대리자 역할을 할 수 있다고 믿습니다. 이를 통해 (1) 다양한 비디오 모델을 평가하여 진행 상황을 추적하고, (2) Reinforcement Learning with Human Feedback(RLHF)에서 세분화된 인간 피드백을 시뮬레이션하여 현재의 비디오 생성 모델을 개선할 수 있습니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 질의응답(Question-Answering, QA) 시스템의 자동화된 평가에서의 주요 과제는 도메인 특화 지식에서의 환각(hallucination) 문제와 기업 내부 업무를 위한 표준 벤치마크의 부재입니다. 이로 인해 Infineon Technologies의 제품 QA 작업과 같은 맥락에서 RAG-Fusion(RAGF)과 같은 RAG 변형을 평가하는 데 어려움이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 실제 사용자 질의와 도메인 내 문서를 기반으로 합성 질의 데이터셋을 생성하고, LLM-as-a-judge를 사용하여 검색된 문서와 답변을 평가하며, 답변의 품질을 평가하고, RAGElo의 자동화된 Elo 기반 경쟁을 통해 다양한 검색 증강 생성(RAG) 에이전트 변형을 순위 매기는 포괄적인 평가 프레임워크를 제안합니다. 합성 질의의 무작위 샘플에 대한 LLM-as-a-judge 평가는 관련성, 정확성, 완전성 및 정밀성 측면에서 도메인 전문가 점수와 중간 정도의 양의 상관관계를 보여줍니다. RAGF가 Elo 점수에서 RAG를 능가했지만, 전문가 주석에 대한 유의성 분석은 RAGF가 완전성에서는 RAG를 크게 능가하지만 정밀성에서는 뒤처지는 것을 보여줍니다. 또한, Infineon의 RAGF 어시스턴트는 MRR@5 점수를 기반으로 문서 관련성에서 약간 더 높은 성능을 보였습니다. 우리는 RAGElo가 인간 주석자의 선호도와 긍정적으로 일치함을 발견했지만, 여전히 주의가 필요합니다. 마지막으로, RAGF의 접근 방식은 전문가 주석에 기반한 더 완전한 답변과 RAGElo의 평가 기준에 따른 전반적으로 더 나은 답변을 이끌어냅니다.
텍스트-이미지 모델은 디지털 아트 창작의 지형을 혁신하며, 매우 세밀하고 창의적인 시각적 콘텐츠 생성을 가능하게 함으로써 점점 더 인기를 얻고 있습니다. 이러한 모델은 특히 아트 생성 분야에서 널리 활용되며, 다양한 창의적 표현을 촉진하고 예술 창작에 대한 접근성을 민주화하고 있습니다. 본 논문에서는 1,300만 명 이상의 사용자를 보유한 창의적 탐구의 주요 허브로 부상한 Artbreeder 플랫폼에서 95,000명의 사용자가 생성한 680만 개의 이미지와 180만 개의 프롬프트로 구성된 STYLEBREEDER 데이터셋을 소개합니다. 이 데이터셋을 활용하여 다양한 예술 스타일을 식별하고, 개인화된 콘텐츠를 생성하며, 사용자의 관심사에 기반한 스타일을 추천하는 일련의 작업을 제안합니다. '사이버펑크'나 '피카소'와 같은 전통적인 범주를 초월한 독특한 사용자 생성 스타일을 문서화함으로써, 전 세계 사용자들의 집단적 창의적 심리를 깊이 있게 이해할 수 있는 잠재력을 탐구합니다. 또한 예술적 표현을 강화하기 위해 다양한 개인화 방법을 평가하고, LoRA 형식으로 공개 사용 가능한 스타일 아틀라스를 소개합니다. 우리의 연구는 텍스트-이미지 확산 모델이 독특한 예술적 표현을 발견하고 촉진할 수 있는 잠재력을 입증하며, 예술 분야에서 AI의 민주화를 더욱 촉진하고 더 다양하고 포용적인 예술 커뮤니티를 조성합니다. 데이터셋, 코드 및 모델은 Public Domain (CC0) 라이선스 하에 https://stylebreeder.github.io에서 이용 가능합니다.
이벤트 기반 비전은 높은 시간 해상도와 높은 동적 범위와 같은 독특한 특성으로 인해 점점 더 많은 관심을 받고 있습니다. 최근에는 비디오 초해상도(VSR)에서 흐름 추정과 시간적 정렬을 개선하기 위해 사용되고 있습니다. 본 논문에서는 모션 학습이 아닌 텍스처 향상을 위해 이벤트 신호를 활용한 최초의 VSR 방법을 제안합니다. 우리의 방법인 EvTexture는 이벤트의 고주파수 세부 정보를 활용하여 VSR에서 텍스처 영역을 더 잘 복원합니다. EvTexture에서는 새로운 텍스처 향상 분기를 제시합니다. 또한, 텍스처 복원을 위해 고시간 해상도의 이벤트 정보를 점진적으로 탐색하는 반복적 텍스처 향상 모듈을 도입했습니다. 이를 통해 여러 반복에 걸쳐 텍스처 영역을 점진적으로 개선하여 더 정확하고 풍부한 고해상도 세부 정보를 얻을 수 있습니다. 실험 결과, 우리의 EvTexture는 네 가지 데이터셋에서 최첨단 성능을 달성했습니다. 특히 텍스처가 풍부한 Vid4 데이터셋에서 최근의 이벤트 기반 방법과 비교하여 최대 4.67dB의 성능 향상을 보였습니다. 코드: https://github.com/DachunKai/EvTexture.
LLM(대형 언어 모델)의 광범위한 적용 가능성과 점점 더 보편화되는 현상은 사용자와 이해관계자의 선호에 맞춰 LLM 응답을 조정할 필요성을 촉발시켰습니다. 이를 위해 많은 선호 최적화 접근법이 제안되었으며, 이들은 LLM 매개변수를 미세 조정하여 좋은 정렬을 달성하려 합니다. 그러나 이러한 매개변수 조정은 모델의 다양한 작업에서 성능을 저하시키는 것으로 알려져 있습니다. 또한, 변화하는 사용자 선호를 따라잡는 것은 이러한 상황에서 까다로운 문제입니다. 보상 모델 지도를 통한 디코딩 시점 정렬은 추론 시간 증가라는 비용을 치르면서 이러한 문제를 해결합니다. 그러나 대부분의 이러한 방법들은 보상의 탐색(exploration)과 활용(exploitation) 사이의 적절한 균형을 맞추지 못하는데, 이는 종종 이 두 측면이 혼재된 형태로 구현되기 때문입니다. 이를 해결하기 위해 우리는 이 두 측면을 분리하고 진화적 방식으로 구현했습니다: 탐색은 변형된 명령어로부터 디코딩함으로써 강제되고, 활용은 보상이 낮은 세대를 주기적으로 보상이 높은 세대로 대체하는 것으로 나타냅니다. 실험 결과는 이 전략이 널리 인정받는 정렬 벤치마크인 AlpacaEval 2와 MT-Bench에서 많은 선호 최적화 및 디코딩 시점 정렬 접근법을 능가함을 보여줍니다. 우리의 구현은 https://darwin-alignment.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 광범위한 채택은 특히 적대적 공격에 대한 취약성과 관련하여 그 안전성과 신뢰성에 대한 우려를 불러일으켰습니다. 본 논문에서는 이러한 취약성을 정렬 과정 중의 보상 오설정(reward misspecification)에 기인한다는 새로운 관점을 제안합니다. 우리는 보상 오설정의 정도를 정량화하기 위한 ReGap이라는 메트릭을 소개하고, 이를 통해 유해한 백도어 프롬프트를 탐지하는 데 있어서의 효과성과 견고성을 입증합니다. 이러한 통찰을 바탕으로, 다양한 정렬된 LLM을 대상으로 적대적 프롬프트를 생성하는 자동화된 레드 팀링 시스템인 ReMiss를 제시합니다. ReMiss는 AdvBench 벤치마크에서 최첨단의 공격 성공률을 달성하면서도 생성된 프롬프트의 인간 가독성을 유지합니다. 상세한 분석을 통해 제안된 보상 오설정 목표가 기존 방법에 비해 가져오는 독특한 장점을 강조합니다.
텍스트 전용 모델의 경우 상황이 개선되었지만, 현재 다시 다중모달(텍스트 및 이미지) 모델의 발전 속도가 이를 평가하는 방법보다 빠른 것으로 보입니다. 본 논문에서는 텍스트 모델에서 최근 개발된 평가 패러다임, 즉 목표 지향적 게임(자체) 플레이를 통한 평가를 다중모달 모델에 적용하여, 참조 기반 및 선호도 기반 평가를 보완합니다. 구체적으로, 우리는 모델이 시각 정보로부터 상황을 표현하고 대화를 통해 그러한 표현을 정렬하는 능력을 시험하는 게임을 정의합니다. 우리가 정의한 게임에서 가장 큰 폐쇄형 모델들은 상당히 잘 수행하는 반면, 최고의 오픈 가중치 모델들조차도 이를 어려워하는 것을 발견했습니다. 추가 분석을 통해, 가장 큰 모델들의 탁월한 심층 캡셔닝 능력이 일부 성능을 이끌어내는 것을 확인했습니다. 두 종류의 모델 모두 성장할 여지가 여전히 남아 있어, 벤치마크의 지속적인 관련성을 보장합니다.
언어 모델은 다양한 자연어 처리 작업에서 인상적인 능력을 보여왔지만, 다단계 시뮬레이션이 필요한 계획 작업에는 어려움을 겪습니다. 인간의 인지 과정에서 영감을 받아, 본 논문은 주어진 환경의 인지 지도를 구성할 수 있는 언어 모델의 최적 계획 능력을 탐구합니다. 우리의 실험은 인지 지도가 Gridworld 경로 계획 작업에서 최적 및 도달 가능한 계획 생성 능력을 크게 향상시킨다는 것을 보여줍니다. 우리의 방법은 인간의 인지와 유사한 두 가지 주요 특성을 보여줍니다: 외삽된 환경으로의 계획 능력 일반화와 제한된 훈련 데이터로의 빠른 적응입니다. 우리는 Gridworld 작업에서의 연구 결과가 언어 모델에서 인간의 인지 과정을 모델링하는 데 통찰을 제공하고, 궁극적으로 인간의 인지와 더 유사한 더 발전적이고 견고한 시스템 개발로 이어지기를 바랍니다.
가상 현실(VR)과 증강 현실(AR) 기술의 급속한 발전은 고품질의 몰입적이고 동적인 환경 생성에 대한 수요를 증가시키고 있습니다. 그러나 기존의 생성 기술은 동적 객체에만 초점을 맞추거나 단일 시점 이미지에서 아웃페인팅을 수행하는 데 그쳐 VR/AR 애플리케이션의 요구를 충족시키지 못하고 있습니다. 본 연구에서는 단일 파노라마를 몰입형 4D 경험으로 고도화하는 도전적인 과제를 해결합니다. 우리는 처음으로 4K 해상도의 360도 뷰를 갖춘 전방위 동적 장면을 생성하여 몰입적인 사용자 경험을 제공할 수 있는 능력을 입증합니다. 우리의 방법은 자연스러운 장면 애니메이션을 가능하게 하는 파이프라인을 도입하고, 실시간 탐색을 위해 효율적인 스플래팅 기법을 사용하여 4D 가우시안 세트를 최적화합니다. 특히 파노라마 형식의 장면 규모 주석 4D 데이터와 모델의 부족을 극복하기 위해, 우리는 일반적인 2D 확산 사전 지식을 360도 이미지에서 일관되게 애니메이션화하는 새로운 파노라마 디노이저를 제안합니다. 이를 통해 특정 영역에서 동적 장면을 가진 파노라마 비디오로 변환합니다. 이후, 우리는 공간적 및 시간적 일관성을 유지하면서 파노라마 비디오를 4D 몰입형 환경으로 고도화합니다. 2D 모델의 사전 지식을 시점 도메인에서 파노라마 도메인으로 전이하고, 공간적 외관 및 기하학적 정규화를 통해 4D 리프팅을 수행함으로써, 우리는 (4096 x 2048) 해상도의 고품질 파노라마-투-4D 생성을 처음으로 달성합니다. 프로젝트 웹사이트는 https://4k4dgen.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 개발 과정에서의 불투명성은 사전 학습 데이터에 포함된 공개 벤치마크의 잠재적 오염에 대한 우려를 점점 더 불러일으키고 있다. 기존의 오염 탐지 방법은 일반적으로 학습 데이터와 평가 데이터 간의 텍스트 중첩을 기반으로 하는데, 이는 더 깊은 형태의 오염을 반영하기에는 너무 피상적일 수 있다. 본 논문에서는 먼저, 벤치마크 테스트 세트의 번역 버전에 LLM을 과적합시켜 현재의 탐지 방법을 회피하면서 LLM의 성능을 부풀리는 교차 언어 형태의 오염을 소개한다. 그런 다음, 이러한 깊숙이 숨겨진 오염을 밝히기 위해 일반화 기반 접근 방식을 제안한다. 구체적으로, 원래 벤치마크에서 잘못된 답안 선택지를 다른 질문의 정답으로 대체한 후 LLM의 성능 변화를 검토한다. 오염된 모델은 모든 선택지가 정답인 더 쉬운 상황으로 일반화하기 어려운데, 이는 잘못된 선택지가 틀릴 필요조차 없기 때문이다. 실험 결과는 교차 언어 오염이 기존 탐지 방법을 쉽게 속일 수 있지만, 우리의 방법은 그렇지 않음을 보여준다. 또한, 교차 언어 오염을 LLM의 작동 메커니즘 해석과 사후 학습을 통해 다국어 능력을 강화하는 데 활용할 가능성에 대해 논의한다. 사용된 코드와 데이터셋은 https://github.com/ShangDataLab/Deep-Contam에서 확인할 수 있다.
도메인 특화 모델의 확산과 함께, 모델 병합은 추가적인 학습 비용 없이 다중 작업을 수행할 수 있는 하나의 모델로 여러 모델의 기능을 결합하는 기술로 부상했습니다. 본 논문에서는 새로운 모델 병합 기법인 Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging)을 제안합니다. 이 기법은 MAGPRUNE이라는 새로운 가지치기(pruning) 기술을 사용하며, DARE와 TIES에 비해 상당한 이점을 보입니다. MAGPRUNE은 먼저 매개변수를 크기(magnitude) 순으로 정렬하고, 더 낮은 순위(즉, 더 작은 크기)에 해당하는 매개변수에 더 높은 드롭아웃 확률(p)을 할당합니다. 원래 임베딩을 근사하기 위해 MAGPRUNE은 무작위 드롭아웃에서 살아남은 매개변수에 1/(1 - p)로 재조정(rescaling) 연산을 적용합니다. 병합을 위해 고려된 세 가지 전문가 모델(LM, Math, Code)과 해당 벤치마크 데이터셋(AlpacaEval, GSM8K, MBPP)에서 DELLA는 델타 매개변수 가지치기를 사용한 베이스라인 방법보다 평균 2.4점의 개선을 보였으며(TIES보다 3.6점, DARE보다 1.2점 개선), 가지치기를 적용하지 않은 베이스라인(TA)보다는 11.1점의 향상을 달성했습니다. 소스 코드는 https://github.com/declare-lab/della에서 공개합니다.
검색 증강 생성(Retrieval Augmented Generation, RAG)은 검색 단계와 생성 단계를 결합한 인공지능의 중요한 발전을 나타내며, 생성 단계는 일반적으로 대규모 언어 모델(Large Language Models, LLMs)에 의해 구동됩니다. 현재 RAG에서 일반적으로 사용되는 방법은 "지시된(instructed)" LLMs를 활용하는 것으로, 이는 지시를 따르는 능력을 향상시키기 위해 지도 학습으로 미세 조정되고, 최신 기술을 사용하여 인간의 선호도와 조정됩니다. 일반적인 믿음과는 달리, 우리의 연구는 기본 모델(base models)이 RAG 작업에서 지시된 모델보다 평균 20% 더 우수한 성능을 보인다는 것을 실험 설정 하에서 입증했습니다. 이 발견은 RAG 애플리케이션에서 지시된 LLMs의 우월성에 대한 기존의 가정에 도전합니다. 추가 조사는 RAG의 근본적인 측면에 대한 더 미묘한 상황을 밝히며, 이 주제에 대한 더 광범위한 논의의 필요성을 제기합니다. 또는 프롬(Fromm)의 말을 빌리자면, "통계를 단순히 살펴보는 것만으로는 수치의 의미를 이해하기에 충분하지 않다"는 것입니다.
체내에서의 약물 효능과 안전성을 예측하기 위해서는 소분자 교란에 대한 생물학적 반응(예: 세포 형태 및 유전자 발현) 정보가 필요합니다. 그러나 현재의 분자 표현 학습 방법들은 이러한 교란 하에서의 세포 상태를 포괄적으로 보여주지 못하며 노이즈를 제거하는 데 어려움을 겪어 모델의 일반화를 방해합니다. 우리는 정보 정렬(InfoAlign) 접근법을 소개하여, 세포 내에서 정보 병목 방법을 통해 분자 표현을 학습합니다. 우리는 분자와 세포 반응 데이터를 노드로 통합하여 컨텍스트 그래프에 포함시키고, 화학적, 생물학적, 계산적 기준에 기반한 가중치가 부여된 엣지로 연결합니다. 학습 배치의 각 분자에 대해, InfoAlign은 중복된 구조 정보를 제거하기 위해 최소성 목표를 가지고 인코더의 잠재 표현을 최적화합니다. 충분성 목표는 컨텍스트 그래프에서 분자의 이웃으로부터 다양한 특징 공간과 정렬되도록 표현을 디코딩합니다. 우리는 제안된 충분성 목표가 기존의 인코더 기반 대조 방법보다 더 엄격하다는 것을 보여줍니다. 실증적으로, 우리는 InfoAlign에서 얻은 표현을 두 가지 하위 작업에서 검증합니다: 네 가지 데이터셋에 걸쳐 최대 19개의 베이스라인 방법과 비교한 분자 속성 예측, 그리고 제로샷 분자-형태학 매칭입니다.
우리는 Rainbow Teaming을 개선한 Ruby Teaming 방법을 제안합니다. 이 방법은 메모리 캐시를 세 번째 차원으로 포함시킵니다. 메모리 차원은 변이자(mutator)에게 더 높은 품질의 프롬프트를 생성하도록 단서를 제공하며, 이는 공격 성공률(ASR)과 품질 다양성 측면에서 모두 적용됩니다. Ruby Teaming으로 생성된 프롬프트 아카이브의 ASR은 74%로, 기준치보다 20% 높습니다. 품질 다양성 측면에서는 Ruby Teaming이 Shannon의 균등성 지수(SEI)와 Simpson의 다양성 지수(SDI)에서 각각 6%와 3% 더 우수한 성능을 보입니다.
비전 기반 주행 정책을 벤치마킹하는 것은 어려운 과제입니다. 한편으로는 실제 데이터를 사용한 개방형 루프(open-loop) 평가는 쉽게 수행할 수 있지만, 이러한 결과는 폐쇄형 루프(closed-loop) 성능을 반영하지 못합니다. 다른 한편으로는 시뮬레이션에서 폐쇄형 루프 평가가 가능하지만, 상당한 계산 자원이 필요하기 때문에 대규모로 확장하기 어렵습니다. 더욱이 현재 사용 가능한 시뮬레이터는 실제 데이터와 큰 도메인 간극(domain gap)을 보입니다. 이로 인해 엔드투엔드(end-to-end) 자율 주행에 대한 빠르게 증가하는 연구 결과들로부터 명확한 결론을 도출하기 어려운 상황입니다. 본 논문에서는 이러한 평가 패러다임 사이의 중간 지점인 NAVSIM을 제안합니다. NAVSIM은 대규모 데이터셋과 비반응형(non-reactive) 시뮬레이터를 결합하여 대규모 실제 세계 벤치마킹을 가능하게 합니다. 구체적으로, 우리는 테스트 장면의 조감도(bird's eye view) 추상화를 짧은 시뮬레이션 기간 동안 전개하여 진행 상황(progress) 및 충돌까지의 시간(time to collision)과 같은 시뮬레이션 기반 메트릭을 수집합니다. 우리의 시뮬레이터는 비반응형으로, 평가 대상 정책과 환경이 서로 영향을 미치지 않습니다. 우리가 실증적으로 보여주듯이, 이러한 분리는 기존의 변위 오류(displacement errors)보다 폐쇄형 루프 평가와 더 잘 일치하면서도 개방형 루프 메트릭 계산을 가능하게 합니다. NAVSIM은 CVPR 2024에서 개최된 새로운 경쟁을 가능하게 했으며, 143개 팀이 463개의 제출물을 제출하여 여러 새로운 통찰을 얻었습니다. 대규모의 도전적인 시나리오에서 우리는 TransFuser와 같은 적당한 계산 자원을 요구하는 간단한 방법이 UniAD와 같은 최근의 대규모 엔드투엔드 주행 아키텍처와 맞먹을 수 있음을 관찰했습니다. 우리의 모듈형 프레임워크는 새로운 데이터셋, 데이터 큐레이션 전략, 그리고 메트릭으로 확장될 가능성이 있으며, 앞으로의 도전을 위해 지속적으로 유지될 것입니다. 우리의 코드는 https://github.com/autonomousvision/navsim에서 확인할 수 있습니다.
대규모 생성 언어 모델 및 시각-언어 모델(LLM과 VLM)은 의사결정과 지시 수행을 위한 퓨샷 인컨텍스트 학습에서 뛰어난 성능을 보입니다. 그러나 이러한 모델들은 컨텍스트 윈도우에 포함될 고품질의 예시 데모를 필요로 합니다. 본 연구에서는 다음과 같은 질문을 던집니다: LLM과 VLM이 일반적이고 최적이 아닌 데모로부터 자신만의 프롬프트 예시를 생성할 수 있을까요? 우리는 최적이 아닌 데모와 인간 피드백으로부터 다중모달 경험 통찰력을 기억에 저장하는 인컨텍스트 추상화 학습(ICAL) 방법을 제안합니다. 새로운 도메인에서 노이즈가 있는 데모가 주어지면, VLM은 비효율적인 행동을 수정하고 인지적 추상화(과제 관계, 객체 상태 변화, 시간적 하위 목표, 과제 해석)를 주석 처리하여 궤적을 일반적인 프로그램으로 추상화합니다. 이러한 추상화는 에이전트가 유사한 환경에서 궤적을 실행하려고 시도하는 동안 인간 피드백을 통해 상호작용적으로 개선되고 적응됩니다. 결과적으로 생성된 추상화는 프롬프트의 예시로 사용될 때, 검색 강화된 LLM 및 VLM 에이전트의 의사결정을 크게 개선합니다. 우리의 ICAL 에이전트는 TEACh에서 대화 기반 지시 수행, VisualWebArena에서 다중모달 웹 에이전트, 그리고 Ego4D에서의 행동 예측 분야에서 최첨단 기술을 능가합니다. TEACh에서는 목표 조건 성공률이 12.6% 향상되었습니다. VisualWebArena에서는 작업 성공률이 최첨단 기술 대비 14.3%에서 22.7%로 개선되었습니다. Ego4D 행동 예측에서는 퓨샷 GPT-4V를 능가하며 지도 학습 모델과도 경쟁력을 유지했습니다. 우리는 검색 강화된 인컨텍스트 에이전트를 미세 조정함으로써 추가적인 개선을 이끌어냈습니다. 우리의 접근 방식은 전문가가 제작한 예시에 대한 의존도를 크게 줄이고, 이러한 통찰력이 없는 행동 계획을 기반으로 한 인컨텍스트 학습을 지속적으로 능가합니다.
우리는 2D 이미지 확산 모델의 힘을 활용하여 3D 장면을 스타일화하는 간단하지만 효과적인 파이프라인을 제안합니다. 다중 뷰 이미지 세트로부터 재구성된 NeRF 모델이 주어지면, 스타일 정렬된 이미지-이미지 확산 모델로 생성된 스타일화된 이미지를 사용하여 소스 NeRF 모델을 개선함으로써 3D 스타일 전이를 수행합니다. 목표 스타일 프롬프트가 주어지면, 먼저 주의 공유 메커니즘을 갖춘 깊이 조건부 확산 모델을 활용하여 지각적으로 유사한 다중 뷰 이미지를 생성합니다. 다음, 스타일화된 다중 뷰 이미지를 기반으로, 사전 훈련된 CNN 모델에서 추출한 특징 맵을 기반으로 한 슬라이스드 와서스테인 손실을 사용하여 스타일 전이 과정을 안내하는 방법을 제안합니다. 우리의 파이프라인은 분리된 단계로 구성되어 있어, 사용자가 다양한 프롬프트 아이디어를 테스트하고 NeRF 미세 조정 단계로 진행하기 전에 스타일화된 3D 결과를 미리 볼 수 있도록 합니다. 우리의 방법이 다양한 예술적 스타일을 실제 3D 장면에 경쟁력 있는 품질로 전이할 수 있음을 보여줍니다.
텍스트 검색을 위해 미세 조정된 대규모 언어 모델(LLMs)은 여러 정보 검색(IR) 벤치마크에서 최첨단 성능을 입증했습니다. 그러나 이러한 모델의 성능을 향상시키기 위한 지도 학습에는 일반적으로 구하기 어렵거나 비용이 많이 드는 다수의 레이블이 지정된 예제가 필요합니다. 본 연구에서는 정보 검색 맥락에서 역공학적 적응(RE-AdaptIR)을 확장하는 방법의 효과를 탐구합니다. 우리는 RE-AdaptIR을 사용하여 레이블이 없는 데이터만으로 LLM 기반 IR 모델의 성능을 개선합니다. 이를 통해 학습 도메인뿐만 아니라 모델이 쿼리를 전혀 보지 못한 도메인에서도 제로샷 성능이 향상됨을 입증합니다. 또한 다양한 미세 조정 시나리오에서의 성능 변화를 분석하고, 실무자들에게 즉시 활용 가능한 연구 결과를 제시합니다.
멀티모달 파운데이션 모델(MMFMs)은 다양한 컴퓨터 비전 및 자연어 처리 작업에서 뛰어난 성능을 보여왔습니다. 그러나 문서 이해와 같은 특정 작업에서의 성능은 여전히 제한적입니다. 또한, 전통적인 단일 모달 모델에 비해 미세 조정 및 배포에 더 많은 컴퓨팅 자원, 시간, 엔지니어링 리소스가 필요합니다. 본 보고서에서는 멀티모달 구조화 생성(Multimodal Structured Generation)이라는 일반적인 프레임워크를 제시합니다. 이 프레임워크는 고정된 MMFMs의 출력 로짓을 제한하여, 다운스트림 API가 파싱하고 사용할 수 있는 구조화된 출력을 응답하기 전에 추론하도록 강제합니다. 우리는 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에서 주최한 제2회 멀티모달 파운데이션 모델 챌린지에서의 접근 방식, 기술적 세부 사항, 이론적 논의 및 최종 평가 결과를 상세히 설명합니다. 우리의 접근 방식은 Phase 2의 숨겨진 테스트 세트에서 두 번째로 높은 점수를 얻었으며, 전체적으로 세 번째로 높은 성적을 기록했습니다. 이는 이 방법이 보이지 않는 작업에 일반화할 수 있는 능력을 보여줍니다. 또한, 우리가 논문 "Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use"에서 처음 논의한 바와 같이, 간단한 엔지니어링이 비용이 많이 들고 복잡한 모델링 단계를 능가할 수 있음을 보여줍니다. 우리의 모든 스크립트, 배포 단계 및 평가 결과는 https://github.com/leloykun/MMFM-Challenge에서 확인할 수 있습니다.
기존의 유해 콘텐츠 탐지 모델은 투명성, 맞춤화, 재현성의 부족과 같은 상당한 한계에 직면해 있습니다. 이러한 문제는 훈련 데이터의 폐쇄적 특성과 평가 메커니즘에 대한 설명의 부족에서 비롯됩니다. 이러한 문제를 해결하기 위해, 우리는 투표와 사고 사슬(chain-of-thought) 과정을 통합한 데이터셋 생성 메커니즘을 제안하여, 유해 콘텐츠 탐지를 위한 고품질의 오픈소스 데이터셋을 생성합니다. 우리의 방법론은 각 샘플에 대해 다양한 분류 지표를 보장하며, 분류 점수와 분류에 대한 설명적 추론을 모두 포함합니다. 우리는 제안된 메커니즘을 통해 생성된 데이터셋을 활용하여 모델을 훈련시키고, 이를 기존에 널리 사용되는 탐지기와 비교합니다. 우리의 접근 방식은 투명성과 맞춤화를 향상시킬 뿐만 아니라, 특정 사용 사례에 대한 더 나은 미세 조정을 가능하게 합니다. 이 연구는 개방성과 적응성을 강조하며, 유해 콘텐츠 탐지 모델 개발을 위한 견고한 프레임워크를 제공함으로써, 더 효과적이고 사용자 맞춤형 콘텐츠 조정 솔루션을 위한 길을 열어줍니다.
대형 언어 모델(LLMs)은 인간의 행동을 모방하여 인간에게 기쁨을 주는 방식으로 응답하려고 시도하며, 이는 인간의 가치관을 준수하는 것을 포함합니다. 그러나 인간은 다양한 문화적 배경과 서로 다른 가치관을 가지고 있습니다. LLMs가 사용자의 알려진 국가의 고정관념적 가치관을 기반으로 사용자에게 다른 가치관을 보여주는지 이해하는 것이 중요합니다. 우리는 5가지 호프스테드 문화 차원(Hofstede Cultural Dimensions)을 기반으로 한 일련의 조언 요청을 다양한 LLMs에 제시했습니다. 이는 국가의 가치관을 정량적으로 표현하는 방법입니다. 각 프롬프트에서 우리는 36개 다른 국가를 대표하는 페르소나와, 각 국가와 주로 연결된 언어를 별도로 통합하여 LLMs의 문화적 이해 일관성을 분석했습니다. 응답 분석을 통해 우리는 LLMs가 한 가치관의 한 측면과 다른 측면을 구분할 수 있으며, 국가마다 다른 가치관을 가지고 있다는 것을 이해하지만, 조언을 할 때 항상 그 가치관을 지키지는 않으며, 다른 문화적 가치관에 따라 다르게 답변해야 할 필요성을 이해하지 못한다는 것을 발견했습니다. 이러한 발견을 바탕으로, 우리는 가치관에 부합하고 문화적으로 민감한 LLMs를 훈련하기 위한 권장 사항을 제시합니다. 더 중요한 것은, 여기서 개발된 방법론과 프레임워크가 LLMs의 문화 및 언어 정렬 문제를 더 잘 이해하고 완화하는 데 도움을 줄 수 있다는 점입니다.
우리는 이기종 데이터를 활용한 자연어 처리 작업에 적용 가능한 개인화된 연합 학습 알고리즘인 MeritFed을 기반으로 한 새로운 접근 방식을 제안합니다. 이를 저자원 기계 번역 작업에 적용하여 평가하였으며, 대규모 다국어 기계 번역 공유 과제(Small Track #2)의 데이터셋과 핀우그릭어군 벤치마크의 사미어 하위 집합을 사용했습니다. MeritFed은 효과적일 뿐만 아니라, 학습에 사용된 각 언어의 영향을 추적할 수 있어 높은 해석 가능성을 제공합니다. 우리의 분석 결과, 타겟 데이터셋의 크기가 보조 언어 간의 가중치 분포에 영향을 미치며, 관련 없는 언어는 학습에 간섭을 주지 않고, 보조 최적화 매개변수는 최소한의 영향만을 미친다는 것을 확인했습니다. 이 접근 방식은 몇 줄의 코드로 쉽게 적용할 수 있으며, 실험 재현을 위한 스크립트를 https://github.com/VityaVitalich/MeritFed에서 제공합니다.