번역이 포함된 일일 선별된 AI 연구 논문
우리는 금융 분야의 LLM 기반 질의응답 시스템에서 인간-인터페이스 상호작용의 여섯 가지 변형에 대한 LLM의 견고성과 문맥 인식을 테스트하기 위해 설계된 새로운 긴 문맥 금융 벤치마크인 FailSafeQA를 제안합니다. 우리는 쿼리 실패와 문맥 실패 두 가지 케이스 스터디에 집중합니다. 쿼리 실패 시나리오에서는 원본 쿼리를 도메인 전문성, 완전성 및 언어적 정확성에 따라 변형시킵니다. 문맥 실패 케이스에서는 저하된, 관련성이 없는 및 비어 있는 문서를 업로드한 것을 시뮬레이션합니다. 우리는 Qwen2.5-72B-Instruct를 사용하여 LLM-판사 방법론을 적용하고 섬세한 등급 기준을 사용하여 24개의 오프더셀프 모델에 대한 견고성, 문맥 기반 및 준수 점수를 정의하고 계산합니다. 결과는 일부 모델이 입력 변형을 완화하는 데 뛰어나지만 견고한 답변과 환각을 자제할 능력을 균형있게 유지해야 한다는 것을 시사합니다. 특히, 가장 준수 모델로 인정받는 Palmyra-Fin-128k-Instruct는 강력한 기준 성능을 유지했지만 테스트 케이스의 17%에서 견고한 예측을 유지하는 데 어려움을 겪었습니다. 반면에 가장 견고한 모델인 OpenAI o3-mini는 테스트된 케이스의 41%에서 정보를 날조했습니다. 결과는 높은 성능을 보이는 모델들도 큰 개선 여지가 있음을 보여주며, 금융 응용 프로그램에서 신뢰성을 최적화하기 위해 개발된 LLM에 대한 도구로서 FailSafeQA의 역할을 강조합니다. 데이터셋은 다음에서 이용할 수 있습니다: https://huggingface.co/datasets/Writer/FailSafeQA
우리는 대형 언어 모델 (LLM)에 적용된 강화 학습이 복잡한 코딩 및 추론 작업에서 성능을 크게 향상시킨다는 것을 보여줍니다. 또한, 우리는 두 개의 일반 목적 추론 모델 - OpenAI o1과 o3의 초기 체크포인트 -을 2024년 국제 정보 올림피아드(IOI)에서 경쟁하기 위해 설계된 손수 설계된 추론 전략을 사용하는 도메인별 시스템인 o1-ioi와 비교합니다. 우리는 o1-ioi로 IOI 2024에서 실시간으로 경쟁하였고, 손수 제작된 테스트 시간 전략을 사용하여 49번째 백분위에 위치했습니다. 제약이 완화된 경쟁 조건 하에서 o1-ioi는 금메달을 획득했습니다. 그러나 o3와 같은 나중 모델을 평가할 때, o3은 손수 제작된 도메인별 전략이나 완화된 제약 없이도 금메달을 달성합니다. 우리의 연구 결과는 o1-ioi와 같은 전문화된 파이프라인이 확고한 개선을 가져오지만, 확장된 일반 목적 o3 모델이 손수 제작된 추론 휴리스틱에 의존하지 않고 이러한 결과를 능가한다는 것을 보여줍니다. 특히, o3은 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자들과 동등한 Codeforces 등급을 얻습니다. 이러한 결과는 도메인별 기술에 의존하는 대신 일반 목적 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 도메인에서 최첨단 AI로 나아가는 견고한 길을 제공한다는 것을 나타냅니다.
추론은 대형 언어 모델의 기본적인 능력입니다. 이전 연구는 주로 수학이나 코드 생성과 같은 좁은 기술을 향상시키는 데 초점을 맞추었지만, 다양한 추론 작업의 성능 향상은 희소하고 단편적인 훈련 데이터로 인해 여전히 어려운 문제입니다. 이 문제를 해결하기 위해 우리는 CodeI/O를 제안합니다. 이는 다양한 추론 패턴을 체계적으로 압축하는 혁신적인 방법으로, 문맥에 근거한 코드에 내재된 다양한 추론 패턴을 변환하여 원래 코드를 코드 입력-출력 예측 형식으로 만듭니다. 모델을 훈련시켜 코드와 테스트 케이스가 자연어로 완전히 표현된 Chain-of-Thought (CoT) 근거로 입력/출력을 예측하도록 함으로써, 우리는 이러한 모델들에게 논리 흐름 계획, 상태 공간 탐색, 의사 결정 트리 탐색, 그리고 모듈식 분해와 같은 범용 추론 기본 요소에 노출시킵니다. 이 과정에서 구조화된 추론을 코드별 구문에서 분리하고 절차적 엄격성을 보존합니다. 실험 결과는 CodeI/O가 상징적, 과학적, 논리, 수학 및 숫자, 그리고 상식적 추론 작업 전반에 걸쳐 일관된 향상을 이끌어냄을 보여줍니다. 기존의 실제 출력과 일치하거나 예측된 입력을 사용하여 코드를 다시 실행함으로써 각 예측을 검증하고, 다중 회전 수정을 통해 CoT를 더 발전시키는 CodeI/O++을 달성하여 더 높은 성능을 달성합니다. 저희의 데이터와 모델은 https://github.com/hkust-nlp/CodeIO에서 이용할 수 있습니다.
대규모 추론 모델(LRMs)은 반사, 되추적, 자가 유효화를 포함하는 긴 사고 체인(Long CoT)을 따라 복잡한 추론 문제에 대처합니다. 그러나 Long CoT를 유도하기 위한 훈련 기술과 데이터 요구 사항은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 대규모 언어 모델(LLM)이 데이터 효율적인 지도 미세 조정(SFT)과 매개 변수 효율적인 저랭크 적응(LoRA)을 통해 효과적으로 Long CoT 추론을 학습할 수 있다는 것을 발견했습니다. 17k개의 긴 CoT 훈련 샘플만으로 Qwen2.5-32B-Instruct 모델은 AIME 2024에서 56.7% (+40.0%) 및 LiveCodeBench에서 57.0% (+8.1%) 등의 넓은 범위의 수학 및 코딩 벤치마크에서 상당한 개선을 달성했습니다. 이는 소유권이 있는 o1-preview 모델의 44.6% 및 59.1%의 점수와 경쟁력이 있습니다. 더 중요한 것은, Long CoT의 구조가 학습 과정에 중요하며, 개별 추론 단계의 내용은 미미한 영향을 미칩니다. 잘못된 샘플로 훈련하거나 추론 키워드를 제거하는 것과 같은 내용에 영향을 주는 변형은 성능에 미치는 영향이 적습니다. 그에 반해, 추론 단계를 섞거나 삭제하는 등 Long CoT의 논리 일관성을 파괴하는 구조적 수정은 정확도를 크게 저하시킵니다. 예를 들어, 잘못된 답변이 포함된 Long CoT 샘플로 훈련된 모델은 완전히 정확한 샘플로 훈련한 것과 비교했을 때 정확도가 3.2% 낮을 뿐입니다. 이러한 통찰력은 LLMs의 추론 능력을 유도하는 방법에 대한 우리의 이해를 깊게 하고 효율적으로 다음 세대 추론 모델을 훈련하는 데 중요한 고려 사항을 강조합니다. 이는 이전에 출시된 Sky-T1-32B-Preview 모델의 학술 논문입니다. 코드는 https://github.com/NovaSky-AI/SkyThought에서 사용할 수 있습니다.
주식 가격 변동 예측은 금융 시계열 예측에서의 기본적인 작업으로, 방대한 양의 시계열 데이터에서 중요한 영향 요인을 식별하고 검색하는 것을 필요로 합니다. 그러나 기존의 텍스트 훈련 또는 숫자 유사성 기반 검색 방법은 복잡한 금융 분석을 처리하는 데 한계가 있습니다. 이를 해결하기 위해 우리는 금융 시계열 예측을 위한 첫 번째 검색 증강 생성 (RAG) 프레임워크를 제안합니다. 이 프레임워크는 세 가지 주요 혁신을 갖추고 있습니다: 백본으로서 파인튜닝된 1B 매개변수 대형 언어 모델(StockLLM), LLM 피드백을 활용한 새로운 후보자 선택 방법, 그리고 쿼리와 역사적으로 중요한 시퀀스 간 유사성을 극대화하는 교육 목표. 이를 통해 저희의 검색기인 FinSeer는 복잡한 금융 데이터에서 노이즈를 최소화하면서 의미 있는 패턴을 발견할 수 있습니다. 또한 금융 지표와 역사적 주식 가격을 통합한 새로운 데이터셋을 구축하여 FinSeer를 교육하고 견고한 평가를 보장합니다. 실험 결과는 우리의 RAG 프레임워크가 베어 StockLLM과 무작위 검색을 능가하며, FinSeer가 기존의 검색 방법을 뛰어넘어 BIGDATA22에서 8% 더 높은 정확도를 달성하고 더 중요한 시퀀스를 검색한다는 것을 입증합니다. 이 작업은 금융 예측에서 맞춤형 검색 모델의 중요성을 강조하고, 미래 연구를 위한 새로운 프레임워크를 제공합니다.
본 기술 보고서에서는 최적화된 메모리 소비 및 추론 대기 시간을 갖춘 효율적인 비디오 생성 모델인 Magic 1-For-1 (Magic141)을 제안합니다. 핵심 아이디어는 간단합니다: 텍스트에서 비디오 생성 작업을 확산 단계 증류를 위해 두 개의 별도로 더 쉬운 작업, 즉 텍스트에서 이미지 생성 및 이미지에서 비디오 생성으로 분해하는 것입니다. 동일한 최적화 알고리즘을 사용하여 이미지에서 비디오 작업이 실제로 텍스트에서 비디오 작업보다 수렴하기 쉽다는 것을 확인합니다. 또한 이미지에서 비디오 (I2V) 모델의 훈련 계산 비용을 줄이기 위해 세 가지 측면에서 최적화 기법을 탐구합니다: 1) 다중 모달 사전 조건 주입을 사용하여 모델 수렴 속도를 높임; 2) 적대적 단계 증류를 적용하여 추론 대기 시간을 단축하고; 3) 매개변수 희소화로 추론 메모리 비용을 최적화합니다. 이러한 기술을 사용하여 3초 내에 5초 길이의 비디오 클립을 생성할 수 있습니다. 테스트 시간 슬라이딩 창을 적용하여 1분 길이의 비디오를 1분 내에 생성할 수 있으며 시각적 품질과 동적 움직임이 크게 향상되어 평균적으로 1초 비디오 클립 생성에 1초 미만이 소요됩니다. 확산 단계 증류 중에 계산 비용과 비디오 품질 사이의 최적의 균형을 찾기 위해 일련의 초기 탐색을 수행하고, 이 모델이 오픈 소스 탐색을 위한 좋은 기반 모델이 될 수 있기를 희망합니다. 코드 및 모델 가중치는 https://github.com/DA-Group-PKU/Magic-1-For-1에서 사용할 수 있습니다.
우리는 전례 없는 규모인 1000억 예제에 대해 비전-언어 모델 사전 훈련의 잠재력을 경험적으로 조사합니다. COCO 캡션과 같은 많은 일반적인 서양 중심의 분류 및 검색 벤치마크에서 이 규모에서 모델 성능이 포화되는 경향을 발견했습니다. 그러나 문화 다양성 작업은 장발 개념을 다루는 웹 데이터의 커버리지 덕분에 1000억 규모에서 더 상당한 이득을 얻습니다. 또한, 저자원 언어에서도 모델의 다국어성을 분석하고 이익을 입증했습니다. 또한, CLIP와 같은 품질 필터 사용과 같이 사전 훈련 데이터셋의 크기를 줄이면 성능을 향상시키는 데 일반적으로 사용되지만, 이는 대규모 데이터셋에서도 표현되는 문화 다양성을 부당하게 줄일 수 있음을 관찰했습니다. 우리의 결과는 전통적인 벤치마크가 잡음이 많은 웹 데이터를 1000억 예제로 확장하는 것에서 큰 이점을 얻지 못할 수 있지만, 이러한 데이터 규모가 진정으로 포괄적인 멀티모달 시스템을 구축하는 데 중요하다는 점을 강조합니다.
일반적으로 스케일링 법칙은 좁은 범위의 고정 하이퍼파라미터 선택을 사용하는 모델 패밀리를 이용하여 적합시킵니다. 본 연구에서는 다양한 구조와 하이퍼파라미터 선택을 사용하여 스케일링 법칙을 연구하고, 이들이 결과적으로 어떤 처방에 영향을 미치는지 강조합니다. 우리 연구의 주요 산물로서, 우리는 지금까지 가장 포괄적인 오픈 소스 스케일링 법칙 데이터셋인 Gemstones을 공개합니다. 이 데이터셋은 20억 개의 파라미터까지 가지는 트랜스포머에서 4000개 이상의 체크포인트로 구성되어 있습니다. 이러한 모델들은 서로 다른 학습률, 쿨다운 일정 및 구조적 형태로 훈련되었습니다. 우리의 체크포인트들은 모델 너비와 깊이의 함수로 언어 모델링 성능을 예측하는 법칙과 같은 스케일링에 대한 더 복잡한 연구를 가능하게 합니다. 우리 모델 스위트의 다양한 측면을 조사함으로써, 스케일링 법칙의 처방이 실험 설계 과정 및 적합 중 사용된 특정 모델 체크포인트에 매우 민감할 수 있다는 것을 발견합니다. 코드: https://github.com/mcleish7/gemstone-scaling-laws
대규모 언어 모델 (LLM)에게 자신의 출력물을 비평하고 개선시키는 방법을 가르치는 것은 시스템을 반복적으로 개선할 수 있는 데 중요하지만, 정확한 판단과 실행 가능한 제안을 제공하는 능력에 근본적으로 제한을 받습니다. 본 연구에서는 코드 생성을 위한 LLM 비평가를 연구하고 Critic Training via Reinforcement Learning (CTRL)이라는 프레임워크를 제안합니다. 이 프레임워크는 비평가 모델을 훈련하여 인간 감독 없이 고정된 생성자 모델에 대한 수정 성능을 극대화하는 피드백을 생성하도록 합니다. 결과는 CTRL로 훈련된 비평가가 기본 및 강력한 생성자 모델 모두에서 통과율을 크게 향상시키고 복합 오류를 완화하는 것을 보여줍니다. 또한 이러한 비평가 모델이 정확한 생성적 보상 모델로 작용하고 반복적인 비평-개정을 통해 테스트 시 스케일링을 가능하게 하며, 어려운 코드 생성 벤치마크에서 최대 106.1%의 상대적 향상을 달성하는 것을 보여줍니다.
DiT 기반 비디오 생성은 놀라운 결과를 이루어내었지만, 기존 모델을 향상시키는 연구는 비교적 미개척된 상태입니다. 본 연구에서는 DiT 기반 생성된 비디오의 일관성과 품질을 향상시키는 데에 대한 훈련이 필요 없는 접근 방식인 Enhance-A-Video를 소개합니다. 핵심 아이디어는 비대각선 시간 주의 분포를 기반으로 프레임 간 상관 관계를 향상시키는 것입니다. 간단한 설계 덕분에, 우리의 방법은 재훈련이나 세밀한 조정 없이 대부분의 DiT 기반 비디오 생성 프레임워크에 쉽게 적용될 수 있습니다. 다양한 DiT 기반 비디오 생성 모델에서, 우리의 방법은 시간적 일관성과 시각적 품질 모두에서 유망한 향상을 보여줍니다. 이 연구가 비디오 생성 향상에 대한 미래 탐구를 일깨우는 데 도움이 되기를 희망합니다.
기초 모델은 자연어 처리 및 인공 지능을 혁신적으로 바꿔놓았으며, 기계가 인간 언어를 이해하고 생성하는 방식을 현저히 향상시켰습니다. 이러한 기초 모델의 성공을 바탕으로, 연구자들은 작은 분자, 물질, 단백질, DNA 및 RNA을 포함한 개별 과학 분야를 위한 기초 모델을 개발해왔습니다. 그러나 이러한 모델들은 일반적으로 격리된 상태에서 훈련되어 다른 과학 분야 간 통합 능력이 부족합니다. 이러한 분야 내 개체들이 모두 순서로 표현될 수 있다는 인식하에, 이들이 "자연의 언어"를 형성하는 시퀀스로 모델을 소개합니다. 이 모델은 과학적 발견을 위해 설계된 시퀀스 기반 과학 기초 모델인 Nature Language Model(NatureLM)을 소개합니다. 여러 과학 분야의 데이터로 사전 훈련된 NatureLM은 다양한 응용 프로그램을 가능하게 하는 통합적이고 다용도 모델을 제공합니다. 이 응용 프로그램에는 다음이 포함됩니다: (i) 텍스트 지침을 사용하여 작은 분자, 단백질, RNA 및 물질을 생성하고 최적화하는 것; (ii) 단백질에서 분자 및 단백질에서 RNA으로의 생성/설계와 같은 교차 영역 생성/설계; (iii) SMILES-to-IUPAC 번역 및 USPTO-50k에서의 역합성과 같은 작업에서 최첨단 성능 달성. NatureLM은 약물 발견(히트 생성/최적화, ADMET 최적화, 합성), 신소재 설계, 그리고 치료용 단백질 또는 뉴클레예티드의 개발을 포함한 다양한 과학적 작업을 위한 유망한 종합주의 접근법을 제공합니다. 우리는 다양한 크기(10억, 80억 및 467억 파라미터)의 NatureLM 모델을 개발하였으며, 모델 크기가 증가함에 따라 성능이 명확히 향상되는 것을 관찰하였습니다.
에이전트 중심 사전 훈련 데이터의 부족으로, LLM 기반 자율 에이전트는 일반적으로 새로운 능력을 도입하면서 강력한 일반화를 유지하는 것이 어려운 복잡한 프롬프팅이나 광범위한 세밀 조정에 의존합니다. 우리는 API 함수 호출, 본질적 추론 및 계획, 환경적 피드백에 적응하는 데 필요한 기본 기능을 강화하기 위해 설계된 첫 번째 대규모 사전 훈련 말뭉치인 Hephaestus-Forge를 소개합니다. Hephaestus-Forge는 76,537개의 API를 포함한 103B 에이전트별 데이터로 구성되어 있으며, API 함수의 지식을 소개하는 도구 문서와 내재적 추론을 강화하기 위한 함수 호출 궤적을 모두 포함하고 있습니다. 효과적인 훈련 프로토콜을 탐구하기 위해 스케일링 법칙을 조사하여 데이터 혼합 비율의 최적 조합을 식별합니다. Hephaestus-Forge에서 계속된 사전 훈련을 통해 Hephaestus는 세 가지 에이전트 벤치마크에서 소규모에서 중규모의 오픈 소스 LLM을 능가하며 상업용 LLM과 경쟁하여 우리의 사전 훈련 말뭉치가 LLM의 기본적인 에이전트 능력을 향상시키고 새로운 작업이나 환경으로의 LLM의 일반화를 입증하는 효과를 보여줍니다.
최근 이미지에서 비디오로 생성하는 방법들은 카메라 궤적이나 물체 움직임과 같은 하나 또는 두 가지 시각적 요소에 대한 제어를 성공적으로 보여주었습니다. 그러나 이러한 방법들은 데이터와 네트워크 효율성의 제한으로 인해 여러 시각적 요소에 대한 제어를 제공할 수 없습니다. 본 논문에서는 카메라 움직임, 물체 움직임, 그리고 조명 방향에 동시에 제어할 수 있는 정확한 이미지에서 비디오로 생성하는 새로운 프레임워크인 VidCRAFT3를 제안합니다. 각 시각적 요소에 대한 제어를 더 잘 분리하기 위해 조명 방향, 텍스트, 이미지를 대칭적으로 통합하는 Spatial Triple-Attention Transformer를 제안합니다. 대부분의 현실 세계 비디오 데이터셋은 조명 주석이 부족하기 때문에 고품질의 합성 비디오 데이터셋인 VideoLightingDirection (VLD) 데이터셋을 구축했습니다. 이 데이터셋은 조명 방향 주석과 다양한 외관의 물체를 포함하여 VidCRAFT3가 강한 빛의 전달과 반사 효과를 효과적으로 처리할 수 있게 합니다. 또한, 카메라 움직임, 물체 움직임, 그리고 조명 방향과 같은 여러 시각적 요소에 대한 주석이 동시에 있는 훈련 데이터가 필요 없도록 하는 세 단계의 훈련 전략을 제안합니다. 벤치마크 데이터셋에서의 광범위한 실험 결과는 VidCRAFT3의 효과적인 비디오 콘텐츠 생성 능력을 입증하며, 제어 정밀도와 시각적 일관성 측면에서 기존 최첨단 방법을 능가합니다. 모든 코드와 데이터는 공개적으로 이용 가능합니다. 프로젝트 페이지: https://sixiaozheng.github.io/VidCRAFT3/.
우리는 Pippo를 제시합니다. Pippo는 단일 캐주얼한 클릭 사진으로부터 사람의 1K 해상도 밀도 높은 회전 영상을 생성할 수 있는 생성 모델입니다. Pippo는 다중 뷰 확산 트랜스포머이며 추가 입력(예: 적합한 매개변수 모델 또는 입력 이미지의 카메라 매개변수)을 필요로하지 않습니다. 우리는 3B 인간 이미지에 대해 캡션 없이 Pippo를 사전 훈련하고 스튜디오에서 촬영된 인간들에 대해 중간 훈련 및 후반 훈련을 실시합니다. 중간 훈련 중에는 스튜디오 데이터셋을 빠르게 흡수하기 위해 저해상도로 여러 (최대 48) 뷰를 노이즈 제거하고 목표 카메라를 얕은 MLP를 사용하여 대략적으로 인코딩합니다. 후반 훈련 중에는 고해상도로 적은 수의 뷰를 노이즈 제거하고 픽셀 정렬된 컨트롤(예: 공간 앵커 및 플러커 레이)을 사용하여 3D 일관된 생성을 가능하게 합니다. 추론 단계에서는 Pippo가 훈련 중에 본 것보다 5배 이상의 뷰를 동시에 생성할 수 있도록 하는 주의 바이어싱 기술을 제안합니다. 마지막으로, 단일 이미지로부터의 다중 뷰 인간 생성에 있어서 Pippo가 기존 작업들을 능가하는 것을 보여주기 위해 개선된 메트릭을 소개합니다.
대형 언어 모델 (LLM)은 종종 공개 벤치마크에서 뛰어난 성과를 보이지만, 이러한 높은 점수는 실제 언어 이해보다는 데이터셋별 표면 단서에 지나치게 의존할 수 있다는 점을 가리킬 수 있습니다. 우리는 Chameleon Benchmark Overfit Detector (C-BOD)를 소개합니다. 이는 벤치마크 프롬프트를 매개변수 변환을 통해 체계적으로 왜곡하고 LLM의 오버피팅을 감지하는 메타평가 프레임워크입니다. 입력을 다시 구사하면서 의미 콘텐츠와 레이블을 보존함으로써, C-BOD는 모델의 성능이 기억된 패턴에 의해 주도되는지 여부를 드러냅니다. 26개의 주요 LLM을 사용하여 MMLU 벤치마크에서 평가한 결과, 우리의 방법은 적은 변형으로 평균 성능 저하율이 2.15%이며, 26개 모델 중 20개가 통계적으로 유의미한 차이를 보였습니다. 특히, 높은 기준 정확도를 가진 모델은 변형에 민감하며, 대형 LLM은 다시 구사에 민감할 가능성이 높아 고정된 프롬프트 패턴에 지나치게 의존할 수 있음을 나타냅니다. 반면, Llama 패밀리 및 낮은 기준 정확도를 가진 모델은 무의미한 성능 저하를 보여주어 표면적인 단서에 대한 의존성이 줄어들었음을 시사합니다. 게다가, C-BOD의 데이터셋 및 모델에 중립적인 설계는 훈련 파이프라인에 쉽게 통합되어 보다 견고한 언어 이해를 촉진할 수 있습니다. 우리의 연구 결과는 커뮤니티에게 리더보드 점수를 넘어서 LLM 평가에서 탄력성과 일반화를 우선시하도록 도전합니다.
검색 모델의 대다수는 쿼리와 문서 사이의 관련성 점수를 생성하기 위해 벡터 내적에 의존합니다. 이는 사용할 수 있는 관련성 점수의 표현력을 자연스럽게 제한합니다. 우리는 새로운 패러다임을 제안합니다. 쿼리를 나타내는 벡터를 생성하는 대신 학습된 관련성 함수 역할을 하는 작은 신경망을 생성합니다. 이 작은 신경망은 문서의 표현을 입력으로 받아 스칼라 관련성 점수를 출력합니다. 작은 신경망을 생성하기 위해 다른 네트워크의 가중치를 생성하는 하이퍼네트워크, 즉 우리가 쿼리 인코더로 사용하는 Hypencoder를 사용합니다. 도메인 내 검색 작업에서의 실험 결과 Hypencoder가 강력한 밀집 검색 모델을 크게 능가하며 재순위 모델 및 크기가 한 단계 큰 모델보다 높은 지표를 보여줍니다. Hypencoder는 도메인 외 검색 작업에도 잘 일반화됨을 입증합니다. Hypencoder의 능력을 평가하기 위해 혀끝 검색 및 지시 따르기 검색 작업을 포함한 일려의 어려운 검색 작업에서 성능 차이가 표준 검색 작업과 비교했을 때 크게 벌어짐을 확인합니다. 더불어, 우리 방법의 실용성을 증명하기 위해 근사 검색 알고리즘을 구현하고 모델이 60밀리초 미만에 880만 건의 문서를 검색할 수 있는 것을 보여줍니다.
광학 문자 인식 (OCR) 기술은 문서 이미지에서 텍스트를 추출하여 효율적인 디지털화와 데이터 검색을 용이하게 합니다. 그러나 복잡한 문서를 처리할 때는 단순히 텍스트를 추출하는 것만으로는 충분하지 않습니다. 이러한 문서를 완전히 이해하기 위해서는 형식, 수식, 표 및 여러 페이지에 걸쳐 여러 블록과 열의 읽기 순서뿐만 아니라 각주와 이미지 캡션과 같은 요소를 감지하기 위한 의미론적 정보를 이해해야 합니다. 이러한 포괄적인 이해는 검색, 문서 질문 응답, 대규모 언어 모델 (LLM) 및 시각 언어 모델 (VLM)의 교육을 위한 데이터 정리와 같은 하류 작업에 중요합니다. 이에 대응하여 우리는 다양한 문서 유형을 처리하도록 명시적으로 설계된 일반 목적의 텍스트 추출 도구 'Eclair'를 소개합니다. 이미지를 제공하면 'Eclair'는 읽기 순서대로 서식이 있는 텍스트를 추출하고 해당 바운딩 박스와 해당 의미론적 클래스를 함께 제공할 수 있습니다. 이러한 혁신적인 기능을 철저히 평가하기 위해 문서 수준 OCR 및 의미론적 분류를 위한 다양한 인간 주석이 달린 벤치마크를 소개합니다. 'Eclair'은 이 벤치마크에서 최첨단 정확도를 달성하며 주요 지표에서 다른 방법을 능가합니다. 게다가 'Eclair'을 확립된 벤치마크에서 평가하여 여러 평가 기준에 걸쳐 그 다재다능함과 강점을 시연합니다.
다중 모달 대규모 언어 모델 (MLLMs)은 비디오가 길어질수록 과도한 시각 토큰이 필요하여 어려움을 겪습니다. 이러한 토큰들은 MLLMs의 컨텍스트 길이를 크게 초과하며, 불필요한 작업과 무관한 장면으로 채워지게 됩니다. 어떻게 샷을 선택할지는 아직 해결되지 않은 중요한 문제입니다: 희소 샘플링은 중요한 세부 정보를 놓칠 위험이 있으며, 철저한 샘플링은 모델을 관련 없는 콘텐츠로 넘쳐나게 하여 비디오를 오해하게 만듭니다. 이 문제를 해결하기 위해 우리는 샷 체인 프롬프팅 (CoS)을 제안합니다. 핵심 아이디어는 샷 선택을 테스트 시간 시각 프롬프트 최적화로 프레임화하여 비디오 이해 의미 작업에 적응적으로 선택된 샷을 최적화하는 것입니다. CoS에는 두 가지 핵심 부분이 있습니다: (1) 가짜 시간 기준을 수행하는 이진 비디오 요약 메커니즘으로, 작업과 관련된 샷을 식별하기 위한 이진 코딩을 발견하고, (2) 이진 코딩을 배치하여 작업과 관련 있는 긍정적인 샷과 관련 없는 부정적인 샷을 쌍으로 만드는 비디오 공동 추론 모듈입니다. 최적화된 샷 선택을 원본 비디오에 임베드하여 긴 비디오 이해를 최적화하기 위해 관련 컨텍스트에 집중할 수 있습니다. 세 가지 기준선과 다섯 데이터셋을 대상으로 한 실험은 CoS의 효과성과 적응성을 입증합니다. 코드는 https://lwpyh.github.io/CoS에서 제공됩니다.
대형 언어 모델 (LLM)은 주요 정보를 정확하게 검색하는 데 어려움을 겪는 것으로 밝혀졌습니다. 이를 해결하기 위해 우리는 Mask-Enhanced Autoregressive Prediction (MEAP)을 제안합니다. 이는 간단하면서도 효과적인 훈련 패러다임으로, Masked Language Modeling (MLM)을 Next-Token Prediction (NTP)에 통합하여 후자의 문맥 내 검색 능력을 향상시킵니다. 구체적으로, MEAP은 먼저 입력 토큰의 소수를 무작위로 마스킹하고, 그런 다음 디코더 전용 Transformer를 사용하여 표준 다음 토큰 예측 자기 회귀를 직접 수행합니다. MEAP은 MLM을 위한 양방향 어텐션 또는 인코더-디코더 아키텍처를 필요로하지 않으며, 사전 훈련 또는 추론 중에 추가 계산 부담이 없습니다. 철저한 실험을 통해 MEAP이 주요 정보 검색 및 장문 맥락 추론 작업에서 NTP보다 현저히 우수한 성능을 보이는 반면 상식적 추론 작업에서는 비슷하거나 더 나은 성과를 거두는 것을 확인했습니다. MEAP의 장점은 지중에서 잃어버린 시나리오에서 놀라운 이점을 보이며, NTP보다 11.77% 포인트 우위를 차지합니다. 우리의 분석은 MEAP의 효과성이 마스킹되지 않은 토큰 집합에 집중함으로써 더 분명한 어텐션 점수를 촉진하는 능력에서 비롯된다는 것을 나타냅니다. 이 메커니즘은 모델이 작업 관련 신호에 집중하고 주변 맥락의 영향을 완화하는 데 도움이 됩니다. 이러한 발견은 MEAP을 대형 언어 모델을 위한 유망한 훈련 패러다임으로 위치시킵니다.
컴퓨터 지원 설계 (CAD)는 다양한 산업 분야에서 필수적입니다. 텍스트 기반 CAD 편집은 CAD 모델을 텍스트 명령에 따라 자동으로 수정하는 것으로, 큰 잠재력을 가지고 있지만 아직 충분히 탐구되지 않았습니다. 기존 방법은 주로 설계 변형 생성이나 텍스트 기반 CAD 생성에 중점을 두고 있으며, 텍스트 기반 제어를 지원하지 않거나 기존 CAD 모델을 제약 조건으로 간과하는 경우가 많습니다. 우리는 텍스트 기반 CAD 편집을 위한 최초의 프레임워크인 CAD-Editor를 소개합니다. 훈련을 위해 정확한 대응을 가진 요구적인 삼쌍 데이터에 대한 도전을 해결하기 위해 자동 데이터 합성 파이프라인을 제안합니다. 이 파이프라인은 설계 변형 모델을 활용하여 원본 및 편집된 CAD 모델 쌍을 생성하고, 이들의 차이를 편집 명령으로 요약하는 대형 비전-언어 모델 (LVLMs)을 활용합니다. 텍스트 기반 CAD 편집의 복합적 성격에 대처하기 위해, 우리는 위치 찾기-채우기 프레임워크를 제안합니다. 이 프레임워크는 작업을 수정이 필요한 영역을 찾기 위해 분해하고, 이러한 영역을 적절한 편집으로 채우는 두 가지 집중된 하위 작업으로 구성됩니다. 대형 언어 모델 (LLMs)은 자연어 이해 및 CAD 지식 능력을 활용하여 두 하위 작업의 백본 역할을 합니다. 실험 결과, CAD-Editor가 양적 및 질적으로 우수한 성능을 달성함을 보여줍니다.
우리는 수학 문제에 대한 자동 형식 증명 생성에서 최첨단 성능을 달성하는 오픈 소스 대형 언어 모델인 Goedel-Prover를 소개합니다. 이 분야의 주요 과제는 형식화된 수학 문장과 증명의 부족이며, 이를 해결하기 위해 다음과 같은 방법을 사용합니다. 우리는 문장 형식화기를 훈련시켜 Numina의 자연어 수학 문제를 형식 언어(Lean 4)로 번역하여 164만 개의 형식적 문장 데이터셋을 작성합니다. 대형 언어 모델(Large Language Models)은 형식적 문장이 원래의 자연어 문제 내용을 정확하게 보존하는지 확인하는 데 사용됩니다. 그런 다음 일련의 증명기를 훈련시킴으로써 형식적인 증명의 대규모 데이터셋을 반복적으로 구축합니다. 각 증명기는 이전 것들이 증명하지 못한 많은 문장을 증명에 성공하며, 이러한 새로운 증명은 다음 증명기의 훈련 세트에 추가됩니다. 최종 증명기는 전체 증명 생성에서 모든 기존 오픈 소스 모델을 능가합니다. miniF2F 벤치마크에서 57.6%의 성공률(Pass@32)을 달성하여, 이전 최고의 오픈 소스 모델보다 7.6% 높습니다. PutnamBench에서 Goedel-Prover는 7개의 문제를 성공적으로 해결(Pass@512)하여 리더보드에서 1위를 차지합니다. 더불어, Lean Workbook 문제에 대해 29.7K개의 형식적인 증명을 생성하여, 이전 작업에서 생성된 15.7K를 거의 두 배로 늘립니다.
시각 모델을 실제로 이해하기 위해서는 그들이 학습한 특징을 해석하는 것뿐만 아니라 이러한 해석을 통제된 실험을 통해 검증해야 합니다. 현재의 접근 방식은 해석 가능한 특징을 제공하지만 인과적 영향을 테스트할 수 있는 능력이 없거나 해석 가능한 컨트롤 없이 모델 편집을 가능하게 합니다. 우리는 이 간극을 메우는 희소 오토인코더(SAE)를 사용한 통합된 프레임워크를 제시하여 인간이 이해할 수 있는 시각적 특징을 발견하고 이를 정밀하게 조작하여 모델 행동에 대한 가설을 테스트할 수 있게 합니다. 최첨단 시각 모델에 우리의 방법을 적용하여, 서로 다른 사전 훈련 목표를 가진 모델들이 학습한 의미론적 추상화에서 주요 차이점을 밝히고 있습니다. 그런 다음 여러 시각 작업에 걸쳐 통제된 개입을 통해 우리의 프레임워크의 실용적 사용법을 시연합니다. SAE가 모델 재훈련 없이 해석 가능한 시각적 특징을 신뢰성 있게 식별하고 조작할 수 있음을 보여주며, 시각 모델 행동을 이해하고 제어하는 강력한 도구를 제공합니다. 프로젝트 웹사이트인 https://osu-nlp-group.github.io/SAE-V에서 코드, 데모 및 모델을 제공합니다.
대형 언어 모델(LLM)에서의 프롬프트 캐싱은 데이터 종속적인 시간 변동을 초래합니다: 캐시된 프롬프트는 캐시되지 않은 프롬프트보다 빨리 처리됩니다. 이러한 시간 차이는 측면 채널 시간 공격의 위험을 초래합니다. 예를 들어, 캐시가 사용자 전체에 걸쳐 공유된 경우, 공격자는 빠른 API 응답 시간에서 캐시된 프롬프트를 식별하여 다른 사용자의 프롬프트에 대한 정보를 알아낼 수 있습니다. 프롬프트 캐싱으로 인해 개인 정보 누출이 발생할 수 있기 때문에 API 제공업체의 캐싱 정책에 대한 투명성이 중요합니다. 이를 위해 우리는 실제 LLM API 제공업체에서 프롬프트 캐싱을 탐지하기 위한 통계적 감사를 개발하고 실시합니다. 우리는 OpenAI를 포함한 일곱 개의 API 제공업체에서 사용자 간 전역 캐시 공유를 감지하여 사용자의 프롬프트에 대한 잠재적인 개인 정보 누출을 확인했습니다. 프롬프트 캐싱으로 인한 시간 변동은 모델 아키텍처에 대한 정보 누출로 이어질 수도 있습니다. 구체적으로, 우리는 OpenAI의 임베딩 모델이 디코더 전용 트랜스포머임을 발견했는데, 이는 이전에 공개되지 않았던 사실입니다.
인간은 새로운 도전에 대처하고 문제를 해결하면서 이전 지식을 재사용하고 기술을 개발하는 데 뛰어나 있습니다. 이 패러다임은 자율 에이전트의 개발에서 점점 더 인기를 얻고 있으며, 이는 인간과 같이 새로운 도전에 대응하여 스스로 진화할 수 있는 시스템을 개발합니다. 그러나 이전 방법들은 새로운 기술을 확장할 때 훈련 효율성이 제한되며 새로운 작업 학습을 용이하게 하는 데 이전 지식을 완전히 활용하지 못하는 문제가 있습니다. 본 논문에서는 에이전트의 능력을 반복적으로 발전시키고 관리 가능한 기술 라이브러리를 유지하면서 새로운 도전에 효율적으로 대응하기 위해 설계된 새로운 프레임워크인 Parametric Skill Expansion and Composition (PSEC)을 제안합니다. 이 라이브러리는 점진적으로 스킬 기본 요소를 통합하여 파라미터 효율적인 파인튜닝에서 플러그 앤 플레이 저랭크 적응 (LoRA) 모듈로 확장 가능하고 유연한 기술 확장을 용이하게 합니다. 이 구조는 또한 서로 다른 기술을 인코딩하는 LoRA 모듈을 병합하여 파라미터 공간에서 직접 기술을 조합할 수 있도록 하여, 기존 기술 간의 공유 정보를 활용하여 새로운 기술을 효과적으로 프로그래밍할 수 있습니다. 이를 기반으로 우리는 새로운 작업을 협력하여 처리하기 위해 동적으로 다양한 기술을 활성화하는 컨텍스트 인식 모듈을 제안합니다. D4RL, DSRL 벤치마크 및 DeepMind Control Suite에서의 결과는 PSEC가 새로운 도전에 효율적으로 대처하고 기술 라이브러리를 확장하여 능력을 발전시키는 데 우수한 능력을 보여준다는 것을 보여줍니다. 프로젝트 웹사이트: https://ltlhuuu.github.io/PSEC/.
대형 언어 모델은 거대한 데이터셋에서의 자가 감독 사전 훈련을 통해 자연어 처리를 혁신적으로 바꿨습니다. 이 성공을 영감으로, 연구자들은 연속적인 오디오를 토큰으로 이산화하여 신경 오디오 코덱을 사용해 이러한 방법을 음성에 적용하는 것을 탐구해 왔습니다. 그러나 기존의 접근 방식은 고 비트율, 의미 또는 음향 정보의 손실, 그리고 이를 모두 포착하려고 할 때 발생하는 다중 코드북 설계에 의존하는 등의 제한 사항이 있습니다. 이는 하위 작업을 위한 구조적 복잡성을 증가시킵니다. 이러한 도전에 대처하기 위해 저희는 FocalCodec을 소개합니다. FocalCodec은 단일 이진 코드북을 활용하여 음성을 0.16에서 0.65 kbps로 압축하는 효율적인 저 비트율 코덱으로, 초점 조절 변조를 기반으로 합니다. FocalCodec은 현재의 최첨단 기술보다 낮은 비트율에서 음성 재합성 및 음성 변환에서 경쟁력 있는 성능을 제공하며, 다국어 음성 및 소음 환경을 효과적으로 처리합니다. 하위 작업에서의 평가 결과, FocalCodec은 충분한 의미 및 음향 정보를 성공적으로 보존하면서 생성 모델링에도 적합합니다. 데모 샘플, 코드 및 체크포인트는 https://lucadellalib.github.io/focalcodec-web/에서 확인할 수 있습니다.
대형 언어 및 시각-언어 모델 (LLMs/VLMs)은 안전 중요 응용 프로그램에서 점점 더 많이 사용되고 있지만, 그들의 불투명한 의사 결정은 위험 평가와 신뢰성을 복잡하게 만듭니다. 불확실성 양자화 (UQ)는 예측 신뢰도를 평가하고 불확실성이 높을 때 삼가게 하는 데 도움이 됩니다. 선형 예측 (CP)는 주요 UQ 방법으로 통계적 보장을 제공하지만 정적 임계값에 의존하여 작업 복잡성과 변화하는 데이터 분포에 적응하지 못해 정확성, 커버리지 및 정보성의 최적의 균형을 이루지 못합니다. 이를 해결하기 위해 우리는 학습 가능한 선형 삼가법을 제안하며, CP에 강화 학습 (RL)을 통합하여 삼가 임계값을 동적으로 최적화합니다. CP 임계값을 적응적 조치로 취급함으로써 우리의 방법은 여러 목표를 균형 있게 유지하며, 신뢰할 수 있는 커버리지를 유지하면서 예측 집합 크기를 최소화합니다. 다양한 LLM/VLM 벤치마크를 통한 포괄적인 평가 결과, 우리의 방법이 최소 모호 분류기 (LAC) 및 적응형 예측 집합 (APS)을 능가하여 정확도를 최대 3.2% 향상시키고, 환각 탐지를 위한 AUROC를 22.19% 향상시키며, 불확실성에 따른 선택적 생성 (AUARC)를 21.17% 향상시키고, 보정 오차를 70%-85% 감소시킵니다. 이러한 개선 사항은 여러 모델과 데이터 세트에 걸쳐 유지되며, 일관되게 90% 커버리지 목표를 충족하여 안전 중요 응용 프로그램에서 신뢰할 수 있는 의사 결정을 위한 더 효과적이고 유연한 솔루션으로 우리의 방법을 확립합니다. 코드는 다음에서 확인할 수 있습니다: {https://github.com/sinatayebati/vlm-uncertainty}.