번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델의 연이은 레이어 간에 발견된 특징을 체계적으로 매핑하는 새로운 접근 방식을 소개합니다. 이전 연구에서 레이어 간 특징 링크를 조사한 것을 확장하면서, 데이터 무관한 코사인 유사성 기술을 사용하여 특정 특징이 각 단계에서 어떻게 지속되고 변형되거나 처음 나타나는지를 추적합니다. 이 방법은 특징 진화의 세부적인 흐름 그래프를 제공하여 세밀한 해석 가능성과 모델 계산에 대한 메커니즘적 통찰력을 제공합니다. 중요한 점은 이러한 레이어 간 특징 맵이 모델 행동을 직접 조절하도록 하는데 어떻게 기여하는지를 시연하며, 선택한 특징을 강조하거나 억제함으로써 텍스트 생성에서 목표 주제 제어를 달성합니다. 우리의 연구 결과는 특징이 전진 패스를 통해 어떻게 발전하는지를 명확히 하는데 그치지 않고 대규모 언어 모델의 투명한 조작을 위한 새로운 수단을 제공하는 인과적이고 레이어 간 해석 가능성 프레임워크의 유용성을 강조합니다.
우리는 Trinh et al. (2024)에서 소개된 AlphaGeometry의 크게 향상된 버전인 AlphaGeometry2를 제시합니다. 이 버전은 이제 올림피아드 기하학 문제를 해결하는 평균 금메달리스트를 능가했습니다. 이를 달성하기 위해 우리는 먼저 원래의 AlphaGeometry 언어를 확장하여 물체의 이동과 각도, 비율, 거리의 선형 방정식을 포함하는 더 어려운 문제에 대처하도록 했습니다. 이것은 다른 추가 요소와 함께 함께하여, AlphaGeometry 언어의 국제 수학 올림피아드 (IMO) 2000-2024 기하학 문제에 대한 커버리지 비율을 66%에서 88%로 현저히 향상시켰습니다. AlphaGeometry2의 검색 과정은 또한 Gemini 아키텍처를 사용하여 언어 모델링을 개선하고, 여러 검색 트리를 결합하는 혁신적인 지식 공유 메커니즘을 통해 크게 향상되었습니다. 심볼릭 엔진 및 합성 데이터 생성에 대한 추가 개선과 함께, 지난 25년 동안 모든 기하학 문제에 대한 AlphaGeometry2의 전체 해결 비율을 84%로 상당히 향상시켰습니다. 이는 이전의 54%와 비교했을 때 큰 향상입니다. AlphaGeometry2는 또한 IMO 2024에서 은메달 수준을 달성한 시스템의 일부였습니다. 마지막으로, 우리는 AlphaGeometry2를 자연어 입력에서 직접 기하학 문제를 신뢰성 있게 해결하는 완전 자동화된 시스템의 일부로 사용하기 위한 진전을 보고합니다.
다중 모달 확산 트랜스포머(DiT)의 풍부한 표현이 고유한 특성을 나타내어 해석 가능성을 향상시키는가? 우리는 DiT 주의층의 표현력을 활용하여 이미지 내 텍스트 개념을 정확히 위치시키는 고품질 중요도 지도를 생성하는 혁신적인 ConceptAttention 방법을 소개합니다. 추가 교육이 필요하지 않은 ConceptAttention은 DiT 주의층의 매개변수를 재활용하여 매우 맥락화된 개념 임베딩을 생성함으로써, DiT 주의층의 출력 공간에서 선형 투영을 수행하면 일반적으로 사용되는 교차 주의 메커니즘보다 훨씬 뚜렷한 중요도 지도를 얻는 주요 발견을 기여합니다. 놀랍게도 ConceptAttention은 심지어 ImageNet-Segmentation 데이터셋과 PascalVOC의 단일 클래스 하위 집합에서 11가지 다른 제로샷 해석 가능성 방법을 능가하는 최첨단 성능을 달성합니다. 우리의 연구는 Flux와 같은 다중 모달 DiT 모델의 표현이 Segmentation과 같은 시각 작업으로 매우 전이 가능하며, CLIP와 같은 다중 모달 기본 모델을 능가하는 것을 처음으로 입증합니다.
언어 모델(Language Model, LM) 능력이 발전함에 따라 인간들에게는 대규모 평가와 감독이 점점 어려워지고 있습니다. 다른 언어 모델이 이러한 작업을 자동화할 수 있는 가능성이 있어서 이를 "AI 감독"이라고 합니다. 저희는 모델 유사성이 AI 감독의 두 측면에 어떻게 영향을 미치는지 연구하며, 모델 실수 중복을 기반으로 한 LM 유사성에 대한 확률적 측정법을 제안합니다. 이 측정법을 사용하여, 먼저 심사관으로서의 LLM(Language Model as a Judge) 점수가 심사관과 유사한 모델을 선호한다는 최근의 자기 우선 결과를 일반화함을 보입니다. 그리고 LM 주석에 대한 훈련을 연구하고, 약한 감독자와 강한 학생 모델 간 보완적 지식이 "약한-강한 일반화"의 이익에서 중요한 역할을 한다는 것을 발견합니다. 모델 능력이 증가함에 따라 그들의 실수를 찾기가 더 어려워지고, AI 감독에 더 의존할 수도 있습니다. 그러나 우리는 우려스러운 추세를 관찰합니다 - 모델 실수가 늘어나는 능력과 함께 더 유사해지고 있어 상호 연관된 실패로부터의 위험을 가리킵니다. 저희의 연구는 특히 AI 감독의 신흥 패러다임에서 모델 유사성의 보고와 교정의 중요성을 강조합니다.
최근 대형 언어 모델의 발전, 특히 GPT-4o를 따르는 것은 더 많은 모달리티를 이해할 수 있는 옴니-모달 모델을 개발하는 데 관심이 증가하도록 만들었습니다. 일부 오픈 소스 대안이 등장했지만, 성능 측면에서 전문화된 단일 모달리티 모델에는 아직 상당한 차이가 있습니다. 본 논문에서는 이미지, 비디오 및 오디오 이해에서 전문화된 대안과 경쟁력 있는 성능을 달성하는 옴니-모달 언어 모델인 Ola를 제안합니다. Ola의 핵심 설계는 언어 모델의 지원 모달리티를 점진적으로 확장하는 진행적 모달리티 정렬 전략에 있습니다. 저희의 훈련 파이프라인은 가장 다른 모달리티인 이미지와 텍스트로 시작하여, 언어와 오디오 지식을 연결하는 음성 데이터 및 모든 모달리티를 연결하는 비디오 데이터를 사용하여 모델의 기술 세트를 점진적으로 확장합니다. 진행적 학습 파이프라인은 또한 크로스-모달리티 정렬 데이터의 상대적으로 작은 크기를 유지하면서 기존의 비전-언어 모델에서 옴니-모달을 개발하는 것을 쉽고 비용 효율적으로 만듭니다. 또한, GPT-4o와 같은 고급 상호 작용 경험을 해제하기 위해, 우리는 스트리밍 음성 생성을 위한 문장별 디코딩 솔루션을 추가로 설계했습니다. 광범위한 실험 결과, Ola가 모든 모달리티에서 기존의 오픈 옴니-모달 LLM을 능가하면서 유사한 크기의 최첨단 전문화된 모델과 높은 경쟁력 있는 성능을 달성했습니다. 우리는 Ola를 미래의 연구를 발전시키기 위한 완전히 오픈된 옴니-모달 이해 솔루션으로 만들고자 합니다. 모델 가중치, 코드 및 데이터는 https://github.com/Ola-Omni/Ola에서 오픈 소스로 제공됩니다.
우리는 실제 세계 비디오에 새롭게 생성된 동적 콘텐츠를 추가하는 방법을 제시합니다. 입력 비디오와 원하는 콘텐츠를 설명하는 간단한 사용자 제공 텍스트 지시를 고려할 때, 우리의 방법은 기존 장면과 자연스럽게 상호 작용하는 동적 객체나 복잡한 장면 효과를 합성합니다. 새로운 콘텐츠의 위치, 외관 및 움직임은 카메라 움직임, 가려짐 및 장면 내 다른 동적 객체와의 상호 작용을 고려하여 원본 영상에 매끄럽게 통합되어 일관되고 현실적인 출력 비디오를 얻습니다. 이를 위해 사전 훈련된 텍스트-비디오 확산 트랜스포머를 활용하여 새로운 콘텐츠를 합성하고 증강된 장면을 자세히 상상하는 데 사전 훈련된 비전 언어 모델을 활용하는 제로샷, 훈련 불필요한 프레임워크를 통해 이루어냅니다. 구체적으로, 우리는 새로운 콘텐츠의 정확한 위치 지정과 매끄러운 통합을 가능하게 하는 주의 메커니즘 내의 특징을 조작하는 새로운 추론 기반 방법을 소개하여 원본 장면의 무결성을 유지합니다. 우리의 방법은 완전히 자동화되어 간단한 사용자 지시만 필요합니다. 우리는 이를 실제 세계 비디오에 적용된 다양한 편집에 대해 효과적으로 증명하며, 카메라 및 객체 움직임을 포함한 다양한 객체와 시나리오를 포괄합니다.
최근 텍스트 기반 대규모 언어 모델(Large Language Models, LLMs)의 발전, 특히 GPT 시리즈와 o1 모델에서는 교육 시간과 추론 시간의 컴퓨팅 확장의 효과를 입증했습니다. 그러나 현재의 최첨단 음성 합성 시스템은 LLMs를 활용하며 종종 다단계로, 별도의 모델(예: LLM 이후의 확산 모델)이 필요하여 교육 또는 테스트 중 특정 모델을 확장할지 결정하기를 복잡하게 만듭니다. 본 연구는 다음과 같은 기여를 합니다: 첫째, 음성 합성을 위한 교육 시간과 추론 시간의 컴퓨팅 확장을 탐구합니다. 둘째, 우리는 음성 합성을 위한 간단한 프레임워크 Llasa를 제안하며, 단일 레이어 벡터 양자화기(VQ) 코덱과 단일 Transformer 아키텍처를 사용하여 Llama와 같은 표준 LLMs와 완전히 일치시킵니다. 실험 결과, Llasa의 교육 시간 컴퓨팅을 확장하면 합성된 음성의 자연스러움이 일관되게 향상되며, 더 복잡하고 정확한 억양 패턴을 생성할 수 있습니다. 또한, 추론 시간 컴퓨팅 확장 관점에서는 검색 중에 검증기로서 음성 이해 모델을 활용하여, 추론 시간 컴퓨팅을 확장하면 샘플링 모드가 특정 검증기의 선호도로 이동되어 감정 표현, 음색 일관성 및 콘텐츠 정확도가 향상됩니다. 게다가, 우리는 TTS 모델(1B, 3B, 8B)과 코덱 모델의 체크포인트와 교육 코드를 공개적으로 제공했습니다.
지시 따르기는 현대의 대형 언어 모델(Large Language Models, LLMs)을 유용한 어시스턴트로 만들었습니다. 그러나 복잡한 지시에 대한 LLMs의 통제의 핵심은 여전히 신비롭습니다. 이는 오픈 소스 커뮤니티에서 훈련된 모델과 선도 기업에서 훈련된 모델 사이에 엄청난 격차가 있기 때문입니다. 이 격차를 좁히기 위해, 우리는 복잡한 지시를 따를 수 있는 LLMs를 오픈 소스 데이터로 구축하기 위한 간단하고 확장 가능한 접근 방식인 UltraIF를 제안합니다. UltraIF는 먼저 현실 세계의 사용자 프롬프트를 더 간단한 쿼리, 제약 조건 및 해당 제약 조건에 대한 평가 질문으로 분해합니다. 그런 다음, 우리는 UltraComposer를 훈련시켜 제약 조건과 관련된 프롬프트를 평가 질문과 함께 구성합니다. 이 프롬프트 컴포저를 사용하면 복잡한 지시를 합성하고 평가 질문으로 응답을 필터링할 수 있습니다. 우리의 실험에서, 우리는 처음으로 LLaMA-3.1-8B-Base를 실제 버전의 지시와 동일하게 맞추는 데 성공했습니다. 이는 5개의 지시 따르기 벤치마크에서 벤치마크 정보 없이 단지 8B 모델을 응답 생성기 및 평가자로 사용한 것입니다. 맞춘 모델은 다른 벤치마크에서도 경쟁력 있는 점수를 달성했습니다. 더욱이, 우리는 UltraIF가 자가 정렬을 통해 LLaMA-3.1-8B-Instruct를 더 개선할 수 있음을 보여주었으며, 이는 해당 방법의 보다 넓은 사용 사례를 촉진합니다. 우리의 코드는 https://github.com/kkk-an/UltraIF에서 사용 가능할 것입니다.
대규모 언어 모델(LLMs)인 OpenAI의 o1과 같은 LLMs는 놀라운 추론 능력을 보여주었습니다. o1은 질문에 답하기 전에 긴 사고 체인(LongCoT)을 생성합니다. LongCoT는 LLMs가 문제를 분석하고 계획을 세우며, 반성하고 효과적으로 되돌아가는 능력을 제공합니다. 이러한 행동들은 LLM이 복잡한 문제를 해결할 수 있도록 돕습니다. o1의 출시 이후, 많은 팀들이 그의 LongCoT와 추론 능력을 복제하려 시도했습니다. 이들은 주로 기존의 LongCoT 능력을 가진 모델들(예: OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview)의 데이터로 지식 증류에 의존하며, 이는 이러한 추론 능력을 체계적으로 개발하는 데 상당한 불확실성을 남깁니다. 데이터 도메인 측면에서, 이러한 연구들은 주로 수학에 초점을 맞추고 있으며, 일부는 코딩을 포함하고 있지만, 그 일반화 능력은 제한되어 있습니다. 본 논문은 LLM의 LongCoT 능력을 o1과 같은 모델이나 비용이 많이 드는 인간 주석 없이 활성화하는 새로운 접근 방식을 소개합니다. 우리는 표준 instruct 모델에서 LongCoT를 부트스트랩하는 방식인 BOLT(부트스트랩 LongCoT)을 사용합니다. BOLT에는 세 단계가 포함되어 있습니다: 1) 표준 instruct 모델에서 문맥 학습을 통한 LongCoT 데이터 부트스트랩; 2) LongCoT 지도 미세 조정; 3) LongCoT 능력을 더욱 세밀하게 개선하기 위한 온라인 훈련. BOLT에서는 부트스트랩 단계에서 몇 가지 문맥 예제만 구축해야 합니다. 실험에서는 10가지 예제를 생성하여 이 방법의 실행 가능성을 증명했습니다. 우리는 LongCoT를 부트스트랩하기 위해 Llama-3.1-70B-Instruct를 사용하고, 다양한 모델 규모(7B, 8B, 70B)에 우리의 방법을 적용했습니다. 우리는 다양한 벤치마크(Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500)에서 높은 성능을 달성했는데, 이는 다양한 작업 해결 및 추론 능력을 평가합니다.
확산 생성 모델의 목표는 그래디언트 점수 매칭을 통해 학습된 분포를 실제 데이터 분포와 일치시키는 것입니다. 그러나 훈련 데이터 품질, 모델링 전략 및 설계의 내재적 한계로 인해 생성된 출력물과 실제 데이터 간에 불가피한 차이가 발생합니다. 이 차이를 줄이기 위해 우리는 약한 모델과 강한 모델 간의 추정된 차이(즉, 약한-강한 차이)를 활용하여 이상적인 모델과 강한 모델 사이의 간격을 근사하는 새로운 프레임워크인 Weak-to-Strong Diffusion (W2SD)을 제안합니다. 약한-강한 차이를 이용한 소음 제거 및 역전파 간 교대 작업을 통해 W2SD가 잠재 변수를 샘플링 궤적을 따라 실제 데이터 분포의 영역으로 이동시킨다는 이론적 이해를 합니다. W2SD는 매우 유연하며 널리 적용 가능하며, 약한-강한 모델 쌍의 전략적 선택(예: DreamShaper vs. SD1.5, MoE의 좋은 전문가 vs. 나쁜 전문가)을 통해 다양한 개선을 가능하게 합니다. 광범위한 실험 결과는 W2SD가 인간의 선호도, 미적 품질 및 프롬프트 준수를 크게 향상시키며, 이미지, 비디오 등 다양한 모달리티, UNet 기반, DiT 기반, MoE 등 다양한 아키텍처 및 벤치마크에서 SOTA 성능을 달성한다는 것을 보여줍니다. 예를 들어, W2SD를 적용한 Juggernaut-XL은 HPSv2에서 원래 결과보다 최대 90%의 승률을 향상시킬 수 있습니다. 게다가, W2SD에 의해 달성된 성능 향상은 추가적인 계산 부담을 크게 상회하며, 다양한 약한-강한 차이로부터의 누적 개선은 실용성과 배포 가능성을 더욱 확고히 합니다.
대규모 언어 모델의 놀라운 능력에도 불구하고, 그들의 계속되는 확장은 중요한 도전에 직면하고 있습니다: 고품질 사전 훈련 데이터의 부족. 모델 구조가 계속 발전하는 반면, 자연어 데이터는 확장하기 어려워합니다. 이 병목 현상을 극복하기 위해 우리는 기존 말뭉치에서 다양하고 맥락이 풍부한 사전 훈련 데이터를 체계적으로 합성하는 MAssive Genre-Audience~(MAGA) 재정렬 방법을 제안합니다. 본 연구는 세 가지 주요 기여를 합니다: (1) 우리는 가벼우면서 확장 가능한 사전 훈련 말뭉치 확장 방법인 MAGA 재정렬 방법을 제안하고, 770B 토큰의 MAGACorpus를 구축합니다. (2) 우리는 다양한 데이터 예산 확장 전략으로 MAGACorpus를 평가하여, 다양한 모델 크기(134M-13B)에서 일관된 개선을 보여주며, 차세대 대규모 합성 사전 훈련 언어 모델의 필요성을 확립합니다. (3) 포괄적인 분석을 통해 우리는 합성 훈련 붕괴에 대한 프롬프트 엔지니어링의 영향을 조사하고, 검증 손실을 사용한 기존 붕괴 탐지 메트릭의 한계를 밝혀냅니다. 우리의 연구는 MAGA가 품질을 유지하면서 훈련 데이터셋을 상당히 확장할 수 있으며, 데이터 제한을 넘어 모델을 확장하는 신뢰할 수 있는 경로를 제공합니다.
최근 연구에서는 복잡한 문제 해결을 위해 대형 언어 모델 다중 에이전트 시스템을 활용하면서 구축에 필요한 수동 노력을 줄이려고 노력하고, 자동화된 에이전트 워크플로 최적화 방법의 개발을 촉진하고 있습니다. 그러나 기존 방법은 표현 제한, 적응성 부족, 이산 최적화 기술에 의존할 때 확장성이 떨어지는 등의 이유로 융통성이 떨어집니다. 저희는 ScoreFlow를 통해 이러한 도전에 대처합니다. ScoreFlow는 연속 공간에서 효율적인 그래디언트 기반 최적화를 활용하는 간단하면서도 고성능의 프레임워크입니다. ScoreFlow는 양적 피드백을 고려하는 직접 선호도 최적화 방법의 새로운 변형인 Score-DPO를 통합합니다. 질문 응답, 코딩, 수학적 추론을 포괄하는 여섯 가지 벤치마크에서 ScoreFlow는 기존 기준선 대비 8.2% 향상을 달성합니다. 더불어 더 낮은 추론 비용으로 더 큰 모델보다 작은 모델이 더 우수한 성과를 거두도록 돕습니다. 프로젝트: https://github.com/Gen-Verse/ScoreFlow
본 논문은 이미지에서 비디오를 생성하는 맥락에서 사용자가 시네마틱 비디오 샷을 디자인할 수 있는 방법을 제시합니다. 필름 제작의 중요한 측면인 샷 디자인은 장면 내에서 카메라 이동과 물체 움직임을 세심하게 계획하는 것을 포함합니다. 그러나 현대 이미지에서 비디오를 생성하는 시스템에서 직관적인 샷 디자인을 가능하게 하는 것은 두 가지 주요 도전점을 제시합니다. 첫째, 사용자 의도를 효과적으로 포착하는 것인데, 여기서 카메라 이동과 장면 내 물체 움직임이 함께 명시되어야 합니다. 둘째, 비디오 확산 모델이 이미지 애니메이션을 합성하는 데 효과적으로 활용할 수 있는 움직임 정보를 표현하는 것입니다. 이러한 도전에 대응하기 위해 우리는 MotionCanvas를 소개합니다. 이 방법은 사용자 주도 제어를 이미지에서 비디오 (I2V) 생성 모델에 통합하여 사용자가 장면을 고려한 방식으로 물체와 카메라 움직임을 제어할 수 있게 합니다. 고전적인 컴퓨터 그래픽스와 현대적인 비디오 생성 기술의 통찰력을 연결함으로써, 우리는 비용이 많이 드는 3D 관련 훈련 데이터가 필요하지 않은 I2V 합성에서 3D 인식 움직임 제어 능력을 증명합니다. MotionCanvas는 사용자가 장면 내 움직임 의도를 직관적으로 묘사하고, 비디오 확산 모델을 위한 시공간 움직임 조건 신호로 변환합니다. 우리의 방법의 효과를 다양한 실제 이미지 콘텐츠와 샷 디자인 시나리오에서 입증하여, 디지털 콘텐츠 제작의 창의적인 작업 흐름을 향상시키고 다양한 이미지 및 비디오 편집 응용 프로그램에 적응할 수 있는 잠재력을 강조합니다.
인간 동작 생성 및 편집은 컴퓨터 그래픽스 및 비전의 주요 구성 요소입니다. 그러나 이 분야의 현재 접근 방식은 특정 작업에 맞춘 격리된 솔루션을 제공하는 경향이 있어 실제 응용 프로그램에 비효율적이고 비실용적일 수 있습니다. 동작 관련 작업을 통합하려는 노력이 있었지만, 이러한 방법은 단순히 다른 모달리티를 조건으로 사용하여 동작 생성을 안내하는 것뿐입니다. 결과적으로 이러한 방법은 편집 기능, 세밀한 제어, 그리고 작업 간 지식 공유를 돕지 못합니다. 이러한 제한 사항을 해결하고 인간 동작 생성 및 편집을 처리할 수 있는 다목적 통합 프레임워크를 제공하기 위해 우리는 새로운 패러다임인 Motion-Condition-Motion을 소개합니다. 이는 소스 동작, 조건 및 대상 동작이라는 세 가지 개념을 사용하여 다양한 작업을 통합적으로 정의할 수 있게 합니다. 이 패러다임을 기반으로 우리는 소스 동작에서 대상 동작으로의 매핑을 학습하기 위해 정정된 플로우를 통합한 통합 프레임워크인 MotionLab을 제안합니다. MotionLab에서는 1) MotionFlow Transformer를 도입하여 작업 특정 모듈 없이 조건부 생성 및 편집을 향상시키고; 2) 소스 동작과 대상 동작 사이의 시간 동기화를 보장하기 위한 Aligned Rotational Position Encoding; 3) 작업 지정 지시 모듈레이션; 그리고 4) 효과적인 다중 작업 학습 및 작업 간 지식 공유를 위한 Motion Curriculum Learning을 소개합니다. 특히, 우리의 MotionLab은 인간 동작에 대한 다양한 벤치마크에서 유망한 일반화 능력과 추론 효율성을 보여줍니다. 우리의 코드 및 추가 비디오 결과물은 다음 링크에서 확인할 수 있습니다: https://diouo.github.io/motionlab.github.io/.
대형 언어 모델 (LLM)은 다양한 작업에서 상당한 능력을 보여주었으며, 실제 성능은 종종 프롬프트 디자인에 의해 결정됩니다. 최근 연구는 프롬프트 콘텐츠를 최적화하는 데 초점을 맞추었지만, 중요하지만 종종 간과되는 프롬프트 형식의 역할은 체계적으로 조사되지 않았습니다. 본 논문에서는 콘텐츠-형식 통합 프롬프트 최적화 (CFPO)를 소개합니다. CFPO는 콘텐츠와 형식을 함께 최적화하는 혁신적인 방법론으로, 반복적인 세밀화 과정을 통해 작동합니다. CFPO는 자연어 변이를 활용하여 콘텐츠 변형을 탐색하고, 다양한 형식 옵션을 체계적으로 평가하는 동적 형식 탐색 전략을 채택합니다. 다양한 작업과 오픈 소스 LLM을 통한 광범위한 평가 결과, CFPO가 콘텐츠만을 최적화하는 방법에 비해 성능 향상을 입증하였습니다. 이는 통합된 콘텐츠-형식 최적화의 중요성을 강조하며, LLM 성능 향상을 위한 실용적이고 모델에 중립적인 접근 방식을 제시합니다. 코드는 https://github.com/HenryLau7/CFPO에서 제공될 예정입니다.
대형 언어 모델이 현실 세계 응용프로그램을 점점 주도함에 따라, 그것들을 인간의 가치와 조화롭게 만드는 것이 중요해집니다. 인간 피드백으로부터 강화 학습 (RLHF)은 주요 기술로 부상하였으며, 오라클 인간 가치에 접근할 수 없을 때 선호 데이터를 보상 모델로 변환합니다. 실제로 RLHF는 대부분 근사 보상 모델에 의존하는데, 이는 정책을 일관되게 인간의 가치를 최대화하도록 이끌지 못할 수 있습니다. 우리는 정렬된 피드백을 위한 정책 보간 학습 (PILAF)이라는 새로운 응답 샘플링 전략을 제안합니다. 이는 명시적으로 선호 학습을 오라클 보상을 최대화하는 것과 조화시킴으로써 이루어집니다. PILAF는 이론적으로 기초를 두고 있으며, 최적화 및 통계적 관점에서 최적성을 보여줍니다. 이 방법은 구현하기 쉽고, 피드백 큐레이션이 중요한 반복 및 온라인 RLHF 환경에서 강력한 성능을 나타냅니다.
우리는 3차원 기하학과 동적 인식을 통합한 혁신적인 비디오 생성 프레임워크를 제안합니다. 이를 위해 2D 비디오에 3D 점 궤적을 추가하고 픽셀 공간에서 정렬합니다. 이러한 결과로 얻어진 3D 인식 비디오 데이터 세트, PointVid,은 잠재 확산 모델을 세밀하게 조정하여 2D 객체를 3D 직교 좌표로 추적할 수 있게 합니다. 이를 기반으로 비디오 내 객체의 모양과 움직임을 규제하여 비물리적 변형과 같은 원치 않는 아티팩트를 제거합니다. 결과적으로 생성된 RGB 비디오의 품질을 향상시키고 현재의 비디오 모델에서 주로 나타나는 객체 변형과 같은 일반적인 문제를 완화합니다. 우리의 3D 추가 및 규제를 통해 우리 모델은 3D 정보가 필수적인 작업 지향 비디오와 같은 접촉이 많은 시나리오를 처리할 수 있습니다. 이러한 비디오는 고체물의 복잡한 상호작용을 포함하며, 여기서 3D 정보는 변형과 접촉을 인식하는 데 필수적입니다. 더 나아가, 우리 모델은 이동 객체의 3D 일관성을 촉진하고 모양과 움직임의 급격한 변화를 줄이는 것을 통해 비디오 생성의 전반적인 품질을 향상시킵니다.
대형 언어 모델 (LLM)은 차트 질의응답 작업을 수행할 수 있지만 종종 확인되지 않은 환각적인 응답을 생성합니다. 기존의 답변 속성 할당 방법은 시각-의미적 맥락의 제한, 복잡한 시각-텍스트 정렬 요구 사항 및 복잡한 레이아웃을 횡단하는 경계 상자 예측의 어려움으로 인해 소스 차트에 응답을 근거 지을 때 어려움을 겪습니다. 우리는 차트 이미지 내에서 지원 증거를 식별함으로써 세밀한 경계 상자 인용을 제공하는 다중 에이전트 프레임워크인 ChartCitor를 제시합니다. 시스템은 LLM 에이전트들을 조율하여 차트-테이블 추출, 응답 재구성, 테이블 보강, 사전 필터링 및 재랭킹을 통한 증거 검색, 그리고 테이블-차트 매핑을 수행합니다. ChartCitor는 다양한 차트 유형에서 기존의 기준선을 능가합니다. 질적 사용자 연구는 ChartCitor가 LLM 지원 차트 QA의 설명 가능성을 향상시킴으로써 사용자들의 Generative AI에 대한 신뢰를 증가시키고 전문가들이 더 생산적일 수 있도록 돕는다는 것을 보여줍니다.
우리는 고품질 데이터 및 평가를 생성하기 위해 스케일링 로봇 학습에 Heterogeneous Masked Autoregression (HMA)를 제안합니다. 상호작용하는 비디오 세계 모델 및 정책을 구축하는 것은 다양한 설정을 다루는 동안 실시간으로 실행되는 계산 효율성을 유지하는 도전 때문에 어렵습니다. HMA는 다양한 로봇 구현체, 도메인 및 작업에서의 관측 및 행동 순서로부터 이질적 사전 훈련을 사용합니다. HMA는 비디오 예측을 위해 양자화된 또는 부드러운 토큰을 생성하기 위해 마스크된 자기회귀를 사용합니다. \ourshort는 이전 로봇 비디오 생성 모델보다 시각적 충실도와 조절 가능성이 더 뛰어나며 실제 세계에서 15배 빠른 속도로 실행됩니다. 사후 훈련 후 이 모델은 정책을 평가하고 합성 데이터를 생성하기 위해 저수준 액션 입력으로부터 비디오 시뮬레이터로 사용할 수 있습니다. 자세한 내용은 다음 링크를 참조하십시오: https://liruiw.github.io/hma.
과학적 데이터 시각화는 원시 데이터를 이해할 수 있는 시각적 표현으로 변환하는 데 중요하며, 패턴 인식, 예측 및 데이터 기반 통찰력 제시를 가능하게 합니다. 그러나 초보 사용자들은 적절한 도구 선택의 복잡성과 시각화 기술 습득의 어려움으로 인해 종종 어려움을 겪습니다. 대형 언어 모델(Large Language Models, LLMs)은 최근 코드 생성을 지원하는 데 잠재력을 보여주었지만, 정확성에 어려움을 겪고 반복적 디버깅이 필요합니다. 본 논문에서는 정확한 과학적 시각화 생성을 자동화하기 위한 혁신적인 다중 에이전트 프레임워크인 PlotGen을 제안합니다. PlotGen은 복수의 LLM 기반 에이전트를 조율하는데, 이에는 복잡한 사용자 요청을 실행 가능한 단계로 분해하는 쿼리 계획 에이전트, 의사 코드를 실행 가능한 Python 코드로 변환하는 코드 생성 에이전트, 그리고 데이터 정확성, 텍스트 레이블 및 시각적 정확성을 자가 반성을 통해 생성된 플롯의 다중 모달 LLM을 활용하여 반복적으로 개선하는 숫자 피드백 에이전트, 어휘 피드백 에이전트, 시각적 피드백 에이전트가 포함됩니다. 광범위한 실험 결과, PlotGen이 강력한 기준선을 능가하며 MatPlotBench 데이터셋에서 4-6%의 성능 향상을 달성하여 LLM이 생성한 시각화에 대한 사용자 신뢰를 향상시키고, 플롯 오류에 대한 디버깅 시간을 줄여 초보자의 생산성을 향상시킵니다.
대형 언어 모델(LLM)의 등장은 자동 코드 생성 분야를 크게 발전시켰습니다. LLM은 프로그래밍 언어의 구문, 의미 및 사용 패턴을 학습하기 위해 대규모이고 다양한 데이터셋에 의존합니다. 저자원 언어(즉, 훈련 데이터가 부족한 특정 프로그래밍 언어를 가리키는)의 경우, 이러한 데이터의 제한된 가용성으로 인해 모델이 효과적으로 일반화하는 데 어려움을 겪어 성능이 떨어지는 경우가 많습니다. 이러한 이유로 이러한 성능 차이를 줄일 수 있는 기술에 대한 탐구가 있습니다. 저자원 언어에서 LLM의 성능을 향상시키는 여러 접근 방식의 효과를 조사한 경험적 연구를 제시합니다. 이 방식은 다음과 같습니다: (i) 훈련 데이터의 부족으로 크기가 제한된 고전적인 미세 조정; (ii) 저자원 언어에 대한 추가 정보를 제공하기 위해 설계된 프롬프트를 사용하는 인컨텍스트 학습의 세 가지 변형(예: 대상 언어의 기능을 보여주는 퓨샷 예제); 그리고 (iii) 고-저자원 언어 간 번역 방법을 모델에 가르치는 사전 훈련 목표. 우리 연구의 맥락은 두 가지 저자원 언어(R 및 Racket)와 다양한 아키텍처와 크기를 가진 여섯 개의 LLM입니다. 결과는 작은 LLM의 경우 미세 조정이 일반적으로 최선의 선택인 것으로 나타났습니다. 아마도 작은 데이터셋이 제한된 매개변수를 훈련하는 데 충분하기 때문일 것입니다. 모델의 크기가 커질수록 인컨텍스트 학습이 더욱 효과적이며 안전하고 경제적인 선택이 됩니다(즉, 항상 도움이 되지만 다양한 정도로). 그러나 매우 큰 LLM은 미세 조정을 수행할 때 저자원 언어에서 성능이 저하될 수 있습니다. 아마도 가중치를 효과적으로 업데이트하기에 충분한 데이터가 부족하기 때문일 것입니다.
다양한 안전 조정 노력에도 불구하고 대형 언어 모델(LLMs)은 유해한 행동을 유도하는 탈옥 공격에 취약한 상태로 남아 있다. 기존 연구들은 주로 기술 전문 지식이 필요한 공격 방법에 초점을 맞추었지만, 두 가지 중요한 질문이 미개척된 채 남아 있다: (1) 탈옥 응답이 실제로 일반 사용자가 유해한 행동을 수행하는 데 유용한가? (2) 보다 일반적이고 간단한 인간-LLM 상호 작용에서 안전 취약점이 존재하는가? 본 논문에서는 LLM 응답이 유해한 행동을 가장 효과적으로 용이하게 하는 방법을 증명하며, 이는 다중 단계, 다국어 상호 작용에서 쉽게 유발되는 두 가지 속성인 실행 가능성과 정보성이다. 이 통찰력을 활용하여 우리는 유해한 행동을 가능하게 하는 LLM 응답의 효과를 측정하는 탈옥 지표인 HarmScore와 간단한 다중 단계, 다국어 공격 프레임워크인 Speak Easy를 제안한다. 특히, Speak Easy를 직접 요청 및 탈옥 기준에 통합함으로써, 네 가지 안전 벤치마크에서 오픈 소스 및 소유 LLM에서 공통적으로 Attack Success Rate에서 평균 절대 증가율 0.319 및 HarmScore에서 0.426의 증가를 확인하였다. 우리의 연구는 중요하지만 종종 간과되는 취약점을 밝혀냄으로써, 악의적 사용자가 유해한 의도로 일반적인 상호 작용 패턴을 쉽게 악용할 수 있다는 것을 보여준다.