번역이 포함된 일일 선별된 AI 연구 논문
사용자 인터페이스(UI) 디자인을 프론트엔드 코드로 자동 변환하는 것은 소프트웨어 개발 속도를 가속화하고 디자인 워크플로우를 민주화하는 데 있어 상당한 잠재력을 가지고 있다. 최근의 대규모 언어 모델(LLM)들이 텍스트-코드 생성에서 진전을 보여왔지만, 많은 기존 접근법들은 자연어 프롬프트에만 의존하여 공간적 레이아웃과 시각적 디자인 의도를 포착하는 데 한계가 있다. 반면, 실제 UI 개발은 본질적으로 다중 모드(multimodal)로 이루어지며, 종종 시각적 스케치나 목업에서 시작된다. 이러한 격차를 해결하기 위해, 우리는 UI-to-코드 생성을 세 가지 해석 가능한 단계(grounding, planning, generation)로 수행하는 모듈형 다중 에이전트 프레임워크를 소개한다. Grounding 에이전트는 시각-언어 모델을 사용하여 UI 컴포넌트를 감지하고 라벨링하며, planning 에이전트는 프론트엔드 엔지니어링 사전 지식을 활용하여 계층적 레이아웃을 구성하고, generation 에이전트는 적응형 프롬프트 기반 합성을 통해 HTML/CSS 코드를 생성한다. 이 설계는 종단간(end-to-end) 블랙박스 방법보다 견고성, 해석 가능성, 정확도를 향상시킨다. 더 나아가, 우리는 이 프레임워크를 확장하여 대규모 이미지-코드 쌍을 자동으로 생성하는 확장 가능한 데이터 엔진으로 발전시켰다. 이러한 합성 예제를 사용하여 오픈소스 VLM을 미세 조정하고 강화함으로써 UI 이해와 코드 품질에서 상당한 향상을 이끌어냈다. 광범위한 실험을 통해 우리의 접근법이 레이아웃 정확도, 구조적 일관성, 코드 정확성에서 최첨단 성능을 달성함을 입증했다. 우리의 코드는 https://github.com/leigest519/ScreenCoder에서 공개적으로 이용 가능하다.
본 보고서에서는 다양한 사용 사례에서 높은 성능과 효율성을 위해 최적화된 하이브리드 아키텍처 설계를 특징으로 하는 새로운 대규모 언어 모델(LLM) 시리즈인 Falcon-H1을 소개한다. 이전의 Transformer 또는 Mamba 아키텍처만으로 구축된 Falcon 모델과 달리, Falcon-H1은 Transformer 기반의 어텐션 메커니즘과 장기 컨텍스트 메모리 및 계산 효율성에서 우수한 성능을 보이는 상태 공간 모델(SSM)을 병렬적으로 결합한 하이브리드 접근 방식을 채택하였다. 모델 설계, 데이터 전략, 훈련 역학을 체계적으로 재검토하며, 해당 분야의 기존 관행에 도전하였다. Falcon-H1은 0.5B, 1.5B, 1.5B-deep, 3B, 7B, 34B 파라미터 규모의 기본 및 지시 튜닝 변형을 포함한 다양한 구성으로 출시되었다. 양자화된 지시 튜닝 모델도 제공되며, Hugging Face Hub에서 총 30개 이상의 체크포인트를 확인할 수 있다. Falcon-H1 모델은 최첨단 성능과 탁월한 파라미터 및 훈련 효율성을 보여준다. 플래그십 모델인 Falcon-H1-34B는 Qwen3-32B, Qwen2.5-72B, Llama3.3-70B와 같은 70B 규모의 모델을 적은 파라미터와 데이터로 사용하면서도 동등하거나 더 나은 성능을 달성한다. 더 작은 모델들도 유사한 경향을 보인다: Falcon-H1-1.5B-Deep은 현재 선두를 달리는 7B-10B 모델들과 경쟁력이 있으며, Falcon-H1-0.5B는 2024년의 일반적인 7B 모델과 비슷한 성능을 보인다. 이러한 모델들은 추론, 수학, 다국어 작업, 지시 수행, 과학 지식 등 다양한 분야에서 뛰어난 성능을 발휘한다. 최대 256K 컨텍스트 토큰과 18개 언어를 지원하는 Falcon-H1은 광범위한 응용 분야에 적합하다. 모든 모델은 허용적 오픈소스 라이선스로 출시되어, 접근 가능하고 영향력 있는 AI 연구에 대한 우리의 약속을 강조한다.
3D 창작은 항상 인간만의 독특한 강점으로 여겨져 왔으며, 이는 우리의 눈, 마음, 손을 이용해 물체를 해체하고 재조립할 수 있는 능력에서 비롯됩니다. 그러나 현재의 3D 디자인 도구들은 이러한 자연스러운 과정을 재현하는 데 어려움을 겪고 있으며, 상당한 예술적 전문성과 수작업을 요구합니다. 본 논문은 BANG이라는 새로운 생성적 접근 방식을 소개하며, 이는 3D 생성과 추론을 연결하여 직관적이고 유연한 부위 수준의 3D 객체 분해를 가능하게 합니다. BANG의 핵심은 "생성적 폭발 동역학(Generative Exploded Dynamics)"으로, 입력된 기하학적 구조에 대해 부드러운 폭발 상태 시퀀스를 생성하며, 부위를 점진적으로 분리하면서도 기하학적 및 의미론적 일관성을 유지합니다. BANG은 사전 훈련된 대규모 잠재 확산 모델을 활용하며, 경량의 폭발 뷰 어댑터를 통해 폭발 동역학에 맞게 미세 조정되어 분해 과정을 정밀하게 제어할 수 있습니다. 또한, 시간적 주의 모듈을 통합하여 시간에 걸친 부드러운 전환과 일관성을 보장합니다. BANG은 경계 상자 및 표면 영역과 같은 공간적 프롬프트를 통해 제어를 강화하여 사용자가 어떤 부위를 어떻게 분해할지 지정할 수 있게 합니다. 이러한 상호작용은 GPT-4와 같은 다중 모델 모델로 확장될 수 있으며, 더 직관적이고 창의적인 워크플로우를 위한 2D-to-3D 조작을 가능하게 합니다. BANG의 기능은 상세한 부위 수준의 기하학적 구조 생성, 기능적 설명과 부위의 연관, 부위 인식 3D 창작 및 제조 워크플로우 촉진까지 확장됩니다. 또한, BANG은 3D 프린팅 분야에서도 응용 가능하며, 쉽게 인쇄하고 재조립할 수 있는 분리 가능한 부위를 생성합니다. 본질적으로, BANG은 상상력에서 출발한 개념을 상세한 3D 자산으로 원활하게 변환하며, 인간의 직관과 공명하는 새로운 창작 관점을 제공합니다.
강화 학습은 대규모 언어 모델의 추론 능력을 향상시키는 데 있어 그 효과성을 입증해 왔습니다. 최근 연구들은 이러한 패러다임을 점차적으로 다중 모달 추론 작업으로 확장하고 있습니다. 다중 모달 작업의 본질적인 복잡성과 다양성, 특히 의미론적 내용과 문제 구성 측면에서 기존 모델들은 다양한 도메인과 난이도에 걸쳐 불안정한 성능을 보이는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 다단계 점진적 커리큘럼 강화 학습(PCuRL) 프레임워크를 통해 훈련된 고급 다중 모달 추론 모델인 VL-Cogito를 제안합니다. PCuRL은 점차적으로 난이도가 증가하는 작업을 통해 모델을 체계적으로 안내함으로써, 다양한 다중 모달 상황에서의 추론 능력을 크게 향상시킵니다. 이 프레임워크는 두 가지 주요 혁신을 도입합니다: (1) 온라인 난이도 소프트 가중치 메커니즘으로, 연속적인 강화 학습 단계에서 훈련 난이도를 동적으로 조정하며; (2) 동적 길이 보상 메커니즘으로, 모델이 작업 복잡도에 따라 추론 경로 길이를 적응적으로 조절하도록 유도하여 추론 효율성과 정확성 사이의 균형을 맞춥니다. 실험 평가 결과, VL-Cogito는 수학, 과학, 논리, 일반 이해 등 주류 다중 모달 벤치마크에서 기존의 추론 중심 모델들을 꾸준히 따라가거나 능가하는 성능을 보여, 우리의 접근 방식의 효과성을 입증했습니다.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pretraining, CLIP)은 제로샷 분류, 검색부터 다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 인코더까지 지원하는 인기 있는 기초 모델이다. CLIP은 영어권의 수십억 규모 이미지-텍스트 쌍으로 성공적으로 학습되었지만, 전 세계 웹 데이터로부터의 학습을 더 확장하는 것은 여전히 도전적이다: (1) 비영어권 데이터를 처리할 수 있는 큐레이션 방법이 부재하며, (2) 기존의 다국어 CLIP의 영어 성능이 영어 전용 버전보다 낮은, 즉 대형 언어 모델(LLMs)에서 흔히 나타나는 "다국어의 저주"가 존재한다. 본 논문에서는 전 세계 웹 규모의 이미지-텍스트 쌍으로 처음부터 CLIP을 학습하는 첫 번째 레시피인 MetaCLIP 2를 소개한다. 이러한 발견을 일반화하기 위해, 위의 도전 과제를 해결하기 위해 필요한 최소한의 변경으로 엄격한 절제 실험을 수행하고, 영어와 비영어권 데이터로부터 상호 이익을 얻을 수 있는 레시피를 제시한다. 제로샷 ImageNet 분류에서 MetaCLIP 2 ViT-H/14는 영어 전용 버전보다 0.8%, mSigLIP보다 0.7% 우수한 성능을 보였으며, CVQA에서 57.4%, Babel-ImageNet에서 50.2%, XM3600에서 64.3%의 이미지-텍스트 검색 성능을 달성하며 시스템 수준의 혼란 요인(예: 번역, 특수 아키텍처 변경) 없이 다국어 벤치마크에서 새로운 최첨단 기술을 설정했다.
대형 언어 모델(LLMs)은 디코딩 과정에서 특히 장문 맥락 추론 작업에서 하드웨어 효율성이 낮은 문제를 겪습니다. 본 논문은 디코딩 비용을 최소화하기 위해 하드웨어 인식 모델-시스템 공동 설계로 최적화된 321B 파라미터의 시각적 언어 모델(VLM)인 Step-3를 소개합니다. Step-3는 두 가지 주요 차원에서 혁신을 이루었습니다: (1) KV 캐시 크기와 계산량을 크게 줄이면서도 높은 어텐션 표현력을 유지하는 새로운 다중 행렬 분해 어텐션(MFA) 메커니즘, 그리고 (2) 어텐션과 피드포워드 네트워크(FFN) 레이어를 전문화된 하위 시스템으로 분리하는 분산 추론 시스템인 어텐션-FFN 분리(AFD). 이 공동 설계는 전례 없는 비용 효율성을 달성합니다: Step-3는 DeepSeek-V3 및 Qwen3 MoE 235B와 같은 모델에 비해 이론적 디코딩 비용을 크게 줄이며, 특히 더 긴 맥락에서 그 이점이 더욱 두드러집니다. Step-3는 토큰당 38B 파라미터를 활성화하면서도(DeepSeek-V3 및 Qwen3 MoE 235B보다 많음) 낮은 비용을 달성하며, 하드웨어에 맞춘 어텐션 산술 강도, MoE 희소성, 그리고 AFD가 비용 효율성에 중요한 요소임을 입증합니다. 우리는 DeepSeek-V3와 유리한 시나리오에서 직접 비교를 수행했습니다. Hopper GPU에서의 구현은 50ms TPOT SLA(4K 맥락, FP8, MTP 없음) 조건에서 GPU당 최대 4,039 토큰/초의 디코딩 처리량을 달성했습니다. 이는 동일한 설정에서 DeepSeek-V3의 2,324 토큰/초보다 높으며, LLM 디코딩에 대한 새로운 파레토 프론티어를 설정합니다.
항공 이미지에서 차량을 탐지하는 것은 교통 모니터링, 도시 계획, 방위 정보 등 다양한 분야에서 중요한 과제입니다. 딥러닝 기법은 이러한 응용 분야에서 최첨단(SOTA) 성능을 제공해 왔습니다. 그러나 한 지역의 데이터로 훈련된 모델이 다른 지역에 효과적으로 일반화하지 못하는 문제가 발생합니다. 환경 조건, 도시 구조, 도로 네트워크, 차량 유형, 이미지 획득 파라미터(예: 해상도, 조명, 각도) 등의 변동성은 도메인 변화를 초래하여 모델 성능을 저하시킵니다. 본 논문은 생성형 AI를 활용하여 고품질 항공 이미지와 해당 레이블을 합성함으로써 데이터 증강을 통해 탐지기 훈련을 개선하는 새로운 방법을 제안합니다. 주요 기여는 미세 조정된 잠재 확산 모델(LDMs)을 활용한 다단계, 다중 모달 지식 전이 프레임워크를 개발하여 소스와 타겟 환경 간의 분포 격차를 완화하는 것입니다. 다양한 항공 이미지 도메인에서 수행한 광범위한 실험을 통해 소스 도메인 데이터에 대한 지도 학습, 약한 지도 적응 방법, 비지도 도메인 적응 방법, 개방형 객체 탐지기 대비 AP50 성능이 각각 4-23%, 6-10%, 7-40%, 50% 이상 향상되었음을 보여줍니다. 또한, 이 분야의 추가 연구를 지원하기 위해 뉴질랜드와 유타 지역의 새로운 주석이 추가된 항공 데이터셋 두 가지를 소개합니다. 프로젝트 페이지는 https://humansensinglab.github.io/AGenDA에서 확인할 수 있습니다.
GRPO는 이미지 생성에서 인간 선호도 정렬을 위한 플로우 매칭 모델을 상당히 향상시키지만, FlowGRPO와 같은 방법들은 여전히 마르코프 결정 과정(MDP)에 의해 지정된 모든 디노이징 단계에 대한 샘플링과 최적화가 필요하기 때문에 비효율성을 보인다. 본 논문에서는 확률적 미분 방정식(SDE)과 상미분 방정식(ODE)의 통합을 통해 혼합 샘플링 전략의 유연성을 활용하는 새로운 프레임워크인 MixGRPO를 제안한다. 이는 MDP 내에서 최적화 과정을 간소화하여 효율성을 개선하고 성능을 향상시킨다. 구체적으로, MixGRPO는 슬라이딩 윈도우 메커니즘을 도입하여 윈도우 내에서만 SDE 샘플링과 GRPO 가이드 최적화를 적용하고, 윈도우 외부에서는 ODE 샘플링을 적용한다. 이 설계는 샘플링의 무작위성을 윈도우 내의 시간 단계로 제한함으로써 최적화 오버헤드를 줄이고, 더 집중된 그래디언트 업데이트를 통해 수렴을 가속화한다. 또한, 슬라이딩 윈도우를 벗어난 시간 단계는 최적화에 포함되지 않으므로, 더 높은 차수의 솔버가 샘플링에 사용될 수 있다. 따라서 우리는 MixGRPO-Flash라는 더 빠른 변형을 제안하며, 이는 훈련 효율성을 더욱 개선하면서도 비슷한 성능을 달성한다. MixGRPO는 인간 선호도 정렬의 여러 차원에서 상당한 이점을 보이며, DanceGRPO를 효과성과 효율성 모두에서 능가하며, 훈련 시간을 거의 50% 단축한다. 특히, MixGRPO-Flash는 훈련 시간을 71% 더 단축한다. 코드와 모델은 https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}에서 확인할 수 있다.
오디오-비주얼 세그멘테이션(RAVS)은 최근 상당한 발전을 이루었으나, 다중 모달 정보의 통합과 오디오-비주얼 콘텐츠의 심층적인 이해 및 추론에 있어 여전히 과제가 남아 있습니다. RAVS의 한계를 확장하고 이 분야의 미래 연구를 촉진하기 위해, 우리는 2,098개의 비디오와 59,458개의 다중 모달 참조 표현을 포함한 새로운 데이터셋인 Omnimodal Referring Audio-Visual Segmentation(OmniAVS)를 제안합니다. OmniAVS는 세 가지 주요 혁신으로 두드러집니다: (1) 텍스트, 음성, 소리, 시각적 단서를 유연하게 결합한 8가지 유형의 다중 모달 표현; (2) 단순히 오디오의 존재를 감지하는 것을 넘어 오디오 콘텐츠를 이해하는 데 중점을 둠; (3) 복잡한 추론과 세계 지식을 표현에 포함시킴. 또한, OmniAVS에서 다중 모달 추론과 오디오-비주얼 콘텐츠의 세밀한 이해의 과제를 해결하기 위해 Omnimodal Instructed Segmentation Assistant(OISA)를 소개합니다. OISA는 MLLM을 사용하여 복잡한 단서를 이해하고 추론 기반 세그멘테이션을 수행합니다. 광범위한 실험을 통해 OISA가 OmniAVS에서 기존 방법들을 능가하며, 다른 관련 작업에서도 경쟁력 있는 결과를 달성함을 보여줍니다.
APR(Automated Program Repair)은 프로그램 결함을 자동으로 탐지하고, 패치를 생성하며, 수정 사항을 검증하는 것을 목표로 합니다. 기존의 APR 기술은 종종 LLM(Large Language Models)과 결합되어, LLM의 코드 관련 지식을 활용하여 수정 효과를 개선합니다. 현재의 LLM 기반 APR 방법은 일반적으로 추론 단계에서만 테스트 케이스를 사용하며, 먼저 수정을 수행한 후 테스트 실행을 통해 검증하는 반복적 접근 방식을 채택합니다. 이 전통적인 패러다임은 두 가지 중요한 측면을 간과합니다: 훈련 단계에서 테스트 케이스의 잠재적 기여와, 수정 전에 테스트를 활용할 가능성입니다. 이를 해결하기 위해, 우리는 테스트 케이스를 모델의 훈련 단계에 도입하고, 테스트 생성을 수정보다 앞서도록 하는 Repair-R1을 제안합니다. 이 모델은 먼저 결함 동작을 구별할 수 있는 판별적 테스트 케이스를 생성한 후, 이러한 테스트를 기반으로 수정을 수행해야 합니다. 이를 통해 모델이 결함을 더 잘 탐지하고 결함의 근본 원인을 이해할 수 있게 되어, 수정 효과가 개선됩니다. 우리는 Repair-R1을 세 가지 다른 백본 모델로 구현하고, RL(강화 학습)을 사용하여 테스트 생성과 버그 수정을 공동 최적화합니다. 널리 사용되는 네 가지 벤치마크에서의 실험 결과는 Repair-R1의 우수성을 입증합니다. 특히, 기본 모델과 비교하여 Repair-R1은 수정 성공률을 2.68\%에서 48.29\%까지, 테스트 생성 성공률을 16.38\%에서 53.28\%까지, 테스트 커버리지를 0.78\%에서 53.96\%까지 개선합니다. 우리는 코드와 가중치를 https://github.com/Tomsawyerhu/APR-RL과 https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step에 공개합니다.
데이터 프라이버시와 모델 유틸리티 간의 긴장은 의료를 포함한 민감한 코퍼스로 학습된 대형 언어 모델(LLM)의 실제 배포에서 결정적인 병목 현상으로 자리 잡았습니다. 차등 프라이버시 확률적 경사 하강법(DP-SGD)은 형식적인 프라이버시를 보장하지만, 이는 뚜렷한 비용을 수반합니다: 그래디언트가 강제로 잘리고 노이즈가 추가되며, 이는 샘플 효율성과 최종 정확도를 저하시킵니다. 이러한 절충을 완화하기 위해 다양한 변형들이 제안되었지만, 이들은 모두 한 가지 단점을 공유합니다: 그들의 제어 매개변수는 하드코딩되어 있고 전역적이며, 변화하는 최적화 환경을 인식하지 못합니다. 결과적으로, 실무자들은 유틸리티를 추구하기 위해 프라이버시 예산을 과도하게 소비하거나, 프라이버시 제약 내에서 머물기 위해 평범한 모델을 받아들여야 하는 딜레마에 직면합니다. 우리는 DP 최적화 자체를 현대적인 심층 강화 학습(RL)에 적합한 폐루프 제어 문제로 전환하는 최초의 프레임워크인 RLDP를 제시합니다. RLDP는 학습 역학의 다양한 통계를 지속적으로 감지하며, 세분화된 매개변수별 그래디언트 클리핑 임계값과 주입된 가우시안 노이즈의 크기를 선택하여 작동합니다. 소프트 액터-크리틱(SAC) 하이퍼 정책은 언어 모델 미세 조정 중에 온라인으로 학습되며, 프라이버시 예산을 어디에, 언제 할당할지 처음부터 학습합니다. GPT2-small, Llama-1B, Llama-3B, Mistral-7B에서 수행된 1,600회 이상의 실험을 통해 RLDP는 1.3-30.5%(평균 5.4%)의 perplexity 감소와 평균 5.6%의 다운스트림 유틸리티 향상을 달성했습니다. RLDP는 각 기준선의 최종 유틸리티에 도달하기 위해 그래디언트 업데이트 예산의 13-43%(평균 71% 속도 향상)만을 사용하며, 동일한 (epsilon, delta)-DP 계약을 준수하고 멤버십 추론 및 카나리 추출 공격에 대해 동등하거나 더 낮은 취약성을 보였습니다.
자연어로부터 3D 장면을 생성하는 기술은 게임, 영화, 디자인 등 다양한 분야에서 큰 잠재력을 지니고 있다. 그러나 기존 방법들은 자동화, 3D 일관성, 세밀한 제어 측면에서 한계를 보인다. 본 연구에서는 텍스트 또는 대화로부터 고품질의 편집 가능한 3D 장면을 생성하기 위한 종단간(end-to-end) 프레임워크인 DreamScene을 제안한다. DreamScene은 장면 계획 모듈로 시작하며, 여기서 GPT-4 에이전트가 객체 의미론과 공간적 제약을 추론하여 하이브리드 그래프를 구성한다. 이후 그래프 기반 배치 알고리즘이 구조화되고 충돌이 없는 레이아웃을 생성한다. 이 레이아웃을 기반으로 형성 패턴 샘플링(Formation Pattern Sampling, FPS)은 다중 타임스텝 샘플링과 재구성 최적화를 통해 객체 기하학을 생성함으로써 빠르고 현실적인 합성을 가능하게 한다. 전역적 일관성을 보장하기 위해 DreamScene은 실내 및 실외 설정에 맞춰진 점진적 카메라 샘플링 전략을 사용한다. 마지막으로, 이 시스템은 객체 이동, 외관 변경, 4D 동적 모션을 포함한 세밀한 장면 편집을 지원한다. 실험 결과, DreamScene은 품질, 일관성, 유연성 측면에서 기존 방법들을 능가하며, 개방형 도메인 3D 콘텐츠 생성에 실용적인 해결책을 제공한다. 코드와 데모는 https://jahnsonblack.github.io/DreamScene-Full/에서 확인할 수 있다.