[고성능] NUMA(Non-Uniformed Memory Access) Locality와 CPU Affinity

들어가며

컴퓨터는 여전히 사람이 이해하기에 복잡합니다. 하나의 프로그램에서도 다양한 작업을 진행하며 메모리 엑세스도 빈번합니다. 이런 프로그램이 여러개가 여러 노드(코어)에서 동작하기 때문에 일부 프로그램이 잘못된 메모리 엑세스를 발생시키거나 느린 엑세스를 발생시키기도 합니다. 오늘은 CPU 노드의 메모리 범위를 지킬 수 있는 NUMA(Non-Uniformed Memory Access)에 대해 알아보도록 하겠습니다.

NUMA(Non-Uniformed Memory Access)

과거에는 CPU가 메모리에 접근하는 방식이 브릿지를 통해서만 접근했었습니다. CPU 코어 수가 여러개라도 오직 하나의 브릿지를 통해서만 메모리에 접근하기 때문에 코어별 속도 차이는 크지 않았습니다. 비유를 잠깐 들어보면 CPU 코어가 나와 내 친구들이라고 하고 캐시 메모리는 지갑이라고 보면 됩니다. 메인 메모리는 ATM기기라고 했을 때, 어떤 물건을 사려고했을 때(연산), 지갑에 돈이 있으면 지갑에서 돈을 꺼냅니다(캐시 히트). 만약 지갑에 돈이 없다면 ATM기기에서 돈을 가져와야 합니다. 이 때 나와 내 친구들이 서로 각각 다른 위치에 있더라도 ATM기기는 1개이고 ATM기기로 건너갈 수 있는 다리도 1개라고 보면 됩니다. 이러한 구조를 UMA(Uniformed Memory Access)라고 합니다.

프로세서가 발전하면서 브릿지가 프로세서 내로 통합되고 CPU 노드들은 메모리의 영역을 쪼개서 가져가기 시작합니다. 간단히 예를 들어 시스템에 CPU 소켓이 네 개 있고, 512GB의 메모리가 설치되어 있다면 물리 주소 0~128G-1번지까지의 메모리는 0번 소켓의, 128G~256G-1번지까지의 메모리는 1번 소켓의 지역 메모리가 되는 방식입니다.이러한 구성을 NUMA라고 부릅니다. 각 소켓에서 자기 자신과 연결된 로컬 메모리는 직접 접근하면 되므로 빠르지만 리모트 노드에 연결된 경우 느린 접근 속도 (레이턴시)를 가지게 됩니다. 하나의 CPU 소켓에 코어 여러 개가 들어가 있을 수 있기에 같은 지역 메모리를 사용하는 CPU 코어들을 묶어서 하나의 NUMA 노드로 칩니다. 8코어 4소켓 CPU라면 (하이퍼스레딩을 가정하지 않을 때에) 0~7번 코어는 NUMA 노드 0번, 8~15번 코어는 NUMA 노드 1번과 같은 방식입니다.

NUMA Locality

NUMA locality란 “스레드가 실행 중인 CPU 노드와, 해당 스레드가 접근하는 메모리가 가능한 같은 NUMA 노드에 속해 있게 하는 것”을 의미하며, 이렇게 하면 latency를 줄이고 대역폭 활용을 극대화할 수 있습니다. 각 프로세서가 독립적인 지역 메모리 공간에만 접근하는 것이 NUMA 지역성을 강화하는 방법입니다. 반대로 다른 프로세서의 메모리(원격 메모리)에 접근하게 되는 경우에는 링크를 통한 메모리 접근에 시간이 소요되어 성능 저하가 일어나게 됩니다.

출처: https://openstack-in-production.blogspot.com/2015/08/numa-and-cpu-pinning-in-high-throughput.html

NUMA가 성능에 미치는 영향

NUMA 비지역 접근(remote access)가 미치는 영향은 여러 요소에 의해 결정됩니다.

요인	영향 방향	설명
지연(latency)	증가	remote 메모리 접근 시 local보다 더 긴 접근 시간이 소요됨
바스 폭(bandwidth)	감소	cross-node 메모리 버스가 병목이 될 수 있음
캐시 일관성 비용(cache coherence traffic)	증가	원격 노드의 데이터를 읽거나 쓰면 캐시 간 통신 오버헤드 유발
TLB/페이지 워크 비용	증가 가능	원격 페이지 테이블 탐색 비용이 커질 수 있음
메모리 대기 / 경쟁	증가	여러 CPU가 같은 remote 노드 메모리를 공유할 경우 병목 가능

특히, 대량 메모리 접근(workloads with high memory throughput)이나 낮은 지연(latency sensitivity)이 중요한 시스템에서는 NUMA locality를 제대로 맞추지 않으면 10% 이상 또는 그 이상의 성능 저하가 발생할 수 있습니다.

Linux 커널 문서에서도 “memory type이나 버스 특성에 따라 bandwidth/latency가 다름”을 명시하고 있습니다.

NUMA locality 보장을 위한 전략

스레드 수 & CPU 코어 수

우리가 가장 경계해야할 것은 문맥 교환(Context Switching)입니다. 문맥 교환이 발생하면 코어의 캐시가 날라가기 때문에, 심각한 성능 저하를 일으킵니다. 스레드 수가 CPU 코어 수보다 많으면 스케줄러가 자주 문맥 교환을 발생시키기 때문에, 기본적으로 스레드 수는 하드웨어 코어 수보다 적게 설계합니다.

실행중인 active thread 수 < 코어 수

CPU affinity

CPU affinity란 운영체제가 특정 스레드(또는 프로세스)를 특정 CPU 코어에 고정시켜 실행하도록 제한하는 기능입니다. 사실 상 NUMA를 지키기 위한 핵심 기능이 됩니다. 예를 들면 "이 스레드는 CPU 2에서만 돌아라"라고 지정하는 것입니다.
실무에서 자주 사용하는 전략을 가져와봤습니다(물론 제가 적용한 건 아니고 서치..).

1. numactl 로 NUMA 노드 전체를 지정 (memory locality 확보)

numactl --cpunodebind=0 --membind=0 ./engine

2. 코드 내에서 스레드별 core pinning(cache locality 확보)

#include <pthread.h>
#include <sched.h>

void pin_to_core(int core_id) {
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(core_id, &cpuset);
    pthread_setaffinity_np(pthread_self(), sizeof(cpu_set_t), &cpuset);
}

// NUMA node 0에서 돌아가는 core 0~3에 각각 thread pinning
pin_thread_to_core(0);
pin_thread_to_core(1);
pin_thread_to_core(2);
pin_thread_to_core(3);


// 스레드 생성시
std::thread t([] {
    pin_thread_to_core(2);
    run_strategy();
});

시나리오 예시

HFT(고빈도 트레이딩) 시스템이라고 가정해보겠습니다. 아래와 같이 CPU affinity를 구성해볼 수 있습니다.

Core 0: network recv thread (NIC 0번 NUMA node)
Core 1: feeding thread
Core 2~3: strategy threads
Core 4: order send thread
Core 5: logging thread

이런 식으로 thread affinity를 명확히 고정하면 cache thrash와 context switching이 거의 사라집니다.

마치며

NUMA는 프로세서의 설계방식에서 나온 단어입니다. 하드웨어와 밀접하죠. 결국 고성능이라는 것은 범용성을 버리고, CPU 연산 효율을 극대화시키는 것입니다. 잘 설계된 고성능 프로그램은 CPU 사용율이 일정하게 High를 유지하더라구요. 저도 아직 부족하지만 NUMA Performance를 이해하고 이를 고려하여 프로그램을 설계한다면 고효율 서비스를 완성할 수 있을 것입니다. 성능을 위한 전략(여태까지 다뤘던 내용)을 정리해보면서 마무리하겠습니다.

목표	전략
캐시 효율 극대화	한 스레드를 한 코어에 고정 (1:1 mapping)
NUMA 최적화	스레드가 사용하는 데이터와 같은 NUMA 노드에 배치
Throughput 향상	CPU 부하를 분산하되, 스레드 간 데이터 공유를 최소화
Low Latency	같은 코어/NUMA 노드 내에서 lock-free ring buffer 사용
I/O Thread 최적화	네트워크 인터럽트 처리 스레드를 NIC가 연결된 NUMA 노드에 고정

저작자표시 (새창열림)

'컴퓨터 구조 & 운영체제' 카테고리의 다른 글

[고성능] CAS(Compare and Swap)과 Lock-Free Queue (0)	2025.10.12
[고성능] TLB(Translation Lookaside Buffer)와 TLB miss (0)	2025.10.09
[고성능] Cache Memory와 Cache locality(캐시 지역성), False sharing(거짓 공유) (0)	2025.10.08
페이지 교체 알고리즘과 프레임 할당 (1)	2023.11.11
가상메모리(Virtual Memory)와 페이징 기법(Paging) (1)	2023.11.07

들어가며

NUMA(Non-Uniformed Memory Access)

NUMA Locality

NUMA가 성능에 미치는 영향

NUMA locality 보장을 위한 전략

스레드 수 & CPU 코어 수

CPU affinity

시나리오 예시

마치며

'컴퓨터 구조 & 운영체제' 카테고리의 다른 글

티스토리툴바