NUMA 与内存局部性

这页讲的是：在多路或大规模多核机器上，CPU 离哪块内存更近并不是无关紧要的细节，任务跑在哪、数据分在哪，都会影响延迟和吞吐。学这页的重点，是理解内核管理的不是“总共有多少内存”这么简单，还要管“谁访问哪块内存更划算”。

这块是什么

NUMA 与内存局部性，讲的是在非一致内存访问架构里，不同 CPU 访问不同节点上的内存代价并不一样。Linux 需要在调度、分配和数据放置上尽量照顾这种局部性，让任务尽量靠近它常用的数据，而不是总让 CPU 跨很远去取内存。

可以把它理解成：不是公司所有资料都放在同一层楼里，而是每个办公区旁边都有自己的资料柜。你当然也能跨楼层拿东西，但如果每次都这样跑，效率就会越来越差。

它负责什么

识别节点与距离

把内存和 CPU 看成带拓扑关系的多个节点
意识到“能访问”不等于“访问代价一样”
为后续分配和调度提供局部性基础
让系统看到硬件拓扑不只是核数和容量

尽量让任务靠近数据

让任务运行位置和常用数据位置尽量接近
降低远端访问带来的时延与带宽损耗
帮助高负载机器保持更稳定性能
让调度和内存放置不至于彼此打架

平衡局部性与整体资源

并不是永远只顾最近节点
还要考虑容量、负载和全局公平
局部最优和系统整体最优常要权衡
让性能不是靠运气落在“刚好近”的资源上

为什么它不是“服务器机器才在乎的小优化”

如果想得太简单	会怎样	真正关键在哪
觉得有内存就行	会忽略访问哪块内存的成本差异。	在 NUMA 机器上，距离本身就是性能因素。
只看 CPU 调度不看数据位置	任务可能被调到远离自己数据的位置。	调度和内存放置必须协同考虑。
只顾最近节点	可能导致局部资源过载，整体反而更差。	局部性和全局平衡要一起拿捏。
把 NUMA 当成硬件细节	容易错过性能抖动和跨节点访问的根源。	这已经深深进入内核运行策略，而不只是机器说明书。

关键概念

概念	现在怎么理解
NUMA	不同 CPU 访问不同内存节点代价不完全一致的一类体系结构。
内存局部性	任务和它常访问的数据越接近，通常越有利于性能。
节点	一组更接近某些 CPU 的内存与处理资源单元。
远端访问	CPU 去访问不在自己近邻节点上的内存，往往更慢。
拓扑感知	调度和分配需要知道机器内部距离和关系，而不是把所有资源看成一锅粥。

为什么重要

它解释了为什么有些机器明明总内存和总 CPU 很多，性能却会因放置不当而抖动。
很多高负载系统问题，并不只是“资源不够”，而是资源离得不对。
理解这层后，你会更容易把调度器、内存管理和机器拓扑真正连起来看。
它让你看到内核性能管理不只是时间分配，还包括空间上的资源接近程度。

常见误解

误解一：NUMA 只是某些大机器的小优化。实际上它会明显影响很多服务器和高核数系统的现实性能。
误解二：局部性只归内存管理管。实际上调度器同样深度参与。
误解三：只要能分到内存，放哪都差不多。实际上远近差异常足以改变延迟和吞吐表现。

它不负责什么

它不替代基本内存管理；页分配、回收和映射仍然是更基础的层次。
它不保证所有工作负载都自动最优；应用访问模式和系统负载仍会影响效果。
它不只是调优插件，而是深嵌在调度和分配决策里的拓扑约束。

和其他模块的关系

相关模块	关系
调度器	任务跑在哪和数据放在哪必须配合，否则会出现算力和数据位置脱节。
内存管理	分配策略不仅看有没有空闲，还常要看节点距离和局部性。
cgroup / 资源治理	资源控制和放置策略有时也会和节点边界、局部性目标相互牵连。
性能观测	很多性能抖动和带宽瓶颈，需要从拓扑和远端访问角度去理解。

读完这页后，你应该能回答

为什么在 NUMA 机器上，“有资源可用”和“资源离得近”不是一回事？
为什么调度和内存分配都必须带着拓扑感知来做决定？
为什么很多性能问题不只是算力不足，而是数据和执行位置没放对？

后面适合继续问：NUMA 最容易和普通多核机器混在哪？为什么远端访问会把延迟和带宽问题放大？调度器和内存管理在局部性问题上最容易互相拖后腿的点是什么？

上一主题下一主题：completion、semaphore 与协作等待