# 进程虚拟内存空间

# 虚拟内存空间

将 C 程序的内存管理任务完全交给操作系统,虽然听起来是一种简化的方法,但实际上可能会带来一系列问题:

  1. 进程隔离性:操作系统需要确保不同进程之间的内存空间相互隔离,以防止一个进程访问或破坏另一个进程的数据。如果 C 程序直接管理物理内存,这种隔离性很难实现,因为程序可能无意中访问到其他进程的内存区域,或者操作系统难以跟踪和限制每个进程的内存访问。
  2. 数据安全性:当程序直接与物理内存交互时,数据的安全性和完整性难以得到保障。恶意程序或错误操作可能会破坏内存中的数据,影响系统的稳定性和可靠性。
  3. 内存碎片化:直接操作物理内存可能导致内存碎片化问题。随着时间的推移,内存的分配和释放可能导致内存块变得零散,难以找到足够大的连续内存区域来满足新的内存请求。这不仅降低了内存的利用率,还可能影响程序的性能。

虚拟内存 是现代操作系统中的一项核心特性,它为每个运行中的进程提供了一个独立的、虚拟的地址空间。这个空间通常被设计为连续的,与物理内存的实际布局无关。

术语 “虚拟” 指的是这些地址空间并不是物理内存的直接映射,而是通过操作系统和内存管理单元(MMU)的协同工作,将虚拟地址转换为物理地址。

当进程开始执行时,它看到的是一个由操作系统为其专门配置的连续虚拟内存空间。这个空间使得进程能够访问到比物理内存更大的内存量,而无需关心物理内存的实际分布。

这种设计极大地简化了内存管理的复杂性,特别是对于程序员而言。程序员编写的 C/C++ 程序所处理的内存,实际上是属于进程自己的虚拟内存。在这个上下文中,所提到的内存地址实际上是虚拟地址,它们由操作系统负责映射到物理内存地址。

实际上虚拟内存空间可以看作是操作系统和物理内存之间的一个抽象层。

虚拟内存技术为操作系统带来了显著的优势,主要体现在以下几个方面:

  1. 简化内存管理:操作系统仅需维护从虚拟地址到物理地址的映射关系,这大大简化了内存的分配和回收机制,提高了内存管理的效率。
  2. 提升系统安全性:每个进程拥有独立的虚拟内存空间,这降低了进程间相互干扰的风险,增强了系统的安全性和稳定性。
  3. 灵活的内存使用:虚拟内存技术允许操作系统采用更灵活的内存管理策略。例如,操作系统可以利用磁盘空间作为虚拟内存,从而支持大型应用程序的运行,即使物理内存有限。
  4. 内存复用:物理内存可以被多个进程共享,但每个进程在自己的虚拟地址空间中看到的是独立的内存区域,从而实现了内存的有效复用。

# 虚拟内存空间模型

虚拟内存空间的组织结构遵循从低地址到高地址的顺序,涵盖了以下几个关键区域:

  1. 代码段(Code Segment)
    • 代码段通常位于虚拟内存空间的最低地址处,用于存储程序编译后的可执行指令。这些指令通常被标记为只读,以防止在程序运行时被意外修改。
    • C 程序员通常不需要直接操作代码段,因为它们在程序编译和加载时就已经确定。
  2. 数据段(Data Segment)
    • 数据段用于存储具有静态存储期限的全局数据,包括全局变量和被 static 关键字修饰的局部变量和全局变量。
    • 此外,数据段还可能包含程序运行时的只读数据,例如字符串字面值。
  3. 堆空间(Heap)
    • 堆空间是 C 程序员最常操作的内存区域,涉及动态内存分配和管理。C 语言的内存管理主要指的是对堆空间的管理。
    • 堆空间的大小可以根据程序的需求动态调整,通常占据虚拟内存空间的大部分。
  4. 栈空间(Stack)
    • 栈空间对于 C 语言的函数调用至关重要,它确保了函数调用的顺序和流程。栈空间遵循 “先进后出” 的原则,随着函数调用从高地址向低地址增长。
    • 栈空间的大小相对有限,通常用于存储局部变量和函数调用的上下文信息。
  5. 内核区域(Kernel Space)
    • 内核区域是操作系统内核专用的内存区域,用于存储内核代码和数据结构。应用程序通常无法直接访问内核空间。
    • 当应用程序进行系统调用时,会从用户态切换到内核态,此时可以访问内核区域。

image-20240514103259178.png

虚拟内存空间通常被划分为两个主要区域,分别是用户区域和内核区域,这两个区域在访问权限和用途上有着明显的区别:

  1. 用户区域(User Space)
    • 用户区域是进程可以自由访问和修改的内存区域。它包括了 代码段、数据段、堆空间和栈空间,这些区域共同构成了用户进程的地址空间。
    • 用户区域的设计允许进程执行正常的计算任务和数据处理,同时保证了进程之间的隔离,防止一个进程干扰另一个进程的运行。
  2. 内核区域(Kernel Space)
    • 内核区域是操作系统专用的内存区域,用于存放操作系统的核心功能和数据结构。与用户区域不同,普通用户进程无法直接访问内核区域。
    • 内核区域主要用于操作系统与硬件之间的交互,如文件系统操作、I/O 通信、网络通信等。这些操作通常涉及到系统资源的管理和硬件设备的控制。

# 地址和地址值

# 内存地址

内存地址 是计算机系统中用来定位内存中特定位置的数值。在现代计算机架构中,内存地址用于访问存储在随机存取存储器(RAM)中的数据。

内存地址的概念基于这样一个事实:计算机的内存被组织成一个线性的地址空间,每个地址对应一个特定的字节。由于计算机的最小寻址单位通常是一个字节(8 位),因此每个内存地址都指向一个字节大小的内存单元。

可以形象地将虚拟内存空间比作一个巨大的数组,其中每个元素都是一个字节。在这个数组中,每个元素的位置由其在数组中的索引来确定,而在内存中,这个位置就是内存地址。这意味着每个内存地址都唯一地对应于内存中的一个字节,允许 CPU 和操作系统访问和操作存储在该位置的数据。

# 地址值

在计算机科学中,"地址" 和 "地址值" 通常指的是内存中特定位置的标识符。地址值的确定取决于系统的位数,即 32 位或 64 位。

当我们在 C 语言中声明一个整型变量 a 并赋予它值 999 时,这个值需要在内存中以二进制形式存储。整数值 999 在内存中的表示取决于计算机的字节序。

整数值 999 的二进制表示是 1111100111 (如果我们假设 int 是 8 位的,这实际上是 999 的补码表示)。在 32 位或 64 位系统中, int 类型通常是 32 位的,因此这个值会被扩展到 32 位。如果计算机使用 小端存储法(Little-Endian),那么在内存中的存储顺序将是: 低地址 1111100111000000000000000000000000 这意味着最低有效字节(LSB)存储在最低的内存地址上,而最高有效字节(MSB)存储在最高的内存地址上。

# 32 位平台

在 32 位系统中,虚拟内存空间可以有高达 2322^{32} 个不同的地址,这相当于 4GB 的内存空间。每个地址都对应一个唯一的内存位置。

例如,如果某个字节的内存地址是: 00000000000000001010101000101100 这个二进制数就是该字节的地址值。

为了提高可读性,地址值通常以十六进制形式表示,例如: 0x0000AA2C 十六进制表示法不仅更简洁,而且更符合程序员的阅读习惯。

对于上述地址的下一个字节,地址值将是: 00000000000000001010101000101101 转换为十六进制表示为: 0x0000AA2D

# 64 位平台

64 位系统架构 允许计算机访问极大的内存空间。在这种架构中,地址总线有 64 位宽,理论上可以寻址 2642^{64} 个不同的地址,这相当于 16 艾字节(EB)或者说是 1.84 亿太字节(TB)的虚拟地址空间。

尽管理论上存在如此巨大的地址空间,但实际应用中,现代的 64 位硬件和操作系统往往没有充分利用所有这些位。这主要有以下几个原因:

  1. 硬件限制:目前的物理内存技术尚未能提供接近 2642^{64} 个地址所需的内存量。
  2. 应用需求:大多数应用程序和操作系统还没有达到需要如此庞大内存空间的需求。

因此,现代的 64 位操作系统通常会使用更少的位数来寻址虚拟内存空间。例如,许多系统实际上只使用 48 位来进行寻址,这仍然提供了一个非常大的地址空间,足以满足当前和未来一段时间内的需求。

# 变量的地址

在编程语言如 C 语言中,每个变量在内存中都占有一块特定的空间,而 变量地址 指的是这块空间的起始位置,即该空间第一个字节的内存地址。这使得我们可以访问和操作存储在该位置的数据。

以一个 32 位整数变量为例,它在内存中占据 4 个字节。当我们谈论这个变量的地址时,我们指的是这连续 4 个字节的起始地址。在 C 语言中,可以通过取地址运算符 & 来获取变量的地址。例如,如果我们有一个整数变量 a ,表达式 &a 将返回变量 a 在内存中的地址。

重要的是要理解,即使变量可能占据多个字节,变量的地址仍然是指向它在内存中的第一个字节。这有助于我们在使用指针和进行内存操作时,准确地定位和访问数据。

# 小端存储法

在计算机体系结构中,Intel 和 AMD 等主流的 32 位和 64 位处理器通常采用 小端存储法(Little-Endian)来存储数据。这种方法将多字节数据的最低有效位(Least Significant Byte, LSB)存储在较低的内存地址上。虽然这种方法可能在直观上不如大端存储法直观,但它在实际应用中广泛使用。

相对地,大端存储法(Big-Endian)则将数据的最高有效位(Most Significant Byte, MSB)存储在较低的内存地址上。这种方法在某些情况下更符合人们的直觉,因为它将 “更重要” 的字节放在前面。

大端存储法 在特定场景下特别有用,尤其是在 计算机网络 中传输数据时。网络协议通常要求使用大端存储法来确保数据在不同计算机系统之间传输时的一致性和正确性。这是因为大端存储法在网络协议中被广泛采用,它有助于简化网络通信和数据交换的过程。

# 缓冲区

# 缓冲区的概念

缓冲区定义:缓冲区是计算机内存中专门分配的一块区域,用于暂存数据。它的主要目的是缓解输入 / 输出(I/O)设备与中央处理器(CPU)及内存之间速度不匹配的问题。

缓冲区的作用:通过使用缓冲区,系统可以临时存储从慢速设备(如硬盘、网络或用户输入设备)读取的数据,或者待发送到这些设备的数据。这样,CPU 可以继续执行其他任务,而不是等待数据传输完成,从而提高了整体的计算效率。

性能提升:缓冲区的存在显著提升了 I/O 操作的性能。例如,在读写文件时,数据可以先读入缓冲区,然后 CPU 可以逐步从缓冲区读取数据进行处理,而不是直接与慢速的存储设备交互,这样可以大幅度提高数据处理速度。同样,在与外部设备如键盘和显示器进行交互时,缓冲区也起到了类似的作用,改善了交互速率和用户体验。

# 执行过程

具体如下(以 printfscanf 为例):

202310100939887.png

  1. 标准输入(stdin)
    • stdin 是标准输入流,用于从输入源读取数据。
    • 默认情况下,stdin 的数据来源是键盘。
  2. 标准输出(stdout)
    • stdout 是标准输出流,用于向输出目的地写入数据。
    • 默认情况下,stdout 的输出目的地是终端显示器。
  3. 缓冲区的管理
    • C 语言标准库自动管理这些输入输出流资源,程序员可以通过函数调用从 stdin 读取数据,向 stdout 写入数据。
  4. 缓冲区的重定向
    • 程序员可以使用重定向技术改变数据的输入来源和输出目的地。
    • 例如,可以将文件作为输入源,使得 stdin 从文件读取数据。
    • 同时,可以将 stdout 的输出写入到文件或屏幕。
  5. scanf 和 printf 的过程
    • scanf 函数用于从 stdin 读取数据。
    • printf 函数用于向 stdout 写入数据。
  6. 缓冲区的优势
    • 通过缓冲区,程序员无需考虑数据的具体来源和目的地,可以进行统一处理。
    • 这种设计提高了程序的灵活性和效率。
  7. 实际应用
    • 例如,当 stdin 的数据来源被重定向为文件 a 时,程序会从文件 a 读取数据。
    • 同时,stdout 的输出可以被写入到另一个文件或显示在屏幕上。

# 缓冲区为什么可以提升 I/O 操作的性能?

缓冲区提升性能的原理:缓冲区通过暂存从外部设备流入或流出的数据,减少了 CPU 因等待低速设备数据传输而产生的空闲时间。这种方式允许 CPU 和 I/O 设备并行工作,从而提高了整体的系统效率。

内核区域的作用:内核区域是操作系统中用于执行底层硬件控制操作的内存区域。它负责管理文件操作、进程和线程的资源管理、网络通信等关键任务。在这个区域内,操作系统和硬件紧密协作,以确保数据能够高效地在外部设备和内核区域之间传输。

系统调用的机制:用户进程不能直接访问内核区域。为了获取内核区域中的数据,用户进程必须通过系统调用来请求操作系统内核的服务。系统调用提供了一种安全的方式来访问受保护的资源,并执行需要高权限的操作。

性能考虑:系统调用涉及到用户态和内核态之间的切换,这是一个资源密集型的过程。因此,为了优化性能,应当尽量减少系统调用的次数。通过使用缓冲区和其他技术,可以减少对系统调用的依赖,从而提升系统的整体性能。

缓冲区通过减少 I/O 操作过程中的系统调用次数,显著提高了整体的 I/O 性能。系统调用是昂贵的操作,因为它们涉及到用户态和内核态之间的切换。通过使用缓冲区,数据可以先存储在缓冲区中,然后一次性地进行系统调用,从而减少了频繁切换的需要。

缓冲区充当了一种防错机制,即使程序员对 I/O 操作的内部机制不够了解,也可以通过缓冲区保证操作的性能达到一定的标准。这种机制降低了因编程错误导致性能问题的风险。

虽然缓冲区带来了性能上的提升,但它也存在一些缺点。缓冲区需要占用额外的内存空间,这可能会在内存资源有限的情况下成为一个问题。此外,缓冲区可能会引入数据传输的延迟,因为数据需要先写入缓冲区,然后再从缓冲区写入最终目的地。

# 缓冲区刷新机制

缓冲区通常具备自动刷新的能力,这是一种在满足特定条件时触发数据传输的机制。这种机制对于管理数据流动和优化性能至关重要。

  1. 输入缓冲区:对于输入缓冲区,通常不需要考虑刷新问题。当输入缓冲区中有数据时,可以读取;当数据被读取完毕后,输入缓冲区为空,进一步的读取操作将不会获得更多数据。
  2. 输出缓冲区:与输入缓冲区不同,输出缓冲区需要刷新机制。如果输出缓冲区的数据不被刷新(即写入目的地),它们将一直保留在缓冲区中,导致数据无法正确输出。
  3. 缓冲区类型
    • 全缓冲区:当缓冲区满时,会自动刷新,常见于文件缓冲区。
    • 行缓冲区:当缓冲区遇到换行符时,会自动刷新,如标准输出 stdout 的缓冲区。
    • 不缓冲:数据一旦写入,立即刷新,不保留任何数据,如标准错误 stderr 的缓冲区。
  4. 注意事项
    • 缓冲区满时会自动刷新。
    • 程序结束时,标准流的缓冲区也会自动刷新,但不应依赖此机制。
    • 缓冲区刷新的具体行为可能因编译器和平台而异。
    • 可以使用 fflush 函数手动刷新 stdout 和文件流的缓冲区,但对于 stdin 输入缓冲区的刷新,C 标准并未定义其行为,因此这种操作是未定义的,不应依赖此操作来清空输入缓冲区。

# 栈区

# 栈帧

在 C 语言程序中,函数调用会经历一系列的内存管理操作,这些操作与栈帧的概念密切相关:

  1. 栈帧的创建:每次调用函数时,系统会在栈上为该函数分配一个内存区域,称为 “栈帧”。每个栈帧都是独立的,包含了该函数的局部变量、参数、返回地址等信息。
  2. 局部变量的作用域:由于不同函数的栈帧相互独立,局部变量仅在创建它们的函数内部有效。这意味着局部变量的生命周期与函数的执行期间一致。
  3. 函数调用的过程:当一个函数被调用时,其栈帧被 “压入”(push)栈中,这个过程称为 “入栈”。此时,局部变量开始分配空间并生效。
  4. 函数调用结束:当函数执行完毕,其栈帧被 “弹出”(pop)栈中,这个过程称为 “出栈”。随着栈帧的销毁,局部变量的生命周期结束,它们所占用的内存空间被释放。
  5. 自动存储期:在 C 语言中,局部变量的这种生命周期被称为 “自动存储期”,因为它们的创建和销毁是自动管理的,不需要程序员显式操作。

虽然虚拟内存空间中的栈采用了与数据结构栈相同的原则,但它们在实现上可能有所不同。虚拟内存空间的栈是由操作系统和编译器共同管理的,而数据结构栈通常是由程序员在程序中显式实现的。

对于以下函数:

void test2() {
	int a = 30;
}
void test() {
	int a = 20;
	test2();
}
int main() {
	int a = 10;
	test();
	return 0;
}

入栈顺序为 main -> test -> test2 ,出栈顺序则相反。

202401021347007.png

栈的 “先进后出”(LIFO)特性对程序的执行流程有着决定性的影响。这意味着在程序中,先被调用的函数将在后被调用的函数之后结束执行。这种特性确保了程序在函数调用时的顺序性和内存管理的有效性。

在 C 语言程序中, main 函数是程序的入口点,它最先被调用。根据栈的特性, main 函数也将是最后结束的函数。当 main 函数执行完毕并返回时,它标志着整个程序的执行结束,进程随之结束。

虚拟内存空间中的栈区域对于程序的执行至关重要。它不仅负责存储局部变量和函数调用的上下文信息,还决定了函数调用的顺序。每次函数调用时,新的栈帧被压入栈顶;函数执行完毕后,其栈帧被弹出,释放内存空间。这一过程确保了程序能够按照预定的顺序执行,并且有效地管理内存资源。

# 栈区域内存管理的特点

栈内存管理的特点:栈区域的内存管理以其简单性和高效性而著称。这种管理机制由操作系统和编译器共同协作完成,确保了函数调用和局部变量的生命周期得到正确管理。

在栈的内存管理中,一个关键的组件是栈顶指针(Stack Pointer)。这个指针始终指向当前栈帧的顶部,即当前正在执行的函数的栈帧。当一个函数被调用时,一个新的栈帧被创建并压入栈顶;当函数返回时,该栈帧被弹出,栈顶指针相应地向下移动。

栈顶指针所标记的当前栈帧包含了当前函数的局部变量、参数、返回地址等信息。这个栈帧代表了当前正在执行的函数的执行上下文,是程序执行流程中不可或缺的部分。

# 函数调用和栈帧管理

# 入栈

当一个函数被调用时,会发生一系列的内存管理操作,这些操作涉及到栈帧的创建和销毁。在 C 语言中,这些操作通常由编译器和操作系统共同完成。

  1. 栈帧进栈:当函数被调用时,一个新的栈帧(Stack Frame)被创建并压入栈顶。这个过程涉及到为函数的局部变量、参数和返回地址分配内存空间。
  2. SP 指针的变化:栈指针(Stack Pointer,通常表示为 SP)在函数调用时会减少,以腾出空间来存储新的栈帧。减少的量等于新调用函数栈帧的大小。
  3. 栈帧的组成:每个栈帧包含了函数的局部变量、函数参数、返回地址等信息。这些信息在函数执行期间是活跃的,并在函数返回时被销毁。
  4. 函数返回:当函数执行完毕并准备返回时,它的栈帧从栈中弹出,SP 指针相应地增加,恢复到函数调用前的值。这个过程释放了函数的局部变量所占用的内存空间。

202311082026062.png

# 出栈

  1. 函数返回:当一个函数完成其执行并准备返回时,它会通过 return 语句将控制权交还给调用者。
  2. 出栈过程:随着函数的返回,之前为该函数创建的栈帧需要从栈中移除,这个过程称为 “出栈”。
  3. SP 寄存器指针:栈指针(Stack Pointer,通常表示为 SP)在函数出栈时会增加。增加的量等于该函数栈帧的大小,这样 SP 指针就会指向新的栈顶。
  4. 恢复状态:出栈过程还会恢复调用者的栈帧状态,包括局部变量、参数和返回地址等。这样,调用者可以继续从函数调用前的状态执行。

202311082026358.png

# 栈区域内存管理的优点和缺点

优点:

  1. 简单高效:栈内存的分配和释放过程非常直接和快速。当一个函数被调用时,它的局部变量和栈帧被自动压入栈中;当函数返回时,这些内容被自动弹出,无需程序员手动管理。
  2. 自动内存管理:使用栈内存时,程序员不需要担心内存泄漏或内存释放的问题,因为栈的内存管理是自动的。
  3. 线程安全:每个线程都有自己的栈,这意味着局部变量是线程隔离的,避免了多线程环境下的数据竞争和同步问题。

缺点:

  1. 栈空间有限:由于栈空间通常较小,它不适合存储大型数据结构,如大数组或大字符串。
  2. 缺乏动态性:在编译时,栈帧的大小就已经确定,这意味着栈上的数据结构不能在运行时动态调整大小。
  3. 数据无法共享:由于栈是线程隔离的,栈上的数据不能在不同线程之间共享,这在需要跨线程数据交互的场景中可能是一个缺点。