§第一章 计算机系统漫游

  1. 只由ASCII字符构成的文件称为文本文件,所有其他的文件都称为二进制文件。

  2. 区分不同数据对象的唯一方法是我们读到这些数据时候的上下文。

  3. 汇编为不同的高级语言的编译器提供了通用的输出语言。

  4. 从物理上来说,主存是由一组动态随机存取存储器(DRAM)组成的。从逻辑上来说,存储器是一个线性的字节数组,每个字节都有其唯一的地址(即数组索引),这些地址是从0开始的。

  5. 利用直接储存器存取(DMA),数据可以不通过处理器而直接从磁盘到达主存。

  6. 对处理器而言,从磁盘驱动器上读取一个字的开销要比从主存中读取的开销大100万倍。

  7. 高速缓存的局部性原理:即程序具有访问局部区域里的数据和代码的趋势。

  8. 操作系统有两个基本的功能:1)防止硬件被失控的应用程序滥用 2)向应用程序提供简单一致的机制来控制复杂而通常大相径庭的低级硬件设备。操作系统通过几个基本的抽象概念(进程、虚拟存储器和文件)来实现这两个功能。

Read More

上回我们简单的介绍了缓冲区溢出的基本原理和机器级代码的解释,对此类问题的分析和研究都必须建立在对程序的机器级表示有一定的了解的基础上。记得有句话是这样说的,“真正了不起的程序员是对自己代码的每一个字节都了如指掌的程序员。”我们也许做不到每一字节,但至少得明晰机器级程序的组成结构和执行流程。

言归正传,我们今天在上回的基础上继续探索缓冲区溢出。之前的例子都是简单的通过越界访问来实现对程序执行流程的变动,而且执行的函数都是编译前写入的,那么如何对一个发行版的可执行程序进行缓冲区溢出呢? 首先,这个程序必须存在缓冲区溢出漏洞(这不是废话么),一般来说C语言中容易引起缓冲区溢出的函数有strcpy,strcat之类的不顾及缓冲区大小的内存操作函数以及scanf,gets之类的IO函数。如果你使用vs2010以及vs2012附带的C编译器cl.exe编译使用了这些函数的C代码,编译器一般会给出一个编号为4996的警告,大致的意思是这类函数如scanf不安全,请使用它们的安全版本scanf_s什么的。其实也就是给这些函数加上一个描述缓冲器大小的参数,以防止缓冲区溢出。

我们就以一个相对简单的函数gets开始研究吧。gets函数的实现想必大家都比较清楚吧,gets不考虑缓冲区大小,将输入缓冲中的内容逐一复制到内存指定位置,遇’\n’结束并且自动将’\n’替换为’\0’。

编译后我们同objdump反汇编,命令是 objdump -d -M intel overflow (overflow是可执行文件名字),同理,我们只要 main函数的实现:

Read More

有段时间没有用windows了,刚一开机又是系统补丁更新。匆匆瞥了一眼看到了“内核缓冲区溢出漏洞补丁”几个字眼。靠,又是内核补丁。打完这个补丁后MD的内核符号文件又得更新了。于是抱怨了几句,一旁的兄弟问什么是缓冲区溢出。这个…三两句话还真说不清楚。解释这个问题用C语言比较方便,但是单从C代码是看不出来什么的,具体原理要分析机器级代码才能说清楚。既然是浅谈原理,那就从最基本的开始吧。

本文的定位是对此方面一无所知的读者,所以大牛们可以直接飘过…

缓冲区溢出这个名词想必大家并不陌生吧,在微软的系统漏洞补丁里经常可以看到这个词(微软这算是普及计算机知识么? – -)。从C语言来分析的话,最简单的一种溢出就是向数组中写入数据时超出了预定义的大小,比如定义了长度为10的数组,偏偏写入了10+个数据。C标准告诉我们这种做会产生不可预料的结果,而在信息安全领域看来,缓冲区溢出的艺术就是要让这种“不可预料的结果”变成攻击者想达成的结果。比如远程攻击服务器上的程序,使其返回一个具有管理员权限的shell什么的。千万别觉得这是天方夜谭,印象中微软历史上爆出过不少这样的漏洞,前段时间不就有覆盖微软全版本的MS12-020么(新的也有,但是我没关注 – -)。虽然网上广为流传的只是一个远程让服务器死机的shellcode,但是让远程服务器执行任意代码理论上是可行的。关于漏洞利用这块的东西我不怎么擅长,所以就不敢再多说了。

一般来说关于缓冲区溢出漏洞,官方的描述都是诸如“攻击者通过提交一个精心构造的字符串使得缓冲区溢出从而执行任意代码”之类的。这里的重点词是两个,“精心构造”和“字符串”。精心构造可以理解,那“字符串”呢?我们都知道,一段二进制代码是什么东西取决于机器对其的解释,如果把这段代码当作变量,当作整型是一个值,当作浮点型又是一个值,如果把它当成可执行代码的话,又会是另外一种解释。所以这里的字符串实际上就是一段可执行代码的字符串表现形式。接下来我们的重点就是如何“精心构造”这个“字符串”和如何让机器把我们构造的字符串(也就是数据)当作可执行代码来执行。

必须说明的是,真正意义上的shellcode要解决诸如函数地址重定位,汇编级系统调用,以及应对编译器抵抗此类缓冲区溢出攻击的“栈随机化”等技术,这些东西对于我们这篇“科普性质”的文章来说显然过于艰深,加之作者本人也是一个水货,故不会提及。我们只研究最浅显的原理。

我们先来看一段代码:

Read More

无聊中,于是写了一个冒泡排序的泛型算法。算法很简单,但是个人觉得从C标准库中学到的这种泛型的思想很有益处。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
/*
* 冒泡排序的泛型实现
*/

#include <stdio.h>
#include <string.h>

static void Swap(char *vp1, char *vp2, int width)
{
char tmp;

if ( vp1 != vp2 ) {
while ( width-- ) {
tmp = *vp1;
*vp1++ = *vp2;
*vp2++ = tmp;
}
}
}

void BubbleSort(void *base, int n, int elem_size,
int (*compare)( void *, void * ))
{
int i, last, end = n - 1;
char *elem_addr1, *elem_addr2;

while (end > 0) {
last = 0;
for (i = 0; i < end; i++) {
elem_addr1 = (char *)base + i * elem_size;
elem_addr2 = (char *)base + (i + 1) * elem_size;
if (compare( elem_addr1, elem_addr2 ) > 0) {
Swap(elem_addr1, elem_addr2, elem_size);
last = i;
}
}
end = last;
}
}

int compare_int(void *elem1, void *elem2)
{
return (*(int *)elem1 - *(int *)elem2);
}

int compare_double(void *elem1, void *elem2)
{
return (*(double *)elem1 > *(double *)elem2) ? 1 : 0;
}

int main(int argc, char *argv[])
{
int num_int[8] = {8,7,6,5,4,3,2,1};
double num_double[8] = {8.8,7.7,6.6,5.5,4.4,3.3,2.2,1.1};
int i;

BubbleSort(num_int, 8, sizeof(int), compare_int);

for (i = 0; i < 8; i++) {
printf("%d ", num_int[i]);
}

printf("\n");

BubbleSort(num_double, 8, sizeof(double), compare_double);

for (i = 0; i < 8; i++) {
printf("%.1f ", num_double[i]);
}

return 0;
}