什么是RAID? 如何增加磁盘的存取速度,如何防止数据因磁盘的故障而失落及如何有效的利用磁盘空间,一直是电脑
专业人员和用户的困扰,而大容量磁盘的价格非常昂贵,对用户形成很大的负担。磁盘阵列技术的产
生一举解决了这些问题。
过去十几年来,CPU的处理速度增加了五十倍有多,内存的存取速度亦大幅增加,而数据储存装置--主
要是磁盘--的存取速度只增加了三、四倍,形成电脑系统的瓶颈,拉低了电脑系统的整体性能,若不能
有效的提升磁盘的存取速度,CPU、内存及磁盘间的不平衡将使CPU及内存的改进形成浪费。
磁盘阵列中针对不同的应用使用的不同技术,称为RAID 等级。RAID是Redundant Array of
Inexpensive Disks的缩写,而每一等级代表一种技术。目前业界最经常应用的RAID等级是RAID
0~RAID 5。这个等级并不代表技术的高低,RAID 5并不高于RAID 3。至于要选择那一种RAID 等级的产
品,纯视用户的操作环境及应用而定,与等级的高低没有必然的关系。
RAID级别的划分?
目前业界最经常应用的RAID等级是RAID
0~RAID 5。下面将简单描述一些常用的RAID等级,澄清一些应
用的问题:
RAID 0(Striped Disk Array without Fault Tolerance)
RAID 0是把所有的硬盘并联起来成为一个大的硬盘组。其容量为所有属于这个组的硬盘的总和。所有数
据的存取均以并行分割方式进行。由于所有存取的数据均以平衡方式存取到整组硬盘里,存取的速度非
常快。越是多硬盘数量的RAID 0阵列其存取的速度就越快。容量效率方面也是所有RAID格式中最高的,
达到100%。但RAID 0有一个致命的缺点–就是它跟普通硬盘一样没有一点的冗余能力。一旦有一个硬盘
失效时,所有的数据将尽失。没法重组回来!一般来讲,RAID 0只用于一些已有原数据载体的多媒体文
件的高速读取环境。如视频点播系统的数据共享部分等。RAID 0只需要两个或以上的硬盘便能组成。如
下图所示:
RAID 1(Mirroring)
RAID 1是硬盘镜像备份操作。由两个硬盘所组成。其中一个是主硬盘而另外一个是镜像硬盘。主硬盘的
数据会不停的被镜像到另外一个镜像硬盘上。由于所有主硬盘的数据会不停地镜像到另外一个硬盘上,
故RAID 1具有很高的冗余能力。达到最高的100%。可是正由于这个镜像做法不是以算法操作,故它的容
量效率非常的低,只有50%。RAID 1只支持两个硬盘操作。容量非常有限,故一般只用于操作系统中。如
下图所示:
RAID 0+1(Mirroring and Striping)
RAID 0+1即由两组RAID 0的硬盘作RAID 1的镜像容错。虽然RAID 0+1具备有RAID 1的容错能力和RAID
0
的容量性能。但RAID 0+1的容量效率还是与RAID 1一样只有50%,故同样地没有被普及使用。如下图所示:
RAID 3(Striping with dedicated parity)
RAID 3在安全方面以奇偶校验(parity check)做错误校正及检测,只需要一个额外的校检磁盘(parity
disk)。奇偶校验值的计算是以各个磁盘的相对应位作XOR的逻辑运算,然后将结果写入奇偶校验磁盘,
任何数据的修改都要做奇偶校验计算。如某一磁盘故障,换上新的磁盘后,整个磁盘阵列(包括奇偶校验
磁盘)需重新计算一次,将故障磁盘的数据恢复并写入新磁盘中,如奇偶校验磁盘故障,则重新计算奇偶
校验值,以达容错的要求。如下图所示:
RAID 5(Striping with distributed parity)
RAID 5也是一种具容错能力的RAID 操作方式,但与RAID 3不一样的是RAID 5的容错方式不应用专用容错
硬盘,容错信息是平均的分布到所有硬盘上。当阵列中有一个硬盘失效,磁盘阵列可以从其他的几个硬盘
的对应数据中算出已掉失的数据。由于我们需要保证失去的信息可以从另外的几个硬盘中算出来,我们就
需要在一定容量的基础上多用一个硬盘以保证其他的成员硬盘可以无误地重组失去的数据。其总容量为
(N-1)x最低容量硬盘的容量。从容量效率来讲,RAID 5同样地消耗了一个硬盘的容量,当有一个硬盘失效
时,失效硬盘的数据可以从其他硬盘的容错信息中重建出来,但如果有两个硬盘同时失效的话,所有数据
将尽失。如下图所示:
RAID级别的对比
数据备份的方式
数据备份有两种主要的类型:映像备份与逐文件备份。我们将在下面主要探讨这两种数据备份方式。
映像备份映像备份可在设备级上运行,以生成欲备份信息的映像备份。映像备份将开启整个卷,或在最低级别上驱动并运行。例如,硬驱的映像备份启始于驱动器的0
扇区、0 磁道,并顺序下移至内容结束。
映像备份更迅速,效率高于逐文件备份。另外,它们通常压缩入最小的空间,对未授权接入的管理更加严格。但是,它们不允许接入或存储个别文件,除非备份软件可阅读图像内的文件结构。映像备份通常必须恢复至与原始备份处相同类型的驱动器或介质,因此,不适宜迁移至新驱动器或介质。
映像备份的恢复时间通常与创建备份的时间相等。映像备份适用于大量小型文件,如操作系统和系统文件,以及很小的电子邮件文件等。
逐文件备份
逐文件备份通过进入文件系统,阅读文件结构,以及从一个介质到另一个介质复制文件,从而生成新文件结构。它可针对单独文件生成备份。逐文件备份成本较高,与映像备份相比时间长,因为备份软件必须打开每个文件、阅读、写入备份介质,然后关闭文件。逐文件备份也必须使用随机接入,以搜寻文件的所有部分,无论它们位于介质的哪个区域均是如此,且要在备份介质上生成一个文件
的链接复制。
逐文件备份比映像备份安全,因为整个文件结构都复制了。因而允许信息迁移入不同的格式或设备类型。逐文件备份还允许用户恢复个别文件或执行部分备份。在存在变化而信息无法恢复至同类介质的情况下,逐文件备份更安全。但是,未授权人士更容易接入,因而从保护的角度而言,保护性能差。
逐文件备份通常恢复的时间要长于备份。当需要恢复单独文件和针对大型文件,如数据库文件时,建议使用逐文件备份。
有三种逐文件备份可根据需要进行组合。当要确定哪类备份在环境中最有效时,了解文档位的作用 十分重要。文档位是一种标志,存在于每个文件中,以表明文件已完成修改的时间。一些备份设施使用文档位以跟踪文件备份状态和其他使用日志。
三种逐文件备份方式为:全面备份;增量备份;差分备份
1、全面备份:
全面系统备份将把所有文件、目录、用户信息、安全属性和系统/操作系统文件复制到备份设备。
当执行全面系统备份时,无需检查文档位,因为所有文件都将备份。每个备份计划都应包括全面备份。
2、增量备份
增量备份只复制上次备份后发生变化的文件。备份软件将检查文档位,以确定文件是否被修改,以及是否需要备份。如果文件的文档位表明为新文件或已修改,文件将被复制到备份设备,文档位将清除。
3、差量备份
差量备份也只复制文档位显示为新文件或已修改的文件,但不清除文档位。这意味着所有自上次全面备份后发生变化的文件,在各差量备份过程中,都将被复制。它对所需恢复的类型有着重要影响。
三种逐文件备份方式的图示如下:
备份要想成功,您就必须能在发生数据丢失时恢复已备份的数据,因此选择合适的数据备份策略十分重要。备份策略的选择并非完全以围绕数据备份的问题为基础,在选择最佳策略时也必须考虑到恢复的问题。
磁带技术
磁带格式是指磁带中数据的记录方式。当前,主流的磁带格式主要分为线性记录和螺旋记录两大阵营,两种技术各有所长。采用线性记录的磁带格式主要有DLT、SuperDLT、LTO等,而采用螺旋记录磁带格式的主要有DAT、AIT等。下面我们对部分磁带格式做简单的介绍。
DLT与SDLT
DLT(Digital Linear Tape,数字线型磁带)技术最早由DEC公司于1985年开发,主要应用于VAX小型机系统,之后被Quantum公司购买。DLT以纵向曲线型记录法记录数据,具有大容量、高速度的特点,使用单轴1/2英寸磁带仓,主要应用于中、高端数据库存储和磁带库中。DLT磁带机的本机容量为10GB~40GB,非压缩数据传输速率为1.25MB/s~6MB/s。
为了提升DLT磁带机的性能,Quantum公司于2001年推出了SuperDLT(SDLT)格式,这是在DLT技术基础上结合新型的磁带记录技术而推出的。虽然SuperDLT对DLT磁带做了很多改进,但它仍然可以读取DLT磁带,为市场保有量相当大的DLT4000、
DLT7000、DLT8000和DLT1系列驱动器以及数百万台DLT IV数据盒式磁带机提供良好的向后读兼容,保护用户在现有DLT介质上的投资。SuperDLT第一代产品SDLT
220的本机容量为110GB,近3倍于DLT磁带系列产品,其传输速率为11MB/s(非压缩),则是DLT的2倍。2002年7月,SDLT
320磁带产品也已问世,它将每盘磁带的容量提高到160GB,传输速率达到16MB/s(非压缩)。SuperDLT磁带驱动器推出后得到了主流系统OEM厂商的广泛支持,被认为是具有发展潜力的高性能磁带机。
LTOLTO(Linear Tape Open,线性磁带开放协议)是由HP、IBM和Seagate于1997年制定并投资数百万美元联合研发出的磁带技术。按照最初的计划,LTO有两种格式,即Ultrium和Accelis。目前已经推出的是Ultrium格式,它采用单轴1/2英寸磁带,其第一代产品本机最大容量为100GB、传输速率最大15MB/s。为确保Ultrium格式的可互换性,一家独立的第三方机构——LTO符合性验证组织(Compliance
Verification Entity,CVE)每年都要对符合该格式的产品做兼容性测试,以保证这些产品遵守Ultrium格式的规格,以及各厂商推出的产品和各代产品间数据的可互换性Ultrium第
一代产品自2000年9月由IBM率先推出。2002年11月,HP公司率先推出了在容量和速度上均是第一代产品2倍的Ultrium第二代产品,其本机容量为200GB,按照2:1的比例压缩,其容量将达到400GB;传输速率将达到30MB/s(非压缩)。
DATDAT(Digital Audio Tape,数字音频磁带)技术最初由HP公司和Sony公司联合开发,以螺旋扫描技术为基础,将数据转化为数字后再进行存储。早期的DAT技术主要用于对声音的记录,随着技术的不断完善,之后,DAT又被应用于数据存储领域,涉及所有的服务器平台,从PC服务器到Unix服务器,为企业环境提供了灵活的存储解决方案。DAT技术从DDS-1一直发展到DDS-4,目前存储容量最高为40GB,搜索全部磁带的时间小于1分钟。但是,由于对DAT技术下的DDS-5不看好,Sony公司已宣布就此打住,退出DDS-5的开发,转而开发AIT格式的磁带机。不过,DDS市场目前仍是一个巨大的市场,DAT磁带也以其独有的特性仍然活跃在磁带市场上。
AIT
AIT(Advanced Intelligent Tape,先进智能型磁带)是Sony公司的专有技术。该技术以高可靠性、快速数据传输率、最长磁头和磁带寿命而领先。AIT磁带中应用了大量的尖端技术。目前,AIT-3磁带容量为100GB,如采用2.6:1的数据压缩比,容量将达到260GB,传输速率为12MB/s。从AIT-1到AIT-6,Sony承诺向下兼容,使AIT用户可以根据需要升级AIT产品.
磁带技术的比较
top
DAS的概念DAS是数据存储领域产生最早、发展时间最长的数据存储方式,至今仍占有重要的地位。DAS(Direct
Attached Storage,直接附加存储),或称之为SAS(Server-Attached Storage,服务器附加存储),它被定义为直接连接在各种服务器或客户端扩展接口下的数据存储方式,比如存储设备直接连接在服务器内部或通SCSI通道与服务器连接。它完全以服务器为中心,寄生在相应服务器或客户端上,其本身是硬件的堆叠,不带有任何存储操作系统。传统地,主机与硬盘或阵列是通过SCSI连接方式连接的。当服务器读取数据的能力和CPU的数据处理能力随着科技进步提升时,数据的吞吐能力(Data
I/O)已经证实成为一个系统性能的瓶颈。而且,随着这些系统的复杂性增高,管理和拥有这些系统的成本也大幅度攀升。
DAS的网络朋兴描述
这是传统的直接连接方式的存储设备与服务器连接示意图。存储设备与服务器之间的通讯路径是固定的和专用的,一般为SCSI通道,当然还有其他方式的通道。直接连接的存储系统可以是一个单独的硬盘,一个RAID磁盘阵列或其他的存储设备,服务器通常以块(Block)的方式与存储设备通讯。
DAS的优势与劣势
DAS经历那么长时间的发展,其优势是显而易见的,同样,随着技术的发展,劣势也表现得越来越明显。
优势:
·被大多数的从业人员所熟悉
·技术比较成熟
·有比网络存储要低的采购成本(除去相应服务器的采购成本)
·拥有最多的成功案例
·有成熟的配套管理软件:HP Openview、CA Unicenter、Tivoli等
·多种连接方式(SCSI、FC等)
劣势:
·不支持多协议客户端
·分散式数据管理方式,不利于大量数据的管理
·存储容量增加时,这种方式的扩展能力很差,同时相应管理软件也会升级
·高并发用户数条件下易造成数据堵塞,影响使用
·较高的维护成本
·服务器出现异常,数据无法访问
·市场发展状况堪忧,正逐渐被其它高性能的数据存储解决方案所替代
NAS
NAS的概念网络存储服务器NAS(Network Attached
Storage),是一个专用为提供高性能、低拥有成本和高可靠性的数据保存和传送产品。NAS设备是为提供一套安全,稳固的文件和数据保存,容易使用和管理而设
计,其定义为特殊的独立的专用数据存储服务器,内嵌系统软件,可以提供 NFS、SMB/CIFS 文件共享。NAS是基于IP协议的文件级数据存储,支持现有的网络技术,比如以太网、FDDI等。NAS设备完全以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而有效释放带宽,大大提高了网络整体性
能,也可有效降低总拥有成本,保护用户投资。把文件存放在同一个服务器里让不同的电脑用户共享和集合网络里不同种类的电脑正是NAS网络存储的主要功能。正因为NAS网络存储系统应用开放的,工业标准的协议,不同类型的电脑用户运行不同的操作系统可以实现对同一个文件的访问。所以已经不再在意到底是Windows
用户或UNIX用户。他们同样可以安全地和可靠地使用NAS网络存储系统中的数据。
NAS的网络朋兴描述
NAS是一套直接连接到以太网络上的存储设备并以工业界标准网络文件系统,如NFS、SMB/CIFS Over TCP/IP为接口。NAS设备提供一个以文件为层面的接口与外界通讯,它与附属于它的存储设备之间的通讯也是块(Block)层面。NAS有紧密连接和非紧密连接的存储系统,文件系统存在于NAS服务器里。
NAS的特点NAS以其流畅的机构设计,具有突出的性能:
·移除服务器 I/O 瓶颈:NAS是专门针对文件级数据存储应用而设计的,将存储设备与服务器完全分离,从而将服务器端数据I/O瓶颈彻底消除。服务器不用在承担向用户传送数据的任务,更专注于网络中的其它应用,也提高了网络的整体性能。
·简便实现 NT与UNIX下的文件共享:
NAS支持标准的网络文件协议,可以提供完全跨平台文件混合存储功能。不同操作系统下的用户均可将数据存储一台NAS设备中,从而大大节省存储空间,减少资源浪费。
·简便的设备安装、管理与维护:
NAS设备提供了最简便快捷的安装过程,经过简单的调试就可以流畅应用。一般基于图形界面的管理系统可方便进行设备的掌控。同样,网络管理员不用分别对设备进行管理,集中化的数据存储与管理,节省了大量的人力物力。
·按需增容,方便容量规划:
NAS设备可以提供在线扩容能力,大大方便了网络管理员的容量设计。即使应付无法预见的未来存储容量增长,也显得异常轻松自如。而且,这种数据容量扩充的时候,不用停顿整个网络的服务,这将极大
的减少因为停机造成的成本浪费。
·高可靠性:
除了刚才我们提到的因为移除服务器端I/O瓶颈而大大提高数据可用性外,NAS设备还采用多种方式提高数据的可用性、可靠性,比如RAID技术的采用、冗余部件(电源、风扇等)的采用以及容错系统的设计等,当然对于不同的设备,可能也会采用其他更高性能的方式或解决方案。
·降低总拥有成本:
NAS有一个最吸引用户的地方,就是具有极低的总拥有成本,我们将在下一节具体讨论NAS的总拥有成本的问题。
SAN的概念 SAN(Storage
Area Network,存储区域网),被定义为一个共用的高速专用存储网络,存储设备集中在服务器的后端,因此SAN是专用的高速光纤网络。架构一个真正的SAN,需要接专用的光纤交换机和集线器。存储区域网络是网络体系结构中一种相对新的概念,也是链接服务器和独立于工作网络的在线存储设备的网络。虽然,网络依然在发展过程中,但最重要的
SAN 技术似乎是用于 SCSI 总线连接的光纤通道改进功能。
SAN的网络朋兴描述
SAN拥有一套专用的网络作为连接存储设备、备份设备和服务器之用。这个网络以光纤交换机为中心。这 个专有的存储网络可以是一个箱子或一个机柜,或以一大串系统和大面积覆盖的系统所组成。SAN的连接是在服务器的后方和以块(Block)的方式与外界通讯,文件系统依然存在服务器中。
SAN的优势SAN的优势可以表现在一下几个方面:
·高数据传输速度:
以光纤为接口的存储网络SAN提供了一个高扩展性、高性能的网络存储机构。光纤交换机、光纤存储阵列同时提供高性能和更大的服务器扩展空间,这是以SCSI为基础的系统所缺乏的。同样,为企业今后的应用
提供了一个超强的可扩展性。
·加强存储管理:
SAN 存储网络各组成部分的数据不再在以太网络上流通从而大大提高以太网络的性能。正由于存储设备与 服务器完全分离,用户获得一个与服务器分开的存储管理理念。复制、备份、恢复数据趋向和安全的管理可以中央的控制和管理手段进行。加上把不同的存储池
(Storage Pools)以网络方式连接,企业可以以任何他们需要的方式访问他们的数据,并获得更高的数据完整性。
·加强备份/还原能力的可用性:
SAN的高可用性是基于它对灾难恢复,在线备份能力和对冗余存储系统和数据的时效切换能力而来。
·同种服务器的整合:
在一个SAN系统中,服务器全连接到一个数据网络。全面增加对一个企业共有存储阵列的连接,高效率和经济的存储分配可以通过聚合的和高磁盘使用率中获得。
综合SAN的优势,它在高性能数据备份/恢复、集中化管理数据及远程数据保护领域得到广泛的应用。
SAN与NAS的比较SAN和NAS是目前最受人瞩目的两种数据存储方式,对两种数据方式的争论也在一直进行着,即使继续发展其他的数据存储方式,也或多或少的和这两种方式存在联系。
NAS和SAN有一个共同的特点,就是实现了数据的集中存储与集中管理,但相对于一个存储池来讲,SAN和NAS还是有很大差别的。NAS是独立的文件服务器,存储操作系统不在停留在通用服务器端,因此可以实现
的同一存储池中数据的独享与共享,而SAN中的数据是基于块级的传输,文件系统仍在相应的服务器上,因此对于一个混合的存储池来讲,数据仍是独立存在的,或者说是服务器在独享存储池中的一部分空间。这两个存储方案的最大分别是在于他们的访问方法。SAN存储网络系统是以块(Block)级的方式操作而NAS网络存储系统是以文件(File)级的方式表达。这意味着NAS系统对于文件级的服务有着更高效和快速的性能,而应用数据块(Block)的数据库应用和大数据块(Block)的I/O操作则以SAN为优先。基于SAN和NAS的很大不同,很多人将NAS和SAN绝对的对立起来,就目前的发展观点来看,这一绝对的对立是不能被市场接受的,相反更多的数据存储解决方案趋向于将NAS和SAN进行融合,这是因为:
·一些分散式的应用和用户要求访问相同的数据
·对提供更高的性能,高可靠性和更低的拥有成本的专有功能系统的高增长要求
·以成熟和习惯的网络标准包括TCP/IP, NFS和CIFS为基础的操作
·一个获得以应用为基础而更具商业竞争力的解决方案欲望
·一个全面降低管理成本和复杂性的需求
·一个不需要增加任何人员的高扩展存储系统
·一套可以通过重构划的系统以维持目前拥有的硬件和管理人员的价值 由于在一个位置融合了所有存储系统,用户可以从管理效率、使用率和可靠性的全面提高中获得更大的好处。SAN已经成为一个非常流行的存储集中方案,因为光纤通道能提供非常庞大的设备连接数量,连接容易和存储设备与服务器之间的长距离连接能力。同样地,这些优点在NAS系统中也能体验出来。一套会聚SAN和NAS的解决方案全面获得应用光纤通道的能力,从而让用户获得更大的扩展性,远程存储和高性能等优点。同样这种存储解决方案全面提供一套在以块(Block)和文件(File)I/O为基础的高效率平衡功能从而
全面增强数据的可用性。应用光纤通道的SAN和NAS,整个存储方案提供对主机的多层面的存储连接、高性能、高价值、高可用和容易维护等优点,全由一个网络结构提供。
top |