老男人百科 > 百科 > 正文

阿里云服务器(时间校准服务器)

2023-06-23 07:03:03 阅读( 1799)

  如今,谈及X86服务器平台的CPU,很多人可能对英特尔和AMD两大芯片巨头的产品如数家珍,从之前的至强5400到主流的至强5600、至强7500,以及AMD强劲的12核心x86处理器“Magny-Cours”(马尼库尔)等等。

但是,从前期部署、中期维护到后期管理,X86服务器和台式机有很多相似之处。所以,尽管X86服务器的架构已经成熟稳定,但也不可避免地会出现“罢工”的情况。尤其是企业负载应用更多,

遇到的故障很常见。和你分享三个组件的故障,可以有效防止你出现在未来的商业平台上。

服务器核心——CPU

危险程度:

故障回放:做过测试的朋友都知道,一款基于英特尔至强的服务器,开机没有显示,系统指示灯疯狂闪烁。最直接的怀疑就是CPU和主板接触不良,但是换成多路服务器主板上的另一个CPU插槽,还是没有反应。

无法为CPU提供稳定的工作电压,至今只能更换CPU。

笔者认为这个故障是致命的,CPU的损坏会直接导致整个服务器的不可用,但是CPU本身的安全性很高,故障率极低。所以在日常维护任务中,CPU损坏导致的服务中断很少。

它的危害程度不算太高,如果是多路服务器,就不用担心CPU损坏导致服务器宕机。

服务器平台的另外两个核心是内存和硬盘。至于内存的选择,服务器内存和普通桌面内存还是有一些区别的。仔细观察过服务器内存的用户会发现,相比普通内存单面8颗颗粒的设计,

服务器内存通常一面有9个芯片,也就是我们常说的ECC内存。

服务器读取性能——内存

危险程度:

故障回放:以前在2GB内存的服务器上,由于服务太多,服务器的数据处理速度越来越慢,所以通过增加2个同型号的内存条来升级服务器。将所有这些内存插入主板后,系统只检测到6GB。

另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。

解决方案:通过服务器产品官方网站了解,该种情况是因为该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,

将内存插到5槽,8GB内存顺利被检测。

可见,服务器内存的优势不仅仅体现在性能上,在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,

之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。

作为服务器存储终端,硬盘的稳定工作关系到企业数据的安全,服务器硬盘就是这个核心的数据仓库,所有的软件和数据都存储在这里,因此服务器硬盘对可靠性和稳定性有着非常高的要求。

另外,服务器一般需要24*7小时不停的运行,其硬盘也要24小时不停的运转。因此,服务器硬盘对稳定性和可靠性有着很高的要求。服务器市场上采用的硬盘主要有三种,SATA硬盘、SCSI硬盘以及SAS硬盘,

其中SATA硬盘主要应用在低端服务器领域,而SCSI和SAS硬盘则面向中高端服务器。

服务器存储核心——硬盘

危害程度:

故障回放:每台服务器会出现死机、无征兆的重启,如果频繁出现,就会经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道。于是立即将硬盘做备份和更换是最佳解决办法,将硬盘内的数据导出,

结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。

解决方案:这种情况多数是磁头或者盘片出现了错误。如果拆开硬盘盘片出现了划伤,但面积并不大,通过专业的公司可以通过更换磁头后重新恢复数据,恢复了95%以上的数据,这种情况相对来说比较幸运。

但通常说防患于未然,如果这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,一旦等到盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生建议做到以下:

在硬盘选择上,要专业的服务器硬盘,比如:平均无故障时间超过1600000小时,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐冲击能力等等,此外应用相关服务器RAID阵列技术,

比如:RAID5,它由至少3块硬盘组成,在向硬盘写入数据信息的同时,还写入校验信息,当其中有1块硬盘出现故障时,可以根据算法从另外2块硬盘上得出这块故障硬盘的数据,安全性大大提高。

以上三大组件的故障仅仅是抛砖引玉的简单介绍,其实在服务器故障方面不仅仅限于这几点,在电源、管理模块以及网卡方面也有类似的问题,希望用户在应用中多多积累经验,尽可能减小故障的发生率,

提供一个稳定灵活的IT应用环境。

专题页