IT运维36计:

1.IT运维中应对故障要先恢复再排查,无计可施重启试试。

2.每个偶然的故障背后都深藏着必然的联系,找到问题根源并优化掉。

3.运维的标配软技能:责任心、沟通力、执行力。

4.日常运维口令:打补丁、传文件、批处理、改配置、包管理、看监控。

5.先量化管理对象,再优化管理对象。

6.数据安全是底线,即使不服务也不能丢数据。

7.生产网络的变更切忌三思而后行,一个回车敲下去是永远无法撤回。

8.变更前检查环境、信息收集必须到位,变更后的前后对比。

9.网络监控不是监控网络,目的是监控业务。

10.口说无凭,以工单办事。

11.面对闪断,要确定好抑制策略和回切策略。

12.建立完善的流程制度是运维管理的核心价值。

13.意识问题,提高重视程度,往往都是小变更出现故障,大变更因为非常重视,一般不出故障。

14.停用或关闭无用的服务,系统服务最小化。

15.任何数据删除都要默认进回收站,不可偷懒跳过。

16.出问题的第一时间要公告给用户,否则各种询问的唾沫会淹死理你。

17.故障恢复时间能快则快,哪怕一分钟,TTL生效时间要针对业务适配。

18.网络安全要牢记,开放外网高危端口需谨慎。

19.保持应用运行的独立性,防止交叉依赖的程序存在。

20.养成日常巡检核心监控属性的习惯。

21.运维删除数据务必备份,并且要谨慎,禁止人工线上删除数据。

22.不同年限的设备性能不同,磁盘的读写能力不一致,要区别对待,老化磁盘要定期淘汰

23.存储冷热数据分离,业务硬要能识别冷数据。

24.存储机架和普通设备不一样,用电也不同,做好机架和交换机级别的容灾准备。

25.进程启动权限最小化,尽可能使用非ROOT账号启动进程。

26.重要的密码一定不能同其他互联网账号密码相同,特别是同其他小网站的账号密码相同,避免被撞库。

27.运行的业务进程尽量不要输出敏感信息到日志文件中,避免JAVA代码打印数据库链接的账号信息等。

28.所有配置里的秘钥要加密存储,关注平台安全。

29.轻量级非数据服务要有机房间切换能力,加快恢复速度。

30.大规模和小规模场景不是量的变化,是质的差异。

31.实时计算链路长,延时敏感。要有各阶段的详细监控指标,方便问题定位。

32.提供用户自助排查作业和重启等基础运维能力。

33.存储瓶颈除了容量,文件数也是个大问题。

34.离在线混布是个节约的好思路。

35.Syslog,authlog等日志定期备份,便于安全事件的追溯和审计。

36.选择一款适合的网管软件,网强IT综合管理软件,一体化监控,简化事件处理流程 、 提高IT运维管理水平。