快捷搜索:   服务器  安全  linux 安全  MYSQL  dedecms

Exchange 2003 设计与体系结构 (2)(2)

  3.确保不论到主机的路径有多少条,只有一个 LUN 表示。

  OTG 的 Secure Path 实施在每个主机上使用两个 FCA,两个光纤信道数据交换机,以及两个存储控制器。每个 FCA、交换机和控制器组构成了一个所谓的 Fabric。Secure Path 允许每个 SAN 使用两个独立的 Fabric,而且 Fabric 的每个元素都与两条 Fabric 的从属元素互连。更精确地说,一个集群中的每个活动节点主机通过安装在每个主机上的两个 FCA 相互连接(每个交换机一个 FCA)。每个交换机接受来自每个主机的入站数据并且有两条出站数据连接,每个控制器一条。每个控制器有两条入站数据连接,每个交换机一条,并且有一条到 SAN 模组的出站数据连接。Secure Path 使得 OTG 能够在运行时容忍在一个 FCA、一条连接线缆、一个交换机、或者一个控制器中的单个组件故障。当一个组件发生故障时,服务性能会受影响,但它仍然能够继续无缝地运行。

  Secure Path 还能够帮助消除节点和连接到的 SAN 存储之间的许多单点故障。当发生一个组件故障只影响到组成 SAN Fabric 的每个主机上的单个 FCA、多条光纤线缆、光纤信道交换机、或单个存储控制器时,OTG 能够维持服务。该组件故障通过 Secure Path 探测,它将 LUN 从故障路径移动到一条可用的路径,从而确保 I/O 得以维持。此过程称为故障转移,它在维持 LUN 可用性的同时不会造成任何资源停机时间。一旦故障组件被替换,就能够使用 HP 的 Secure Path Manager 对故障转移 LUN 进行故障恢复以恢复最佳的 I/O。

  图 2 展示了使用 Secure Path 连接一个 16,000 邮箱 SAN 的总部数据中心集群实施。

  Exchange 2003 设计与体系结构 (2)

  图 2:连接一个数据中心集群与一对 SAN 的 Secure Path

  浏览全尺寸图像。

  备份和恢复

  通过实施集群服务器环境中的 Exchange 2003,OTG 设计了一个两段式备份过程(磁盘到磁盘和磁盘到磁带)以更好地满足它的 SLA。此过程防止了磁带备份过程影响生产服务器的性能,并且在管理数据恢复过程方面提供了更大的灵活性。此解决方案基于下面的组合:

  •Exchange Server 2003

  •Microsoft Windows Server 2003,Enterprise Edition

  •支持磁盘到磁盘备份的 Windows NT Backup

  •支持磁盘到磁带备份的 Veritas 存储管理解决方案

  过去,在直接相连 SCSI 存储服务器实施上维持一小时备份恢复 SLA 是非常具有挑战性的。这些服务器设计使用一步的备份过程(磁盘到磁带),其中备份通过千兆 LAN 传输到磁带库。OTG 的经验显示它们能够以大约每秒 36-37 MB 的速率移动数据,即大约每小时 33+ GB。备份被限制在非商务时间内进行,以尽量避免对(在这些服务器上有邮箱的)客户产生影响。但是,如果备份在上午 7 点以前还未完成,就必须取消。否则,继续进行的备份过程将会对客户的通信基础结构的系统性能造成极大的负面影响。

  在 Exchange 2000 中恢复一个受损的邮箱存储意味着 1,000 个邮箱在恢复操作期间暂停服务长达六个小时或更长时间。这代表每个用户每小时因丧失生产效率而损失 60 到 80 美元。单邮箱恢复操作需要有专用的恢复服务器。图 3 显示了这一配置。

  Exchange 2003 设计与体系结构 (2)

  图 3:以前的区域消息备份环境

  浏览全尺寸图像。

  两段式备份解决方案

  为了解决这些问题并支持服务器整合,OTG 设计了一个灵活的、两段式过程用于在多节点的集群配置中备份数据 - 磁盘到磁盘(阶段 1)和磁盘到磁带(阶段 2)。

  OTG 充分利用了这样一个事实:在一个集群资源组中的资源能够在该资源组内移动而不依赖于其它的资源组。例如,一个集群 Exchange 服务器的一个活动节点除了连接到用于恢复生产数据的资源组外,还被连接到一个独立的专用备份 LUN 集群资源组。

  在第一阶段,备份在集群内的所有活动节点上运行以完成在线的、磁盘到磁盘的备份,数据通过直接相连的光纤信道从生产数据资源组内的 LUN 到达备份资源组内的 LUN。备份资源组具有支持两条的在线保留的容量。一旦该过程完成,备份资源组中的 LUN 的控制被转移到一个备用的非活动节点。此时,非活动节点启动第二阶段,磁盘到磁带的备份,数据通过一个直接相连的光纤信道从备份资源组到达磁带库。这一过程将活动阶段从等待磁盘到磁带传输的时间中解放出来,从而将活动阶段用于处理数据备份操作的时间最小化。此过程如图 4 所示。

  Exchange 2003 设计与体系结构 (2)

  图 4:两段式备份过程

  浏览全尺寸图像。

  OTG 选择了这种两段式过程而没有选择使用直接光纤连接到磁盘库的、一段式的、磁盘到磁带的备份。虽然一段式过程不需要在 SAN 配置备份 LUN,从而可以在 SAN 中腾出更多额外存储用于更多的邮箱,但 OTG 认识到它无法承受当集群中的节点发生从磁带库断开连接的故障时损失宝贵的生产时间的风险。当发生这种故障时,节点服务器必须重启才能重新将服务器连接到磁带库。如果活动节点是执行此项工作的服务器,OTG 需要对该节点进行故障转移,以便使它能够重启并重新连接到磁带库。OTG 认为这对系统可用性是一个无法接受的风险。相反,通过在一个不支持用户的非活动节点上执行备份到磁带的工作,当该非活动节点需要重启以恢复服务器到库的连接时,不会造成生产服务的损失。

  每数据库的在线备份被定期安排在晚上 8:00 到凌晨 1:30 之间,让 OTG 对每个服务器进行完全备份。数据库按每个 SG 同时备份。这里有一个重要的特性,Exchange 2003 允许在每 SG 的基础上进行并行备份与恢复操作。因此,对每个数据库的备份操作可以交替进行。

  恢复解决方案

  利用 OTG 的新集群解决方案,一个服务器硬件故障只是一次自动集群节点故障转移;服务几乎不受影响。如果发生磁盘故障,则需要根据故障范围和故障发生于一天中的哪个时段来实施不同的恢复方案。

  方法不再依赖于方案

  在过去,部署什么样的恢复方案取决于故障的类型和范围以及商务优先级。在 Exchange 2000 中,组织可以在下面两种方案中任选其一:快速恢复消息服务但放弃对旧的邮箱数据的立即访问,或者恢复对他们的服务的完全访问但需要花费更多的时间。

  例如,如果一个数据库被丢失,最多可能会影响 200 个用户。因为磁盘上有最多达两天的备份数据,而且可以在一个小时内在线恢复(恢复速率最高为每分钟 2 GB),所以使用常规 Exchange 恢复过程来快速地在线恢复用户的邮箱数据。

  注:每个 Exchange 数据库由两个文件组成: Exchange Database(EDB)文件和 Streaming Media(STM)文件。

  在 Exchange 2000 中,如果整个 SG 丢失,那么故障在一天中哪个时段发生往往是决定如何处理的关键因素。如果故障在工作时间发生,那么恢复服务常常优先于恢复数据,后者可以在以后恢复。在该方案中,损坏的数据库被删除并重建(一个称为“清除数据库”的过程)。

  如果故障发生在较晚的非工作时间,OTG 优先选择更快速地恢复所有丢失的数据,而牺牲立即恢复服务。在这种情况下,他们选择执行恢复而不清除受影响的数据库。

  图 5 展示了 OTG 用于决定是先恢复服务后恢复数据还是同时恢复数据和服务的决策树。

  Exchange 2003 设计与体系结构 (2)

  图 5:OTG 生产恢复决策树

  浏览全尺寸图像。

  使用恢复存储组(RSG)

  在 Exchange 2003 中,通常都能快速恢复服务而不管数据库故障发生于一天中的哪个时间段。从前一夜的磁盘到磁盘备份恢复数据的过程不是等到非工作时间进行,而是立即开始。

  为了尽可能快地恢复数据,OTG 可以使用一种称为 RSG 新的 Exchange 2003 特性,这是一个特殊的离线 SG,专门用于从备份重建一个丢失的 SG。虽然 Exchange 2003 在生产中只为用户支持四个 SG,它现在支持 RSG 作为一个额外的离线 SG - 一个不支持生产用户访问的 SG。

  OTG 创建一个临时 RSG 并将受损的数据库从备份源恢复到临时 RSG 中。一旦从备份的恢复完成了,从故障点到备份完成这段时间内产生的数据通过重播事务日志进行恢复。这一过程大大加快了恢复用户消息服务和从受损数据库恢复他们的数据的速度。当事务日志的重演完成后,已恢复的数据库在 RSG 和新的已清除的 SG 数据库之间交换。然后在电子邮件服务的恢复时刻和数据恢复完成时刻之间产生的所有新数据从被清除数据中导出并使用 Microsoft Exchange Mailbox Merge Wizard(也叫做 ExMerge)导入到已恢复的数据库中。RSG 随后被删除。因为数据库恢复速度受限于基于 LAN 的磁带,此方法也可以用于旧式的非集群服务器,当前它们正处于整合过程中。在大型的存储故障中,必须恢复大量的数据,而且许多邮箱在数据恢复之前可能要等待很长时间。

  更多有关 OTG 的 Exchange Server 2003 备份与恢复的信息,请参阅 http://www.microsoft.com/china/technet/itsolutions/msit/default.mspx 页面上题为“Microsoft 的消息备份与恢复”的 iT Showcase 技术案例研究。

  未来的备份技术

  OTG 当前正在测试将 Window Server 2003 的一个称为卷影复制服务(VSS)的新特性用于一步的 Exchange 备份。此服务允许基于本地文件系统或基于特定厂商存储的数据快照功能。

  VSS 提供了克隆磁盘数据、在单个时间点创建该数据的镜像的能力。OTG 的目标是结束它对当前的两段式在线备份过程的依赖,转而使用 VSS 在午夜克隆它的服务器,然后在中午 12 点和下午 6 点对一套新的克隆 LUN 使用 VSS 差分快照。在一个事故中,OTG 将根据数据损失的范围和事故发生的时间段来决定是使用最后已知良好 VSS 克隆还是使用快照来恢复数据。例如,如果在下午 2 点后,一个数据库因为受损而离线,那么恢复该数据库数据和服务的最容易和最快速的方法是从中午的快照恢复数据。如果在深夜探测到数据库损坏,因为那时候的通信量负载很轻,所以从最后克隆恢复数据是更可取的方法。如果使用 VSS 恢复大量的数据,今天需要几小时的时间才能完成的恢复任务仅需几分钟就够了。

  VSS 作为一个备份解决方案,需要依赖许多第三方工具才能使它高效工作。需要一个请求程序、一个供应程序和一个写入程序。OTG 正在测试将 VSS 作为“快照加克隆”集成的可能的解决方案的运作优点。到撰写本文时为止,VSS 还没有用于 OTG 的生产备份,仍然处于测试阶段。

  使用 Microsoft Operations Manager(MOM)2000 进行管理和监视

  在 Exchange 2000 中,OTG 使用一个内部开发的名为 Prospector 的工具来监视 Exchange server。Prospector 监视关键的指示器,如服务运行、安装的服务器以及磁盘使用率。Prospector 非常高效,但用处有限。

  在 OTG 开始移植到 Exchange 2003 之前不久,OTG 决定从 Prospector 移植到带有 MOM Exchange Management Pack 的MOM 2000来管理它的 Exchange server。MOM 是一个企业系统管理应用程序,它使用一个客户端代理从被监视服务器的事件日志中收集预定义的事件,并存入一个中央数据库。它还会创建警告来响应预定义事件,并将其路由到受数据中心操作人员监视的中央控制台。

  除了许多其它功能之外,MOM 还为 Exchange Server 提供了特殊的管理规范。受监视的关键 Exchange 2003 管理数据包括服务器状态、性能标准和消息队列状态。MOM 还提供了可自定义的“知识脚本”(KS),它使系统管理员能够为操作系统或应用程序创建特定的管理目标。Microsoft 广泛使用 MOM KS 功能来管理 Exchange 2003 环境。表 5 提供了 Microsoft 用于 Exchange 2003 的一些关键 MOM 知识脚本的概述。

  表 5:用于 Microsoft Exchange 2003 部署的关键 MOM 知识脚本

  知识脚本目的

  Service Monitor轮询重要的 Exchange 服务,如 STORE.EXT,并在这些服务中断时产生警报。

  Backup Monitor此脚本监视备份操作和数据库以检验常规备份操作是否正在进行。此脚本列举 SG,检验日志文件和数据库头以确保它们已备份。

  Disk Space Monitor此脚本检验是否有足够的磁盘空间用于事务日志、数据库和备份卷。此脚本检验是否有至少 20% 的可用空间。

  Event Log Monitor此脚本检查关键的 Exchange 2003 事件日志错误。它还寻找已经卸除的数据库。

  Availability Monitor此脚本通过在每个信息存储上执行测试登录来检验 Exchange 服务是否可用。

  Discovery此脚本为了配置管理目的对诸如软件版本、service pack、驱动程序等项目执行版本发现。

  Active Directory Monitor此脚本监视 Exchange 2003 服务器以发现访问 AD 方面的问题。Global Catalog 和 DS_Access 错误是此 KS 关注的关键问题。

  MOM 使用存储转发技术来收集事件,这样即使在正常的服务器操作期间发生临时网络中断,也能够可靠地传递事件。MOM Application Management Packs 是一系列预定义的事件和阀值,用于捕获与特定服务器应用程序最相关的数据。

  MOM 使用一种称为配置组的组织结构来管理被监视的服务器。一个配置组通常由一个数据库、一个或更多 DCAM(数据访问服务器 + 整合程序和代理管理器)服务器,以及一个或更多在所有被监视计算机上运行的代理组成。

  一旦系统正常运行,特别是在应用了 MOM Exchange Management Pack 并针对 OTG 的需求进行了合适的调整之后,使用 MOM 通过 WAN 来监视服务器就只会造成非常少的网络流量开销。因为这种高效率,早期的计划(使用五个 MOM 配置组以更好地管理 MOM 在 WAN 上的流量)被认为不必要而被放弃了。该过程十分高效,因此 OTG 只需要一个 MOM 配置组就能够监视全球所有的 Exchange server,而部署一个 MOM 配置组服务器的成本只需 50,000 美元。

  在调整 MOM Exchange Management Pack 时,OTG 没有采取修改默认管理包的办法,而是创建一个自定义 OTG 管理包来维护新的和已修改的规则。这包括收集默认设置没有指定的数据、改变默认的数据收集参数和阀值等。OTG 仍然使用其自定义管理包来管理其处理环境中特有的特殊备份事件。OTG 将所有这些调整与整合反馈都提交给产品开发组,让他们将其包含到发布的产品中。

  更多有关 MOM 的信息,请参阅 http://www.microsoft.com/technet/itsolutions/msit/default.mspx 页面上题为“Monitoring Messaging at Microsoft”的 IT Showcase 技术解决方案摘要和题为“Monitoring Enterprise Servers at Microsoft”的 iT Showcase 技术白皮书。

  应用程序管理

  一旦 MOM 检测到来自一个远程服务器的警报,OTG 能够使用 Windows Server 2003 中内置的远程管理工具来访问该服务器以进一步调查和诊断问题。

  远程管理桌面(Remote Desktop for Administration)与远程桌面协议(RDP)

  OTG 使用 Windows Server 2003 和 Windows XP Professional 的远程管理桌面与 RDP 特性来维护远程的 Exchange 2003 server。远程管理桌面由终端服务技术启用,是为服务器管理而专门设计的。因此,远程管理桌面可用于繁忙的服务器,且不会明显影响处理器性能。这对远程管理来说是一种便利、有效的服务。实际上,远程管理桌面用于登录到远程服务器上,就像本地登录一样。

  服务器管理

  OTG 使用 MOM 来创建关于服务器性能的长期趋势数据。然而,MOM 能够管理的最为主动的趋势循环是每隔五分钟左右记录一个数据检查点。OTG 使用 Performance Monitor(PerfMon)- Windows Server 2003 中提供的一个工具 - 进行更实时的性能监视。

  MOM 性能数据保存在八天的时间表中(当天和之前的七天)。OTG 使用在 MOM 中捕获的趋势数据来跟踪向 Exchange 服务器添加软件补丁或硬件驱动程序的性能提示。通过留意性能数据中的趋势何时发生变化,并将其与末班员工变化中维护的 Exchange Server 环境服务器变更记录相比较,OTG 能够更加快速地将性能问题和受益情况与在特定时间所做的特定更改联系起来。鉴于 OTG 环境中极高的变化率,这是 OTG 诊断过程中的一个重要工具。

  HP Insight Manager

  HP Insight Manager 是第一个可用于 PC 服务器的服务器元素管理器。它在 1992 年发布。从那时起,Insight Manager 就奠定了它作为服务器平台管理应用程序的领先地位。OTG 广泛地使用 Insight Manager 来监视与 HP 硬件相关的信息。虽然 Insight Manager 没有具体的 Exchange 管理数据,系统管理器可以使用此工具将来自其他管理应用程序的事件与 OTG 的 Exchange 2003 服务器上的特定硬件情况关联起来。HP Insight Manager 还与 MOM 紧密结合,为系统管理器提供一个统一的管理平台。表 6 显示了一些 Insight Manager 为其提供管理数据的关键对象。

  表 6 HP Insight Manager

  对象Insight Manager 提供的数据

  磁盘子系统Insight Manager 提供了广泛的磁盘监视与诊断信息,这些信息能够与应用程序事件(如 I/O 错误)相关联。

  环境Insight Manager 提供了有关服务器环境特征的信息,如温度、风扇状态和关键的 BIOS 错误。

  版本控制Insight Manager 的版本控制特性提供了有关固件、软件和驱动程序版本的详细信息,对于配置管理很有帮助。

  利用率Insight Manager 提供了关于处理器和 I/O 总线利用率的基于硬件的统计。

  存储管理

  在 SAN 模组上发生的事件不会记录到服务器的事件日志中,而 MOM 正是从事件日志中获得许多警报的。相反,SAN 模组事件存储在 HP Storage Manage Appliance(SMA)中。OTG 也配置 MOM 对 SMA 上的事件进行监视,以便监视 SAN 模组事件。在总部中,一对 SAN 模组安装一个 SMA。在区域中,每个 SAN 模组安装一个 SMA。结合 SMA 一起使用 MOM 能够确保象监视 Exchange 服务器那样有效地监视 OTG 的 SAN 模组。

  最佳实践和经验教训

  作为 Exchange 2003 的最早部署者之一,OTG 学到了许多经验,并且发现和建立了一些最佳实践来增强和优化 Exchange 所提供的服务。

  拓扑结构最佳实践

  OTG 在部署 Exchange 2003 期间获得了许多发现并克服了许多障碍。其中一些与网络的拓扑结构有关。

  Windows Server 2003 要求

  当将一个 Exchange 2000 集群拓扑升级到 Exchange 2003 时,OTG 发现必须在它的集群组中升级每一个 Exchange 虚拟服务器和集群节点,一次一个,只有这样服务器集群才能成功联机。此外,计划升级到 Exchange 2003 的服务器必须首先运行 Exchange 2000 SP3。

顶(0)
踩(0)

您可能还会对下面的文章感兴趣:

最新评论