首页 > 野狼社区中文第一社区 >保存您的工作:研究人员运行最大的已知透明检查点过程
2018
04-18

保存您的工作:研究人员运行最大的已知透明检查点过程


由东北大学计算机与信息科学学院(CCIS)博士候选人曹家军率领的一个研究小组最近完成了似乎是透明检查点最大的已知实例。

透明检查点允许计算机科学家和大型项目工程师在不修改任何代码的情况下保存并重新打开程序。这可以确保研究人员在数百或数千台计算机上工作,在计算机发生故障的情况下,他们的工作将是安全的。他们的程序运行在CPU内核上,计算机可以包含多个内核,允许他们跨多个内核同时运行一个程序。透明的检查点可以简化处理大量数据的计算机科学家的工作,并使用超级计算机来处理这些数据。例如,使用透明点检测软件,气象学家可以处理和分析数十亿计的天气数据,而不用担心计算机崩溃可能会抹去工作。

CCIS教授,基金顾问Gene Cooperman解释说:“检查点的思想是,可以运行计算,自动停止计算,并将所有事情都保存在磁盘上。 “那么你可以将该文件复制到另一台计算机或保持在同一台计算机上。当你重新启动时,程序会继续从停止的地方继续运行。“Cooperman与负责检查点的分布式多线程检查指派(DMTCP)软件的工作现在已进入第二个十年。

透明检查点的显着特征是什么使得在短时间内运行和保存的大量数据成为可能。支持消息传递接口(MPI)的MVAPICH软件用于在2,048台计算机上运行32,768个CPU内核的线性代数的高性能共轭梯度(HPCG)程序。它使用了38 TB的总内存,并在10分53秒内检查点。第二个程序纳米分子动力学(NAMD)在1024个计算机上的16,368个CPU内核上并行运行,总内存为10TB。它在两分38秒内检查点。在11分钟或更短的时间内检查这些数据量对于科学家来说是一个突破,通常受限于必须在24小时内修改并保存它们才能运行程序。

这些过程是在得克萨斯州高级计算机中心(TACC)的Stampede超级计算机上进行的。牛仔是世界上最大的超级计算机之一。这项研究得到了国家科学基金会授予Cooperman的DMTCP项目的资助,根据该项目,曹的检查点研究正在落实。 “这些结果显示了美国国家科学基金会支持的极端科学和工程发现环境中的扩展协作支持服务如何帮助科学家和开发人员提高其高性能计算集群上的代码的可扩展性和效率”,JérômeVienne说。研究助理在TACC。俄亥俄州立大学MVAPICH团队的负责人Dhabaleswar K. Panda解释说:“这项协作工作的结果进一步推动了MVAPICH2库在容错和检查指向方面的能力。”

Cao的合作者包括Mesophere公司的Kapil Arya。东北大学的Rohan Garg和Gene Cooperman;纽约州立大学布法罗分校计算研究中心的Shawn Matott;俄亥俄州立大学的Dhabaleswar K. Panda和Hari Subramoni;以及德克萨斯大学奥斯汀分校德克萨斯高级计算中心的JérômeVienne。

可以在线阅读标题为“系统级可扩展检查点 - 重新启动Petascale计算”的论文。这项工作将于2016年12月在第22届电气与电子工程师学会并行与分布式系统国际会议(ICPADS)上发布。