搜索 解放军报

帮天文学家“大海捞针” 人工智能有了新办法

来源:科技日报 作者:赵汉斌  陈 艳 责任编辑:安思翰
2020-09-01 09:32:36

近年来,随着技术日益进步,天文学研究中产生了海量数据。天文学家要想从郭守敬望远镜、“中国天眼”FAST、LSST大型综合巡天望远镜等遍布世界的大型望远镜捕获的海量数据中找出有价值的信息以资研究,无异于大海捞针。

如何高效地处理这些数据,已成为现代天文学面临的一项重要挑战。由于人工智能在海量数据分析和处理方面所具有的突出优势,它也很自然地走入了天文学家的视野。

日前,中国科学院云南天文台丽江天文观测站龙潜研究员与云南大学中国西南天文研究所宇宙学研究组尔欣中教授团队合作,利用人工智能深度学习的方法,发现了38个新的强引力透镜候选体,为研究天体物理学问题提供了新的可靠的“宇宙探针”候选体。英国《皇家天文学会月刊》发表了这项研究成果。

天文观测产生海量数据 用机器学习给天体分类已十分普遍

随着下一代大规模测光巡天项目的开展,人们期待发现数以万计的强引力透镜系统。但如何在海量天体图像中快速地找到强引力透镜候选体?近年来,人工智能的快速发展,给人类提供了一种新的可能。

以2009年发射升空的世界首个用于探测太阳系外类地行星的飞行器开普勒太空望远镜为例,仅在起初3年半的任务期内,就监控了超过15万个恒星系统,同时也产生了海量数据。这些数据通常要经由计算机处理,但当计算机识别出一定的信号时,又必须依靠人类分析,判断其是否是行星轨道所产生的,这项巨大的筛查工作单靠美国国家航空航天局(NASA)的科学家或科学小组,是无法有效完成的。

“如此大的数据量,人工分析在很多时候已经达不到所需要的速度。借助人工智能的优势,我们可以极大地提升对数据的分析速率。”龙潜向科技日报记者介绍,人工智能展现出来的效率和准确性远高于传统方法。

龙潜研究员长期从事人工智能深度学习方面的研究。近期,他与尔欣中教授团队合作,构建并训练了一个卷积神经网络,用来寻找强引力透镜系统。他们把这个网络应用到欧洲南方天文台2.6米巡天望远镜(VST)千平方度巡天数据,并找到了38个新的强引力透镜候选体。此次构建的神经网络,也可应用于其他大型望远镜的巡天数据。

“在这项工作中,我们用计算机分别模拟了强引力透镜图像和非强引力透镜图像,从而来训练计算机。我们发现,在准备训练计算机的图像时,非强引力透镜图像比强引力透镜更加重要。”尔欣中说,开始的分析中,他们使用简单的规则星系图像作为非强引力透镜训练样本,发现结果正确率非常低。只有把各种可能的非引力透镜图像都考虑进来之后,才能得到比较好的结果。

“这就像在教电脑认识什么是狗的时候,还要告诉它猫、羊、牛等都不是狗。而如果你只告诉它猫不是狗,电脑有非常大的概率把羊、牛认成狗。”龙潜说,目前利用机器学习来对天文学中各种天体分类已经非常普遍,最简单的是把恒星和星系分开,或者把不同行态的星系进行分类,以及利用星系的多重颜色来估计星系的距离等。

每秒可识别上万张照片 新型神经网络便于实时修改、训练和测试

人眼看强引力透镜系统的图像,最快就是每秒钟看一张图。而计算机每秒钟可以识别成千上万张图片。

龙潜研究员和尔欣中教授团队此番训练的这个卷积神经网络,可以充分利用GPU进行并行加速,通过装备更多或更强的GPU,系统可以根据实际需要极大提升搜索速度和效率。

“这个神经网络的训练,主要使用模拟数据,只使用了很少的人工标注数据,由于模拟数据可以任意生成,因此多样性远大于人工标注数据,进一步根据数据的特点调节训练参数和训练算法,使神经网络的泛化能力得到了极大的提高。”龙潜说,此外,研究人员使用新型科学计算语言Julia完全自定义网络结构,由于Julia语言兼具速度和灵活性,使得神经网络在CPU和GPU上都有良好的性能,并且可以任意切换,因此非常有利于研究人员实时修改、训练和测试。

“我们还通过对引力透镜数据的研究,定制了有针对性的小型网络,有效地抑制了过拟合现象,同时实验证明该网络具有与大型网络相似的准确率。相比大型网络,小型网络在普通计算机终端就可以训练和测试,不需要依赖大型GPU集群,这为天文工作者使用和改进网络提供了便利。”龙潜说。

目前,随着技术与装备水平快速发展,人工智能在天文学上的应用还会越来越多。“我们计划对一些变源的多波段光变曲线来进行机器的快速分类,这样在实施大样本巡天的时候,电脑可以自动对所发现的变源进行筛选,并对我们感兴趣的天体做出提示,以便进一步开展后续研究工作。”尔欣中说,正因为人工智能的帮助,天文研究者得以从耗时单调的数据筛查分析中解脱出来,当人力“大海捞针”难以招架之日,正是人工智能大显身手之时。

(记者 赵汉斌 通讯员 陈 艳)