拥抱数据变革:知识引导的机器学习
时间:2023-08-20 23:25:05来源:博客园

机器学习(ML)在大规模数据可用的许多应用中的成功,导致了人们对科学学科中类似成就的期望越来越高。数据科学的使用在涉及尚未完全理解的过程的科学问题中尤其有希望。然而,纯粹用数据驱动的方法来建模物理过程可能会有问题。例如,它可以创建一个复杂的模型,它既不能超越训练它的数据,也不能在物理上解释它。当训练数据不足时,这个问题会变得更严重,这在科学和工程领域是很常见的。基于可解释理论的机器学习模型更有可能防止从数据中学习导致不可推广性能的虚假模式。在处理与高风险相关的关键问题(例如,极端天气或生态系统崩溃)时,这一点尤为重要。因此,在复杂的科学和工程应用中,单纯的机器学习方法和单纯的科学知识方法都不能被认为是充分的知识发现方法。该项目正在开发新的技术,以探索基于知识的模型和机器学习模型之间的连续性,其中科学知识和数据是协同集成的。这种综合方法有可能加速一系列科学和工程学科的发现。该项目将培训精通此类方法的跨学科科学家,并将通过同行评议的出版物、开源软件和一系列研讨会传播该项目的成果,以参与更广泛的科学界。

该项目旨在开发一个框架,利用数据科学模型的独特能力,自动从数据中学习模式和模型,而不忽视积累的科学知识的财富。具体来说,该项目通过探索几种将科学知识和机器学习模型结合在一起的方法,建立了知识引导机器学习(KGML)的基础,使用四个领域的试点应用:水生生态动力学、气候和天气、水文和转化生物学。之所以选择这些试点应用,是因为它们正处于知识引导机器学习能够产生变革性影响的临界点。KGML有潜力为科学家和工程师提供对他们感兴趣的领域的新见解,这将需要开发创新的新的机器学习方法和架构,可以结合科学原理。本项目开发的科学知识、KGML方法和软件有可能扩展到广泛的科学应用中,其中使用了机械模型(也称为基于过程的模型)。


(资料图片)

Motivation and Goals

机器学习(ML)模型在有大规模数据可用的商业应用中取得了巨大的成功,例如计算机视觉和自然语言处理,开始在推动科学发现方面发挥重要作用。事实上,数据科学在科学学科中的作用正开始从提供简单的分析工具(例如,在大型强子对撞机实验中检测粒子)转变为提供成熟的知识发现框架(例如,在生物信息学和气候科学中)。数据科学的使用在涉及过程的科学问题中尤其有希望,这些过程由于潜在现象的固有复杂性而不能被我们当前的知识体系完全理解。然而,数据科学的黑盒应用概念在科学领域的成功有限。

科学学科中的知识发现有两个主要特征,这些特征阻碍了数据科学模型在商业领域取得成功的水平。首先,科学问题在本质上往往缺乏约束,因为它们涉及大量变量,但代表性的训练样本却很少。此外,科学数据中的变量通常显示出复杂和非平稳的模式,可以随时间动态变化。由于这个原因,有限数量的标记实例可用于训练或交叉验证,往往不能代表科学问题中关系的真正本质。因此,用于评估和确保数据科学模型的通用性的标准方法可能会崩溃并导致误导的结论。特别地,很容易在训练集和测试集上学习看起来良好的伪关系(即使在使用了交叉验证等方法之后),但不能很好地泛化到可用标记数据之外的数据。代表性样本的缺乏是将科学问题与涉及语言翻译或物体识别等互联网规模数据的主流问题区分开来的主要挑战之一,在深度学习等数据科学领域,大量标记或未标记数据对算法的成功至关重要。

限制黑盒数据科学方法成功的科学领域的第二个主要特征是科学发现的基本性质。虽然传统数据科学模型的共同目标是生成可操作的模型,但科学领域的知识发现过程并没有结束于此。相反,是将学习到的模式和关系转化为可解释的理论和假设,从而导致科学知识的进步,例如,通过解释或发现变量之间的因果机制。因此,即使黑盒模型实现了更精确的性能,但产生了物理上不一致的结果(因此缺乏提供对底层过程的机械理解的能力),它也不能用作后续科学发展的基础。此外,基于可解释理论的机器学习模型更有可能防止从数据中学习导致不可推广性能的虚假模式。这在处理本质上至关重要且与高风险相关的问题(例如,极端天气或生态系统崩溃)时尤为重要。因此,在复杂的科学和工程应用中,单纯的ml方法和单纯的科学知识方法都不能被认为是充分的知识发现方法。相反,有必要探索基于知识的模型和ML模型之间的连续性,其中科学知识和数据以一种协同的方式集成。

本研究旨在开发一个框架,利用数据科学模型的独特能力,从数据中自动学习模式和模型,而不忽视积累的科学知识的宝藏。如图1所示,通过探索几种将科学知识和机器学习模型结合在一起的方法,本文提出的工作建立了知识引导机器学习的基础,这些方法使用了四个领域的试点应用:水生态动力学、气候和天气、水文和转化生物学。之所以选择这些试点应用程序,是因为它们正处于知识引导机器学习能够产生变革性影响的临界点。

该提案的主要目标是正式概念化“知识引导的机器学习(KGML)”范式,在知识发现过程中,科学理论与机器学习模型系统地集成。这种模式将广泛适用于改进物理和生物系统的建模,其中使用了机械模型(也称为基于过程的),因此,KGML有可能加速一系列科学和工程学科的发现。

The KGML Paradigm

知识引导的机器学习(KGML)范式旨在为机器学习(ML)的角色带来革命性的变化,以加速科学发现,KGML是一个包揽全局的范例,它包含了将ML方法与不同学科中各种形式的科学知识相结合的任何方法。这种模式的发展将需要创新的新的机器学习方法和架构,可以纳入科学原理。

这个HDR框架项目正在寻求KGML研究的路线图,为这一新兴范式的研究开辟一些新的可能性。我们特别关注于为应用程序构建KGML框架的基础,在这些应用程序中,领域知识以机械模型或基于过程的模型的形式可用,这些模型使用已知的科学原理或机制捕获输入和输出变量之间的关系。

Targeted Applications

通过探索几种将科学知识和机器学习模型结合在一起的方法,该研究为知识引导的机器学习奠定了基础,这些方法使用了四个领域的试点应用:水生态动力学、气候和天气、水文学和转化生物学。所选择的问题是HDR框架提案的理想测试平台,不仅因为它们具有重大的社会相关性,还因为它们所涉及的问题的丰富性和相互关联性,以及解决这些问题所需的建模方法的多样性。只有通过处理具有多样性和复杂性的问题和建模方法,人们才有希望为KGML的新框架建立基础,而为孤立的场景追求这样的框架很可能导致特别的解决方案。这个项目的成功将测量方面的能力KGML框架,使科学进步的有针对性的应用领域和程度奠定了基础,为更广泛的努力创造一个全面的HDR研究所带来的科学,工程,和数据科学社区一起利用KGML框架。

原文获取地址:第1步:打开微信搜索:1号程序员,并关注。第2步:在对话框中输入:E007,即可获取资源地址。

标签:

  • 上一篇文章: 末伏天必吃这3种“黄金菜”!
  • 下一篇文章: 最后一页
  • 最新
  • 拥抱数据变革:知识引导的机器学习

    机器学习(ML)在大规模数据可用的许多应用中的成功,导致了人们对科学学

  • 末伏天必吃这3种“黄金菜”!

    末伏天必吃这3种“黄金菜”!保护脾胃不吃亏,随手一蒸好吃到舔盘,放

  • 用专业传递价值——大河报记者李素莉第三次获评“十佳行业赋能人物”

    作为第32届郑州糖酒会的核心主题活动,第五届中国食品金牛奖颁奖盛典于

  • 文旅局长杨润雄会见传媒

    搭载4500名旅客的邮轮海洋光谱号今天(19日)再度访港,早上7时左右,

  • 美股盘中抹去开盘跌幅

    受利率前景担忧影响,美股今日继续低开,但目前道指、标普500指数均转

  • 刘强东打出两张牌

    二季度刘强东是如何变阵出牌的?

  • 光茫与光芒的区别 光茫

    1、光芒里边孙红雷就出来两秒钟只是拿他的名气做宣传罢了如果你喜欢孙

  • 老美军舰到底有多强大 美军一战舰服役4年多就退役引不满 基本情况讲解

    1、老美军舰到底有多强大2、美军一战舰服役4年多就退役引不满3、以上就

  • 【文化资讯】国风雅韵 制扇至美——非遗技艺传承体验系列活动之永生花团扇制作活动

    —2023 08 14—文化资讯非遗技艺传承体验系列活动圆满结束团扇是中国汉

  • 上海阿姨泡脚3次,刷卡10万!不敢让老公儿子知道…按摩师:我想认你做妈妈

    近日,上海一位张女士向媒体平台求助说有一件事她不敢跟老公说也不敢跟

  • 学绩测验客观评分(关于学绩测验客观评分简述)

    ,你们好,今天0471房产来聊聊一篇绩测验客观评分,绩测验客观评分简述

  • 远东股份(600869) 涨跌幅:-0.95% (08/15)

    远东股份(600869)今收:涨跌幅:-%主力控盘:机构参与度为%,属于轻度控

  • 专家辅助人在庭审中的发言和陈述属于哪种证据种类

    专家辅助人,具备某学科领域的专业知识,经公诉人、当事人和辩护人、诉

  • 博德之门3元素吸收斗篷怎么获得

    《博德之门3》是拉瑞安推出的一款角色冒险游戏,游戏最近新上线了正式

  • 全国国象新人王赛将于16日开赛

    据新华社报导,中国国际象棋协会消息,“上海海湾杯”2023全国国际象棋

  • 衡东县教育局:弘扬优良传统,汲取奋进力量

    科教新报·新湖南客户端讯(通讯员肖秋芳朱崇仁)追寻革命先烈足迹,汲

  • 旅游
    • 夏日游荆楚 越夜越精彩

    • 《逆水寒手游》共赏人间磁州打卡点在哪 情缘共赏人间磁州坐标一览

    • 海南高招高职(专科)批录取最低控制分数线发布

    • 许继电气08月02日获深股通增持40.6万股