Materials Property Axiom (MPA):面向实验物性的多阶段训练

实验物性预测正在成为真实世界材料研发的主要瓶颈之一。

目前大多数材料基础模型在计算性质上最强:稳定性、热力学量、吸附能,以及其他可大规模生成的标签。但实际研发往往依赖测量得到的终点指标 —— 它们稀疏、嘈杂、异质,且直接关联到产品性能。这些指标包括沸点、溶解度、介电性质、输运性质、可燃极限、结合亲和力的代理指标,以及其他采集成本很高的实验测量。

Materials Property Axiom (MPA) 是一个三阶段训练框架,旨在弥合这个差距。它借鉴了在大语言模型上行之有效的训练范式 —— 广域预训练(pre-training)、对齐式中训练(mid-training)、任务特异的后训练(post-training),并将其迁移到材料物性预测。

在 40 项实验物性基准上,相比直接对预训练模型做 fine-tuning,MPA 平均把 MAE 降低约 10%,在单个分布外任务上最高降低 51%。当中训练的信号与最终 readout 与目标物性的物理本质匹配时,提升幅度最大。

MPA 已在 sciclaw.ai 上线。

为什么实验物性需要不一样的训练配方

面向分子和材料的基础模型通常从广域预训练开始,从结构、图、SMILES 字符串、3D 构象或大规模计算得到的物性中学习通用的材料表征。这让它们能作为可复用的 backbone 服务于下游预测。

这种做法成效不错,但它在模型预训练所学和工业材料研发所需之间留下了一道缺口。

不同的实验终点指标不能互换。一项热力学性质、一个偶极矩、一个水溶解度值、一项蛋白结合代理指标、一条可燃极限,各自由不同的物理机制主导。有的近似具有"原子或官能团层面的可加性",有的依赖材料的极性或电子结构,还有的由溶剂化、界面行为或识别效应主导。最重要的是,任何新材料的发明都不是只命中一个,而是同时命中多个物性目标。

MPA 背后的核心假设很朴素:

不同材料物性任务之间的迁移能力,取决于共享的物理,而不只是共享的数据统计。

也就是说,辅助训练数据不应只因为量大或好取而被选入,而应该因为它编码了与目标指标相关的物理信息而被选入。

三阶段训练框架

MPA 包含三个阶段的训练:

Pre-training(预训练): 在大规模材料几何构象语料上学习通用的 3D 表征。
Mid-training(中训练): 用物理上相关的辅助物性标签对齐这一表征。
Post-training(后训练): 在下游实验物性上做 fine-tune,搭配为测量数据设计的 readout 和损失函数。

MPA 三阶段训练框架 — *图 1:Materials Property Axiom 通过基于几何的 3D 预训练、物理对齐的中训练以及面向下游的后训练,把材料基础模型适配到实验物性预测。*

Pre-training(预训练)

Pre-training 阶段用基于几何的 3D 自监督来初始化材料基础模型的 backbone。我们使用了由约 6400 万个优化后的材料几何构象构成的 PubChem-xTB 语料。

我们的目标不是把整个框架绑定到某一个特定的预训练模型上。Pre-trained backbone 提供的是通用的化学与空间表征。

Mid-training(中训练)

Mid-training 阶段用与下游目标物理相关的辅助标签来适配预训练好的 backbone。

物理对齐的中训练阶段 — *图 2:Mid-training 把预训练好的材料表征与按"对下游实验终点的物理相关性"筛选的辅助物性标签对齐。*

我们使用了几个 mid-training 数据源:

TCIT 热化学标签: 生成焓、Gibbs 自由能、热容、熵以及相关热化学量。
g-xTB 电子结构标签: 偶极矩、HOMO-LUMO gap。
实验 logP: 围绕亲脂性的信号,与溶剂化和分配相关。
多源 mid-training: 同时使用热化学、电子结构、logP 监督信号的组合设定。

MPA 还会对中训练后的表征做正则化,使其不偏离原始预训练表征太远。这样 backbone 仍锚定在广域 embedding 空间里,同时能沿物理上有用的方向移动。

Post-training(后训练)

最后一阶段在每一项下游实验物性上分别对模型做 fine-tune。

下游后训练阶段 — *图 3:Post-training 用稳健的损失函数和"attention pooling 与原子可加结构"混合的 readout,把对齐后的 backbone 适配到测量得到的实验物性上。*

MPA 对标准 fine-tuning 配方做了两处改动:

用 Huber 风格的 smooth MAE 取代 MSE,使训练对重尾误差和离群点不那么敏感;
用"attention pooling + 原子级可加分支"的混合 readout 取代标准的 attention readout。

Attention 分支给模型提供灵活的非可加材料汇总;可加分支给模型一个显式的局部贡献先验,这对于"可以近似分解为原子级或片段级贡献"的广延性质很有用。

把"物理对齐"作为 scaling 的原则

我们发现,把多种实验物性在物理意义上对齐的 mid-training 是 MPA 成功的关键。

微调任务与中训练在化学空间中的覆盖 — *图 4:下游实验物性各类别在化学空间中占据不同区域,但仍嵌入在更广阔的 mid-training 背景之中,从而支撑跨异质材料族的物理对齐迁移。*

热化学的 mid-training 对热力学和相变类目标迁移最强;电子结构的 mid-training 对电学和极化类终点迁移最强;LogP 的 mid-training 对溶解度、分配以及生物/制药代理任务迁移最强。

这一规律之所以重要,是因为它让"迁移"变得可解释 —— 当辅助信号和下游终点共享物理结构时,MPA 提升最大。

同样的原则也适用于 readout 层面。可加分支在"对可加性兼容"的物性上帮助最大;当终点指标主要由识别效应、器件级行为、界面机制、或者无法干净映射成原子级求和的比值类测量主导时,这一分支帮助变小,有时甚至会拖后腿。

这给了 MPA 一条实用的设计原则:让 mid-training 的数据选择和 readout 的归纳偏置都匹配目标物性的物理本质。

在实验基准上的广泛提升

我们在一个精心整理的、涵盖 40 项实验材料物性预测任务的基准上对 MPA 做了验证,任务涉及:

(TH) 热力学性质
(PT) 相变类性质
(TR) 输运性质
(SL) 溶解度与分配性质
(EL) 电学与极化性质
(SF) 安全与可燃性
(BO) 生物/其他材料物性代理指标

我们在两种互补的评估设定下对 MPA 做了考察。Random split 衡量分布内插值能力 —— 结构相关的分子和材料可能同时出现在训练集和测试集;Scaffold split 更难:它考察模型能否泛化到训练时未见过的材料骨架。

在实验基准上的广泛提升 — *图 5:在 random split 下,相比直接从 pretrained backbone 做 fine-tune,MPA 在 40 个终点指标中提升了 38 项,平均 MAE 降低 14.0%,中位 MAE 降低 10.4%。*

在 random-split 评估下 MPA 刷新 state of the art,几乎每一个终点指标相比直接 fine-tune 都有提升。增益并不局限于某一类物性 —— 热力学、相变、输运、溶解度、电学、安全、生物/其他终点都有提升,最大降幅出现在物理对齐的热力学目标上,如燃烧焓、气相 Gibbs 自由能、熵、液相焓、气相热容。

跨实验基准的 SOTA 对比 — *图 6:在 scaffold split 的 out-of-distribution 测试下,MPA 在大量实验物性类别上达到 state of the art 性能。*

在 out-of-distribution 设定下,MPA 也在多个强基线(Suiren、Uni-Mol2、CheMeleon、ChemProp、ChemBERTa)之上刷新了 state of the art。模型在热力学、相变、输运、溶解度、电学、安全、生物/其他终点上往往拿到最佳表现。这一点很重要,因为 scaffold split 更接近真实研发场景 —— 模型必须外推到训练未见过的材料族,而不只是在近邻同类之间做插值。

这意味着什么

MPA 把材料基础模型的适配重新框定在"物理对齐"这个原则上。它提供了一条可行路径,把第一性原理计算、精选的实验数据,以及任务特异的 fine-tuning 融合进一个可扩展的训练配方里。

对化学和材料工业来说,这改变了 AI 切入研发循环的位置 —— 模型可以在合成之前就按"与产品相关的实验终点"筛选候选,可以优先决定下一批要做哪些测量,从而减少对缓慢试错迭代的依赖。随着越来越多的计算和测量数据出现,MPA 提供的是一条让这些数据沉淀为可复用预测能力(而不是一堆孤立的单任务模型)的路径。

结果是一条更系统化的路线,通向更快的配方设计、分子优化、材料发现以及面向应用的设计。一个材料基础模型的价值,不在于单纯做得更大,而在于与测量物性的物理对齐。