应用近红外光谱和化学计量法测定甜玉米种子活力
赵冰,王爱文,赵华
(1广州国家现代农业产业科技创新中心/农业农村部华南现代生物种业重点实验室,广东广州 510520;2山东大学药学院,山东济南 250012;3张掖市农业科学研究院,甘肃张掖 734000)
0 引言【研究意义】甜玉米是普通玉米种子的淀粉合成基因突变形成的玉米变异类型,其种子活力普遍较低,但资源间存在明显的遗传变异,实现对育种材料种子活力进行快速、准确、简便、有效地检测,筛选高活力种质育种,可有效提高甜玉米育种效率(李武等,2018)。一般采用种子标准发芽试验方法测定甜玉米种子活力,但该方法通常需要7 d才能完成数据采集,传统方法无法满足实时发布需求(zhao et al.,2009)。四唑试验是一种快速测定种子活力的方法,但具有一定破坏性。因此,有必要对甜玉米种子活力的快速、无损检测方法进行升级研究。利用近红外光谱技术(near infrared spectroscopy,nirs)进行种子活力测定,可达到快速、无损、准确的效果。这种高效率的种子活力检测方法可显著缩短检测时间,减少检测工作量,高效率地筛选高活力甜玉米种子,推动甜玉米种子活力筛选走向批量化和产业化。【前人研究进展】玉米种子的品质是其活力的体现,已有文献报道nirs在玉米品质检测中的应用,armstrong等(2011)利用nirs检测了单粒玉米种子的成分,包括蛋白质、油、淀粉和密度。种子活力是评价种子质量的重要参数,近年来受到越来越多的关注。chen等(2014)利用傅里叶变换近红外光谱(ftnir)实现了玉米蛋白和脂肪的定量测定。lee等(2017)利用nirs对番茄种子活力进行快速无损分析,建立了预测模型并进行验证,发现该模型对番茄具有较好的预测精度。al-amery等(2018)收集81个批次大豆种子的nirs,为大豆种子批次的标准发芽和活力开发了基于nirs的预测模型。kusumaningrum等(2018)采用组合偏最小二乘判别分析(plsda)收集并分析大豆种子的ft-nir光谱,对有活力和无活力的种子进行区分,同时进行变量选择,结果发现pls-da算法利用所有变量或选定变量分析ftnir光谱,预测的准确度较高。qiu等(2018)利用pls-da区分有活力和无活力的超甜玉米种子,证明了作为活力测定非破坏性方法的可行性。金文玲等(2020)利用透射吸收光谱检测系统结合pls-da鉴别模型对不同活力的水稻种子进行了分级。fan等(2020)使用nirs检测单个小麦种子的活力,利用主成分分析(principle component analysis,pca)和连续投影算法(successive projections algorithm,spa)进行降维处理,并结合4种机器学习方法构建了8种预测模型,结果发现8种模型的准确率均超84.0%。wang等(2020)基于自建种子单粒制粒装置,利用nirs探讨了基于颗粒的种子活力检测和分级的可行性。此外,还有研究者利用nirs评估了辣椒种子(mo et al.,2014)和西瓜种子(yasmin et al.,2019)的活力。【本研究切入点】在种子活力检测领域,因种子活力的基础是种子成熟过程中贮藏物质的积累(min and kang,2008),而近红外光谱区域与有机分子中含氢基团(oh、nh和ch)的振动组合频率及各级倍频吸收区域一致,故光谱信息可反映种子的组成信息,进而分析种子的活力状态(li et al.,2009)。通过前人研究(jia et al.,2016;pang et al.,2020)发现,nirs具有评估玉米种子活力的潜力,然而大部分研究者采用的光谱采集模式并不相同,光谱采集模式对建模的影响也未见相关分析研究。本研究从光谱采集模式切入,比较2种采集模式下的预测模型,分析光谱采集模式对于建模效果的影响。【拟解决的关键问题】分别在反射和透射模式下采集甜玉米种子的nirs,通过选取最佳预处理方法及变量选择方法建立预测模型,从而比较2种采集模式下的预测模型差别,以确定哪种采集模式更适合甜玉米种子活力预测,为种子批量无损筛选提供一种新方法。
1 材料与方法1.1 试验材料hai7和11f是广东省农业科学院作物研究所育成的黄色超甜玉米(sh2)自交系,分别是高种子活力和低种子活力甜玉米的典型代表。以hai7号为母本,与11f杂交,获得杂种f1;f1与亲本11f和hai7连续回交3次,获得2套bc3f1;经4代自交至稳定,最终获得184个11f背景高代回交导入系(11f-ils)和460个hai7背景高代回交导入系(hai7-ils)。以11f-ils和hai7-ils 2个群体的644份超甜玉米稳定自交系种子为试验材料,成熟后收获,晒干至含水量为13%,冷藏(温度8℃,湿度50%)3个月,分别用于发芽试验和种子活力指数的近红外光谱无损检测。主要仪器设备:antaris ii傅里叶变换近红外光谱仪(美国thermo fisher scientific公司)、matlab(美国mathworks公司)和pls toolbox811(美国eigen-vector research公司)。
1.2 试验方法1.2.1 发芽率、发芽指数和活力指数测定按照gb/t 3543.4—1995《农作物种子检验规程 发芽试验》,采用纸培法进行种子发芽试验。第3 d测定发芽势,3 d后将根取出,烘干,称量干重,按照公式计算发芽势、发芽指数和活力指数:
1.2.2 光谱采集所有样品的光谱通过2种采样模式得到:模块a是积分球模块,选取3粒甜玉米种子,记录其在4000~10000 cm范围内的积分谱;每个样本扫描32次,分辨率为8 cm,平均光谱作为最终光谱。模块b是透射模块,取3粒甜玉米种子进行光谱采集,光谱范围为6000~10000 cm,收集3个光谱,以平均光谱作为最终光谱。
1.2.3 模型建立与评价所有光谱数据均使用matlab 2016a进行处理。采用pca和蒙特卡罗交叉验证(monte carlo cross validation,mccv)(cao et al.,2010)方法剔除收集光谱中的异常点,然后用kennard-stone(k-s)方法(李华等,2011)将所有光谱按3∶2的比例分成校准组和验证组。
采用偏最小二乘法(partial least squared,pls)建立预测模型。采用去趋势(detrend)、多元散射校正(multiplicative scatter correction,msc)、标准正态变换(standard normal variate,snv)和多项式平滑导 数(savitzky-golay derivative,sg)(xia et al.,2020)选择最佳预处理方法。为进一步提高模型的准确性,采用竞争自适应重加权抽样(competitive adaptive reweighted sampling,cars)(li et al.,2009)、非信息性变量剔除(uninformative variables elimination,uve)、随机蛙跳法(random frog,rf)和相关系数法(correlation coefficients,cc)等不同的变量选择方法(song et al.,2017),从而筛选出最佳建模波段,建立用于种子活力预测的pls定量模型(li et al.,2018)。
在整个过程中,通过校正相关系数()、交互验证相关系数()、预测相关系数()、校正均方根误差(rmsec)、交互验证均方根误差(rmsecv)和预测均方根误差(rmsep)来评价所建立的模型性能。
2 结果与分析2.1 漫反射模式结果2.1.1 光谱离群点检测部分光谱异常值的存在会影响预测模型的性能,降低其可信度,因此在光谱分析建模过程中,通常首先要剔除异常值,使得模型的性能更贴近实际,预测效果更佳。将pca与mccv相结合,识别潜在的异常值,结果如图1所示。图1-a中绿色虚线为95%的置信限,95%置信水平外的样本被识别为离群值,绿色点为异常点,红色点为正常样品。利用mccv进一步去除图1-b所示的异常值。图1-b中样品分布较分散,平均值的分布范围较大,因此将大于2倍的均值和标准偏差的样品剔除。最后,共保存532份甜玉米种子样品用于pls建模研究。
2.1.2 漫反射光谱预处理方法的选择图2显示532份甜玉米种子样品的原始光谱,从原始近红外光谱难以找到具体的波段,所有光谱均存在光散射引起的基线漂移。6897 cm附近的谱波数是高可溶性糖引起的主要吸收段,4283~4307 cm的谱波数表明可溶性糖和淀粉(jiang et al.,2007)对c-h的拉伸和ch的结合吸收。据报道,这些成分与种子活力之间有很高的相关性(cheng et al.,2018),然而更多的信息不明显,表明预处理是必要的。
常用的光谱预处理方法包括均值中心化(mean center,mc)、msc、snv、detrend及sg。mc可增加样品光谱之间的差异,提高模型的稳健性和预测能力;msc可消除由于颗粒大小和分布不均匀造成的影响;snv可消除固体颗粒大小与光程差异带来的误差影响;detrend方法则可消除漫反射中的基线漂移;sg可有效去除背景基线等带来的影响,提高光谱分辨率。不同预处理方法结合使用,一方面可弥补各自的不足之处,使得处理效果更佳,另一方面也可能存在过度平滑,导致光谱差异减弱,信号隐藏的问题。因此,选择合适的预处理方法十分重要。
表1为对比不同预处理方法后建立的发芽势偏最小二乘回归(partial least square regression,plsr)模型结果,选出最佳的光谱预处理方法。从表中可看出,当光谱经msc+mc预处理方法后得到的模型效果最佳,模型的性能参数、、rmsec和rmsecv分别为0.722、0.578、11.711和13.818。
图1 基于pca(a)和mccv方法(b)的样本离群点检测结果fig.1 sample outlier point detection d on pca(a)and mccv method(b)
图2 通过漫反射模块获得532份种子样品的原始近红外光谱fig.2 raw nir spectra of 532 seed samples by diffuse reflective module
表2为对比不同预处理方法后建立的发芽指数plsr模型结果,选出最佳的光谱预处理方法,从表中可看出,当光谱经detrend+mc预处理方法后得到的模型效果最佳,模型的性能参数、、rmsec和rmsecv分别为0.810、0.668、2.225和2.825。
表3为对比不同预处理方法后建立的活力指数plsr模型结果,选出最佳的光谱预处理方法,从表中可看出,当光谱经sg+mc预处理方法后得到的模型效果最佳,模型的性能参数、、rmsec和rmsecv分别为0.791、0.693、0.148和0.175。
2.1.3 变量选择方法的选择为消除无关的变量信息、提高分析速度和减少模型的复杂程度,本研究对比不同的变量选择方法,以rmsec和rmsecv为主要评价指标,选出rmsec和rmsecv最小的定量分析模型,从而确定最佳的变量组合。在最佳预处理基础上,对比不同变量选择方法对建模结果的影响,筛选出最佳的变量选择方法。对于漫反射模块发芽势定量分析模型,最佳变量选择方法为cars,模型的性能参数、、rmsec和rmsecv分别为0.836、0.763、9.293和10.941(表4);对于漫反射模块发芽指数定量分析模型,最佳变量选择方法为cars,模型的性能参数、、rmsec和rmsecv分别为0.880、0.833、1.802和2.098(表5);对于漫反射模块活力指数定量分析模型,最佳变量选择方法为cars,模型的性能参数、、rmsec和rmsecv分别为0.826、0.783、0.137和0.151(表6)。
表1 发芽势plsr模型不同预处理方法的结果table 1 results of different pretreatment methods under plsr model of germination potential
表2 发芽指数plsr模型不同预处理方法的结果table 2 results of different pretreatment methods under plsr model of germination index
2.1.4 模型的建立与预测通过采用不同的预处理方法进行优化及采用波段选择方法选出最佳的建模波段,然后建立pls模型,用于对模型的预测能力进行检验。将验证集的样品带入模型中,以和rmsep为指标考察模型的预测能力。结果(图3~图5)表明,该模型存在一定程度的过拟合,因种子活力是一个复杂的指数,基于多种成分。因此,这个预测误差(rmsep=0.199)可以接受。反射率模型也会对预测能力产生一定的影响,因为只能得到种子的表面信息,可能是造成过拟合现象的原因。
2.2 透射模式结果2.2.1 光谱离群点检测光谱离群点检测结果如图6所示。图6-a中蓝色虚线为95%置信限,置信限里面为正常样本,外面为异常样本。图6-b中样品的分布较分散,平均值的分布范围较大,因此将大于1.5倍的均值和标准偏差的样品剔除,将剩余样品用于下一步建模,最后选取415份样品进行pls建模研究。
2.2.2 透射光谱预处理方法的选择图7为415份甜玉米种子样品的近红外原始光谱。从图中可看出,不同样品光谱差异不明显,光谱间相似性很高,所以需采取一些光谱预处理方法来提取光谱的有效信息,减少或除去物理因素、化学因素及仪器噪声等对光谱的影响。
对不同预处理方法进行研究,结果如表7所示,sg一阶导数平滑的预测能力最佳,rmsecv和分别为0.142和0.685,主成分数为9。
表3 活力指数plsr模型不同预处理方法的结果table 3 results of different pretreatment methods under plsr model of vigor index
表4 发芽势plsr模型不同变量选择方法的结果table 4 results of different variable selection methods under plsr model of germination potential
表5 发芽指数plsr模型不同变量选择方法的结果table 5 results of different variable selection methods under plsr model of germination index
表6 活力指数plsr模型不同变量选择方法的结果table 6 results of different variable selection methods under plsr model of vitality index
图3 基于漫反射模型的发芽势预测pls模型fig.3 germination potential prediction d on diffuse reflective module under pls model
图4 基于漫反射模型的发芽指数预测pls模型fig.4 germination index prediction d on diffuse reflective module under pls model
图5 基于漫反射模型的活力指数预测pls模型fig.5 vigor index prediction d on diffuse reflective module under pls model
图6 基于pca(a)和mccv方法(b)的样本离群点检测果fig.6 sample outlier point detection d on pca(a)and mccv method(b)
2.2.3 变量选择方法的选择为消除无关的变量信息、提高分析速度和减少模型的复杂程度,本研究对比不同的变量选择方法,以rmsec和rmsecv为主要评价指标,结合主成分数,选出最佳的变量组合。对比不同变量选择方法对建模结果的影响,发现对于透射活力指数定量分析模型,最佳变量选择方法为cc,其性能参数、、rmsec和rmsep分别为0.783、0.680、0.121和0.133(表8)。
2.2.4 模型的建立与预测通过采用不同预处理方法进行优化及采用波段选择方法选出最佳的建模波段,然后建立pls模型,用于检验模型的预测能力。将验证集的样品带入模型中,以和rmsep为指标考察模型的预测能力。模型的性能参数、、、rmsec、rmsecv和rmsep分别为0.783、0.680、0.728、0.121、0.142和0.133(图8)。
图7 通过透射模块获得415份种子样品的原始近红外光谱fig.7 raw nir spectra of 415 seed samples by transmission module
3 讨论探究甜玉米种子活力快速、准确、简便、有效的检测工具,可显著提升高活力甜玉米新种质的能力和效率,nirs分析技术作为一种快速分析技术在玉米质量快速分析方面有一定的研究。nirs的采集模式主要有透射模式和漫反射模式2种。透射模式是光束透过样品,通过分析透过光的差异来评价样品信息的一种光谱采集模式;漫反射光谱则是通过分析样品颗粒所反射的光或散射光的信息,从而评价样品的一种光谱采集模式。李晋华等(2013)采用漫透射模式对玉米种子进行了成分预测;李武等(2018)采用漫反射模式对玉米种子活力进行了快速测定,并建立预测模型。本研究则从光谱采集模式入手,比较2种光谱采集模式下预测模型的差异,结果表明,透射模式相对于漫反射模式而言,甜玉米种子活力定量模型的性能参数更接近实际,不存在过拟合现象。分析原因可能是,采用透射模式采集光谱,由于光束穿过样品,使得关于甜玉米种子的更多信息被捕获到,反映在光谱上呈现出更复杂的现象,因此所建立的模型信息更全面,从而避免了过拟合现象。李晋华等(2013)采用漫透射方式成功地对玉米4种成分进行了预测,但其采用的样品装样方式较复杂,且未对比漫反射模式的预测效果。李武等(2018)研究表明,nir漫反射光谱可作为一种快速测定甜玉米种子活力形态指标实现种子筛选的快速方法,该研究利用fipls、cars和uve等变量筛选方法对甜玉米的nirs进行特征波数区域选择,筛选出甜玉米活性的特征区域,同时将便携式微型光谱仪引入甜玉米活性的测定中,提出了一种新的甜玉米活性筛选方法,但研究中的样品数量来源有限,随着校正集样品数量的增加,模型的精度和稳定性也会增加。本研究所采用的样品数量也受到限制,因此模型的精度和稳定性仍不足。
表7 基于透射模块的不同预处理方法的结果table 7 results of different pretreatment methods d on transmission module
表8 基于透射模块的不同变量选择方法的结果table 8 results of different variable selection methods d on transmission module
图8 基于透射模块的活力指数预测pls模型fig.8 vigor index prediction d on transmission module under pls model
nirs技术可快速、准确、无损地检测种子活力指数,显示出种子筛选的巨大潜力,尤其在种子营销和种子种植方面,对资源的安全保存,以及种子优化过程的快速筛选具有重要意义。然而,由于样品的活力指数是用一批种子样品的平均值来衡量,针对单个种子的研究尚不充分,因此今后需研究更多针对单个种子核的具体工作,且限于样品种类,模型的应用性有待更深入的研究与优化。此外,为保证在实际生产中建立模型的准确性和适用性,在今后的研究中应尽可能地扩大玉米种子的来源、范围和数量。
4 结论本研究中,2种采集模式下的光谱经预处理和变量选择后,建立得到最佳的甜玉米种子活力重要参数测定的定量分析模型。通过比较2种模式下的模型性能参数,结果发现透射模式下采集的光谱具有更多关于甜玉米种子活力的信息,更适用于甜玉米种子活力预测;同时提示nirs技术在种子活力方面的研究中应考虑不同采集模式下光谱信息的差异,从而针对不同的研究对象,确定最佳采集模式。
应用近红外光谱和化学计量法测定甜玉米种子活力
本文2022-11-09 23:00:01发表“农林鱼水论文”栏目。
本文链接:https://www.damishu.cn/article/430335.html