登陆注册
9514

发论文有“严重拖延症”的他更看重专利价值

中国科学报2023-05-29 02:41:170

■本报记者 沈春蕾

“因为申请专利耽误了这篇文章的发表,如果早几年投出,说不定能投中《科学》《自然》《细胞》。”

近日,《医学病毒学杂志》在线刊发了中国科学院昆明动物研究所(以下简称昆明动物所)研究员马占山的一篇论文,文中提出了一种比较病毒组(VC)的新算法,具有高效率找出某一病毒组特有或者富集的病毒种类等功能。《医学病毒学杂志》目前的影响因子是20.7,在病毒学领域排名第二。

日前,马占山在接受《中国科学报》采访时讲述了文章发表背后的故事:“2017年1月我申请受理的专利在2022年第一次审查中被驳回了,因此错过了发表论文的最佳时间,但我还是很高兴这项研究成果可以公开发表,我会继续申请专利。此次发表的成果仅仅是这项技术研究的一小部分。”

距离第三个博士学位“就差一篇论文”

“当年,我不希望别人知道我们这项技术研究,起初也没有计划申请专利,甚至想过要不要拿着技术去开公司。”论文唯一作者马占山说。

他一边解释为什么只有一个作者,一边略有遗憾地说:“现在看来,我当年的研究没有那么超前。至于只有一个作者的原因,一是我学科组人少,毕业博士生少则有四五篇论文、多则十来篇,个别人毕业时已经作为通讯作者发表论文了;二是这篇论文的研究方法只有两个人完成,这次发表的只是该方法部分内容,其他论文还在审稿中,只是这一篇先发表了。”

采访前一晚,马占山工作到了凌晨3点,而采访中他的脸上看不到丝毫疲惫。

马占山不仅是一个“工作狂”,还是一个“跨界”人才。他拥有昆虫学和计算机科学两个博士学位,曾在美国硅谷当了10年软件工程师,2010年回国加入昆明动物所后,从事计算生物学研究。而这篇论文正是马占山“跨界”研究的产物之一。

1997年7月,马占山在美国爱达荷大学完成了昆虫学博士毕业论文,并顺利通过答辩获得学位,但那篇论文当时并没有公开发表。在同年12月拿到计算机科学硕士学位后,他投身产业界,并在2006年重回爱达荷大学,攻读计算机科学博士学位,仅用26个月就拿下第二个博士学位。

2008年,马占山成为爱达荷大学的一位科研人员。这时,他才将写好快10年的昆虫学博士论文拿出来投稿,并顺利发表。随后两年,马占山在昆虫学领域一流期刊上一口气发表了7篇论文。“这些文章很早就开始酝酿,却迟迟未成稿。”马占山自嘲有“严重拖延症”。

当年,马占山的计算机科学博士论文被施普林格相中,双方在2011年签订了优秀博士论文丛书出版的合同,后来约定等马占山将论文内容补充完善后出版发行。“对方至今仍在等我交稿。”马占山不好意思地告诉《中国科学报》,此次发表的核心算法内容搁置也有七八年了。

在“拖延”的同时,马占山还在不断学习。快拿到计算机科学博士学位时,马占山还在寻思要不要再拿一个金融数学的博士学位。实际上,在那之前他已经选修或旁听完了数学专业博士研究生的大部分必修课程,用他的话说“距离学位就差一篇论文”。

最有价值的专利申请被驳回

“我大概在2016年前后就开始思考VC算法,当年主要看中其应用前景,奔着申请专利去。”马占山说,“如果先发表论文,就意味着要公开VC算法,可能会影响专利的新颖性。”

申请专利和发表论文,马占山选择了专利。

截至目前,马占山已经申请了近20项专利。仅2021年一年,马占山学科组就有6项发明专利获授权。但令他“伤感”的是,这些年他还有3项专利申请被驳回,并且都是他认为最有价值的技术,包括VC算法的一部分,也包括两项关于母乳菌群的技术。

“马兄,我看到美国治疗乳腺炎的指南跟你那篇论文非常接近,你的专利怎么样了?”2022年,马占山接到好友、成都市妇女儿童中心医院乳腺外科主任宁平的电话。这通电话的起因是2017年前后,宁平等人专门来到昆明拜访马占山学科组,只因读完马占山关于乳腺炎病因的论文后非常受启发。

马占山有时并不在意别人的看法,在研究的世界里他一直追求极致,这也是他很多文章在推迟10年后仍能顺利发表的原因。

要比较两个或多个病毒组,找出其特有或者富集的病毒种类是一个看似简单实则复杂的计算问题。马占山告诉《中国科学报》,类似问题在计算机科学领域属于NP-hard问题。

马占山以推销员最短路径(TSP)问题为例,介绍了什么是NP-hard问题。TSP问题最早提出于19世纪,推销员需要访遍N个城市,但禁止重复访问。推销员为了节省时间,希望获得最短路径。如果是个位数以内的城市,小学生甚至幼儿园的小朋友都可以给出答案。但当城市增加到一定数量后,问题难度直线上升。

“简单来说,对于此类问题,当规模大到一定程度时,即使用最强大的计算机仍可能无法获得最优解。”马占山选择向此难题发起挑战,成功开发了VC算法。

“人体肠道病毒个体数量高达380亿,在其中寻找某个病毒可谓大海捞针。”马占山说,VC算法可以为比较研究病毒组提供一套崭新的算法和软件技术。

希望这一次不要再拖延

回国以来,马占山学科组一直专注于开发基因测序软件。他告诉《中国科学报》:“当时第二代测序技术占据绝对市场,我们与美国马里兰大学叶承羲博士合作研发了一款用于第二代测序的算法和软件,将其命名为SparseAssembler。软件公布后不久,华大基因采用了我们的算法,将其当年的旗舰软件SoapDenovo升级为SoapDenovo-II。该算法可以节省计算机90%的内存。”

2012至2016年前后,随着第三代基因测序技术的出现,马占山与叶承羲进一步合作,发布了另外两款软件——DBG2OLC和Sparc。他介绍,当年这两款软件大幅缩短了测序时间,从当时主流的几十万CPU小时缩短到上千CPU小时,在第三代测序软件技术领域算得上是重大突破,其核心算法后来几乎被所有第三代测序所采用。

2018年,马占山学科组还与其他团队合作开发了一款技术,将第四代测序技术和10X-Genomics测序技术结合,实现混合组装,可以使第四代测序成本降低70%。他还提到,“这些技术我们都申请了专利,有些早已授权,但显然没有时间去探究专利维权。”

谈及专利,马占山颇有感触:“我曾就职于某芯片巨头公司,但后来发现这样的大公司也存在技术不够高精的窘境,甚至还夹带不少滥竽充数的专利。于是我选择加入硅谷一家初创软件公司,该公司当年靠一项专利使股票市值达到30亿美元,但最终倒在了互联网泡沫之中。”

马占山任职过的巨头公司,是需要养活10万名员工、三班倒的芯片制造商;初创公司则没有一个蓝领,是一家纯软件设计公司,很多员工来自斯坦福大学、加州大学伯克利分校等。但白领还是败给了蓝领,或许这就是所谓世事难料。

这两段工作经历让马占山明白,要在产业界生存,光有专利这把利剑远远不够。

“靠软件,我们很难发表高影响因子论文。”2018年前,马占山学科组的考核一直是B,这也让他开始为学科组的前途和命运暗自担忧。

于是,马占山将研究重点转向菌群医学生态学。2019年,马占山学科组迎来了小高潮,连发3篇9分以上的论文,学科组考核也从B升至A。

菌群医学生态学为马占山赢来了另外一项荣誉——美国哈佛大学于2020年2月授予马占山Bullard Fellow奖。该奖始于1959年,每年从全球选出5至7位事业有成的高级访问学者,资助其在哈佛开展为期一年的讲学和合作研究。

由于疫情,马占山出访哈佛被推迟到了2023至2024年度,他将在哈佛撰写一部关于菌群生态与进化研究的专著。“别人走一遍的路,我却走了两遍。”马占山感叹道,很多成果因各种原因错过在第一时间发表,结果在几年后不得不再走一遍发表的流程,希望这一次不要再拖延。

相关论文信息:

https://doi.org/10.1002/jmv.28682

0000
评论列表
共(0)条