柳暗花明

柳暗花明,会不会“又一村”,交给命运。

朋友担心我写的都是不入流的文字,不像那些德高望重的大教授——要么天天讲授学术与人生道理,要么闷声发大财,就算天塌下来,也不哼一声。

今天,我就试着讲件正经事。这件事太久远了,再不写下来,恐怕真的要忘了。

我猜很多人都有过这样的经历:你越是身处困境,越是四面受阻;你辛辛苦苦做成了一件好事,却偏偏找不到讲理的地方。我们可以阿Q式地说“坚持”,但现实却往往艰难曲折。老师要开始八卦,同学们准备好了吧。

读完博士后,我心里有种扬眉吐气的感觉,觉得这辈子再也不用交作业或者考试了。正因如此,我给学生布置的作业偏轻,学生考试的时候,我甚至有点欺负他们的感觉。

然而,毕业后才发现,博士毕业并不是“柳暗花明”,而是从充满激情、胸怀大志、有章有序的生活,跳进了一个连自己影子都看不见的洞。是“洞”,若说是陷阱,未免显得太夸张。

当学生时,考个及格,写篇发表不了的论文,老师照样发工资,还能让你顺利毕业。但当了老师,就没人宠你了。干不好?滚!学校付你工资,是让你一边管好自己,一边“宠”好学生。

什么叫“管好自己”?其中之一,就是拼命发论文,越是难投中的杂志,越要硬挤进去。

有人说金子值钱,可比起我的头发,根本不算什么。这个世界上,唯一比我现在的头发更值钱的东西,就是我刚毕业时那堆发不出去的论文。

有一次,一位年长的同事帮我弄到一组艾滋病患者的数据,目的是通过跟踪血液检测结果,及时判断病情是否恶化,以便尽早采取治疗措施。这类问题其实很常见。就像少男少女谈恋爱,在意的一方必须认真观察对方的反应,才能知道该说什么、该做什么。只是,现实中来不及问计算机。不过,或许在不久的将来,戴上智能耳机,真的能用AI教人谈恋爱。

这个问题在统计学上叫“变点识别”。所谓“变点”,变化的方式千奇百怪。举个例子,你的女朋友可能从高兴突然变得生气,甚至哭鼻子;也可能是慢慢地越来越生气。反过来,你拼命哄她,可能突然见效,也可能慢慢才奏效。总之,变化无常,捉摸不定。

在统计学里,有种叫贝叶斯的方法。我对它也算不上精通,但面对这种“丈二和尚摸不着头脑”的问题,倒是可以试试。贝叶斯方法的基本思路是这样的:假如你的女朋友是经人介绍的,你可以先从媒人那里打听点信息,了解她是急脾气还是温柔型,做好约会前的准备。在约会过程中,你一边施展浑身解数,一边根据现场情况随机应变,以最大限度地忽悠她开心。这么说可能有些调侃,但你们可以去问问贝叶斯专家,基本原理是不是这么回事。

正是因为这个思路,我决定用贝叶斯方法分析艾滋病数据。而且,不只是我有这个想法,一位贝叶斯领域的泰斗级人物也指导他的博士生用同样的方法分析了同一组数据,并成功发表在我梦寐以求的杂志上。

为了自作聪明之前不浪费时间,我先按他们的方法尝试重复他们的结果。然而,结果对不上!当时我心想:NND,逮到牛人发顶级期刊出错了!我把错误纠正过来,再提出一个有效的办法,就是顶刊你也得给我一个发表机会吧?想得挺美!

然而,当我投稿时才发现,学术圈的水,远比我想象的要深。主编的回复是:“看你的推导,就不像一个懂贝叶斯方法的人。”言下之意,你连挑毛病的资格都没有。

试了几个好杂志,统统被拒。于是,我鼓起勇气给那位牛人写了封邮件,询问能否提供他们的计算机程序。牛人倒是爽快,直接把请求转给了他的博士生。然而,那位博士生毕业后似乎离开了学术界,我也没能找到他的联系方式,而那位牛人也不再回复我的邮件。就这样,半年一年过去了,我的文章只能躺在抽屉里。

至今,我研究不孕不育二十年有余。虽然无法真正体会那些备受煎熬的夫妇的痛苦,但我想,我对那篇发不出去的文章的滋味,多少与他们的心情有些相似——越是想要一个圆满的结果,越是不尽人意。你自己再努力,也是白费。

三十年前,互联网还不像现在这样发达,不能随便往网上丢篇文章占个茅坑再说。后来,我发现有一本统计杂志,基本上“投什么,发什么”。虽然在简历上写这类杂志的文章会让人鄙视,但我心里坦荡——因为我知道,那是一篇好文章,不是我无能,而是学术圈的水太深。

三十年后的今天,等来又一次“柳暗花明”。我研究了整整三十年,试图分析基因变异对疾病的影响。我给一位刚到的学生描述了大致思路后,就其中一个关键细节,建议试试我当年那个发不出去的方法。那篇文章除了我自己,早已无人记得,自然也无人知晓其中的方法。实打实的秘密武器!

那么,基因变异与变点识别有什么关系?如果你把每个基因位点看作一个数据点,疾病的风险延着染色体也是一个变点过程。若正常基因变成异常基因,可能造成风险某种微妙变化,否则就无法区分“正常”和“异常”。只是信息过于微妙,或受外在因素干扰,难以捕捉。

试想,我们坐在回老家都昌的高铁上,欣赏窗外的风光。如果我们看到一棵树孤零零地生长在一片光秃秃的铁路旁,没有第二棵,那么如果我们想在它旁边再种一棵,存活的概率大吗?应该几乎不可能,否则那里早就会有第二棵了。

如果我们看到两棵、三棵……那么到底要看到多少棵,我们才会相信这里适合种树,愿意花力气种下自己那一棵呢?这,是类似我们要回答的问题。

通常的方法是“就树论树”,着重树的高度。而我们的思路则不同——我们考虑的不是一棵树的高度,而是根据相近的一些树的整体特征,计算这片光秃秃的土地上能够长出一棵树的概率。最后,我们综合评估——这些有树的地方,是“瞎猫碰上死老鼠”的偶然,还是确实适宜种植?等我从都昌下车的时候,我就可以大摇大摆地去见县领导了。TA们是否欣赏,相当于我的论文是否能发表。

就目前的实验结果来看,我这个被遗忘三十年的方法,没有辜负我的痴情!我唠叨了这么多,还是明说吧:鼓励大家去尝试!即使是丑媳妇,也总要见公婆。如果有人能指出其中的错误,我一定比曾经拒我的人更大度。

为了方便广大群众免费下载阅读,我花了不少银子买这个“方便”。资本主义的银子,同样来之不易,不能浪费。如果大家反馈良好,不只是我花的银子值得,那岂不是——柳暗花明,又一村!

Share This Article
Susan Dwight Bliss Professor of Biostatistics School of Public Health
Follow:
Dr. Zhang published over 390 research articles and monographs in theory and applications of statistical methods and in several areas of biomedical research including epidemiology, genetics, child and women health, mental health, substance use, and reproductive medicine. He directed a training program in mental health research that was funded by the NIMH. He directs the Collaborative Center for Statistics in Science that coordinates the Reproductive Medicine Network to evaluate treatment effectiveness for infertility. He is a fellow of the American Statistical Association and a fellow of the Institute of Mathematical Statistics. He was named the 2008 Myrto Lefokopoulou distinguished lecturer by Harvard School of Public Health and a Medallion Award and Lecturer by the Institute of Mathematical Statistics. In 2011, he received the Royan International Award on Reproductive Health. Dr. Zhang was the president of the International Chinese Statistical Association in 2019. He is a former-editor of the Journal of the American Statistical Association - Applications and Case Studies. He was the recipient of the 2022 Neyman Award and Lecture by the Institute of Mathematical Statistics and the 2023 Distinguished Achievement Award by the International Chinese Statistical Association. He was selected as a 2023 Highly Cited Researcher in cross field by Web of Science.