陈砚舟盯着手机屏幕,那条短信还躺在对话框里:许志远背景,你查过吗?
他没点开,也没回复。手指在屏幕上滑了一下,锁了屏。
实验室的灯亮着,主控台前没人说话。数据筛选进度条已经跑完,c级影像全部进了隔离区。小王留了句话就走了,说脚本运行正常,明天能出第一轮清洗报告。
陈砚舟打开笔记本,蓝笔写下一行字:标注标准混乱,需统一临床可用性原则。
红笔圈住“临床可用性”五个字,又画了个箭头指向旁边空白处,写上:召集联合会议。
他合上本子,起身走向白板。拿起记号笔,在上面贴了一张打印纸——是康和门诊放射科主任那段语音转成的文字:“你们这系统挺聪明,就是有时候看得比我眼花的时候还费劲。”
底下加粗写了两行字:
**我们不是训练AI看高清图。**
**我们要让它看懂现实里的模糊片子。**
老李推门进来时正看见这两行字。他愣了一下,把手里咖啡放下,“你真打算按医生的标准来?”
“本来就是给人用的。”陈砚舟转身,“他们能看清,就算合格;他们看不清,AI再准也没用。”
“可标注组那边……之前按像素精度分的等级,现在全得重调。”
“那就重调。”陈砚舟指了指投影,“模型卡在89.7%,不是算法不行,是我们喂的数据和实际对不上。一边是三甲医院的高清片,一边是社区诊所的老机器拍的雾图,非让一个模型全吃下去,它能不吐?”
老李摸了摸下巴,“分设备训练呢?比如专门给老款dR做个专用模型?”
“已经在做了。”陈砚舟调出后台任务列表,“我让技术组把第一批A级数据按设备型号拆开,单独建模。重点跑那几台十年以上的老机器样本。”
“耗时间啊。”
“总比瞎调强。”陈砚舟说,“咱们之前改学习率、换优化器,像在修车却不检查油是不是脏的。现在先把‘油’换干净,再看发动机响不响。”
老李笑了下,“你还真会打比方。”
“随口一说。”陈砚舟拉开椅子坐下,“明天等清洗报告出来,先开个会,把标注和算法的人凑一起。定一条规矩——不再追求图像完美,只问一句:医生能不能靠这张图做判断?能,就留下;不能,哪怕清晰也进废片库。”
“行。”老李点头,“我去找标注组长沟通。”
“顺便叫他把最近三天的争议样本整理一份,我要看看他们在哪些地方拿不准。”
老李走后,陈砚舟翻出之前的测试记录。五家机构的数据都接上了,样本类型多了,问题才暴露出来。以前量不够,看不出规律;现在数据多了,反而发现原来的方法根本扛不住真实场景。
他点了根烟,吸了一口就掐了。实验室不让抽烟,但他今天破例。
第二天上午九点十七分,小王抱着笔记本冲进来。
“出结果了!”
陈砚舟抬头。
“按新标准清洗后的数据重新训练,专用模型在同类老设备影像上的准确率飙到93.2%!误报率降了三分之一!”
办公室里原本低头干活的人都抬起了头。
老李快步走过来,“哪个模型?”
“编号t7-3,专训老旧dR设备那一组。”小王声音有点抖,“训练用了三天,跑了四轮迭代,最后一次验证集表现直接跳上去的。”
陈砚舟站起来,走到主控台前调出曲线图。
准确率从89.6%一路爬升,最后稳在93.2%。波动极小,趋势稳定。
他看了很久,没说话。
“是不是数据太窄?”有人问,“只针对一种机型,能不能代表整体?”
“交叉测试做了吗?”另一个工程师跟进。
“做了。”小王点头,“拿新模型去跑其他四家机构的留存样本,平均准确率91.4%,最低一家也有89.9%。特别在社区医院常用的两款机型上,识别小结节的能力提升最明显。”
办公室安静了几秒。
然后是键盘敲击声,有人开始重新拉测试集。
老李站在投影前,看着那条上升曲线,嗓子有点哑:“这不只是数字变了……是整个逻辑变了。”
“以前我们拼命让AI适应高质量数据。”陈砚舟接过话,“现在我们让它学会在烂条件下工作。这才是真正的实用。”
“可联盟评审还有二十天。”有人提醒,“全面重构训练流程,来得及吗?”
“不用全面重构。”陈砚舟翻开笔记本,“我们分层推进。先把五家机构的设备分类,每类做一个基础模型,后续再融合升级。眼下最重要的是证明这条路走得通。”
“那通用模型还继续训吗?”
“暂停。”陈砚舟说,“先把各分支打好地基。等所有分模型都稳定突破90%,再考虑合并。”
“但这样资源占用会翻倍。”
“那就加班。”陈砚舟看着所有人,“我知道大家累了。但这一步必须走扎实。我们现在不是拼速度,是拼谁更能解决问题。”
没人反对。
中午十二点二十三分,会议室坐满了人。
标注组带来了三十份争议样本。一张张放出来,都是边缘模糊、对比度低的片子。
“这张算不算有效?”标注员指着其中一张,“病灶轮廓几乎看不清。”
“医生能判吗?”陈砚舟反问。
“有经验的可以,但新手容易漏。”
“那就是有效。”陈砚舟说,“我们的目标不是让AI超过专家,而是帮普通医生少犯错。只要有人能在这种图上看出来,我们就不能放弃。”
会议室里响起一片笔尖划纸的声音。
下午三点,第一批跨设备泛化测试启动。
傍晚六点,第二轮清洗完成,新增A级样本三百余例。
晚上八点,三个分模型同步进入第二阶段训练。
陈砚舟坐在主控台前,盯着实时监控面板。各项任务状态灯依次由黄转绿。
老李端了碗泡面过来,“吃点东西。”
“待会儿吧。”陈砚舟接过,没动筷子。
“你知道刚才最让我放心的是什么吗?”老李靠着桌子,“不是准确率涨了四个点,是你从头到尾没喊一句‘加油’‘坚持’这种话。你就把事一件件摆出来,大家自然就跟上了。”
“情绪解决不了问题。”陈砚舟说,“方向对了,节奏跟上,结果迟早会来。”
“可你怎么就知道该从数据下手?”
“我不是知道。”陈砚舟低头吹了口泡面,“我是听到了一句话,然后想起了那些医生皱眉的样子。”
老李没再问。
深夜十一点,最新一批测试结果弹窗跳出。
t7-3模型在外部样本中的平均识别准确率达到91.8%,连续三次测试误差低于0.5%。
陈砚舟点开详细报告,逐项核对指标。
呼吸声很轻,只有服务器风扇持续运转。
他打开笔记本,蓝笔写下三项后续动作:
1 扩大分层训练范围,覆盖全部五类主流设备;
2 启动跨设备泛化测试,验证模型迁移能力;
3 准备向李教授提交阶段性报告。
红笔圈住最后一项,在下面补了一句:收集用户体验反馈。
合上本子时,手机又震了一下。
还是那个号码。
他看了一眼,屏幕亮起的光映在他脸上。
手指悬在上方,没有解锁。