科研智能体评测
关注 agent 在真实任务中的过程可靠性:数据处理、方法选择、统计严谨性和生物学解释。
Biomedical AI · Research Workflow · Notes
记录我对生物医学 AI、科研智能体、实验记录和个人知识系统的阅读、实践与阶段性思考。
我希望 AI 能够成为生物学实验人员的 copilot,在这里会持续整理论文阅读、实验室原型工具和知识库实践中的小结。 仅供分享,转载请注明出处。
关注 agent 在真实任务中的过程可靠性:数据处理、方法选择、统计严谨性和生物学解释。
探索语音草稿、图像解释、实验上下文和人工确认如何拼成更可靠的科研记录流程。
把项目决策、运行手册、阅读笔记和失败经验沉淀成未来可以复用的外部记忆。
Biomni 对生物医学研究的理解还是非常到位的,他们这个 Bench 设计得有独到之处,提出用“过程性评估”替代结果的评估。 BiomniBench-DA 包含 100 个真实生物医学数据分析任务,用专家设计的方案检查 agent 的完整分析轨迹, 重点评估数据处理、方法选择、统计严谨性、生物学解释、科学推理和来源可靠性。这对 agent 的开发很有启发。 后续如果要做真正可用的生物医学 agent,我觉得 harness 的设计会变得非常重要, 需要把方法选择、质量控制、推理链和生物学解释都做成可检查、可追责的过程。 这个和现在的 coding agent 有相似之处,但是生物医学任务的评估指标设计更困难,这也是一个可以深入研究的方向。
这篇论文中,AR 眼镜肯定是最大的亮点,让 agent 可以根据第一视角视频识别试验阶段、提醒潜在污染风险、 纠正操作偏差,并根据当前状态提建议,起到了 copilot 的作用。另外其中对类器官视野观察的任务也很有借鉴价值, SingleObjectVision 是先通过 Cellpose-SAM 分割细胞或类器官,再生成形态学描述, 并结合 CLIP 类多模态 embedding 做可解释聚类。这和传统的 VLM 不同,不仅可以描述结果,还可以做出解释。 当然现在还存在很多局限,但这肯定是未来的发展方向。