CCNLP是中国医学科学院医学信息研究所研发的中文临床自然语言处理系统。
该系统以先进的医学人工智能等理论为基础,支持基于机器学习的半自动化标注以及语义信息的分析处理。
系统提供了友好的人机交互可视化界面,支持数据脱敏、语料推荐、数据标注、数据统计以及一致性评价等功能,有效减少了人工标注的重复工作量,提高了中文临床文本的标注效率,有利于提升临床语义信息抽取的效果和管理水平。
医疗语料的分类管理
支持对不同医疗文本语料进行分类管理,不同项目之间语料不可见,保证各项目的独立性。
实体及关系的个性化配置
支持根据项目需求进行实体、属性及关系标签的个性化定制,并提供多种配置方式。
标注语料的自动推荐
基于机器学习算法,向标注员推荐最适合标注的语料,减少人工重复标注的工作量。
在线+增量学习
采用模型在线学习方式辅助标注,支持模型的增量训练,提高标注的准确度和规范化程度。
多种标注模式
支持团队和个人两种标注模式。团队模式适合大型医疗文本标注项目,由标注员和审核员共同完成数据标注;个人模式适合小型或实验型标注项目。
多人协作标注
由于不同标注员对标注内容的理解存在差异,系统支持对同一份语料的多人标注,由审核员进行数据审核,提升标注的精确度。
多种角色分配
支持的用户角色有:项目创建者、标注者、审核者。项目创建者即创建项目的人,标注者负责数据标注,审核者负责审核标注者提交的标注数据。
便捷的标注操作
提供键盘快捷键方式快速标注,支持对标注操作的撤销、重做等功能,优化用户的标注操作。
统计分析
支持对标注完成情况的统计,帮助用户了解当前标注进度;支持对已标注数据的数量统计,并通过图表直观展示。
一致性评价
系统提供对标注结果精确度、召回率和F值的计算,支持对多个标注员标注结果的一致性评价,保证标注数据的质量。
知识图谱
支持基于标注数据的知识图谱构建,提供实体及实体关系的查询功能。
进一步了解CCNLP?