数据（产品）登记平台

数据交易平台

当前位置：

证书查询

医疗大模型预训练数据集

已发证浏览量：405次

申请人	北方健康医疗大数据科技有限公司	数据(产品)类型	其他
公示开始时间	2024/03/07	公示截止时间	2024/03/20
登记编号	DIPR2024030700023	发证时间	2024/03/21
数据(产品)证书	查看	数据(产品)所属平台
数据(产品)简介	本次预训练数据集是由我司构建的一个医疗文本数据集，用于训练大语言模型。该预训练数据集的目标是为了训练一个在医疗领域有较好理解能力的语言模型，以提高医疗诊断准确度、提升患者护理水平和提高医疗效率等方面的表现。通过在大规模医疗文本数据上进行预训练，该模型可以更好地理解医疗领域的特定文本，并为医疗相关的问题提供有用的解答和指导。预训练数据集旨在为医疗领域的语言模型提供一个具有结构化、有序化、标准化和标识化的训练基础，以提升模型在医疗场景下的理解能力和应用性。本预训练数据集规模达百亿token级别。

详细信息

数据(产品)基础信息
数据(产品)来源信息
申请人基本信息

一、数据(产品)基础信息

名称	医疗大模型预训练数据集
类型	其他
简介	本次预训练数据集是由我司构建的一个医疗文本数据集，用于训练大语言模型。该预训练数据集的目标是为了训练一个在医疗领域有较好理解能力的语言模型，以提高医疗诊断准确度、提升患者护理水平和提高医疗效率等方面的表现。通过在大规模医疗文本数据上进行预训练，该模型可以更好地理解医疗领域的特定文本，并为医疗相关的问题提供有用的解答和指导。预训练数据集旨在为医疗领域的语言模型提供一个具有结构化、有序化、标准化和标识化的训练基础，以提升模型在医疗场景下的理解能力和应用性。本预训练数据集规模达百亿token级别。
应用场景描述	预训练数据集的设计考虑了不同的使用场景和业务需求。通过问题与答案配对，模拟医学问题和答案的场景，为训练问答模型提供基础。同时，利用病历描述与诊断关系的数据，可以训练预测模型，为辅助诊断和编码等应用提供支持。
禁用场景	禁止非法使用；
使用限制	--
此产品使用时是否需要被查询对象授权	否
详细信息
附件

二、数据(产品)来源信息

数据源更新周期

不更新

源数据来源

原始取得

三、申请人基本信息

申请人名称	北方健康医疗大数据科技有限公司	统一社会信用代码	91370100MA3TJFGH43
类型	--	注册地址
法人代表		成立日期
营业期限
经营范围

医疗大模型预训练数据集

意见建议
官方微信
返回顶部