全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210208536.7 (22)申请日 2022.03.03 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 成杰峰 曾水镜 李杨 彭奕  蒋佳峻 丁琴  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 专利代理师 姚泽鑫 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 16/33(2019.01)G06F 16/36(2019.01) (54)发明名称 词条数据提取方法、 装置、 设备及计算机可 读存储介质 (57)摘要 本申请属于数据处理领域, 提出了一种词条 数据提取方法、 装置、 设备及计算机可读存储介 质。 该方法包括: 获取新闻数据集, 确定所述新闻 数据集中包括的词条名称; 获取所述词条名称的 词条文本, 在所述新闻数据集中确定与所述词条 文本相关的新闻数据; 将所述词条名称的词条文 本相关的新闻数据和所述词条名 称作为词条文 本提取模型的输入数据, 所述词条名称的词条文 本作为所述词条文本提取模型的输出标签, 对所 述词条文本提取模型进行训练。 根据训练完成的 词条文本提取模 型进行词条文本提取操作。 从而 使得本申请可以通过词条文本提取模型自动从 新闻数据中提取词条数据, 有利于降低人力成本 和提高词条的提取效率。 权利要求书2页 说明书9页 附图4页 CN 114580419 A 2022.06.03 CN 114580419 A 1.一种词条 数据提取 方法, 其特 征在于, 所述方法包括: 获取新闻数据集, 确定所述 新闻数据集中包括的词条名称; 获取所述词条名称的词条文本, 在所述新闻数据集中确定与 所述词条文本相关的新闻 数据; 将所述词条名称的词条文本相关的新闻数据和所述词条名称作为词条文本提取模型 的输入数据, 所述词条名称的词条文本作为所述词条文本提取模型 的输出标签, 对所述词 条文本提取模型进行训练; 根据训练完成的词条文本提取模型进行词条文本提取操作。 2.根据权利要求1所述的方法, 其特征在于, 确定所述新闻数据集中包括的词条名称, 包括: 提取所述新闻数据集中包括的实体; 将所提取的实体与 预设的词条数据库中的词条名称进行匹配, 确定所述实体中包括词 条名称。 3.根据权利要求1所述的方法, 其特征在于, 在所述新闻数据集中确定与所述词条文本 相关的新闻数据, 包括: 获取词条文本 中包括的关键词, 以及获取所述新闻数据集中的新闻数据中包括的关键 词; 根据所述词条文本 中包括的关键词在所述词条文本 中出现的频率, 确定所述词条文本 的第一关键词集 合; 根据所述新闻数据中包括的关键词在所述新闻数据中出现的频率, 确定所述新闻数据 的第二关键词集 合; 根据所述第一关键词集 合和所述第一关键词集 合确定所述词条文本相关的新闻数据。 4.根据权利要求3所述的方法, 其特征在于, 在确定第 一关键词集合和第 二关键词集合 后, 所述方法还 包括: 根据所述第一关键词集合中的关键词在所述词条文本中出现的频率确定所述第一关 键词集合中的第一关键词的权重, 以及, 根据所述第二关键词集合中的关键词在所述新闻 数据中出现的频率确定所述第二关键词集 合中的第二关键词的权 重; 根据所述第 一关键词集合和所述第 一关键词集合确定所述词条文本相关的新闻数据, 包括: 当第一关键词集合中的第 一关键词与第 二关键词集合中第 二关键词匹配时, 选择匹配 的第一关键词的权重和第二关键词的权重中的较小权重或平均权重作为第一关键词与第 二关键词匹配的权重, 根据所述权重确定所述词 条文本与所述新闻数据的匹配度, 根据所 述匹配度确定所述词条文本相关的新闻数据。 5.根据权利要求1所述的方法, 其特征在于, 将所述词条名称的词条文本相关的新闻数 据和所述词条名称作为词条文本提取模型的输入数据, 所述词条名称的词条文本作为所述 词条文本提取模型的输出 标签, 对所述词条文本提取模型进行训练, 包括: 将所述新闻数据和所述词条名称输入到预先设定的词条文本提取模型, 通过所述词条 文本提取模型 得到输出的词条文本; 确定输出的词条文本与所述词条名称的词条文本的差异;权 利 要 求 书 1/2 页 2 CN 114580419 A 2根据所述差异调整所述词条文本提取模型的参数, 直到所述词条文本提取模型输出的 词条文本与所述词条名称的词条文本的差异符合预设的要求。 6.根据权利要求2所述的方法, 其特征在于, 根据训练完成的词条文本提取模型进行词 条文本提取操作, 包括: 确定所述 新闻数据集中的候选词条名称集 合; 查找与所述 候选词条名称集 合中的候选词条名称相关的新闻数据; 将所述候选词条名称, 以及所述候选词条名称相关的新闻数据输入到已训练 的所述词 条文本提取模型, 生成所述 候选词条名称的词条文本 。 7.根据权利要求6所述的方法, 其特征在于, 确定所述新闻数据集中的候选词条名称集 合, 包括: 将所述提取的实体与 预设的词条数据库中的词条名称进行匹配, 根据 未匹配到词条名 称的实体添加至候选词条名称集 合。 8.一种词条 数据提取装置, 其特 征在于, 所述装置包括: 词条名称获取 单元, 用于获取新闻数据集, 确定所述 新闻数据集中包括的词条名称; 新闻数据获取单元, 用于获取所述词条名称的词条文本, 在所述新闻数据集中确定与 所述词条文本相关的新闻数据; 训练单元, 用于将所述词条名称的词条文本相关的新闻数据和所述词条名称作为词条 文本提取模型的输入数据, 所述词条名称的词条文本作为所述词条文本提取模型的输出标 签, 对所述词条文本提取模型进行训练; 词条文本提取 单元, 用于根据训练完成的词条文本提取模型进行词条文本提取操作。 9.一种词条数据提取设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述 处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利 要求1至7任一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114580419 A 3

.PDF文档 专利 词条数据提取方法、装置、设备及计算机可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 词条数据提取方法、装置、设备及计算机可读存储介质 第 1 页 专利 词条数据提取方法、装置、设备及计算机可读存储介质 第 2 页 专利 词条数据提取方法、装置、设备及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。