广州紫为云科技有限公司李建明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州紫为云科技有限公司申请的专利一种PDF文件表格解析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120104577B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510580825.3,技术领域涉及:G06F16/16;该发明授权一种PDF文件表格解析方法是由李建明;杨开漠;李创成设计研发完成,并于2025-05-07向国家知识产权局提交的专利申请。
本一种PDF文件表格解析方法在说明书摘要公布了:本发明涉及一种PDF文件表格解析方法,包括以下步骤:PDF文档至图片格式转化步骤:将待解析的PDF文档页面转化为图片格式;表格区域检测步骤:将转化后的图片输入到一个预先训练的表格识别OCR模型中,该模型能够识别图片中的表格区域框范围;表格区域裁剪步骤:根据模型提供的表格位置坐标P,对原始图片进行裁剪,仅保留表格区域框部分的图片。图片至HTML格式转化步骤:采用预先训练的OCR模型识别表格图片中的表格空间结构和所包含的单元格文本信息及结构特征,然后基于提取的表格空间结构和单元格文本信息及结构特征,将其从图片格式转换为结构化的表格数据,并进一步转化为HTML格式的表格。本发明能够提高从PDF文件中提取表格信息的准确性和效率。
本发明授权一种PDF文件表格解析方法在权利要求书中公布了:1.一种PDF文件表格解析方法,其特征在于,包括以下步骤: PDF文档至图片格式转化步骤:将待解析的PDF文档页面转化为图片格式; 表格区域检测步骤:将转化后的图片输入到一个预先训练的表格识别OCR模型中,该模型能够识别图片中的表格区域框范围,并输出表格区域框在图片中的坐标,其中为表格区域框的第i个坐标点,为第i个坐标点置信度; 表格区域裁剪步骤:根据模型提供的表格位置坐标P,对原始图片进行裁剪,仅保留表格区域框部分的图片; 图片至HTML格式转化步骤:采用预先训练的OCR模型识别表格图片中的表格空间结构和所包含的单元格文本信息及结构特征,然后基于提取的表格空间结构和单元格文本信息及结构特征,将其从图片格式转换为结构化的表格数据,并进一步转化为HTML格式的表格; HTML格式的嵌套表格中跨单元格转化步骤:在HTML格式的表格中,采用table标签定义一个表格,用tr标签定义表格中的行,用td标签定义标准单元格,用rowspan属性定义表格单元格所跨越的行数,用colspan属性定义表格单元格所跨越的列数; 单元格所属键值类型识别步骤:利用预先训练的命名实体识别模型识别单元格所属键值类型,具体为: tr标签下单元格文本序列提取:逐行遍历table标签中的tr标签,将tr标签下所包含的td单元格文本拼接成单元格文本序列,其中c为第i个tr标签中所包含的td单元格数量; 利用预先训练模型生成单元格文本序列标注:利用预先训练模型对单元格文本序列进行编码,并生成序列表征; 获取实体片段的start向量表征和end向量表征:将序列表征分别输入到单元格所属键值类型预测层中的线性层和线性层,得到序列表征中每个实体片段信息的start向量表征和end向量表征: 其中,start向量表征为实体片段开始字符的向量表征,end向量表征为实体片段结束字符的向量表征,为单元格所属键值类型,,为所有键值类型集合,相当于不同的单元格所属键值类型识别的start向量表征和end向量表征, 因此,对于单元格文本序列,单元格所属键值类型的置信度序列为: 计算单元格所属键值类型的置信度:对于单元格文本序列中,属于单元格所属键值类型的置信度为: ; 保存步骤:相邻单元格两两配对并保存为Json格式。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州紫为云科技有限公司,其通讯地址为:510700 广东省广州市黄埔区香雪八路98号F栋20层2001-1房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。