技术标签: python tensorflow 机器学习 深度学习 人工智能
“表哥表姐”们还在为大量PDF文件中的表格发愁吗?
百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格式PDF。
但扫描生成的图片表格怎么办?
别着急,一种使用深度神经网络识别提取表格的开源工具可以帮助你。
兼容图片、高准确率、还不占用本地运算资源,如此实用的工具值得你拥有。
如果在输入的PDF文件中检测的表格,模型会在边界框(bounding box)标出表格边框:
然后,表格数据会被转化为Panda数据框架,方便后续处理:
怎么样,是不是很实用?那这个工具如何使用呢?
神经网络算法,还不占用本地运算资源?
对,你没听错,这个工具的所有代码都可以在谷歌Colab上运行。也就是说你可以利用Colab云端资源完成训练和推理,无需本地安装。
这个工具使用到的深度神经网络是Keras-RetinaNet,首先要在Colab上安装Keras-RetinaNet,通过一下一行代码就可以完成:
git clone https://github.com/fizyr/keras-retinanet
同时需要安装必要的库:
pip install .
python setup.py build_ext — inplace
首先要构建或一个训练使用的数据库。
这里要用到Colab工具PDF2Img,将PDF文件转为JPG格式供算法学习。
然后将转好的图片保存在Images文件夹中。接下来需要手动给这些训练数据打标签,这里推荐使用在线标记工具makesense.ai。
将XML注释文件保存在注释文件夹中,并创建用于培训和测试的PDF文件列表,将该列表导入train.txt和test.txt中。
接下来,克隆Github项目https://github.com/ferrygun/PDFTableExtract,并安装beautifulsoup。
运行以下命令以将PASCALVOC格式转换为Keras-RetinaNet所需的格式:
python build_logos.py
运行上述命令后,会得到retinanet_classes.csv,retinanet_test.csv和retinanet_train.csv。
在retinanet_classses.csv中,由于只识别PDF文档中的表,所以只有到一个class,即class 0。
如果你在打标签的过程中加入页眉页脚等标签,相应能得到多个class。
完整的文件和文件夹结构的列表:
然后,将retinanet_classes.csv,retinanet_test.csv,retinanet_train.csv,train.txt和test.txt 导入keras-retinanet的根文件夹中:
接下来,运行Colab TrainOCR,可以根据要训练的JPG文件数量来调整训练的epoch数量。
训练完成后,就会得到权重文件output.h5,下载此文件并将其保存到本地主机。后面将使用该文件来运行测试。
这里需要注意的一点是,在Colab中,已将文件上传到Git并进行了Git克隆。
运行测试前,还需要安装处理PDF文件必要的库。
PyPDF2是一个python工具库,能够提取文档信息,裁剪页面等。
使用以下命令安装此库:
pip install PyPDF2
Camelot是专门用于解析PDF页面表格的python库。
使用以下命令安装此库:
pip install camelot-py[cv]
PDF2IMG是将Python转换为PIL Image对象的python库。
使用以下命令安装此库:
pip install pdf2imag
在运行预测之前,需要使用从训练中获得的权重文件output.h5加载模型,并从retinanet_classes.csv定义标签class 0。
model_path = ‘output.h5’
model = models.load_model(model_path, backbone_name=’resnet50’)
labels = ‘retinanet_classes.csv’
LABELS = open(labels).read().strip().split(‘\n’)
LABELS = {int(L.split(‘,’)[1]): L.split(‘,’)[0] for L in LABELS}
print(LABELS)
{0: ‘tabel’}
接下来运行测试
import numpy as np
import cv2
import matplotlib.pyplot as plt
image_path = imgfname
#image = cv2.imread(image_path)
image = read_image_bgr(image_path)
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
output = image.copy()
output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)
print(output.shape) # row (height) x column (width) x color (3)
image = preprocess_image(image)
(image, scale) = resize_image(image)
image = np.expand_dims(image, axis=0)
# detect objects in the input image and correct for the image scale
(boxes, scores, labels) = model.predict_on_batch(image)
boxes /= scale
confidence = 0.2
from google.colab.patches import cv2_imshow
import matplotlib.pyplot as plt
label_out = []
result = ""
# loop over the detections
for (box, score, label) in zip(boxes[0], scores[0], labels[0]):
# filter out weak detections
if score < confidence:
continue
# convert the bounding box coordinates from floats to integers
box = box.astype("int")
# build the label and draw the label + bounding box on the output
# image
labeli = label
label = "{}: {:.2f}".format(LABELS[label], score)
print(label)
if LABELS[labeli] not in label_out:
label_out.append(LABELS[labeli])
cv2.rectangle(output, (box[0], box[1]), (box[2], box[3]), (255, 0, 0), 12)
print(box[0])
print(box[1])
print(box[2])
print(box[3])
#result
cv2.putText(output, label, (box[0], box[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 4.5, (255, 1, 1), 12)
plt.figure(figsize=(20, 20))
plt.imshow(output)
plt.show()
如果检测的表格,模型会在边界框(bounding box)标出表格边框:
边界框坐标(x1,y1,x2,y2),将table_area输入到Camelot read_pdf函数中,table_area是已标准化的边界框。
interesting_areas=[]
output = [[x1, y1, x2, y2]]
for x in output:
[x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x)
bbox_camelot = [
",".join([str(x1), str(y1), str(x2), str(y2)])
][0] # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space
#print(bbox_camelot)
interesting_areas.append(bbox_camelot)
print(interesting_areas)
output_camelot = camelot.read_pdf(
filepath=pdf_file, pages=str(pg), flavor="stream", table_areas=interesting_areas
)
output_camelot[0].df
这样就可以将表格数据转化为Panda数据框架,方便后续处理:
针对扫描图片格式的PDF表格,可以使用Ocrmypdf包来将图片格式PDF转为文本格式。
Ocrmypdf是一个python软件包,可将基于图像的pdf转换为基于文本的PDF。
安装ocrmypdf,可以通过以下命令行将其用于macOS和Linux:
brew install ocrmypdf
通过以下命令调用:
ocrmypdf input_file.pdf output_file.pdf
之后就可以按照上面的方法进行表格提取了。
怎么样,这款兼容图片,又能白嫖谷歌GPU的PDF表格工具对你有帮助吗?
项目地址:
https://github.com/ferrygun/PDFTableExtract
在线打标签工具:
https://www.makesense.ai/
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
每天5分钟,抓住行业发展机遇
如何关注、学习、用好人工智能?
每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。
同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:
加入AI社群,与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
文章浏览阅读1.2k次。Syntax Error: Error: Node Sass version 6.0.1 is incompatible with ^4.0.0,提示:Error: Rule can only have one resource source (provided resource and test + include + exclude)_syntax error: error: node sass version 6.0.1 is incompatible with ^4.0.0.
文章浏览阅读760次。DataNode(面试开发重点)_datanode
Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言,可以应用于以下领域: Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。这里使用 Python 基于 OpenCV 进行视觉图像处理,......
在多媒体通信领域,MRCP(Media Resource Control Protocol)协议被广泛用于控制语音识别和合成等媒体资源。UniMRCP是一个开源的MRCP实现,提供了客户端和服务端的库。UmcFramework是一个基于UniMRCP客户端库的示例应用程序框架,它帮助开发者快速集成和测试MRCP客户端功能。本文将详细介绍如何使用UmcFramework和unimrcpclient.xml配置文件连接到多个SIP设置,以及如何用C代码进行示例说明。
文章浏览阅读3k次。报错:java.net.ProtocolException: Server redirected too many times (20)1.没有检查到cookie,一直循环重定向。解决:CookieHandler.setDefault(new CookieManager(null, CookiePolicy.ACCEPT_ALL));URL url = new URL(url); ..._java.net.protocolexception: server redirected too many times (20)
文章浏览阅读4.1k次。问题这是部分报错信息2019-07-11 14:03:34.283 WARN [restartedMain][DirectJDKLog.java:175] - Failed to scan [file:/D:/repo/org/apache/derby/derby/10.14.2.0/derbyLocale_ja_JP.jar] from classloader hierarchyjava...._failed to scan from classloader hierarchy
文章浏览阅读1.9k次。声明:此博客为学习笔记,学习自极客学院ZooKeeper相关视频;非常感谢众多大牛们的知识分享。相关概念:负载均衡(相关节点)架构图:说明:每当往集群中新增一个工作服务器时,都会再/server节点下创建一个对应的临时节点,该节点中应含有该服务器 的连接信息以及均衡标识等。当客户端需要连接worker server时,就会先读取/servers节点下的所..._zookeeper实现负载均衡案例
文章浏览阅读448次。枚举注解替换枚举java 虚拟机内存分配java 内存区域可分为方法区 存放虚拟机加载的类信息,常量,静态变量等数据。虚拟机栈 java 方法执行的内存模型:每个方法在执行的时候创建的栈帧,包括存储局部变量表,操作数栈,动态链接,方法出口等信息。本地方法栈 主要与Native相关堆 存放对象实例。程序计数器 当前线程执行的字节码行号指示器。java 数据类型占内存大小java 数据类型分为基本数据类型和引用数据类型。在32位系统上基本数据类型,本文中中的所有内存空间大小都在_android 枚举注解
文章浏览阅读486次。HDU1715:大菲波数求第i个斐波那契数问题(与HDU1316类似,但更简单):总结:数组开多大?题目中让求的最大的是第1000个斐波那契数是多少,由于f[0]不用,所以数组开到1001。import java.util.Scanner;import java.math.BigInteger;public class Main { public static void main..._返回第i个斐波那契数
文章浏览阅读418次。概述说明CAS内置了密码找回和密码修改的功能; 密码找回功能是,系统会吧密码重置的连接通过邮件或短信方式发送给用户,用户点击链接后就可以重置密码,cas还支持预留密码重置的问题,只有回答对了,才可以重置密码;系统可配置密码重置后,是否自动登录; 密码修改功能是,用户登录后输入新密码即可完成密码修改。安装步骤`1. 首先,搭建好cas sso server您需要按..._修改cas默认用户密码
文章浏览阅读141次。之前几章演示的熔断,降级 都是 RestTemplate + Ribbon 和RestTemplate + Hystrix ,但是在实际开发并不是这样,实际开发中都是 Feign 远程接口调用。Feign + Hystrix 演示: eruka(略)order 服务工程: pom.xml<?xml version="1.0" encoding="U..._this is order 服务工程
文章浏览阅读3.4k次,点赞35次,收藏43次。学习率是影响目标检测精度和速度的重要因素之一。合适的学习率调度策略可以加速模型的收敛和提高模型的精度。在YOLOv7算法中,可以使用基于余弦函数的学习率调度策略(Cosine Annealing Learning Rate Schedule)来调整学习率。