导航

公墓网

当前位置: 首页 > 公墓资讯

ocr开源【ocr开源库】

更新时间:2025 07 18 13:26:32 作者 :庆美网 围观 : 73次

大家好,今天小编来为大家解答ocr开源【ocr开源库】这个问题,很多人还不知道,现在让我们一起来看看吧!

PaddleOCR 可称得上 OCR 方向目前最火的 repo。

OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目,累计 Star 数量已超过 20000+,频频登上 GitHub Trending 和 Paperswithcode 日榜月榜第一,在 Medium 与 Papers with Code 联合评选的《Top Trending Libraries of 2021》,从百万量级项目中脱颖而出,荣登Top10!在《2021 中国开源年度报告》中被评为活跃度Top5!称它为 OCR 方向目前最火的 repo 绝对不为过。

PaddleOCR 影响力。

ocr开源【ocr开源库】

PP-OCRv3 效果。

本次 PaddleOCR 最新发版,带来四大重磅升级,包括如下:

  • 发布超轻量 OCR 系统 PP-OCRv3:中英文、纯英文以及多语言场景精度再提升 5% – 11%!
  • 发布半自动标注工具 PPOCRLabelv2:新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能。
  • 发布 OCR 产业落地工具集:打通 22 种训练部署软硬件环境与方式,覆盖企业 90% 的训练部署环境需求。
  • 发布业界首个交互式OCR开源电子书《动手学OCR》,覆盖OCR全栈技术的前沿理论与代码实践,并配套教学视频。

官网地址:https://www.paddlepaddle.org.cn

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

GitHub:https://github.com/PaddlePaddle/PaddleOCR

下面我们就对上述升级依次进行说明:

一、PP-OCRv3 优化策略详细解读

PP-OCR 是 PaddleOCR 团队自研的超轻量 OCR 系统,面向 OCR 产业应用,权衡精度与速度。近期,PaddleOCR 团队针对 PP-OCRv2 的检测模块和识别模块,进行共计 9 个方面的升级,打造出一款全新的、效果更优的超轻量 OCR 系统:PP-OCRv3。

从效果上看,速度可比情况下,多种场景精度均有大幅提升:

  1. 中文场景,相比 PP-OCRv2,中文模型提升超 5%;
  2. 英文数字场景,相比 PP-OCRv2,英文数字模型提升 11%;
  3. 多语言场景,优化 80 + 语种识别效果,平均准确率提升超 5%。

全新升级的 PP-OCRv3 的整体框架图(粉色框中为 PP-OCRv3 新增策略)如下图。检测模块仍基于 DB 算法优化;而识别模块不再采用 CRNN,更新为 IJCAI 2022 最新收录的文本识别算法 SVTR (论文名称:SVTR: Scene Text Recognition with a Single Visual Model),并对其进行产业适配。

具体的优化策略包括:

1. 检测模块

  • LK-PAN:大感受野的 PAN 结构
  • DML:教师模型互学习策略
  • RSE-FPN:残差注意力机制的 FPN 结构

2. 识别模块

  • SVTR_LCNet:轻量级文本识别网络
  • GTC:Attention 指导 CTC 训练策略
  • TextConAug:挖掘文字上下文信息的数据增广策略
  • TextRotNet:自监督的预训练模型
  • UDML:联合互学习策略
  • UIM:无标注数据挖掘方案

优化策略解读详见 “第六节:PP-OCRv3 优化策略详解”。

二、PPOCRLabelv2 多项重磅更新

PPOCRLabel 是首款开源的 OCR 半自动数据标注工具,大幅减少开发者标注 OCR 数据的时间。2021 年,项目获得 Wave Summit 2021 优秀开源项目奖、启智社区优秀项目奖。经过一年的更新迭代,PPOCRLabel 结合产业实际落地需求,正式发布 PPOCRLabelv2,更新内容如下:

  • 新增标注类型:表格标注、关键信息标注、不规则文字图像的标注(印章、弯曲文本等)
  • 新增功能:锁定框、图像旋转、数据集划分、批量处理等
  • 易用性提升:新增 whl 包安装、以及优化多处标注体验

从上到下依次为表格标注、KIE 标注、不规则文字图像的标注以及图像旋转、批处理、撤销。

三、OCR 产业落地工具集

考虑到真实产业应用面对的各种软硬件环境和不同的场景需求,基于飞桨训推一体的功能完备,本次升级发布 OCR 产业落地工具集,打通22种训练部署软硬件环境与方式,包括3种训练方式、6种训练环境、3种模型压缩策略和10种推理部署方式,如下表所示:

其中特色能力如下:

1.分布式训练:飞桨分布式训练架构具备 4D 混合并行、端到端自适应分布式训练等多项特色技术。在 PP-OCRv3 识别模型训练中,4 机加速比达到 3.52 倍,精度几乎无损。

2.模型压缩:飞桨模型压缩工具 PaddleSlim 功能完备,覆盖模型裁剪、量化、蒸馏和 NAS。PP-OCR 模型经过裁剪量化后,模型大小从 8.1M 压缩至 3.5M,移动端平均预测耗时减少 36%。

3.服务化部署:飞桨服务化部署引擎 Paddle Serving,提供性能优越、功能可靠的模型即服务能力。针对 PP-OCR 模型的服务化部署,采用全异步的 Pipeline Serving,可将吞吐量提升 2 倍以上。

4.移动端 / 边缘端部署:飞桨轻量化推理引擎 Paddle Lite 适配了 20+ AI 加速芯片,可以快速实现 OCR 模型在移动设备、嵌入式设备和 IOT 设备等高效设备的部署。

5.云上飞桨:面向飞桨框架及其模型套件的部署工具箱,支持 Docker 化部署和 Kubernetes 集群部署两种方式,满足不同场景与环境下 OCR 模型的训练部署需求。

除了以上三项重大升级外,此次发布的开源电子书《动手学 OCR》由 PaddleOCR 团队、复旦大学青年研究员陈智能、中国移动研究院视觉领域资深专家黄文辉以及广大 OCR 开发者共同打造,覆盖了从文本检测识别到文档分析的 OCR 全栈技术。

四、PP-OCRv3 优化策略详解

1. 检测模块优化策略

PP-OCRv3 检测模块对 PP-OCRv2 中的 CML(Collaborative Mutual Learning) 协同互学习文本检测蒸馏策略进行了升级。如下图所示,CML 的核心思想结合了①传统的 Teacher 指导 Student 的标准蒸馏与 ②Students 网络之间的 DML 互学习,可以让 Students 网络互学习的同时,Teacher 网络予以指导。

PP-OCRv3 分别针对教师模型和学生模型进行进一步效果优化。其中,在对教师模型优化时,提出了大感受野的 PAN 结构 LK-PAN 和引入了 DML(Deep Mutual Learning)蒸馏策略;在对学生模型优化时,提出了残差注意力机制的 FPN 结构 RSE-FPN。消融实验如下表所示。

测试环境:Intel Gold 6148 CPU,预测时开启 MKLDNN 加速。

(1)LK-PAN:大感受野的 PAN 结构

LK-PAN (Large Kernel PAN) 是一个具有更大感受野的轻量级 PAN 结构,核心是将 PAN 结构的 path augmentation 中卷积核从 3*3 改为 9*9。通过增大卷积核,提升特征图每个位置覆盖的感受野,更容易检测大字体的文字以及极端长宽比的文字。使用 LK-PAN 结构,可以将教师模型的 hmean 从 83.2% 提升到 85.0%。

(2)DML:教师模型互学习策略

DML 互学习蒸馏方法,通过两个结构相同的模型互相学习,可以有效提升文本检测模型的精度。教师模型采用 DML 策略, hmean 从 85% 提升到 86%。将 PP-OCRv2 中 CML 的教师模型更新为上述更高精度的教师模型,学生模型的 hmean 可以进一步从 83.2% 提升到 84.3%。

(3)RSE-FPN:残差注意力机制的 FPN 结构

RSE-FPN(Residual Squeeze-and-Excitation FPN)引入残差结构和通道注意力结构,将 FPN 中的卷积层更换为带有残差结构的通道注意力结构的 RSEConv 层,进一步提升特征图的表征能力。进一步将 PP-OCRv2 中 CML 的学生模型的 FPN 结构更新为 RSE-FPN,学生模型的 hmean 可以进一步从 84.3% 提升到 85.4%。

2. 识别模块优化策略

PP-OCRv3 的识别模块是基于文本识别算法 SVTR 优化。SVTR 不再采用 RNN 结构,通过引入 Transformers 结构更加有效地挖掘文本行图像的上下文信息,从而提升文本识别能力。直接将 PP-OCRv2 的识别模型,替换成 SVTR_Tiny,识别准确率从 74.8% 提升到 80.1%(+5.3%),但是预测速度慢了将近 11 倍,CPU 上预测一条文本行,将近 100ms。

因此,如下图所示,PP-OCRv3 采用如下 6 个优化策略进行识别模型加速,消融实验如下表所示。

注:测试速度时,实验 01-03 输入图片尺寸均为 (3,32,320),04-08 输入图片尺寸均为 (3,48,320)。在实际预测时,图像为变长输入,速度会有所变化。测试环境:Intel Gold 6148 CPU,预测时开启 MKLDNN 加速。

(1)SVTR_LCNet:轻量级文本识别网络

SVTR_LCNet 是针对文本识别任务,将 Transformer 网络和轻量级 CNN 网络 PP-LCNet 融合的一种轻量级文本识别网络。使用该网络,并且将输入图片规范化高度从 32 提升到 48,预测速度可比情况下,识别准确率达到 73.98%,接近 PP-OCRv2 采用蒸馏策略的识别模型效果。

(2)GTC:Attention 指导 CTC 训练策略

GTC(Guided Training of CTC),利用 Attention 指导 CTC 训练,融合多种文本特征的表达,是一种有效的提升文本识别的策略。使用该策略,识别模型的准确率进一步提升到 75.8%(+1.82%)。

(3)TextConAug:挖掘文字上下文信息的数据增广策略

TextConAug 是一种挖掘文字上下文信息的数据增广策略,可以丰富训练数据上下文信息,提升训练数据多样性。使用该策略,识别模型的准确率进一步提升到 76.3%(+0.5%)。

(4)TextRotNet:自监督的预训练模型

TextRotNet 是使用大量无标注的文本行数据,通过自监督方式训练的预训练模型。该模型可以初始化 SVTR_LCNet 的初始权重,从而帮助文本识别模型收敛到更佳位置。使用该策略,识别模型的准确率进一步提升到 76.9%(+0.6%)。

(5)UDML:联合互学习策略

UDML(Unified-Deep Mutual Learning)联合互学习是 PP-OCRv2 中就采用的对于文本识别非常有效的提升模型效果的策略。在 PP-OCRv3 中,针对两个不同的 SVTR_LCNet 和 Attention 结构,对他们之间的 PP-LCNet 的特征图、SVTR 模块的输出和 Attention 模块的输出同时进行监督训练。使用该策略,识别模型的准确率进一步提升到 78.4%(+1.5%)。

(6)UIM:无标注数据挖掘方案

UIM(Unlabeled Images Mining)是一种非常简单的无标注数据挖掘方案。核心思想是利用高精度的文本识别大模型对无标注数据进行预测,获取伪标签,并且选择预测置信度高的样本作为训练数据,用于训练小模型。使用该策略,识别模型的准确率进一步提升到 79.4%(+1%)。

3. 整体效果对比

经过上述文本检测和文本识别 9 个方面的优化,最终 PP-OCRv3 在速度可比情况下,在中文场景端到端 Hmean 指标相比于 PP-OCRv2 提升 5%,效果大幅提升。具体指标如下表所示:

在英文数字场景,基于 PP-OCRv3 单独训练的英文数字模型,相比于 PP-OCRv2 的英文数字模型提升 11%,如下表所示。

在多语言场景,基于 PP-OCRv3 训练的模型,在有评估集的四种语系,相比于 PP-OCRv2,识别准确率平均提升 5% 以上,如下表所示。同时,PaddleOCR 团队基于 PP-OCRv3 更新了已支持的80 余种语言识别模型。

字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR

字节跳动刚刚开源一款全新文档解析模型——Dolphin

与目前市面上各类大模型相比,这款轻量级模型不仅体积小、速度快,并且取得了令人惊艳的性能突破,解析效率提升近2倍

测试结果显示,Dolphin在文档解析任务上解析准确率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模态大模型,以及最近推出的号称最强OCR大模型的Mistral-OCR等垂类大模型。

论文已被收录于ACL 2025,项目链接可见文末。

突破性的两阶段解析方法

文档图像解析解决方案可以分为两大流派:集成式方法以及端到端方法。

集成式方法在链路中组装多个专家模型,端到端方法则利用视觉语言模型通过自回归解码直接生成结构化结果。

而Dolphin采用了全新的“先解析结构后解析内容”(analyze-then-parse)两阶段范式:

Dolphin遵循一种基于编码器-解码器Transformer架构的分析-解析范式

  • 第一阶段—文档布局解析:按照自然阅读顺序生成文档元素序列,即每个文档元素的类别及其坐标。这里的文档元素值得是标题、图表、表格、脚注等。
  • 第二阶段—元素内容解析:使用这些元素作为”锚点”,配合特定提示词实现并行内容识别,从而完成整页文档的内容提取。

这种创新架构一箭双雕,既避免了传统商用方案中多OCR专家模型级联带来的错误累积问题,又克服了通用多模态大模型易丢失版面结构信息、自回归解码效率低的痛点。

因为获取孤立的元素图像(例如表格、公式)及其标注比收集包含多种元素的完整文档页面更可行,Dolphin的元素解耦解析策略在数据收集方面提供了独特的优势。

更轻量、更高效

Dolphin与先进VLMs在基准测试中的比较

对于流行的基准测试,Dolphin在多种页面级和元素级解析任务中达到了最先进的性能。

页面级文档解析的性能比较

尽管Dolphin具有轻量级架构(322M参数),但其性能优于基于集成的方法和更大的VLM。

“Plain Doc”代表仅包含文本内容的文档,而“Complex Doc”包括包含混合元素(表格、公式和图形)的文档。

对于纯文本文档,Dolphin在英文和中文测试集上分别达到了0.0114和0.0131的编辑距离,优于垂类的VLM如GOT(编辑距离为0.035和0.038)和通用VLM如GPT-4.1(编辑距离为0.0489和0.2549)。

在处理包含表格、公式、图像等混合元素的文档时,Dolphin达到了0.1283的编辑距离,优于所有基线

此外,凭借并行解析设计,Dolphin展示了显著的效率提升,达到了0.1729FPS,比最有效的基线(Mathpix,0.0944FPS)快近2倍。

文本段落、公式和表格的元素级解析性能比较

对于文本段落解析,Dolphin在Fox-Block和Dolphin-Block测试集上都取得了具有竞争力的结果。

在公式识别方面,Dolphin在不同复杂度级别(SPE、SCE和CPE)上都展现出强大的能力,取得了与专业公式识别方法相当的具有竞争力的CDM分数。

对于表格解析,Dolphin在PubTabNet和PubTab1M基准测试上显示出有前景的结果,有效地捕捉了结构关系和单元格内容。

在文本段落、公式和表格上这些持续强劲的结果展示了Dolphin在基础识别任务中的具有竞争力的性能。

实际案例展示

下面通过几个实际案例,直观展示Dolphin的文档解析能力:

无论是多栏学术论文、复杂公式、中英表格,Dolphin都能精准识别、高效处理。

Dolphin的页面级解析结果可视化

  • 左:第一阶段布局分析,包含预测的元素边界和阅读顺序。
  • 中:第二阶段特定元素的解析输出。
  • 右:最终以markdown格式渲染的文档。

Dolphin在各种场景下的元素级解析演示

顶部行显示输入图像,底部行显示相应的识别结果。

  • 左:复杂布局中的文本段落解析。
  • 中:双语文本段落识别。
  • 右:复杂表格解析(显示渲染结果)。

Dolphin的其他功能

  • 左:从给定的边界框区域中解析文本内容。
  • 右:文本识别结果,显示了检测到的文本行(在图像中可视化)及其内容。

http://115.190.42.15:8888/dolphin/

https://github.com/bytedance/Dolphin

https://huggingface.co/ByteDance/Dolphin

https://arxiv.org/abs/2505.14059

用户评论

大王派我来巡山!

ocr开源真的太棒了!以前想要用到OCR技术还得购买昂贵的软件,现在有了这些开源库简直再合适不过了。不用担心版权问题也不用花大价钱,又能实现我想要的功能,真是个福音啊!

    有9位网友表示赞同!

余温散尽ぺ

我一直觉得开源就是力量!感谢贡献者们开发出这么优秀的ocr开源库!希望更多开发者加入进来,共同完善它,让OCR技术更加普及化,造福大众!

    有5位网友表示赞同!

瑾澜

看了下这个ocr开源库的文档,感觉上手比较容易。我已经开始尝试在我的项目中应用它了,希望能顺利完成预期功能!后续还会分享我的使用体验给大家参考。

    有10位网友表示赞同!

丢了爱情i

虽然代码看着有些复杂,但我相信只要认真研究一下,最终还是能学会如何使用这些 OCR 库。开源的优势就在这里,你可以自由地修改和改写代码,充分满足自己的个性化需求。

    有12位网友表示赞同!

黑夜漫长

这个ocr开源库的功能性我觉得还比较有限,希望未来能够更加完善,比如支持更多的语言类型,更高的准确率等。毕竟目前很多商业OCR软件都已经做到相当成熟了,开源库还要努力突破才能赶上

    有7位网友表示赞同!

有一种中毒叫上瘾成咆哮i

我尝试使用了几款不同的 OCR 库,总体来说这个开源库的价格还是很具有吸引力的,而且功能也比较实用。不过偶尔会遇到一些识别错误的情况,需要进一步调整参数来提高准确率。

    有6位网友表示赞同!

不浪漫罪名

对新手来说确实有点难度,ocr相关的知识积累和代码调试还需要一定的经验。建议有相关经验的开发者可以贡献一些学习资料或教程,更方便小白入门使用开源库

    有16位网友表示赞同!

莫阑珊

我一直很羡慕那些能够写代码的人!希望我也有能力学习这些OCR技术的开发,把开源库用在自己的项目上!

    有13位网友表示赞同!

有阳光还感觉冷

感觉这个ocr开源库的目标用户还是比较特定的,不是每个人都需要用到它。除非你有实际的需求,否则可能不太适合去尝试使用。

    有15位网友表示赞同!

心贝

我觉得OCR技术的发展方向很广阔,尤其是在图像识别、文档处理等方面应用前景很大。期待未来的开源库能够更加智能化,更易于使用!

    有7位网友表示赞同!

十言i

我很喜欢这个项目的方向!开源是推动科技进步的力量,而 OCR 这种实用性很强的技术也应该被更多人所掌握和利用。

    有8位网友表示赞同!

寒山远黛

之前一直在用收费的OCR软件,现在发现有了开源库可以用,真是太高兴了!不用再担心续费问题,又能使用到同样功能的产品,实在是太划算啦!

    有10位网友表示赞同!

浅笑√倾城

ocr开源库的确是推动科技发展的重要力量。希望开发者们能够继续努力,开发出更强大、更便捷的OCR工具,让科技真正服务于人类!

    有14位网友表示赞同!

百合的盛世恋

这个开源库的文档还是比较详细的,对于初学者来说,跟着文档一步一步学习应该就能学会使用其中的功能。

    有16位网友表示赞同!

(り。薆情海

虽然这款 OCR 库的功能很好,但我建议在使用过程中能够提供一些更完善的用户体验设计,比如界面更加友好易懂。

    有11位网友表示赞同!

枫无痕

这个ocr开源库真是太棒了!我现在终于可以不用再支付高昂的商业软件费用了!我计划将其应用到我的项目中,并贡献一些改进代码。开源的力量就是这样的!

    有12位网友表示赞同!

孤单*无名指

对于一个初学者来说,学习OCR还比较困难,需要有一定的编程基础和相关理论知识。但是我相信只要坚持不懈,一定能够掌握这项技能。

    有12位网友表示赞同!

tina

个人觉得这个OCR开源库的性能还可以,但它仍然有一些不足之处,比如支持的语言类型比较有限。希望开发者们能继续完善它,使其更加强大!

    有10位网友表示赞同!

标签: 公墓资讯
相关资讯
  • 如何更改MAC地址

    1。了解MAC地址MAC地址(也称为物理地址或硬件地址)是网络设备(例如网络卡)的唯一标识符。它由48位二进制数组成,通常由结肠分离的十六进制数来表示。MAC地

    2025-07-18 13:18:16 公墓资讯 
  • 1的补码;1的补码和运算是什么

    补码到底是什么?补码(Two\’scomplement),是有符号数的一种二进制表示方式。我们用B2Tw来表示一个补码。其中w代表二进制数的位长,B2T的含义其

    2025-07-18 12:18:33 公墓资讯 
  • 3d蜘蛛网,蜘蛛网3dmax建模

    天文学家最近首次在大规模的宇宙中发现了一个神秘的振荡波。这种振荡波可以沿宇宙蜘蛛网结构中的星系,气体和暗物质组成的细长纤维传播。在数十万个射电望远镜提供的数据中

    2025-07-18 11:18:28 公墓资讯 
  • 如何恢复QQ聊天记录

    首先,检索QQ消息的最直接方法是依靠备份。QQ本身为聊天历史记录提供了备份功能,用户可以在设置中启用“聊天历史记录漫游”或“聊天历史记录备份和恢复”选项。打开后

    2025-07-18 11:18:16 公墓资讯 
  • office 2007兼容包,OFFICE2007兼容包能装365吗

    【解题思路】一个最简单的方法,就是在新版Office中打开旧版Office文档,然后通过“另存为”对话框保存为新版本格式的文档。不过当要转换的文档很多时,这方法

    2025-07-18 10:18:32 公墓资讯 
  • 多彩摄像头评测:性能解析与价格一览

    首先,彩色相机的像素仍然非常好。所谓的像素是指相机光敏元素上光敏单元的数量。光敏单元越多,相机捕获的图像信息越多,图像分辨率就越高,相应的屏幕图像越清晰;其次,

    2025-07-18 09:18:51 公墓资讯