Image Reader (OCR)
插件介绍
使用 OCR 引擎轻松从图像中提取文字!
图像阅读器 (OCR) 扩展可帮助您轻松地从任何图像中获取文字。它使用两种不同的开源 OCR 引擎。
第一个引擎称为 Tesseract。 Tesseract.js 是一个开源 JavaScript 库,是通过用 C 和 C++ 编写的著名 Tesseract OCR 引擎的 Emscripten 端口制作的。请访问 (https://github.com/naptha/tesseract.js) 以获取更多信息。第二个引擎称为 Granite Dobling,由 IBM 开发 (https://huggingface.co/ibm-granite/granite-docling-258M)。请注意,当您选择 IBM Granite Dobling 时,该应用程序需要下载 AI 引擎的训练数据 (~1200MB)。因此,加载时请耐心等待。
要使用此插件,只需打开插件的界面并通过文件选择器(顶部部分)加载您的图像。在使用插件之前,请确保选择适当的 OCR 引擎和语言。对于 Tesseract,默认 OCR 语言设置为英语。对于 Granite Docling,您不需要设置语言;只需选择所需的后端(CPU 或 GPU)并等待应用程序完全加载。
注意:对于 Tesseract OCR 引擎,此插件使用“https://github.com/naptha/tessdata/tree/gh-pages/” GitHub 存储库来获取 OCR 操作所需的语言数据。对于 IBM Granite Dobling,它使用“https://huggingface.co/onnx-community/granite-docling-258M-ONNX”来获取 OCR 操作所需的训练数据。两种语言数据包都非常大,无法包含在插件包中。
要报告错误,请填写扩展程序主页 (https://mybrowseraddon.com/image-reader.html) 上的错误报告表。