以下是将 PDF、EPUB 和 MOBI 转换为 markdown 文档的 Marker 项目。它比 nougat 快 10 倍。官方只提供了 Linux 和 Mac 的安装方式,但是可以参考链接在 Windows 上安装成功。以下是安装步骤:
1、安装 Visual Studio 2022
2、安装 NVIDIA CUDA
3、安装 PyTorch
4、安装 wheel
5、安装 detectron2,需要本地安装
6、安装 Windows 版本的 Tesseract 和 Ghostscript
7、安装 VikParuchuri/marker
8、安装 nougat
运行python convert_single.py "Vim 101 Hacks.pdf" vim.md --parallel_factor 5
时可能会报错,可以根据报错信息进行处理。
参考:marker
参考:issues