• 已删除用户
WDDDDD
WDDDDD
发布于 2025-12-12 / 0 阅读
0

Ubuntu22安装Mineru

Ubuntu22安装Mineru

Mineru安装

软件介绍:

MinerU 是一款智能数据提取工具,主要用于将PDF文件转换为机器可读格式,如Markdown和JSON。它旨在解决科技文献中的符号转化问题,并构建开放的提取生态系统,以推动科技发展。此外,MinerU 还提供了详细的功能解析和安装指南,适合需要进行文档提取的用户

初期准备:

以dell工作站为例,配置16G+512G,显卡4060TI 16G

准备U盘,可使用ventoy制作启动盘,在清华源或者阿里源下载Ubuntu22.0.4镜像,应企业要求,我这里选择桌面版,把镜像扔进U盘,重启按F12进入bios,选择U盘启动。

进去后选择语言选择English,安装Ubuntu,账户设置wd,密码设置******,固定好ip,掩码,网关,DNS,测试网络通信,网络通信没问题的情况下,右击在终端界面开启ssh远程(ufw放通),然后在xshell终端访问服务器(前提是电脑和服务器可以通信),找到阿里源镜像站,根据方法复制粘贴换源,然后进行upadte,wget,nano,vim,net-tools,bash-completion,使用getenforce查看selinux状态(应显示disabled)。

备份源
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
编辑源文件
sudo vi /etc/apt/sources.list
删除内容
替换为国内源
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy-security main restricted universe multiverse
保存退出
sudo apt update -y
sudo apt upgrade -y
sudo apt install wget
sudo apt install vim
sudo apt install net-tools
sudo apt install bash-completion

安装Mineru:

(安装时可在后面 -i https://pypi.tuna.tsinghua.edu.cn/simple。下载慢就再换个源用)

有几种方式,直接拉取安装包,或者下载好安装包ftp到服务器。

查看python3版本,显示为3.10,符合版本要求。

安装python3-full。sudo apt install python3.11-full

更新pip3。sudo apt install python3-pip

安装uv。sudo apt install uv

创建虚拟环境命名为mineru。python3 -m venv mineru

激活虚拟环境。source mineru/bin/activate

cd到Mineru目录。uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple

在有显卡情况下,选择vllm模型。uv pip install "mineru[core,vllm]"

MinerU默认使用huggingface作为模型源,若用户网络无法访问huggingface,可以通过环境变量便捷地切换模型源为modelscope。export MINERU_MODEL_SOURCE=modelscope

启动web界面。mineru-gradio --server-name 0.0.0.0 --server-port 7860 --enable-vllm-engine true

测试文档转换,速度拉满了~

群晖备份:

按照群晖里面的指引,下载deb64,ftp上传到服务器,根据README,chmod +x install.run,对运行文件赋予执行权限,sudo ./install.run,执行完毕,然后sudo abb-cli-c,根据提示输入群晖ip,账户,密码进行连接,连接成功后在群辉就可以看到这个服务器了,手动备份一遍,以防后续加密操作出问题,便于整机还原。

Ip-guard加密:

uname -r查看内核,符合加密系统要求