博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久,选择我们就是选择放心、选择安心毕业✌
> 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅点击查看作者主页,了解更多项目!
🍅感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。🍅
1、毕业设计:2025年计算机专业毕业设计选题汇总(建议收藏)✅
2、大数据毕业设计:2025年选题大全 深度学习 python语言 JAVA语言 hadoop和spark(建议收藏)✅
1、项目介绍
技术栈:Python语言、FastAPI、PaddleNLP + PaddleHub、Vue + ElementUI前端
研究背景:人工文本校对耗时易漏,跨格式(文本、Word、图片)处理更困难。利用PaddleNLP预训练纠错模型联合PaddleHub OCR,配合FastAPI高并发服务与Vue+ElementUI前端,可在秒级完成“多格式输入-文字提取-智能纠错-错误标记-结果保存”闭环,为办公、教育、出版等行业提供一站式文本质量保障工具。
研究意义:系统前后端分离,支持文本、文档、图片三种格式批量纠错与历史记录管理,全程本地部署保障隐私;模块化代码便于替换其他NLP模型,适合作为“自然语言处理”“Web开发”课程实践与毕业设计模板,推动智能文本校对在教学与产业中的落地应用。
2、项目界面
(1)纠错界面
(2)文档纠错
(3)图片纠错
(4)在线纠错
(5)登录界面
3、项目说明
基于Paddle的Web端多格式纠错系统采用前后端分离架构:后端FastAPI整合PaddleNLP文本纠错模型与PaddleHub OCR,实现文本、Word、PNG/JPG三种格式统一接口;前端Vue+ElementUI提供在线文本框、文档上传、图片上传三种入口,纠错结果高亮标记错误并支持一键下载修正文件。用户登录后可查看历史记录,对结果二次编辑或长期保存。
OCR模块自动优化图片清晰度,单图文字提取<1s;文本纠错模块对错别字、语法、语义错误同时修正,单条<300ms。文档纠错支持Word/Txt批量处理,保留原格式输出修正版。系统全程本地部署,不依赖外网,既保护隐私又降低运维成本;代码开源、注释详尽,配套替换模型与前端打包教程,适合作为“NLP”“全栈开发”课程与毕业设计模板,也可用于出版社、教育平台、公文系统等内容质量审核场景,推动智能文本校对技术在教学与产业中的快速落地。
4、核心代码
from fastapi import FastAPI, HTTPException, UploadFile
from pydantic import BaseModel
from fastapi.middleware.cors import CORSMiddleware
from sutil import cut_sent, replace_char, get_paragraphs_text
import uvicorn
import paddlehub as hub
import cv2
from paddlenlp import Taskflow
import time
print("模型加载预热!")
# OCR文本识别
ocr = hub.Module(name="chinese_ocr_db_crnn_server")
ocr_results = ocr.recognize_text (images=[cv2.imread('./test/imagetest.jpg')])
print("PaddleOCR图片识别结果:")
print(ocr_results)
# 处理识别结果
toCorrectText = []
for i in range(len(ocr_results[0]['data'])):
toCorrectText.append(str(ocr_results[0]['data'][i]['text']))
# PaddleNLP 文本纠错
text_correction = Taskflow("text_correction")
# 纠错结果处理
print("PaddleNLP文本纠错结果:")
for idx, item in enumerate(toCorrectText):
res = text_correction(item)
if (len(res[0]['errors'])) > 0:
for i, error in enumerate(res[0]['errors']):
if i == 0:
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), res[0]['errors'][i]['position'])
else:
# 如果句子中有多处错字,那么每替换前面一个字,后面的错字索引往后移动3位:即括号+字=3位
p = res[0]['errors'][i]['position'] + i * 3
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), p)
print(item)
else:
print(item)
# 创建一个 FastAPI「实例」,名字为app
app = FastAPI()
# 设置允许跨域请求,解决跨域问题
app.add_middleware(
CORSMiddleware,
allow_origins=['*'],
allow_credentials=True,
allow_methods=["*"],
allow_headers=["*"],
)
# 定义请求体数据类型:text
class Document(BaseModel):
text: str
# 定义路径操作装饰器:POST方法 + API接口路径
# 文本纠错接口
@app.post("/v1/textCorrect/", status_code=200)
# 定义路径操作函数,当接口被访问将调用该函数
async def TextErrorCorrection(document: Document):
try:
# 获取要进行纠错的文本内容
text = document.text
# 精细分句处理以更好处理长文本
data = cut_sent(text)
# 进行文本纠错和标记
correctionResult = ''
for idx, item in enumerate(data):
if item != "":
res = text_correction(item)
length = len(res[0]['errors'])
if length > 0:
for i, error in enumerate(res[0]['errors']):
if i == 0:
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), res[0]['errors'][i]['position'])
else:
# 如果句子中有多处错字,那么每替换前面一个字,后面的错字索引往后移动3位:即括号+字=3位
p = res[0]['errors'][i]['position'] + i * 3
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), p)
if item is not '':
correctionResult += item;
correctionResult += '\n';
# 接口结果返回
results = {"message": "su***ess", "originalText": document.text, "correctionResults": correctionResult}
return results
# 异常处理
except Exception as e:
print("异常信息:", e)
raise HTTPException(status_code=500, detail=str("请求失败,服务器端发生异常!异常信息提示:" + str(e)))
# 文档纠错接口
@app.post("/v1/do***orrect/", status_code=200)
# 定义路径操作函数,当接口被访问将调用该函数
async def DocumentErrorCorrection(file: UploadFile):
# 读取上传的文件
docBytes = file.file.read()
do***ame = file.filename
# 判断上传文件类型
docType = do***ame.split(".")[-1]
if docType != "doc" and docType != "docx":
raise HTTPException(status_code=406, detail=str("请求失败,上传文档格式不正确!请上传word文档!"))
try:
# 将上传文件保存到本地,添加时间标记避免重复
now_time = int(time.mktime(time.localtime(time.time())))
docPath = "./test/" + str(now_time) + "_" + do***ame
fout = open(docPath, 'wb')
fout.write(docBytes)
fout.close()
# 读取要进行文本纠错的word文档内容
docText = get_paragraphs_text(docPath)
# 对word文档内容进行分句处理避免句子过长
docText = cut_sent(docText)
# 进行文本纠错和标记
correctionResult = ""
for idx, item in enumerate(docText):
if item is not '':
res = text_correction(item)
length = len(res[0]['errors'])
if length > 0:
for i, error in enumerate(res[0]['errors']):
if i == 0:
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), res[0]['errors'][i]['position'])
else:
# 如果句子中有多处错字,那么每替换前面一个字,后面的错字索引往后移动3位:即括号+字=3位
p = res[0]['errors'][i]['position'] + i * 3
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), p)
if item is not '':
correctionResult += item;
correctionResult += '\n';
# 接口结果返回
results = {"message": "su***ess", "docText": str(docText), "correctionResults": correctionResult}
return results
# 异常处理
except Exception as e:
print("异常信息:", e)
raise HTTPException(status_code=500, detail=str("请求失败,服务器端发生异常!异常信息提示:" + str(e)))
# 图片纠错接口
@app.post("/v1/imageCorrect/", status_code=200)
# 定义路径操作函数,当接口被访问将调用该函数
async def ImageErrorCorrection(file: UploadFile):
# 读取上传的文件
imgBytes = file.file.read()
imgName = file.filename
# 判断上传文件类型
imgType = imgName.split(".")[-1]
if imgType != "png" and imgType != "jpg" and imgType != "jpeg" :
raise HTTPException(status_code=406, detail=str("请求失败,上传图片格式不正确!请上传jpg或png图片!"))
try:
now_time = int(time.mktime(time.localtime(time.time())))
# 拼接生成随机文件名,注意名称不能包含中文否则后面读取出错
imgPath = "./test/" + str(now_time) + "_image." + imgType
print(imgPath)
fout = open(imgPath, 'wb')
fout.write(imgBytes)
fout.close()
print("文件上传成功!")
# OCR文本识别
ocr_image_results = ocr.recognize_text(images=[cv2.imread(imgPath)])
# 处理图片识别文本结果
toCorrectText = []
for i in range(len(ocr_image_results[0]['data'])):
toCorrectText.append(str(ocr_image_results[0]['data'][i]['text']))
# 进行文本纠错和标记
correctionResult = ""
for idx, item in enumerate(toCorrectText):
if item != "":
res = text_correction(item)
length = len(res[0]['errors'])
if length > 0:
for i, error in enumerate(res[0]['errors']):
if i == 0:
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), res[0]['errors'][i]['position'])
else:
# 如果句子中有多处错字,那么每替换前面一个字,后面的错字索引往后移动3位:即括号+字=3位
p = res[0]['errors'][i]['position'] + i * 3
item = replace_char(item, (list(res[0]['errors'][i]['correction'].keys())[0] + '(' + list(res[0]['errors'][i]['correction'].values())[0] + ')'), p)
if item is not '':
correctionResult += item;
correctionResult += '\n';
# 接口结果返回
results = {"message": "su***ess", "orcResult": str(ocr_image_results[0]), "correctionResults": correctionResult}
return results
# 异常处理
except Exception as e:
print("异常信息:", e)
raise HTTPException(status_code=500, detail=str("请求失败,服务器端发生异常!异常信息提示:" + str(e)))
# 启动创建的实例app,设置启动ip和端口号
uvicorn.run(app, host="127.0.0.1", port=8000)
5、源码获取方式
🍅由于篇幅限制,获取完整文章或源码、代做项目的,查看我的【用户名】、【专栏名称】、【顶部选题链接】就可以找到我啦🍅
感兴趣的可以先收藏起来,点赞、关注不迷路,下方查看👇🏻获取联系方式👇🏻