【创作不易,切勿抄袭,转载请注明出处,侵权必究】
本文概览
本文结合开源的tesseract OCR库共尝试三种方法实现了字符型验证码识别与填充提交浏览器插件(非通用型,具体得根据自己网页内容改造,可借鉴本文方法)
- 直接在浏览器控制台用js实现;
- 将1中的脚本引入到浏览器插件中,将cdn资源转离线,并携带在指定页面中,纯js;
- 2中可能会存在浏览器的内容安全策略(CSP)阻止加载外部脚本,本文通过js调用flask实现的外部服务规避此问题(Python + js)。
假设验证码表单如下,全文通用,此后不再重复提及。
<div class="captcha">
<div class="api">
<img id="captchaImg" src="" style="width:230px;height:70px;">
</div>
<div class="button">
<button type="button" class="reflash" id="btnReload">Re Flash</button>
<button type="button" class="speaker" id="btnAudio">Speaker</button>
</div>
</div>
1 直接在浏览器控制台用js实现
分为在线和离线两种方式
1.1 在线方式
javascript">function autoCaptcha() {
// 如果 Tesseract 未加载,则动态加载
if (typeof Tesseract === 'undefined') {
var script = document.createElement('script');
script.src = 'https://cdn.jsdelivr.net/npm/tesseract.js@2.1.4/dist/tesseract.min.js';
script.onload = function() {
console.log('Tesseract.js 已加载');
recognizeCaptcha();
};
document.head.appendChild(script);
} else {
recognizeCaptcha();
}
function recognizeCaptcha() {
var captchaImg = document.getElementById('captchaImg');
if (!captchaImg) {
console.error('未找到验证码图片');
return;
}
var imgSrc = captchaImg.src;
console.log('验证码图片的 src:', imgSrc);
Tesseract.recognize(
imgSrc,
'eng',
{
logger: m => console.log(m)
}
).then(({ data: { text } }) => {
console.log('完整识别结果:', text);
var captcha = text.trim().substring(0, 6);
console.log('提取前6位验证码:', captcha);
var captchaInput = document.getElementById('label-for-captcha');
if (captchaInput) {
captchaInput.value = captcha;
console.log('验证码已自动填入输入框');
} else {
console.error('未找到验证码输入框');
}
var submitBtn = document.getElementById('btnComplete');
if (submitBtn) {
console.log('自动触发提交按钮点击');
submitBtn.click();
} else {
console.error('未找到提交按钮');
}
}).catch(err => {
console.error('识别出错:', err);
});
}
}
// 需要的时候调用该函数:
autoCaptcha();
1.2 离线方式
第2大节就是,比第1节改进的地方为脚本集成在浏览器插件中,此处需要先下载tesseract最新版tesseract.js CDN by jsDelivr - A CDN for npm and GitHubA free, fast, and reliable CDN for tesseract.js. Pure Javascript Multilingual OCRhttps://www.jsdelivr.com/package/npm/tesseract.js
2 将1中的脚本引入到浏览器插件中,并携带在指定页面中
(本章节脚本集成在插件部分是一次失败的尝试,后续搞定的小伙伴开源在评论区留言链接)
2.1 谷歌浏览器插件manifest.json配置如下
先下载1.2中的资源,再提醒下,别忘记。下面配置仅供参考,具体根据自己的。
javascript">{
"manifest_version": 3,
"name": "TestPlugin",
"description": "Extension to auto-verify-submit the website Captcha",
"version": "1.0",
"permissions": [
"activeTab",
"tabs",
"storage"
],
"web_accessible_resources": [
{
"resources": ["scripts/melonticket/package/dist/tesseract.min.js"],
"matches": ["<all_urls>"]
}
],
"content_scripts": [
{
"matches": [
"https://tkglobal.melon.com/reservation/popup/onestop.htm/*",
"https://tkglobal.melon.com/reservation/popup/onestop.htm"
],
"js": ["scripts/melonticket/autoCaptcha.js"],
"run_at":"document_end"
}
}
重点关注1:引入下载好的离线版tesseract,将其移动至插件脚本目录下scripts/你的项目/,然后在插件中引入下方代码,这里为什么不引入在线的cdn呢?原因是浏览器内容安全策略会阻止外来脚本,产生如下错误,因此要使用离线资源。
Refused to load the script '<URL>' because it violates the following Content Security Policy directive: "script-src 'self' 'wasm-unsafe-eval' 'inline-speculation-rules' <URL> <URL> <URL>". Note that 'script-src-elem' was not explicitly set, so 'script-src' is used as a fallback.
javascript"> "resources": ["scripts/melonticket/package/dist/tesseract.min.js"],
Notes: 如果你有权修改网页代码,重点关注1部分就可用忽略了,直接在网页代码中添加下面片段,该cdn资源就被允许加载了。
<meta http-equiv="Content-Security-Policy" content="script-src 'self' https://cdn.jsdelivr.net 'wasm-unsafe-eval' 'inline-speculation-rules';">
重点关注2:这里便是在存在验证码的页面自动注入js脚本,自动识别验证码并填充提交。
javascript">"js": ["scripts/melonticket/autoCaptcha.js"]
2.2 脚本实现
下面看看autoCaptcha.js脚本如何实现,很明显tesserace使用的离线资源,这个时候你也可以像1一样将代码粘贴在对应页面的浏览器控制台,进行验证。
javascript">function autoCaptcha() {
// 如果 Tesseract 未加载,则动态加载
if (typeof Tesseract === 'undefined') {
var script = document.createElement('script');
// 在线加载tesseract,前提是有网页编辑权限,并引入了上面的meta标签
// script.src = 'https://cdn.jsdelivr.net/npm/tesseract.js@2.1.4/dist/tesseract.min.js';
// 离线加载tesseract
script.src = chrome.runtime.getURL("scripts/melonticket/package/dist/tesseract.min.js");
script.onload = function() {
console.log('Tesseract.js 已加载');
recognizeCaptcha();
};
document.head.appendChild(script);
} else {
recognizeCaptcha();
}
function recognizeCaptcha() {
var captchaImg = document.getElementById('captchaImg');
if (!captchaImg) {
console.error('未找到验证码图片');
return;
}
var imgSrc = captchaImg.src;
console.log('验证码图片的 src:', imgSrc);
Tesseract.recognize(
imgSrc,
'eng',
{
logger: m => console.log(m)
}
).then(({ data: { text } }) => {
console.log('完整识别结果:', text);
var captcha = text.trim().substring(0, 6);
console.log('提取前6位验证码:', captcha);
var captchaInput = document.getElementById('label-for-captcha');
if (captchaInput) {
captchaInput.value = captcha;
console.log('验证码已自动填入输入框');
} else {
console.error('未找到验证码输入框');
}
var submitBtn = document.getElementById('btnComplete');
if (submitBtn) {
console.log('自动触发提交按钮点击');
submitBtn.click();
} else {
console.error('未找到提交按钮');
}
}).catch(err => {
console.error('识别出错:', err);
});
}
}
autoCaptcha();
3 通过js调用flask实现的本地验证服务规避“浏览器的内容安全策略(CSP)阻止加载外部脚本”问题
3.1 通过Anaconda安装python环境
这里就不赘述了,网上教程很多。
3.2 本地安装tesseract程序
直接用3.3会出现下面问题
TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.
因此便需要安装tesseract程序,步骤如下
(1)在python中配置tesseract和pytesseract库
python">pip install tesseract -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple
(2)下载tesseract-ocr,本人安装在D:\software\Tesseract-OCR目录下,具体根据自己需求
(3)安装成功后,添加系统环境变量Path中添加路径、新建系统变量
在Path中添加下面路径
新建系统变量
python">TESSDATA_PREFIX
D:\software\Tesseract-OCR\tessdata
(4)如有其他字符库识别需求(以汉字为例),默认识别的是英文库即ASCII字符
下载训练数据,放在D:\software\Tesseract-OCR\tessdata目录下
(5)打开Anaconda中Lib下site-packages下pytesseract下的pytesseract.py(我用的虚拟环境)
更改代码如下
python"># tesseract_cmd='tesseract'
tesseract_cmd = 'D:\software\Tesseract-OCR\\tesseract.exe'
(6)测试
Windows键+R,输入cmd回车,分别输入tesseract -v和tesseract --list-langs,成功结果如下
Note:红色为刚才添加的汉语语言库
3.3 新建python服务
如在pycharm中创建app.py作为本地OCR服务,这里直接给出服务脚本,缺什么库,自己安装就行
python">from flask import Flask, request, jsonify
import pytesseract
from PIL import Image
from io import BytesIO
import base64
from flask_cors import CORS
app = Flask(__name__)
# Enable CORS for the frontend origin
CORS(app, resources={r"/ocr": {"origins": "https://tkglobal.melon.com"}})
pytesseract.pytesseract.tesseract_cmd = 'D:/software/Tesseract-OCR/tesseract.exe'
tessdata_dir_config = '--tessdata-dir "D:/software/Tesseract-OCR/tessdata"'
def change_background(img):
try:
# img.show()
x, y = img.size
new_img = Image.new('RGBA', img.size, (255, 255, 255))
new_img.paste(img, (0, 0, x, y), img)
return new_img
except:
print('更换图片背景失败')
@app.route('/ocr', methods=['POST'])
def ocr():
try:
# Get the base64 image data from the request
data = request.get_json()
img_data = data.get('image')
if not img_data:
return jsonify({'error': 'No image data provided'}), 400
# Remove the "data:image/png;base64," part of the string if it exists
if img_data.startswith('data:image/png;base64,'):
img_data = img_data.replace('data:image/png;base64,', '')
# Decode the base64 string
img_bytes = base64.b64decode(img_data)
# Create an image from the byte data
img = Image.open(BytesIO(img_bytes))
# img = change_background(img)
# Perform OCR using Tesseract
text = pytesseract.image_to_string(img,lang="eng",config="--psm 7")
# Return the extracted text
return jsonify({'text': text.strip()})
except Exception as e:
return jsonify({'error': str(e)}), 500
if __name__ == '__main__':
app.run(debug=True)
利用postman测试服务
python">curl --location 'http://127.0.0.1:5000/ocr' \
--header 'Content-Type: application/json' \
--data ' {"image":""}'
结果如下(tesseract准确率不是100%哈,但是大部分都正确识别了)
最后一步,重写js代码,autoCaptcha的再实现,由于上面提到tesseract准确率不是100%,因此下面代码做了刷新再识别直至识别成功。
javascript">function autoCaptcha() {
// Get the captcha image as base64
var captchaImg = document.getElementById('captchaImg');
if (!captchaImg) {
console.error('验证码图片未找到');
return;
}
var imgBase64 = captchaImg.src; // This is the base64 data URL
// Send the base64 string to the Python server
fetch('http://127.0.0.1:5000/ocr', {
method: 'POST',
headers: {
'Content-Type': 'application/json'
},
body: JSON.stringify({ image: imgBase64 })
})
.then(response => response.json())
.then(data => {
if (data.text) {
console.log('OCR识别结果:', data.text);
var captcha = data.text.trim().substring(0, 6); // Extract the captcha text
console.log('提取前6位验证码:', captcha);
// Fill the captcha input
var captchaInput = document.getElementById('label-for-captcha');
if (captchaInput) {
captchaInput.value = captcha;
console.log('验证码已自动填入输入框');
}
// Submit the form if needed
var submitBtn = document.getElementById('btnComplete');
if (submitBtn) {
submitBtn.click();
}
} else {
console.error('OCR识别失败:', data.error);
}
})
.catch(error => console.error('请求错误:', error));
}
async function sleep(t) {
return await new Promise(resolve => setTimeout(resolve, t));
}
async function loopVerifyCaptcha(){
autoCaptcha();
await sleep(15000);
while(document.getElementById("certification").style.display != "none") {
// Call autoCaptcha function as needed
document.getElementById('btnReload').click();
await sleep(10000);
autoCaptcha();
}
}
loopVerifyCaptcha();
恭喜您,掌握了新技能,如果有帮到您,点击右下角红包打赏作者喝杯奶茶吧~