分类 python 下的文章

由于自用的浏览器cookie管理插件导入导出时用的是字典形式,而python里面对[{}, {}]的cookies加载支持不太友好。
所以根据RFC6265和RequestsCookieJar源码,写了一个适用于此形式cookie的转换脚本,便于python载入使用。
代码如下:

'''
@作者: weimo
@创建日期: 2020-04-11 21:45:46
@上次编辑时间: 2020-04-11 22:37:48
@一个人的命运啊,当然要靠自我奋斗,但是...
'''
import json
from pathlib import Path
from http.cookiejar import Cookie
from requests.cookies import RequestsCookieJar

def convert(cookies_path: str = "cookies.json"):
    # convert [{}, {}] cookies to RequestsCookieJar format
    try:
        _cookies = json.loads(Path(cookies_path).read_text(encoding="utf-8"))
    except Exception as e:
        return
    BASECOOKIE = {
        "version": 0,
        "name": "",
        "value": "",
        "port": None,
        "port_specified": False,
        "domain": "",
        "domain_specified": False,
        "domain_initial_dot": False,
        "path": "/",
        "path_specified": False,
        "secure": False,
        "expires": None,
        "discard": False,
        "comment": None,
        "comment_url": None,
        "rest": {},
    }
    cookies = RequestsCookieJar()
    for c in _cookies:
        BASECOOKIE["name"] = c["name"]
        BASECOOKIE["value"] = c["value"]
        if c["domain"] != "":
            BASECOOKIE["domain"] = c["domain"]
            BASECOOKIE["domain_specified"] = True
            if c["domain"].split(".").__len__() == 3:
                BASECOOKIE["domain_initial_dot"] = True
        BASECOOKIE["path"] = c["path"]
        BASECOOKIE["secure"] = c["secure"]
        BASECOOKIE["expires"] = c.get("expirationDate")
        if c["path"] != "":
            BASECOOKIE["path"] = c["path"]
            BASECOOKIE["path_specified"] = True
        if c["httpOnly"]:
            BASECOOKIE["rest"].update({"httpOnly":None})
        if c["hostOnly"]:
            BASECOOKIE["rest"].update({"hostOnly":None})
        cookies.set_cookie(Cookie(**BASECOOKIE))
    return cookies

if __name__ == "__main__":
    convert("cookies.json")

比如现在有一张图是这样的
彩色原图
转换到HSV空间
请输入图片描述
二值化后是这样的
inrange处理
我想保留文字,尽可能去掉大块的白色部分,
思路:首先将二值化图像进行腐蚀操作,然后进行膨胀操作,这样大块的白色部分不会怎么变,而文字则会再腐蚀的时候被去掉。
腐蚀
膨胀
一来二去现在就剩下白块部分了,如果膨胀的力度比腐蚀大一点,现在对其进行取反。
最后与原二值图像相与,这样文字部分基本都会保留,文字周围的部分不会受到影响,而原来的白块部分则会被“挖”出一个只剩边缘的区域。甚至能完全去掉白块部分。
取反相与
在这运算过程中,需要根据文字把握好腐蚀膨胀的程度。

为什么会有这个需求?

如果要追踪一个js中的变量变化,一般是在开发者工具的Sources选项卡中,对js下断点。
这其中有几个不爽的地方:

  1. js文件被压缩,不方便直接下断点,一般在格式化后下断点比较方便。
  2. js文件现在越来越大,本来浏览器就已经够占内存了,在Sources选项卡进入js并格式化常常需要等很久的时间,甚至直接没有响应。
  3. 在多个地方下断点不方便,以及有的地方下了断点也进不去。

因此本方案通过Gooreplacer插件重定向特定的js请求到本地js文件来解决上述问题烦心的点。
为了本地js能够返回特定的headers,选择通过重写SimpleHTTPRequestHandler来实现,同时保证浏览器顺利请求本地文件。

以获取西瓜视频中DRM解密用的key为例

自定义返回头脚本见此或文末。
获取西瓜视频DRM解密key的关键点
地址:

https://www.ixigua.com/cinema/album/7MzYdtWv46X_7MBDgA7bPWt/

  • 打开上述地址,F12后在Network过滤js文件关键词xgplayer_encrypt
  • 可以看到该js有一些特定的返回头

请输入图片描述

  • 首先编写一个如下形式的配置文件,由于我们格式化了js,这里要去掉content-encoding和content-length,命名为config.json,实际上不需要全部的头,只需要保证有access-control-allow-origin就行

请输入图片描述
精简版配置:

{
    "host": "127.0.0.1",
    "port": 22222,
    "scripts_path": "scripts",
    "vendors~xgplayer_encrypt.b05f677a.chunk.js": {
        "access-control-allow-origin": "*"
    }
}
  • 新建scripts文件夹,将vendors~xgplayer_encrypt.b05f677a.chunk.js放在scripts文件夹里面
  • 保存配置并执行cheat_server脚本,通过访问http://127.0.0.1:22222/vendors~xgplayer_encrypt.b05f677a.chunk.js可以看到返回头与设定的全部一致

请输入图片描述

  • 打开vendors~xgplayer_encrypt.b05f677a.chunk.js进行格式化,并在window.Module.UTF8ToString(p)前面加一句debugger;

请输入图片描述

  • 设定Gooreplacer插件重定向规则,并启用,注意不需要调试的时候记得关闭

请输入图片描述

  • 现在提前F12并刷新西瓜视频地址,等待自动进入debugger处

请输入图片描述

  • 现在愉快的拿到DRM解密用的key啦

cheat_server实现代码

完整cheat_server脚本见:
https://github.com/xhlove/cheat_server

#!/usr/bin/env python3.7
# coding=utf-8
'''
# 作者: weimo
# 创建日期: 2020-01-18 01:01:09
# 上次编辑时间: 2020-02-22 18:14:01
# 一个人的命运啊,当然要靠自我奋斗,但是...
'''
import os
import sys
import json
import chardet
import datetime
import email.utils
import urllib.parse
from http import HTTPStatus
from functools import partial
from http.server import HTTPServer, SimpleHTTPRequestHandler

def load_config():
    config = {}
    config_path = "config.json"
    if os.path.isfile(config_path):
        with open(config_path, "rb") as f:
            # 只读256是为了避免读取文件太大,虽然一般不会太大
            _encoding = chardet.detect(f.read(256))["encoding"]
        with open(config_path, "r", encoding=_encoding) as f:
            config = json.loads(f.read())
    return config

class MyHandler(SimpleHTTPRequestHandler):

    def __init__(self, *args, config: dict = {}, **kwargs):
        self.config = config
        kwargs["directory"] = os.path.join(os.getcwd(), config["scripts_path"])
        super().__init__(*args, **kwargs)

    def send_head(self):
        path = self.translate_path(self.path)
        f = None
        if os.path.isdir(path):
            parts = urllib.parse.urlsplit(self.path)
            if not parts.path.endswith('/'):
                # redirect browser - doing basically what apache does
                self.send_response(HTTPStatus.MOVED_PERMANENTLY)
                new_parts = (parts[0], parts[1], parts[2] + '/',
                             parts[3], parts[4])
                new_url = urllib.parse.urlunsplit(new_parts)
                self.send_header("Location", new_url)
                self.end_headers()
                return None
            for index in "index.html", "index.htm":
                index = os.path.join(path, index)
                if os.path.exists(index):
                    path = index
                    break
            else:
                return self.list_directory(path)
        ctype = self.guess_type(path)
        try:
            f = open(path, 'rb')
        except OSError:
            self.send_error(HTTPStatus.NOT_FOUND, "File not found")
            return None

        try:
            fs = os.fstat(f.fileno())
            # Use browser cache if possible
            if ("If-Modified-Since" in self.headers
                    and "If-None-Match" not in self.headers):
                # compare If-Modified-Since and time of last file modification
                try:
                    ims = email.utils.parsedate_to_datetime(
                        self.headers["If-Modified-Since"])
                except (TypeError, IndexError, OverflowError, ValueError):
                    # ignore ill-formed values
                    pass
                else:
                    if ims.tzinfo is None:
                        # obsolete format with no timezone, cf.
                        # https://tools.ietf.org/html/rfc7231#section-7.1.1.1
                        ims = ims.replace(tzinfo=datetime.timezone.utc)
                    if ims.tzinfo is datetime.timezone.utc:
                        # compare to UTC datetime of last modification
                        last_modif = datetime.datetime.fromtimestamp(
                            fs.st_mtime, datetime.timezone.utc)
                        # remove microseconds, like in If-Modified-Since
                        last_modif = last_modif.replace(microsecond=0)

                        if last_modif <= ims:
                            self.send_response(HTTPStatus.NOT_MODIFIED)
                            self.end_headers()
                            f.close()
                            return None

            self.send_response(HTTPStatus.OK)
            # self.send_header("Content-type", ctype)
            # self.send_header("Content-Length", str(fs[6]))
            # self.send_header("Last-Modified", self.date_time_string(fs.st_mtime))
            self.send_custom_header()
            self.end_headers()
            return f
        except:
            f.close()
            raise

    def send_custom_header(self):
        if self.path.startswith("/"):
            js_path = self.path.lstrip("/")
        else:
            js_path = self.path
        if self.config.get(js_path) is None:
            return
        headers = self.config[js_path]
        for key, value in headers.items():
            self.send_header(key, value)

    def send_response(self, code, message=None):
        self.log_request(code)
        self.send_response_only(code, message)
        # self.send_header('Server', self.version_string())
        # self.send_header('Date', self.date_time_string())

    def send_header(self, keyword, value):
        if self.request_version != 'HTTP/0.9':
            if not hasattr(self, '_headers_buffer'):
                self._headers_buffer = []
            self._headers_buffer.append(
                ("%s: %s\r\n" % (keyword, value)).encode('latin-1', 'strict'))

        if keyword.lower() == 'connection':
            if value.lower() == 'close':
                self.close_connection = True
            elif value.lower() == 'keep-alive':
                self.close_connection = False

def main():
    config = load_config()
    Handler = partial(MyHandler, config=config)
    server = HTTPServer((config["host"], config["port"]), Handler)
    print("Starting server, listen at: http://{host}:{port}".format(**config))
    server.serve_forever()

if __name__ == '__main__':
    main()

GetDanMu

转换/下载各类视频弹幕的工具

项目主页:https://github.com/xhlove/GetDanMu

网站支持

SiteURL单集?合集?综艺合集?支持series?
腾讯视频https://v.qq.com/
爱奇艺https://www.iqiyi.com/
优酷https://v.youku.com/
搜狐视频https://tv.sohu.com/
芒果TVhttps://www.mgtv.com/

使用示例

  • 命令(建议)
GetDanMu.exe -s mgtv -r 20,960 -series -u https://www.mgtv.com/b/334727/7452407.html
  • 双击运行
提示逻辑有待完善
  • 选项说明
-f或--font 指定输出字幕字体,默认微软雅黑)
-fs或--font-size 指定输出字幕字体大小,默认28)
-s或--site 使用非url方式下载需指定网站 支持的网站 -> qq iqiyi youku sohu mgtv
-r或--range 指定弹幕的纵向范围 默认0到720,请用逗号隔开
-cid或--cid 下载cid对应视频的弹幕(腾讯 芒果视频合集)
-vid或--vid 下载vid对应视频的弹幕,支持同时多个vid,需要用逗号隔开
-aid或--aid 下载aid对应视频的弹幕(爱奇艺合集)
-tvid或--tvid 下载tvid对应视频的弹幕,支持同时多个tvid,需要用逗号隔开
-series或--series 尝试通过单集得到合集的全部弹幕 默认不使用
-u或--url 下载视频链接所指向视频的弹幕
-y或--y 覆盖原有弹幕而不提示 默认不使用
  • 字体配置文件(可选)

新建名为config.json的文件,内容形式如下:

{
    "fonts_base_folder": "C:/Windows/Fonts",
    "fonts": {
        "微软雅黑":"msyh.ttc",
        "微软雅黑粗体":"msyhbd.ttc",
        "微软雅黑细体":"msyhl.ttc"
    }
}

效果示意(字幕与视频不相关)

potplayer截屏
查看使用演示视频点我

注意有背景音乐

演示是直接使用的python命令,使用exe的话把python GetDanMu.py换成GetDanMu.exe即可

可能存在的问题

  • 下载进度接近100%时暂时没有反应

这是因为在全部弹幕获取完后一次性处理所致,对于时间过长和弹幕过多的视频,处理耗时较多,属于正常现象。

  • 命令组合未达到预期效果

当前的逻辑并不完善,如果出现这种现象请反馈给我。

更新日志

2020/2/7

  • 完善说明
  • 爱奇艺支持series选项,并完善地区判断
  • 增加字体配置文件,建立字体名称与实际字体文件的映射关系,用于预先设定,方便更准确计算弹幕的分布
  • 增加自定义弹幕区间选项,即-r或--range命令
  • README完善

2020/1/28

  • 增加芒果TV的支持(支持综艺合集、支持series命令)
  • 爱奇艺bug修复

2020/1/16

  • 增加搜狐视频的支持(剧集)
  • 改进输入提示(双击运行时)
  • 腾讯支持-series设定

2020/1/11

  • 增加优酷弹幕下载,支持合集,支持通过单集直接下载合集弹幕(暂时仅限优酷)
  • 改进去重方式
  • 优酷的视频id用vid指代,若下载合集请使用连接或通过-series选项下载合集弹幕
  • 加入下载进度显示,后续可能改进为单行刷新

2020/1/5

  • 增加了通过链接下载爱奇艺视频弹幕的方法,支持综艺合集。
  • 增加通过链接判断网站

赞助点此