
其实很久之前就有这个念头了,在漫长的网上冲浪过程中,我们难免会下载到一些冷门纪录片或者什么教学视频之类的,要么找不到字幕,要么找到的是一堆跑马灯广告的低质量机翻字幕,于是基本无法看懂剧情,只能欣赏一下画面,难免有所遗憾。
最近这两年,AI越来越发达,要字幕也不是非得等字幕组出手不可,我们是不是可以用AI来解决这个问题呢?
我试着找了一下相关工具,首先排除了那些云端大模型的工具,因为比如我的资源比较特别,不能用那些在云端跑的模型来翻译,或者比较私密的资源不太适合用云端模型来处理。这些类似的情况并非不存在,所以我放弃了云端大模型相关的工具。
另外,是一些本地的字幕制作软件,我发现太专业了,特别复杂的各种设置,各种参数,各种调试项目,对于我只是想看个片来说,还是门槛太高了。
那么,就还有最后一条路子了,现在 AI 模型都卷成这样了,自己撸起袖子VibeCoding实践一把,撸一个除了下载模型需要联网,其他整个字幕生成工作流程都在纯本地的工具吧。
于是前阵子稍微有了点空余时间,就开始折腾这个 LocalSub(本地字幕君)。本来以为就是把几个开源模型拼一拼的事儿,结果不出意外的,就开始出意外了。
看起来虽然也不难,但实际确实一点也不轻松
最开始我是想直接用现成的库,结果发现显存根本不够用。现在的 LLM 动不动就几十 G,我这笔记本 8G 显存简直就是“贫民窟配置”,而且还有一堆环境配置问题。
首先是 CUDA 环境,这玩意儿简直是玄学。CUDA Error、DLL not found、Illegal Instruction... 这些报错我大概见了几百次。为了适配最新的显卡架构,我不得不把底层的 llama-cpp-python 库重新编译、调试,甚至要把不同版本的依赖库一个个塞进包里。
好在,经过几十个晚上的折腾,终于搞定了,于是赶紧1.0版本安排,兴高采烈的想着功能完全跑通了,几乎就等着发布上线了。
结果拿了几个不同资源一跑,发现出来的字幕压根看不懂,全是什么“这是最好的地段“”,“当前位置-首页”之类的无意义内容,真跟剧情相关的不到10%,于是开始研究为什么会出现这些,逐一排查语音的识别切片,翻译模型的能力边界等,发现一个问题,优化一个问题,不断寻找更优方案,这里不得不提到我的一个好朋友老王,他在我折腾过程中,给出了两个极具参考价值的开源项目(主要优化方向恰好都是面向日语资源的),被我集成到了本地字幕君软件中,所以目前这个软件在处理日语资源方面能力比其他语言的稍强一些。
经过不断的参考学习,试错修改,语音识别模型从Whisper的Small到Large V3,再到Large V3 Turbo最终用上了老王推荐的Kotoba-Whisper和海南鸡v2等模型,翻译模型从Helsinki到NLLB,最终用上了基于Qwen3-8B模型的SakuraLLM(玩大模型的大佬们应该知道Sakura 在日文翻译,尤其是二次元、轻小说风格这块,那就是神一般的存在,它懂梗,甚至懂语气,比机翻那种生硬的感觉强太多了),终于得到了一个还算能用的本地字幕君2.0
效果展示










LocalSub 2.0 是什么?
简单说,它就是一个纯离线、不联网、利用你自己显卡把视频里的语音转成双语字幕的工具。
它具有以下特点:
1.纯本地,除了下载模型需要联网,整个处理视频生成字幕的过程都在本地完成,隐私能够得到最大限度的保障,不管资源多稀有,都可以放心使用。
2.易上手,这不像那些专业的字幕工具,我们的要求也不是用于专业的字幕制作,我们需要的只是一个可以帮助我们看懂资源内容的字幕。所以只需要3步操作(选择要生成字幕的资源--选择要用的模型--点击生成字幕),然后字幕君会搞定一切,普通人上手没有任何门槛。
3.可生成双语字幕,我们看字幕很多时候也是为了学习一门外语,要学习就不能只看单语字幕,那是在练听译了,所以字幕君可以给您生成双语字幕(海南鸡v2模型是直出中文,暂不支持)。
4.支持批量任务,在1.0实现功能的时候,我自己平时是下一部看一部,结果给老王试用,他掏出了几个T的资源,问我应该如何应对?守着一部一部的转?明显不科学,所以后面直接实现了支持多文件,晚上睡觉前添加好,开始生成后去睡觉就醒了,睡醒全部生成完,这个体验就好多了。
5.支持多种视频格式,得益于ffmpeg,几乎支持所有视频格式,可以满足日常的需求。
6.纯绿色版,如果需要配置各种环境就很烦了,所以程序直接打包成了一个压缩包。 不需要安装,不需要配环境,解压即用。
7.集合优质模型:这方面主要是老王给我提供了帮助,特别是日语资源,用了 Kotoba-Whisper v2.2,这应该是目前开源界日语识别的天花板了,再加上SakuraLLM的超强翻译能力,应对某些资源如虎添翼。另外还有海南鸡v2这种直出中文的专门优化模型,基本上相关的优质模型都被集成了。
食用方法
因为Python程序加上CUDA依赖打包出来体积都比较大了,所以我把程序和模型分开了。
- 下载程序包:
LocalSub_v2.0_Final.7z,这里面是程序主体和运行库(models文件夹里面没有模型)。 - 下载模型包:网络不太理想的朋友可以同时下载
Models.7z,这里面是我下载好的 VAD、Kotoba、Sakura-8B 等模型。如果您网络好,也可以不下载,只要有主程序包了,它就可以运行了,会自动下载,只是模型体积较大,时间可能会比较长。 - 合体:把主程序包带的models文件夹删掉,然后把模型包解压出来的
models文件夹,直接丢进程序根目录。(网络好没下载模型包的朋友可以忽略这个步骤) - 开搞:双击
LocalSub.exe,选择要生成字幕的资源,然后软件中可以选择音频识别模型和翻译模型,如果选择的模型在本地并不存在,它就会自己下载(这也是本软件唯一需要联网的地方,就是自动下载模型到本地),此时就需要根据网络情况等待较长时间,只要下载了一次,本地有了,后面再用该模型就不会重复下载了。 - 点“开始生成”。
然后你就可以去泡杯茶,或者刷会儿手机。等你回来,那个 srt 字幕文件就已经静静地躺在视频旁边了。
碎碎念
做这个工具,初衷纯粹是为了满足我自己的观影需求。发出来也是想着也许能帮到和我有一样痛点的朋友。
- 关于配置:推荐有 NVIDIA 独立显卡(6G 显存以上)的机器使用。如果是核显,虽然也能跑(会自动降级到 CPU),但那个速度比较慢了。
- 关于用途:大家拿去学习外语资料、看生肉美剧日剧都行。但请低调使用,切勿用于处理非法违规内容,咱们也就是为了看懂剧情,图个乐呵。
- 个人推荐搭配:英语用Whisper的Large V3 Turbo + NLLB,日语用 Kotoba-Whisper v2.2 + Sakura-8B,当然最终能跑起来的才是好搭配,所以最终选择还是得根据您的机器配置来。
如果这个小工具帮到了你,哪怕只是让你看懂了一部期待已久的片子,它的价值就实现了。
最后,我也要再次申明一下,除了下载模型会联网外,所有的视频处理,字幕生成均是各位用户大佬自己操作,自己用自己的电脑在纯本地跑出来的,请各位切勿用于处理非法违规内容!!!
Update:
2026/02/14 V2.2
加入NLP模型进行整合与打标点
加入Qwen3-8B模型进行润色修正
这个版本增加了新的步骤所以字幕生成时间比2.0长了一些,但是字幕质量提升比较大。
下载地址:https://pan.baidu.com/s/1vlINzHnCzPGmRIqD65S7cw
提取码:6666
V2.0版本
下载地址:https://pan.baidu.com/s/1qrdWcUyuK73OFvkG6E0D5g
提取码:0210
types of mesalamine
creon diarrhea reddit
omeprazole for acidity
tadalafil generico online
dexlansoprazole 30 mg oral capsule
augmentin 875 mg
lasix diuretic pill
diflucan for yeast infection
what is azithromycin