Speech Recognition Prototype Developer | SUSTech-linked ASR Prototype | Xujia Du

Validated solution feasibility with a rapid prototype, reducing project initiation risk.

Demonstrates rapid domain knowledge absorption and strict project timeline management.

Solution

推理封装：基于 Flask + transformers ASR pipeline 封装本地模型，并结合 torchaudio、ffmpeg 做音频格式标准化。
交互链路：支持多文件上传、流式上传、浏览器录音、示例音频体验与上传后再次转写，覆盖演示与试用主路径。
结果结构化：通过 Excel 表维护声调/声母/韵母映射，输出 IPA 拆分结果，并支持文本/Excel 导出。
可运维性：加入请求日志、错误日志、批量并发处理和系统手册页面，方便验收与后续排障。

Result

按期交付 IPA Demo 原型，形成“上传/录音 -> 转写 -> IPA 拆分 -> 导出”的完整演示闭环，可用于后续工程化讨论与立项评估。