IPA Demo | Xujia Du | 作品小集

Skip to main content

IPA Demo

2025.11 - 2025.12

Summary

A short-cycle ASR demo that wraps local inference, audio preprocessing, batch handling, structured export, and a web demo.

Business Value

Turned research-oriented speech recognition capability into a usable prototype for low-cost validation.

Engineering Depth

Showcases local ASR inference packaging, audio preprocessing, batch concurrency, structured export, and web delivery for demos.

Evidence

Repository · Confidence High · Verified 2026-03-31

Evidence level: strict review (core sections only show verifiable metrics)
Source type: Repository / code records
Source link: no public link provided, review against delivery records
Verified at: 2026-03-31 (78 days ago, fresh evidence)

Rationale: High confidence: organized under strict evidence rules, traceable to repository or code records, verified 78 days ago.

Background

目标是在短周期内把中文方言语音转写能力做成可直接演示的系统，用于科研场景验证和客户验收。

Challenge

需要同时解决模型推理封装、音频标准化、批量转写、结果导出和非技术用户可操作性，且交付周期有限。

Action and Results

Solution

Web 化封装：用 Flask 承载本地 ASR pipeline，并提供上传、录音、示例音频和二次转写接口。
音频处理：结合 torchaudio 与 ffmpeg 做格式检测、标准化转换和并发加载。
结果结构化：通过 Excel 表维护 IPA 映射，支持声母/韵母/声调拆分与 Excel 导出。
演示交付：补齐系统手册、模板下载、错误日志与批量处理能力，便于现场演示和验收。

Result

交付完整的 IPA Demo 原型，覆盖“录音/上传 -> 转写 -> IPA 拆分 -> 导出”的核心闭环。

Key Signals

基于 Flask 封装本地 ASR 模型，支持多文件上传、流式转写、浏览器录音与示例音频体验。

加入音频标准化、并发处理、IPA 声母/韵母/声调拆分与日志体系，使原型既可演示也便于排障。

支持 Excel 模板校验、批量导出与系统手册下载，降低客户试用和验收成本。

Tech Stack

PythonFlaskPyTorchTransformersTorchaudioASRPandasFFmpeg