目前已开发完成体验还不错的AI语音流程,纯WEB无客户端实现的可以嵌入各种跨端的平台

引用开源项目:

语音识别:https://github.com/modelscope/FunASR

TTS语音合成:https://github.com/PaddlePaddle/PaddleSpeech

流程

其中:websocket为语音识别

后续

  • 接入MCP(大模型上下文协议)实现报表和数据分析

  • 接入即时AI根据系统现有控制逻辑+mcp协议生成代码运行使AI操控各个业务系统