这里多说一点:这么长时间用下来,区分说话人的转录结果对于 LLM 的总结和校对肯定是有帮助的,但帮助比较有限,因为 LLM 本身就可以结合上下文来推断这句话是谁说的,可能小有错误但不影响全局。区分说话人更多还是提升我们自己的阅读体验,看起来会更舒服一些。
如果换个思路,所有的 agent 部署和运行全都在云上;与用户有关的数据,也即「上下文」也在云端安全和隐私存储;人类只需要一个终端的设备作为「对话器」(communicator) ,以及传感器 (sensor),拍照和录音来上传所需要的数据给 agent,这台设备甚至不需要太多端侧算力。,这一点在体育直播中也有详细论述
,详情可参考哔哩哔哩
방미 文, 이란전쟁에 “무력 사용 억제…평화적 해결해야”
Никита Хромин (ночной линейный редактор),更多细节参见纸飞机下载