<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>XXZZ Blog</title><description>记录想法、项目与日常折腾</description><link>https://www.xxzz.asia/</link><language>zh_CN</language><item><title>多人对话转文字终于要好用了？SoulX-Transcriber 速读笔记</title><link>https://www.xxzz.asia/posts/soulx-transcriber-xiaohongshu/</link><guid isPermaLink="true">https://www.xxzz.asia/posts/soulx-transcriber-xiaohongshu/</guid><description>把公众号文章整理成一篇小红书风格速读：SoulX-Transcriber 是什么、解决什么痛点、适合谁用、怎么上手。</description><pubDate>Thu, 04 Jun 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;今天刷到一篇关于 &lt;strong&gt;SoulX-Transcriber&lt;/strong&gt; 的文章，简单说：这不是普通 ASR 语音转文字，而是专门冲着“多人同时说话、插话、打断、角色切换”这种真实场景来的。&lt;/p&gt;
&lt;p&gt;如果你经常整理会议录音、播客访谈、课堂讨论、直播语音，这个项目值得先收藏。&lt;/p&gt;
&lt;h2&gt;一句话看懂&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;SoulX-Transcriber = 面向长音频 + 多说话人场景的端到端对话转录模型。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它想解决的不只是“把声音变成文字”，而是同时给出：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;谁在说&lt;/li&gt;
&lt;li&gt;什么时候说&lt;/li&gt;
&lt;li&gt;说了什么&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;也就是把多人对话直接整理成更结构化的结果。&lt;/p&gt;
&lt;h2&gt;为什么它值得关注？&lt;/h2&gt;
&lt;p&gt;很多转录工具在单人说话时还不错，一到多人场景就容易翻车：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;几个人抢着说，内容容易漏&lt;/li&gt;
&lt;li&gt;主持人和嘉宾来回切，身份容易混&lt;/li&gt;
&lt;li&gt;同性别、音色相近，说话人容易串&lt;/li&gt;
&lt;li&gt;长音频里场景变了，识别稳定性会下降&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这篇文章里提到，SoulX-Transcriber 走的是统一端到端路线，不再把“说话人分割”和“语音识别”完全拆开处理，而是让模型在同一个框架里理解多人对话。&lt;/p&gt;
&lt;p&gt;小红书版翻译一下就是：&lt;br /&gt;
&lt;strong&gt;少一点东拼西凑的流水线，多一点一次性看懂全局的能力。&lt;/strong&gt;&lt;/p&gt;
&lt;h2&gt;3 个亮点&lt;/h2&gt;
&lt;h3&gt;1. 多人对话转录能力更强&lt;/h3&gt;
&lt;p&gt;文章提到它在 AISHELL-4、AliMeeting 等公开多人对话基准上表现突出，并且在社交对话、影视剧、播客等内部场景里也有不错效果。&lt;/p&gt;
&lt;p&gt;我最在意的点不是“榜单第一”这类宣传，而是它明显瞄准了真实世界里最烦人的场景：插话、重叠、快速轮换、多人身份混淆。&lt;/p&gt;
&lt;h3&gt;2. 不只识别文字，还关心“谁说的”&lt;/h3&gt;
&lt;p&gt;它的训练思路强调说话人感知。&lt;br /&gt;
也就是说，模型不是只盯着文本，而是更重视说话人特征。&lt;/p&gt;
&lt;p&gt;对会议纪要、播客字幕、访谈整理来说，这一点非常关键。因为“谁说的”经常和“说了什么”一样重要。&lt;/p&gt;
&lt;h3&gt;3. 对长音频更友好&lt;/h3&gt;
&lt;p&gt;普通短音频转文字只是入门题。真正麻烦的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一小时会议&lt;/li&gt;
&lt;li&gt;多人圆桌&lt;/li&gt;
&lt;li&gt;长播客&lt;/li&gt;
&lt;li&gt;剧集对白&lt;/li&gt;
&lt;li&gt;课堂讨论&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;SoulX-Transcriber 的定位就是这类长音频、多角色、多轮对话场景。&lt;/p&gt;
&lt;h2&gt;适合谁收藏？&lt;/h2&gt;
&lt;p&gt;我觉得这几类人可以重点看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;做会议纪要的人：想知道每个人在什么时候讲了什么&lt;/li&gt;
&lt;li&gt;做播客/视频字幕的人：需要区分主持人、嘉宾、插话&lt;/li&gt;
&lt;li&gt;做内容整理的人：想把长音频变成可检索文本&lt;/li&gt;
&lt;li&gt;做 AI 音频应用的人：想研究端到端多人转录方案&lt;/li&gt;
&lt;li&gt;做教育/医疗/法律记录的人：对说话人标注有刚需&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;快速上手思路&lt;/h2&gt;
&lt;p&gt;原文给了比较完整的上手路径，我整理成更短的流程：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;克隆 GitHub 项目。&lt;/li&gt;
&lt;li&gt;准备 Python 3.12 环境。&lt;/li&gt;
&lt;li&gt;安装 &lt;code&gt;ms-swift&lt;/code&gt; 等依赖。&lt;/li&gt;
&lt;li&gt;从 Hugging Face 或 ModelScope 下载模型权重。&lt;/li&gt;
&lt;li&gt;用 vLLM-Omni 跑推理脚本。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;项目入口：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://github.com/Soul-AILab/SoulX-Transcriber&quot;&gt;GitHub：SoulX-Transcriber&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://soul-ailab.github.io/soulx-transcriber/&quot;&gt;项目页面&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://huggingface.co/Soul-AILab/SoulX-Transcriber&quot;&gt;Hugging Face 权重&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://modelscope.cn/models/Soul-AILab/SoulX-Transcriber&quot;&gt;ModelScope 权重&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想体验效果，建议先拿一段 3 到 5 分钟的多人音频试，不要一上来就丢一小时会议。先看它能不能正确区分说话人，再决定要不要接入自己的流程。&lt;/p&gt;
&lt;h2&gt;我的判断&lt;/h2&gt;
&lt;p&gt;这类模型真正有价值的地方，不是“又多了一个语音转文字工具”，而是它把多人对话变得更可处理。&lt;/p&gt;
&lt;p&gt;以前一段多人录音可能只是一个混乱音频文件；转出来之后如果能带时间、说话人和文本，它就能继续进入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;会议纪要&lt;/li&gt;
&lt;li&gt;知识库&lt;/li&gt;
&lt;li&gt;内容剪辑&lt;/li&gt;
&lt;li&gt;访谈稿&lt;/li&gt;
&lt;li&gt;检索系统&lt;/li&gt;
&lt;li&gt;后续 AI 总结流程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以它更像一个音频内容入口，把“声音”变成后续可以加工的数据。&lt;/p&gt;
&lt;h2&gt;一点小提醒&lt;/h2&gt;
&lt;p&gt;开源模型不等于零门槛。&lt;/p&gt;
&lt;p&gt;如果你只是普通用户，可能还需要等别人做成更易用的桌面端或网页服务；如果你会折腾环境、GPU、推理框架，那现在就可以直接去项目里试。&lt;/p&gt;
&lt;p&gt;我的建议是：先收藏，等有真实多人录音需求时再动手。这个方向以后很可能会越来越刚需。&lt;/p&gt;
&lt;h2&gt;参考&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;原公众号文章：&lt;a href=&quot;https://mp.weixin.qq.com/s/AZClqI9w9ERP8tiQfHQuBw&quot;&gt;Soul App 联合西工大等，正式开源了端到端多人对话转录模型 SoulX-Transcriber！&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;官方项目：&lt;a href=&quot;https://soul-ailab.github.io/soulx-transcriber/&quot;&gt;SoulX-Transcriber&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;代码仓库：&lt;a href=&quot;https://github.com/Soul-AILab/SoulX-Transcriber&quot;&gt;GitHub / Soul-AILab / SoulX-Transcriber&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;#AI工具 #开源项目 #语音转文字 #会议纪要 #播客字幕 #SoulXTranscriber&lt;/p&gt;
</content:encoded></item><item><title>博客上线了</title><link>https://www.xxzz.asia/posts/hello/</link><guid isPermaLink="true">https://www.xxzz.asia/posts/hello/</guid><description>先把个人博客搭起来，后面慢慢填内容。</description><pubDate>Tue, 26 May 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;这是这个站点的第一篇文章。&lt;/p&gt;
&lt;p&gt;先把博客搭起来，等内容有了落点，再慢慢写项目记录、想法、笔记和一些值得留下来的过程。&lt;/p&gt;
&lt;p&gt;网站现在使用 Astro 静态生成，访问速度快，服务器压力小，也更适合长期维护。&lt;/p&gt;
</content:encoded></item><item><title>WorkBuddy 下载与上手：一篇够用的速通笔记</title><link>https://www.xxzz.asia/posts/workbuddy-download-guide/</link><guid isPermaLink="true">https://www.xxzz.asia/posts/workbuddy-download-guide/</guid><description>整理官方文档和几篇下载使用教程，把 WorkBuddy 的下载、安装、登录、创建任务和日常使用方式串起来。</description><pubDate>Tue, 26 May 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;最近看了几篇 WorkBuddy 的资料，核心信息其实可以压缩成一句话：它不是普通聊天框，而是一个能在本地电脑或云端环境里执行任务的 AI 工作伙伴。适合让它处理文档、整理资料、改代码、做报表、跑一些固定流程。&lt;/p&gt;
&lt;p&gt;这篇不是照搬教程，而是把官方下载页、安装文档、首个任务指南、小程序和自动化说明揉成一份上手清单。&lt;/p&gt;
&lt;h2&gt;1. 先确认该下载哪个版本&lt;/h2&gt;
&lt;p&gt;入口优先走官方页面：&lt;a href=&quot;https://www.codebuddy.cn/work/&quot;&gt;WorkBuddy 官网下载页&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;按系统选择：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;设备&lt;/th&gt;
&lt;th&gt;建议版本&lt;/th&gt;
&lt;th&gt;注意点&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Windows&lt;/td&gt;
&lt;td&gt;Windows 版安装包&lt;/td&gt;
&lt;td&gt;官方文档要求 Windows 10 及以上，不支持 Windows 7 / 8 / 8.1&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Mac Apple 芯片&lt;/td&gt;
&lt;td&gt;Mac ARM64&lt;/td&gt;
&lt;td&gt;M1、M2、M3、M4 这类机器选它&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Mac Intel 芯片&lt;/td&gt;
&lt;td&gt;Mac X64&lt;/td&gt;
&lt;td&gt;老款 Intel Mac 选它&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果你不确定 Mac 是哪种芯片，点左上角苹果图标，进入“关于本机”，看芯片/处理器信息即可。&lt;/p&gt;
&lt;h2&gt;2. 安装和登录&lt;/h2&gt;
&lt;p&gt;安装过程很常规：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;下载对应安装包。&lt;/li&gt;
&lt;li&gt;Windows 直接运行安装程序；Mac 把应用拖进“应用程序”。&lt;/li&gt;
&lt;li&gt;打开 WorkBuddy。&lt;/li&gt;
&lt;li&gt;用微信扫码登录。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Mac 第一次打开如果被系统拦截，通常不是软件坏了，而是 macOS 的安全策略。可以到“系统设置 / 隐私与安全性”里允许打开；如果仍然打不开，再确认自己是否下载了匹配芯片的版本。&lt;/p&gt;
&lt;h2&gt;3. 第一次任务怎么写&lt;/h2&gt;
&lt;p&gt;WorkBuddy 的任务描述要比“帮我弄一下”更具体一点。比较稳的写法是：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;目标：帮我整理这份产品资料，输出一篇适合发博客的中文文章。
输入：我上传的 PDF 和网页链接。
要求：
1. 不要直接复制原文；
2. 保留关键步骤和注意事项；
3. 结尾列出参考链接；
4. 语气自然，适合个人博客。
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;也就是说，尽量把“目标、输入、输出格式、限制条件”说清楚。WorkBuddy 能看文件、目录、截图和上下文，但你给的信息越有边界，它越不容易跑偏。&lt;/p&gt;
&lt;h2&gt;4. 本地模式和云端模式怎么选&lt;/h2&gt;
&lt;p&gt;我的理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;本地模式&lt;/strong&gt;：适合处理电脑里的项目、文件、代码仓库，优点是上下文就在本机，适合改代码、整理本地文档。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;云端模式&lt;/strong&gt;：适合不想占用本机，或者需要让任务在远端继续跑的场景。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;小程序/移动端入口&lt;/strong&gt;：适合人在外面时临时派活，比如让它继续整理资料、生成草稿、查看任务状态。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你是第一次用，建议先用本地模式跑一个小任务，确认它能正确访问你指定的目录，再给它更大的任务。&lt;/p&gt;
&lt;h2&gt;5. 任务结果要检查什么&lt;/h2&gt;
&lt;p&gt;WorkBuddy 做完后，不要只看一句“完成了”。建议重点看四块：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务总结&lt;/strong&gt;：它到底做了什么。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成文件&lt;/strong&gt;：有没有生成你需要的文档、表格、网页或代码。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;改动记录&lt;/strong&gt;：如果它动了项目文件，要逐项检查。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;预览效果&lt;/strong&gt;：网页、文档、报表类任务最好打开预览再确认。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对代码项目尤其要谨慎：先看 diff，再跑测试，最后再部署。AI 很能干，但它偶尔也会像一个非常自信的实习生，得看一眼它到底动了哪里。&lt;/p&gt;
&lt;h2&gt;6. 适合交给 WorkBuddy 的任务&lt;/h2&gt;
&lt;p&gt;我会优先把这几类任务交给它：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把多篇资料整理成一篇文章或报告。&lt;/li&gt;
&lt;li&gt;根据本地文件生成摘要、清单、表格。&lt;/li&gt;
&lt;li&gt;批量改一些格式明确的文档。&lt;/li&gt;
&lt;li&gt;给代码项目做小改动、修报错、补说明。&lt;/li&gt;
&lt;li&gt;定时做日报、周报、资料汇总这类自动化任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不太建议一上来就让它做特别模糊、特别大的任务，比如“帮我做一个完整系统”。更稳的方式是拆成几个小任务：先搭结构，再补页面，再连数据，再测试。&lt;/p&gt;
&lt;h2&gt;7. 安全和隐私上的小建议&lt;/h2&gt;
&lt;p&gt;WorkBuddy 能操作文件和环境，所以权限要给得克制一点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;只授权它当前任务需要的目录。&lt;/li&gt;
&lt;li&gt;不要把密码、私钥、客户敏感资料直接丢进去。&lt;/li&gt;
&lt;li&gt;让它修改项目之前，先确认这个项目有 Git 或备份。&lt;/li&gt;
&lt;li&gt;重要结果不要直接发布，先人工过一遍。&lt;/li&gt;
&lt;li&gt;下载只走官网，别从网盘或不明安装包下。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;8. 我的快速上手流程&lt;/h2&gt;
&lt;p&gt;如果从零开始，我会这样用：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;去官网下载对应系统版本。&lt;/li&gt;
&lt;li&gt;安装并微信扫码登录。&lt;/li&gt;
&lt;li&gt;新建一个测试文件夹，放一两份不敏感资料。&lt;/li&gt;
&lt;li&gt;给它一个明确的小任务，比如“整理成 800 字文章”。&lt;/li&gt;
&lt;li&gt;看输出是否符合预期。&lt;/li&gt;
&lt;li&gt;再逐步让它接触真实项目。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这个节奏比较慢，但能尽快摸清它的边界。等你知道它擅长什么、不擅长什么，再让它接更复杂的任务，就不会一开始被“AI 应该什么都会”的幻觉带跑。&lt;/p&gt;
&lt;h2&gt;参考资料&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/work/&quot;&gt;WorkBuddy 官网下载页&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/From-Beginner-to-Expert-Guide/Installation-Win-Guide&quot;&gt;官方文档：Windows 系统安装指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/From-Beginner-to-Expert-Guide/Installation-Mac-Guide&quot;&gt;官方文档：Mac 系统安装指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/FirstTask&quot;&gt;官方文档：开启第一个任务&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/Create-Task&quot;&gt;官方文档：创建任务&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/Task-Result&quot;&gt;官方文档：结果查看&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/Claw&quot;&gt;官方文档：Claw 远程任务&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/Mini-Program&quot;&gt;官方文档：小程序&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://www.codebuddy.cn/docs/workbuddy/From-Beginner-to-Expert-Guide/Function-Description/Automation-Guide&quot;&gt;官方文档：自动化&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://cloud.tencent.cn/developer/article/2638618&quot;&gt;腾讯云开发者社区：CodeBuddy IDE &amp;amp; WorkBuddy 下载安装使用全攻略&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item></channel></rss>