Back to Blog2026-03-07

10 分钟 / 独立开发 / transez.ai / Agent / PDF / LangGraph,workflow

从「你能帮我转成Excel吗」到一个聪明的AI提取工具

Agent还是Workflow这是一个问题,本文将从transez.ai这个项目复盘来说明agent和workflow的具体使用场景是怎么样的。

需求来了

故事的开始,是我同事问我的一个问题。

大概在 2024 年 12 月底,他问我:能不能把 FedEx 的分区邮编 PDF 转成 Excel?

我第一反应是:你用 WPS 转一下不就好了?

他说:我和你说不清楚,你自己看这个文件。

然后他把文件发给我,又给我看了看他最后需要的格式。我打开一看就明白了

这是分区表pdf 图片说明 这是他需要转换的模版 图片说明

不是「整份 PDF 转成一张表」那种简单需求,而是要从一份结构复杂、排版不统一的 PDF 里,按他指定的规则把数据挑出来、整理成固定格式的表格。在 AI 来临之前,这种需求要么靠手工一点点抠,要么就得写脚本或找外包,没有「点一下就能好」的通用办法。

那一刻我意识到,复杂 PDF 里的数据提取,可能真的是一个有价值的方向。不然大家就只能继续手工做了。

我想做个 Agent!

接着我就开始想:怎么才能让 AI 自己去读 PDF,自己去理解里面的内容,自己根据用户的需求做提取,自己再把数据写进 Excel?

答案很快就冒出来了:做个 Agent。

我得做一个 Agent。这个 Agent 能自己思考、自己调用工具、自己做规划——你给它 PDF 和需求,它自己拆步骤、读表、解析、填表。那时候 Agent 的 ReAct 模式特别火,大家张口闭口都是「让 LLM 自己决定下一步调用什么工具」。现在好像没什么人再天天提 ReAct 了,但当时我觉得这就是正解。

于是开始动手。调研技术方案,选型选了 LangGraph 来做。框架搭起来,工具链接上,心想这下总该能跑通了吧。

做着做着就发现:怎么我的 AI 这么笨?

它为什么自己不会调用工具?它为什么「说做了」但根本没做?它规划出来的步骤,为什么没有一个是对的?简而言之,全是问题。那段时间我每天都在和「它不该这样啊」较劲,改 prompt、改图结构、改工具接口,效果起起伏伏,离「真的能稳定跑完一个任务」总是差一截。

中间还有一段时间,我一度觉得「Agent 自动生成工作流」才是解决这个场景的终极形态——让 AI 先理解用户需求,再自动拼出一个工作流,甚至想过要不要做一个更大的「Agent 生成工作流」的产品。但后来掂量了一下自己的实力,还是放弃了。再后来市面上确实出现了类似思路的产品,比如 Refly.AI,不过那都是很后面的事了。

就这样一直磨,磨到了 2025 年 7 月。

可能是因为模型能力上来了,也可能是我做的智能路由终于起了效果,某一天开始,我的 Agent 忽然有种「长了脑子」的感觉:能正常规划任务、会按步骤调用工具、报错也能按预期处理。我当时简直觉得,我距离颠覆这个场景只差一步了。

但哪有这么简单。

重新思考

为了让 Agent「自己思考、自己规划、自己执行」,完成一个看起来很简单的动作,前前后后可能要经过十几个步骤:理解指令、规划任务、选择工具、调用工具、解析结果、更新记忆、再规划下一步……每一步都有失败的概率。哪怕每一步的成功率听起来还不错,全部串起来之后,真正「一次性跑完」的成功率会变得非常低。

更要命的是时间。

本来只是一个很标准、很简单的提取任务,如果完全交给 Agent 去「思考 + 规划 + 执行」,一轮下来往往要一分多钟。作为产品经理,我很清楚这种体验有多糟糕——用户不会因为你用了什么很聪明的agent编排而感动,他们只会觉得「这东西又慢又不稳」。

我意识到,我一开始明明只是想解决一个很具体的场景,却在过程中被「想做一个很厉害的 Agent」这件事带偏了。

这个场景本身其实非常标准化。竞争对手的速度之所以那么快,很大概率是因为他们并没有采用复杂的 Agent 架构,而是老老实实把流程拍扁:该写死的就写死,该前置的问题就前置问清楚。是我自己在这个过程中,想「颠覆」想太多了。

于是我开始反过来想:如果不追求「什么都让 Agent 来决定」,只在真正需要 AI 的地方用 AI,会不会反而更好?

答案是,会好很多。

我把整个产品重新拆了一遍,把原本那种多轮对话、自动规划的复杂流程,收缩成了一条简单、清晰的链路:用户上传文件 → 用户填写表头和提示词 → 点击转换 → 获得结果。中间没有多余的「智能交互」,只有一条笔直的通道。

真正需要 AI 的地方只有一个:结合提示词和表头,理解 PDF,并按用户的要求提取数据。

但因为有提示词的加入,产品又在一个可控的范围内,给了用户足够的自主权。用户可以让某些字段变成计算字段,可以要求金额字段必须带币种,可以让系统自动把文件名附带到每一行记录里……类似这种「小小的自由度」,在一个高度标准化的流程里,反而会显得很有力量。

当我把这些东西都拍扁、收紧、固化下来之后,再回头看那个 Agent 版本,会有一种很明显的对比:前者是「为了炫而复杂」,后者是「为了完成任务而简单」。

更重要的是,体验真的不一样了。

完成一个任务的时间,被我从一分钟多压到了差不多十秒左右。而且因为整体流程是高度结构化的,后台可以做并发调用,用户就算一次性上传很多很多发票,提取时间也不会被线性拉长。 图片说明

做到这里的时候,我觉得:差不多是时候上线了。

图片说明

冷启动真是太难了

产品上线之后,新的问题马上摆在面前:用户从哪儿来?

这次的产品和 Figma 插件不一样。插件上架在市场里,多少会有一点「自来水」流量;transez.ai 作为一个独立网站,上线完就是一片寂静。没有流量入口,就意味着没有任何人会自然发现它——必须主动去找用户。

我当时盘了一下能做的事情,大概有三条路:

  1. 去 Fiverr 和 Upwork 上找那种专门帮人做数据录入的自由职业者,让他们来尝试用产品,看能不能从他们那里找到高频、刚需的使用场景。
  2. 做一些免费的、和 PDF 相关的小工具,通过工具吸引搜索流量,再把人导进主产品里。
  3. 像之前一样,在 Reddit 上发帖,去相关社区讲这个产品的故事和场景。

现在回头看,其实最应该用力做的是第三条——在 Reddit 上长期输出内容和案例。但当时我对 Reddit 的理解还不够深,不太会在那个语境里好好讲故事、建立信任。

那段时间,我最后选的是第二条路:做免费的 PDF 小工具。

事实证明,这条路「有用,但不够」。免费的工具确实带来了一些用户,也有人顺着工具进到了产品里,但数量实在太少,而且几乎没有付费用户。更关键的是,我当时把希望押在了搜索引擎流量上,对关键词这件事情异常执着——总想着只要 SEO 撑起来,问题就解决了一半。

这个执着其实是有依据的。我心里有一个假设:大部分人不会搜索「extract data from pdf to excel」这么长的词,而是会直接搜「pdf to excel」。这意味着,他们极大概率会进到 ilovepdf 这种网站——而不是一个专门做数据提取的工具。

后来有一个真实用户的使用轨迹几乎印证了这个猜想:他上传的文件名里,居然直接带着「ilovepdf」。这基本可以说明,他先用过 ilovepdf,但没解决问题,才又继续寻找别的工具。这也从侧面说明,市面上那种「一比一格式转换」的 PDF to Excel,并不能覆盖「数据提取」这个需求。

图片说明

那一刻我真的很兴奋,觉得只要能把这部分精准用户捞出来,一定会有人为这个能力付费。

然而,增长并没有我想象得那么简单。

我写了一些 SEO 文章,也做了一整套围绕 PDF 的免费小工具,结果是:流量有,但一直是「少少的」。到今天为止,仍然是少少的。冷启动这件事,没有被某一篇爆款文章或者某一个小工具瞬间解决,它更像是一条漫长、磨人的小路。

方向转换

网站没什么流量的时候,我女朋友给了我一个很实际的建议:要不要在 Google Sheets 里做一个插件?

坦白说,这个想法我很早就有。但当时有两个卡点:

现在回头看,这两个卡点多少都有点自负的成分在里面。

后来事实也确实狠狠打了我一巴掌。

还没等我把 Sheets 插件做到特别成熟,Claude 和 OpenAI 先后出了 Excel / Sheets 方向的插件和原生能力——而且是那种「模型厂降维打击」级别的。那一刻的感受,说不绝望是假的:你意识到,很多你辛辛苦苦构思出来的东西,人家在基础设施层面一发版本,就可以覆盖掉 80%。

理性地讲,这并不意味着这个产品完全没必要做下去。Google Sheets 里的场景依然是真实存在的,很多公司也确实不会第一时间把工作流全部交给通用大模型。但这也意味着,我不会再像一开始那样,把所有精力都砸在「做一个很大的、很通用的 PDF Agent 产品」这件事上。

后面这个项目,我还是会以 Google Sheets 插件的形态继续往前走,只是节奏会更稳、更慢一些——不再幻想把它做成一个「颠覆一切」的超级产品,而是接受它作为一个在特定场景里很好用的小工具。

经验和教训

回过头看 transez.ai 这一圈下来,有几条经验和教训,我现在会牢牢记在脑子里:

经验 1:在不同场景下,Agent / Workflow / RPA / 人工,各有各的胜场。
妄想用 Agent 去覆盖一切业务场景,是很片面的。像 transez.ai 这种高度标准化的任务,固定流程 + 适度的 AI 能力,往往比一个「什么都想自己决定」的 Agent 更稳、更快。

经验 2:不是有业务痛点,就一定适合做成独立产品。
有痛点 ≠ 有产品机会。尤其是在模型厂的节奏下,降维打击来的速度,可能会比你预期的快 10 倍。很多你觉得可以做三年的东西,可能一年内就会变成基础能力。

经验 3:在启动之前,先把冷启动策略想清楚。
最好在产品还没完全成型的时候,就先去 Reddit 发帖、先去和潜在用户聊聊。找到那些真的有付费意愿的人,甚至应该排在「把产品做完」之前。没有真实用户,再漂亮的架构和功能,最后都只能停留在自嗨层面。

经验 4:快且高频,比「憋一个大招」重要得多。
这里的「快」不只是指响应时间要快,更包括从想法到上线要快、内容发布要高频、功能更新要高频。世界变化太快,不会容许你慢慢憋一个大的——大概率结果是拉了一坨大的。持续、小步、快频率地向前,才是正确的模式。

经验 5:承认自己不是天才,ego 太大只会害了你。
很多走弯路,都是从「我应该能做出一个更牛的东西」开始的。承认自己不是天才,接受「日拱一卒」「做有用的东西」,往往比执着于颠覆更健康。吾日三省吾身:这是我想要还是用户想要,这是我觉得很酷还是用户觉得很爽,真的要这么复杂吗,有没有更简单的方法。

经验 6:AI 不能帮你找到真实用户。
几乎所有「方向上的调整」和「技术方案上的调整」,AI 都会赞同你、甚至帮你把它实现出来。但 AI 无法替你回答最关键的那一句:「这样做,真实用户会不会喜欢?」 只有走出去和人聊、看数据、看留存,才有答案。AI 很强,但产品是不是有人用,这件事永远只能从用户身上找证明。