陶予之从包里掏出平板,翻出一篇论文递给薛意:"MIT那组的新预印本你看了吗?把self-attention写成球面上的iingparticlesystem,证了一个tokenclustering的收敛定理。证明本身挺漂亮的,Wasserstein梯度流那段构造得很g净。"
薛意接过来,眼睛扫了一眼公式。
"证明是挺漂亮的,但不能用。"她拿过一张餐巾纸,画了个球面示意图:"他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blowup。你拿这个收敛率去calibrate真实的attentionmap,差两个数量级。"
陶予之笑了一下。她太熟悉薛意的思路了。纯数学家看一篇论文先看证明结构美不美,薛意看一篇论文先看结论能不能拿来赚钱。
"那你打算怎么修?"
"不修,换个框架。"薛意在餐巾纸上飞快地画了起来:"我在想Ricciflow。Clustering本质上就是曲率集中,Perelman处理奇点的那套surgery改一改,应该能给一个更tight的bound。"
两人聊得旁若无人…
曲悠悠懵懵地看着两个神仙似的人叽里咕噜说了一堆什么都听不懂的话,还有来有回的,有点幽怨地开始怀疑自己的智商。
肩膀被轻轻拍了两下。
“别管她们了,”徐医生浅笑着,g了g她的臂弯,“咱们去点些东西吃。
内容未完,下一页继续阅读