虽然方博被那一夜速成的代码震得怀疑人生,但在徐辰眼里,屏幕上那个正在跑的Demo,其实……
很简陋。
【记住本站域名台湾小说网超给力,?????.???超赞】
甚至可以说是「丑陋」。
「Demo虽然跑通了,证明了『逻辑嵌入』这条路是可行的。但是,」徐辰看着代码里那几行关于盒子体积的计算公式,眉头微微皱起,「这个数学模型,太粗糙了。」
现在的模型,是用「超矩形」来表示概念。比如「猫」是一个小盒子,「动物」是一个大盒子。
这种表示法虽然直观,但在数学上有一个致命的缺陷——梯度硬截断。
当两个盒子完全没有交集时,体积重叠为0,梯度也瞬间变为0。这就意味着,反向传播在这里断掉了,神经网络学不到任何东西。为了解决这个问题,徐辰在代码里加了一个很丑的「平滑项」,但这只是权宜之计,治标不治本。
「这就像是用一堆方块去拼一个圆,无论怎麽拼,边缘永远是锯齿状的。」
徐辰的数学强迫症犯了。
「必须要优化。我需要一个更『光滑』的几何结构。」
他的大脑飞速运转,LV.2的数学直觉开始接管键盘。
「为什麽非要用盒子呢?」
「逻辑的本质是『偏序关系』。在向量空间里,能完美表达偏序关系的,不一定是闭合的盒子,也可以是……锥!」
「或者,引入高斯分布,利用KL散度来衡量包含关系?」
「不,高斯分布也不够好,它的尾部衰减太快,难以表达传递性。」
徐辰在草稿纸上画了几个图形,最终,他的笔尖停在了一个特殊的流形结构上。
Gumbel-Box(甘贝尔盒子)。
「如果引入极值理论中的Gumbel分布来对盒子的边界进行模糊化处理,就能让原本刚性的边界变得『柔软』且处处可导。」
「这样一来,逻辑推理就不再是生硬的『是』或『否』,而是一个连续的概率流!」
……
「不过,还有一个逻辑上的漏洞。」
徐辰看着屏幕上新生成的Gumbel-Box模型代码,敏锐地捕捉到了一个潜在的问题。
「如果我把逻辑边界变得『平滑』了,变成了一个连续的概率流,那这和传统的Transformer有什麽本质区别?Transformer也是输出一个概率分布,预测下一个词是『猫』的概率是80%,是『狗』的概率是20%。」
「如果我的模型也只是输出一个软绵绵的概率,那它依然可能会在那20%的时候胡说八道。」
「必须要有一把锁。」
徐辰的眼神变得犀利起来。
他迅速在代码的输出层之前,插入了一个全新的模块——逻辑门控单元。
「Gumbel-Box的平滑性,是为了在训练阶段让梯度能够流淌,让模型能『学会』逻辑。但在推理阶段,也就是真正上考场的时候,这个平滑的边界必须瞬间『硬化』。」
他在草稿纸上画了一个陡峭的Sigmoid函数。
「我设定一个逻辑置信度阈值τ(第十九个希腊字母,念做「套」)。当两个概念在几何空间里的重叠体积低于这个阈值时,说明它们在逻辑上几乎不相容,比如『猫』和『植物』。」
「这时候,门控单元会像一把闸刀一样落下,直接将这个路径的概率强行截断为0!」
「传统的LLM是『我觉得应该这麽说』,而加了门控的LAART是『虽然我想这麽说,但几何逻辑告诉我,这麽说是错的,所以我闭嘴』。」
「这才是完美的逻辑与生成的结合。」
解决了这个关键的机制问题,徐辰终于满意地点了点头。
……
搞定了数学模型的优化,摆在徐辰面前的,是另一个棘手的工程问题。
Benchmark(业内普遍直接用英语称呼,意思是基准测试)怎麽选?
做AI研究,光有模型没用,你得拉出来溜溜。你得在公开的测试中,把以前的模型,比如Transformer丶BERT丶GPT等给考倒了,别人才承认你牛逼。
当年的Transformer为了证明它比以前的RNN和LSTM强,Google团队选择了「英德机器翻译数据集」。
这是一个非常经典的任务。评价标准是BLEU分数,也就是看机器翻译出来的句子,和人类翻译的句子,在词汇重叠度上有多高。
Transformer在那场考试中,以28.4的BLEU分数,刷新了世界纪录,从此一战成名。
「但是。我的模型优势不在于『翻译』,也不在于『文本生成』的流畅度。」
现在的GPT模型,靠着海量的语料堆砌,已经是天生的语言大师了。让LAART去跟它们比谁写诗写得好,谁翻译得溜,那是拿自己的短处去碰别人的长处。
LAART的核心优势是什麽?
是逻辑。
是永远不会说「猫是植物」,永远不会在做三段论推理时出现「A>B,B>C,所以A<C」这种弱智错误的严谨性。
「用翻译数据集测逻辑,就像是考爱因斯坦背单词,根本测不出智商。」
「我需要一套专门考『逻辑推理』的卷子。」
他在ArXiv和Github上飞速检索。
很快,几个备选方案浮现在眼前。
1.SNLI(StanfordNaturalLanguageInference):斯坦福自然语言推理数据集。给两句话,判断它们是「蕴含」丶「矛盾」还是「中立」。这是最经典的NLI任务。
2.SQuAD(StanfordQuestionAnsweringDataset):阅读理解问答。这个稍好一点,但也侧重于信息提取。
3.CLUTRR(CompositionalLanguageUnderstandingandText-basedRelationalReasoning):基于文本的关系推理。
徐辰的目光最终锁定了最后一个数据集CLUTRR。
……
CLUTRR这个数据集很有意思。它会给你一段像绕口令一样的故事:
「爱丽丝的妈妈是鲍勃的姐姐,鲍勃的儿子是查理。」
然后问你:「爱丽丝和查理是什麽关系?」
这不仅需要模型读懂文本,更需要在脑子里构建出一张「家谱图」,进行多次的逻辑推理,才能得出正确答案。
对于传统的Transformer模型来说,这是个噩梦。因为Transformer本质上是在算「词与词之间的相关性」,它并没有真正的逻辑推理模块。它可能会因为「妈妈」丶「姐姐」这些词出现的频率,瞎猜一个「姨妈」或者「奶奶」。
但对于装载了「逻辑几何嵌入」的LAART来说……
这简直就是送分题!
在徐辰的数学模型里,「妈妈」丶「姐姐」丶「儿子」这些关系,会被映射为向量空间里的几何变换算子。推导关系,不过就是做几次向量加法和包含运算而已。
「就选它了!」
徐辰打了个响指。
……
徐辰心情大好,转过身准备拿水杯喝口水。
然而,刚一回头,他就吓了一哆嗦,杯子里的水差点洒出来。
只见身后,方博丶薛超丶刘鑫羽三个人,不知何时已经站成了一排。三人双手抱胸,六只眼睛直勾勾丶阴森森地盯着他
空气安静得有些诡异。
「呃……」徐辰端着水杯的手僵在半空,嘴角抽搐了一下,尴尬地笑了笑,「你们……怎麽都站在这儿?这麽闲?不用学习吗?」
「学习?」
方博冷笑一声,痛心疾首地指着徐辰。
「徐神,你老实交代,你不在燕园那个独立公寓里待着,特意跑回咱们这又挤又乱的301,是不是就是为了回来装个逼?」
「啊?」徐辰一脸无辜,「我不是为了找你修开发环境吗?」
「修环境需要顺手修出一套人工智慧算法吗?!」方博悲愤地喊道,「你考虑过我们这些还在跟Bug互啄的小萌新的感受吗?」
一旁的薛超也长叹了一口气,走过来拍了拍徐辰的肩膀:
「老徐,真的,算兄弟求你了。以后这种装逼的活动,能不能去祸害别的宿舍?或者去图书馆丶去食堂都行。」
「别一直指着我们301这几个人装了,大家都是两个肩膀扛一个脑袋,你这样显得我们真的很像游戏里来凑数的NPC,很伤自尊的好不好?」
徐辰无奈地摇了摇头,忍不住笑骂道:「行了,别贫了。等我这个模型发了顶刊,请你们吃大餐,行了吧?」
「顶刊?」方博耳朵一动,瞬间变脸,一脸谄媚地凑过来接过徐辰的水杯,「哎哟,徐神大气!那我要吃西门那家日料!最贵的那种!来来来,水凉了我给您续上!」
「准了。」
「得嘞!徐神您继续忙,小的绝不打扰您修仙!」