“这到底是怎么个扑朔迷离的剧情?”
早先见电气学院的导员气势汹汹的找来,还以为这小子是个问题学生。
怎么就峰回路转,变成如此高深专业的讨论了?
我是谁?我在哪?他们到底在说什么?
为什么每个字我都认识,连在一起我就完全听不明白了?
时间缓缓地流逝,不知不觉间,付院长的草稿和推演已经写满了六七页A4纸。
“如果单纯用y=f(x)+b的方式去理解一层的行为,那么对于任意正整数k,都存在一个k^3量级深,常数量级宽的神经网络,无法被一个k层的神经网络拟合,除非其宽度为原本的2^k倍。”
付院长越计算,越觉得这小子的直觉不错。
“倘若依你所说,用批次归一化的方式去避免协变量偏移的问题,再加上非线性的函数为层提供额外的表达能力,那么甚至在极端的情况下,需要2^k^3倍的宽度。这样看来你首先专注于解决深度问题,然后考虑去处理训练难度问题的思路是相当聪明的选择。”
付院长,沉吟了一番,回顾了一下自己的计算过程,问道“懂了吗?”
孟繁岐非常严肃认真地摇了摇头,说“没太懂。”
付院长笑了笑,不急不恼,又将整个流程按顺序梳理了一遍。
即便孟繁岐前世已经精读过好几次这三篇论文,但始终没能从根本上理清其中的数学关系。AI界与数学界看待这个问题的视角截然不同,付院长带给了孟繁岐新的认识和理解。
有一位资深的数学教授为他梳理了背后的数学原理和关系,孟繁岐顿觉豁然开朗,但却又始终迷迷蒙蒙,隔着一层纱布。
仔细再看良久,好像有些明了了,“现在好像有些懂了。”
“再多看几遍巩固一下吧。”付院长闻言站起身来拍了拍孟繁岐的背,说道,“我的办公室就在数院大楼503,如果有这方面的问题,欢迎你来找我讨论交流。”
说罢,便转身离去,也不问孟繁岐究竟叫什么名字,只做纯粹的学术交流。
临走前,还对旁边伸着脖子围观的两个数院研究生使了一个眼神,大概意思是“你看看人家,才本科,文章都快写出来了。看看人家看看你。”
两位数院研究生连忙低下头来移开视线。
只留下孟繁岐一人对着复杂的论证过程反复品味,又过了一会儿,孟繁岐感觉自己好像理解了,但又好像全都忘记了,进入了一种玄而又玄的状态。
想必当年张无忌学张三丰的太极剑就是这个感觉吧。
-----------------------------