JK 也能听懂的理论物理(一)

09-9-2020

最近对理论物理比较感兴趣,粗糙地翻了 Springer 出版的两本理论物理教材,包括 Schwichtenberg 写的 Physics from Symmetry 和 Norsen 的 Foundations of Quantum Mechanics。两本书的侧重点很不一样,Schwichtenberg 的教材显然侧重于从群论和表示论的角度重新推出现代物理的大部分理论和方程,并揭示其中的对称性,而 Norsen 则侧重于现代物理特别是量子力学的一些本质问题和解决过程(可能并不适合入门),包括 Measurement 和 Locality 的一些疑惑。

我和相关专业的教育不怎么沾边,但综合受到的普通物理学教育,总想说点什么,特别是关于如何正确地给我这样的一般人讲讲“深奥”的理论物理。本文以下内容要求完全的初中物理知识和一定的数学基础。

时空

我们的世界每时每刻都处在变化和运动中,组成一个极端复杂的巨大系统,而物理学一直以来的目标,就是在这种极端复杂性中尝试找出最核心的规律,使之能在广阔的时空中普遍地证明正确性。而朝向现代物理的第一扇大门,便是正确地看待时空本身。

1887年,抱着证明以太存在的想法,迈克尔逊(Michelson)和莫雷(Morley)尝试使用实验测量以太对光速的影响,但没有获得预期结果。在传统力学环境下,不同参考系的光速可变似乎是合理的,而光速可变势必证明了传播光乃至电磁活动的介质存在。他们的实验数据启发了洛伦兹(Lorentz)在1904年使用洛伦兹变换解释该结果,使用以下公式:

\[L = L_0\sqrt{1 - \frac{v^2}{c^2}}\]

这些结果促使爱因斯坦(Einstein)在1905年使用两条基本假设建立了狭义相对论,它们是:

  1. 光速不变性原理:在所有参考系中,光速是一个确定的常数 \(c\)。
  2. 相对性原理:所有参考系都有相同的物理定理形式,这也是伽利略(Galileo)在经典力学得出的结论的推广。

在这两条原理上建立的物理定律,能够被地球上,宇宙中任意时间任何角落进行的实验复现,从而保证了物理学的一致性。

读者可能已经注意到了我所说的“任意时间”这个措辞,如果按照直觉来理解,参考系显然是一个关于空间的概念,一直以来,人们都认为时间是独立于我们生活的三维空间存在的,是唯一神圣的东西,这样的看法也被狭义相对论推翻了。

Henceforth space by itself, and time by itself, are doomed to fade away into mere shadows, and only a kind of union of the two will preserve an independent reality.
– Hermann Minkowski

设想两个参考系 \(F_1\) 和 \(F_2\),他们相对之间有 \(v\) 的均匀速度,参考系 \(F_1\) 中的一个人往自己正上方的天花板(虽然是在真空)发送了一束激光,尝试测量激光反射回来所用的时间。如果他的中学物理课不是体育课的话,显然可以省去测量这一步,我们知道,光在这个观测者测量下所需时间是 \(\Delta t_p = \frac{2L}{c}\)。同样的,我们相对 \(F_2\) 静止的一个观测者,也看到了第一个观测者射出的激光,他也很好奇,光反射回地面需要的时间是多少?

我们将 \(F_2\) 看到激光射出的瞬间称为事件 \(A\),将 \(F_2\) 看到激光回到地面的瞬间称为事件 \(B\),显然,对于不同的观察者,这段区间内的光线运动轨迹是不一样的,这些轨迹反应到直角坐标系 \(x-t\) 上的结果,就是世界线。对于 \(F_2\),他看到的光线与地面构成了等腰三角形,如果在这段时间内他在地面上移动了(当然也可能是 \(F_1\) 在运动,我们为了方便,采用 \(F_1\) 的视角) \(\Delta x' = v\Delta t'\) 的距离,我们就有 \(\Delta t' = \frac{2\sqrt{L^2 + (\frac{\Delta x'}{2})^2}}{c}\),整理得 \((c\Delta t')^2 - (\Delta x')^2 = (c\Delta t_p)^2 = 4L^2\)。

考虑参考系在三维坐标系中的运动,由于 \((\Delta x_p)^2 = (\Delta y_p)^2 = (\Delta z_p)^2 = 0\),我们就推出了一个重要的公式,对任意参考系,我们有:

\[(c\Delta t_1)^2 - (\Delta x_1)^2 - (\Delta y_1)^2 - (\Delta z_1)^2 = (c\Delta t_2)^2 - (\Delta x_2)^2 - (\Delta y_2)^2 - (\Delta z_2)^2\]

这说明了,不同参考系对同一事件“感受”到的时间是不一样的,我们把这个不变量记为 \((\Delta s)^2\)。尽管现实世界中大部分情况都不是匀速的,我们可以对整个式子取微分,使之仍然成立。

现在,让我们稍微加加速,将以上的等式改记成

\[ds^2 = \begin{pmatrix} dx_0 & dx_1 & dx_2 & dx_3 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & -1 & 0 & 0 \\ 0 & 0 & -1 & 0 \\ 0 & 0 & 0 & -1 \end{pmatrix} \begin{pmatrix} dx_0 \\ dx_1 \\ dx_2 \\ dx_3 \end{pmatrix} = dx_{\mu}\eta^{\mu\nu}dx_{\nu}\]

这一开始看起来非常复杂,但我们只需要如此理解。如果将时空事件在某一参考系中的坐标看作一个连续的四维向量 \(dx_{\mu}\),那么衡量事件之间正确交互(比如标量积)的尺度,就可以用一个矩阵 \(\eta = diag(1, -1, -1, -1)\) 来表示,这个对角阵被称为闵可夫斯基(Minkowski)度规。

这样形式化给我们带来的一个便利是,我们可以用矩阵运算来表示时空变换了。现在既然我们已经有了一个不变量 \(ds^2\),下一步要考虑的就是,对时空坐标怎样的变化可以保证 \(ds^2\) 不变,即经过

\[dx_{\mu} \to dx'_{\mu} = \Lambda_{\mu}^{\sigma}dx_{\sigma}\]

我们有

\[ds'^2 = dx'_{\mu}\eta^{\mu\nu}dx'_{\nu} = \Lambda_{\mu}^{\sigma}dx_{\mu}\eta^{\mu\nu}\Lambda_{\nu}^{\gamma}dx_{\gamma} = dx_{\mu}\eta^{\mu\nu}dx_{\nu}\]

解得

\[\Lambda_{\sigma}^{\mu}\eta^{\sigma\gamma}\Lambda_{\gamma}^{\nu} = \eta^{\mu\nu}\]

或者记作

\[\Lambda^T\eta\Lambda = \eta\]

这便是洛伦兹变换所需要满足的条件。将原本洛伦兹推得的变换公式改写成四维形式(为了简单起见,仅作一维上的移动):

\[\begin{pmatrix} \gamma & -\beta\gamma & 0 & 0 \\ -\beta\gamma & \gamma & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{pmatrix}\]

其中 \(\beta = \frac{v}{c}, \gamma = (\sqrt{1 - \beta^2})^{-1}\),我们可以发现它满足以上公式。

拉格朗日量

我们现在已经有了一个限制条件——狭义相对论,但这个条件还不足以使我们推导出描述自然的等式,或者说,在数学上方程的条件还不够充分。我们接下来就来讲讲另一个限制条件,其中体现的优美性和哲学思辨贯穿了整个科学史。

尽管牛顿力学之后的两百年内,物理学史都是在给这个系统做注脚,但这些注脚最终却成为了新系统的奠基石。而其中尤为重要的,便是由拉格朗日(Lagrange)和哈密尔顿(Hamilton)共同完善的分析力学。

面对工业革命的浪潮,人们发现自己越来越需要面对机器运动等极其复杂的计算,建立在笛卡尔坐标系上的牛顿力学计算已经不够用了,分析需要摆脱特定的坐标系。

我们有以下公理:

最小作用量原理:定义作用量为 \(S\),运动路径为 \(x(t)\),自然界中所有运动(变化)的正确路径都使得作用量最小,即 \(S[x(t)]\) 最小。

这条原理的发现有着悠长的历史,它似乎暗示着自然界是可以被精巧的数学原理构建的,这样的思想也被许多人作为上帝存在的证据。早在17世纪,费马(Fermat)就发现了光线总是沿着耗时最小的路径传播,这里的作用量就是时间(当然这个说法并不准确),经过莱布尼茨(Leibniz),莫佩尔蒂(Maupertius)和欧拉(Euler)等人的发展和作用量概念的提出,由哈密尔顿最终完善和公理化。

接下来,我们来看看如何从拉格朗日力学重新演绎牛顿力学。

我们定义一个拉格朗日量 \(\mathcal{L}(x, \dot{x}, t)\),使得 \(\mathcal{L} = \frac{dS}{dt}\),即作用量关于时间的微分,则有 \(S[x(t)] = \int_{t_1}^{t_2}\mathcal{L}dt\),力学的目标,就是求出正确路径 \(x(t)\) 使得 \(S\) 最小(即取得极值)。这个问题在当时是很艰难的,直到变分法的开拓,尤其是伟大的欧拉和拉格朗日的共同工作,才使得计算这些方程成为可能。我们现在暂且把这放到一边。

我们有欧拉-拉格朗日方程(推导过程见附录)

\[\frac{\partial \mathcal{L}}{\partial x} - \frac{d}{dt}(\frac{\partial \mathcal{L}}{\partial \dot{x}}) = 0\]

设拉格朗日量 \(\mathcal{L} = E_k - E_p = \frac{1}{2}m\dot{x}^2 - V(x)\),即系统动能与势能之差,代入上式得

\[-\frac{\partial V}{\partial x} = \frac{d(m\dot{x})}{dt} = m\ddot{x}\]

其中 \(\dot{x}\) 作为位置的一阶导数便是速度,而 \(\ddot{x}\) 作为二阶导数便是加速度。上式也是我们熟悉的牛顿第二定律方程。

拉格朗日力学的作用量采用能量的表示形式,独立于任何坐标表示,也使得它相较于经典力学更加优越。如果将一般的坐标概念进行推广(我们在上一节也采取了这样的思想),设一般形式的拉格朗日量 \(\mathcal{L}(q_1, q_2, q_3, ... , q_s, \dot{q}_1, \dot{q}_2, \dot{q}_3, ... , \dot{q}_s, t)\),并设 \(p = \frac{\partial \mathcal{L}}{\partial \dot{q}}\) 为广义动量(正则动量),我们只需要将该拉格朗日量代入欧拉-拉格朗日方程,就能求出一般系统的动力方程。另外地,我们会将 \(\mathcal{H} = p\dot{q} - \mathcal{L}\) 称为哈密尔顿量,如果采用 \(\mathcal{L} = E_k - E_p\),计算可得 \(\mathcal{H} = \frac{1}{2}m\dot{x}^2 + V(x)\),这也就是整个系统的能量。

运用洛伦兹变换的对称性(实际上为庞加莱(Poincare)群,我们将会在下一篇讲到)和拉格朗日量,我们就能够推导出整个经典力学,电动力学乃至量子力学和场论,无数天才的优美方程都将是这个方法论下的 Special Case。

下一篇里,我们将会聊聊随后发展的量子力学中存在的诸多问题与解决,相比较于这一篇在数学上的一定要求,下一篇将会较为亲切一点(我知道你们都不喜欢看公式x),敬请期待。

附录:欧拉-拉格朗日方程的推导

我们的目标是寻找 \(S = \int_{t_1}^{t_2}\mathcal{L}(x, \dot{x}, t)dt\) 的极小值,设极小分量 \(\epsilon(t)\),即使得

\[S' - S = \int_{t_1}^{t_2}(\mathcal{L}(x + \epsilon, \dot{x} + \dot{\epsilon}, t) - \mathcal{L}(x, \dot{x}, t))dt = 0\]

对 \(S'\) 进行泰勒展开

\[\mathcal{L}(x + \epsilon, \dot{x} + \dot{\epsilon}, t) = \mathcal{L}(x) + (x + \epsilon - x)\frac{\partial \mathcal{L}}{\partial x} + (\dot{x} + \dot{\epsilon} - \dot{x})\frac{\partial \mathcal{L}}{\partial \dot{x}} + ...\]

由于在 \(S\) 处取得极值,故我们舍弃二次以上项得

\[\int_{t_1}^{t_2}(\epsilon\frac{\partial \mathcal{L}}{\partial x} + \dot{\epsilon}\frac{\partial \mathcal{L}}{\partial \dot{x}})dt = 0\]

由分部积分得

\[\int_{t_1}^{t_2}dt\dot{\epsilon}\frac{\partial \mathcal{L}}{\partial \dot{x}} = \epsilon\frac{\partial \mathcal{L}}{\partial \dot{x}}\biggr\rvert_{t_1}^{t_2} - \int_{t_1}^{t_2}dt\epsilon\frac{d}{dt}(\frac{\partial \mathcal{L}}{\partial \dot{x}})\]

由于固定了起点和终点,因此我们有 \(\epsilon(t_1) = \epsilon(t_2) = 0\),代入得

\[\int_{t_1}^{t_2}dt\epsilon(\frac{\partial \mathcal{L}}{\partial x} - \frac{d}{dt}(\frac{\partial \mathcal{L}}{\partial \dot{x}})) = 0\]

由雷蒙引理(Du Bois-Reymond lemma)

对 \([x_1, x_2]\) 上的连续函数 \(f(x)\) 和无穷小量 \(\eta(x)\),若 \(\int_{x_1}^{x_2}\eta(x)f(x)dx = 0\) 且 \(\eta(x_1) = \eta(x_2) = 0\),我们有 \(f(x) = 0\)。

\[\frac{\partial \mathcal{L}}{\partial x} - \frac{d}{dt}(\frac{\partial \mathcal{L}}{\partial \dot{x}}) = 0\]

即欧拉-拉格朗日方程成立。

参考资料

  1. Physics from Symmetry(2nd Edition), J. Schwichtenberg, Springer, 2018.
  2. Prof Kenneth Young on A Special Lecture: Principle of Least Action, The Chinese University of Hong Kong.
  3. 最小作用量原理, 林琦焜, 數學傳播 35卷1期, 2009.
  4. Many entries on Wikipedia.