從切線到導數

最早的問題不是公式，而是切線

如果把導數放回歷史裡，它最早處理的不是『怎麼微分比較快』，而是『一條曲線在某一點的切線到底怎麼找』。這件事在幾何時代就已經很重要，因為只要你想知道曲線當下往哪個方向走，就一定會碰到它。

真正困難的地方在於，切線不是把兩個不同點連起來那麼簡單。你要的是同一點附近的方向，所以必須讓兩點間距一路縮小。這時候，導數的雛形就出現了。

今天我們寫

f'(x)=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}

看起來像教科書第一行，但它其實是把『割線趨近切線』這件事寫成精確數學。沒有這一步，後面所有微分公式都只是技巧，還不是理論。

我覺得導數最值得先記的，不是冪次公式，而是差商本身。因為差商是所有微分公式的母體。你看到

\frac{f(x+h)-f(x)}{h}

其實就是在問：當輸入多一點點時，輸出平均改變多少。

x^2

h

f(x)=x^3

\frac{(x+h)^3-x^3}{h}.

(x+h)^3

x^3+3x^2h+3xh^2+h^3.

所以分子其實是

\left(x^3+3x^2h+3xh^2+h^3\right)-x^3=3x^2h+3xh^2+h^3.

h

3x^2+3xh+h^2.

h\to 0

\frac{d}{dx}(x^3)=3x^2.

3x^2

導數公式的關鍵，不是把分子展開，而是最後那個極限。因為只要沒有極限，差商就只是平均變化率，不是瞬時變化率。

這也是為什麼微積分歷史上，極限和導數一直綁在一起。古人不是不知道可以看很近的兩點，而是沒有今天這麼成熟的語言能說清楚：『很近很近』最後到底收斂到什麼。

等到極限觀念成熟後，像

\lim_{h\to 0}\frac{(x+h)^2-x^2}{h}

這種式子才不再只是代數遊戲，而真的在代表一個幾何和物理上都有意義的量。

f(x)=x^2

\frac{(x+h)^2-x^2}{h}=\frac{x^2+2xh+h^2-x^2}{h}=\frac{2xh+h^2}{h}=2x+h.

h

h\to 0

\lim_{h\to 0}(2x+h)=2x.

也就是說，極限做的事不是裝飾，而是把『差一點點』這種直覺，收斂成某一點真正穩定的切線斜率。這就是為什麼沒有極限，導數公式就還站不住。

y

y=f(x).

f'(x)

\frac{dy}{dx}

f

牛頓比較常從運動和速度去想這件事。他關心的是，位置如果隨時間改變，那麼當下的速度怎麼表示。萊布尼茨則把記號整理得更好，像

\frac{dy}{dx}

y

例如如果

y=x^2,

那麼

\frac{dy}{dx}=2x

和

f'(x)=2x

講的是同一件事。差別只在你是把它看成一個函數在微分，還是把它看成兩個量之間的變化關係。

所以今天我們看到的導數公式，其實有兩條血統。一條是幾何裡的切線，一條是物理裡的瞬時速度。它們最後在極限語言下合流，才形成現在的導數。

這也是為什麼導數從來不是只有一種解釋。你可以把它看成斜率、速度、靈敏度，甚至局部線性近似的係數。這些角度講的是同一件事，只是視角不同。

很多公式書都從『公式表』開始，但我反而會建議先把這條記熟：

f'(x)=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}.

因為後面所有微分公式，都是這條式子配上代數整理、極限計算之後長出來的。

你如果心裡有這個來源，後面看到冪次、三角、指數、對數微分，就不會覺得它們各自是一套孤立規則，而會知道它們只是同一台引擎推出來的不同結果。

x^n