AI Builder として @riywo がどういう技術が必要だと考えているかについての記録。随時更新していく。
Andrej Karpathy の Software 3.0 の考え方でいう、3.0 のものづくりをする人。いわゆる大規模モデルの学習をさせるのは Software 2.0 の engineering であって、非常に重要だしこれからもモデルの進化に期待しつづけるが、モデルそのものを作ることが AI Builder の重要な仕事ではない (時にモデルを作ることもある。特に SLM の SFT なんかは現時点でも強力。)
Software 3.0 時代を楽しく生きる - As a Futurist...
AI を使って、これまでになかったものを作りだす、それが AI Builder。実際のところ engineering よりも、どういう outcomes を出すかが重要なので、AI Engineer よりも AI Builder と呼ばれ始めている。
ただし、だからと言って LLM 等のモデルを完全にブラックボックスで扱っているうちは、AI Builder としては限界が来る。Software Engineer が CPU や Database の中身を学ぶ様に、AI Builder として LLM の中身を知っていることには価値がある。
今日の AI の頭脳にあたる LLM について。2012 年の Deep learning (AlexNet) から始まる Deep neural network 、NLP 分野の RNN や LSTM、などが積み重なって、Transformer、そして RLHF によって ChatGPT が生まれた。何をするにも必ず学んでおかなければならない。
https://www.youtube.com/watch?v=bZQun8Y4L2A
少し古いが、ChatGPT という世界を変えた製品から、現代 AI の基礎となる学習のパイプラインを学ぶことができる。また、ここで登壇している Andrej Karpathy は業界内でもトップの影響力を誇るスーパースターなので覚えておいて損はない。
今日の AI の進化の爆発力となったいくつかの要素に関する有名な論文。これらが積みあがったことによって今日の AI の進化が起こった、どれも欠かせない要素。(自分が全部がっつり読んだという意味ではない)
世界を変えた論文。これ自身を読んでなくてもいいけど、Transformer を生み出した論文として間違いなく歴史に刻まれたものなので、覚えておく。(なお、昨今の LLM が直接この論文のアーキテクチャを使っているわけではなく、decoder only が主流なので混乱しないように。)