SignalnFlow / AI / Physical AI

테슬라 FSD는 왜 Physical AI인가: 규칙기반에서 E2E, 그리고 다시 통제로

젠슨 황의 Perception AI → Generative AI → Agentic AI → Physical AI 발전사로 테슬라 FSD의 규칙기반, E2E, 통제 레이어, Robotaxi·Optimus thesis를 성장과 유동성 관점으로 해석합니다.

Tesla FSDE2EAgentic AIPhysical AIGrowth × Liquidity

젠슨 황의 Perception AI, Generative AI, Agentic AI, Physical AI 발전사 슬라이드 — FIG. 01 — 이 글의 출발점입니다. 젠슨 황의 AI 발전사를 테슬라 FSD의 기술 전환에 대입하면, 규칙기반 자율주행은 Perception AI에서 시작해 E2E 행동 모델과 Agentic control layer를 거쳐 Physical AI로 이동합니다.

핵심 명제: 테슬라 FSD의 본질은 EV 기능이 아니라, 규칙기반 소프트웨어가 E2E 행동 모델로 바뀌고 다시 안전 통제 레이어를 갖추는 Physical AI 전환입니다.

Jensen Huang Roadmap × Tesla FSD

AI 발전사를 테슬라 기술 전환에 대입하면

Perception AISee

카메라, BEV, 차선·차량·보행자·신호등 인식. 차가 세계를 운전 가능한 공간으로 봅니다.

Generative AIGenerate behavior

E2E 모델이 다음 토큰 대신 다음 trajectory와 주행 행동을 생성합니다.

Agentic AIPlan and act

목적지, 주변 행위자, 차선 선택, 재계획이 하나의 행동 루프로 연결됩니다.

Physical AIMove matter

조향·가속·제동으로 실제 물리 세계를 움직입니다. FSD와 Optimus가 만나는 지점입니다.

Tesla Technical Shift

규칙기반에서 E2E, 그리고 다시 통제로

01 · Rules사람이 운전 규칙을 쓴다if / planner

02 · E2E모델이 좋은 운전 행동을 학습한다video → trajectory

03 · Control모델의 행동을 검증·제한·배포한다eval / guardrail

04 · Fleet Loop실패와 edge case가 다시 학습 데이터가 된다closed loop

Agentic Control Loop

FSD는 물리 세계의 에이전트 루프입니다

Perceive

카메라와 비디오로 도로·객체·공간을 봅니다.

Reason

주변 차량과 보행자의 의도를 추론합니다.

Plan

차선, 속도, 진입, 회피 궤적을 고릅니다.

Act

조향·가속·제동으로 현실에 영향을 줍니다.

Verify

결과를 다시 관찰하고 실패를 데이터화합니다.

Moat Map

기술적 해자 후보

Real-world fleet data
Edge inference와 차량 내 실시간 제어
OTA 기반 closed-loop learning
FSD → Robotaxi → Optimus 확장성

Validation Map

투자자가 확인할 숫자

FSD 개입률과 감독 필요성 감소
Robotaxi 실제 운행·승인 지역
FSD take rate와 unit economics
Optimus의 공장 내 실제 작업 성능

결론부터

테슬라의 FSD 전환은 단순히 “자율주행 소프트웨어가 좋아졌다”는 이야기가 아닙니다. 더 정확히는 규칙기반 소프트웨어가 대규모 학습 기반 행동 모델로 바뀌고, 그 행동 모델을 다시 안전하게 통제·검증·배포하는 과정입니다.

이 구조는 GPT가 기존 규칙형 NLP와 검색 보조 도구를 넘어 Agentic AI로 이동한 과정과 매우 닮아 있습니다. 차이는 하나입니다. GPT는 텍스트 공간에서 행동하지만, 테슬라 FSD는 자동차라는 물리 시스템을 움직입니다. 그래서 테슬라는 젠슨 황이 말한 Physical AI의 가장 대표적인 공개 사례 중 하나로 볼 수 있습니다.

단, 이 글은 FSD가 이미 완전 무감독 자율주행을 상업적으로 완성했다는 뜻으로 쓰지 않습니다. 테슬라의 공식 제품명은 여전히 Full Self-Driving Supervised입니다. 핵심은 완성 선언이 아니라 기술 패러다임의 방향입니다.

1. 젠슨 황의 AI 발전사

첨부 이미지의 구조는 대략 이 흐름입니다.

단계	의미	예시
Perception AI	세상을 인식하는 AI	음성인식, 추천, 의료영상, 객체인식
Generative AI	텍스트·이미지·코드·콘텐츠를 생성하는 AI	ChatGPT, 이미지 생성, 콘텐츠 제작
Agentic AI	목표를 받고 추론·계획·행동하는 AI	코딩 에이전트, 고객응대, 업무 자동화
Physical AI	물리 세계에서 보고, 판단하고, 움직이는 AI	자율주행차, 로봇, 휴머노이드

NVIDIA/CES 2025 관련 보도에서도 젠슨 황은 AI가 perceive, reason, plan and act 하는 방향으로 가고, 다음 단계가 Physical AI라고 설명했습니다. 즉 핵심은 단순 생성이 아니라 행동하는 지능입니다.

2. 테슬라 FSD를 이 발전사에 대입하면

Perception AI: 차가 세상을 보기 시작한 시기

초기 FSD/오토파일럿의 핵심은 카메라로 세상을 인식하는 것이었습니다. 테슬라 공식 AI 페이지도 자율주행 네트워크가 카메라 이미지 분석, semantic segmentation, 객체 탐지, monocular depth 추정, bird’s-eye-view 기반 도로 구조·정적 인프라·3D 객체 인식, fleet에서 수집한 복잡한 시나리오 반복 학습을 수행한다고 설명합니다.

이 단계는 젠슨 황의 Perception AI와 거의 일치합니다. 초기 테슬라 FSD의 질문은 “차가 도로, 차선, 보행자, 신호등, 차량, 장애물을 얼마나 잘 보는가?”였습니다. 이때까지 AI는 주로 센서 해석기였습니다. 사람 운전으로 치면 눈과 공간 인식을 만드는 단계입니다.

규칙기반 단계: AI가 보고, 사람이 짠 코드가 운전하는 구조

초기 자율주행 스택은 보통 이렇게 나뉩니다.

카메라/센서 입력 → 인식 AI → 객체/차선/신호/도로구조 → 사람이 짠 규칙 기반 planner → 제어 코드 → 조향/가속/제동.

즉 AI는 세상을 보는 역할을 하고, 실제 판단은 많은 경우 사람이 짠 규칙이 담당했습니다. 차선 중앙 유지, 앞차와 거리 유지, 빨간 신호 정지, 보행자 감지 시 정지, 특정 조건에서 비보호 좌회전 진입 같은 규칙입니다.

문제는 현실 도로가 너무 복잡하다는 점입니다. 애매한 차선, 공사구간, 이중주차, 끼어드는 차량, 손짓하는 보행자, 비보호 좌회전, 회전교차로, 좁은 골목, 지역별 운전 관습이 모두 예외입니다. 규칙을 계속 추가하면 좋아지는 듯하다가 어느 순간 규칙의 숲이 됩니다.

이건 GPT 이전의 AI와도 비슷합니다. 예전 NLP는 문법 규칙, 사전, 패턴 매칭, 분류기를 계속 쌓았습니다. 그런데 언어가 너무 복잡해서 결국 대규모 데이터 기반 모델이 이겼습니다. 테슬라의 도심 FSD도 같은 벽을 만난 셈입니다.

3. E2E 전환: 운전 규칙을 쓰는 게 아니라 운전 행동 자체를 학습한다

테슬라 FSD v12 이후의 핵심 변화는 흔히 end-to-end neural network로 설명됩니다. 개념적으로는 다음과 같습니다.

기존 방식은 카메라 → 인식 → 사람이 짠 planner/rules → 제어였습니다. E2E 방식은 카메라·비디오 입력 → 신경망 → 주행 trajectory 또는 조향·가감속 판단입니다.

이 변화의 의미는 큽니다. 기존에는 사람이 “이런 상황이면 이렇게 해”라고 말했습니다. E2E는 “수많은 인간 운전 데이터를 보고, 좋은 운전자가 이 상황에서 어떻게 행동하는지 배워”로 바뀝니다.

이게 바로 GPT식 전환과 닮은 부분입니다.

GPT/LLM	테슬라 FSD
사람이 문법 규칙을 일일이 코딩하지 않음	사람이 운전 규칙을 일일이 코딩하지 않음
대규모 텍스트 데이터로 다음 토큰을 학습	대규모 주행 영상/행동 데이터로 다음 주행 행동을 학습
문맥을 보고 자연스러운 답을 생성	도로 맥락을 보고 자연스러운 trajectory를 생성
사전 규칙보다 데이터 분포를 학습	수동 규칙보다 실제 운전 분포를 학습
언어 생성에서 문제 해결 에이전트로 확장	차선 유지에서 도심 주행 에이전트로 확장

즉 규칙기반에서 E2E로 넘어가는 과정은 GPT가 기존 소프트웨어/검색/규칙형 AI를 대체한 과정과 구조적으로 닮았습니다.

4. 진짜 핵심은 E2E 성공 후 다시 통제하는 과정이다

여기가 가장 중요합니다. 많은 사람이 E2E를 “신경망이 마음대로 운전하는 것”으로 오해합니다. 하지만 진짜 고급 단계는 E2E 모델을 만든 뒤, 그것을 어떻게 통제·검증·배포·감독하느냐입니다.

초기 GPT는 질문 → 답변 생성이었습니다. Agentic AI는 목표 입력 → 상황 이해 → 계획 수립 → 도구 사용 → 실행 → 결과 확인 → 오류 수정 → 재실행입니다. 그러면 문제가 생깁니다. 잘못된 행동을 하면 어떻게 할 것인가, 도구를 엉뚱하게 쓰면 어떻게 할 것인가, hallucination을 실행으로 옮기면 어떻게 할 것인가, 실패했는데 성공한 척하면 어떻게 할 것인가.

그래서 에이전트 AI에는 guardrail, tool permission, verification, rollback, human-in-the-loop, sandbox, evaluation, memory/control plane이 필요합니다. 생성 능력보다 통제 능력이 중요해지는 것입니다.

FSD E2E도 본질적으로는 주행 행동 생성 모델입니다. 하지만 자동차는 물리 세계에서 움직입니다. 틀린 답변을 하는 GPT보다 훨씬 위험합니다. 그래서 테슬라의 진짜 기술적 과제는 “운전 신경망을 만들었다”가 아니라 “그 신경망이 실제 도로에서 행동할 때, 어떻게 검증하고, 제한하고, 평가하고, 업데이트하고, 실패를 수집하고, 다시 학습시키느냐”입니다.

5. 젠슨 황 단계별로 본 테슬라

1단계는 Perception AI입니다. 카메라 기반 인식, 차선·차량·보행자·신호등 인식, 3D 공간 이해, bird’s-eye-view, occupancy network, multi-camera video understanding이 여기에 속합니다. 이 단계의 가치는 차가 세계를 픽셀 단위가 아니라 운전 가능한 공간으로 이해한다는 점입니다.

2단계는 넓은 의미의 Generative AI입니다. 테슬라의 E2E FSD는 이미지를 만드는 생성 AI는 아니지만, 행동 생성 모델에 가깝습니다. 생성형 AI가 다음 토큰을 예측한다면, FSD는 다음 주행 궤적, 감속 시점, 차선 변경, 정지, 진입, 도로 상황에서 자연스러운 운전 행동을 예측합니다.

3단계는 Agentic AI입니다. 자율주행은 단순 반응 시스템이 아닙니다. 목적지를 받고, 현재 위치를 파악하고, 경로를 이해하고, 차선을 선택하고, 교차로를 판단하고, 주변 차량 의도를 추론하고, 보행자를 예측하고, 실패 시 재계획합니다. 이는 전형적인 perceive → reason → plan → act → observe → re-plan 루프입니다.

4단계는 Physical AI입니다. 첨부 이미지에서 Physical AI의 예시는 self-driving cars와 general robotics입니다. 테슬라는 둘 다 하고 있습니다. FSD/Robotaxi는 자율주행차이고, Optimus는 범용 로봇입니다. 테슬라 공식 AI 페이지도 차량, 로봇, 그 이상의 시스템에서 autonomy를 배포한다고 설명합니다.

6. 규칙기반 → E2E → 재통제가 왜 에이전트 AI와 같은 기술과정인가

핵심은 명시적 소프트웨어에서 확률적 정책 모델로 넘어가면, 통제 레이어가 더 중요해진다는 점입니다.

구분	과거 규칙기반	E2E / Agentic / Physical AI
핵심 자산	코드	데이터 + 모델 + 평가체계
개선 방식	규칙 추가	데이터 수집, 학습, post-training, eval
실패 원인	코드 로직 오류	분포 밖 상황, 데이터 편향, 평가 부족
통제 방식	if문, 예외처리	guardrail, simulator, replay, human feedback, fleet evaluation
배포 방식	버전 업데이트	모델 업데이트 + 안전 검증
확장성	예외가 늘수록 복잡	데이터와 compute가 늘수록 개선 가능

이 구조는 GPT 에이전트와 FSD가 거의 같습니다. GPT 에이전트도 단순 프롬프트만으로는 부족합니다. 도구 접근 권한, 실행 로그, 검증 루프, 실패 복구, 안전 제한, 사용자 승인, 메모리 관리, 테스트셋/evaluation이 필요합니다. FSD도 차량 센서 입력, fleet data, simulation/replay, intervention data, safety monitor, 운전자 감독, OTA rollout, edge case mining, 대규모 평가가 필요합니다.

결국 두 분야 모두 모델 자체보다 모델을 둘러싼 운영체계가 경쟁력이 됩니다.

7. 테슬라를 운전하는 GPT라고 부르면 어디까지 맞고 어디서 틀리나

맞는 부분은 분명합니다. 테슬라 FSD는 GPT와 비슷하게 대규모 데이터로 학습하고, 사람이 모든 규칙을 쓰지 않으며, 맥락을 이해하고, 다음 행동을 생성하고, feedback loop로 개선되며, 점점 더 일반화된 문제 해결 시스템으로 이동합니다. 그래서 “운전판 GPT”라는 표현은 투자적·기술적 비유로는 유효합니다.

하지만 차이도 큽니다.

GPT	FSD
언어 공간	물리 공간
틀린 답변의 비용이 낮음	틀린 행동의 비용이 매우 높음
사후 수정 가능	사고는 되돌리기 어려움
latency 비교적 여유	실시간 제어 필요
output은 텍스트	output은 조향/가속/제동
평가가 어렵지만 비교적 유연	안전성·규제·책임 문제가 큼

따라서 정확한 표현은 이렇습니다. 테슬라 FSD는 GPT식 대규모 학습 패러다임을 물리 세계의 실시간 제어 문제에 적용한 사례입니다.

8. 테슬라의 기술 변화를 한 문장으로 정리하면

테슬라 FSD의 변화는 이렇게 요약할 수 있습니다.

카메라로 도로를 인식하는 Perception AI에서 출발해, 인간 운전 데이터를 학습하는 E2E 행동 생성 모델로 넘어갔고, 이제는 그 모델을 안전하게 계획·행동·검증하는 Agentic/Physical AI 시스템으로 통제하는 단계로 가고 있습니다.

투자 thesis처럼 쓰면 다음과 같습니다. 테슬라의 핵심 전환은 EV 제조사가 아니라, 현실 세계의 행동 데이터를 가진 Physical AI 회사로 재정의되는 과정입니다. FSD는 자동차용 AI 제품이면서 동시에 Optimus와 Robotaxi로 확장될 수 있는 embodied intelligence의 훈련장입니다.

9. 이 관점에서 테슬라의 기술적 moat

이 thesis가 맞다면 테슬라의 해자는 단순히 전기차를 많이 판다는 점이 아닙니다.

첫째, real-world fleet data입니다. 수많은 차량이 실제 도로에서 데이터를 만듭니다. Physical AI에서는 인터넷 텍스트보다 현실 세계 행동 데이터가 중요합니다.

둘째, edge inference입니다. 차 안에서 실시간으로 판단해야 합니다. 클라우드 AI와 달리 latency, 전력, 비용, 안정성이 중요합니다.

셋째, closed-loop learning입니다. 차량 운행 → 어려운 상황 수집 → 학습 데이터화 → 모델 개선 → OTA 배포 → 다시 차량 운행의 루프가 강하면 시간이 지날수록 모델이 좋아질 수 있습니다.

넷째, FSD → Robotaxi → Optimus 확장성입니다. 자율주행에서 풀어야 하는 문제와 로봇에서 풀어야 하는 문제는 perception, spatial understanding, motion planning, control, simulation, real-world feedback, edge inference, safety에서 겹칩니다.

10. 투자적으로 중요한 관찰 포인트

이 thesis를 투자 관점으로 바꾸면, 테슬라의 핵심 질문은 더 이상 전기차 판매량만이 아닙니다. 물론 단기 실적에서는 판매량, 마진, 가격 인하, 경쟁 심화가 중요합니다. 하지만 장기 thesis는 다음으로 이동합니다.

기술 thesis는 테슬라가 FSD에서 규칙기반을 넘어 E2E/agentic physical AI로 확장할 수 있는가입니다. 사업 thesis는 이 기술이 Robotaxi, FSD subscription/licensing, Optimus로 수익화될 수 있는가입니다. 평안투식으로 보면 성장은 Physical AI가 열어줄 새로운 생산성·서비스 매출의 가능성이고, 유동성은 그 가능성을 시장이 어느 할인율과 어느 시간축으로 가격에 반영하느냐입니다.

검증 지표는 FSD 개입률 감소, 운전자 감독 필요성 감소, 도시별·국가별 일반화 성능, regulatory approval, Robotaxi 실제 운행 지역 확대, FSD take rate, FSD/Robotaxi unit economics, Optimus의 실제 공장 내 작업 성능, AI training/inference 비용 대비 성능 개선입니다.

리스크는 E2E 모델의 long-tail safety 검증 난이도, 규제 승인 지연, 사고 발생 시 신뢰 훼손, Waymo 등 LiDAR/HD map 기반 접근과의 경쟁, EV 본업 마진 압박, 로봇/Robotaxi 상용화 시점 지연입니다.

최종 정리

테슬라는 규칙기반 자율주행 소프트웨어에서 E2E neural policy로 넘어가며, GPT가 규칙형 NLP를 대체한 것과 유사한 전환을 겪었습니다. 그러나 진짜 차별점은 E2E 모델 자체가 아니라, 그 모델을 실제 도로에서 안전하게 통제·검증·개선하는 agentic control layer에 있습니다.

이 과정을 자동차라는 물리 시스템에서 구현하는 순간, 테슬라 FSD는 젠슨 황이 말한 Physical AI의 대표 사례가 됩니다. 그래서 테슬라를 단순 EV 회사가 아니라 Physical AI transition company로 보는 프레임은 설득력이 있습니다.

다만 투자 판단에서는 문장을 하나 더 붙여야 합니다. 기술 방향은 맞아 보이지만, 시장이 가격에 반영하는 것은 “언젠가 될 가능성”이 아니라 “감독 없는 자율주행, Robotaxi, Optimus가 실제 현금흐름으로 전환되는 속도”입니다.

즉 테슬라 thesis의 본질은 EV 제조업체인가, 아니면 현실 세계의 GPT, 즉 Physical AI 플랫폼인가입니다. 앞으로의 주가와 기업가치 핵심은 이 질문에 대한 시장의 확신이 얼마나 빨리 높아지느냐에 달려 있습니다.

Sources

확인한 공개 자료

이 글은 젠슨 황의 AI 발전사에 대한 공개 보도, Tesla AI & Robotics 공식 설명, Tesla Full Self-Driving Supervised 공식 페이지를 기준으로 기술 전환을 해석한 글입니다. 개별 종목의 매수·매도 판단이 아니라, AI 발전사와 테슬라 기술 thesis의 구조적 연결을 설명합니다.

English version: Read the English version