테슬라 AI 과학에서의 기술력: FSD가 보여준 비전-제어 지능
테슬라 FSD의 기술적 의미는 차가 스스로 간다는 데 있지 않습니다. 고차원 시각 입력을 현실 세계의 장기 폐루프 제어로 바꾸는 신경망 시스템이라는 점에 있습니다.
핵심 명제: FSD의 AI 과학적 의미는 “운전 기능”이 아니라, 카메라 비전이 시간 예측·의도 추론·행동 정책·폐루프 제어로 이어지는 통합 신경망 시스템이라는 점입니다.
픽셀에서 조향까지, 중간에 있는 네 개의 난제
차선, 차량, 보행자, 도로 구조, 점유 공간을 운전 가능한 표현으로 압축합니다.
주변 행위자의 다음 움직임과 몇 초 뒤 상호작용을 예측합니다.
정답 하나가 아닌 상황에서 안전하고 자연스러운 trajectory를 고릅니다.
조향·가속·제동으로 세계를 바꾸고 다시 관찰합니다.
FSD는 물리 세계의 에이전트 루프입니다
카메라 비디오로 도로와 객체를 봅니다.
차량·보행자의 암묵적 의도를 추론합니다.
속도, 차선, 회피, 진입 궤적을 선택합니다.
물리 세계에서 조향·가감속을 실행합니다.
실패와 edge case가 다시 학습 루프로 돌아갑니다.
규칙기반 자율주행과 신경망 기반 FSD의 차이
결론부터
테슬라 FSD가 AI 과학적으로 흥미로운 이유는 “차가 스스로 움직인다”는 표면에 있지 않습니다. 더 정확히는 고차원 시각 입력을 장기 폐루프 제어로 변환하는 신경망 시스템이라는 점에 있습니다. 카메라가 보는 픽셀은 원래 조향각이나 브레이크 명령이 아닙니다. 그 사이에는 공간 이해, 시간 예측, 다중 에이전트 상호작용, 의도 추론, 위험도 평가, 경로 선택, 제어 안정성이 모두 들어갑니다.
그래서 FSD를 단순 운전자 보조 기능으로만 보면 핵심을 놓칩니다. AI 과학자의 눈에는 FSD가 vision model, world model, behavior policy, control system, fleet learning loop가 하나의 제품 안에서 결합되는 매우 드문 실험장으로 보입니다. 언어모델이 인간 지식과 언어 패턴의 압축 가능성을 보여줬다면, FSD는 현실 세계의 시각·행동·물리 제어가 신경망 안에 얼마나 압축될 수 있는지를 보여주는 사례입니다.
물론 이 글은 FSD가 이미 무감독 완전자율주행을 완성했다는 뜻으로 쓰지 않습니다. 테슬라의 공식 제품명은 여전히 Full Self-Driving (Supervised)이고, 운전자의 적극적 감독이 필요합니다. 다만 기술 방향만 놓고 보면, FSD는 AI가 실험실 벤치마크를 넘어 물리 세계에서 책임 있는 행동을 시작하는 장면에 가깝습니다.
왜 운전은 일반적인 AI 문제보다 어렵나
이미지 분류는 한 장의 사진에 이름을 붙이는 문제입니다. 언어모델은 문맥을 보고 다음 토큰을 예측합니다. 둘 다 매우 어렵지만, 입력과 출력의 경계가 비교적 명확합니다. 운전은 다릅니다. 운전 AI는 부분적으로만 관측되는 세계 안에서, 서로 다른 의도를 가진 인간·차량·보행자가 동시에 움직이는 장면을 계속 해석해야 합니다.
차선은 흐려질 수 있습니다. 보행자는 건널 듯 말 듯 움직입니다. 옆 차는 깜빡이를 켜지 않고 차선을 바꾸기도 합니다. 공사 구간의 임시 표식은 지도와 다를 수 있습니다. 교차로에서는 법규뿐 아니라 암묵적 양보와 지역적 운전 관습도 작동합니다. 이 모든 것이 단일 프레임이 아니라 시간에 따라 바뀝니다.
즉 FSD가 푸는 문제는 “표지판 인식”이 아닙니다. 그것은 부분 관측된 다중 에이전트 세계에서, 미래 몇 초의 상호작용을 예측하고, 안전한 행동을 실시간으로 선택하는 문제입니다. 컴퓨터 비전, 시계열 예측, 제어 이론, 로보틱스, 강화학습, 인간 의도 추론이 한 지점에서 만납니다.
비전에서 제어까지의 거리를 줄이는 일
전통적인 자율주행 접근은 대개 인식, 지도화, 객체 추적, 경로 계획, 제어를 모듈로 나눕니다. 이 방식은 해석과 디버깅이 쉽습니다. 하지만 현실의 예외가 많아질수록 모듈 사이의 경계가 문제를 만듭니다. 인식 모듈이 “차량”이라고 판단했지만 planner가 그 차의 의도를 제대로 반영하지 못할 수 있고, 경로 계획은 맞지만 제어가 보수적이거나 과감할 수 있습니다.
테슬라 FSD가 보여주는 방향은 이 경계를 점점 줄이는 쪽입니다. 카메라와 비디오 입력에서 출발해 도로 구조, 객체, 점유 공간, 주변 행위자의 움직임, 주행 가능 영역, 후보 trajectory를 더 연속적인 표현 공간에서 다루려 합니다. 이것은 perception과 policy를 완전히 분리할 수 있다는 오래된 가정을 약화시킵니다.
인간 운전자도 사실 모든 장면을 기호 규칙으로 분해해 운전하지 않습니다. 우리는 도로 위 장면을 보자마자 “저 차는 들어올 것 같다”, “저 보행자는 아직 멈추지 않았다”, “지금은 브레이크가 먼저다” 같은 행동 관련 표현을 형성합니다. FSD가 대단한 이유는 이와 유사한 visuomotor intelligence, 즉 보는 능력과 움직이는 능력의 결합이 대규모 신경망 안에서 실용 제품 형태로 나타나고 있다는 점입니다.
정답이 하나가 아닌 세계에서 행동을 학습한다
운전에는 정답 라벨이 하나만 있지 않습니다. 같은 교차로에서도 멈추는 선택, 천천히 진입하는 선택, 상대 차량의 속도를 보고 먼저 통과하는 선택이 모두 상황에 따라 합리적일 수 있습니다. 중요한 것은 지금의 조향·가속·감속이 몇 초 뒤 세계를 어떻게 바꾸느냐입니다.
그래서 FSD는 순간 분류기가 아니라 장기 폐루프 정책 학습 문제입니다. 지금 0.2초 늦게 브레이크를 밟으면 후방 차량의 반응이 바뀌고, 2초 뒤 차선 합류 위치가 바뀌며, 10초 뒤 전체 교통 흐름 속 위치가 달라질 수 있습니다. 행동은 세계를 바꾸고, 바뀐 세계가 다시 다음 입력으로 돌아옵니다.
이 점에서 FSD는 next-token prediction보다 물리적으로 더 엄격한 next-action prediction입니다. 틀린 토큰은 문장이 어색해지는 것으로 끝날 수 있지만, 틀린 제어는 실제 위험을 만듭니다. 그래서 성능뿐 아니라 불확실성, 보수성, 실패 감지, 감독 구조가 같이 중요해집니다.
Long-tail을 사람이 코딩하지 않고 학습하려는 시도
자율주행에서 쉬운 95%는 상대적으로 빨리 좋아질 수 있습니다. 맑은 날, 선명한 차선, 규칙적인 교통 흐름에서는 시스템이 안정적으로 보일 수 있습니다. 진짜 문제는 나머지 5%, 혹은 0.1%의 긴 꼬리입니다. 애매한 공사 구간, 불법 주정차 사이의 보행자, 차선을 물고 달리는 오토바이, 지도와 실제 도로 구조의 불일치, 신호와 사람의 수신호가 충돌하는 상황이 여기에 속합니다.
규칙 기반 시스템은 이런 상황마다 예외를 추가해야 합니다. 하지만 예외가 늘어날수록 규칙은 서로 충돌하고, 시스템은 점점 더 취약해집니다. FSD의 기술적 야심은 이 long-tail을 사람이 끝없이 코딩하는 대신, 대규모 실제 주행 데이터와 fleet feedback loop로 흡수하겠다는 것입니다.
이것이 성공한다면 의미는 자율주행을 넘어섭니다. 현실 세계 AI에서 가장 어려운 문제 중 하나는 “드물지만 매우 중요한 예외를 어떻게 학습하고 검증할 것인가”입니다. FSD는 그 문제를 공개 도로라는 극단적으로 복잡한 실험장에서 풀고 있습니다.
다중 에이전트 의도 추론
FSD가 기술적으로 흥미로운 또 다른 이유는, 도로가 단순한 물리 공간이 아니라 사회적 상호작용 공간이기 때문입니다. 차량과 보행자는 물체이지만 동시에 의도를 가진 행위자입니다. 옆 차가 정말 차선을 바꿀지, 보행자가 횡단보도로 들어올지, 앞차가 불법 주정차인지 일시정지인지, 상대 운전자가 양보할지 밀고 들어올지는 물체 검출만으로 풀리지 않습니다.
이 문제는 intent inference입니다. 인간 사회의 많은 행동은 명시적 규칙보다 미세한 신호로 움직입니다. 차체의 기울기, 속도의 미묘한 변화, 보행자의 시선과 보폭, 교차로에서의 머뭇거림이 모두 의도 신호가 됩니다. 만약 FSD가 이런 패턴을 점점 더 잘 다룬다면, 그것은 AI가 현실 세계의 사회적 동역학을 통계적으로 학습하고 있다는 강한 증거입니다.
FSD는 embodied AI의 실험장이다
많은 AI 시스템은 화면 안에서만 존재합니다. 텍스트를 만들고, 이미지를 생성하고, 코드를 작성합니다. 반면 FSD는 물리 세계에 연결됩니다. 입력은 실제 광자, 카메라, 노이즈, 날씨, 반사광, 도로 상태에서 오고, 출력은 조향·가속·제동이라는 물리적 힘이 됩니다.
이 구조는 AI 연구에서 말하는 embodied intelligence의 핵심입니다. 에이전트는 세계를 관찰하고, 행동하고, 그 결과를 다시 관찰합니다. NVIDIA가 CES 2025에서 “perceive, reason, plan and act”하는 physical AI를 언급한 것도 같은 맥락입니다. FSD는 바로 이 루프를 자동차라는 물리 시스템에서 수행합니다.
특히 갑작스러운 위험 회피 사례가 인상적인 이유도 여기에 있습니다. 그런 장면은 단순히 “사람을 인식했다”가 아닙니다. 짧은 시간 안에 보행자의 위치·속도·가능 궤적, 차량의 현재 운동량, 주변 차의 위치, 회피 공간, 급제동의 후방 위험, 노면 조건을 통합해 하나의 제어 결정을 내렸다는 뜻입니다. 이것은 비전 문제이면서 동시에 제어 문제입니다.
기술적으로 진짜 어려운 것은 성능 이후의 검증이다
대규모 신경망 기반 제어 시스템은 좋아질수록 더 어려운 질문을 만듭니다. 어디서 실패하는가. 분포 밖 상황에서 과신하지 않는가. 실패를 사전에 감지할 수 있는가. 불확실성을 어떻게 표현하는가. 정책 업데이트가 실제 도로 안전성을 악화시키지 않는다는 것을 어떻게 검증하는가.
FSD의 핵심 경쟁력은 모델 하나만이 아닙니다. 실제 경쟁력은 데이터 수집, edge-case mining, simulation/replay, evaluation, fleet 배포, 운전자 감독, OTA 업데이트, 실패 사례 학습이 연결된 운영체계에 있습니다. 언어모델의 시대에도 모델만큼 중요한 것이 eval과 agent control layer인 것처럼, FSD에서도 model policy만큼 중요한 것이 검증과 통제의 운영체계입니다.
여기서 중요한 것은 “평균적으로 잘한다”와 “안전 임계 시스템으로 배포할 수 있다” 사이의 간극입니다. 일반 소비자용 AI 제품은 평균 품질이 높아지면 사용성이 크게 개선됩니다. 하지만 자동차 제어 시스템은 평균 성능만으로는 부족합니다. 드문 실패가 치명적일 수 있기 때문입니다. 따라서 FSD의 과학적 과제는 모델의 평균 주행 품질을 높이는 일과 동시에, 실패 확률의 꼬리를 얇게 만들고, 실패가 발생하기 전에 위험을 감지하며, 불확실한 상황에서는 충분히 보수적으로 행동하도록 만드는 일입니다.
또 하나의 난점은 평가 데이터의 성격입니다. 이미지 분류 벤치마크는 고정된 테스트셋에서 정확도를 계산할 수 있습니다. 하지만 운전은 폐루프입니다. 같은 초기 장면에서도 AI가 약간 다르게 움직이면 그 뒤의 세계가 달라져 버립니다. 따라서 좋은 평가는 단순히 “이 프레임에서 무엇을 했어야 하는가”가 아니라, “이 행동이 이후 세계의 위험 분포를 어떻게 바꾸는가”를 봐야 합니다. 이것이 자율주행 평가가 어려운 이유입니다.
테슬라가 fleet 기반 접근을 강조하는 이유도 여기에 있습니다. 많은 실제 주행 장면은 long-tail을 더 빨리 발견하게 해줍니다. 반대로 그 데이터가 곧바로 안전성을 증명하는 것은 아닙니다. 데이터는 원료이고, 안전성은 원료를 어떻게 선별·재현·평가·배포하느냐에서 나옵니다. 그래서 FSD의 핵심은 “데이터가 많다”가 아니라, 데이터가 모델 개선과 검증 루프로 얼마나 잘 닫히느냐입니다.
AI 과학의 관점에서 본 테슬라 기술력
테슬라의 기술력을 “전기차 제조 기술”로만 보면 FSD의 의미를 과소평가하게 됩니다. FSD는 다음 네 가지를 동시에 요구합니다.
| 기술 축 | FSD에서의 의미 | 왜 어려운가 |
|---|---|---|
| 고차원 시각 표현 | 카메라 비디오를 공간·객체·도로 구조로 압축 | 날씨, 반사, 가림, 차선 훼손, 지역 차이가 큼 |
| 시간 예측 | 주변 행위자의 다음 움직임을 예측 | 인간 의도와 상호작용이 불확실함 |
| 행동 정책 | 안전하고 자연스러운 trajectory를 선택 | 정답이 하나가 아니고 장기 결과가 중요함 |
| 폐루프 제어 | 조향·가속·감속으로 세계를 바꾸고 재관찰 | 작은 제어 차이가 이후 상황을 크게 바꿈 |
이 네 가지가 결합될 때 FSD는 단순 기능이 아니라 현실 세계 AI 시스템이 됩니다. 이것은 로봇 일반화와도 연결됩니다. 도로는 현실 세계 중 비교적 구조화된 공간이지만, 충분히 복잡하고 위험하며 예외가 많습니다. AI가 이 공간에서 안정적인 시각-행동 정책을 학습할 수 있다면, 그 원리는 물류 로봇, 드론, 산업 자동화, 휴머노이드, 가정용 로봇으로 확장될 수 있습니다.
투자 해석: 성장은 크지만, 가격은 검증 속도를 요구한다
평안투식으로 보면 테슬라 FSD의 성장 축은 명확합니다. FSD가 단순 ADAS를 넘어 Robotaxi, FSD 구독, licensing, Optimus로 연결된다면 테슬라는 EV 제조업체가 아니라 현실 세계 행동 데이터를 가진 Physical AI 플랫폼으로 재정의될 수 있습니다. 이것은 성장의 질을 바꾸는 thesis입니다.
반대로 유동성 축에서는 다른 문제가 생깁니다. 시장은 가능성을 먼저 가격에 반영할 수 있지만, 높은 기대는 높은 검증 속도를 요구합니다. 감독 없는 자율주행, 지역 확장, 규제 승인, 실제 Robotaxi 운행, intervention rate 감소, unit economics, 보험·책임 구조가 확인되지 않으면 기술적 감탄과 주가의 지속적 재평가는 분리될 수 있습니다.
따라서 테슬라를 볼 때는 기업·가격·타이밍을 나눠야 합니다. 기업 thesis는 FSD가 Physical AI 플랫폼의 훈련장이라는 점에서 강합니다. 가격 thesis는 그 기대가 이미 얼마나 반영됐는지를 봐야 합니다. 타이밍 thesis는 기술 시연이 아니라 규제와 상업화 지표가 언제 현금흐름으로 바뀌는지에 달려 있습니다.
이 구분이 중요한 이유는 좋은 기술과 좋은 투자 시점이 항상 같지 않기 때문입니다. 기업 측면에서는 FSD가 실제 세계 행동 데이터를 축적하고, edge inference를 개선하며, Robotaxi와 Optimus로 확장될 가능성이 핵심입니다. 가격 측면에서는 시장이 그 가능성을 이미 높은 멀티플로 선반영했는지 확인해야 합니다. 타이밍 측면에서는 “기술적으로 가능해 보인다”와 “규제·보험·책임·운영 비용을 통과해 반복 가능한 매출이 된다” 사이의 시간을 봐야 합니다. FSD가 AI 과학적으로 대단하다는 판단은 성장 thesis를 강화하지만, 매수 시점은 여전히 유동성, 밸류에이션, 검증 속도의 함수입니다.
독자가 확인해야 할 체크리스트
FSD를 기술적으로 평가할 때는 인상적인 영상 하나보다 반복 가능한 지표를 봐야 합니다. 첫째, 개입률이 실제로 줄고 있는지 봐야 합니다. 둘째, 특정 도시나 도로 조건에서만 잘하는 것이 아니라 다른 지역·날씨·교통 문화에서도 일반화되는지 봐야 합니다. 셋째, 운전자 감독이 필요한 구조가 얼마나 줄어드는지 확인해야 합니다. 넷째, 사고나 near-miss가 발생했을 때 시스템이 어떤 방식으로 재학습하고 재배포되는지 봐야 합니다. 다섯째, 기술 성능이 Robotaxi나 구독 매출 같은 경제적 결과로 이어지는지 확인해야 합니다.
여기서 인지편향도 조심해야 합니다. FSD가 위험을 멋지게 피하는 영상은 강한 인상을 줍니다. 하지만 투자 판단은 대표성 편향에 빠지면 안 됩니다. 반대로 한 번의 실패 영상만으로 전체 기술 경로를 부정하는 것도 위험합니다. 중요한 것은 단일 사례가 아니라 분포입니다. 좋은 질문은 “이 장면이 놀라운가”가 아니라, “이런 장면이 전체 주행 분포에서 얼마나 자주, 얼마나 안정적으로 처리되는가”입니다.
Soft warning도 분명합니다. 기술이 좋아 보이더라도, 규제 승인 지연, 안전성 논란, 상업화 지연, EV 본업 마진 악화가 동시에 나타나면 시장의 할인율은 다시 올라갈 수 있습니다. 이 경우 성장 thesis가 유지돼도 주가는 오래 쉬어갈 수 있습니다. 반대로 실제 무감독 운행 범위 확대, 개입률의 구조적 감소, Robotaxi 단위경제성 확인이 함께 나오면 기술 감탄은 더 강한 기업가치 논리로 바뀔 수 있습니다.
최종 정리
FSD의 위대함은 “자동차가 혼자 간다”는 문장보다 훨씬 기술적입니다. 더 정확히 말하면 이렇습니다.
FSD는 고차원 시각 입력을 통해 세계의 공간적·시간적 구조를 학습하고, 다중 에이전트 환경에서 인간의 암묵적 행동 패턴을 예측하며, 그 예측을 실시간 물리 제어로 변환하는 대규모 신경망 시스템입니다.
시각도 어렵고, 시간도 어렵고, 다중 에이전트도 어렵고, 인간 의도 추론도 어렵고, 제어도 어렵고, 안전 검증도 어렵습니다. FSD가 대단한 이유는 그중 하나를 잘해서가 아니라, 이 모든 난제를 하나의 작동하는 시스템 안에서 동시에 밀어붙이고 있기 때문입니다.
아직 완성된 답은 아닙니다. 그러나 AI 과학의 관점에서 FSD는 현실 세계 AI가 어디로 가고 있는지 보여주는 강력한 신호입니다. 언어모델이 소프트웨어 세계의 지능을 바꾸고 있다면, FSD는 물리 세계의 행동 지능이 어떤 방식으로 등장할 수 있는지를 보여줍니다.
텔레그램: https://t.me/signalandflow
확인한 공개 자료
이 글은 Tesla의 Full Self-Driving (Supervised) 및 AI & Robotics 공식 페이지, NVIDIA CES 2025 공개 블로그의 Physical AI 설명을 기준으로 기술 전환을 해석한 글입니다. Tesla 공식 페이지는 접근 제한으로 본문 전체를 자동 추출하지 못했으나, 공개 검색 결과와 공식 URL을 근거 링크로 함께 제시합니다.
English version: Read the English version
