Zum Hauptinhalt springen

Masterand (all genders) - Semantic 4D Occupancy Forecasting

Karlsruhe, Augsburg, Berlin, Erlangen, Ingolstadt, Krumbach, Leipzig...
Voll- oder Teilzeit
Praktikum/Werkstudium

Kurzbeschreibung

Die semantische 4D-Belegungsvorhersage (Semantic 4D Occupancy Forecasting) ist von entscheidender Bedeutung für sicheres autonomes Fahren, da sie es Fahrzeugen ermöglicht, zukünftige Szenendynamiken und -geometrien zu antizipieren. Das Training moderner State-of-the-Art-Modelle stützt sich jedoch stark auf vollständig überwachte Methoden (fully supervised methods), die massive und extrem teure, dichte 3D-Voxel-Annotationen erfordern.

Um diesen Datenengpass zu überwinden, verlagert sich die Spitzenforschung zunehmend hin zu selbstüberwachten (self-supervised) und schwach überwachten (weakly-supervised) Paradigmen, die vortrainierte 2D-Foundation-Modelle (z. B. DINOv2, CLIP oder SAM) nutzen. Durch die Ausrichtung (Alignment) dieser reichhaltigen Open-Vocabulary 2D-Semantikmerkmale an räumlichen 3D-/4D-Repräsentationen mithilfe fortschrittlicher Transformer-Architekturen ist es möglich, ein robustes räumlich-zeitliches Verständnis ohne dichte 3D-Ground-Truth-Daten zu erreichen.

Aufbauend auf diesen Durchbrüchen konzentriert sich diese Masterarbeit auf die Entwicklung eines Foundation-Model-basierten Frameworks für die visionsbasierte 4D-Belegungsvorhersage. Deine Aufgabe wird es sein, eine Architektur zu entwerfen, die reichhaltige Multi-View-Semantiken in eine 4D-Vorhersage-Pipeline destilliert und so die Lücke zwischen skalierbaren, rein kamerabasierten Eingaben und hochpräzisen (high-fidelity) Umgebungsvorhersagen schließt.

Bei herausragenden Ergebnissen unterstützen und fördern wir ausdrücklich eine Einreichung bei hochrangigen Fachkonferenzen (Top-Tier).

Diese Aufgaben interessieren Dich

  • Entwicklung eines Transformer-basierten Netzwerks zur Vorhersage der zukünftigen semantischen 4D-Belegung (4D Occupancy) aus sequenziellen Multi-View-Kameradaten mittels schwacher oder Selbstüberwachung (weak / self-supervision).
  • Aufbau und Training der PyTorch-Pipeline sowie Entwurf von Alignment-Mechanismen, um semantische Merkmale aus 2D-Foundation-Modellen in die räumlich-zeitliche 4D-Repräsentation zu destillieren.
  • Benchmarking gegen vollständig überwachte (fully-supervised) Baselines auf großen Datensätzen (z. B. nuScenes, OpenOccupancy) mit besonderem Fokus auf Vorhersagegenauigkeit (IoU), semantischer Präzision und Label-Effizienz.

Das zeichnet Dich aus

  • Du bist eingeschrieben in einem Masterstudium der Informatik, Künstlichen Intelligenz, Robotik oder eines vergleichbaren Studiengangs.
  • Du verfügst über sehr gute Programmierkenntnisse in Python sowie fundierte Erfahrung mit Deep-Learning-Frameworks (insbesondere PyTorch).
  • Du bringst fundiertes Hintergrundwissen im Bereich 3D Computer Vision mit. Praktische Erfahrung mit semantischer Segmentierung, Occupancy Networks oder 3D Gaussian Splatting ist von großem Vorteil.
  • Du besitzt Kenntnisse über Vision Transformers (ViT), Foundation Models (DINO, CLIP) sowie Paradigmen des selbst- bzw. schwach überwachten Lernens (Self-/Weakly-Supervised Learning).
  • Du hast eine selbstständige und lösungsorientierte Arbeitsweise, hohe Motivation sowie sehr gute Englisch- und Deutschkenntnisse (C1-Niveau) für eine klare Kommunikation im Team und mit unseren Partnern.

Deine Ansprechpartnerin

Daniela
+49 821 885882-0

work@xitaso.com