Masterand (all genders) - Semantic 4D Occupancy Forecasting

Karlsruhe, Augsburg, Berlin, Erlangen, Ingolstadt, Krumbach, Leipzig...

Voll- oder Teilzeit

Praktikum/Werkstudium

Kurzbeschreibung

Die semantische 4D-Belegungsvorhersage (Semantic 4D Occupancy Forecasting) ist von entscheidender Bedeutung für sicheres autonomes Fahren, da sie es Fahrzeugen ermöglicht, zukünftige Szenendynamiken und -geometrien zu antizipieren. Das Training moderner State-of-the-Art-Modelle stützt sich jedoch stark auf vollständig überwachte Methoden (fully supervised methods), die massive und extrem teure, dichte 3D-Voxel-Annotationen erfordern.

Um diesen Datenengpass zu überwinden, verlagert sich die Spitzenforschung zunehmend hin zu selbstüberwachten (self-supervised) und schwach überwachten (weakly-supervised) Paradigmen, die vortrainierte 2D-Foundation-Modelle (z. B. DINOv2, CLIP oder SAM) nutzen. Durch die Ausrichtung (Alignment) dieser reichhaltigen Open-Vocabulary 2D-Semantikmerkmale an räumlichen 3D-/4D-Repräsentationen mithilfe fortschrittlicher Transformer-Architekturen ist es möglich, ein robustes räumlich-zeitliches Verständnis ohne dichte 3D-Ground-Truth-Daten zu erreichen.

Aufbauend auf diesen Durchbrüchen konzentriert sich diese Masterarbeit auf die Entwicklung eines Foundation-Model-basierten Frameworks für die visionsbasierte 4D-Belegungsvorhersage. Deine Aufgabe wird es sein, eine Architektur zu entwerfen, die reichhaltige Multi-View-Semantiken in eine 4D-Vorhersage-Pipeline destilliert und so die Lücke zwischen skalierbaren, rein kamerabasierten Eingaben und hochpräzisen (high-fidelity) Umgebungsvorhersagen schließt.

Bei herausragenden Ergebnissen unterstützen und fördern wir ausdrücklich eine Einreichung bei hochrangigen Fachkonferenzen (Top-Tier).

Diese Aufgaben interessieren Dich

Entwicklung eines Transformer-basierten Netzwerks zur Vorhersage der zukünftigen semantischen 4D-Belegung (4D Occupancy) aus sequenziellen Multi-View-Kameradaten mittels schwacher oder Selbstüberwachung (weak / self-supervision).
Aufbau und Training der PyTorch-Pipeline sowie Entwurf von Alignment-Mechanismen, um semantische Merkmale aus 2D-Foundation-Modellen in die räumlich-zeitliche 4D-Repräsentation zu destillieren.
Benchmarking gegen vollständig überwachte (fully-supervised) Baselines auf großen Datensätzen (z. B. nuScenes, OpenOccupancy) mit besonderem Fokus auf Vorhersagegenauigkeit (IoU), semantischer Präzision und Label-Effizienz.

Das zeichnet Dich aus

Du bist eingeschrieben in einem Masterstudium der Informatik, Künstlichen Intelligenz, Robotik oder eines vergleichbaren Studiengangs.
Du verfügst über sehr gute Programmierkenntnisse in Python sowie fundierte Erfahrung mit Deep-Learning-Frameworks (insbesondere PyTorch).
Du bringst fundiertes Hintergrundwissen im Bereich 3D Computer Vision mit. Praktische Erfahrung mit semantischer Segmentierung, Occupancy Networks oder 3D Gaussian Splatting ist von großem Vorteil.
Du besitzt Kenntnisse über Vision Transformers (ViT), Foundation Models (DINO, CLIP) sowie Paradigmen des selbst- bzw. schwach überwachten Lernens (Self-/Weakly-Supervised Learning).
Du hast eine selbstständige und lösungsorientierte Arbeitsweise, hohe Motivation sowie sehr gute Englisch- und Deutschkenntnisse (C1-Niveau) für eine klare Kommunikation im Team und mit unseren Partnern.

Deine Ansprechpartnerin

Daniela
+49 821 885882-0
work@xitaso.com